Wiki is flat

来源:百度文库 编辑:神马文学网 时间:2024/04/28 08:34:10

Wiki is flat


维基百科数据 - Charts - 汉语
Originally uploaded by
Che Dong. 最近很热门的一本书:
其中很一章提到了搜索引擎:你和任何一个网站之间的距离缩短到一个(组)关键词。感受最深的是:在互联网中wiki/blog无疑是最平坦的两块自留地。从blog/wiki的设计中也可以看到CMS设计面向搜索引擎抓取优化的2个要点:
1 蜘蛛遍历的速度:帮助搜索引擎快速遍历整个网站,而又不在个别页面中集中太多的链接。
2 内容的稳定性:承诺一个稳定的内容映射,不会在搜索过来使实际内容已经面目全非;

简单比较一下传统的BBS和Blog Wiki之间的发布模式:

论坛:滚动的索引/列表页,当论坛内容很多的时候,当论坛中的内容较多以后,遍历完一个论坛往往需要蜘蛛从入口抓取5层以上。
- web - ?Forum=1 - ?post=1|- ?post=2|- ?post=5- ?Forum=2 - ?post=4|- ?post=22|- ?post=8

Blog的发布模式的优点:主题的permalink + 按时间归档 + 按分类归档
- index - post10.html|- post9.html|- monthly_archive  - post8.html|- post7.html|- category_archive - post8.html|- post2.html
由于个人内容发布量较少,在百级或者千级,蜘蛛经过3层遍历基本上能够遍历完整个网站。而blog之间的相互引用非常丰富。和论坛的发布结构非常像的有邮件列表归档。邮件列表归档也有按时间归档的机制,并且使用permalink,

WIKI完全扁平的发布格式,内容之间链接/引用丰富。
|- topic1 -> topic2-> topic3|- topic2 -> topic3|- topic3 -> topic2-> topic1

在很多发布系统提供了RSS/XML接口以后: 达到同样的同步速度,RSS帮助蜘蛛节省了数倍刷新首页/归档索引页的过程。
rss.xml  - post10.html|- post9.html|- post8.html

由于wiki和blog在搜索引擎中获得巨大的影响力,也促使在这2个平台上汇聚了写作质量很高的一群人创作更多的内容。以下是wikipedia.cnblog.org这半年来的镜像统计数据做一些分析:

数字截至2005年底:原始数据
WikiPedia上编辑超过10篇的用户共2118人。目前WikiPedia上中文条目共5万多,每条长度平均在2.6k,其中长度在2k以上条目占11%。
内部链接是1M个,链接到其他语言的条目的个数是37万个,链接到外面网站的个数是46k个。

内部的链接密度:
平均每个条目和其他条目之间的链接个数
100万/5万=20个。

由于内部内容之间良好的引用和链接设计,搜索引擎的蜘蛛能在4层之内遍历到的网站的内容:20^4 = 16万

而后台的统计上可以看到:各个引擎的抓取都非常频繁和深入
搜索引擎网站的机器人 (前 10) - 全部列出 - 最近参观日期
Googlebot 89303+15 296.35 M字节 2006年 三月 04日 23:54
BaiDuSpider 51499+3 1.10 G字节 2006年 三月 04日 16:24
Yahoo Slurp 13122+705 97.86 M字节 2006年 三月 04日 23:59
MSNBot 12434+85 244.40 M字节 2006年 三月 04日 23:57

中文网的每天PV为15万,独立用户1.5万左右。外部来源几乎完全来自搜索引擎,而包含英文网站在内的wikipedia.org已经成为全球第22位的 http://www.alexa.com/data/details/traffic_details?q=&url=wikipedia.org

从日志统计来看:
http://blog.cnblog.org/cgi-bin/awstats/awstats.pl?config=wikipedia
wikipedia被搜索引擎搜索到的有千个关键词,每天的访问量在10万PV/1万人次左右。

用以搜索的短语 (前 10)
13747 个不同的关键字句 搜索 百分比
繁体字 2121 5.8 %
少年阿宾 1242 3.4 %
色情电影 1076 2.9 %
维基百科 483 1.3 %
维基 259 0.7 %
阴毛 187 0.5 %
海伦.凯勒 162 0.4 %
海伦 凯勒 156 0.4 %
美少女战士 152 0.4 %
奇幻小说 139 0.3 %

其他短语 30041 83.4 %

关键词的分布较广泛:top 10关键词流量占总体来源关键词不到20%。