Wiki is flat

来源:百度文库 编辑:神马文学网 时间:2024/04/30 00:38:40

维基百科数据 - Charts - 汉语
Originally uploaded byChe Dong.
最近很热门的一本书:
其中很一章提到了搜索引擎:你和任何一个网站之间的距离缩短到一个(组)关键词。感受最深的是:在互联网中wiki/blog无疑是最平坦的两块自留地。从blog/wiki的设计中也可以看到CMS设计面向搜索引擎抓取优化的2个要点:
1 蜘蛛遍历的速度:帮助搜索引擎快速遍历整个网站,而又不在个别页面中集中太多的链接。
2 内容的稳定性:承诺一个稳定的内容映射,不会在搜索过来使实际内容已经面目全非;
简单比较一下传统的BBS和Blog Wiki之间的发布模式:
论坛:滚动的索引/列表页,当论坛内容很多的时候,当论坛中的内容较多以后,遍历完一个论坛往往需要蜘蛛从入口抓取5层以上。
- web - ?Forum=1 - ?post=1|- ?post=2|- ?post=5- ?Forum=2 - ?post=4|- ?post=22|- ?post=8
Blog的发布模式的优点:主题的permalink + 按时间归档 + 按分类归档
- index - post10.html|- post9.html|- monthly_archive - post8.html|- post7.html|- category_archive - post8.html|- post2.html由于个人内容发布量较少,在百级或者千级,蜘蛛经过3层遍历基本上能够遍历完整个网站。而blog之间的相互引用非常丰富。和论坛的发布结构非常像的有邮件列表归档。邮件列表归档也有按时间归档的机制,并且使用permalink,
WIKI完全扁平的发布格式,内容之间链接/引用丰富。
|- topic1 -> topic2-> topic3|- topic2 -> topic3|- topic3 -> topic2-> topic1
在很多发布系统提供了RSS/XML接口以后: 达到同样的同步速度,RSS帮助蜘蛛节省了数倍刷新首页/归档索引页的过程。
rss.xml - post10.html|- post9.html|- post8.html
由于wiki和blog在搜索引擎中获得巨大的影响力,也促使在这2个平台上汇聚了写作质量很高的一群人创作更多的内容。以下是wikipedia.cnblog.org这半年来的镜像统计数据做一些分析:
数字截至2005年底:原始数据
WikiPedia上编辑超过10篇的用户共2118人。目前WikiPedia上中文条目共5万多,每条长度平均在2.6k,其中长度在2k以上条目占11%。
内部链接是1M个,链接到其他语言的条目的个数是37万个,链接到外面网站的个数是46k个。
内部的链接密度:
平均每个条目和其他条目之间的链接个数
100万/5万=20个。
由于内部内容之间良好的引用和链接设计,搜索引擎的蜘蛛能在4层之内遍历到的网站的内容:20^4 = 16万
而后台的统计上可以看到:各个引擎的抓取都非常频繁和深入
搜索引擎网站的机器人 (前 10) - 全部列出 - 最近参观日期
Googlebot 89303+15 296.35 M字节 2006年 三月 04日 23:54
BaiDuSpider 51499+3 1.10 G字节 2006年 三月 04日 16:24
Yahoo Slurp 13122+705 97.86 M字节 2006年 三月 04日 23:59
MSNBot 12434+85 244.40 M字节 2006年 三月 04日 23:57
中文网的每天PV为15万,独立用户1.5万左右。外部来源几乎完全来自搜索引擎,而包含英文网站在内的wikipedia.org已经成为全球第22位的http://www.alexa.com/data/details/traffic_details?q=&url=wikipedia.org
从日志统计来看:
http://blog.cnblog.org/cgi-bin/awstats/awstats.pl?config=wikipedia
wikipedia被搜索引擎搜索到的有千个关键词,每天的访问量在10万PV/1万人次左右。
用以搜索的短语 (前 10)
13747 个不同的关键字句 搜索 百分比
繁体字 2121 5.8 %
少年阿宾 1242 3.4 %
色情电影 1076 2.9 %
维基百科 483 1.3 %
维基 259 0.7 %
阴毛 187 0.5 %
海伦.凯勒 162 0.4 %
海伦 凯勒 156 0.4 %
美少女战士 152 0.4 %
奇幻小说 139 0.3 %
其他短语 30041 83.4 %
关键词的分布较广泛:top 10关键词流量占总体来源关键词不到20%。