我对百度技术的猜度

来源:百度文库 编辑:神马文学网 时间:2024/04/27 21:05:45
米晓彬 |互联网 | 出处:原创-IT| 2005年10月10日 14:34 | 阅读 467 次

我经常使用搜索引擎,但我最常使用的还是百度。用的久了对百度的搜索技术就有了些许猜测。
一、百度有最勤劳的网络抓取器。
在我使用的各种搜索引擎里,只有百度提供了“一天”和“一周”的搜索,所以我认为百度搜索互联网的频率要比任何其他的搜索引擎都要勤。
二、百度有很准确的汉字断字能力。我估计百度有丰富的词库,而且是可以不断宽展的词库,这个词库是个很大的数据库,不但记录着词汇组合而且包含频率等数据,在断字时,频率较高的在断字时是处于优先地位;我甚至认为,百度为断字专门设计了一个智能程序,其断字能力可以和人媲美。
三、百度对各种曾经用户输入的搜索请求都有记录,这些记录也组成一个庞大的数据库,他们搜索的频率也包含在其中,对于那些经常被搜索的词条,百度的网络抓取器会主动对这些词条进行互联网搜索,形成网页快照,方便服务器搜索。当你搜索过你自己的名字后,你会发现你的博客几乎每天都会被百度光顾。
因此,百度的高明在在搜索软件上,他们做出高效率的网络抓取器,具有高度智能的分析程序,因此百度的员工不必象门户那样聘用大量的编辑,而是靠机器去互联网抓取;用分析程序把结果呈现给用户,这些分析程序甚至能够把和搜索结果密切相关的广告也呈现给用户。这也许算的上信息生产中的机器生产吧!!
_xyz