深入了解搜索引擎原理第一课

来源:百度文库 编辑:神马文学网 时间:2024/03/29 16:09:05
搜索引擎基础
何为搜索引擎?搜索引擎(国外的代表google,国内的代表百度),利用程序在互联网上抓取网站信息,把抓取回来的信息进行分类整理,供访问搜索引擎的互联网用户搜索和关键词相匹配的信息。
比如:您想买一款手机,您可以直接在搜索引擎中输入关键词(诺基亚),在0.1秒之内,搜索引擎会返回出售诺基亚的网站列表,这个网站列表是经过搜索引擎严格筛选得出的结果。搜索引擎在给这个关键词(诺基亚)进行网站排名时,会采用自己一套算法,这套算法也是这些搜索引擎公司的绝密文件。
搜索引擎如何抓去信息
搜索引擎初期,由于互联网信息并不是很多,所以许多搜索引擎收录信息完全依靠人力,许多编辑,每天不停的访问互联网的各个网站,把自己认为比较好的网站进行收录。但是随着互联网时代的到来,互联网网站爆炸式增长,人工收录网站信息已经是完全不可能,所以这些搜索引擎就编写了抓去互联网信息的程序,就叫搜索引擎爬虫,机器人,或者蜘蛛。
下面笔者以世界著名的google搜索引擎为例,来说一说爬虫是怎么代替人工收集整理网站信息的(大部分搜索引擎都是按照这种方法来收集信息的)。
更新爬虫
Google搜索引擎可以同时派出N多个爬虫,同时访问互联网,如果发现新的信息就会放到自己所带的数据库中,我们把这种爬虫称之为“更新爬虫”。更新爬虫能够根据互联网上的URL地址,不停的以“光速”爬行,一旦自己所带的数据库装不下更多的信息时,它们会返回谷歌所提供的单独数据库,把自己所带的信息扔在里面,然后又出来接着收集信息。
由于更新爬虫自身所带的仓库容量有限(google更新爬虫应该是100KB容量),所以许多seo建议在制作网站时,每一个页面控制在100KB以内。如果网页大小超过了100KB,剩余的网页信息,更新爬虫是无法一次性带走的。
对于没有被google主索引收录的页面,由于更新爬虫是和google主索引一起提供搜索结果的,所以您会看见自己的网站信息很快出现在搜索结果中,又很快的消失,直到一段时间后又在google主索引中出现。
对于已经被google主索引收的页面,刷新爬虫取得这个页面的更新后,关于该页面的更新会出现在搜索结果中,但是过几天该页面的更新会退回到没有更新之前,直到深度爬虫进行深度爬行之后,更新的页面就会完全被显示出来。
深度爬虫
深度爬虫的主要任务是访问google主索引中已经存在的网站,进行整体的服务器更新,目前google深度爬虫几乎可以每天更新一次,所以如果不注意观察是根本察觉不到的。但是百度深度爬虫的时间就要长一点,大概是一周进行深度爬行一次,所以许多做百度的seo,都盼望百度深度爬行,因为百度深度爬行,就意味着,自己的上一周的工作将被百度肯定。
今日回顾
更新爬虫每天都在互联网上忙碌,力求收集更多更新的网站信息,在收集信息时,由于更新爬虫自身所带的数据存储量的限制,所以更新爬虫不能完全带走超过自身数据限制的网页内容,这也是许多seo为什么要把网页压缩到最小的原因。
深度爬虫访问搜索引擎主索引之后,就意味着,网站关键词排名的大调整,只有经过深度爬虫更新后的搜索结果才能算是基本稳定的搜索结果。