搜索引擎

来源:百度文库 编辑:神马文学网 时间:2024/04/24 13:52:45

所属分类: it技术 信息 分类方式 搜索引擎 文化 计算机科学基础理论 通信技术

摘要:

搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。目前世界上最大的搜索引擎公司为谷歌。

提问 编辑摘要
目录 [隐藏]
  • 1 工作原理
  • 2 发展历史
  • 3 商业模式
  • 4 技术分类
  • 5 代表产品
  • 6 搜索技巧
  • 7 搜索引擎优化
  • 8 搜索引擎公司大事记

搜索引擎 工作原理

        使用“互动百科”作为关键字搜索返回的结果

抓取网页
每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

处理网页 搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。

提供检索服务用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

搜索引擎 发展历史

       

所有搜索引擎的祖先,是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。 由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。[1]

世界上第一个Spider程序
(网页抓取程序) 是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL) 。

1994年4月,斯坦福大学(Stanford University)的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。雅虎于2002年12月23日收购inktomi,2003年7月14日收购包括Fast和Altavista在内的Overture,2003年11月,Yahoo全资收购3721公司。  

1994年初,华盛顿大学(University of Washington )的学生Brian Pinkerton开始了他的小项目WebCrawler。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。 

1994年7月,卡内基·梅隆大学(Carnegie Mellon University) 的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。 

1994年底,Infoseek正式亮相。其友善的界面,大量的附加功能,使之和Lycos一样成为搜索引擎的重要代表。 

1995年,一种新的搜索引擎形式出现了——元搜索引擎(A Meta Search Engine Roundup)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理,提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是华盛顿大学硕生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。 

1995年12月,DEC的正式发布AltaVista。AltaVista是第一个支持自然语言搜索的搜索引擎,第一个实现高级搜索语法的搜索引擎(如AND、 OR、 NOT等)。用户可以用AltaVista搜索新闻组(Newsgroups)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。在面向用户的界面上,

谷歌搜索页

AltaVista也作了大量革新。它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。这系列功能,逐渐被其它搜索引擎广泛采用。1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。

1995年9月26日,加州大学伯克利分校助教Eric Brewer、博士生Paul Gauthier创立了Inktomi,1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。 

1997年8月,Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有Stop Words,它有出色的Current News、7100多出版物组成的Special Collection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。 

1998年10月之前,Google只是斯坦福大学(Stanford University)的一个小项目BackRub。1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。Google以网页级别(Pagerank)为基础,判断网页的重要性,使得搜索结果的相关性大大增强。Google公司的奇客(Geek)文化氛围、不作恶(Don't be evil)的理念,为Google赢得了极高的口碑和品牌美誉。2006年4月,Google宣布其中文名称“谷歌”,这是Google第一个在非英语国家起的名字。

Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品。1999年5月,发布了自己的搜索引擎AllTheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。Fast(Alltheweb)的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP

搜索,拥有极其强大的高级搜索功能。(2003年2月25日,Fast的互联网搜索部门被Overture收购)。

1996年8月,sohu公司成立,制作中文网站分类目录,曾有“出门找地图,上网找搜狐”的美誉。随着互联网网站的急剧增加,这种人工编辑的分类目录已经不适应。sohu于2004年8月独立域名的搜索网站“搜狗”,自称“第三代搜索引擎”。 

Openfind 创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域。

百度创始人李彦宏

2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。Baidu搜索引擎的其它特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快。后推出贴吧、知道、地图、国学、百科、文档、视频、博客等一系列产品,深受网民欢迎。2005年8月5日在纳斯达克上市,发行价为USD 27.00,代号为BIDU。开盘价USD 66.00,以USD 122.54收盘,涨幅353.85%,创下了5年以来美国股市上市新股当日涨幅最高纪录。

2003年12月23日,原慧聪搜索正式独立运做,成立了中国搜索。2004年2月,中国搜索发布桌面搜索引擎网络猪1.0,2006年3月中搜将网络猪更名为IG(Internet Gateway) 。

2005年6月,新浪正式推出自主研发的搜索引擎“爱问”。2007年起,新浪爱问使用google搜索引擎。

2007年7月1日,网易全面采用自主研发的有道搜索技术,并且合并了原来的综合搜索和网页搜索。有道网页搜索、图片搜索和博客搜索为网易搜索提供服务。其中网页搜索使用了其自主研发的自然语言处理、分布式存储及计算技术;图片搜索首创根据拍摄相机品牌、型号,甚至季节等高级搜索功能;博客搜索相比同类产品具有抓取全面、更新及时的优势,提供“文章预览”,“博客档案”等创新功能。

搜索引擎 商业模式

        百度搜索

在搜索引擎发展早期,多是作为技术提供商为其他网站提供搜索服务,网站付钱给搜索引擎。后来,随着2001年互联网泡沫的破灭,大多转向为

竞价排名方式。

现在搜索引擎的主流商务模式(百度的竞价排名、Google的AdWords)都是在搜索结果页面放置广告,通过用户的点击向广告主收费。这种模式最早是比尔·格罗斯(Bill Gross)提出的。他于1998年6月创立GoTo公司(后于2001年9月更名为Overture),实施这种模式,取得了很大的成功,并且申请了专利。这种模式有两个特点,一是点击付费(Pay Per Click),用户不点击则广告主不用付费。二是竞价排序,根据广告主的付费多少排列结果。 2001年10月,Google推出AdWords,也采用点击付费和竞价的方式。2002年,Overture起诉Google侵犯了其专利。2004年8月,和Yahoo!(Yahoo!于2003年7月收购Overture)达成和解,向后者支付了270万普通股(合3亿美元不到)作为和解费。

AdSense是Google于2003年推出的一种新的广告方式。AdSense使各种规模的的第三方网页发布者进入Google庞大的广告商网络。Google在这些第三方网页放置跟网页内容相关的广告,当浏览者点击这些广告时,网页发布者能获得收入。AdSense在blogger中很受欢迎。同时,Google武断地删除一些帐号,引起部分人的不满。类似的广告方式,其他搜索引擎也先后推出。雅虎的广告方式是YPN(Yahoo Publisher Network),YPN 除了可以在网页上显示与内容相关的广告以外,还可以通过在 RSS 订阅中来显示广告。微软的广告计划叫AdCenter。百度也推出主题推广。

搜索引擎 技术分类

        全文索引 全文搜索引擎是名副其实的搜索引擎,国外代表有Google,中国国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。

目录索引目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。

元搜索引擎元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。

搜索引擎 代表产品

       

国外英文目录索引

Yahoo — 最著名的目录索引,搜索引擎开山鼻祖之一。Dmoz.com/ODP — 由义务编辑维护的目录索引搜索引擎。Ask Jeeves — 著名的自然语言搜索引擎,2002年初收购Teoma全文搜索引擎。LookSmart — 点击付费索引目录,2002年收购WiseNut全文搜索引擎。About.com — 有其自身特色的目录索引。

国外英文搜索引擎
Google— 以搜索精度高、速度快成为最受欢迎的搜索引擎,是目前搜索界的领军人物。Fast/AllTheWeb — 总部位于挪威的搜索引擎后起之秀,风头直逼google。AltaVista — 曾经的搜索引擎巨人,目前仍被认为是最好的搜索引擎之一。Overture — 最著名的搜索引擎广告商,竞价排名的始作俑者,也是全文搜索引擎。Lycos — 发源于西班牙的搜索引擎,网络遍布世界各地。HotBot — 隶属于Lycos Networks,搜索结果来自其他搜索引擎及目录索引。

中国国内目录索引
百度

搜狐(Sohu)— 国内三大门户之一,最早在国内推出搜索引擎收费登录服务。新浪(Sina)— 最大的中文门户网站,同样也推出了搜索引擎收费索引项目。

中国内(中文)搜索引擎
1. 百度(baidu.com)→国内唯一商业化的全文中文搜索引擎,提供搜狐、新浪、Tom等站点网页搜索服务。口号:有问题百度一下。

中搜

2. 中搜(zhongsou.com)→ 2004年中搜进入个人门户,2006年推出个人门户IG(Internet Gateway),完成了互联网从传统搜索引擎到个人门户的跨越,中搜一举从搜索引擎的推动者转变为个人门户领导者。

3. 中国雅虎(yahoo.cn)→ 1999年9月,中国雅虎网站开通。2005年8月,中国雅虎由阿里巴巴集团全资收购。


4. 谷歌中国(google.cn)→谷歌旗下(中文)搜索网站。

有道

5. 搜搜(soso.com)→腾讯旗下搜索网站6. 奇虎(qihoo.com)→答案最全的网站、口号 有问题找奇虎

7. 狗狗(gougou.com)→Gougou搜索是迅雷公司提供的信息索引服务。

8. 有道(youdao.com)→网易旗下搜索网站。

必应

9. 必应(bing.com)→微软在中国旗下的中文搜索网站。

10. 搜狗(sogou.com)→搜狗是搜狐公司于2004年8月3日推出的全球首个第三代互动式中文搜索引擎。搜狗以搜索技术为核心,致力于中文互联网信息的深度挖掘,帮助中国上亿网民加快信息获取速度,为用户创造价值。超强互联网词库、组词算法、高级功能都是搜狗的特色。搜狗的产品线包括了网页应用和桌面应用两大部分。

11.115聚合搜索(115.com) →雨林木风(YLMF)旗下一个聚合百度和谷歌搜索结果的搜索引擎。

搜索引擎 搜索技巧

       

在类别中搜索

关键词越多结果越少也越准确

许多搜索引擎(如Yahoo)都显示类别,如计算机和Internet、商业和经济。如果使用者单击其中一个类别,然后再使用搜索引擎,使用者将可以选择搜索整个Internet还是搜索当前类别。显然,在一个特定类别下进行搜索所耗费的时间较少,而且能够避免大量无关的Web站点。

使用具体的关键字如果想要搜索以鸟为主题的Web站点,使用者可以在搜索引擎中输入关键字“bird”。但是,搜索引擎会因此返回大量无关信息,如谈论羽毛球的“小鸟球(birdie)”或烹饪game birds不同方法的Web站点。为了避免这种问题的出现,请使用更为具体的关键字,如“ornithology”(鸟类学,动物学的一个分支)。使用者所提供的关键字越具体,搜索引擎返回无关Web站点的可能性就越小。

使用多个关键字

使用者还可以通过使用多个关键字来缩小搜索范围。例如,如果想要搜索有关佛罗里达州迈阿密市的信息,则输入两个关键字“Miami”和“Florida”。如果只输入其中一个关键字,搜索引擎就会返回诸如Miami Dolphins足球队或

使用布尔运算符搜索

Florida Marlins棒球队的无关信息。一般而言,使用者提供的关键字越多,搜索引擎返回的结果越精确。

使用布尔运算符许多搜索引擎都允许在搜索中使用两个不同的布尔运算符:AND和OR。如果使用者想搜索所有同时包含单词“hot”和“dog”的Web站点,只需要在搜索引擎中输入如下关键字:hot AND dog搜索将返回以热狗(hot dog)为主题的Web站点,但还会返回一些奇怪的结果,如谈论如何在一个热天(hot day)让一只狗(dog)凉快下来的Web站点。

如果想要搜索所有包含单词“hot”或单词“dog”的Web站点,使用者只需要输入下面的关键字:hot OR dog搜索会返回与这两个单词有关的Web站点,这些Web站点的主题可能是热狗(hot dog)、狗,也可能是不同的空调在热天(hot day)使使用者凉爽、辣酱(hot chilli sauces)或狗粮等。

留意搜索引擎返回的结果

布尔运算符使用2

搜索引擎返回的Web站点顺序可能会影响人们的访问,所以,为了增加Web站点的点击率,一些Web站点会付费给搜索引擎,以在相关Web站点列表中显示在靠前的位置。好的搜索引擎会鉴别Web站点的内容,并据此安排它们的顺序,但其他搜索引擎大概不会这么做。此外,因为搜索引擎经常对最为常用的关键字进行搜索,所以许多Web站点在自己的网页中隐藏了同一关键字的多个副本。这使得搜索引擎不再去查找Internet,以返回与关键字有关的更多信息。正如读报纸、听收音机或看电视新闻一样,请留意使用者所获得的信息的来源。搜索引擎能够帮使用者找到信息,但无法验证信息的可靠性。因为任何人都可以在网上发布信息。
搜索引擎的未来展望

随着互联网的发展,网上可以搜寻的网页变得愈来愈多,而网页内容的质素亦变得良莠不齐,没有保证。所以,未来的搜索引擎将会朝着知识型搜索引擎的方向发展,期以为搜寻者提供更准确及适用的资料。目前,网上的百科全书如雨后春笋般发展起来;另一方面,近年来亦有不少公司尝试在搜寻方面改进,务求更符合用户的要求。当中诸如Copernic Agent之类的搜寻代理就是其中之一。
在台湾,威知资讯(WebGenie)是利用文字探勘(Text Mining)技术发展搜寻引擎产品的公司,利用人工智能算法,可达成目前搜寻引擎所缺乏的简易人机互动模式,诸如关联字提示、动态分类字提示等[1],算是较另类的搜寻引擎产品。

搜索引擎 搜索引擎优化

        搜索引擎

第一,持续有规律的更新内容。
一个网站的生命在于更新。不更新的网站,跟一个死站没什么分别。一个不为用户着想的网站,永远也不要指望搜索引擎会光顾你。坚持持续有规律的更新内容。这是稳定排名的关键,所以放在了第一条。如果能做到每天更新,自然最好;如果做不到,没有关系,2天或3天更新一次,但是每次更新的时间不要差别太大。关键中的关键是坚持。要讨好搜索引擎,需要付出一定的代价。

第二,持续有规律的做高质量友情外链。
在PR值的众多相关因素中,高质量的外链可谓是排在首位。依常理,PR值高的网站所做的友情链接,其内容的信赖度也高。选择高PR网站是友情链接的首选,可以省掉很多检查链接的麻烦。因为google监测网站PR是非常及时的。除了PR,多看看收录量和百度快照。

第三,保证网站空间的稳定性。
由于网站的收录原理是在于搜索引擎的蜘蛛机器人来爬行,如果当蜘蛛来访问时,你的网站突然打不开了,或者打开速度非常慢,这会让蜘蛛吃闭门羹的。而且,还会影响今后的访问,更不用说收录了。所以,草原兄想告诉大家的是,保持网站访问速度的稳定与高速,有利于收录也有利于提高信任度。网站速度越快越好,这符合满足用户体验的原则。最起码要做到的是,不要down机。

第四,适度有规律的增加外部连接。
增加外部连接的方法很多,回帖,软文。其实关键一点还是要持续有规律,坚持最重要。

第五,增加除搜索引擎以外的流量来源。
这一点可能很多不理解。既然是稳定搜索排名,那就是主要做排名来流量。这第5点不就是跑题了吗?其实不是,这一点很重要。我们知道搜索的排名是波动的,如果某一次你的排名掉了,你的流量会迅速到波谷。如果没有其他的流量来源做补充,一方面站长收入有影响,另一方面我们需要搜索以外的流量来吸引搜索的再次青睐,这就相当于中药里面的药引。只要配合做好以上四点,就算排名暂时掉下去也会很快升上来。

搜索引擎 搜索引擎公司大事记

       

2002年12月24日,雅虎称公司同意以大约2.35亿美元的价格收购搜索软件公司Inktomi。

2003年1月18日,Google收购博客网站Blogger.com开发团队——网上出版软件开发商PyraLabs。

2003年2月19日,Overture服务公司表示,计划以1.4亿美元现金加股票从CMGI公司手中收购门户网站AtaVista。

2003年2月26日,Overture同意以1亿美元收购位于挪威的FastSearchandTransfer公司的网络搜索部门。

2003年4月15日,新浪与中国搜索联盟结成战略同盟,至此,中国已有数百家网站结成搜索联盟,以迎接国际巨头Google挺进国内市场后的巨大压力。

2003年4月21日,第二大互联网搜索引擎提供商AskJeeves公司宣布对其Ask.com网站进行升级。AskJeeves是仅次于Google的第二大搜索引擎,也是互联网上第五大搜索基地(Google、雅虎、微软、AOL、Askjeeves)。

2003年6月18日,微软公司表示其正在加大研发新型互联网搜索引擎技术的力度,包括对一款功能更先进的技术原型进行测试。

2003年7月12日,从加利福里亚传来消息,Google即将把总部从BayshoreParkway搬迁至半里之遥的一个有四栋楼房的复式结构建筑中去,而这个建筑是由鼎鼎大名但目前却陷入困境的硅谷图象(SiliconGraphics)公司腾出来的。大卫.奎恩(DavidKrane)证实了这个消息,并解释说,这样能让公司现有的800多员工更好的分工合作和管理。

2003年7月13日,百度推出图象搜索,新闻搜索两大搜索功能,以此来带动搜索流量。同时,辅以百度的搜索风云榜,使得百度的信息搜索及信息评估的作用更加突出

2003年7月15日,全球最大的互联网公司雅虎宣布,以16.3亿美元收购在网络搜索服务上的竞争对手—Overture公司,以期在同Google的竞争中取得优势。 [1]