谷歌排序的介绍

来源:百度文库 编辑:神马文学网 时间:2024/04/20 08:15:34
http://googlechinablog.com/2008/07/blog-post_21.html
2008年7月21日 下午 01:57:00
发表者: 谷歌首席工程师 Amit Singhal
今年 5 月,我们的副总裁乌迪?曼博曾撰博介绍谷歌搜索质量小组,这个组主要负责谷歌搜索结果的排序工作。尤迪介绍了这个“质量”小组的不同团队,包括核心排序团队、国际搜索团队、用户界面团队、网络作弊以及其他团队。在这篇文章中,我希望向你重点介绍他们其中的一员:负责核心排序的团队。
首先让我介绍我自己:我的名字是 Amit Singhal,谷歌首席工程师,负责谷歌的搜索排序团队。1990 年,作为计算机专业的毕业生,我开始了解搜索,至今在这一领域工作了 18 年。在学术界,搜索被称作是信息检索。我先是作为信息检索研究员工作了 10 年,2000 年,我进入谷歌,一直从事谷歌搜索排序工作到现在。
谷歌的搜索排序是一整套的算法,用于寻找相关程度最高的文档以满足每个用户查询需求。我们每天在海量的网络信息中用这套算法处理数亿次的查询,每一个用户的查询我们都会应用这套算法。我们的网页搜索是访问量最高也是最知名的搜索服务,这套算法也用在其他的谷歌搜索服务,包括图片搜索、资讯搜索、YouTube、谷歌地图、谷歌图书等等,在这些搜索中谷歌的排序算法有所修改。
关于谷歌排序,我最常听到的问题是:“你们怎么做搜索排序?”当然,我需要很多篇幅来介绍建立像谷歌一样的一个堪称艺术品的排序系统,我将在后续的文章中做更深入的阐述。现在,我很高兴与你分享谷歌搜索排序算法的哲学:
1、为全球用户提供相关性最强的本土搜索服务
2、简单易用
3、从不人为干预
关于第一点显而易见,因为我们对搜索服务的热情,我们绝对想确保每个用户查询都获得相关度最高的搜索结果。我们把这一点称作“不放过任何一个有瑕疵的查询” 原则。无论何时,无论是来自哪个国家的何种语言的查询,只要我们没有给出理想的搜索结果——尽管我们确信这种不完美在搜索中依旧存在,搜索才刚刚开始,我们都用这一原则激励我们改进服务。
第二点看起来也很明显。哪个系统架构师不希望他们的系统简单易用?不过,因为我们必须对多种语言的各种各样的查询做出回应,我们的搜索系统也随着查询服务的发展而变得越来越复杂。我们非常努力地保持系统的简单易用,同时保证搜索质量没有降低。这是一项长期的工作,但这一切值得我们去努力。我们每周做十次搜索排序算法的改进,简单易用是我们做每一次改进时重点考虑的事情。我们的工程师很清楚地了解针对一个既定查询一篇网页应该如何排序。这个简单易懂的系统可以让我们快速实现创新。“简单易用”的原则非常有效。
关于谷歌排序一个不可避免但总是有些被误导的话题就是“谷歌是否人为干预搜索结果?”请允许我用谷歌算法的第三点原则来回答:从不人为干预。我们认为,互联网是人类共同建立的。你们就是网页的创建者和链接者,我们用我们的算法将人类的贡献利用起来。搜索结果的最终排序应该取决于我们对互联网大社区的总体贡献的运算结果,而不是我们的人为干预的结果。我们相信,对于任何个人的主观判断只是一个主观结果,而通过我们的算法,将充满着庞大的人类智慧的网页和链接提炼出来,其结果优于任何人为的主观判断。
我们反对人为调整搜索结果的第二个理由,就是我们认为,一次失败的查询意味着我们的搜索排序算法的一次改进。而算法的改进将不仅仅提高一次查询的服务质量,它可以提高类似查询的整体搜索服务质量,而且通常是对多种语言搜索服务质量的提高。不过,我还要补充一点,谷歌对于所推荐的网页有明确规定,如果出现违反我们的规定的网站,例如非法、儿童色情、病毒或恶意软件等等,我们将采取行动。
请继续关注我的下一篇文章,我将详细讲解我们的搜索排序技术,并且举出排序技术的几个实例。让我用一句话总结这个博客:我们对于搜索的热情比以往更为强烈。作为一个搜索研究员,我拥有这个世界上最好的工作:-)