等待第三代搜索引擎

来源:百度文库 编辑:神马文学网 时间:2024/03/29 22:17:41
赵廷超 |电子商务世界 | 出处:原创-IT| 2005年08月17日 10:58 | 阅读 1128 次

等待第三代搜索引擎
《电子商务世界》杂志  本刊记者 胡坤
对搜索引擎企业来说,7年的时间也许并不长,并不足以让他们完成从第二代到第三代的蜕变,但对互联网用户来说,7年太漫长了。
麦克·莫里兹只投资过两个公司,但就是这两个公司为他带来了巨大的财富和声誉,使他成为史上最伟大的投资者之一,因为这两个公司是雅虎和Google——两代互联网的神话,也是两代搜索引擎的代表。当投资雅虎成功后,他曾说:“互联网是一个年轻的产业,这里面有无数的机会,我在等待下一个雅虎!”。一年前,当他投资的Google上市后,他依然说:“互联网还是一个年轻的产业,这里面还有无数的机会,我在等待下一个Google!”
麦克·莫里兹在等待,等待下一个将会给他带来滚滚财源的摇钱树;记者也在等待,等待见证下一个互联网神话;无数的网民也在等待,他们等待的是一种能够真正满足他们需要的、新的搜索引擎,我们将它称为第三代搜索引擎。
7年之痒
作为互联网门户的开山鼻祖,雅虎一直被许多人顶礼膜拜,它至今仍是全球最有影响力的互联网公司之一。但10年前,当杨致远和他的同伴首次把雅虎带到世人面前时,它还只是一个简单、甚至有些笨拙的搜索引擎,但这没有影响当时的人们把它奉为至宝,并把它当作第一代搜索引擎的象征。在中国,搜狐也是靠做目录分类搜索起家,也同样获得了万众的睹目。
当1998年Google粉墨登场的时候,所有人都眼前一亮。如果说雅虎的出现在搜索的历史上具有开创性意义的话,那么Google的出现则具有革命性的意义。它用机器人程序自动抓取资料取代了以往的人工分类方式,使查询更加快捷 ;用户获得的不再是一个个网站地址,而是海量的网页信息。
2002年10月9日,雅虎放弃了自己的网站目录搜索,改为默认Google的搜索结果,这标志着第二代搜索引擎正式取代了第一代搜索引擎(2004年,雅虎结束了同Google的合作,推出了自己新的第二代搜索引擎,重新进入搜索市场)。在中国市场上,横空出世的百度同样在搜索市场上取代了新浪、搜狐,成为中国第二代搜索引擎的代表。
从1998年到现在,7年过去了。在这7年里,Google从小到大到上市到现在成为互联网行业的领头羊。7年里,全球互联网用户已经从1亿增加到了10亿。7年里,互联网企业经历了“烧钱”时代的“辉煌”、泡沫破灭时候的“落寞”以及现在的浴火重生。7年里,这个世界天翻地覆,但搜索引擎却没有根本性地进化,始终停留在第二代的窠臼里。
当然,这7年里,搜索引擎也有很多变化,比如不再是单一的网页搜索,还出现了新闻搜索、图片搜索、MP3搜索、本地搜索、地图搜索等等,另外搜索的速度更快,抓取的网页更多等等。但在技术上,目前的搜索引擎并没有根本性的突破,用户的搜索体验并没有根本性的改变。
7年前,我们在一个搜索引擎的输入框里输入一个关键词,点击搜索,我们得到了成千上万的搜索结果,我们欣喜雀舞;今天,我们同样在一个搜索引擎的输入框里输入一个关键词,点击搜索,我们更快地得到了更多的搜索结果,但我们却愁眉不展,因为我们终于认识到:搜索结果的多少并不重要。不管我们搜索的结果有1千万条还是1亿条,很多时候我们所需要的只是其中一条。问题是,我们不知道这一条在哪里,我们无法在这千万条中找到我们所需要的那一条。7年前如此,如今依然如此。
对搜索引擎企业来说,7年的时间也许并不长,并不足以让他们完成从第二代到第三代的蜕变,但对互联网用户来说,7年太漫长了,我们早就已经迫不及待地等待着第三代搜索引擎的来临了。
第三代搜索引擎的“模样”
第一代和第二代搜索引擎都有自己的核心技术,第一代是人工分目录检索,第二代是机器程序抓取网页和计算机算法,由此类推,第三代搜索引擎也必然会有自己的核心技术。“第三代搜索引擎技术是什么?”记者以为这对搜索领域里的专家而言是一个非常简单的问题,事实证明记者错得很厉害。
“互联网的搜索技术正在演变之中。”刚刚上任的一搜总经理李锐对记者说。在他看来,目前的搜索引擎正处在从第二代向第三代“渐变”的过程之中,是一个“量”的积累。在目前的这个阶段,很多公司都在进行一些尝试,很难分清哪些技术是第二代的,哪些是第三代的。新浪副总经理程炳皓同意这一点,但他同时还指出:“我们是先承认雅虎和Google的王者地位,然后才承认它们所代表的第一代和第二代搜索引擎技术的。”言下之意:只要新的王者诞生,它所代表的互联网搜索技术就会自然被奉为第三代搜索引擎技术。中国搜索总裁陈沛对此有不同的看法:“互联网的搜索技术从根本上只有两种,那就是分目录搜索和关键词网页搜索,未来的第三代搜索引擎只能是这两种的融合。”然而,陈沛的这一观点受到了许多人的抨击,被认为过于草率。“如果说搜索技术只有这两种,第三代就是这两者的融合,那第四代呢?是不是说第三代就已经是搜索技术的尽头了?”一位专家这样质疑道。
专家们在“第三代搜索引擎技术是什么?”上各执一词,也使得记者一头雾水(也许现在谈这个问题真的为时过早),但也并非一无所获,至少在他们对第三代搜索引擎的一些描述中都有一些共性的特征。通过这些特征,我们也许能对未来的第三代搜索引擎了解一二,就像我们无法了解一位初识者的性格、为人,但我们起码可以描述出他(她)看起来的模样。我们认为,第三代搜索引擎应该具有以下三个“模样”特征:智能化、个性化和社区化。
智能化:目前的搜索引擎能够给人们提供海量的搜索结果,一次搜索往往会有成百上千页的结果,实践表明,很少有人会看10页以后的搜索结果。未来的搜索引擎必须要引入人工智能技术,尝试去理解用户的查询意图,并优先显示用户需要的结果。目前比较可行的智能化技术除了智能纠错外,还有分类和联想等。
个性化:每个人的搜索习惯和需求都不一样,但目前的搜索引擎却无法考虑到这一点。对于同一个关键词,一个搜索引擎给予所有用户的搜索结果都是一模一样的。未来的搜索引擎必须要考虑到用户的个性化需求,不仅要给出符合不同用户需求的不同结果,连搜索结果的界面都应该有所区别。
社区化:未来搜索引擎本身就是一个社交网络,通过用户的互动交流,我们可以更快、更方便地获取信息。另外,每个人的搜索结果都可以存储并能和其他人分享。
谁是第三代搜索引擎
2004年8月,搜狐正式推出新的专业搜索网站“搜狗”(www.sogou.com),并声称这是“全球首个第三代中文互动式搜索引擎”。整整一年的时间过去了,如今可以肯定的只有一件事,那就是搜狐是第一个“敢”称自己的搜索引擎是第三代的厂商,至于“搜狗”本身,恐怕没有多少人还相信它是名副其实的第三代搜索引擎。
其实,“搜狗”的所谓“互动式搜索提示”是一种典型的搜索结果细分技术,的确具有一些第三代搜索引擎的智能化特征。例如:用户输入“绿茶”一词,搜索引擎会快速将绿茶可能出现的主题进行分类,给出例如茶文化、健康知识、电影介绍、化妆品等等主题提示,用户点击自己所需的类别就可以轻松找到答案。但仅仅根据这一点就得出“搜狗”是第三代搜索引擎的结论,恐怕有些牵强。另外,“搜狗”并不是第一个应用互动式搜索技术的搜索引擎。早在2003年8月,当时还是“慧聪搜索”的中国搜索就已经具有了类似智能化分类搜索(智能导航)的功能。在接受记者采访时,陈沛明确表示:中搜的“网络猪”才是真正的“第三代搜索引擎”。
事实上,在记者看来,“网络猪”的确比“搜狗”具有更多的第三代搜索引擎特征,比如个性化的个人主页和基于RSS技术的定制功能。但在竞争对手们看来,“网络猪”是一大堆应用的大杂烩,就搜索引擎而言,是一个边缘化的产品。客观而言,“网络猪”的确同现有的主流搜索引擎格格不入。但从另外一种角度来说,也许正是因为它不同于第二代主流搜索引擎,所以它更具有成为第三代搜索引擎的潜质。陈沛预计,与“网络猪”类似的产品将会陆续出现并逐渐成为市场的主流。他还毫不客气地表示,“网络猪”们将会成为各搜索门户乃至传统互联网门户的终结杀手。
与陈沛的“咄咄逼人”相比,程炳皓就显得极为内敛和谦虚。他说:“我们从来没有说过自己是第三代搜索引擎。” 是的,记者的确没有从新浪方面听到类似的话。但是,新浪在各种公开的资料中无数次地提到:新浪爱问突破了由Google、百度为代表的“关键字密度搜索算法”模式。而所谓的“关键字密度搜索算法”实际上就是机器抓取,算法排序的模式,这是第二代搜索引擎的关键技术。记者不知道突破了第二代搜索引擎技术的搜索引擎不是第三代是什么!
实际上,新浪不必过于谦逊。新浪的知识搜索的确具有典型的第三代搜索引擎的“社区化”特征,几乎所有人也都认为新浪爱问正在做一个非常有意义的尝试,也必将成为未来的趋势,这一点从百度亦步亦趋地推出类似的“百度知道”就可看出。
在中国市场上,百度靠打败雅虎和Google这两个“神话”而创造了自己的“神话”,但百度的成功一向都建立在模仿别人的基础之上。百度是中国搜索市场当之无愧的领导者,但在技术创新上,它甚至还不如中搜这样的公司,真正的搜索技术领导者还是Google和雅虎。Google正在建立自己的用户系统,目的就是收集、了解用户的使用习惯和需求,以为用户推出个性化的搜索服务。雅虎实验室也在研究第三代搜索引擎方面的技术。当然,要把这些技术引入中国,还需要一个本地化的过程。
仔细数来,中国已经有不少的搜索引擎具有了第三代的某些特征,第三代搜索引擎其实离我们并不遥远。也许有一天,代表第三代搜索引擎的王者将会在中国诞生。和记者有同样观点的相信还有摩根士丹利董事总经理玛丽·米克尔。在于今年的3月底来华密访了两家国内搜索公司后,她说:“我们正在寻找下一个Google,而我坚持认为它会出现在中国。”
只是,希望我们不要等待得太久!
小测验:谁更像第三代搜索引擎
本刊记者 胡坤
同学们,请安静!现在开始上课。
搜狗同学,请不要东张西望!什么?你在找网络猪?他今天不会来了,由他的哥哥中搜同学替他来上课。再说了,你一条狗老同一头猪在一起算怎么回事?
Google同学,怎么刚上课你就开始打瞌睡了?不要看别人,说得就是你!什么?I couldn’t catch you? 你是说你听不懂我的话吧?Google同学啊!一定要加强本土化呀!你看人家雅虎……对了,雅虎同学,请帮忙做一下翻译。什么?你是一搜?不好意思,又搞混了,你家兄弟也太多了!By the way! Google同学,你能不能取一个中文名字?每次我叫你的时候都觉得怪怪的。
好了,言归正传!今天我们要进行一场课堂测试。安静,请安静!今天的测试成绩不会计入年终总成绩,不会写入个人档案,不会通报家长。各位同学现在可以放心了吧!
今天这个测试的目的是想看看在座的哪一位更接近第三代搜索引擎。各位同学都知道,第三代搜索引擎的主要特征是智能化、个性化和社区化。但由于各位的水平有限,在个性化上几乎没有任何建树,所以这一项完全取消。智能化是我们测试的重点,有三项,分别是关键词纠错、关键词联想和分类导航。在社区化方面,我们考核的是社区的互动情况。另外,我们还有一项基本的准确性测试,共5项,每项2分,总分10分。
这次只测试网页和社区相关的搜索功能,不涉及图片搜索、MP3搜索等等。爱问同学,你有什么问题吗?是的,这次测试的重点是各位同学在智能化和社区化方面的能力,并不测试综合实力,因此不会计算所搜索的网页数量,爱问同学你就不用担心了。
第一项测试:准确性
规则:    输入关键词“电子商务世界”,在搜索结果中,如第一项是和本        杂志相关,加2分,如排列最前的正确结果为第2~10项,加        1.5分,为11~20项的加1分,为21~30项的加0.5分。
结果:    Google:第一条搜索结果即《电子商务世界》杂志网站,得2分。
百度:同样是第一条,得2分。
一搜:同样的结果排在了第二条,得1.5分。
中搜:同样的结果排在了第三条,不过还是得1.5分。
爱问:这一结果排在第一条,得2分。
搜狗:《电子商务世界》相关得结果出现在第7条,得1.5分。
第二项测试:关键词纠错
规则:    输入关键词“司法考释”,如果能正确给出纠错提示        “司法考试”的加2分,反之0分。
结果:
Google:没有纠错提示,0分。    百度:有纠错提示,2分。
一搜:有纠错提示,2分。    中搜:有纠错提示,2分。
爱问:有纠错提示,2分。    搜狗:没有纠错提示,0分。
第三项测试:关键词联想
规则:    输入关键词“电子商务世界”,在给出的相关搜索关键词中,和        电子商务相关的词汇有9条以上的加2分,6~8条加1.5分,
3~5条加1分,1~2条加0.5分,没有为0分。
结果:    Google:很遗憾,没有给出相关的搜索关键词,0分。
百度:相关的关键词有3条,加1分。
一搜:令人兴奋,电子商务相关的关键词竟达9条之多,加2分。
中搜:难以置信,所有的10条关键词都和电子商务相关。
爱问:只有3条相关关键词,加1分。
搜狗:令人抓狂的结果,给出的10个相关关键词中居然无一同         电子商务相关,更令人难以忍受的是,竟然还出现了“世
界顶 级色情”这样的词汇,0分。
第四项测试:分类导航
规则:    输入关键词“爱国者”,如果有相关分类导航加1分,反之0
分;如果根据导航能迅速查到“爱国者”MP3的相关信
息,再加1分。
结果:    Google:没有分类导航,0分。
百度:没有分类导航,0分。
一搜:没有分类导航,0分。
中搜:有分类导航,能迅速找到相关信息,加2分。
爱问:没有分类导航,0分。
搜狗:有分类导航,可以得到相应结果,2分。
第五项测试:社区互动
规则:输入关键词“怎样养花”或者“养花”(如果只承认“养
花”而不承认“怎样养花”,则扣0.5分),点击相关
的搜索,在结果中有相关的信息则得1分,信息量很
全得再0.5分,在第一页显示的还加0.5分。
结果:    Google:在“论坛”里有很多搜索结果,但无法在
第一页找到准确的信息,只能加1分。
百度:    在“贴吧”里输入“怎样养花”没有结果,但
输入“养花”能得到大量实用信息,加1.5分。
一搜:    在“部落”里输入“怎样养花”没有结果,输
入“养花”也只得到一条相关信息,加0.5分。
中搜:    在“论坛”里输入“怎样养花”没有结果,输
入“养花”后得到了众多结果,但在10条以
后才找到了一条相关的信息,加1分。
爱问 :    点击“知识”,输入“怎样养花”,立刻得到海
量的相关信息,2分。
搜狗:在“说吧”里没有任何结果,0分。
成绩汇总
准确性    关键词纠错    关键词联想    分类导航    社区互动    总分    名次
Google    2    0    0    0    1    3    6
百度    2    2    1    0    1.5    6.5    3
一搜    1.5    2    2    0    0.5    6    4
中搜    1.5    2    2    2    1    8.5    1
爱问    2    2    1    0    2    7    2
搜狗    1.5    0    0    2    0    3.5    5
好了,激动人心的时刻到了!大家请看最后的成绩汇总(见上图)!
现在我宣布,此次测试的第一名是中搜同学。啊!中搜同学,你竟然激动得哭了!什么?搜狗同学咬了你一口?搜狗同学,这就是你的不对了,我要批评你。你的行为太粗鲁、太不礼貌了,其实也大可不必嘛!目前大家都才刚刚冲出起跑线,相互间的差距并不大嘛!只要多动脑筋,刻苦学习,完全是可以后来居上的嘛!至于其他测试成绩比较好的同学,你们也不要骄傲。这次的成绩只能说明你们比较像第三代搜索引擎而已,要想成为真正的第三代搜索引擎,你们还有很长的一段路要走。
希望大家好好学习,天天向上!
好了,今天到此为止。下课!■

《电子商务世界》杂志
《电子商务世界》杂志 E-Business World
财富新知 网上淘金
第一本讲述如何利用电子商务来获取收益的全新财富经济类媒体。
定位于期望和已经应用电子商务手段来创造财富和善于接受新生事物并敢于尝试的企业经营者、中高层管理者和思想活跃勇于创新的新知者。
订阅热线:010-68994815 热线QQ:437485308
在线支付:http://www.ebworld.com.cn/ebyeepay/
网站:www.ebworld.com.cn
由电脑报与机械工业信息研究院联合主办,中国电子商务协会唯一指定会刊,机械工业出版社出品发行。
杂志内容全面关注与人们生活工作密不可分的电子商务应用,栏目包括:资讯、评论、封面故事、对话、淘金路(故事、创业、营销)、诚信、支付、企业、安全、硬件、人才、消费、生活等。生动的故事、详实深入的报道,让人们感受到电子商务带来的变革,带领人们走入电子商务时代,帮助人们利用电子商务来挖掘获取商机。
_xyz