搜索引擎——资本游戏的一场技术梦--上善若水

来源:百度文库 编辑:神马文学网 时间:2024/04/27 22:41:07
从微软耗资数百万美元,Yahoo接连收购三家厂商,到国内搜索引擎厂商的明争暗斗,无不是看重了搜索引擎潜藏的巨大商业价值。然而,资本的疯狂并不能掩盖技术的光芒。

  “越是看不见的技术,越显得深刻,因为它们已经完全融入了日常生活。”

  在北京人群川流不息的地铁通道中,一排海报格外引人瞩目,这便是刚刚在奥斯卡颁奖晚会上大出风头独得11项大奖的《指环王-王者无敌》的电影海报,仙风道骨的甘道夫和美丽的丽芙·泰勒令人不禁想走进那遥远的中世纪。海报上有很大面积用于企业宣传,8848公司的标识赫然展示其上。这是8848公司为了配合重新推出商务网站所做的宣传,其重头戏就是推出的“中文购物搜索引擎”。对此,有人说:“8848将手里握有的两千多万美金这个宝压在了搜索引擎上。”

  如此大手笔的并不只是8848,刚从软银等投资方获得了8200万美元的阿里巴巴也在不久前正式推出了传言已久的搜索产品,与新闻搜索和竞价排名搜索不同,阿里巴巴搜索的目标使用群不是普通网民,而是“网商”,主要发布商业信息和商业机会。阿里巴巴CTO吴炯表示,“我们第一次在搜索领域引进并确立了信用认证和保障体系。”

  不过,这些都是行业内的搜索领域,基于全网的搜索引擎之间的竞争也日趋火爆。慧聪国际在引入国务院新闻办旗下万国桥络文化传播公司的资金后,开始运营中搜网,并将注册资本增加至750万元,公司主要的业务就是搜索引擎

  面对这些威胁,中国最大的中文搜索引擎百度公司却在乐得数钱,赢利近亿元的收获使得其在搜索引擎市场上取得了绝对优势。不过,面对如此多虎视眈眈的竞争对手,百度也不敢放松,大规模的扩招正在进行,其中技术人员的比例最大。原来学习自然语言的毕业生难找工作的现状得到彻底改变,曾在微软亚洲研究 院从事自然语言研究的张跃说:“我的两个师弟今年都被百度招了进去。”

  国际上的竞争同样令人窒息,微软要进入的每个领域都会使原来的厂商战战兢兢,微软对搜索引擎的进军也伴随着大规模的招兵买马,微软亚洲研究院也成立了专门的小组,不过Google面对这些挑战依然充满信心,据说一位技术高手到微软几天后却加盟了Google。Google所提供的良好工作条件和创造的搜索文化对技术人员的吸引力可见一斑。

  因此,尽管overture创造的赢利模式猛然间使搜索引擎创造的巨大利益使资本垂涎三尺,但在市场的竞争中,技术才是最基本的保证。

搜索引擎技术的原理

  搜索引擎技术的原理实际上很简单:一般分为三个部分,首先是用蜘蛛(Spider)进行全网搜索,自动抓取网页;其次是将抓取的网页按照关键词进行索引,同时也会记录与检索有关的属性,中文搜索引擎中还需要首先对中文进行分词;最后通过检索生成的索引文件并按照各种参数进行复杂的计算,产生结果并返回给用户。也有人认为,搜索引擎的界面设计可以算做新的部分。这样可以逐渐提升用户的使用体验。除此之外,搜索引擎的附属功能中还包括分布式计算模块,以及一套后台监控体系。在这些部分中,最核心是的搜索结果的排序,如何把最合适的结果排到前面。因此,可以说其他的所有环节都是为最后的计算做准备的。

  但实际的检索效果受多方面因素的影响。蜘蛛的稳定性和抓全率非常重要,最早的搜索引擎只抓取静态网页,现在的搜索引擎就要求抓取更多的动态网站,因此需要对含有Script语句的网页进行解析,同时Flash的广泛应用也要求搜索引擎能够解析其中的文字和超链。海量科技一直潜心研究中文分词技术和搜索引擎技术,其总工王东胜表示:“有的网站为了防止被下载还做了很多陷阱,有时还需要在结果上进行分析,尽管这部分的技术难度不太高,但这是细活。”

  接下来的格式转换和创建索引则需要深厚的技术功底。索引的难点在于让存储数据结构尽可能的优化以适合搜索的需要。这方面,各家搜索引擎厂商的技术都不太一样。但如何尽可能减少内存、CPU占用以及读盘次数则是共同的目标。尽管有些人有很好的想法,但不一定用现在的技术都容易实现。由于搜索引擎所需要处理的数据量极其庞大,不加限制的偏移位置、属性的增加可能导致系统的过渡膨胀和检索速度的下降。王东胜说:“海量在这方面开发出了自己的独立算法,这种压缩格式不需要解压,直接就可以进行运算,这样做可以节省资源并且高效的计算。”

  多线程并发检索系统的构建也是一个壁垒,这部分不是公司找几个人就可以完成的,一个成型的分布式计算系统也不是短期内能够做到的。

  事实上,技术只是技术,所有的搜索引擎是需要运营才能体现的。即便拥有了搜索引擎全方位的技术,要做出真正适用的可以商用的搜索引擎也还是需要不断的修正。

搜索引擎的现状

  搜索引擎已经开始取代很多门户网站在网民心目中的位置,这同它们不断扩充的服务项目有关。比如百度和中搜网推出的新闻系统,他们可以更快的集成各种新闻,而且可以不用任何一名编辑。在这个新闻系统创建的过程中,尽管使用了搜索引擎的部分技术,但实际上同全网搜索服务是分离开的,因为新闻技术要求的实时性非常高,而全网搜索无法满足这种需要,因此,搜索引擎的新闻聚合技术主要考虑了快速和编辑功能。而Google已经成熟的新闻邮件定制功能也获得了很多用户的喜爱。

  搜索引擎甚至开始涉及很多门户最火热的论坛,百度推出的“贴吧”就是一个例证。在百度创始人李彦宏看来,既然用户寻找同一个关键词,那说明他们关注的事情属于同一类,在搜索引擎无法提供满意的结果同时,人和人之间的交流或许可以带来更好的结果。不过从运行的结果看,除了“美女”和一些人们喜欢发表评论的关键词外,好像并不能给用户的搜索带来更多更好的效果。而Google斥重金收购最大的Blog系统Blogger.com也是因为看到了 Blog的私人空间可能给搜索带来的巨大意义。

  而MP3下载、Flash搜索这样的功能对于吸引网民更为实用。百度推出的MP3搜索就非常成功,百度技术副总裁刘建国说:“用户经常在网上寻找音乐资源,因此在2002年执行的闪电计划中,我们开发了mp3搜索功能,推出后,用户反响很大,迅速就把口碑建立了起来,这对百度的品牌和流量是非常有帮助的。”有位原来做过搜索引擎技术的程序员说:“我非常看好利用全网搜索技术做的多媒体形式的搜索功能。”事实上,虽然MP3的搜索与网页搜索在技术上差别并不大,但仍然需要考虑一些死链和下载速度的评估,有时还要考虑音乐格式。刘建国说:“我们甚至需要辨别原唱和翻唱的差别。”

  由于搜索引擎试图进入更多领域-并且很多功能都在进行测试中,有些专家相信,未来的几年,尤其是在商业领域和个人学习领域,搜索引擎技术将会得到更为广泛的应用。另外一些专家则认为,搜索引擎技术的无限制扩展并不一定能够取得预想的成功,因为每一个专业领域都需要更加定制化的技术,意图以一种通用的技术统治整个信息产业是不现实的。

搜索引擎技术的近期展望

  事实上,全网搜索引擎技术产生的突破性变化并不多。在搜索引擎的发展上,大的转变一般被认为有三次:第一次就是根据关键词在正文中出现的次数进行排序;第二次是Google的Pagerank技术带来的思想创新,这也是百度所提出的“超链分析”技术,核心思想是一个网页被其他网站引用的次数越多,这个网页的重要性就越强。当然,之后衡量PageRank的权重因素增加了很多种。第三次是伴随着商业收费模式诞生的“自信心”原则,指的是如果商家愿意为一个关键词付费时,那说明这个网站的价值也比较高,也应该放在前面。客观上来说,最后一次改变更像是搜索引擎公司为了收费而杜撰的理由,技术性的因素很小。

  但搜索引擎的技术细节仍在不断完善,而且彼此之间在进行激烈的较量。与搜索结果相关性的定制因素就是最明显的例子,除了比较成熟而且有论文可以借鉴的Pagerank技术外,成熟的搜索引擎在排名上需要计算的因素会达到近百种之多。诸如,信息来自于网站还是论坛,网页质量的评估等等不一而足。这些相关因素除了竞争对手在互相观察之外,还有很多人为了提高网站的排名煞费苦心的琢磨。最近百度就借势3·15推出防欺诈行动,主要就是针对排名机制人工修改网页标签信息提高排名来赢利的做法。

  很明显,这也在一定程度上给后来者创建了壁垒,因为搜索引擎良好的结果排列是需要通过运营不断完善的。微软在投巨资打造MSN搜索门户迟迟没有正式公布,Yahoo收购的三家搜索引擎打造的搜索结果被认为与Google有相当的差距就是明证。刘建国对此有很深的体会,在Google推出中文搜索的前夕,百度发起了技术攻关的“闪电计划”。这这个过程中,几乎几天就需要攻克一个技术难关。刘建国说:“包括搜索结果的权重如何分配在内,每方面都需要不断做试验,不断的修正,很多的细节是需要慢慢去磨的,尽管搜索引擎的思想大家都知道,但谈到细节,是否足够的精细,如何把这些因素组合好是需要时间的。好在当时我们的数据量很大,而且有了一个很好的平台。”

  但其他公司仍在试图动摇现在的搜索引擎市场。功能上的扩充是最基本的手段。现在的Google搜索引擎已经加入了对电话黄页、词典翻译、查询股票价格、跟踪联邦快递的包裹,查询地图和天气,最近,各搜索引擎也陆续推出了基于地域性的搜索,这些都对某些用户具有吸引力。

  除了技术上的创新之外,观念上的创新可能更为重要,自动聚类就是流行的概念。大多数非专业人士在使用搜索引擎的过程中,往往只输入一个或者两个关键词,这让搜索引擎无法获悉用户的想法。比如“英雄”既可能是电影《英雄》,也可能是历史上的英雄人物,两个字根本不足以表达用户的搜索意图,因此搜索引擎必须要猜测和进行结果上的优化,而自动聚类可以将关键词的搜索结果进行语意分析而自动分类。最有名的应该是Vivisimo,它可以在用户搜索的时候自动将结果分出不同的类别。不过,王东胜说:“新技术除了要有一定的亮点外,但还要对抗主流搜索引擎对用户习惯上的影响,因此技术好一点是没有用的,关键是要好很多。”

  客户端软件也成了争斗的场所。在IE bar的争斗升级后,一些厂商改变了做法。由慧聪国际牵头成立的中搜网就是其中之一,最近推出了“网络猪”的概念。中搜网总裁陈沛认为,桌面软件是未来搜索引擎的趋势,很多厂商在IE浏览器的工具栏上你争我夺之后,已经没有过多的空间留给后来者了,况且随着微软推出自己的搜索门户,肯定将嵌入 Windows系统之中,与浏览器形成一个整体。陈沛说:“我们不如另辟战场,网络猪就是个人信息门户(Personal Information Gateway)的缩写。”其中提供了一些有特色的功能,比如直接捕获关键词进行搜索,个人新闻专题定制等。8848也推出了自己的浏览器Bar,同样可以自动捕获某些商务关键词,当用户在其他搜索引擎搜索诸如“手机”等信息时,8848的bar便会滚动显示在自己网站上会有多少件与“手机”相关的产品。同时,在浏览器中选择关键词,点击右键的“8848比价”选项时,还能弹出一个窗口,显示其他网站的相关价格。

  面向商务的搜索引擎正在被看好。在这方面,利用全文检索的技术来进行商品的检索被认为是未来的一个方向。对于大的商务网站,可以采用指定,但数以万计的小网站还是通过指定一些特殊的属性来实现的。比如可以指定“购物车”等关键词来判定是否有商品信息。而在搜索结果显示时,通过特有的定制可以将产品的文字信息和图片信息一共展示出来。Froogle就是这样的例子。在中国,8848从原来的B2C网站转向了做商品的搜索,用全网搜索的技术只搜索电子商务网站的产品信息。8848公司CTO张研说:“我们只专注在电子商务搜索领域,尽管一些全网搜索引擎也推出了产品搜索,但效果和8848是无法相比的。”

  在这种情况下,搜索引擎相关的技术人才需求也颇为紧张。在中国,能够整体上掌握搜索引擎技术框架的人并不多,有商业运作经验的就更少。在搜索引擎公司,很多研发人员都要做很多研究方面的工作。

搜索引擎的远景

  搜索引擎技术目前还和用户的某些期望相去甚远:它并不能智能化理解人类的想法,并与人类的生活完全结合。实际上,那些搜索引擎提供的各种搜索技巧,需要我们操心的更多而不是更少。用户要迅速搜索到适合的内容,就要定义好合适的关键词,还要了解搜索的各种技巧。而当你不在电脑前面的时候,你就根本无法利用搜索引擎所能带来的便利。即便是这个检索很简单。

  要想让搜索引擎获得更为广泛的应用,就需要在周围环境的交互中形成无所不在的网络,甚至掩盖搜索引擎的存在。前卫的Google就开始在测试无线的购物搜索服务,它通过支持WML的无线协议,可以通过手机来检索希望购买的商品。刘建国同样认为,基于地域的搜索和当地服务的结合将会为搜索引擎技术的使用和商务带来巨大的商机。试想一下,当你在一个不熟悉的地方要打出租车的时候,你可以通过手机发出一个检索,搜索引擎便将这个请求的检索结果返回给购买这一服务的当地出租车服务公司,出租司机可以根据手机的定位检索系统给用户提供服务。

  多媒体的检索也将为生活带来更为便利的服务。现在的多媒体搜索都是基于文本的检索,而真正的基于语义的检索还与实用化存在很大的差异。比如对图片本身信息的理解,对音乐旋律的识别都是非常困难的。不过在这方面,语音识别走出了不错的一步,英国一家公司已经可以通过对语音文件的识别提炼出其中的文字来进行搜索了。Google在测试的Voice search也进行了很久,未来人们将可以不同计算机的输入而仅仅通过语言便获得更为快捷的信息。到那时,信息资源的传播和共享速度将达到前所未有的境界。

附录:

搜索引擎技术的负面影响

  一个抓取了全球几乎全球网页的搜索引擎将会带来怎样的社会效果?随着搜索引擎技术的发展,我们的行动和个人信息可能会以前所未有的速度被泄漏出去,这时我们的意思是否会被进一步侵犯?在搜索引擎技术获得更为广泛的应用之前,我们必须回答这些问题以及其他一些问题。

  隐私拥护者的一个主要担忧是,搜索引擎能自动爬取一些个人网站不愿意公布的信息,而且可以成为商业上竞争对手收集相关资料的重要来源。合法的搜索引擎(比如GOOGLE)也能通过电子商务网站无意留下的漏洞以及隐患,成功钻进那些本应该绝对保密的服务器内探访一番,然后再公然将大量有用最新数据成功“带走”。由于GOOGLE属合法网站,因此遭“偷袭”的服务器根本不会发出警告。大量资料在不经意间被外人成功“复制出门”。在GOOGLE的帮助下,世界各地的“黑客们”只要具备一定的搜索技巧和足够的耐心,就能更加轻松地从合法免费资源库上获取大量重要信息。因此,提高商业网站的安全防护意识成为世界各地网络运营商以及用户关心的共同话题。

  另一个担忧是搜索引擎由于商业活动的不断深入,使得诸如竞价排名等活动充满了金钱的色彩,而这也可能会带来欺骗行为。为了获得更好的位置,很多人开始研究搜索引擎的排名机制并通过作弊的形式来提高自己的排名。而搜索引擎厂商也为了获得更好的商业利益可能忽视用户的利益,过于干涉搜索结果的排列顺序。

  同时,我们不可避免的要碰到如下问题:很多学生将搜索引擎当作直接获得答案的途径,原来可能需要查阅很多书籍才能获得答案的过程现在变得更为简单,但这样也使得学生太过于依赖搜索引擎,并有可能通过检索来进行抄袭和模仿。

搜索引擎面临的技术挑战

  l基于语义的多媒体搜索技术还不成熟,比如搜索图片的时候还只能通过周围相关的文字来进行判断,而无法根据图片本身的信息提供检索。像微软亚洲研究院等研究部门在对图像的识别方面做了很多工作,但还没有达到工业界实用的地步。

  l搜索引擎的关键词很容易只输入一个或者更少的,搜索引擎无法理解用户真正的搜索需求,因此只能将各种结果全部排列出来。自动聚类技术虽然在处理这方面的方面做了一些尝试,但并没有给用户留下更深的印象。而嵌入用户机器了解用户经常搜索需求的Cookie等技术由于隐私方面的问题还没有得到更好的接受。

  l由于网络上更多的资源和有用的资料以数据库的形式存在,而搜索引擎的蜘蛛在爬这些动态网站的过程中很容易陷入死循环,很多搜索引擎都对深度做了限制,这也使得搜索引擎能够获得的数据量据乐观统计也还不到整个网络数据量的30%。

  l搜索引擎现在仍然需要依赖于浏览器为载体提供检索服务,这大大限制了搜索引擎的可使用范围。而基于无线的技术还在尝试中。

  搜索引擎需要的人才的技术领域:

  算法

  人工智能

  编译优化

  计算机体系

  计算图形学

  数据压缩

  数据采集

  文件系统设计

  基因算法

  信息获取&情报

  机器学习

  自然语言处理

  操作系统

  调优技术

  机器人技术