第三代搜索乍现拐点 中国力量争夺话语权

来源:百度文库 编辑:神马文学网 时间:2024/04/30 12:01:44
作者:王宏亮 | 2006年08月23日 14:38 | 原始出处: 博客科技
   【内容提要】:以假乱真的跟风者和以假作真的炒作者,但无需怀疑的是,第三代搜索,作为对以Google为代表的第二代搜索的一次反动,一次否定之否定,已经渐行渐近。
以假乱真的跟风者和以假作真的炒作者,但无需怀疑的是,第三代搜索,作为对以Google为代表的第二代搜索的一次反动,一次否定之否定,已经渐行渐近。
大致而言,第三代搜索可以归结为如下几个方向:人工智能、模式识别、语义分析、神经网络。除神经网络较为虚无缥缈外,在其余三个领域,特别是人工智能领域,目前均已有多家搜索巨头安营扎寨。不过,这其中并不包括那些在第二代关键词搜索模式之上进行修修补补的个人信息门户、社区搜索、聊天机器人等在内。
关于人工智能,较为乐观的行业人士认为,国际互联网的下一个发展阶段将是被称为“语义互联网”的人工智能阶段,基于PageRank算法的第二代关键词搜索“很快就会过时”(微软亚洲研究院院长沈向洋语)。话说得很噎人,也多少有点儿一厢情愿,因为google也不可能无所事事,停下来静等别人来超越自己,但上述说法或多或少表明,以google为核心的第二代搜索并没有触及搜索的核心或者说穷尽搜索的边界。这也就意味着,或迟或早,对PageRank算法进行改进或清算的模型必然会出现。
暗战第三代搜索
有迹象表明,包括微软、google、IBM、雅虎等在内的搜索巨头已在研发自然语言搜索、语义搜索、人工智能搜索等第三代搜索技术,而一些新兴企业也试图借搜索技术升级换代之机争夺话语权。
不妨看看微软测试了一年多的被称为AskMSR的搜索程序。在AskMSR的搜索框内输入问题,返回的搜索结果不再是包含关键字的网页链接,而是一个简单不过的答案。不过该软件并没有利用人工智能原理,而只是使搜索程序学习了一定的语法,以此来和相关的网页内容匹配。在程序不能恰好找到相关字符串的情况下,该软件还可以根据两个关键词出现在同一个句子中的几率来判断二者的相关性,作为提供答案的依据。尽管这种做法并不能保证100%的准确,但随着网页数量的增加,AskMSR的准确度也会有所改善。
值得一提的是,除了AskMSR外,微软正着手研发的项目还包括基于Web Block(网页块)的搜索技术以及聊天机器人(微软电子百科全书Encarta和提供BBC电视节目表的Bbcbackstage)。
作为第二代搜索的代表,Google当然也没有停止对第三代搜索的研发,特别是人工智能。Google的CEO Eric Schmidt和创始人Larry Page此前就曾表示,未来的Google搜索将会实现人工智能化的搜索,即一个可以准确理解用户意图然后即时返回用户所需信息的搜索引擎。Larry并预言,人工智能化的Google搜索将在短短的几年内实现。
同样研发人工智能搜索技术的还有IBM。据悉,IBM公司的研发部门在UIMA平台上早已开始进行包括语言分析、知识库、问答系统、机器翻译等功能的自然语言搜索以及人工智能搜索技术研究,IBM将其人工智能技术称为UIMA架构,并已推出名为OmniFind的软件,该软件能将字词背后的含意解释出来,并给出合适的搜索结果。不过,该软件目前尚处于测试阶段,短期内还无法实现商用。
关注智能搜索的还包括雅虎。7月19日,雅虎中国、雅虎全球、阿里巴巴三方联合推出一个具有智能模糊匹配功能的搜索引擎——雅虎Imatch。据称,该系统可以根据用户的搜索习惯和意图,智能匹配相关的搜索结果。
与此同时,更多的准第三代搜索也开始涌现:
澳大利亚华人乔鸿亮最近推出了自然语言搜索引擎lexxe,用户可在该搜索引擎上直接搜索到类似百科全书的直接答案,与第二代搜索引擎的“符号计算”不同,lexxe把文字直接当作语言来处理并对文字具有一定的理解能力。不过,lexxe目前还没有推出中文版;
一款名为Preview Seek的搜索引擎,号称可以对搜索结果以更合乎人类思维逻辑的方式建立索引,进而提供相关度更高的结果列表;
Accoona,一款以人工智能为诉求的搜索引擎,声称可以基于单词含义而不是传统的关键字匹配方法返回搜索结果,并向用户提供互动式搜索服务......
解密AISou智能搜索
在国外搜索企业磨刀霍霍试验人工智能搜索的同时,拖延已久的国产人工智能搜索引擎AIsou.com的上线事宜也已提上日程表。据AISou项目总负责人全胜介绍,目前AIsou已处于引弓待发状态,在解决了困扰项目推出的安全问题之后,AIsou成熟版本随时可以上线。
据全胜透露,AISou的算法基于用于自然语言分析的人工智能技术,可以对互联网上70-80%网页中的70%以上内容进行理解和解读。然后,基于对内容的理解,系统会以某种独特的格式对信息加以存储。在存储方式上,AISou的方法与google等第二代关键词搜索引擎也有不同,不同在它不是按照全文检索以及标签分类等方式进行存储,而是先理解再存储,存储理解后的内容。因为这个原因,其单个内容的存储量比第二代搜索所占据的空间要大一些,存储的格式也更为复杂。
接下来,当用户输入关键词进行查询时,AISou会根据用户身份、用户搜索记录以及上下文语境、时间、地域等因素进行判断,以此来精确定位用户的搜索意图,进而回答用户提出的各类“非定制问题”,并返回多级的答案。在上述过程中,系统可以通过基于人工智能的自然语言分析和精确搜索意图两项核心算法,给出与第二代搜索迥然不同的搜索结果列表。
可以说,对于精确搜索意图这个目的而言,识别身份并不需要太多技术含量,而根据用户搜索习惯、语言环境和浏览历史对用户意图进行判断,其难度则与抓取并理解信息相当。这其中,会涉及到一些较为复杂的计算。比如说,一个经常搜索IT内容的用户,如果他偶尔搜索娱乐内容,系统会将这个偶然行为记录在案,并在其搜索记录中加入一些变量。不过,全胜说,该技术至多只是一种趋近式的技术,很难做到百分百准确。
不妨比较一下Google的做法。Google所提供的个性化搜索也会记录用户的浏览历史,但Google这么做,更多的是为了统计用户的搜索情况,进而对整个搜索引擎进行调整,包括重新确定某些网页的相关性排序,而在对用户浏览历史进行个性化利用上,则做得不够彻底。而AISou则在利用用户搜索记录进行统计的同时,也对用户的个性化习惯进行细分,以便实现精确定位用户搜索意图的效果。
不难发现,虽然问答式搜索也要用到精确搜索意图功能,但该功能更多的还是为了辅助关键词搜索。因为如果用户问的是完整的句子,限定的搜索范围已经较小,而且本身已经包含了精确搜索意图的成分在内,而不必再辅之以精准定位功能。关键词搜索就不同。因为关键词搜索返回的搜索结果更多,也更为发散,所以就需要将搜索条件精确化,使返回的结果更为贴近用户的搜索意图。
不过,全胜表示,之所以要为关键词搜索辅之以精确搜索意图功能,并不是说关键词搜索不涉及人工智能和自然语言分析技术。事实上,AISou是把关键词当作一个句子来理解的,区别只在于是一个独立单词的句子,还是一个由多个单词构成的句子。例如,当用户输入“给我找包括‘硅谷动力‘和‘雨伞‘两个词的内容”,其结果,和输入“硅谷动力  雨伞”返回的内容是一样的。
实际上,AIsou对整句问题的理解比抓取网页的理解更为精确。原因很简单,如果系统理解不了某个页面,至多不过是不能返回该页面,而如果理解错某个问题,则根本不能进行回答,或者返回的答案全然牛头不对马嘴。这是很影响用户体验的。
全胜预测,绝大多数用户在使用AISou时,主要使用的还会是关键词搜索,这其中用户也可以使用布尔表达式,只不过输入布尔查询符或者空格之后,系统会将整个输入条件视为一个句子,并以此来理解用户的意图。
“精确意图搜索和基于自然语言的理解,本身都可以归结为一种人工智能。抓取内容的同时去理解、理解问句,还有精确意图的过程,这几部分都用到了人工智能技术。”全胜说。
人工智能搜索的未来
据了解,AISou核心技术的研发始于1998年。次年,AISou的前身——21seek智能搜索正式投入研发,作为一个智能机器人的模型,21seek实际上在用于文字语义理解的人工智能搜索技术上已经成熟,但在当时还不能做到问答式搜索。直到2002年上半年,问答式搜索技术才接近成熟。此后,在斥巨资从境外买回AISou域名并注册了.cn等域名后,AIsou曾先后多次进行内部测试,和进行过公开上线测试,最高同时在线人数超过1000人。
可问题是,这个迁延已久的系统上线之后,能达到起码的商用标准吗?
对此,全胜表示:“就技术条件而言,AISou已经具备了随时上线并进行商用的条件,只要有两个月左右的时间配置服务器和耙取互联网数据,AISou搜索门户随时可以正式推出。”
他同时承认,当系统跑起来之后,不可避免会出现少量判断不准或判断错误的情况,这就需要对系统进行修正,使之逐步趋于合理。所谓修正系统,主要修正的其实是最初给系统设定的一套逻辑推理程序。这个逻辑程序既涉及语法,也涉及其复杂性远远超出语言范畴的逻辑处理。基于预设的复杂逻辑能力和可以不断学习和记忆的知识处理能力,系统将获得某种限度的深度思维能力。通过不断对系统进行细化,不断添加更多的参数,包括增加知识、逻辑以及每个环节的趋近度和精确度,人工设定诸如环境因素、语法、新词汇、幽默思维、辩证思维等等,系统的逻辑推理能力和智能水平将逐渐趋近于人脑。
当然,凡此种种,只可以渐渐趋近,而不可能一蹴而就。事实上,在使搜索引擎智能化的问题上,最大的瓶颈还不在于系统的逻辑能力和知识水平,而在于系统本身的调试。因为,逻辑推理能力可以改善,知识库可以增加,系统的协调则需要不断地试错和纠错。
AISou的上线会使其在波诡云谲的第三代搜索领域获得多大的话语权?相信悬念的揭晓不会要太长的时间。