Yebol搜索:一个知识型杀手的告白

来源:百度文库 编辑:神马文学网 时间:2024/04/29 17:58:41

“搜索是一个‘九一’问题,今天,我们已经解决了90%的问题,但剩下的10%却要花90%的努力。”在2008年9月Google成立10周年之际,Google副总裁梅耶尔在博客中写道。当时,Google在全球搜索市场的占有率已经超过80%。

然而,就在这个Google苦心经营10年且已构成事实垄断的搜索市场,居然还会有人看中这个事倍功半的差事,接二连三地涌进来:2009年5月18日,WolframResearch公司正式发布Wolfram|Alpha;5月28日,微软正式发布Bing;6月初,Yebol公司在硅谷发布Yebol。尽管三家冠以的名称不同——“可计算的知识引擎”、“决策引擎”、“基于知识的搜索”,但揪住现有搜索引擎的弱点是这三家公司的共同点,尽管他们各有各的招数。

8月6日,《中国计算机报》记者电话越洋采访了Yebol公司创始人、CEO尹红风博士。

Yebol公司创始人、CEO 尹红风

心中总有搜索梦

1997年,从加拿大Concordia大学拿到计算机科学博士学位的尹红风来到美国,在位于加州的硅谷一家半导体公司一直工作到2001年,期间,他作为高级工程师,主持缺陷自动分类系统的研发。在盛行“车库创新文化”的硅谷,他利用业余时间把萌芽于在国内读研究生时的搜索想法,做成一个演示系统,向自己的朋友展示。

2002年,尹红风创办了BroadMining公司,意思是广博挖掘。BroadMining通过数据挖掘、机器学习和人工智能等方法,自动从复杂、海量信息中发现和提取知识,建立知识库,进而在线提供基于知识的搜索引擎服务。

过了一段时间,尹红风发现一个奇怪的现象:那些频频登录者的IP地址大都指向业内几家知名的公司。由于尹红风专注的是搜索,加之势单力薄,无暇顾及网站其他方面的建设特别是安全方面的问题。为了保护自己的技术,他很快就关闭了BroadMining的搜索服务,接着,他为自己的搜索技术申请专利。2005年,美国专利和商标局批准了他的专利。

关闭了BroadMining,尹红风加盟Yahoo,在数据挖掘与研究部任职高级研究人员。他主持研究开发的基于行为的精准广告系统,在他离开的时候,为雅虎的年收入贡献了数亿美元,而他刚进雅虎时,雅虎原有的广告系统年收入只有100多万美元。

互联网由于其超乎寻常的海量数据,开发人员要直面全新的挑战,而且,在这种数据规模“从量变到质变”的过程中,以往不成问题的问题也变得很成问题了。因此,研发人员的经验和见识就变得十分重要了。

雅虎当时有5亿多注册用户,根据用户以往浏览习惯等方式积累的信息量很多,雅虎仅是对这些信息进行的分类就有数千种。

尹红风坦言,在雅虎学到了很多东西,其中最大的收获是,从一开始就在雅虎最核心的部门工作,整日在全球最大的数据平台上工作,经历了从项目开发直到产生显著经济效益的完整过程,这种经历和经验是十分难得的。

到了2007年,他认为本应做得很好的雅虎在企业发展方向上出了问题,于是,他离开了雅虎。

2008年,尹红风创办了Yebol公司,去实现自己久久萦绕心中的梦想。

新搜索:胜算算法

“Google副总裁说的没错,现有搜索技术中90%的问题已经解决。但新一代搜索技术自身的问题,解决的还不到10%。”尹红风在越洋电话中说。

“回顾搜索历史,刚开始时,雅虎可以用人工对网站进行目录分类,因为当时网站只有几百个。当网站数量到了百万规模时,人工方法就难以为继了,于是搜索应运而生。但现有的搜索也有它自身的问题,在Google上搜索一下Google,搜索结果有20多亿个,这种线性排列的方式有多大意义呢?”

Yebol的搜索技术源于尹红风在中科院自动化所进行的用联想记忆模式和人工神经元网络来对人类的形象思维进行模拟。当这一研究成果用于搜索网站,使得智能知识库建立成为可能。由机器生成的知识库系统能处理上万亿条词目,比维基百科等人工生成的有数百万条词目的知识库规模高出几个数量级,生成速度更是人工方式望尘莫及的。

但机器自动生成的知识库不如人工生成的精确。于是,Yebol整合了机器算法和人的知识为每一次查询建立一份网站目录,运用关联、聚类和分类的算法自动为查询生成知识。

尹红风表示,基于知识的搜索从根本上改变了搜寻结果的显示方式,Yebol可以在传统显示10个链接的页面上,显示上百条经过分类的链接。这就大大减少了用户查找目标信息的时间,同时也给用户提供了丰富的浏览渠道。

记者认为,Yebol抓取了10亿个网页,建立了1000万个词目的知识库,费用一定不菲,因为Google几年前对外宣布的网页数为80亿个,而Google在服务器和存储方面的投资非常大。

“我们的系统放在亚马逊的云计算平台上,只需一个指令发过去,就可以扩展资源;而在雅虎,则要写申请,然后层层上报,直到雅虎的两名创始人之一大卫·费罗批准,这一过程可能要耗时数月。”尹红风回应说。

云计算的“硬件和平台即服务”这样的以租代购理念,使得像Yebol这样的新兴互联网公司免除了资金和系统规模迅速扩张等后顾之忧。因此,尹红风很有底气地说:“我们计划抓取100亿的网页,建立拥有1亿个概念的知识库。”

新一代搜索引擎会颠覆或者与现有搜索引擎共存吗?尹红风没有直接回答这个问题,他说:“5年前,我在自动化所说过,10年后,现有的搜索将会被淘汰,因为信息太多,产生的速度太快,而现有搜索技术在相关性上提高的空间已经很小了,因而很难适应这种变化。这才过去5年,我们已经看到这种趋势了。”

回国发展,但又……

Yebol正在北京组建研发团队,招募软件工程师。他们希望把这些人送到硅谷培训数月,增长才干,开拓眼界。

现如今,“投资少、见效快”的垂直搜索在国内炙手可热,Yebol也尝试着申请国家在搜索方面的项目或基金,但弄来弄去,就归到了垂直搜索那一堆儿了。这让广义搜索的Yebol有点郁闷。

强将手下无弱兵

——戴汝为院士谈弟子尹红风

“尹红风硕士念的是信息工程,有一次他把一本认知科学方面的书带到班上,结果,让老师狠狠地说了一通,认为这和他的专业没有关系。”中科院院士、中国自动化学会理事长戴汝为在《中国计算机报》记者面前对他的弟子昔日的趣事如数家珍。

戴先生的少年是在西南联大附小附中度过的,后考入清华大学,1952年院系调整时,由于学的是理科,被调到了北大。戴先生毕业后来到中科院力学所,恰逢钱学森回国后在力学所讲述工程控制论,之后,戴先生作为第一译者把钱先生的学术名著《工程控制论》译成中文。一路名校和名师的栽培,对戴先生严谨的学术研究风范的形成影响颇大,因此,戴先生十分看重弟子的科研作风。

上个世纪70年代,戴先生的研究重心从控制领域转入人工智能领域。在模式识别、人工神经网络、知识工程、复杂系统等方面做了大量开创性的工作,特别是在上个世纪80年代和钱先生有关思维科学的多次书信来往,开创并推动了这一新兴学科的发展。

戴先生自己的研究经历是很开放的,因此,当尹红风跟戴先生谈了自己的想法时,戴先生非但没有生气,反而鼓励他去研究,并在思维和人工智能方面对他悉心指导。1989年5月,尹红风将4万多字的研究成果寄给了钱先生。很快,钱先生给戴先生和尹红风回信,他在信中称赞这项研究可以写成划时代的经典文章。国内历史最悠久的《计算机研究与发展》在1990年第4期把《论思维与模拟智能》作为首篇文章予以刊登,尹红风是该文的第一作者。

多年来,尹红风一直把钱先生给他的有关思维的3封信的复印件放在公文包里来激励自己。而戴先生涉猎的领域与尹红风研究的基于知识的搜索技术关系密切。 (本文来源:赛迪网-中国计算机报 作者:马文方)