东拉西扯:自然语言搜索又来了

来源:百度文库 编辑:神马文学网 时间:2024/04/28 12:46:17
自然语言搜索又来了
在网上混了10年,“自然语言搜索”这个炒作专用词,早就让人麻木。从Excite,到Ask Jeeves,到Accoona,再到最近嚷嚷得很大声的Powerset,画饼一张摞一张,自然语言搜索从来没真正实现过。资深搜索引擎观察家Danny Sullivan说,自然语言搜索总能引起两类人关注:完全不懂搜索的人或从来没听说过自然语言这一咒语的人。鼓噪者通常会这么做:
从现有的搜索引擎中挑选一个例子,让你一下就明白了“坏的”搜索是什么样子 然后证明自然语言搜索将多么好 最后就是坐下来搜集媒体的注意力
Powerset当然不例外,它先告诉你,现有的搜索引擎根本无法区分“为孩子写的书”、“孩子写的书”和“有关孩子的书”("book for children", "book by children", and "book about children")之间的区别。该公司CEOBarney Pell在自己的blog上很有力地批判了现有搜索引擎的“坏”,当然也顺便讴歌了自然语言搜索的“好”。
Powerset的炒作不限于此,他们还握有大量吸引眼球的武器。比如,Powerset正在秘密研发,其目标是打败Google,改变搜索产业的内核,他们已经拿到了1000万美元投资,他们的投资者中有Esther Dyson这样的如雷贯耳的名字……
我并非完全不信任自然语言搜索,我只是不相信“革命”这种东西的有效性。基于关键词的搜索技术的确不完美,但这种技术却是迄今为止最有效、成本最低的信息查询方式。输入几个关键词,回车,结果就列在那儿了。Sullivan把这种搜索用户的行为模式称之为“搜索的DOS”(DOS Of Search),它已经成为人机对话的一种基本模式。输入一个长长的句子,或者在显示结果之前先要从一长排列表中选取某个范围,显然违反了用户的行为习惯。
而且我不相信,让用户输入一个语句,搜索引擎就能更好地理解用户的意图。对搜索结果来说,语镜很重要。但一个句子相比几个关键词,恐怕并不能提供一个更好的语镜。如果是为了更好地理解用户意图,干吗不让用户就其想搜索的内容写一篇论文呢?为了让用户输入更多的内容,搜索框是不是该改成一个大大的文本框呢?
Sullivan说得好,Google打败它之前的搜索引擎,靠的是改变机器一端,而不是改变用户一端。Google只是让搜索结果变得更有用,而没有试图改变用户的搜索行为本身。
而且,自然语言搜索在某种意义上,就像机器翻译一样,需要改变一个算法打天下的思路。当你有了大量的已索引数据和用户行为数据,基于对这些数据的统计、归纳、分析,你就能更好地理解用户的搜索意图。所以,即使就自然语言搜索本身来说,我也认为,优势在Google一边,而不是Powerset一边。
我猜想,Powerset可能确实有它的独门绝技,但VC投资它,肯定不会是指望出现另一个Google。更大的可能,是作为对现有搜索引擎的一种补充,它有可能被GYM中的某个大头收购。不过,Powerset产品还没拿出来,就先炒,很有可能适得其反。