谷歌语音搜索:对搜索的语音想象

来源:百度文库 编辑:神马文学网 时间:2024/05/15 17:34:33
11月27日是美国感恩节后的第一个星期五,通常都被称作“黑色星期五”。这一天,纽约时代广场上的两块大型LED显示屏上,并没有像往常那样播放路透社和纳斯达克的标识广告,而是如同接收到外太空信号一般,不停地滚动着手机号码和没有任何逻辑联系的词句。神奇的是,这些是人们拨打888-376-4336后对着话筒任意说出来的,经过号码背后的语音识别系统处理后会同步显示在屏幕上,每个词句下面还有似曾相识的搜索结果网页。 这其实是谷歌为旗下的语音搜索进行的一项别出心裁的推广活动。

千里之外的北京,谷歌全球副总裁维克·甘多特拉(Vic Gundotra)也在向中国媒体展示该公司刚刚推出的中文版语音搜索。“纽约最好的意大利餐厅!”维克拿出手机放在耳朵上,操着并不熟练的中文大声说道,然后笑眯眯地把手里的手机转向大家。是的,不到一秒钟的时间,屏幕上已经显示出了搜索结果。

不需要再噼里啪啦地敲击键盘了,一个并不陌生的语音时代难道已经来临?

键盘不再是必需品

手机是这场语音化浪潮的中心。“在小小的手机键盘上输入文字搜索信息并不容易,”谷歌中国产品经理许裴说,“一些较长的词,键盘输入不仅速度很慢也容易拼错,而我们正在开车的时候是没有办法停下来用手打字的。”据微软移动高级总监帕祖斯基(Dariusz Paczuski)统计,使用智能手机搜索一个餐厅需要按键盘超过20次,发短信则需要更多下。而只需张嘴的语音搜索则能提供更方便、快速和简单的搜索服务,大大降低人们使用手机搜索的门槛。

手机的演化也为语音搜索的实现提供了硬件基础。现在几乎所有手机都拥有录音、照相等功能,智能手机的出现则让手机从一个单纯的通话装置变成一台小型的计算设备。按维克的话说,麦克风和摄像头跟互联网相连之后,变成了云端的耳朵和眼睛。

越来越多的公司意识到,移动搜索领域会呈现与互联网搜索截然不同的人机交互方式。网易有道总裁周枫就曾透露,有道现在和未来的产品设计将不需要用户手动输入任何文字,而更多采用的是语音搜索、摄像头搜索等智能化方式。有道搜索的手机购物助手可以利用手机条形码扫描为消费者提供价格比对信息;而有道手机词典则可利用手机摄像头为用户提供单词实时翻译功能等。

谷歌则把重点放在了语音搜索上。去年谷歌在美国发布了英文语音搜索服务Voice Search,应用于Android、诺基亚S60、黑莓、iPhone等多个系列的手机。其竞争对手微软也早早地进行了布局。2007年,微软收购了领先的手机语音识别服务厂商TellMe,组成了微软现在的语音团队,TellMe为包括411商务搜索、1-800-555的信息搜索以及美国航空在内的企业提供语音平台。微软新的语音团队最大的任务就是把语音搜索技术与Windows Mobile整合起来,移动版Bing搜索在三星手机上已经实现与谷歌类似的语音搜索功能。

手机将会成为语音化浪潮的中心

云端的语音搜索

语音搜索是通过云计算和机器的智能分析实现的。“你说的关键词会成为声波,再转换为数字,然后把它通过‘云’发到我们的后端,计算机会基于我们所有的数据,来识别这些语音。”维克说。因为所有的计算都是在云端计算的,所以用户能在极短的时间里得到搜索结果。值得注意的是,声波里面包含着很多背景杂音,有些背景噪音连人的耳朵都难以分辨,但计算机系统能够识别出这些背景噪音并进行分离和过滤。 这样,“无论大家在出租车还是在街上做语音搜索都可以成功。”维克说。

与文字输入不同的是,准确性是人们对于语音识别最大的担心。尽管按照维克的说法,谷歌已经花了很多的时间,了解各种口音、各种习惯的表达方式,但面对人类千奇百怪的发音,语音识别永远不可能做到完美。就在演示现场,当有人念出类似“清华大学附近的水煮鱼”这样的句子时,机器的识别当场便出现了错误,

然而,就像图文搜索引擎一样,语音搜索的优势在于,其语音识别模式是基于全球几十亿的搜索请求,搜索引擎的算法会随着对搜索请求的深入分析而变得更加精准。目前,谷歌在语音搜索的识别结果的下拉菜单里,提供了几个备选选项,用户可以选择正确的那个。这样,系统就接受了某种“培训”,知道下次再有人这样说话哪个是正确的选项。中文还有一个最为考验语音搜索引擎的特点,那就是中文有很多同音字,但因为很多搜索都是一系列文字组织起来的,通过对人们搜索的习惯的认知,搜索引擎能够认识出这些发音大约指的是哪些字。

“我们就像人一样,随着对世界认知的发展,随着对语境认知的发展就能够更精准地了解其他人的意思。”维克说,“如果有着几百万的说中文的用户能够使用我们中文语音搜索功能的话,我们系统就会变得更加聪明。”

无处不在的语音识别

手机上的语音搜索只是一个开始。语音搜索功能将延伸为语音输入,覆盖到手机、电脑等各种终端上。“我们的目标是使得人们在所有的地方所有时候都能使用这个应用,”维克说,“但是我们认为手机的应用是最急迫的,所以先做了。” 在比尔·盖茨预测的未来十年最重要的技术进步中,语音识别技术位居首位。微软语音团队主管Serafin也表示:“语音操作是新的趋势,是继键盘和触摸屏之后的必然进化方向。”

其实,自电脑诞生以来,让电脑听懂人们的说话,一直是IT从业者的一大心愿。在单机时代,IBM是最早进行语音识别技术研究的企业,在上个世纪90年代就推出可用于声控打字和语音导航的语音识别输入软件IBM ViaVoice VIA。用户只要对着电脑讲话即可输入汉字,输入速度能达到150个汉字,几乎是键盘输入的2倍、普通手写输入的6倍。尽管售价不菲,但这套软件在全球已售出100多万套。汉王科技当年正是基于这套软件,开发出了基于语音和手写识别的手持设备。

微软则从Windows XP开始,在操作系统中添加了语音识别功能,在新推出的Windows 7里这一功能更为完善。不用键盘鼠标,用户可以通过语音对计算机进行简单的控制,如说一句“打开浏览器”,就可以轻松地打开IE。刚刚上市的Exchange Server 2010中则有更加先进的语音邮件预览功能,可以自动为语音邮件提供文本预览。不方便收听语音邮件的情况下用户可以先通过语音邮件预览来了解邮件的大致内容,也可以通过阅读文本预览来决定邮件的优先顺序。

而基于Web的云计算则将这种语音识别技术带入更广泛的应用领域。不仅语音搜索成为现实,前不久谷歌还为YouTube推出一项新的功能,让用户利用语音识别为YouTube视频添加字幕,这将大大提升YouTube视频的观看体验。

古老的键盘和鼠标会不会渐渐从电脑配件的标准列表里消失?或许现在还没多少人能接受,但谁又能否认人们对语音的想象力呢。