赛迪网_IT门户_技术天地_tech_ccidnet语音互联再造Internet -

来源:百度文库 编辑:神马文学网 时间:2024/04/28 12:12:04
语音互联再造Internet
作者: 发文时间:2001.10.24

VoiceXML(语音可扩展标记语言)是由IBM、Lucent、Motorola、AT&T四家国际巨型公司于2000年提出的一种应用于语音浏览的标记语言,它建立于XML标记语言规范的基础之上,是下一代互联网(Internet2)交互语音应用的核心。它可以与数据库、HTML、WML以及其它文档处理和发布系统进行无缝资料交换,突破性地实现互联网与电话网的融合,为语音应用领域展现出一个更为广阔的未来。目前VoiceXML已被W3C组织接受为国际工业标准。
VoiceXML的主要特点是通过语音输入和音频输出支持人机对话。基于VoiceXML的语音浏览机制与语音识别、语音合成技术、智能文字信息处理技术相结合,人们就可以通过电话或移动电话以自然友好的语音形式访问互联网,实现个人和商业服务的语音应用。
1999年,AT&T、IBM、Lucent和Motorola等公司组成了VoiceXML论坛(www.voicexml.org),讨论所涉及的主要内容,包括将VoiceXML确定为通过话音和电话利用Internet内容的标准、用VoiceXML解释程序取代HTML解释程序,以及用人的语音取代鼠标和键盘等。由于VoiceXML技术和语音技术的快速发展,已经有150多家公司和组织加入了VoiceXML论坛,其中包括一些非常有名的通信公司,积极支持和推动基于VoiceXML的应用。
在标准的统一与开放方面,中文VoiceXML已与国际标准完全接轨。由21家通信行业领头单位共同倡导成立的“中国互联网移动应用协议特别组”(CMIS)中文&汉语专家组,已提出了基于VoiceXML的应用系统规范提纲,标志着中文VoiceXML语音技术应用标准正在逐步酝酿和推进。北京无限商机通信技术有限公司和中国网通是移动互联网交互式语音应用技术标准及产品规范课题的主承担单位,承担单位同时包括中国电信、中国移动、Intel、Nokia、Motorola、中电东方通信、亿阳信通、北京邮电大学等。
超凡诱惑:会说话就能上网
电话是最为普及的通信工具。世界上现在有10亿电话终端,另外,有超过2亿的移动电话用户。从绝对数量上看,个人计算机的数量远远低于电话终端的数量。目前,我国的PC上网用户不过2000多万,而固定电话和移动电话用户是PC用户的10多倍,且增长势头迅猛。而且,在众多国内固定电话和移动电话用户中,不懂或不熟悉键盘操作的用户占4/5。移动通信终端的小键盘、小屏幕更是移动互联网发展的最大障碍。
另一方面,语音是人类最原始最有效的交流方式。人有70%的信息是通过听来获取的,而90%的信息是通过说来表达的。语音是人们询问问题、交换观念、分享经验和建立关系的最主要的方式。
通过电话来上网,以“说话”来代替键盘输入,只要拨一个电话,就可以上网查股票、“听”新闻、收邮件、叫出租车,对于许多不懂电脑或由于各种原因无法使用电脑上网的人来说,这无疑是一个梦想。而现在,这个梦想可以通过语音浏览技术得以实现。
在国外,以Tellme.com和Nuance 、SpeechWorks为代表的企业异军突起,倡导人性化的语音上网服务,随后TellmeNetworks、Yahoo!、Lycos和AOL等公司都相继推出了语音门户网站。国内的TOM.COM也于去年11月底推出了“TOM及时语”语音门户网站。继PC、WAP手机上网之后,语音上网将掀起第三次上网浪潮。
语音浏览:语音互联的核心
通过电话来“听”网上的信息的前提是需要一个公共语言。建立于XML标记语言规范基础之上的VoiceXML(语音可扩展标记语言),可以与数据库、HTML、WML以及其它文档处理和发布系统进行无缝资料交换,突破性地实现互联网与电话网的融合。通过VoiceXML,可以像建立HTML的Web 应用一样轻松地建立语音应用系统。
用户想知道某公司的当前股价,就打电话到提供该服务的公司。电话网上传来的声音信息通过DN URL的映射,到达了该网站的VoiceXML服务器。声音信息要与互联网上的文本信息很好地结合起来,实现快速自动交换,这就需要一个解析器,把文本、语音、图像的数据以一个统一格式快速交换。在此基础上,需要通过浏览器来接受用户的请求,找出用户所需要的内容,然后再把内容呈现给用户,如图1所示。
Internet的核心是浏览。语音浏览技术,类似于互联网上的Web浏览技术,它以一种XML标记语言为数据载体,通过各种网络数据传输协议,而以Client/Server的方式为语音浏览器所解析,通过语音的方式呈现给用户。这类似于Web与IE浏览器的概念,只不过IE以图像的方式在显示器上将信息呈现出来,而语音浏览器以语音的方式在电话、手机或其它语音手持设备的通道中呈现。IE接受用户的鼠标和键盘指令,而语音浏览器接受用户的说话为指令。语音浏览器通过解析VoiceXML,与语音识别和语音合成等方式进行人机交互,从而实现说话就可以上网的梦想。
2001年6月,由北京无限商机通信技术有限公司与北京邮电大学CTI中心联合研制的VoiceXML中文语音浏览器通过了中国电信、中国移动、中国联通、中国网通、信息产业部邮电科技委、北京邮电大学、IBM公司专家的联合权威技术鉴定。这是国内首家研制成功的VoiceXML中文语音浏览器,它由VoiceXML解析器、语音识别引擎、语音合成引擎和语音通道等部分组成。
VoiceXML解析器 VoiceXML解析器在语音浏览器中担负控制中心的角色。VoiceXML解析器通过网络协议,获取VoiceXML脚本语言所描述的应用文档,解析该应用文档和其中各个标志(Tag ),产生相应的控制命令。
语音识别引擎 语音识别引擎是VoiceXML语音浏览器的生命力所在。语音识别使计算机能理解用户的语音命令,产生相应的文字结果,送回VoiceXML解析器作处理。在VoiceXML语音浏览器中,语音识别引擎为命令式的识别引擎,它根据有限的语法(Grammar)来识别用户的语音信号,产生对应语法定义的识别结果。在VoiceXML语音浏览器中,语法决定了用户能说什么、如何说。好的语法能带给用户良好的交互感觉,也能从逻辑上提高语音识别引擎的识别率,使整个语音应用的浏览流畅而轻松。

图1.语音互联拓扑结构图
语音合成引擎 语音合成引擎将文字转换为语音信号,并通过语音通道播放给用户。VoiceXML 语音合成引擎可以将文字转换成语音文件,也可以转换成语音数据流,或者将已事先录制好的语音文件直接播放或者以流的方式播放给语音通道。语音合成引擎把文字转化为声音的品质,决定了用户对系统的直接感觉。
语音通道 语音通道是传输用户的语音数据信号和合成引擎所产生的声音数据信号的传递通道,它连接语音采集和播放设备、语音识别引擎的语音输入端、语音合成引擎的语音输出端。
语音互联:驱动产业价值链
到2001年,全球将有10亿多部电话投入使用,任何企业都不应该置身于这些用户视线之外。语言互联将从根本上改变企业与用户“沟通”的方式,以及用户与企业互动的方式。
语音互联网将最终形成由语音技术开发商-应用/内容提供商-语音服务提供商-电信运营商-终端厂商组成的产业价值链(见图2)。
北京无限商机通信技术有限公司总裁廖杰远先生认为,形成一个良性的产业链的前提,就是必须有一个非常清晰的盈利模式。语音互联一开始就明确定位为电信的增值业务。而一项新的增值业务能否取得成功,取决于是否有一个开放灵活的运行平台,是否有满足用户需要的丰富实用的内容,是否有性能出色的终端产品,是否有清晰的商业模式。所有这些因素加起来,才有可能保证新业务的成功。这显然不是一两家公司可以做到的。
在语音识别技术领域,IBM ViaVoice一直保持着绝对的领先地位。中国科技大学讯飞公司推出了KD-2000汉语文语转换系统,将语音合成技术推进到应用水平。北京无限商机通信技术有限公司作为语音技术开发商,已在语音浏览这一核心技术领域取得突破。
由于语音应用还处于初级阶段,目前语音互联网面临的最大的问题是服务和应用内容本身。不管是国外还是国内,语音门户的数量还相当少,提供的服务大多比较单调,仅限于邮件、新闻、股票信息、天气等一些本地化和个人化非常强的信息,而且,受阅读速度和电话资费等方面因素的影响,目前这些信息都经过高度的“精简”。与传统互联网的海量信息相比,语音网站只能提供高度个性化和本地化的服务。因此,如果不完善服务,形成规模,语音网站要想真正赢得用户的青睐还比较困难。

图2 语音互联产业链
但我们同时也应该看到,无论国外还是国内,已经有越来越多的厂商支持和开发基于VoiceXML在电子商务、通信、呼叫中心服务、个人信息服务、娱乐、办公等方面的语音应用。在基于VoiceXML 的语音门户应用中,用户还可以自己开发编写自己的语音网页,自由体现自我,建立众多的个人语音网站。另外,对传统Internet的改造或移植是语音互联网的一个趋势,这样就可以大量利用传统Internet网络资源为网络用户提供语音服务。
移动梦网计划的出台使运营商能够与ICP合作分成,提供全新的应用服务。这无疑也将有力推动基于VoiceXML的语音应用以及语音互联网的发展。
对电信运营商而言,语音互联网意味着话费收入的增加,竞争力的加强。目前在美国,申请语音服务的用户平均话费增长为12.8%。对服务提供商来说,语音门户提供了较为清晰的盈利模式,是进入开放电信行业的良好途径;对内容提供商,语音应用带来新的赢利增长点,并获得用户的倍速扩展;对电话终端厂商,语音上网无疑是新的产品卖点和增值点。
语音门户方兴未艾
语音门户网站一般都采用了语音识别及合成技术,相对于传统的互联网服务来说,它所提供的服务都是以语音的形式提交的,用户只要拨打服务商的电话号码,通过简单的语音口令,就可以获得所需的网络服务,从而将互联网的门槛降低到“零”。
据Kelsey咨询公司估计,到2005年,在北美会有4500万无线电话用户经常使用语音门户。
事实上,语音门户在国外的发展相对于国内较早。在Yahoo!宣布与Net2Phone联手向Yahoo!邮件用户提供基于电话的Internet内容服务、语音邮件及免费长话服务之后,其竞争对手Lycos也推出了新的语音门户。Oracle移动电话分公司OracleMobile.com也在其无线网络入口站点上添加了语音。此外,还有美国在线、InternetSpeech.com、Quack.com和TelSurf等公司也提供语音门户网站。
2000年11月24日,TOM.COM在国内开通了语音门户“TOM及时语”,用户通过拨打热线电话,通过与系统的语音交互,就可获得个人理财、语音邮件、航班查询、北京地区酒店预定、定餐及叫车、全球新闻、天气预报等方面的服务。北京无限商机网络技术有限公司也推出了“电话家园”服务,针对电话用户提供电话邮件、股票、游戏、航班、个人主页、购票等语音应用服务。
请进入"技术应用"专区查看更多文章
查看有关"宽带"的行业动态
(责任编辑 kayumahequan@staff.ccidnet.com)
赛迪网推出“IT博客”,花不到一分钟就完成注册
赛迪网_IT门户_技术天地_tech_ccidnet语音互联再造Internet - 赛迪网_IT门户_技术天地_tech_ccidnet开发J2EE解决方案的八个步骤(2) - 赛迪网_IT门户_技术天地_tech_ccidnet用ANT构造Application - 赛迪网_IT门户_技术天地_tech_ccidnet教您快速上手使用JDOM处理XML文档的技巧 - _技术天地_IT门户_赛迪网 赛迪网_IT门户_技术天地_tech_ccidnetVPN:谁更需要你? - 赛迪网_IT门户_资讯中心_即时新闻赛迪网搜索专区:搜索引擎发展史回顾 赛迪网_IT门户_资讯中心_即时新闻赛迪网搜索专区:搜索引擎三大主要类别简介 赛迪网_IT门户_资讯中心_即时新闻赛迪网搜索专区:了解搜索引擎基本工作原理 中小企业:VOIP语音网关解决方案(图)_白皮书目录_IT专家网 安全实例:僵尸网络模型分析及解决方案_评论分析_IT技术_IT专家网 美国为什么没有美女主持人_评论天地_IT圈_比特网 诺基亚在华推移动互联网业务“维信”_IT追踪_四川在线-漫游天地 安全实例:僵尸网络模型分析及解决方案_评论分析_IT技术_IT专家网1 SOA的投资理由_企业软件_IT技术_比特网 语音识别技术简述 _it业界_新浪网 (树) _it业界_新浪网 (表) 再造丰田_ 语音识别技术前景广阔 语音编码技术的分类 不锈钢切削加工_CNC数控天地_数控中国社区门户 不锈钢切削加工_CNC数控天地_数控中国社区门户 - .. 不锈钢切削加工_CNC数控天地_数控中国社区门户