科学时报 颜永红:内心识别的“中国语音”----中国科学院

来源:百度文库 编辑:神马文学网 时间:2024/05/05 05:37:37
科学时报 颜永红:内心识别的“中国语音”
文章来源:科学时报 郑千里 刘丹 发布时间:2010-05-31 【字号: 小  中  大 】
从颜永红2002年回国来到中国科学院声学研究所创建了中科信利语音实验室开始算起,在短短8年时间里,他领导的这个年轻团队,已经获得授权发明专利20项,软件著作权登记40项,有30余项发明专利正在审查中,在国内外各种学术会议和刊物发表200多篇高质量的学术文章。
“我们要让中国的语音识别技术更上一层楼,搞好高技术成果的转移与转化、最终达到产业化和商品化的根本目的,就不能不重视源头的科技创新,拥有真正属于中国自己的知识产权。”颜永红对记者说。
中科信利实验室众望所归,已然在国际舞台上发出了响亮的“声音”,若要追根溯源加以考量,首先是在其领头人颜永红的内心深处,能够正确地识别出“中国语音”。
集体“跳槽”带来舆论风暴
当年颜永红回到中国之举,曾在业内引起一阵不小的舆论风暴。
2002年11月下旬,国内众多媒体爆出了这样的新闻:曾任英特尔中国研究中心主任、首席研究员的颜永红和麾下的6位科研人员,先后集体“跳槽”来到中科院声学研究所,组建了平均年龄只有30岁的科研团队——中科信利语音实验室。
因为英特尔是如雷贯耳的跨国大公司,更因为从英特尔先后“跳槽”的,不仅是颜永红一个人,而是曾跟随过他的一个团队,其轰动的新闻效应自然不言而喻——著名跨国大公司从国内“挖人”,世间已经见惯不惊,但这次却是个完全的反例。
颜永红2001年4月离开英特尔中国研究中心,到美国俄勒冈研究院工作了一段时间,2002年1月正式受聘于中科院声学研究所。促成颜永红回国的,有一位关键性人物,他就是声学所前任所长田静。
在投奔声学所之前,颜永红与田静从未谋面。最初的一次“接触”,是2001年11月,田静给在俄勒冈的颜永红发了电子邮件,作了自我介绍,并希望他能来声学研究所工作。田静在电子邮件里和颜永红相约通了个电话,“在1小时的电话里,我们基本上达成了共识:一定要有团结协作的精神,要有民主宽松的科研环境。”颜永红如此回忆。
两人相见,是颜永红从美国回到北京,一个周末的雪夜。“未曾料想的是我下飞机后,田静竟举着一个写有我名字的接站牌等我。”颜永红说,“我俩均有相见恨晚的感觉。商谈几乎没有太多周折,几个小时就谈成了。”
虽然颜永红等人加盟声学研究所,收入只有在英特尔公司的1/10,但中科院和声学研究所已尽可能为他们提供了优厚条件。中科院《关于引进杰出人才的管理办法》规定,只要是杰出人才,在聘期内可获得200万元的一次性专项经费资助,同时享受杰出人才岗位津贴,而且聘期内的研究成果在产业化后,还将按国家规定取得相应的产权收益。
“就工资收入而言,自然无法与在英特尔这样的跨国公司相比,但可以说,中科院和声学所已有足够优越的条件吸引我们来这里工作。我们团队的每个人,都会拥有产品开发成功在市场获得效益后的股份。即便是在两年之后,声学所停止对实验室筹建之初所提供的必要的资金资助,我们相信依靠自己的工作去转化,也能获得进一步发展。”颜永红和他所领导的团队充满了信心。
“往大里说,我是受中科院建立国家知识创新体系的精神感召;往细里说,我是受田静所长为人、做事的精神感召。”颜永红当时对记者说的这一段话,后来受到国内许多媒体的援引。
走进语音搜索新时代
哼唱一段旋律,就能查到与之对应的歌曲;输入一个关键词,就能从一堆音频资料里查到想要的一段话……摆弄着实验室的语音软件,董滨博士对记者说:“这是哼唱检索系统,我们正在和卡拉OK集成商谈这个项目,如果一切顺利的话,明年春天就可以形成产品,推向市场。”
“在国内,真正能够将语音识别产品拿出来,放在国家电信网上使用的,目前只有我们一家。”颜永红表示。
中信科利公司早在2005年,就通过三家增值服务商,将语音技术应用于中国电信、中国网通、中国移动等20个省的语音呼叫服务上。
在传统模式下,若打单位里的电话,总是要先转到总机,然后再接转目的地。现在应用了语音识别技术,只要说出目标接听人的名字,系统就直接转到相应人员的分机上。
人们突然听到一首歌曲,旋律很优美,如果想马上找到这首歌曲,手机用户就可以拨号到服务器上,对着话筒哼出这段旋律,服务台就能够告之曲名和歌手名称。这是中科信利已经推出、基于分布式集群架构的语音处理平台TSE。
一台普通的服务器可以同时支持90线并发应用,识别准确率达到95%以上。TSE现有的主要功能模块包括:语音识别、歌词检索、旋律识别、语音搜索,以及特定网站的语音搜索。
“在数年之内的将来,互联网将成为一个浩大的音视频档案库。”颜永红指了一下他桌子上的聊天摄像头。
在浩繁的音视频数据库中,要查找出所需的音视频片断,已经成为困扰互联网搜索的难题——目前的技术主要是搜索音视频的关键词,比如音视频的名字或作者,并没有办法搜索音视频内容。而通过语音识别技术,可以把多媒体文件变成可识别的计算机语言,从而有效快速地实现准确搜索。
“对下一代搜索引擎来说,语音识别技术是关键。”颜永红说。
针对目前的简单应用,语音识别技术已不存在什么问题。比如中科信利的中文电视广播新闻节目识别系统,就已经被英国Autonomy公司采用,并成为其提供给各电视台的数字媒体管理系统中一个核心技术模块。而这一功能强大的识别系统,也引起了记者的强烈兴趣——当“收听”到一段普通的《新闻联播》节目,系统就能够自动将节目内容生成文字,并且识别准确率接近百分之百,这种技术一旦成熟,采访实况就有可能直接变成文字版了。
在人机交互中,计算机要真正理解人们那些并不标准的语音,尚有一定难度。人的语音南腔北调,计算机往往不能准确辨识。“我们还有较长的路途要走。”颜永红笑着说,“但请大家尽管放心,它总有一天会在我们的手中实现。”
“我们没有在这方面露怯”
一个单位,两块牌子。颜永红的名片上印着两家单位的名称:中科信利有限公司和中科院声学所语音实验室。
颜永红是这个团队的“头”——他既是中科信利公司的董事长,又担任着语音实验室的主任。声学所前任所长田静不无推崇地说,这种两块牌子同一核心团队的模式,应该成为中科院高科技产业化的“试点”。
语音实验室承担着国家科研任务,中科信利公司进一步开发出售语音技术产品,这两个牌子的作用互为配合,相得益彰。颜永红介绍说:“实用技术的推广应用,不是所有实验室人员能够胜任的事情。在科技创新的整个链条上,我们分为概念产生、原理研究、原理性样机研制、产品化、市场推广等5个阶段。语音实验室基本承担前3段,后两段则由中科信利公司完成。
颜永红介绍,他们“十一五”期间定下的策略是首先发展实验室,由公司支持实验室,到“十二五”期间大力发展公司。语音实验室发展到今天,下一步需要积极探索的,是通过发展公司带来更多机会,打破实验室发展的瓶颈。
颜永红讲了这么一个故事:2004年,英特尔公司推出一款儿童双模电脑,中科信利公司和美国的ex语言培训公司合作,在电脑里装上一款教中国儿童学习英语的软件,竞标时中国只有中科信利这一家公司。“技术上我们是完全通过的,但在报价时,我们比美国的一家公司高报出了5美分。有个外国人质问我凭什么就要高出5美分,我理直气壮地回答:‘我们就是要证明,中国人做出来的产品不仅在技术上过硬,价格也不能太便宜!’”
董滨补充介绍说,过去香港人学习普通话,一共只有5位有资格的评测员,1997年之后,香港人学习普通话的需求大增,5位评测专家如杯水车薪。中科信利公司和香港理工大学合作,教香港人学习普通话,发音评估就是使用中科信利公司提供的软件。语音实验室现在有两个新的学科应用方向:教英语和教汉语。
“如果中国人教汉语也要使用美国人的技术,我们这些作语音识别研究的人将无地自容。”颜永红说,“我们已经以实力证明,我们没有在这方面露怯,也大可不必为之汗颜。”
由颜永红带领的团队,在语音识别方面取得的佳绩连连:
2009年9月,在中文信息学会句法评测(CIPS-ParsEval-2009)中,中科信利HNC语言处理团队获得汉语事件描述单元识别第一名、汉语功能模块分析第二名的佳绩。本次评测有来自美国、欧洲、中国大陆、香港和台湾地区的共24支队伍参加;
2009年11月,在由美国伊利诺伊大学主办的国际音乐信息检索评测比赛中(Music Information Retrieval Evaluation Exchange 2009),中科信利实验室的音乐小组在比赛中获得了3个单项第一和一个单项第二的好成绩。据介绍,国际音乐信息检索评测比赛是目前国际上参与最为广泛的音乐检索领域的评测比赛,比赛每年举办一次,每年都会增加一些新的比赛项目,以适应音乐检索领域的发展和变化。
颜永红,曾任OGI口语研究中心副主任、英特尔微处理器实验室主任工程师和人机界面总框架师、英特尔中国研究中心主任和首席研究员、英特尔全球人机界面学术委员会主席,现任中科院声学研究所研究员、所长助理、中科信利语音实验室主任,中国科学院“百人计划”入选者。长期从事人机界面研究工作,目前从事的研究领域包括:大词表非特定人连续语音识别,多模口语系统,嵌入式系统,多媒体数据检索,系统自适应和快速搜索算法