语音识别热中的冷思考[复旦中文论坛]

来源:百度文库 编辑:神马文学网 时间:2024/03/29 19:15:51

语音识别热中的冷思考
原贴:http://www.sciam.com.cn/blog/article.php?tid_2949.html
语音识别热中的冷思考
作者: zhigang324
当今,由于计算机技术的飞速进步,语音识别技术的物质条件已经具备,计算机界的乐观情绪溢于言表。似乎语音技术唾手可得。在这语音识别热中,我们是否应该冷静下来思考一番呢?
语音识别,离成功还有多远?
今天,世界上众多的从事信息产业的公司都展示了各自的语音识别技术,尽管实现方式各不相同,但有一点却是大家相同的,那就是全都是基于言语产生模型(Speech Generation Model)的。如各种模板匹配(LPC,复倒谱等),多模板聚类,隐含马尔可夫链,神经网络模型等等。但恰恰正是基于言语产生模型的语音识别技术,囿于模型本身的缺陷,而没有可能取得最终的成功。因为,既然是基于言语产生模型,那么每个人的语音就必然具有各自独特的声学特征和参数,甚至在不同语境下同一人的话音,其声学特征也会产生明显的变化。因此,基于言语产生模型的语音识别技术天生是“认人的”,食用前的训练必不可少,而且仍不能保证有很高的正确识别率。这语音识别技术“不认人”的要求相去甚远。不过,在目前尚没有揭示言语模式感知模型(Speech Patter Perception Model)的机制之前,运用言语产生模型亦实属权宜之计和无奈之举。可以肯定的是,目前的,基于言语产生模型的语音识别技术在语音识别进化树上只能是一个分支和断点。
几十年来,语音学、实验心理学、神经生理学等等领域的科学家一直在艰苦探索,但至今仍未揭示出言语听觉感知的奥秘。由此看来,语音识别技术例成功仍很遥远,不容乐观。
语音识别的理论基础
语音识别技术就是让计算机“长”有能听懂语音的仿生耳,该仿生耳能准确地模仿人的听觉系统对言语感知的机理。自然,语音识别技术应建立在言语听觉感知研究的基础上。
人类的听觉历经了千百万年的进化,具有优异的声频信息处理能力。其最重要的能力之一就是声频模式(其中包括言语模式)感知。模式感知可以定义为:人或动物所具有的,将周围环境中的无数声频信息按某种确定的声学特征加以分类,以抽取出对自己有用信息的能力。为了从千变万化的声频信息中抽取出有用的信息,听觉系统就必须对某些声频信息所共有的某些参量做出响应,而对其它的参量不敏感,不响应。这就意味着声频感知能力使得人或动物对声频信息(如言语信息)的多样性和变化性不敏感。例如,人的听觉系统可以把许许多多人发出的,声学特征千差万别的元音[o:]归结为[o:]音位(模式);可以把千百把小提琴演奏的,音色各不相同的乐声归结为小提琴的声音模式等等。心理学实验也证实,人的言语模式感知能力是天生的,无须后天训练。
可以认为,只有能够模拟人的言语模式感知机理的语音识别系统,才是最理想的。
难点与突破方向
万丈高楼平地起,应用技术必须有坚实的基础理论研究的支撑才能成功。语音识别技术数十年来一直未能有突破性的进展,问题的根源就在于它的基础 --- 听觉感知上的研究长期来处于停滞状态。听觉系统的模式感知(Auditory Patter Perception)能力就是听觉系统对复杂的声频信号进行实时分类的能力。这是一项被认为是“比登月球还难”的研究课题。被众多的科学家,学者视为畏途。致使该领域的研究仍是一片空白。世界上尚没有一位科学家能够回答:人如何从音乐声中辨别出不同种类的乐器。言语模式感知涉及到众多的音位模式(Phoneme Pattern)、音位间的音渡、以及协同发音时相邻音位之间的相互影响,其难度可想而知。数十年来,虽然语音学家们在听觉感知上作过大量的研究工作,但仍然未有肯定的结论。要回答的关键问题是:
1.      听觉上可感知的最小单位是什么?是区别特征(Distinctive Feature)?音位?双音?音节?或是词?
不同的学者用各自的听觉感知实验结果得出不同的结论,有的认为是区别特征;有的认为是音位;有的认为是音节;甚至有人认为应以句子为单位。争论不休,未有定论。
2.      对于最小的可感知的语音单元,听觉是以哪些具体的声学参量的集合对语音单位进行分类?
至今没有人能回答这个问题。如有答案,不认人的孤立词语音识别势必取得突破。
3.      连续的语音流中,哪些是感知变量,哪些是感知不变量?听觉系统如何从连续的语音流中提取言语代码序列?
该领域至今未见有论文发表。如有答案,不认人的连续语音识别必将取得突破。
笔者从上世纪80年代初开始用数字处理技术着手语音识别的研究。逐步深入后发现突破点似应在语音学研究的领域,遂转向语音学研究的方向。更进一步深入后,最终发现突破点应在言语听觉感知研究的领域。于是又一次地转向言语听觉感知的研究,在区别特征以及音位模式感知层面艰苦求索。经历无数次的失败,走过无数次的弯路,终于逐步揭示出听觉对具有准平稳频谱的音位模式感知机理。尽管距目标还很遥远,但最重要的是,找到了正确的突破方向,目标已明确。
综上所述,试图在语音识别上急功近利,打速决战是不现实的。不管你愿不愿意,听觉感知研究仍是语音识别成功道路上不可逾越的障碍,不克服这个障碍,语音识别技术就没有成功的可能。多年前,日本第五代计算机计划中的自然语言接口的失败,咎其原因就是缺乏言语听觉感知基础理论的支持。今天,新一代计算机的语音识别技术面临和多年前日本第五代计算机计划同样的困境,如果至今我们仍然无视言语听觉感知的基础研究,我们仍会重蹈覆辙,这决不是危言耸听!
然而,遗憾的是,言语听觉感知的研究在我国一直未引起应有的重视。笔者至今尚不知道言语听觉感知的基础理论研究是否已列入国家重点科研计划中,不知道国内是否有单位正在进行系统的研究。至今也未看到有关言语听觉感知研究的论文发表。
有鉴于语音识别的重要性,笔者认为,言语听觉感知的研究迫在眉睫,特在此文中提出呼吁,希望得到国家科技决策者们的重视。
游戏规则:公平竞争 (Fair Play)
公平竞争?!同微软、Intel、IBM这样的业界巨头谈公平竞争,神经是否有些不正常?
纵观计算机数十年来的发展,中国人应该感到汗颜。我国在计算机的研究上起步并不比别国晚,但是,由于众所周知的原因,我国失去了一个又一个的发展机遇,被远远地甩在了后面。在高投入、高产出、高风险的亚微米、深亚微米的集成电路设计与制造技术上;在以千万条代码计的操作系统以及数据库技术上;在千兆位的通信技术以及众多的其他技术上,我国至少在多年内都难有赶上世界先进水平的作为,难有供发展的生存空间。先进国家在基础研究和应用开发上数十年的积淀,雄厚的资金支持,使得我们在这些领域上根本不能奢望公平竞争,亦难有成功的把握。
然而,在语音识别技术上,情况就大不相同了,无论是谁,都没有取得实质性的突破。可以认为,大家都仍站在同一条起跑线上,机会均等。这是其一。其二,就语音识别所需要的物质条件来说,今天与一、二十年前相比已不可同日而语。回想八十年代中期,笔者用IBM PC机作研究,加上8087协处理器,速度亦不过区区5万次浮点运算。做一次元音听觉感知实验,仅数字信号处理就得花上二十多分钟,可谓步履艰难,进展缓慢。与国外大公司用大型机或工作站作研究相比,由于不幸同飞机竞速。今天,计算机按摩尔定律飞速发展,普通的个人计算机,其浮点计算能力就达数十亿次,足以满足语音识别所需的数字信号处理速度(这要感谢Intel和在其后面穷追不舍的AMD)。任何一个有志于从事听觉感知研究的科学家,坐在家里就可以进行研究。大公司的资金、物质上的优势早已不复存在。所以笔者认为,今天,在语音识别技术上的竞争,是一场计算机界千载难逢的公平竞争,斗的是智慧,赢家最有分量的筹码是创新思想,而不再是资金。对于中国人来说,这无疑是一个开启未来智能计算机之门的极大机遇和挑战。机不可失,时不再来!
人才观:千军易得,一将难求
计算机语音识别技术需要什么样的人才?初看起来,既然是计算机的语音识别技术,当然需要的是计算机软件、硬件方面的人才。对此,笔者不敢苟同。如前面所述,语音识别技术上的突破,取决于言语听觉感知研究上的进展。必须搞清楚人类的听觉系统如何从变化无限的语音流中提取出有限的言语代码的机制。数十年来,语言学、心理学、神经生理学等等领域的科学家一直在苦苦探索,虽取得了不少成果,但仍未能揭开言语听觉感知之谜。至今,语音识别仍然是无源之水、无本之木。没有言语听觉感知的数学模型作内核,语音识别技术由于失去了灵魂,不可能有突破性的进展。所以笔者坚持认为:要解决语音识别这一难题,首先需要的是新一代的言语科学家,而不是计算机科学家。言语听觉感知属于跨越多种学科的交叉学科,自然需要通才型的、具有广博知识的、视野开阔的新一代语言学家。他们能够站在前人的肩上,以“鸟瞰”(Bird’s - eye View)的研究方式从实验语音学、生理听觉、心理听觉、音系学、语义学、语法学等等诸多学科中吸取营养,在多学科的交叉点上触发灵感,在思维方式上敢于离经叛道,突破前人的习惯思维,在全新的视点上提出问题并找出解决之道。
记得瑞典的语言学家G.Fant在1984年发表的 “Phonetics and Speech technology”一文中评论日本的第五代计算机计划时说道:“我想说的是,我们对言语代码的认识仍是很贫乏的。我们需要的是第五代言语学家,而不是第五代计算机。”结果,正是由于没有第五代言语科学家,日本的第五代计算机计划惨遭滑铁卢。时至今日,二十多年过去了,情况依旧:由于缺乏新一代的言语科学家,我们对言语代码的认识依旧很贫乏,所以仍然不能在智能计算机的自然语言接口上有所作为。语音识别技术之“一将”在世界范围内之难求,由此可见一斑!发现、培养造就新一代的言语科学家已成为当务之急。
副产品
记得贝尔实验室的一位科学家曾经说过一句话:“诺贝尔科学奖是科学研究的副产品。”(大意如此)
1961年,诺贝尔基金会将诺贝尔生理学、医学奖授予美籍匈牙利裔科学家G冯贝克西(Geory von Bekesey 1899-1972),以表彰他在听觉生理学上做出的巨大贡献---发现耳蜗感音的物理机制。这是迄今为止第一项,也是唯一的一项授予听觉感知研究的诺贝尔科学奖。1961年至今,听觉感知的研究领域一沉寂就是45年,一直未有重大发现。那么,会是谁能打破沉寂呢?笔者确信,能够揭开言语听觉感知之谜的新一代言语学家,将是第二位在听觉感知研究上获得诺贝尔生理学、医学奖的人选。
综上所述,笔者认为:
1.语音识别技术是下一代计算机的战略制高点之一,对未来计算机的发展起着里程碑的作用;
2.言语听觉感知模型是语音识别技术的核心和难点;
3.言语听觉感知的研究是少有的既是基础研究,又极具应用价值的研究课题;
4.语音识别技术上的竞争是千载难逢的公平竞争。中国人完全有可能率先取得突破;
5.音节组成相对简单的汉语(以及日语等)将会在语音识别中率先取得成功;
6.汉语语音识别技术是解决计算机汉语输入瓶颈的最佳手段。