机器翻译传奇

来源:百度文库 编辑:神马文学网 时间:2024/04/29 07:31:19
(原文连载于《电脑报》1995年,2001年修订)
还在计算机降临人世之前,人类就萌生出一种极富魅力的梦想,希望有一天能够制造出一种机器,请它在讲不同语言人中间充当翻译。把这种翻译机器揣在衣兜里就能走遍 天下:到了英国,它讲英语,到了法国,它又会讲法语……,无论操何种语言的外国人与 你谈话,只要拨一下开关,它都能在两种不同语言间充当“第三者”,准确地表情达意。人类有了它,又何愁“天下谁人不识君”呢?
20世纪20年代,有位俄国人想动手实现这一梦想,他造了一台机械装置,试图通过那些齿轮的转动把俄语翻译成英语,终于以失败而宣告结束。 20世纪40年代,电子计算机的发明又重新勾起了人们美好的憧憬。1949年,美国学者沃伦·韦弗向大约200名友人发出一份备忘录,他热情地指出,用计算机完全能 够解决语言的翻译问题。他认为,人们可以让计算机模拟人类翻译家的作法,使用一部两 种语言对照的词典作工具,用一种语言的单词去查出另一种语言的等价词,然后编排整理 成文。这种翻译机至少可以用来帮助解决世界范围的文献翻译。
韦弗先生的设想简单明晰,却颇有吸引力,引起了美国科学界人士极大的兴趣。当历史跨入50年代后,美国人甚至有点迫不急待。因为在激烈的世界科技竞争面前,大部分美国科学家和工程师都不能阅读俄语书,而大部分前苏联科学家和工程师却都精通英语。 美国科学家十分担心自己会根不上俄国人定期发布的优秀科技论文的水平。机器翻译的研究项目因此受到了高度重视并获得大量的经费资助。 美国计算机界铆足了劲,要一举摘下机译的皇冠。从1954年实力雄厚的计算机公司IBM和乔治城大学研究小组合作的首次试验起,韦弗设想的那种“词对词”的计算机翻译系统开始了它的蹒跚学步。
粗略想一想,在两种语言间实现“逐词替换”似乎并不困难。比如,想把英语句子翻译成汉语,只需把英语句子分解为单词,用对应的汉语单词顶替,然后按汉语语法规则整 理成句式。“This is a computer”是一个英语句子,分别把“this”用“这”、“is” 用“是” 、“a ” 用“一台”、“computer”用“计算机”顶替,不就翻译成汉语 句子“这是一台计算机” 吗? 这里所需要的是大量储存并快速搜索两种语言的对应词 汇,而“大量储存”“快速搜索”恰好是计算机的拿手好戏。 美国人初期开发的机译系统正是“俄英翻译”,他们也确实把俄语文献翻译成了英语版本。
可惜好景不长,早期从事机译的人们很快就沮丧地发现,通过逐词替换,大约可完 成80%的翻译工作,还有20%的文字根本“顶替”不下来。更不能容忍的是,整个翻译过程极慢,甚至达不到人工翻译的速度;同时,机器翻译的文章必须由人进行整理才能 读得通,还不如让人自己来干。 当时的机器翻译闹出了不少笑话。 据说,当美国人向计算机里输入一个英语谚语 “心有余而力不足”时,输出的俄语意思却变成“酒是好的,但肉已经变质”。再输入一 则英语谚语“眼不见,心不烦”,你知道机器把它译成了什么?输出俄语的意思实在叫人 啼笑皆非——“眼睛失明,精神失常”,大概就是那台翻译机器的自我写照吧。 这样一来,计算机翻译背上了一个很糟糕的名声,人们的热情一落千丈。连美国政府 也于1966年发布了一本黑皮书《语言和机器》,认为这种研究得不偿失。黑皮书给刚 出襁褓的翻译机泼了一大盆凉水,同时撤消了对机器翻译项目的大部分资助,不少研究课 题组纷纷下马,最后仅留下5个单位惨淡经营,机器翻译从此进入低谷时期。机器翻译的 先驱者们大都陷入了迷茫:象计算机这种无生命的机器,真的能够完成只有人类大脑才能 承担的翻译工作吗?
在60年代的研究低潮中,机译界的人们并没有完全停止耕耘,不过,的确需要认真地反思,找出问题的症结所在。用逐词顶替的方法为什么不能得到满意的翻译结果?可以设想一下,人类自己担任翻译时,是否也只是做了这种替代呢?显然,任何一个人,哪怕他把一本《双语词典》背得滚瓜烂熟也当不成翻译,关键在于理解所翻译文章的意思,还要掌握各种相关知识。而在“词对词”机译系统中,把“computer”一词用“计算机”一词替代,担任翻译的机器并不理解“计算机”或“computer”是什么东西。换言之,让电脑“理解”人类语言应该是机译突破的焦点。
让机器理解人类的语言谈何容易!  语言是人类进行思维判断和相互交际最主要的工具,有了语言,人类才最终从动物里划分出来,成为真正的人。今天我们为计算机编制程序的语言都是“人工语言”,而人类自己使用的语言却都叫“自然语言”。如果说,机译实现的唯一通路在于“自然语言理解”,那么,成功的希望已经寄托在“人工智能”的研究之上,让机器增加智能,象人那样学会用自然语言“思维”。当然,还特别需要借助语言学家、心理学家的协助和支持,它必须成为一门综合性学科。
接触过计算机的人都知道“人机对话”这一术语,象BASIC那样的语言还被加上了“人机对话语言”的桂冠,似乎机器早就可以与人“交谈”。千万不要把这种“高级语言”想象得神乎其神,其实,人机之所以能够对话,是人学会了计算机语言,而不是计算机学会了人的语言。
经过漫长的历史岁月,人类语言已发展到极其复杂的阶段。一个人即使想要掌握本国的母语,从出世开始,直到小学中学,甚至上了大学还得孜孜不倦地学习。以汉语为例,除了书面语之外,还有大量不规范的口语方言俚语。在一个传统的相声段子里,逗捧双方的演员打赌,看谁能用最短的话表现一个情节:小孩夜间起床小便,家人问他干什么。结果, 用河南方言的表演者令人叫绝, 他只用了四个字:
“谁?”“俺。”“啥?”“尿。”
这种精练到家的语言,叫机器如何理解?
为了帮助机器初步学习理解人类语言,人工智能的研究者作过各种实验,开始艰难的探索历程。 例如,1961年美国曾发表过一个名叫“棒球”的系统。通过技术处理,这一系统能够回答人们用英语提出的有关美国棒球锦标赛的一些问题。如“红队7月在哪里比赛?”,“蓝队曾在一节中赢过6分吗?”等等,还只能算是雕虫小技。
在这类实验性的研究中,1966年美国麻省理工学院的威森鲍姆编写的“伊莉莎”(ELIZA) 可能是最有趣的语言程序之一。“伊莉莎”取名于英国著名戏剧家肖伯纳的戏剧《偶像》中的角色,它能够使计算机与人用英语谈话。在自然语言理解技术尚未真正取得突破性进展时,这是一个令人费解的现象。请看“伊莉莎”在计算机上与一位姑娘的谈话摘要:
姑娘:    男人们全都一样。
伊莉莎:  在哪些方面?
姑娘:    他们总找借口躲避我们
伊莉莎:  你能举个例子吗?
姑娘:    好吧,我的男朋友要我到你这里来。
伊莉莎:  哦,你的男朋友要你到我这里来。
姑娘:    他说我很烦闷。
伊莉莎:  你很烦闷,这使我很难过。
……  ……
根据上述对话,“伊莉莎”不仅听懂了姑娘的讲话内容,而且很有同情心,象知心朋友一样给人以安慰。这个程序发表后,许多心理学家和医生都想请它为人进行心理治疗,一些病人在与它谈话后,对它的信任甚至超过了人类医生。这种状况令程序编制者和人工智能专家们深感忧虑:  一台机器居然让一些受过良好教育的人和它进行长时间的亲密交谈,而机器其实完全不理解人的喜怒哀乐!
仔细分析“伊莉莎”与人对话的内容,一旦明白了其中的奥妙,对话人可能会大呼上当。“伊莉莎”对人说的话,只不过是颠倒一下谈话人的语序,为其中的某些“关键词” 匹配上合适的“对应词” , 然后再返回给谈话人。当然,它的编排相当巧妙,比如你说 “很烦闷”,它就说“很难过”;你说“我想哭”,它就问“为什么想哭”。当它找不到 合适的对应词回答问题时, 为了避免出洋相, 它就机敏地讲一些无关痛痒的废话搪塞一 下,如“这很有意思,请继续说”,或者“请你说详细点好吗?” 从技术观点看,“伊莉莎”程序与人的对话,不是在对句子理解的基础上进行的,顶 多给人们开了一个小小的玩笑。“伊莉莎”的作者后来也承认说:“我没有想到,一个简 单的计算机程序,在极短的时间内会在用正常方式思考的人们中间引起了如此大的误会, 今后在解决问题时需要考虑这种因素”。
机器翻译,本质上是对人类思维和语言活动的模拟。解决这一难题的途径是对人类的语言作出科学的分析,获取人类思维活动的材料,然后才能正确地构造可以解释人类行为 的计算机程序。在这一点上,语言学家给了人工智能研究很大的支持。
自1957年美国语言学家乔姆斯基发表著名的《句法结构》 始直到70年代, 语言学中的“乔姆斯基革命”不断发展,不仅极大地推动了现代语言学科的成熟,而且使得“自然语言理解”的研究不同程度地涉及到句法、语义和语用三大语言学领域,机器翻译从此开始走向复兴。 这里,我们不得不占用一些篇幅,结合“自然语言理解”早期研究中的成果,对三个语言学中的概念作一点趣味性的说明。
让计算机学习人类的语言,入门的练习似乎可以象小学生那样从“填空”学起。准备 几种类型的单词,在事先造好的句式中故意留下几个空格,要求计算机有选择地填入。例如,对于下列句式: 开往______的______列车在______时从______站台发车。 计算机只要在4个空格处分别填入表示地点、 车别、 时间和站台的词汇即可。实际 上,某些火车站就利用语音合成装置以这种方式进行广播。填满空格后的句子可能成为: 开往 纽约的特快列车在13时从3站台发车。然而,在计算机没有理解上述句子意义之前,人们必须为它准备与每个空格对应的适当词汇,否则,任它自由填入一些单词,句子可能变成: 开往地狱的疯狂列车在午夜时从魔鬼站台发车。 不管哪个火车站的广播里报出这种通知,恐怕都会把旅客们吓得半死。
人类语言中的词汇是不能随心所欲加以组合的。词汇不仅有名词、动词、代词、形容 词、副词等词性区别,它们的组合还必须遵循一定的规则。例如,汉语中的代词“我”、 名词“饭”和动词“吃”,按上述顺序排列成“我饭吃”,谁看了也不会认为是汉语中的 句子。 这三个词必须按照汉语的句法, 分别充当句中的某一成分, “我” 充当主语, “饭”充当宾语,“吃”只能作谓语,组成“我吃饭”即“主——谓——宾”句式。这就 是句法分析,当然,更多的句子要比“我吃饭”复杂得多。但是,即使我们完全遵守句法 规则造句, 也不一定就能够得到有意义的句子。 例如在上句里交换“我”和“饭”的位 置,造出一个“饭吃我”的句子,句法上挑不出一点毛病,但不好理解,或者说这是一个句法正确但没有意义的句子,它表明了句法和语义是语言学中不同的知识领域。
为了便于机器翻译,首先需要把自然语言的句子经过句法分析,分解为不同的成分。 然而,一些句子可以有不同的分解方法,不同的分解会产生不同的语义。请看下一句子的两种分解法:咬死了猎人--的狗。咬死了--猎人的狗。 前一分解法应解释为:狗把猎人咬死了;后一分解法则应解释为:把猎人的狗给咬死 了。这就叫“句法歧义”。会产生歧义的句子在语言中比比皆是,再比如:“一个半劳力”。如果让机器作句法分析,是分解为“一个半”“劳力”,还是分解为“一个”“半 劳力”呢?这些例子说明在句法分析时,还需要补充许多有关语义和相关知识的信息,有 的句子还必须结合上下文的关系才能获得正确的分析结果。 例如, 知道了上文是“狼来了” , 理解下文“咬死了猎人的狗”时,就不会再有歧义;或者上文是“我爷爷年纪大了”,下文是“他只能算一个半劳力”,联系上下文一起分析,“一个半劳力”便只剩下 一种含义。
理解人类语言时,还有一些因素必须考虑。有时非得知道人物、时间、场合等等,才有可能解释某个句子。例如,让机器理解这样一句话:“红塔山一包”。要是不知道这句 话的背景是顾客在商店里向售货员购买香烟,想理解它的意思是不可能的。研究语言的这 些因素属于语用学的任务。 以上我们只以汉语为例进行了说明,其他的自然语言与之也基本相似。由此可见,计算机对人类语言的理解,必须把句法、语义、语用和其他相关知识结合在一起全面分析, 否则很难做出准确的翻译。
从计算机机械地模仿到理解人类的语言,机器翻译逐步向人工智能的方向靠拢,已在黑暗的摸索中看到了黎明的晨曦。 大约在70年代以前,国外的机译界业已从“词对词”的替换方式,发展为以句法结 构分析为主的转换和生成。这种“句对句”方式产生的译文质量有了一定的提高,但由于 机器处理其他知识的能力不足,前进的步伐依然不大。1971年美国有人作过比较:人自己进行翻译的速度是每小时处理450个词,而计算机对同一文章作出翻译后,还必须 请人编辑和改错,这种后一步骤人工处理的速度也只能达到每小时400词。
当人类社会在70年代中期大踏步地迈进了信息时代之际,“信息爆炸”使人类的相 互交流急剧增长,社会需要带来巨大的推动力。人们对翻译匮缺的呼声日愈强烈,据当时 的一些资料报道,欧洲共同体使用8国文字公布文件,雇请100多位翻译专家只完成了 工作量的1/10,有人估计急需补充翻译2万名;联邦德国每出版8本书就有一本是译 著;加拿大议会因使用两种语言,每年都要斥巨资搞文件翻译……。人们又一次迫切地向 计算机求助,机器翻译在走了一个马鞍形的曲折之路后,又成了人类梦寐以求的瑰宝。 于是,机器翻译技术被列为21世纪世界十大科技难题的第一位。世界上各发达国家 聚集各路高手,不惜以亿万重金投资,都试图率先突破机译的难关,抢占翻译机器的巨大 市场。欧洲共同体7国联手,注入资金3850万欧洲货币单位;日本对此项研究开发的 投资高达8亿美元;美国仅对其中的一项子课题的理论研究,就投进了1600万美元的 血本……。世界上已出现了十几个较成功的机译系统,在美国、法国、加拿大等国担任了 “初级翻译”的角色。 80年代的计算机,与当年美国科学家搞“词对词”翻译时用的老式机器简直不能同 日而语。机器翻译的理论和技术也开始向语义分析与语言理解为主的方向进展,即实现以 句段为加工单位即“段对段”的第三代智能方式的机译。 此时此刻,东方中国的上空,有一颗耀眼的“机译之星”正在冉冉升起……
中国的机器翻译研究起步并不算太晚。早在1957年,机译就被列入了我国科学工作的发展规划。1959年,在早期的104大型机上,我国计算机专家成功地进行了俄 汉机器翻译的试验。不过,现在说起来有点好笑:那台机器翻译的是代码,而不是汉字。因为那个时期,电脑还不“认识”汉字,即没有可用的汉字输出装置供机器翻译“书 写”译文。
80年代中期以后, 中国的机译界奋起直追世界潮流, 上机实验过的就有英汉、俄 汉、 法汉、 德汉、日汉等“一对一”系统,和汉译英、法、德、俄、日等“一对多”系 统。其中,《译星》英汉翻译系统还制成了初步的商品软件。 当时的《译星》系统,大约每小时可翻译英语单词1000个左右(即每分钟十几个单词)。下面我们摘录它翻译的一段汉语文字:
“利用电脑来使一种自然语言译成为另一个是人类多年一直在渴望的梦想。现今,这样一种梦想已经成为现实随着电脑科学和语言学研究的重要成就的发展。机器翻译的实现 帮助人类粉碎语言障碍,建造在人们之间信息交换的桥梁,并且促进人类的进步。”
除了翻译速度不太令人满意外,《译星》翻译的文字还算基本通顺,个别句子虽不大 符合汉语语序,有的词译得不够贴切,但只需作些整理和稍加润色,就可以直接付印。《译星》的寓意也许是“机译之星”。时隔几年后,一颗更加璀灿的机译明星使中国 的机器翻译研究跻身于世界的最高水平。
那是在1985年, 年仅24岁的陈肇雄还在攻读博士学位, 却毅然接受了他的导师、中科院学部委员高庆狮教授交下的课题,准备向世界水平的机器翻译发起冲击。 机器翻译的研究道路对陈肇雄来讲,似乎比别人更为艰辛。虽然他在智能计算机程序 技术方面已小有成就,但对机译则几乎完全是空白。3年的刻苦钻研,他广泛涉猎各种相关学科的知识,学习国内外机译界多年积累的经验。“初生之犊不怕虎”,陈肇雄在学习中继承,在继承中创新,独创性地提出一套“基于不完备知识的机译分析”理论,突破了复杂多义区分、上下文相关处理、多种知识交叉分析等等一系列关键难题。 1988年,陈肇雄的研究被列入国家863高科技研究计划。也就是在这年,他在第12届国际计算机语言学大会上宣读的有关论文,得到了国外专家高度的评价,大会主席称赞他“指出了一个雄心勃勃的新方向”。
陈肇雄的研究决不仅仅只是一个“方向”,他要把它做成中国高性能的翻译机器。接下来又是一个奋战的3年。陈肇雄和一批专家们,靠着863计划拨给的44万元极其有限的经费,为理论框架设计语言规则,编制翻译软件。那堆积成3米多高的稿纸,不知道 耗费了他们多少心血,熬过了多少不眠之夜…… 整整6年的卧薪尝胆,陈肇雄的“智能型英汉翻译系统IMT/EC863”通过了 国家鉴定,它在总体上超过了国内外同类系统,处于国内外领先地位。那一年是1992年,陈肇雄成了中国科学院最年轻的研究员之一。
两个月后,他把数万个词汇、数十万个对应词和数十万个翻译规则压缩到100K字节,完成了袖珍型电子翻译机的软件开发, 能在几秒钟内实时翻译一个整句。香港的一家公司购买这一软件,不久,世界上第一台袖珍翻译机——快译通EC-863A被中国人率先造了出来。 袖珍翻译机——揣在衣兜里的翻译机器——人类多年来的夙愿,终于迈出了“美梦成真” 的一步。 1997年6月,陈肇雄带领与他一起多年奋斗的中科院200多名员工,创建了华建电子有限公司,注册资金达100万,其中30%是以知识产权入股。陈肇雄出任公司总裁后,他没有离开实验室,一边搞科研课题,一边带博士生和硕士生。他推出的“智能型英汉机器翻译系统IMT/EC863”,荣获国家科委颁发的科学技术进步一等奖。而他领导的公司也在短短的三年里,在电子辞典、掌上电脑、网上通、网络信息处理系统上获得长足的发展,不仅使我国的机器翻译技术日趋成熟,而且公司资产达到6个亿,连美国IBM公司也代理了他们的产品。
然而,就目前已有的成就来看,离终极目标仍相差很远。翻译机器还不会 “听译”和“口述”,还不能准确地翻译不规范的口语,还不能做到本文开头所设想的那 样:“只要拨一下开关,它都能在任何语言之间充当第三者”。换言之,它的智能还赶不 上人类优秀翻译专家的功底。 机器翻译面对的是人类的语言,是人类思维绽开的最鲜艳最美丽的花朵。在语言的领域里耕耘,正可谓“海阔凭鱼跃,天空任鸟飞”。虽然这片希望的原野上还布满荆棘,还有许多未曾开垦的处女地,但是,辛勤劳作的收获将使机器最终走进人类的心灵。