计算机和语言学

来源:百度文库 编辑:神马文学网 时间:2024/04/28 04:50:33

计算机和语言学

端木:我们这些学英语的,基本就是两条路啊,要不然做文学,要不然做语言学。我呢,对语言学比较感兴趣一些。

seren:这样啊。那我看到您在MIT念书的时候,还念了一个计算机的专业?

端木:是的,那是我的minor(副修科目)。

seren:那您觉得学习计算机对您研究语言学有什么帮助呢?

端木:首先呢,在语言学里面,就有一个方向叫做computational linguistics(计算语言)。我虽然不是做这个的,但是计算机一方面给我提供了一些工具;另一方面在做研究的思路方面,它也对我很有启发。

seren:一方面是工具,另一方面也开拓思路……唔,您能不能举个例子来说呢?

端木:譬如说吧,汉语是单音节语言还是双音节语言?好多人都觉得是单音节(一个一个方块字嘛!seren心想),可是其实我们有很多词都是两个字拼起来的,比如“老虎”。光争论可能不清楚,但是现在有这些计算机来做统计,一统计,好,汉语其实百分之七十的词语都是双音节的,所以并不是像很多人以为的那样是单音节语言。那么再看英语……

seren:英语是多音节的吧?

端木:嗯,英语单词看着是多音节的,不过这么一统计呢,又发现其实大多数常用的词还是短的单音节和双音节的词。尤其是有些词看着长,其实把前缀后缀去掉,核心的部分也就一两个音节。这么看来,其实汉语和英语的差别也没有那么大。有了这些统计结果,有很多事情就清楚了。

seren:您就是说,一方面计算机给了您这种手段来搜集数据;另一方面又正因为它存在,您才会想到这么做研究。真有意思。

主次之分

端木:我们来看这两个词,蔬菜,和商店。蔬菜和菜意思差不多,商店和店也是。但是我们平常会说菜店,蔬菜店,蔬菜商店,不会说菜商店,对吧?

seren:菜商店……呃,确实听起来怪怪的。

端木:这就是一个21结构(两个字的词加上一个字的词)优于12结构的例子,相似的还有很多。可是如果我们换一个例子,捕捉老虎,这又不一样了。捕捉虎不好,但是捉老虎听着就比较通顺,这又是一个12结构比21结构好的例子。

seren:唔,有意思。这也是因为结构,不,组成部分不一样吧?那个捉老虎,是动词跟着一个宾语;而蔬菜商店,是形容词跟着名词……

端木:其实两个都是名词……

seren:好吧,都是名词,但是前面修饰后面的……那我们能不能说——好像有点泛化——但是,如果是动宾的结构,就是12比较好,如果是那个前面修饰后面的结构……

端木:这叫偏正结构。

seren:好……那么偏正结构,就是21比较好。

端木:(笑)是的,大多数情况下是你总结的这个样子。这个现象,吕叔湘六十年代就提出来了,动宾的时候我们爱用12结构,偏正的时候用21,但是为什么呢?我们那时候不知道。

seren:(喃喃地)为什么呢……?这只是为了说的顺口么?

端木:那我们来看英语,英语跟汉语不一样,但是它有个重音。英语里面也有偏正结构的复合词,这种时候,重音一般放在前面,比如pan cake,比如white house。而对那些动宾结构的呢,一般放在后面,比如watch TV,buy a car,对吧?所以我们说“重长”。

seren:(迷惑地)重?长?

端木:英语里的重音,对应着汉语里面比较长的那个词——也就是12或者21里面的那个2。

seren:哦……英语的重音对应汉语长的那个词,这是为了强调么?

端木:(笑)四十年代有一个克劳德香农(Claude Shannon),他是做计算和通信方面的,也是我们密歇根大学毕业的。他提出了一个information theory(信息论)。这个理论是用来确定词语的信息量的。他认为如果拿一个短语来看,如果一个词在短语结构的同一个位置出现的频率越高,信息量就越小,相反,就越大。比如我们看英语的这个冠词,出现在单数名词前面的,基本就是a,或者the,每一个出现的频率几乎是50%,它们所含的信息量就很小。哪怕漏写了这个冠词,我们还是一下子就知道是什么意思。但是冠词后面的那个名词,就有很多不同的可能,要是漏写了,就不知道要说什么了,所以信息量就很高。

现在我们用这个理论来看刚才的问题,比如动宾结构。在语言里,动词的数量只是名词的三分之一左右,也就是说,一个动词出现在它所在的位置上,要比一个名词出现在宾语位置上的概率高多了,所以,宾语那部分是信息含量更高的。还不光是这样,宾语可以是一个名词,还可以是一个被形容词修饰的名词,譬如打“大老虎”。你想想看,名词那么多,再加上和形容词的组合,这个可能性有多大!这样,我就提出了一个观点,出现在宾语这个位置的词,之所以在英语里面我们重读它,而汉语里面我们放一个长一点的词,都是为了突出它的重要性,因为它信息含量大。其实我们说话的时候,有的词信息多,有的少,总是有这个主次之分的,而这个主次就靠这个“重长”来体现。

seren:我觉得这个主次在传递信息和想问题里面很重要啊,要是没有主次,所有词都一样,那也没办法交流了……

端木:是的,可是如果光这么想哪个词信息量大,我们脑子就不够用了。但是用这个规律来看这些词,再来想为什么会有“重长”这样的语言学现象,就很清楚了。

语言的演化

端木:英语里面有个单词with,它的音节是英语所有单词里面唯一一个这样发音的(th发浊辅音)。现在有的人已经开始把th发成清辅音了,这样它就不再是唯一例外了。还有的时候,一种语言会受别的语言影响。譬如四川话里面“阶级”的“阶”,有j-i-ai和g-ai两种发音。其实g-ai是原来的发音,但是受了普通话的影响,现在很多人念j-i-ai了,现在差别变小了。

seren:那这种越变越简单的,是语言演化的趋势么?

端木:这是趋势之一。一般来说,在演化里丢掉那些outliers(“例外”的部分),是一个规律。其实,在达尔文那个时候就开始争论这件事情了。达尔文的进化论一出来,语言学家就开始争论,语言里面有没有进化?有没有优胜劣汰?他们看到各个地方语言不一样:你看,中文,光光的,什么都没有,很简单。而英语呢,有几个时态变化,复杂一点,在中间。而再看那些意大利语啊,德语啊,又有时态变化,词还要分阴性阳性,很复杂。那大家就开始争论了,如果语言也有进化,谁高级谁低级呢?

有的人就说了,能够掌握复杂语言复杂规律的大脑应该更发达,所以复杂的更高级,中文那么简单,是最低级的——他们当时也有个想法,觉得语言和社会的发展是成正比的。但是达尔文自己其实不同意这个说法的——他也知道一点中国,像马可波罗写的,并不像其他人想到的那么落后。达尔文觉得简单的语言不一定就说明大脑低级。我举个例子,我让你帮我做件事情,要是我必须给你一步一步写清楚,你才能做得好,比起我只要跟你提一句,你就把事情给我办好了,哪个更聪明?达尔文他们觉得语言可能也是这样,要是得记住那么多复杂的规则,才能把意思表达出来,比起简简单单地就把意思说出来了,说不定后者更高级呢。

seren:那是这样吗?

端木:其实呢,不是的。语言的变化很复杂,并不像那个时代的人想的那样简单,一条线。语言这个东西,不是一个人一群人商量一下就制造出来的完美的东西,它是自然地出现的。有的时候,你把这里简化了,可是那里却又复杂化了。你看这里的这些茶几(端木指指我们面前带轱辘的黑色小茶几——现在上面放着我们两个的空盘子。这样的茶几在整个商学院的大厅里到处都是。),现在我们在这儿说话,把它从旁边搬过来了,待会儿我们走了,别人来了,又把它搬到别的地方去了,语言的发展也有点像这样。

有很多语言都在慢慢地变,有时有些词的音节变得不发音了,图简便。比如说police,很多人都吞掉那个o,读成“plice”。还有potato,读成“ptato”。再说Toronto,多伦多,也有人吞掉第一个o变成t-ronto。而多伦多当地的人,甚至连中间的停顿都不要了,直接念成“tronto”。我们中文里面的豆腐这个词,经常“腐”就发一个f的音(轻声)。这就是简化发生了。可是这种简化,在英语的那几个例子里面,去掉一个元音,却创造了两个连在一起的辅音字母,有时候还挺难发音。豆腐那个例子呢,虽然没有创造两个连在一起的辅音,可是也创造出一个中文里面没有的新音节(douf),这也增加了语言的多样性。你看,这种简化反而创造了复杂性。还有的时候,人们会把那两个连在一起的辅音去掉一个,音节变少,这就有点向中文这边发展的意思。可是我们中文呢,现在却经常在单音节词里补充一个字,让它变长,音节变多,譬如鸭子的子,老虎的老。这么看起来,语言的变化不是单向的,一会儿长一会儿短,是一个循环往复的动态的过程。

seren:啊,真有意思!语言的发展是循环往复波动的……还有啊,我觉得好多地方的语言差别特别大,完全跟两条线一样。像我去夏威夷,看看他们的土著语,其实发音很像日文或者中文,都是ma、po、la之类的音节,虽然嘟噜嘟噜一大串,发音倒是都特简单。但是我以前让实验室的墨西哥妹妹教我西班牙语,里面有的音,两个r连一起的,我就完全学不会。她就跟我说,这个音啊,小孩子五岁之前都发不出来,可是十五岁之后如果还发不出来那一辈子都发不出来了。我经常就觉得,这个不同地方的语言发展怎么差别这么大,简单的好简单,复杂的可以那么复杂,好像一点联系都没有的。

端木:呵呵,这个问题呢,其实就很难研究了。为什么呢?因为我们知道的历史太短了。我们知道的,主要也就是有文字以后这两三千年。而且文字最开始出现,并不是为了写历史用的,是为了记事情,譬如你借了我什么东西,我做个记号,怕忘了。历史这个东西,都是到了后来,人们——尤其是皇帝,开始想高级的事情了,让你给写下来。所以我们知道的东西真的很少,五千年——就算一万年,你想想看,跟人类出现比……

seren:几百万年了。

端木:对,所以这个语言具体怎么变的,我们不知道。

seren:这个真是没法知道。

端木:也不是没法知道,就是现在没法研究。所以我们做语言的就先把这个问题搁下来,以后再说。现在我们主要是找找语言的规律,就像我刚说的,信息量的规律啊,复合词和短语结构的规律啊,从里面学点东西。

语言学也会演化

seren:您能不能跟我们讲讲这些年这个研究领域有些什么特别大的事,或者什么趋势值得大家主意的?

端木:好的。主要有几个方面的变化,第一是要求研究样本的数量变多了。以前啊,你做研究发文章,找一个人就行了。譬如做普通话,你就找一个北京人,证明一下他的身份,说明他合适这个研究,就够了。最多不过找俩,一男一女。现在不行了,必须找十来二十个,得重复做。第二个呢,是研究的手段变化了。像我刚说的,开始重视统计啊,数据啊,你以前说一个理论就行,现在要看证据。

seren:这听起来真像自然科学了,语言学在美国该是社会科学吧?

端木:其实语言学很宽,有的研究是偏人文方面的,有的像我说要做统计啊,数据啊,算社会科学,还有的就是基础自然科学的研究,做实验的。National Science Foundation(美国国家科学基金会)还提供语言学研究的基金呢。

seren:啊,原来也可以申请NSF funding的!

端木:是的。其实现在我们领域也比较喜欢做一些跟自然科学的研究能挂上钩的东西,不像以前,都是各做各的,搞出很多很高深的术语啊,复杂的概念啊,其实没必要。现在就偏向于一些能和别的学科交叉、交流的。还有一点变化,就是以前很多东西是非黑即白的,比如语法,一定要这么样,不能那样。现在不是了,开始看到有变化,有差异,有variation的。

seren:听起来真是很有趣。其实在采访您之前,我还挺担心的,心想我一个理科生,什么语言学都不懂,怎么问问题啊。没想到听您说了这么多,觉得都特别有意思,而且感觉我理科的思维也能用上去,能体会。

端木:那就太好了!我们就是希望能让大家都了解我们做什么,其实我觉得只要我们能解释好,大家会理解我们的研究的。

seren心里想:这跟我们松鼠会的理念真是不谋而合!

和端木老师从商学院宽敞的大厅里出来,在校园里互相道别。外面依然阴霾沉沉,松鼠们趁着秋尽冬来时难得的和暖时光,在草地上觅食,飞跑着穿过冷清的大街小巷。我反复地回忆着刚才谈话里的细节,生怕每一分秒的时间都在跟我的记忆力争夺那些端木老师讲过的小故事,真想插翅飞回家去,记下一切……