潜伏语义分析的理论及其应用资料

来源:百度文库 编辑:神马文学网 时间:2024/04/25 06:37:47
您的位置:资料中心->文史论文->文字学论文-> 潜伏语义分析的理论及其应用资料
文字学论文
资料阅读排行
·方位语素地理名词造词的内在手段和外在因素
·新世纪的澳门语言策略
·中国符号学研究20年
·中古音分期综述
·新词新语规范基本原则
·藏缅语的形修名语序
·苗瑶语核心词的词源关系
·】“的”的基本功能和派生功能
·吴徽语入声演变的方式
·潜伏语义分析的理论及其应用
潜伏语义分析的理论及其应用
作者:未知 来源:http://www.7784.cn 加入时间:2006-3-8
1.柏拉图问题谈起
从古希腊哲人柏拉图(Plato)开始,人们就为一个关于认知的神秘问题所困惑:人们为什么能够在他们所得到的稀少信息基础上获得那么多的知识?这个问题有时被称为柏拉图问题(注:在柏拉图对话录里,有几处接触到知识来源问题。他在Meno里指出,灵魂是不灭的,已经学习了所有的事物,所以真正的学习无非是回忆内在的、忘记了的事物;在Phaedo里,他又把内在论和形式理论联系起来,例如“平等”的形式不可能来自实际的观察,而是与生俱来的;在Cratylus里则认为,词语是天生(physis),不是约定俗成(nomos)的。),有时被称为“刺激的贫乏”、“缺乏负面证据”或语言习得的逻辑问题。这个问题引起了哲学家、心理学家、语言学家、计算机科学家的广泛兴趣,各自提出不同的解释。Chomsky派(注:Chomsky(1965,1986,2000)在不同场合都以儿童词汇习得为例反复说明这个问题,因为“负面的证据”已成为他的语言共项论的主要支柱:Pinker(1994)从进化、历史、解剖、生理和儿童发育的不同角度观察了语言的起源,认为语言习得一定是建筑在一个强有力的和特殊的内在机制,并称之为“语言天性”。)秉承了柏拉图和笛卡儿的观点提出了“天赋论”或“内在论”,对这个问题作出了一种回答。但是心理语言学家MacWhinney(注:Brian  Mac  Whinney最近在广东外语外贸大学召开的心理语言学与外语教学讨论会上谈到,在他所提出的竞争模型里没有负面的证据,只有正面的证据。)、自然语言处理家Sampson(注:Geoffrer  Sampson(1997)写了一本关于语言天性争论的专著Educating  Eve,认为负面证据之说是自我矛盾的。在Empirical  Linguistics(2001)里,更进一步指出,负面证据是内省法臆想出来的。我们没有负面证据也能归纳出万有引力定律,为什么要编一本故意把of  of  the  of(负面证据)排除在外的语法?)却对此提出质疑。哲学家Quine对这个问题做出另一种回答,他举了一个所谓"Gavagai"的有趣的例子:一个到外国访问的人看到一只兔子,偶然听到他的资料提供人说gavagai。在这种证据贫乏的情况下,gavagai可以指“兔子”(一个完整的事物),“有皮毛的”(事物的未分离部分),或“天气不错,是吗?”(事物发生的时间段),他认为纯粹以经验为基础的客观真理和意义根本不存在,这简直是“归纳法的耻辱”(scandal  of  induction)。对田野作业的语言学家来说,分析和综合的区别并不存在。进化心理学家Shepard(1987)却认为柏拉图问题是心理学的核心问题,关于概括和相似性的普遍理论对心理学就等于牛顿定律对物理学那样重要。
尽管大多数人都承认语言能力的遗传性,但是这种生物机制的存在并没有解决Shepard所提出的概括(在母语习得里,更成为“过度概括”)和相似性的问题。这个归纳性难题经常被看成是范畴化的问题,那就是说我们必须找出的这样一个机制,足以把一系列刺激、语词或概念(例如猎豹和老虎)看成是一类的(相似的)事物。但是相似性以什么为基础却众说纷纭,有特征论、原型论,范式论、心理本质论、心理语境论,等等,不一而足(桂诗春2000)。这些理论模型都旨在提出一些制约,以缩小归纳(也就是说学习)所要解决的问题空间。就儿童词汇习得而言,一些心理语言学家假设存在一些对词语赋予意义的制约,儿童在早期习得词汇时都假定:多数词语在感知上都是对应物体的名称;两个词通常都有两个不同的意义;享有共同声音的词语通常都是意义上相关的;一个不熟悉的言语声音可能指一些儿童还未能掌握其对应词的东西。但是这也不是没有问题,Landauer与Dumais(1997)指出,一个问题是我们不知道某一个制约是否真正存在;少年儿童虽然假定相同的物体只有一个名称,但是他们所接触的语言是否也是这样呢?又如某一种制约的产生是逐步进化的,还是通过认知而起作用的一种普遍性制约?还有一个问题是,某些制约的存在和产生出于逻辑的需要,但这又是不够的,可以从3方面看:1)某一套制约是否逻辑上和语用上充分,也就是说使用了它们以后是否就能解决问题?例如儿童认为没有同义词,这在多大程度上能帮助他们学习词汇?2)和方法论有关,怎样才能获得前一个问题的答案?怎样知道某一些特定制约的组合应用到自然环境的输入时才能解决问题?3)怎样决定一个提出来的模型是否具有心理现实性?Landauer认为要解决这些问题必须使用模拟的模型。而他和其他几个研究人员Foltz、Dumais、Deerwester、Furnas等人(Deerwester  et.al.1990)所提出的,而又得到著名语篇研究者Kintsch支持的模型就是潜伏语义分析(Latent  Semantic  Analysis,LSA)。这是一个多维数的线性组合模型,“这个模型只是一个普遍的学习机制,本身并不体现人类知识,但是它通过分析一个很大的自然语言文本语料库来生成一个足以体现词语和文本片段的相似性的表征。”
2.LSA的理据
从潜伏性语义分析的角度看来,归纳就是减少维数(reduction  of  dimensionality)。Landauer举了一个形象的例子,一个人站在高原上打电话告诉他的朋友三间房子的位置,A和B、A和C的距离都是5个单位,而B和C的距离则是8个单位。在他的朋友脑海里就形成一个两个维数的三角形。如果他继续补充说,这三间房子是在一条直线上,他的朋友就会说,他一定是看错了这三个房子的距离。A和B、C的距离应该是4.5个单位,而B和C的距离应该是9个单位。因为在一个两维数的三角形里,其底边应该是其他两个边的和。这说明,减少维数可改善估算。在研究工作中,研究人员往往通过减少维数来降低计算的复杂性,即把数据作平滑化处理:简化数据并填补所缺的节点。在东京召开的联合国大学主持的混沌对科学和社会的冲击学术会议上,两个著名的混沌学专家Feigenbaun和Aihara就一致认为,人脑由100亿个神经元组成,而我们要对它的相互作用进行观察只能选取一个极低的维数。(注:这次大会的文集我国已由杨立、刘巨彬等译,刘式达、杜先之等校,湖南科学技术出版社出版,题为《混沌:对科学和社会的冲击》,两人的对话见该书394-395页。)在统计学中,这种减少维数的方法,例如因子分析、多维数量表也经常被采用,Osgood(1971)在70年代所做的语义微分分析就用过因子分析。同样地,我们也可以把两个词的语义相似性表示为距离:距离越近,相似性就越强。假定两个词在一个语篇单位(短语、句子或段落)中出现的频率和它们的语义距离成反比例(频率越多,距离越近),那它们就和语义相似性直接相关。我们可以通过观察两个词在同一单位中出现的相对频率来估算出其语义相似性。因为人们进行交际时,都会使用一些基本成分(如词),使两个词语中存在某种相对的相似性。发送者会选择同一语义空间彼此相近的词,它们就会有不同的语义距离;而接收者则会按照它们在同一上下文中的相对频率来估算这些距离。但是自然语言中的词语数量极为庞大,而接收到的词语却数量极少,例如两个词的频率都是百万分之一,它们虽然有相关的意义,也不大可能会一起发生。可是如果我们的接收机制按照统计知识把接受到的词语表示为相似的语义空间,即同一个维数的各个节点,情况就会大大改善。
附图
基于上述的假设,潜伏性语义分析可以用来比较不同语篇的语义相似性。研究语篇理解的首要目标是:了解有哪些足以影响读者从文本材料中抽取和保存信息的能力的因素,例如让受试写一篇文本材料的摘要,然后再看他们从文本中获取了什么信息。这意味着把读者的文本表征(认知模型)和原来的文本表征加以比较,即把摘要中每一个句子的信息和文本中的句子信息加以比较。但是要对信息进行比较并非易事,它要求扫描原文,找出信息的所在。而且受试所写的摘要往往并不全都采用原文中的词语。所以光比较词语也不成。研究人员要比较的是摘要和原来文本的语义内容。Kintsch(1988,1998)所提出的构建整合模型(construction-integration  model)就是一个观察读者对文本表征的认知模型,它把读者摘要的语义信息表示为一些语义成分组合,称之为命题(prepositions)。文本中的每一个子句是一个命题(如the  red  rose和the  rose  is  red,都属于一个命题)。这些命题根据各种范畴连接起来,例如看它们是否共享中项(arguments)和指称(referents)。一个文本的所有命题组合起来就成为文本结构。不少实验都证明命题是人们的心理处理单位(如Graesser1981)。对文本和受试对它回述进行命题分析可以对一系列语义基本元素加以比较,其好处是这种比较并非表层结构的比较。但问题是,目前还没有生成命题的自动化程序,因为计算机必须对文本进行正确的语法分析,并且了解词语的正确意义。于是可以利用计算机来对语义相似性进行比较的潜伏性语义分析就应运而生了。
LSA原来是建筑在以语义内容的基础上以改善信息提取的一种设计,称为潜伏性语义索引(Latent  Semantic  Indexing,LSI)。在现实生活里,往往同一个语义概念表示为不同的词语,如果以原词作为检索单位,就费时失事。例如“电子计算机”往往又可以简称为“计算机”或“电脑”,甚至“服务器”和“机器”。如果在检索中只键入任何一种说法就能查出“电子计算机”,不是方便得多吗?这种方法还可以避免同义性的问题。LSA的基本假设是不同文件(文件可大可小,可以是词语所出现的整个语境,也可以是某些文本、段落和句子)的词语使用型式存在着某种“潜伏的”结构,而使用一些统计的方法可以估量出这种潜伏性结构。这些方法通过分析词语和文件之间的联系,产生一个在相同语境中使用的词语将会在语义上更为密切联系的表征。例如:
(1)The  U.S.S.Nashville  arrived  in  Colon  harbor  with  42  marines
(2)With  the  warship  in  Colon  harbor,the  Colombian  troops  withdrew.
"warship"所出现的语境(LSA称之为“向量”,vector)和"Nashville"所出现的语境相似,两者的上下文都有"Colon"和"harbor"。LSA所使用的技巧可以自动找出这些更深层的联系的结构。
又如我们读到下面的句子:
(3)John  is  Bob‘s  brother  and  Mary  is  Anne‘s  mother.
(4)Mary  is  Bob‘s  mother.
这两句话里并没有出现表示亲属关系的sister,daughter,father,son等词语,但第(4)句使我们意识到Bob和Ann是兄弟姐妹,Anne是John的女儿,John是Ann的父亲,Bob是Mary的儿子。当然LSA所推断出的词际关系往往并非完全符合逻辑,它所揭示的仅是相似性关系。这些关系相互牵连和制约,可以产生出一些模糊的间接推断,关系上可强可弱,逻辑上可对可错。
3.怎样做LSA?
LSA以大规模的语料库为基础,使用了一种完全自动化的数学/统计技巧来抽取和推断词际关系,这种技巧就是线性代数中的奇异值分解(Singular  Value  Decomposition,SVD)。从概念上说,LSA模型可以理解为一个具有三层的神经网络系统。在SVD里,一个m×n的长方形矩阵{A}(m是行,n是列,m>n),被分解为三个矩阵:一个是m×n的成分矩阵{U},把原来的列的实体表示为派生的正交因子值的向量;另一个矩阵{w}用同样的方法表示原来列N×N的实体;第三个矩阵{V}的转置(transpose)是一个包括有标度值的直角矩阵(N×N)。
{A}={U}{w}{V}[T]
 
这三个矩阵相乘就可以恢复原来矩阵。如果我们在恢复时减少维数,就可以取得压缩语义空间的效果。
附图
下面是一个常被引用的例子:现有9条技术备忘录的题目,其中5条是关于人和计算机交互作用的,4条是关于数学图论的。这些题目在概念上不大相关,它们构成一个9列12行的矩阵,每一行是在这些题目中出现起码两次的实义词(均标为斜体),整理为表1。
c1:Human  machine  interface  for  ABC  computer  applications
c2:A  survey  of  user  opinion  of  computer  system  response  time
c3:The  EPS  user  interface  management  system
c4:System  and  human  system  engineering  testing  of  EPS
c5:Relation  of  user  perceived  response  time  to  error  measurement
m1:The  generation  of  random,  binary,ordered  trees
m2:The  intersection  graph  of  paths  in  trees
m3:Graph  minors  IV:Widths  of  trees  and  well-quasi-ordering
m4:  Graph  minors:A  survey
表1
附图
使用SVD技术,就得到下列的3个矩阵,如表2:
表2
附图
然后我们取这三个矩阵的头两列(即取其两个维数)来加以还原,便得到下面的矩阵(表3):
表3
附图
我们可以首先看m4列的survey和trees。trees这个词在m4题目里并没有出现,但是m4里有Graph  minors,而m3里也有Graph  minors,且出现了trees,所以在原来矩阵里为0的值被变为0.66,它表示在有graph和minors的题目的无限样本中,trees可能出现0.66倍。相反地,survey在原来矩阵中的m4中为1,但是却变为0.42,反映了它在这样的上下文里并非人们所期望的,不足以表示这个题目的特征。我们还可以比较human和user,human和minors在原来矩阵和后来矩阵的相关系数:前者原为-.38,后者原为-.29,现分别提高到.94和-.83。而在原来的矩阵里,human并没有和user或minors一起出现。减少了维数后显示human和user是更为相似,而human和minors则相反,更为不相似。
LSA可以用来揭示一些隐含的内部关系。让我们再看另一个例子。中国学生英语语料库(桂诗春、杨惠中,2002)是一个有100万词的作文语料库,对5种不同水平——中学生(st2)、大学英语4级(st3)、大学英语6级(st4)、专业英语低年级(st5)、专业英语高年级(st6)——的写作失误进行了标注(共有61种)。最常见的失误有21种,占全部失误的87%。根据Landauer等人的意见,在进行SVD之前,必须对这些数据作预处理:1)把每个频数+1,然后转换成对数;2)把每一列的数值计算为-plog  p,然后除以每列的平均信息量(即熵,entropy)。其公式(Maletic  et  al.1999)为:
附图
这样做的目的是通过估算每一个词项在每一个语篇的重要性(即该词项与它所出现的语篇所提供的信息量的程度成反比例),对它的出现率加权。在信息提取中经常使用这种转换,可获显著效果。限于篇幅,我们略去了计算的中间数据和经SVD处理后(包括将维数减为2个)结果(注:我们使用的工具是Excel的“数据分析”和国际牲畜研究院Greg  Hood所编制的,可在Excel上运转的Poptools2.4版。),只报告几个有意义的变化,这些变化说明,由于减少了维数,几种学习者的言语失误的关系都有所微调,趋于更为合理。例如第一种失误是拼写失误(Fml)。转换值并没有改变原来的次序,大学英语4级和6级学习者的拼写失误比中学学习者略多,因为它们的语源来自CET考试的命题写作,而中学生则是自由作文的居多。命题写作有特定的用词要求,往往成为拼写失误的来源(如要求学习者用pollution)。现在的分析并没有把特定用词要求考虑在里面,而仅就失误的频数和其他失误的关系而言,经过SVD处理后,这种失误的发生率呈现为逐步略有降低的趋势,较符合中国英语学习者的实际。和写作用词有很大联系的是用错了词(wd3),经过SVD处理后的变化如下:
Fm1   St2   St3   St4   St5   St6
原始频数 1929   2877  2113   1827  1687
转换值  3.30   3.47  3.34   3.27  3.24
处理后值 3.52   3.46  3.36   3.25  3.00
Wd3   St2   St3   St4   St5   St6
原始频数 1102   1635  1815   757360
转换值  3.27   3.45  3.50   3.09  2.75
处理后值 3.30   3.49  3.44   2.99  2.84
经处理后,St3仍然是最高的,但St4的绝对频数虽然是最高的,处理后则比St3略低。St6的绝对频数比St5的少一半,但处理后的值为2.84并没有比2.99少一半,仅低0.15倍,这说明用错词在St6中仍然是一个常犯的失误。句法结构(Sn8)的失误也是中国学习者常见的失误,下面是另一个SVD处理后的变化:
Sn8   St2   St3   St4   St5   St6
原始频数 1104   446   862   493   232
转换值  3.27   2.85  3.16   2.90  2.55
处理后值 3.14   3.06  2.97   2.90  2.68
从绝对频数来看,St3似乎比St2和St4、St5都少,处理后则显得较为合理,趋于逐步降低。
一般来说,在SVD处理后还可以比较处理前后的余弦cosine(θ)(注:余弦Cosine(θ)为两个向量的夹角,比相关系数更能表示相似性的程度。其公式为:),有时亦用相关系数来表示。经过计算,相关系数从处理前的0.604增至0.728。拼写失误是中国学习者最容易犯的失误,和各种失误都有密切的关系。经处理后,它的平均相关系数从0.614提高到0.817。
4.LSA的应用
LSA以矩阵代数的SVD为依托,而SVD在信息处理,如图象压缩、噪音过滤、开发软件的源代码等方面都得到较广泛的使用。LSA在语篇处理和语义的分析和提取方面均有广阔应用前景。
第一、我们要看LSA模型是怎样回答我们柏拉图问题。需要证明的是通过大量接触自然文本,人们能否获得语义相似性的知识?Landauer等人先对一个有代表性的英语语料库(包括美联社的新闻、给学生看的Grolier‘s美国大百科词典和有代表性的儿童读物)做SVD分析,然后用这个模型来做一次TOEFL同义词测试(共80个项目)。为了模拟人的行为,他们把题目中的测试词和每个选项的余弦都计算出来,然后让LSA模型来选择意义最接近的词。LSA的答对率为65%,相当于在美国的来自非英语国家的考生的平均答对率。但是要进一步回答儿童怎样在“负面的证据”的情况下习得词汇,还要考虑效率问题。Landauer等人认为,归纳方法取决于重建一个处于高维数空间的多重相似性系统,这样出现在局部上下文的事件也就可以反映高层次语义空间的相似性。因为四分之三的词语知识都是来自间接归纳,即接触一些那些词语并不在其中出现的文本。他们进一步完善其语料库的选词办法,并对照Carroll等人的Word  Frequency  Book(1971)所提供的数据,推断出每一段文本后的词汇增长率为0.20。如果一般学生每天平均读50段文字,就可每天增长10个新词。
第二、在信息提取方面,出现了LSI技术,以取代一般的主题词检索。早在80年代,Dumais等人(1982)对一个包括有1033个医学文献的摘要和题目的数据库,自动检索到出现两次以上的词语5823个,经过SVD处理取得100个因子,然后对数据库提出30个问题,LSI比原来的主题词检索改善了13%。后来技术有所提高,据Berry等人(1994)对几个系统的检验,LSI的改善程度已达30%。Deerwester等人(1990)认为,LSI的优点是,它可以解决同义性、多义性和词语依赖性(term  dependency)三方面的问题。LSI的研究还在发展,一些令人兴奋的进展是信息过滤、增加检索问题的长度(TREC系统可以提出长达50个词的问题来进行检索)和进行跨语种检索(Rosario  2000)。
第三、文本相似性研究。在语篇理解方面,Foltz,Kintsch和Landauer(1993)等人用LSA来自动化处理语篇连贯(以心脏科学文献为试验样本),把一个句子或片段和接着的句子或片段的连贯性来分析比较,其相关系数高达.90。在他们所建立的网站http://LSA.colorado.edu上面提供了一些已经根据心理学、百科全书、文学成语、心脏科学的语料库给读者进行网上比较文本相似性研究。例如我们随机从一本认知心理学教科书里找了两段在词语上没有多大联系的话:
"These  findings  indicate  a  considerable  degree  of  functional  equivalence  of
perception
and  imagery.However,it  is  possible  that  subjects  in  the  imagery  condition  merely
made
plausible  guesses  about  the  fields  of  resolution,and  did  not  actually  rely  on
imagery
at  a11."
"While  it  is  very  straightforward  to  see  that  previous  learning  can  facilitate
problem
solving  by  supplying  well-practiced  skills  and  strategies,it  is  perhaps  less  obvious  that  knowledge  acquired
in  the  past  can  sometimes  disrupt,and  interfere  with,subsequent  attempts  to  solve
problems."
这两段话在用词方面没有太多相同之处,但是和心理学语料库的维数比较以后,它们的相关是.82。
第四、使用LSA来进行写作质量评估。Landauer,Laham和Foltz(1998)试验使用5种不同的方法来应用LSA对作文题目的答案进行评分,如让评分员对一些作文样本进行评分,然后计算出评了分的作文和未评分的作文的余弦,再根据相似性权重把最相似的作文分数的平均分赋予未评分的作文,等等。这5种方法所评出的分数的相关程度接近于它们和专家评分的相关程度。在另一项研究中,他们还用这方法来评估8个考试,题目从心脏解剖和生理学到心理学概念,美国历史,当前社会问题和市场问题。通过元分析发现LSA和专业评分员(来自教育考试服务公司或其他专业机构或课程导师)的相关高于专业评分员之间的相关。LSA评分的可靠性说明一个篇章的全面的语义表征主要决定于词的选择,而对句法使用则要求不高。
第五、使用LSA来模拟心理语言学试验。语义启动是一种常用的试验,Landauer用LSA方法来模拟Till等人(1988)的判断多义词的试验,结果完全一致。这些结果显示在语篇理解中,忽略了词序、句子结构、非线性的词与词的相互作用的词义关系也能够预测人类的行为。Kintsch等人(1999)还通过LSA所获得的信息提出长时工作记忆(Long-term  Working  Memory,LTWM)的理论。他认为人类的记忆系统包括了感知特征、语言特征、命题结构、宏结构、语境模型、控制结构、目标、词汇知识、框架、一般知识、情节记忆等等成分。它们对理解语篇至为重要,远远超过短时记忆。LTWM认为在某些条件下工作记忆可以大大延伸,LSA在某种程度模拟了这种机制,实际上也模拟了人类的知识系统。大部分人类知识都体现为语言,而LSA通过减少维数来筛选它所处理的信息,从而保留了它所处理的文本的主要语义关系。例如在LSA处理的文件中,mountain和mountains的相关系数可能很低,但是通过减少维数后,它们的相关却是.81。它的推断是这两个词在语义上有密切联系。同样地,围绕mountain还可以找到peaks,rugged,ridges和climber,而围绕mountains又可以找到peaks,rugged,plateaus和foothills。我们所需要的正是这些信息,以认识人们在理解过程中是怎样通过LTWM来激活知识的。又如"The  band  played  a  waltz."(乐队奏了一曲华尔兹)和"Mary  loved  to  dance."  (玛丽喜欢跳舞)这两句话虽然无甚直接联系,但它们都分别激活了一些第三方的互有联系的语词,故其余弦为.45。
第六、在LSA的基础上,Kintsch等(2000)及Steinhart(2001)又开发了训练学生写作的软件。这个软件是一个在线的辅导学生写摘要的软件,叫做Summary  Street。Steinhart认为,写摘要是一种比较难的技能,低年级学生(如初中生)往往依靠“抄和减”的策略来写摘要,而高年级的学生(如高中生)则使用较复杂的压缩规则,如重建和归纳。写摘要训练不仅仅是一种写作技巧的训练,它可以提高学生的阅读理解、获取知识和思维能力。这个软件首先让学生看一些文章如能源科学、古代文明、血液循环系统等,然后提出写摘要的一些要求,如找出主题句、找出支持主题句的两三个重要思想和细节,把它们组成一句话,用一个概括性的词语来代替具体的项目和事件,避免烦琐的信息和细节,避免重复信息等等。学生根据这些要求把阅读的文章写成摘要,在网上输入到Summary  Street系统里,系统就能分析摘要,告诉学生摘要在多大程度上反映原文,长度是否合乎要求,等等。学生可以通过系统提供的反馈信息(包括指出拼写错误和用词不当,信息覆盖面是否足够等),不断改写摘要。他在Boulder县中学试验的结果说明,运用Summary  Street训练学生所写出的摘要比使用传统的文字处理器写出的摘要要好,特别是处理难度比较大的文章更是如此。
5.启发和问题
LSA直逼哲学上的认识论问题,却又开拓了广阔的应用前景,惹人深思。一是人们认识世界从意义开始,语篇里隐含着许多错综复杂的语义关系,是了解语义的钥匙。二是现代科学技术为建立、储存和提取包括了大量语篇的语料库创造了条件,也为人们认识这些错综复杂的语义关系创造了条件,使我们有可能解决许多与文本有关的问题。三是认识问题的一个有效途径是减少维数,提高概括力。和维数匹配的归纳可以大大改善知识的提取和表征。四是LSA要解决的语篇中的语义关系,它既依赖于计算机技术,又利用了奇异值分解的线性代数模型,充分体现了文理互相渗透的特点。
但是LSA也留下了一些有待我们继续探索的问题。最主要的是它只考虑语词,而不考虑句法信息,甚至不考虑词序的信息。而且它完全依赖于数学模型,所得到的结果有时不好解释。
【参考文献】
1 Berry,M.,S.Dumais,&  G.O‘Brien[M].1994.Using  linear  algebra  for  Intelligent  Information  Retrieval  [M].Boston:
Houghton
Mifflin  Company.
2 Carroll,J.,et  al.1971.Word  Frequency  Book.Houghton  Mifflin  Company  &  American
Heritage
Publishing  Co.,Inc.
3 Chomsky,N.1965.Aspects  of  the  Theory  of  Syntax  [M].Cambridge,MA:
MIT  Press.
4 Chomsky,N.1986.Knowledge  of  language:Its  nature,origin,and  use  [M].
Westport:
Greenwood
Publishing  Group.
5 Chomsky,N.2000.New  horizons  in  the  study  of  language  and  mind[M].Cambridge:Cambridge  University  Press.
6 Deerwester,S,S.Dumais,G.Fumas,T.Landuauer,&  R.Harshman.1990.Indexing  by  latent
semantic  analysis  [J]
.Journal  of  the  American  Society  for  Information  Science  41:391-407.
7 Dumais,S.et  al.1982.Using  semantic  analysis  to  improve  access  to  textual
information  [J].Machine  Studies  17:87-107.
8 Foltz,P.W.,W.Kintsch  &  T.K.Landauer.1993  (Jan).  An  analysis  of  textual  coherence
using  Latent  Semantic  Indexing  [A].Paper  presented  at  the  meeting  of  the  Society
for  Text  and  Discourse,Jackson,WY.
9 Geoffrey  sampson.2001.Empirical  Linguistics  [M].London:Continuum.
10 Graesser,A.1981.Prose  Comprehension  beyond  the  word  [M].New  York:Springer.
11 Kintsch,W.,D.Steinhart,G.Stahl  &  LSA  Research  Group.2000.  Developing  summarization
skills  through  the  use  of  LSA-Based  Feedback  [J].Interactive  learning  environments  8  (2):87-109.
12 Kintsch,W.1988.The  role  of  knowledge  in  discourse  comprehension:A  construction-integration  model  [J].Psychological  Review  95:163-182.
13 Kintsch,W.1998.Comprehension  [M].Cambridge  University  Press:86-91.
14 Kintsch,W.,L.Vimla,K.Patel  &  A.Ericsson.1999.The  role  of  long-term  working  memory  in  text  comprehension  [J].Psychologia  42:186-198.
15 Landauer,T.&  S.Dumais.1997.A  solution  to  Plato‘s  problem:The  Latent  Semantic
Analysis  theory  of  the  acquisition,induction,and  representation  of  knowledge
[J].Psychological  Review  104:211-240.
16 Landauer,T.K.,D.Laham  &  P.W.Foltz.1998.Computer-based  grading  of  the  conceptual  content  of  essays.Unpublished  manuscript.
17 Landauer,T.,P.W.Foltz  &  D.Lanham.1998  An  introduction  to  latent  semantic
analysis  [J].  Discourse  Processes  25:259-284.
18 Maletic,J.et  al.1999.14[th]IEEE  ASE‘99  [A].Cocoa  Beach  FL.12-15[th][C].pp.251-254.
19 Osgood,C  1971.Exploration  in  semantic  space:A  personal  diary  [J].Journal  of  Social
Issues  27:5-64.
20 Pinker.1994.The  Language  Instinct.[M].New  York:William
Morrow  Company,Inc.
21 Rosario,B.2000.Latent  Semantic  Indexing:An  overview
[A].INFOSYS
240  Spring  2000.
22 Shepard,R.1987.Towards  a  universal  law  of  generalization
for  psychological
science  [J].Science  237:1317-1323.
23 Steinhart,D.2001.Summary  Street:an  intelligent  tutoring  system
for  improving  student  writing  through
the  use  of  latent  semantic  analysis  [D].Unpublished  doctoral
dissertation,Institute  of  Cognitive
Science,University  of  Colorado,Boulder.
24 Till,R,E.Mross  &  W.Kintsch.1988.Time  course  of  priming  for
associate  and  inference
words  in  discourse
context  [J].Memory  and  Cognition  16:283-299.
25 van  Dijk,T.,&  W.Kintsch.1983.Strategies  of  discourse
comprehension
[M].New  York:Academic  Press.
26 桂诗春,2000,《新编心理语言学》[M]。上海:上海外语教育出版社,308-329。
 
下一篇资料:吴徽语入声演变的方式