工学博士学位论文 汉语句法歧义消解的统计方法研究

来源:百度文库 编辑:神马文学网 时间:2024/04/29 07:06:40
这是http://www.insun.hit.edu.cn/upfiles/at200411129234324956.ppt 的 HTML 档。
G o o g l e 在网路漫游时会自动将档案转换成 HTML 网页来储存。
请使用网址 http://www.google.com/search?q=cache:av7ujuo6HnIJ:www.insun.hit.edu.cn/upfiles/at200411129234324956.ppt+%E8%87%AA%E5%8A%A8%E6%80%BB%E7%BB%93%E5%87%BA+%E6%96%87%E7%AB%A0+%E6%91%98%E8%A6%81%E4%BF%A1%E6%81%AF&hl=zh-CN&ct=clnk&cd=11 链接此页或将其做成书签。
Google 和网页作者无关,不对网页的内容负责。
这些搜索字词都已标明如下:  自动  总结  出  文章  摘要  信息
1581
12/8/05
1
陈清才
国家信息安全保障持续发展计划
汉语自动文摘系统 InsunAbs
12/8/05
2
主要内容
系统概述
研究背景
主要的自动文摘技术
系统目标
主要研究内容
系统处理过程
知识库建设
统计语言模型的建立
基于内容的压缩算法研究
信息提取
摘要生成技术
系统优化
系统性能
未来的工作
12/8/05
3
系统概述
研究背景
互联网的迅速普及在提供了信息获取途径的同时却给人们留下了另一个难题,那就是如何在每天都不断涌现的海量信息面前更快速、准确的获得有用的信息,显然,通过阅读文摘而不是全文能够极大的加快人们的信息过滤速度,帮助人们更容易地解决这个问题,从而使得对自动文摘技术的需求由过去的科技人员转向了普通用户,这也极大的鼓励了人们对自动文摘技术的研究热情。然而,自动文摘技术当前所取得的研究成果还不如其他自然语言处理技术那样成熟和得到广泛应用,这主要是因为为一篇文章撰写真正的文摘,首先必须真正的“理解”原文的内容,这一任务对人来说比较容易完成,但对计算机而言却是显得异常困难, 而这就导致了自动文摘的质量,尤其是摘要的逻辑连贯性还很难与人工摘要相比。
12/8/05
4
系统概述
主要的自动文摘技术
基于浅层分析的自动文摘技术
只涉及到对文档中所蕴含的一些浅层的特征进行统计与分析,然后将其中的某些特征按特定的量化模型结合起来作为文档信息的量化度量,并据此选择出文档的核心内容,对于文档的浅层分析往往不需要复杂的文档内部表示,而只需要能够划分出文摘提取时的基本单元就可以了。
基于实体分析的自动文摘技术
实现实体层的分析需要首先将文档转化成内部表示的形式,分化出文档的各个实体并建立起文档实体间的相互关系,通过对文档实体及其相互关系建模,将有助于确定个个实体对于表述文档内容的作用。
基于话语结构的自动文摘技术
主要是对全文的宏观结构进行建模,这些结构包括:文档格式 、用于区分文本主题的线索 、文体结构如议论文或者说明文的结构特征。
12/8/05
5
系统概述
系统目标
基于内容的网络信息压缩及摘要自动生成系统(以下简称“系统”)的目标是结合计算语言学与人工智能的技术,开发一个基于内容的信息压缩系统,使之能高效、准确、精练地抽取出网络中的各种文本信息的主要内容,生成摘要,从而极大地加快计算机或人工获取与处理信息的速度。系统通过将语义、结构、统计方法等多知识源与当前的汉语自然语言处理的研究成果进行融合,并采用这一方法来开发一个汉语文本信息压缩与摘要自动生成系统,以基本达到实用化的商业系统对摘要的质量要求。
12/8/05
6
主要研究内容
知识库建设
开发适合于文本信息压缩系统的语义词典,通过人工总结,从大规模语料库中建立起信息压缩用知识库,手工建立文摘语料库。
统计语言模型的建立
建立一个语义量化模型,用以快速确定文本段落或语句的信息量以及各语言单元之间的语义关联度,为信息压缩提供重要线索。
基于内容的压缩算法研究
获取文章中心语义,确定语言单元之间的逻辑关系,
确立统计语言模型为基本文本单元进行加权的方法,
综合分析所得的多个知识源来决定组成不同类型文档的摘要候选单元。
采用文档分类模块来识别文档所属类别。
信息提取
针对不同类型文章的文摘组成方式有可能不同的特征,从文档的摘要基本单元候选中进一步确定文摘句的组成,从而提高文摘句间的内在逻辑连贯性。
摘要生成技术
在信息提取算法获得的文摘句基础上,结合人名识别与指代消解技术以及一些人工总结的规则来生成文档摘要,以确保摘要良好的流畅性与连贯性。
系统优化
优化系统的主要参数
12/8/05
7
系统处理过程
12/8/05
8
知识库建设
建立了一个包含有11万词的通用词典,词典中包含了词性、词义和统计信息,其中除了我们原有的词条外,又增加了手工从网上抽取的约6万词
建立了一个层次结构分析用词典,该词典由通过对大规模网络文档的研究而总结出的可以反映网络文本的内容层次结构的特征词组成,该词典包含42项,每一项代表一种层次表示方法而不是一个词条。
建立了一个连接结构分析用词典,该词典同样通过手工构造,共包含190词条。
此外,还建立了人名识别词典用于人名识别模块
12/8/05
9
统计语言模型
构造过程
首先借助于语义词典来选择特征词。
建立一个基于词矢量的语义量化模型,通过对700M文本语料的统计来建立特征矩阵。
通过引入粗集技术来进行坐标词的选择以及特征矩阵的约简。
语义相似度计算:
12/8/05
10
文档压缩算法
结构分析
文本内容层次结构分析
隐式章节切分
语句连接结构分析
文档自动分类
多知识源融合
摘要抽取
12/8/05
11
文本层次结构分析
文本层次结构分析包括宏观结构分析和微观结构分析。文本宏观结构是指全文结构,研究组成全文的各自然段之间的依存关系。文本微观结构是指复句结构。研究的是各自然段内部各复句之间的依存关系。通过对文本结构依存树进行文本层次结构分析,我们建立一棵用于抽取文摘的层次结构依存树。
由于网上的文章来源众多,且无法统一格式,所以造成了网络文章格式各异的情况。要进行网络文章结构依存树模型,先要分析网络文章格式,从中找到统一的特性。
层次结构分析分成三步:
建立层次结构词典:需要从大规模真是网络文档中人工总结出能够反映层次结构的知识
初始化文档结构:根据排歧规则来确定每个语句中所包含的层次结构知识
建立分析树:根据相关规则分析文本基本单元间的层次关系并建立层次结构依存树
12/8/05
12
隐式章节切分
目的:
通过将以自然段落为基础的文本的物理结构转换成以意义段为基础的文本的逻辑结构来提高系统生成的文摘的中心主题覆盖率及文摘抽取的准确率。
切分方法:
语义量化模型,通过建立基于词矢量的汉语语义量化模型来对汉语语义进行量化,以便能够以可计算的形式利用语义信息。
语义相似度计算,在语义量化模型的基础上对词语之间的语义相似度进行计算。
改进Dotplot文本切分算法: 通过用语义相似度来取代Reynar模型的字符串匹配,将Dotplot中的二值运算转换成模糊计算,同时避免了简单的字符串匹配所带来的无法描述同义词、词语缩写等问题。
12/8/05
13
连接结构分析
目的:
通过快速分析单句或者复句间的语义依存关系,来确定每个语句在表达文本内容时的角色,为文摘抽取提供判别依据。
任务:
关联词排歧:需要区分一个连接词所引导的是分句还是复句。
根据语法语义规则来进行分句或复句间的语义依存关系分析。本课题共采用了6条规则,他们描述如下:
完整性规则:
举例:虽然赢了,但是问题很多
举例:之所以输了,是因为我们准备不好
简化规则:
举例:我们赢了,但是问题很多
举例:如果赢了,我们要庆祝
举例:我们要庆祝,如果我们赢了
举例:所以我们出线了,我们努力了
构造分析树
12/8/05
14
文本自动分类
文本分类的主要步骤:
文本的表示
向量空间模型(VSM)
基本思想是以向量来表示文本:(W1,W2,W3……Wn),其中 Wi 为第 i 个特征项的权重 。
TF*IDF
本系统采用的加权方法:TF—特征词在文本中的频率;
IDF —包含该词的文档数目的倒数 。
本系统采用的分类方法
k近邻方法 :通过找出训练集中与待分类文档最相似的k篇文档,然后根据这k个文档的类别确定该文档的类别。我们采用的相似度度量标准是余弦夹角。
算法描述:
1)     输入待分类文档y和训练集X;
2)     计算y和X中所有文档的相似度;
3)     找出X中和y最相似的K篇文档;
4)     设n1、n2分别是K篇文档中属于C1和C2类的文档数目,计算以下两个条件概率:
5)  如果前一概率大于后一项的概率,则y属于C1类,否则属于C2类。
12/8/05
15
多知识源融合
目的:
多知识源融合的目的是将多个结构分析模块的分析结果按一个统一的量化度量融合到一起来定量的确定每个语句在文章中的作用。
融合方法:
由于文本的隐式章节划分涉及到语义相似度计算,算法复杂度较大,因而只有当文本内容结构分析无法给出文本章节划分的信息时才进行隐式章节划分。一般而言,当文本的长度超过2000字以后,作者往往会以各种形式对文本进行章节划分,而这种划分是由文本内容结构分析来处理的,所以只有文本较短的时候会用到隐式章节分析,从而避免了算法的处理瓶颈。
对于结构分析模块,我们的分析结果都是以树的形式来表示的,树中各个节点之间通过不同类型的关系来进行连接,为了融合多棵不同类型的分析树,我们构造了一个加权有向图,图中的每个节点都唯一对应于文档中的一个文摘基本单元。
需要将有向图中的每种连接关系转化成一个统一的量化度量:权值,不同类型的分析结果采用线性插值的方式统一到一起,每种知识源对应一个插值系数。
对于其他的非树型知识源,即其分析结果不是以分析树的形式给出,则需要根据其分析结果直接给文摘基本单元加权,并将该权值与上述分析结果进行融合。
12/8/05
16
文摘抽取
文摘抽取主要完成的工作:
遍历文本结构图,根据知识源加权规则计算图中每个节点的权值。
将人工总结的加权规则应用到图中的每个节点来对节点权值进行调整。
根据文摘比率抽取出特定数量的节点组成原始文摘集。
12/8/05
17
摘要生成
人名识别
指代消解
12/8/05
18
人名识别
人名识别的主要方法:
基于规则识别、应用HMM识别、建立特定统计语言模型识别、应用最大熵方法识别、使用SVM算法识别等多种方法;
系统人名识别的特点:
考虑到文摘系统的实时性与准确性的综合要求,经过对大规模真实语料的统计研究,本系统采用了计算语言模型与人名相关规则结合的识别方法,发现文章中的中国人名,以达到灵活、快速、准确的识别目的。
人名识别的统计资源
结合《百家姓》和《人民日报》语料,统计收集650个姓氏用字;
统计收集人名上下文的特殊名词476 条、动词343 条;
根据训练语料库, 计算出本系统使用的基本数据值。
12/8/05
19
指代消解
方法:
系统采用了基于句子结构和人称格的指代消解方法,通过对大量的汉语句子的分析,提出了十条指代消解规则和基于这些规则的一个消解算法框架。这些规则的提取综合考虑了系统的效率以及指代消解准确率两方面的因素。算法能处理文章中出现的80%以上的指代现象,而且,对一些人物环境比较简单的文章几乎能完全正确处理,因而,这对自动文摘系统来说基本上能满足要求。此外,针对文摘系统的特点,我们在实现过程中忽略了句内的指代消解问题,以避免造成对文摘系统的处理瓶颈。下面我们所总结出的规则的两个例子。
12/8/05
20
指代消解
规则1:
设A为人称代词,B为其指代对象,
A=B==〉(GENDER(A)=GENDER(B))∧(NUMBER(A)=NUMBER( B))
规则2:
PRON_SET((SUBJ(SS))∧EXIST(PERS_SET(SUBJ(PRESS(SS)))) ∧( GENDER( SUBJ( SS))=GENDER( SUBJ( PRESS( SS))))∧
( NUMBER( SUBJ( SS))=NUMBER( SUBJ( PRESS( SS))))==>
SUBJ(SS)=SUB(PRESS(SS))
其中,SS(Single  Sentence)表示当前单句;PRON_SET((SUBJ(SS))表示当前单句的主语是人称代词;EXIST(PERS_SET(SUBJ(PRESS(SS))))表示这样的事实存在,既,在当前单句之前,位于同一个复句内的一个单句的主语是人名。如果这个条件不满足,则继续向前检查,直到越过这个复句的范围。表达式SUBJ(SS)=SUB(PRESS(SS))中的“=”表示,人称代词SUBJ(SS)的指代对象为SUB(PRESS(SS)) 。
12/8/05
21
系统参数优化
系统的参数主要包括:
文本层次结构中不同关系的权值
连接结构的权值
多知识源融合时每个知识源的权重
参数优化方法:
建立一个文摘系统的定量评测体系
采用系统的平均召回率与平均准确率作为目标参数,通过遗传算法来寻找最优的参数值。
12/8/05
22
系统性能
定量测试:
根据合同要求,当文摘比率为20%时,系统封闭测试时的平均召回率与准确率应分别达到85%,当前系统对100篇网络文本进行测试的平均召回率与准确率分别为86.19%和85.5%。
文摘质量:
根据合同要求,系统应能够生成具有良好的连贯性与流畅性的摘要。当前系统生成的文摘已经具有了良好的流畅性与连贯性。
实时性:
根据合同要求,对于1000字左右的文本文档,系统应在每分钟完成15~20篇文本的摘要生成,当前系统的平均处理时间在0.3秒左右(测试环境为Intel (R) PIII 866,256M内存),即每分钟完成200篇左右文本的处理。
系统的移植性:
虽然本系统开发的主要目的是针对新闻类网络文本,但由于系统中所引入的主要知识源与文本所属的领域无关,因而系统具有良好的移植性能,同时,系统的定量评测体系及自动优化算法提供了对于特定领域进行自动优化以寻找最佳系统参数的方法。
12/8/05
23
未来的工作
进一步完善评测系统
定量评测系统不仅仅可以客观的评价一个系统的性能,更主要的是能够为系统的自动优化与学习提供了一个目标函数,无法做到自动定量评测,就无法进行有效的自动学习与性能优化。当前的定量评测系统采用了召回率与精度来进行定量评测,但这一评测方法不能完全评定系统生成的文摘的质量,因此还需要进一步完善。
进一步改善系统模型
本系统采用的多知识源融合模型可以用来建立文本的内部表示,即加权有向图,图中每条边的权值是由一个有限的系统参数集来确定的,由于系统的复杂度受到处理时间的限制,该参数集合的势往往需要限制在一个合理的范围内,如何用有限的参数来描述形式完全自由的文本结构则成了一个非常关键的问题。要提高系统的适应性以及可优化的空间,就需要通过增加新的知识源以及引入更多的系统参数,同时要保证系统的复杂度不会过度膨胀,这也是需要进一步研究的问题。
多文档自动文摘
通过进一步改进语义量化模型并引入语义自动聚类算法,基于单文档的自动文摘算法将有可能运用于多文档的文摘生成中。
12/8/05
24
多文档自动文摘系统
12/8/05
25
未来的工作
文摘系统的应用开发
网络信息管理与信息安全,信息管理与信息安全的一个主要任务在于对网络中的大量即时信息进行获取与内容分析,而这一任务完全由人工来完成显然是不现实的,通过高性能的信息压缩与摘要生成系统将极大的提高信息的获取与内容的手工或自动分析速度,因此系统在该领域的应用将是下一步工作的重点。
移动互连网中的邮件到达通知服务,移动互联网目前正以迅猛的速度发展,用移动设备来处理邮件已经具有了相当广泛的应用基础,由于邮件到达后通常服务商是以短信的形式来发送邮件到达通知的,通过生成邮件内容的摘要并将摘要以短信形式发送到移动设备如手机等,将给用户快速获知邮件的内容以及进行进一步处理提供很大的便利,因而这一应用具有很大的市场前景。
信息检索服务,信息检索技术是人们从互联网上获取信息的钥匙,由于现有的信息检索技术还无法做到准确返回用户所真正需要的信息,而是返回大量相关信息让用户自己从中再进行选择,为了加快用户的信息选择与获取速度,检索结果中往往需要将每个文本的信息进行基于内容的压缩,通常是返回包含用户的查询条件的语句,这一方法虽然能加快系统的查询性能,但是用户却往往很难从查询系统所返回的信息中准确判断全文的内容,以至于不得不下载全文来重新判断,如果用户发现这不是他所需要的内容时,必然会对检索系统的性能与质量提出质疑。因此,为了切实提高检索系统的服务质量,在查询过程中对查询结果的内容事先进行分析并返回一个准确概括全文的摘要将显得非常必要,而本课题开发的系统正好能满足这方面的需求。
12/8/05
26
谢谢!