网页快照

来源:百度文库 编辑:神马文学网 时间:2024/05/01 12:51:28
   您的查询关键字都已标明如下: 自动摘要(点击查询词,可以跳到它在文中首次出现的位置)
(新浪和网页http://lib.zgc.gov.cn:85/~kjqk/gjstx98/980106.htm的作者无关,不对其内容负责。此快照谨为网络故障时之索引,不代表被搜索网站的即时页面。)

高技术通讯
HIGH TECHNOLOGY LETTERS
1998
年 第1No.1 1998科技期刊

OA-1.4版中文自动摘要系统

(1997年4月8日收到)
王永成 许慧敏
(上海交通大学电脑应用技术研究所 上海 200030)

  摘 要 研究与开发了OA中文自动摘要系统1.4版,概括地介绍了该系统的特点、技术关键及实现。
  关键词:中文,自动摘要,技术决窍

一、引  言

  信息爆炸般地产生是当今信息时代的特征。现今仅科技文献一天就发表一万篇以上,显然,要在这信息的海洋中寻到你所需要的有用信息不仅要依靠现代先进的电脑检索技术与先进的检索系统,而且最好能够有一个能自动压缩信息甚至能自动提炼信息的智能系统。因此,国内外在这方面进行了攻关。我们经过十六年的努力,终于取得巨大的成功[1—3]
  我们不仅已能成功地对科技文献自动地编制文摘[4],而且也能对新华社电讯稿、报社的社论、领导的报告、个人的简历等等文献自动地编写摘要。这样,将会使那些只想了解文献大概的领导和科技人员摆脱阅读长文之苦,也为报社编写摘要与压缩长文提供一种手段。为保证系统的质量,我们已对上千篇新华社电讯稿、《人民日报》文稿以及部分科技文献进行了文摘的自动编写试验,效果相当好。本文将简略地介绍我们现有系统所达到的水准、特点以及实现的技术诀窍等等。

二、文献的三类文摘及研究的突破

  摘要的种类很多,可以从不同的角度对其进行不同的分类。若从生成摘要的方法上进行分类,常见的有简介性摘要、摘录性摘要与评论性摘要三种。不过,美国同行曾对部分手工文摘中的文摘句进行了统计,并报道了以下结果[5]:手工文摘中的91%的句子都是文中句,其中79%的句子是完全照抄,3%的句子是由原文中的句子拼凑而来,4%的句子是由原文句改造而来,5%的句子是由原文中的句子拼接再改造而来,只有9%的句子才是人工自撰。也就是说:现代手工文献中的大部分都还基本上可划归于摘录性文摘的范畴。我们认为有这样的统计结果的原因可能在于:
  (1)简介性摘要与评论性摘要都比较难写。文摘员要花好多时间深入地理解原文,一般都花不起这个功夫;而且,组织准确、精炼的语句以反映文献内容,难度较大,特别是评论性文摘,则还要阅读很多其他文献以进行比较,给出中肯的分析与评价,这往往超出了一般文摘员的水平。
  (2)大部分原文都可以从其中摘出一些句子来反映中文文献的内容。
  虽然,现代电脑的运行速度已经很快,它可以有很强的形式分析与统计能力,但是,大家知道,现代电脑的语义分析与理解的能力还几乎等于零。因此,研究与开发自动编制摘要系统,一般都可以以自动编制摘录性摘要为突破口。在初步成功地摘录原文句子的基础上逐步地向人工摘要逼近,看来是一条容易成功的捷径。我们就是循着这条捷径摸索前进的。
  1988年,我们初步开发了“中文文献自动编制文摘试验系统(CAA)”,它能对随机地从《情报学报》1983年第一期上抽出的几十篇论文自动地试编文摘,90%以上的文摘句达到比较满意的结果。1990年国家科委组织专家对它进行了鉴定,评为国际领先水平;以后又应邀到香港以及新加坡进行了讲学与表演。新加坡《联合早报》与《联合晚报》的负责人曾建议我们迅速地将自动编制文摘的应用领域从中文科技文献迅速开展到对一切文献,特别是政治、经济等社会实用领域。1992年,我们又开发出一个新的“中文文献的自动摘要模型系统”(CAES),用该系统,能对新华社的电讯稿及一般的论文在瞬间按用户需要的长度,编出文字流畅并能基本上反映文献主题的摘要来。1993年应邀到日本进行了国际交流。
  1995年该项目受到国家863计划的支持与资助,工作进展加速,近几年来,我们在更大规模上对系统进行了试验与改进,使系统的功能大大加强,应用领域也进一步扩大,可靠性与稳定性都有了不同程度的改进,已在商品化方面迈出了可喜的一大步,该成果最近在十余个单位试用。1996年4月,该成果正式通过了专家鉴定,被评为居于国内领先地位。之后,该成果在上海与新加坡的国际会议上作交流表演,受到海内外的专家的好评,甚至认为它具有国际领先地位,IBM公司已与我们协商将它移植到IBM的有关机型和系统中。

三、现有系统的特点

  (1)应用广。该系统已与早期的系统有很大的不同,因为新系统原则上不限制所应用的领域。
  (2)限制少。该系统对文本中的信息很少要求特别标注,如它能从通常的文本中自动地识别标题、小标题、作者及正文等信息。这方面完全仿人,具有一定的智能性。
  (3)任意长。摘录长度几乎可随心所欲,如要摘的长度不足一句长,则系统自动以文本的20个主题词来代之或提醒用户:你所要的摘录因长度要求已短于一句话,不能实现。
  (4)速度快。一篇数千字的文本,在486微机上它能在以秒计的时间内摘好,而修改文摘长度则更是瞬息即成。
  (5)质量可靠。摘出的文摘绝大多数基本反映了主题且文字流畅。
  (6)功能多。它不仅可摘摘要,而且具有下述功能:①能自动统计出文本长度;②能方便地给出中文中任意字符串或词的频率及标示出它们的出现位置;③能自动地给出文本的主题词;④能提供人们修改文摘的强有力的工具。
  (7)灵活性大。它不仅可以自由定义文摘长,也可根据习惯自定文摘长;不仅可以摘主题句,也可用次要句去填长度;还可根据用户的偏好进行定向摘录。
  (8)发展易。我们曾留下不少接口,可便于移植与发展。
  (9)使用方便。本系统的操作使用力争傻子化,一般人“上机即明”。无需培训。
  (10)前景好。我们拟与兄弟单位的声音、文字识别的先进研究成果联结,与声音输出的最新成果联结,使其具有非常广泛的应用前景。

四、技术关键

  我们已经专文介绍过我们近来获得成功的经验:仿人。这是在电脑上研制与开发高级算法的捷径。
  “仿人,选突破口,先易后难,稳步迈进,坚持不懈”,这几乎就是我们的全部决窍!
  所谓仿人,就是尽可能地把由人类长时间积累的工作或生活经验移植到电脑上。当然,由于人与电脑不是一回事,因此,最适合人所使用的方法并不一定也最适合于电脑使用。但是,我们的实践经验表明:人通常所使用的方法往往是一种接近最佳的方法。认真地学习和研究它,一定会对我们创建新的电脑算法有很多的启发,它往往比查几十篇文献更富启示,特别是对前人尚未涉足或还很少涉足的领域,尤为如此。
  浏览全文,根据行文编辑规律以及全文的叙述,判明文章的外部特征,并借助上述判断尽力抓准文献的主题;再根据文献主题及文献的八股性特点(我们认为:任何文献总遵循一定的书写格式与规律要求,这就是我们戏称的“文献的八股性”),我们首先获得了文献的文摘侯选句。下述人工文摘的经验可作为我们的参考:
  (1)大多原文中都有一些句子具有切题性,而这些句子通常处于文献的前言、结论或节、段的开头与结尾部分。
  (2)很多文献中都能找到一些包含有“本文论述了”、“本文的目的”、“综上所述”等类似字段(我们称之为“论题提示字串”)的句子,而这些被称之为“论题提示句”的句子往往是很好的文摘候选句,因为其中往往高度概括了文献主题。
  (3)因科技文献论文的标题、副标题、小标题、段落往往就是论文或其段落的纲要,所以,不少文摘员也将他们放进文摘,用以说明该文献的主要内容。
  (4)关联词语(如“因为”、“所以”)、序数词语(如“第一”、“首先”)、标点符号(如“;”)等等都能在某种程度上反映文献句间或段间的关系。
  (5)文摘句一般比较精炼,其中大多包含有说明文献主题或关键内容的关键词。所以,包含一定数量主题词的句子往往就可考虑作为候选文摘句。
  我们认为:与军事上打仗一个道理,选突破口至少考虑三点:(1)敌方的薄弱点;(2)我们易发挥优势点;(3)从该口突破后,容易向纵深发展。因为我们已从事信息检索几十年,而且信息类文献既属于科技文献,具有比较规整的特点,但它又与其它非科技文献有很多相通之处,因此,我们最先选定以情报类科技文献自动编制摘录性的摘要为突破口,并在这之后迅速发展到其它类文献,再从摘录性摘要向非摘录性摘要过渡,终于使我们取得了初步成功。

五、技术实现

  本系统主要由六个功能模块组成,即自然语言文本预处理模块、自然语言文本的结构识别模块、自然语言文本的自动分词模块、自然语言文本的主题关键词自动标引模块、自然语言文本摘要的自动生成加工模块以及辅助功能的实现模块。
  自然语言文本预处理模块:它的作用是识别并加工文献中的各种不同的编辑符号以及图表之类的数据,以保证系统尽可能地放宽对用户文本的格式以及所用符号的限制。目前,我们已经能对WPS文件及TXT文件进行摘要。不久,我们将使它能自动处理一切常用格式的文件以及网上的HTML语言描述的文件。
  自然语言文本的结构识别模块:该模块尽可能地模仿人工,识别文本的体裁、结构,并自动地识别用户文本中的标题、作者、段首尾、参考文献等。它不要求用户对这些信息特别加以标注。这实际上是用“分析其特征并给出对策”的办法来作好这项工作。对于标题,我们发现它往往具有下述特征:通常在文献的前部或首部,字数一般较少,行中间没有句号、分号等标点符号,但可以出现顿号、引号、破折号、问号等,末尾一般没有标点,或者仅使用“!”、“?”、“…”,在有些情况下还可能有不同级别的序号;作者的特征是:一般字数更少,也没有标点符号,多个作者之间会以一个或多个空格隔开(空格数一定多于作者字间的空格数),每个作者名字串一般为2到4个字,另外,其姓与名通常也有一定的规律;段首句一般有以下特征:段首句第一个字缩进,并且至少有一句话(即以“。”、“!”、“?”、“…”等结尾),段首句的前一行为文献的另一特征段、段尾句等;而段尾句,一般来说其句尾离行末有一段距离(也可以没有),且至少为一句话,前一句为段首句或段中句,后一句为段首句或标题或文献的另一特征段(参考文献、摘要与主题词等,因有明确标注,一般很好识别)。

图1 系统总框图

  自然语言文本的自动分词模块:已有论文[7-9]介绍,这里不再赘述。
  自然语言文本的主题关键词自动标引模块:很多人以为“以高频词为主题词”是一个最容易的做法。其实,中文第一高频词乃是“的”,通常不能用它作主题词。我们用了综合考虑多指标的办法(将另文介绍),取得了较好的结果。实际上,它是我们在“八五”国家科技攻关中所获得的成果之一。
  自然语言文本摘要的自动生成和加工模块:前面已讲,这里的关键在于如何利用前面分析的结果,自动地抽取文摘候选句及如何加权。在OA中文自动摘要1.4版中,我们的主要考虑是:(1)包含有人们指定字串的句子与论题句是权值最大的优选句。(2)大小标题及段首尾等具有特殊位置的句子的权值较高。(3)重要的主题词首次出现的句子(我们称之为词首现句)及最后出现的句子(词尾现句)可以赋以较大的权值。(4)包含主题关键词及关键词的句子的权值除考虑上述三个因素外,将根据其包含的主题关键词的多少、该词出现的各种频率(相对频率、段频)、密度、位置及重要性、词性等进行折算。
  在确定侯选文摘句的权值之后,即可依用户指定的文摘长度,去掉语义重复的,再按照文献的内在结构与这些句子在文中出现的自然次序,经过如文献[1]中指出的“去毛刺”与“润色”后成文。
  辅助功能的实现模块:它保证了系统有较好的人机界面,从而能较好地实现“现代的系统应是一个人机高度结合的系统”的要求。它主要由摘要编辑模块、关键词预置模块、字串自动统计与标示模块、词典自学习、自适应与管理模块、文摘长度自动设定等模块组成。除自学习与自适应功能外,大体为一般程度设计技术, 这里不再赘述。图1是我们系统实现的总框图。
  显然,这是一个初步实现了智能化但还需大大提高的自动化摘要系统。我们正在继续攻关,在863专家组的指导下,在广大用户的支持与帮助下,我们一定要在短期内更上一层楼。

参考文献
  
[1] 王永成,苏海菊.中文科技文献的自动摘要,情报学报,1989,5
  [2] 王永成,莫燕.中文文献的自动摘要,现代图书情报技术,1993,4
  [3] 王永成,王继才.论中文文献文摘的自动编制。智能计算机接口与应用进展,清华大学出版社,1995,7:513
  [4] 王永成.中文信息处理技术及其基础,上海交通大学出版社,1991,12:127
  [5] Baxendal P B. Machine-made Index for Technical Literature-All Experiment IBM. Journal of Research and Development, April, 1959: 354
  [6] Luhn H P. The automatic creation of literature abstracts. IBM Journal of Research and Development, 1958, 2(2): 159
  [7] 顾立帆,王永成.联想树分析法及其在无词库中文自动标引中的应用,情报学报,1992,11:354
  [8] 王永成,李健.汉语的自动分词,上海交通大学学报,1989,2
  [9] 王永成.中文词的歧形切分,情报学报,1991,3

The OA-1.4 Automatic Abstraction System on
Chinese Documents
  
(received Apr.8, 1997)
  Wang Yongcheng, Xu Huimin
  (Computer Application Technology Institute, Shanghai Jiao Tong University, Shanghai 200030)

  Abstract

  The OA-1.4 automatic abstraction system on Chinese documents is developed, and its technical characteristics, technical knowhow and technical realization are preseted.
  Key words: Chinese, Automatic abstrating, Technical knowhow