中英文自动摘要系统软件问世

来源:百度文库 编辑:神马文学网 时间:2024/04/24 16:34:45

中英文自动摘要系统软件问世

● 洪艺菁


系统发明人王永成教授。

  一般人想把一篇近2000字的长文,缩短成300字的摘要,往往需要花上好几分钟甚至一个小时之久,但现在有一种“中英文自动摘要系统”电脑软件,可以在短短数秒内就完成这项任务。

  目前世界上的网站共有600万个以上、10亿以上的网页,单是中文网络讯息,也有3万多份。

  资讯信息不断地快速增加,人却一天仅有24小时。有了“中英文自动摘要系统”,人们就可以在有限的时间内,以摘要的方式阅读和处理更多的文件与信息。

  你只需输入你想要的文章长度(字数)或用滑鼠滑动在数字度量器的0%至100%之间选择,摘要文章就会立刻出现在电脑荧光屏上。字数准确度在加减20字符的范围内。

还有声音控制功能

  这个系统还有声音控制功能,你只需对准麦克风,说“请将《企业预测》文件取出,做300字的摘要”、“太长了,请减少200字”、“请增加100字”,系统就会依照你的指示完成摘要。你也可以随意在摘要文章上进行人工修改。这个系统也另有即装网上实时摘要服务版本。

  发明这个系统的王永成教授说:“这个系统适用于科学报告、政要演讲、经济预测、新闻各主题的文件都能摘要,对需要处理大量文稿的公司特别有用。我们的合作伙伴包括文汇新明报业集团、国务院新闻处、国防部等单位。”

  王教授在上海交通大学计算机(电脑)科学与工程系担任教授。“中英文自动摘要系统”是王教授20年的研究心血结晶。他采用的是仿人方法原理。

  仿人方法就是让电脑模仿人学习语言的方式和书写文章时的习惯,再综合运用“文首自动截取法”、“论题句提取法”、“词频统计与句子加权法”、“结构分析与语法、语义分析法”等技术,教导电脑如何在不同情况下判断是否该摘要原词,从重组摘要文句,或使用原文中没有出现的词。

  这个系统还可以“入乡随俗”,按不同国家或机构的礼俗、文章风格和需要,量身定做适当的格式。

  自动摘要系统的概念并不算新,但之前的系统大多只运用框架法或词频率法或主句位置法,过于注重计算模式,摘要显得不够贯穿流畅。

  新加坡国立大学中文系徐杰博士说:“人实际使用的语言其实是朦胧的,太精确地逐字逐句依照语法规则摘选,得出的摘要文章反而显得别扭。这个采用仿人方法的系统就避免了这种错误。”

  这个系统究竟有多“聪明”呢?

  王永成教授说:“在1995年全国(中国)自动摘要系统评比中,我们获得了评比的第一名。当时先请3位摘要专家个别对一篇5000字的供试验文章进行人工摘要,这3人完成的摘要作品的重合率为50%,而这50%里有的内容,我们的系统做出的摘要都有了,而且更加精简,没一句废话。”

  “中英文自动摘要系统”目前以中文为主,英文摘要系统的部分仍在修改当中。

  徐杰博士说:“各自然语言背后的概念大同小异,如今基本的系统出来了,若得到其他语言的专家协助,要设计不同语言的摘要系统应该不难。”

  王永成教授成立了纳讯高新技术应用研究所有限公司,将这个软件包装成商品。目前在中国已有超过30个大机构表示有意购买这项系统。

  王教授说:“中国的盗版问题很严重,因此我们会收齐订单后一次过分发产品。”

  王教授也计划和新加坡学术界和科技管理机构合作,在本地设立一个“盈德纳讯(取名自“国际”英文字international的译音)研究所”,研制纲目型摘要和可以支持WAP无线上网的轻型摘要系统。

  王教授的儿子王刚目前在国大电脑系修读硕士,研究内容是自然语言与电脑科技之间的关系。

方便学习

  徐杰博士认为,这个系统会为人们带来很大的便利,让学生、学者和教师可以在有限的时间参考更多的资料,因此对教育界的影响是积极的。

  他表示,即使有机器为人们做摘要,人仍然得自己阅读资料,因此系统只是将繁琐的工作去除,让人更有效地学习知识,不会导致人懒散。

  这个系统是否可以适用在文艺创作方面?

  王永成教授表示理论上是可行的,但市场上目前没有这方面的需求。他曾用李白的“床前明月光,疑是地上霜,举头望明月,低头思故乡”试用该系统做摘要,摘要限于两个字是“思乡”、三个字是“思故乡”,四个字则是“望月思乡”。

  该系统目前只能处理12万字以内的文章,如果要将一本长篇小说做成摘要,必须先将整本书的文字输入电脑,然后将各章分开来个别做摘要,再综合起来。

《联合早报》