TRS技术 文本挖掘:把信息转化为知识的智能化信息处理技术

来源:百度文库 编辑:神马文学网 时间:2024/04/29 04:18:46
文本挖掘:把信息转化为知识的智能化信息处理技术
互联时代,网络中充斥着海量信息,企业需要对它们进行合理及有效地利用,从而帮助企业在业务管理及发展上做出及时、正确的判断,然后采取明智的行动,做到在竞争中占据主动权。
 
而信息社会信息并不是单一的,而是分为两大类:一类信息为结构化数据,如数字、符号;而另一类信息无法用数字或统一的结构表示,我们称之为非结构化数据。目前,随着网络技术的发展,特别是Internet和Intranet技术的飞快发展,非结构化数据的数量日趋增大。据统计,现今企业中80%的数据是以非结构化的形式存在,如Web页面、技术文档、电子邮件等。因此,除了要面对结构化数据外,更多时候是需要处理无序的非结构化数据。于是,一个从非结构化文本信息中获取用户感兴趣或有用信息的技术—"文本挖掘技术"发展起来,人们常说的文本驱动的商业智能,就是指的文本挖掘技术。
文本挖掘是一种数据挖掘技术,能够实现对文本内容的分析,通过智能分析发现内容新价值。它能够使人们从大量冗余的信息中迅速发现对自己有用的信息,并在一定程度上揭示信息与信息之间的关联。有人说文本挖掘是互联网时代,继门户、搜索引擎和Web2.0之后最重要的技术之一,纽约时报甚至称它为Web3.0。
文本挖掘作为人们挑战信息爆炸式增长与信息有效利用之间矛盾的重要武器,受到世界的广泛认可,目前国际上许多企业都在进行文本挖掘技术的研究,并取得一定成绩。但在我国,文本挖掘技术发展历史比较短。某一业内人士说:"虽然我国文本挖掘技术的发展研究还处于初级阶段,但想把国外的文本挖掘技术直接在我国进行利用,可以说是一件比较困难的事情,因为中文与西方文字是不同。如要搜索'可乐'一词,国外的技术可能会把'太可乐了'等众多不相关词语搜索出来。
比较而言,国内本土的软件企业在发展文本挖掘技术上却具有先天优势,如在中文分词,习惯用语理解等方面。另外,做好中文文本挖掘技术还需要超越绝大多数现有搜索引擎所采用的单纯基于特定关键字的查找匹配方式,而要在一定程度上去实现基于语义的搜索,即无论文中出现的是"笔记本","本本",还是"laptop",当我们在查找"笔记本"时,这篇文章都应该作为结果返回。但满足以上要求并不是容易的事情,它需要在数据库和信息检索技术等方面具有长期的积累、也需要算法的高效,系统的稳定和可扩展性。
TRS文本挖掘技术有效结合自然语言处理技术、统计分析和机器学习技术及语言知识库,可以实现:
自动分词 自动分类/规则分类/混合分类 自动聚类 文本相似性检索(自动排重) 自动摘要+主题词标引 信息过滤 信息抽取 关联关系挖掘
并且实现了中文文本挖掘技术的商业化应用,并在外交部、新华社、宝钢等多家政府、媒体和企业项目中经受住了海量信息和复杂环境的考验。