信息整合

来源:百度文库 编辑:神马文学网 时间:2024/04/28 05:08:39
. 突破“全文检索极限,引领信息整合风暴”
龙卷风信息整合系列谈之三
日期:2003 年 06 月 13日 - 北京
资料的多元化
随着信息种类的日益变化,企业内的资料的存储方式也发生了变化。大多数信息资源已不再只以结构性资料(各种类型的数据库)来存取,而是以半结构化(XML文件,LOG文件)或非结构化资料(例如MS Word、Excel文件、PDF、WPS,Exchange、Lotus Notes等应用系统中的资料,以及附件,甚至于图片,OCR文件等等)的方式进行存取。各种格式、各个时期、各种应用的异构环境下的复杂数据源并存,企业面临着数据多元化的挑战。因此,对信息的整理和快速检索等成为最迫切的需要。
针对企业对资源整合和检索的巨大需求,国内外众多的软件厂商纷纷推出了相关的解决方案,例如:文件管理系统(Document Management)、内容管理系统(Content Management)、企业入口网站(EIP)…等等。伴随各种信息管理系统应运而生之后,信息内容势必会分散储存在不同的应用程序之中,因此,信息内容的获取、应用、链接与整合的需求,将随信息数字化而日益迫切,不论何种应用解决方案,信息检索(Information Retrieval)将会是其中不可或缺的关键技术。
传统的搜索概念
信息检索作为一门学科,其历史可追溯到20世纪中期。在此之前,信息存储和传播主要以纸质介质为载体,信息检索活动也围绕着文献的获取和控制展开。20世纪50年代,计算机技术开始得到实际应用,“情报检索”也开始与IT技术紧密结合,从而产生了现代意义的“信息检索”。随着通信技术与计算机技术的紧密结合,信息载体类型的多样化及传播手段的改进,情报检索研究和文献检索研究逐渐归入信息检索研究这一具兼容性的概念。
全文检索技术最早出现在美国Pittsburgh大学1959年建立的法律情报检索中,进入80年代以后,许多商业检索系统都开始大力推行并发展全文检索技术。与其他检索技术相比,全文检索的新颖之处在于,它可以使用原文中任何一个有实际意义的词作为检索入口,而且得到的检索结果是源文献而不是文献线索。
尽管全文检索技术得到了多年的发展和广泛应用,但也仍然存在着不少的弊端和局限性,表现在:
1. 不能灵活处理多元化的数据;
2. 无法及时、有效的同步更新的数据;
3. 难以和其他应用系统整合。
因此,由于传统搜索软件存在的弊端和局限性,用户仍然很难从大量的数据中搜寻出有价值的信息来,同时也无法解决企业当前存在的知识管理困难、检索困难等根本问题。
龙卷风科技IRMS R2
在过去,DBMS(数据库管理信息系统)在资料存取和检索中占了非常重要的地位,但随着半结构化及非结构化的资料量的增加,DBMS的处理效能日益锐减(如图所示),针对此一问题,北京龙卷风信息科技有限公司以经营企业市场多年的经验,结合优异的IR核心技术,开发出的新一代信息管理系统——IRMS (Information Retrieval Management System)R2企业信息应用基础平台,来弥补DBMS在处理效能上逐渐降低的不足。它将极大地改善企业信息管理的现状,为企业提供“信息经济”时代的“倚天”利器。
龙卷风科技认为,要解决企业信息化中所出现的问题,答案在于如何执行,而不是将信息检索当作企业应用的关键来实施。为了使信息检索功能能够真正的成为企业信息化的应用平台,需要针对这些功能特别建置一个架构体系。就如同将数据库管理系统作为财务软件系统、ERP 和 CRM 的基础设施组件一般,龙卷风科技期望能将 IRMS R2作为一种关键性的基础设施组件,作为任何企业的信息整合应用平台的管理工具并提供非结构化资料的处理机制。
龙卷风科技是一家提供信息检索(Information Retrieval)及其相关应用基础件(自然语言技术,智能型代理和自动分类等等)的信息整合供应商。在日益凸显的扩展企业链环境下满足用户要求,意味着将信息检索技术更深入地嵌入企业应用基础平台中。不过,龙卷风与其它初期开发厂商的策略不同是在于,强调将更彻底的检索技术转向作为信息检索的整合应用平台提供者。通过以 IRMS R2作为信息检索平台的基础结构,使IRMS R2系统成为基于开放行业标准技术的松散耦合的组件模块,IRMS R2提升为企业应用基础平台层面,并克服过度强调专有技术的竞争性基础设施策略的局限。
为了使信息检索技术在支持企业价值链时发挥信息整合的作用,信息检索技术除为各种企业数据库中任何格式的资料提供最新的新的索引建置(Indexing)、搜索(Searching)和检索(Retrieving)机制外,它还应该要具备其它更多的功能,如信息集取(Information Aggregation) , 信息再加工(Information Refining) 等。信息检索技术若要提升成为企业应用基础平台,需要参考企业环境的复杂性和异质性(Heterogeneity)来建置架构体系,并面对参与企业应用平台开发及需求变更的挑战。
IRMS R2的设计理念正是以一种平台理念来设计的,希望能协助企业在面对日趋复杂和不同的应用平台时,能将信息检索技术更深入的嵌入企业的应用基础平台上。IRMS R2设计的优势能让软件开发商、系统整合商和经销商能够将信息检索技术作为应用基础平台,进而对企业所有存在的资料资源提供更有价值,更及时性及更具相关性的搜索服务。
未来的发展
如何快速、准确、完整地找到有效信息,在知识经济时代显得特别重要。Ovum对于下一代检索技术有一种新的说明与解释:
“the technologies and products that are bringing new levels of intelligence, order, and personalization to the search process.”

至于中文检索技术的下一步发展趋势,将需要从全文检索为出发,藉由信息内容的整合,进而发展成为知识检索。
知识检索 Knowledge Retrieval
知识检索有赖于语言学工程的突破,以及自然语言处理的技术应用,中国IBM和微软中国研究院在这方面均早已投入极庞大的研发资源。知识检索需要更加注重内容挖掘的功能,现阶段如果称得上知识检索系统,至少应该具备智能化(Intelligence)与自动化(Automation)的技术。首先,智能化知识检索包含以下一些功能:
(1) 基本的检索功能,例如:拼音检索、同音检索等功能。
(2) 广义同义词检索,例如检索“计算机”,可以把包含“计算器”、“Computer”的内容检索出来。
(3) 中文断词技术,比如检索“华人”,包含“中华人民共和国”的内容将不会被检索出来。
(4) 具有主题词典与大规模实例描述的汉语分词知识库。
(5) 具有内容挖掘功能,比如对数字的理解,新词学习等。
(6) 智能代理检索。
除了智能型的知识检索外,自动化的学习与反馈机制,也将是升华技术应用的基石,相关技术项目如:
(1) 具有基于内容的相似性检索功能
(2) 具有自动分类(自动聚类)和自动摘要功能
(3) 具有知识压缩和去除重复(去重)内容的功能
信息内容(Content)
企业数字化之后,将会需要整合更多不同的信息,因此,必须有提供不同内容混合检索的机制,相关信息内容类型如:
(1) 非结构性内容:一般文本文件、HTML网页、MS Word, Powerpoint, Excel, PDF…等文件。
(2) 结构性内容,例如各种关系型数据库系统(RDBMS)的内容。
(3) 图片、语音、影像等多媒体信息。
(4) 半结构化XML内容,XML已经逐渐成为资料描述和交换的标准,对于XML半结构化信息的支持,可以实现更好的检索效果。
总结
整合应用,集成化、一体化的管理平台,是未来信息管理和知识管理以及其他相关领域的大趋势。如何把已经积累的大量的处于分散状态的原始数据进行整合,如何将多个应用、多种功能进行充分整合,这是在信息整合当中一个非常重要的题目,同时市场前景广阔。而龙卷风IRMS R2信息整合应用平台的推出,将领导这一领域朝着更深、更全面、更实用的方向发展。
本资料内容属龙卷风科技有限公司所有,任何人未经该公司同意,不得自行翻印、节录其中文字使用。
_xyz