上海企业竞争情报网 - IBM信息挖掘工具

来源:百度文库 编辑:神马文学网 时间:2024/04/29 09:34:14
信息挖掘即指从各种各样的信息源中,抽取先前未知的、完整的信息,来做关键的业务决策。
商业智能方案帮助企业做决策支持分析,而信息挖掘就是商业智能方案中的一员。信息挖掘包括数据挖掘(Data Mining)和文本挖掘(Text Mining)两种,它采用先进的技术来分析信息资源,为企业在激烈竞争环境下的业务决策提供依据。
信息挖掘技术概述
信息挖掘即指从各种各样的信息源中,抽取先前未知的、完整的信息,来做关键的业务决策。很显然,信息挖掘有别于传统的数据查询、报表、OLAP及全文搜索等数据分析的方法,它是在没有前提假设的情况下,从事信息与知识挖掘。信息挖掘所得到的信息结果,一定是先前未知的,对于结构化数据,我们可以称之为数据挖掘或知识发现,其涉及到的技术领域包括:机器学习、统计、数据库技术、规则系统、神经网络和可视化呈现。文本挖掘也基本以类似的技术为基础。
在信息挖掘过程中占有重要地位的机器学习,让计算机有能力认识一些模型,例如:我们想预测信用卡欺诈行为,计算机算法分析信用卡用户的购买习惯,从而认识客户的模式,并分辨出偏离模式的信用卡盗用行为。这个学习的过程需要有一个训练阶段,提供正反两方面的偏离例子用挖掘程序来训练,训练之后,算法应能推导出合法交易的定义,并能预测一个新的交易是合法的还是非法的。
信息挖掘程序的好坏关键在于其算法的质量。算法决定了是否能推导出一个完整而一致的概念与定义。
IBM的智能挖掘机家族产品,利用了广泛的高质量的机器学习算法,它能够在应付大量数据的同时,又保证理想的响应时间,使得市场分析、风险预测、欺诈管理、客户关系管理和竞争优势分析等应用成为可能。
IBM数据智能挖掘机
数据挖掘过程中,数据的质量决定了能否获得有意义的分析结果。数据准备阶段大约占了数据挖掘整个工作量的80%。数据准备包括:剔除冗余数据,保证数据的逻辑一致性等。
数据挖掘的基本过程
·确定业务目标
我们首先要清楚地确定业务遇到的问题及挑战。
·准备数据
确定要挖掘的数据,并处理数据(解决遗漏的数据)。
·选择合适的数据挖掘技术
例如:基于数据特性、业务特点来选择分簇算法。
·解释及评价结果
用可视化的工具呈现数据,目的是为了分辨出各个分组中各种属性的重要程度,并比较这组人群同所有样本中各种属性分布的不同。
在一个数据挖掘的过程中,有时需要重复以上的某些步骤。
数据挖掘操作与技术
数据挖掘的主要操作包括:预测模型、数据库分簇、关联分析和偏差监测(Deviation Detection)。
当我们做预测模型时,实现分类操作的算法有Tree Induction和Neural Induction两种。Tree Induction是指用构建决策树来预测新的情况,而Neural Induction是指训练出神经网络结构来识别各种模式。
数据库分簇操作可以用Demographic Clustering来实现。
关联分析操作采用简单的计算技术来发现关联规则和顺序模型。
偏差监测依赖于统计分析和Visualization,后者是发现数据模式的强有力工具之一。
IBM的数据智能挖掘机提供了完整和高质量的算法,支持客户从企业业务数据中发现商业决策所需要的依据,而且,这些算法的扩展性好,能在响应时间保持良好的情况下应付大量的输入数据。
IBM文本智能挖掘机
推动文本挖掘工具发展的原动力主要有两方面:一是Internet的迅速发展,据专家预测到2000年,在Internet上将会有大量的网页数据,这些数据以文档的形式出现;另一个原动力是,客户关系管理系统,而客户的相关信息绝大多数是文字性质的。这些文档、文本信息的设计不是面向计算机处理的,是非结构化的数据,其包含的重要内容不是显示的,而是隐含在文档内部。
IBM的文本智能挖掘机有三个主要成分:高级搜索引擎(Advanced Search Engine)——TextMiner;Web访问工具(Web Access Tools)——包括Web搜索引擎NetQuestion和Web Crawler;文本分析工具(Text Analysis Tools)。文本智能挖掘机专为分析文本数据而设计,支持文本数据的信息搜索,为文档按主题创建目录及创建索引。
IBM的TextMiner
TextMiner是IBM文本智能挖掘机的主要成分之一,帮助创建高质量的信息查询系统;支持16种语言的多种格式文本的数据检索;采用深层次的文本分析与索引方法;支持全文搜索及索引搜索,搜索的条件可以是自然语言和布尔逻辑条件。TextMiner是Client/Server结构的工具,支持大量的并发用户做检索任务,一个重要的功能包括联机更新索引,同时又能完成其它的搜索任务。
TextMiner的全文搜索功能已经集成在IBM通用数据库版本5和IBM数字图书馆版本2中。
Web搜索与工具
IBM文本智能挖掘机中提供了Web搜索引擎——NetQuestion。NetQuestion适合Internet/Intranet信息搜索,其内核采用了同TextMiner类似的技术,又根据Web的超大数据量的特点做了调整,以支持快速索引和理想的查询响应时间。
NetQuestion同时又是Lotus Go Web Server、IBM公司主页、IBM 1500个Intranet Server和IBM网络计算架构(Network Computing Framework)的搜索引擎。
文本挖掘技术应用到企业的各个领域,如:客户关系管理系统、电子邮件处理系统、合同管理等。