数据挖掘介绍

来源:百度文库 编辑:神马文学网 时间:2024/04/27 16:39:52
分类:学习笔记
2007.2.12 13:03 作者:lynn |评论:0 | 阅读:298
一.     关键词
1.              DM(Data Mining),DW(Data Warehouse),OLAP,BI
二.     数据库已经成为收集和分布信息的系统的基础。数据采集目的在于此后根据数据库内容进行正确决策。这些海量数据的深层隐藏的是很多的商业模式(Pattern),规则(Rules),这些隐藏的“商业知识”对于当前的数据拥有者来说意义非凡,因此他们可能预测整个集团未来的商业策略,市场开发计划,以及为公司带来新的盈利点,而要把这些目前还隐藏在大量看似无关联的数据背后的“知识”挖掘出来需要使用专门的统计学或测量方法。
三.     什么是数据挖掘
下面是一些“前人”对数据挖掘的定义:
1.              “挖掘”出数据中隐藏的模式,趋势,关系的过程(Groth)
2.              通过自动或半自动的方式在海量数据中发现有用的模式,规则的过程(Beryy&Linoff)
3.              分析普通的数据(通常是海量的)来发现数据之间比较稳定地关系,以易于理解的方式将数据总结出来向数据所有者提供有价值的决策支持。(Hand,Mannila&Smyth)
4.              在不需要人或很少地手工干预下通过可行地计算机技术来挖掘开采数据,对数据进行分析(Wegman)
5.              从大量的数据库中抽取出此前还没发现的有效实用地的信息,并且此后使用此信息来帮助制定关键的商业决策的过程(Cabena etal)
四.     在做数据挖掘之前我们需要做哪些工作?
1.              大量的数据准备(Case,数据挖掘的事例)(一般应该是108-1012 Bytes,也就是百M到TB级别)
u        103=1K
u        106=1M
u        109=1G
u        1012=1T
2.              数据要是多维的(数据挖掘的变量)
一般是某个数据要有10到104个属性,也就是同一个数据可能从几个不同的角度来观察
五.     为什么需要数据挖掘?
1.              目前只有很小一部分(通常是5%到10%)的数据曾经被分析使用过,其它的数据在Insert到数据库之后就很少再被查看分析过。
2.              数据也许从来没有被分析过,但是当前数据管理者由于害怕在将来这些数据可能会用到,为了不错过将来的使用还是会源源不断地将这些数据收集起来。这样话数据库只会是越来越大,在其中查找有用的信息时的效率会越来越低。
六.Huber-Wegman数据集大小分类法
描述
数据大小(字节)
存储模式
极小
102


104
一叠纸

106
一张软盘

108
硬盘
很大
1010
多个硬盘
极大
1012
磁带
海量
1015
分布式存储
七.现状
a)         最近几十年,许多公司组织花费了大量的资源用于构建及维护资讯数据库,包括开发大规模数据仓库
b)        通常情况下,现有的数据不能通过常规的分析方式分析,原因可能有许多丢失不全的记录也可能是数据是以定量的方式而非定质的形式存在的
c)        在大多数情况下,当前数据库中的信息由于不能方便地访问分析而没有得到足够地重视估或者没有充分使用。
d)        一些数据库增长得太快以至于连系统管理员也经常不清楚系统中哪些信息可以用来处理当前手头的问题,以及系统中的数据与当前手头上的问题之间的关系。
e)         如果为公司组织提供一种方法在这些大数据库中“挖掘”出重要的信息及商业模式对他们是非常有直接的利益好处的
八.为什么最近数据挖掘如此受关注
a)         主要是因为计算机技术尤其是数据库管理方面的技术很复杂棘手
b)        因为数据库中的数据增长很快,手动查找信息会变得非常困难。数据挖掘对于发现和描述关系表中的隐藏模式非常有用。数据挖掘提供的算法允许自动模式查找。
九.KDD数据库中的“知识发现”(Knowledge Discovery in Databases)
a)         “知识发现”最早是人工智能(AI,Artificial Intelligence)领域的一个名词
b)        KDD由以下几个部分组成(当然包括“数据挖掘”)
i.              “数据清洗”(去除噪音数据和不统一数据)
ii.              “数据整合”(多个数据源的数据汇总到一起)
iii.              “数据筛选”(根据当前要分析的主题从数据库中选取出与主题相关的数据)
iv.              “数据转换”(整理,转换数据使他们便于使用诸如“汇总”,“聚合”等挖掘算法的形式)
v.              “数据挖掘”(这可是核心的步骤,使用智能化方法来抽取出隐含的模式,规则)
vi.              “模式评估”(对刚才新发现的“知识”进行验证评估来检验此模式是不是可行)
vii.              “知识表示”(将挖掘出来的模式使用可视化的形式显现给用户)
十.用于数据库挖掘的数据库
可以用于数据库挖掘的数据库有如下几种:
u       关系型数据库
u       数据仓库
u       事务处理数据库
u       支持对象的关系型数据库
u       面向对象的数据库
十一.       数据仓库(DW,Data Warehouse)
面向同一个主题,从多个数据源收集在一起,随时间变化但信息本身又相对稳定的信息数据集合。
数据仓库将报告数据从运行着的数据库系统中隔离出来。通过将查询工作移动到更有效率的系统,这种隔离能够提高运行系统的性能。可以提高安全性。敏感信息将保存在不会暴露给查询的运行数据库中。由数据仓库提供的提取级别简化了对决策支持应用程序生成的统计表的访问。
OLTP中的数据定期插入到数据仓库中,数据仓库的结构和安全性方面相对于OLTP来说理简化,因为Data Warehouse的主要目的就是为了提高分析查询的效率,而不是进行联机事务处理。
常规OLTP数据库的基本单位是一个二维表,由行,列组成,而数据仓库的基本单位是多维立方体,可能从多个角度来观察分析这个数据实体,它是来自现有数据源的集成信息储备库。这些单元之间通常是以“星型结构(Star Schema)”或者“雪花结构(Snow Flake Schema)”的形式想关联起来的。