河北工业大学学报990314---数据管理

来源:百度文库 编辑:神马文学网 时间:2024/04/29 02:17:00
一种新型的数据管理系统——数据仓库
任锦鸾 张闽 曾珍香
摘要 在比较了数据仓库与传统数据库的区别的基础上,讨论了数据仓库系统的基本结构、数据仓库化的步骤和技术;认为数据仓库、联机分析处理和数据挖掘的结合将成为决策支持系统的重要组成部分;并且提出了数据市场是实现数据仓库的中间过渡形式,以企业销售情况分析为例做了数据市场中数据存储形式的初步设计.
关键词 数据仓库,数据仓库化,联机分析处理,数据挖掘,决策支持系统,数据市场
A New System for Data Management—Data Warehouse
Ren Jinluan Zhang Min Zeng Zhenxiang
Abstract Based on the comparing data warehouse (DW)with database, this paper discusses the structure of DW,the stages and technology of data warehousing.The paper puts forward that DW,OLAP and data mining will become new important parts of DSS.AS a transitional pattern of data warehouse,Data mart is researched.And its initial design is discussed with the background of sales analysis for business.
Key words Data Warehouse (DW),Data Warehousing On-line Analytical Processing (OLAP),Data Mining,Decision Support System,Data Mart1
0 概述
数据仓库( Data Warehouse DW)是是支持经营管理决策过程的、面向主体的、集成的、随时间而变的、持久的数据集合.而以数据仓库为核心的系统则从事物发展和历史的角度对来自于异地、异构的数据源或数据库的信息进行收集、转换、提取、过滤、集成和维护,为复杂的数据分析和高层决策提供支持.
在错综复杂的现实世界中,决策者在分析当前商业状况时受到很大的竞争压力,对信息的需要已超过了信息技术所能提供的范围,这就产生了信息危机,信息危机刺激了信息技术的发展,从而信息技术推陈出新,不断进步.从五十年代用于成本、工资计算的自动化软件到六、七十年代用于数据集成的数据库管理系统,在八十年代出现了用于在网络上数据处理的联机事物处理( OLTP)系统[1].当前为了解决数据库管理系统的缺点,改变数据库管理系统只能进行数据管理,而不能提供综合性分析的不足,以便更好地支持自动化的商业过程,为高层决策提供快速、有力的支持,数据仓库应运而生了.
1 数据仓库与数据库的比较
数据仓库与传统的数据库相比有很大的不同.传统的数据库技术在对决策支持系统的支持方面存在以下不足[2]:
1.1 各种来源的数据在定义和组织方式上不同,为决策者统一调用数据和进行不同系统的比较带来了困难,数据仓库提供了数据融合技术,将不同来源,不同定义的数据统一定义、管理,使不同部门、机构、产品、区域间情况的比较成为可能;
1.2 数据库提供的数据是事物性的、操作性的.数据仓库的设计是面向主题的,通过数据联机分析技术(On-line Analytical Processing OLAP),将数据转化为信息,为决策者提供更直观的帮助;
1.3 数据库中保存的是当前数据,无法进行历史趋势分析,数据仓库同时提供当前数据和历史数据,并可作出历史趋势变化分析.
总之,数据仓库技术是在收集各种数据和信息的基础之上,对数据进行提取、清理、转换和合成,改变了数据库只提供数据支持的形式,为决策者提供总结性的信息知识,趋势分析,情况描述等更直观的内容,帮助决策者探索业务活动规律,为制定全局范围的战略决策和长期趋势分析提供更有效支持.
2 数据仓库系统的基本结构
数据仓库系统是在原有关系型数据库的基础上发展形成的,但为了完成更优化的查询功能,它的组织结构形式和数据库的组织结构形式是不同的,如图1所示.[3]

图1数据仓库系统基本结构
它主要由四部分组成:信息源、包装器/监视器、集成器和数据仓库.在这一系统中信息源一般包括原始数据库,知识库,HTML文档,操作系统数据等.在包装器/监视器模块中,包装器把各种信息源提供的不同形式的数据转换为数据仓库系统统一的格式,监视器负责对本地信息源中需提取的数据及其变化做自动地跟踪调查,把结果输送到集成器.集成器汇总各种数据并把集成结果装载到数据仓库中.本系统是开放的,可根据需要加入新的信息源、新的包装器/监视器模块,再与集成器相连,这不会影响原系统的操作和运行.系统的数据传输还可以是逆向进行的,集成器合成的具有新的结构,新的意义的数据可通过包装器/监视器模块发送给信息源,为将来其它的信息需求提供素材.
3 数据仓库化的基本过程
数据仓库化是指把可操作数据提炼和转化成信息数据并存储到数据仓库中的过程.数据仓库化的过程主要包括五个阶段[1].
3.1 数据模型化数据仓库系统将数据库中组织数据的二维关系表转化为多维立方体模式,这样用户可以进行涉及到多种因素的描述性查询.
3.2 在源数据中提取信息这一过程要利用各种提取技术从多种信息源提取数据.无论在旧有的系统如DB2、IMS、ORACL 还是在Sybase、Informix 等新的数据仓库系统中的数据都可以提取到.在存储空间允许的情况下,以前提取的数据可以存储在机器中,用之与当前的数据进行比较,通过数据捕捉技术,在新的提取过程中可只提取已改变的数据,这样就大大提高了系统运行的有效性.
3.3 清理数据、修补不完善的记录在提取数据的过程中,数据含义不明确,拼写错误,漏填记录都是常见的,清理数据就是清除这些无效输入的过程.随时间的变化,企业的部门名称,产品代号,地理位置等常常发生变化,这就要重新装入,即对记录进行修补.
3.4 数据转换和集成不同来源的数据的形式、定义、内涵都有很大的差别,为了进行比较和分析,数据仓库系统把它们转化成统一的表示形式和代码,可以进行向整数、浮点数、ASCⅡ等形式的转换,并可完成时间的统一表示.系统按一定的逻辑规则将一定维的数据进行提前组合和计算,即数据的集成.
3.5 数据装载数据装载和分析的过程是非同时进行的.
数据仓库系统是通过何种技术实现这些过程的呢?许多公司都提出了不同的解决方法,其中红砖(Red Brick)仓库系统比较有代表意义,它是一种特殊化的关系数据库管理系统(RDBMS),可完成数据仓库化的任务,它由3个部分组成: ANSI 标准的SQL 和决策支持扩展系统;优良的桌面管理系统(TMU);数据仓库通道.
4 数据仓库与OLAP、数据挖掘的关系
设计数据仓库的目的就是为决策提供信息,在提供支持的过程中如何来利用这些数据呢?这就要开发其它的技术,OLAP技术和数据挖掘技术就是与之相关的近期发展起来的新型技术.[5]
OLAP技术以客户/服务器的方式来完成多维数据分析.多维数据有两种存储方式,关系数据库存储和多维数据库存储,相应的OLAP也有两种处理技术,ROLAP和MOLAP.ROLAP是基于技术较成熟的关系数据库的,它操作灵活,但数据冗于量大.MOLAP是基于多维数据库的,结构简明,利用多维数据查询语言可实现数据的高度综合性分析,它是一种新型的技术,各方面还有待进一步提高.
数据挖掘是从大型数据库或数据仓库中发现并提取隐藏在其中的技术,目的就是帮助决策者寻找数据间的关系,发现被忽略的因素.它实现的具体方法有:决策树方法,神经网络方法、遗传算法、模糊方法论、统计分析方法等.数据仓库技术、OLAP技术和数据挖掘技术的共同结合为决策支持系统的研究提供了新的方向.数据仓库技术通过对各种基础数据的转换、集成和综合,形成了面向主题的综合数据.OLAP技术则在这些这数据的基础上,分析其规律性和趋势性.数据挖掘技术通过智能技术和其它工具对各种信息进行比较,发现其内在的、隐藏的规律性,为决策者提供新的知识点.三者的结合使大量数据的管理更为方便,且把数据转化为信息,为决策提供参考.
但是,这三者的结合并不是完整的决策支持系统,必须把它与传统的决策支持系统相融合,实现定量和定性分析的充分结合,才可使决策支持系统的水平达到更高的层次.
5 数据仓库的过渡形式—数据市场
虽然全球在大力鼓励信息技术 (IT )的建设和研究,数据仓库的研究也是一个新的研究方向,但它的建设也面临许多的困难.这主要是由于数据仓库是大型的数据处理系统,它的建立需要大量的资金、时间和不同组织间的合作,而且投资风险也大,许多企业不愿为没保障的项目投资,各种合作者在数据定义和处理上也有很大的差异,矛盾很难调和.当前提出了一种建设数据仓库的过渡项目—数据市场(Data Mart DM)[6,7].数据市场是一种高度集中的数据仓库版本,它不同于数据仓库自顶向下的建设步骤,而进行由底向上的组织过程,针对某一具体的部门,如财务、销售、生产部门,建立专门的具有数据仓库特征的数据管理系统,这些系统只涉及到较少的使用者、资金和数据,在较短的时间内就可建设完成,实现投资的回收.同时,这种小型系统又是开放的,可添加的,当数据仓库技术发展到更成熟的阶段,就可把各种数据市场融合为大型的数据仓库.这种设计方法在开发资金和技术上都能得到可靠的保障,是现实可行的.
下面以销售情况分析为例,进行数据市场中数据存储形式的初步设计.
5.1 设计主题:销售情况分析.
5.2 需求要求:本厂产品不同时期销售情况比较,本厂产品不同地区销售情况比较,产品销售预测分析,预测情况与实际情况比较,各销售部销售业绩比较,本厂产品与竞争厂家销售情况比较.
5.3 数据模型化,根据需求的内容,设计系统数据存储模型.在本例中设计为星型多维模型图,见图2.

图2销售分析星形多维模型图
以上建立了数据市场的星型多维模型图,为OLAP技术、数据挖掘技术的实施提供了良好的基础,但只是做了初步的工作,还有许多工作正待进一步的研究和实践.
6 数据仓库系统研究和发展动态
数据仓库系统的研究现在正处于在理论研究向应用研究过渡的时期,它的建设还有许多的问题正待解决,例如:数据系统的实时更新,优化索引的建立,实现在联机状态下对数据的维护和数据仓库的物理结构的设计等.但毋庸质疑的是数据仓库技术将为决策者提供更有力的支持,据国外的调查研究表明,它的投资回收率三年内平均可达101%,最高达401%.我国中国银行广东省分行建立的金融管理信息系统,是数据仓库系统在我国金融业应用的一个实例,并已取得了明显的经济效益和社会效益.
数据仓库技术应与计算机硬件技术、人工智能、数据挖掘技术、联机分析等先进的现代化技术结合起来,才能更容易的从海量的数据中提取有价值的信息,分析商业变化的规律,为决策者,特别是高层决策提供可靠的帮助.它必将成为信息时代的一种有效的、必不可少的技术.
作者简介:任锦鸾 女 1972年生 硕士在读
作者单位:河北工业大学 管理学院 天津 300130
参考文献
1 Peter J Weyman.The case for a process-driven approach to data warehousing.Database & Network Journal,1997,27(1)
2 Red Brick Systems.The data warehouse:achieving better decision faster.Database & Network Journal,1998,28(3)
3 Waynew W Eckerson.The case foe the datamart.Database & Network Journal,1997,27(5)
4 李子木.数据仓库技术的研究现状及未来方向.计算机科学,1998,25(4):57~59
5 张宜红.数据仓库的实现技术.计算机科学,1998,25(2):67~69
6 黄启春.面向主题的数据仓库结构.计算机应用研究,1998(5):18~20
7 陈文伟.决策支持系统新结构体系.管理科学学报,1998,1(3):54~58