数据仓库应用案例分析1999年12月04日 12:14

来源:百度文库 编辑:神马文学网 时间:2024/04/30 09:02:03
数据仓库应用案例分析


  数据仓库构造模块

  维护企业不断增长的数据,尽可能增加对数据访问的准则是什么呢?

  两个公司,两种方法。



   数据仓库在公司中流行起来,有两个简单的原因:数据仓库保证对业务数据的便捷访问和以更快更好的方式回答复杂的问题。但是,在数据仓库所用理论和数据仓库实现的实际过程之间,有一条坎坷的路途,许多公司正在这条路上蹒跚而行。为了成功,数据仓库需要细致的设计规划和广泛的集成工作。你无法买一个数据仓库;每一个都是为特定的需求组合定制的--从大型的企业级的数据仓库,到本地的面向主题的数据集市。

  尽管实现起来有许多障碍,数据仓库市场现在是计算机行业中成长最快的细分市场之一。位于Connecticut州Stamford的Gartner Group的研究人员,估计数据仓库产品的全部市场销售额,将从现在的15亿美元的水平,增长到1999年的接近70亿美元。



  数据仓库各不相同,但都被描述成有以下几个关键部分:

  ·定义仓库内容的数据模型

  ·优化用于快速报告和查询处理的数据仓库服务器

  ·精心设计的数据仓库数据库,它可以是层级式的,也可以是关系式或多维式的

  ·用于报告和趋势分析的前端决策支持系统

  ·用于清洗数据、拷贝管理、数据传输、数据复制和跨平台通信的众多实用工具

  一般来说,数据仓库需要在最基本的层次上,把针对数据仓库应用的数据处理,与用户执行的日常数据处理操作相分离。这些负担工作重任的应用,从日复一日的业务操作中收集详细数据,通常被设计用于联机事务处理(OLTP),例如,生产应用─工资单、应付帐款、产品购买和存货控制等等。另一方面,数据仓库应用设计用来支持用户特定的数据要求,通常可和称为在线分析处理(OLAP)的应用一同来提供,例如预测、剖析、总结报告和趋势分析等方面的功能。

  生产数据库,由数据录入专业人员和OLTP应用不断更新。数据仓库数据库则不同,它从业务系统定期更新,通常在网络和CPU负荷轻微的业余时间进行。由于OLTP数据在生产数据库中不断积累,要定期进行提取、过滤,然后加载到用户可以访问的精致的数据仓库服务器上。随着数据仓库被填充,有必要重新构造:进行数据的规范化、清除错误和多余的数据,以及加入新的字段和键,来反映用户对数据分类、结合和总结的需要。

  有些公司承担了历经多年、耗资数百万美元的数据仓库项目,以设计和创建大规模公司数据仓库。然而作为第一步,一些专家建议首先建立部门的或区域的"数据集市(Data Mart)",它们通常是指建立在LAN上用于服务本地用户面向主题应用的分布式数据仓库。数据集市是一个集中的、企业级的满足特定小组(如会计或销售)要求的数据仓库的子集。

  无论在哪种情况下,数据仓库结构一旦确定,便可用数据填充数据仓库,其方法主要有两种:

  ·批量下载,在这种情况下整个数据库定期更新。

  ·基于变化的复制,在这种情况下,只有差异在OLAP和OLAP服务器间拷贝或复制。

  为改善查询性能,数据仓库数据库通常包括预先计算的概要和预先定义的视图。在某些情况下,数据可以转化以便与相近数据进行比较,如把各种国际收入转换成美元数。来自外部来源的附加的信息,也可加到数据仓库中,如股票平均指数、商店底价管理概要,或从金融服务机构得到的信用信息。



  用户革命

  在数据仓库行业中,许多最激动人心的发展发生在DSS前端上。图表报告书写器、多维查询引擎和联机分析处理产品,是用户进行复杂访问、分析和报告的关键─这是第一步推广数据仓库结构的吸引力之一。

  多维数据库,使用户随时可进行高级的分析。数据库立方体中的一个单独的单元,可以把有关所有小器械的销售额存储到西北地区的制造节点上。OLAP工具依靠数据库来帮助用户用很少的编程或不用编程,就可执行复杂的报告和趋势分析。这就是位于Indianapolis的DowElanco公司的动力,它是北美最大的一家农业研究公司。

  "OLAP工具使交互式数据分析成为可能,同时给传统的数据管理程序增加了新的分析能力层次,"DowElanco信息服务部的高级系统分析员Sandra Bazarian如是说。

  Bazarian和位于Indianapolis的 50名IS专业人员,为遍布世界的从事研究、开发、制造和营销种类繁多的农产品和物种产品的3,100名雇员提供服务。对于任何机构来说,其规模、数据分析和报告,都是IS小组的一项关键任务。

  "我们的目标是减少帮助用户完成特定报告的时间,我们通过使用户可定制其特定需要的方式,使信息可以广泛获得,来完成这一任务。"Bazarian解释说。

  解决方案带来新的数据仓库和决策支持工具。Bazarian和她的小组,把决策支持系统必须满足的50个要求编成一张表,里面包括结构、标准、功能和IS支持。他们继续检测34个不同的DSS工具,包括:Cognos Impromptu,Brio BrioQuery,Pilot Lightship,Oracle Data Browser,Andyne GQL,Platinum Forest & Trees,Microsoft Excel 7.0,Sybase InfoMaker,Gupta Quest和Business Objects。

  IS小组偏爱Business Objects,是出于几个技术上的原因,最终要由DowElanco的用户来定。Bazarian解释说,客户喜爱Business Objects是由于一种称之为Business Intelligent Querying的分析方法,带来了内在的使用便利性。由于是使用熟悉的业务术语来表示数据,而不是使用常与数据库的表和列相关联的隐密名字来表示数据,故Business Object显著降低了使用数据访问语言,如SQL,进行工作的技术复杂性。

  "我们可以建立符合业务术语的对象名,"Bazarian说,"其它工具确实无法提供这一功能;它们希望用户了解数据库的结构、表的名称,以及这些表彼此是如何关联的。工具选定后,DowElanco就成立了一个由用户和IS分析人员组成的小组,收集业务要求,设计数据仓库并为之编程,开发新的Business Objects销售和市场营销应用。

  这个数据仓库的数据来源于SAP运行系统中的Oracle数据库,存储在位于Michigan Midland的Dow Chemical总部中运行Open VMS的一台DEC Alpha主机上。一个TCP/IP广域网络,把主机和位于Indianapolis的DowElanco的本地网,以及遍布美国数十个地区的办事处,连接起来。DowElanco既有Macintosh也有Windows用户,但它准备完全转向Intel平台,同时转向Windows 95。

  "我们无须花大量时间来解释什么是表,或查询路径是怎样工作的,因为用户在这个层次已无须与数据发生联系,"Bazarian说"过去要用几天构造的报告,现在很快就完成了,无须长时间等待,无须IS干预,无须加密语法或隐密命令。"IS小组终于实现了他们的首要目标。Bazarian说:"我们现在可以集中于更具战略意义的开发要求上,因为我们不用再花费如此之多的时间为屏幕和报告编程了。"



  集成与最优品质

  构造数据仓库,需要复杂的系统集成工作,来建立结构并把各种组件连接起来。简化这一过程的,就是许多厂商提出的各种各样的数据仓库集成解决方案,这些厂商包括SAS Institute、Digital Equipment Corporation、Hewlett Packard、Red Brick System、Software AG、Oracle Corp.、Sybase Inc.、Information Builders Inc.,以及Platinum Technology。

  把最优品质的产品集中在一起,是另一种选择:一个厂家的数据库,另一厂家的查询工具,第三家的中介件--虽然一些IS专业人员认为这很可能导致集成问题,但这确是保证系统的灵活和开放性的最佳途径。

  MCI的Mass Markets Marketing事业部考察了各种各样的解决方案,做了一些对比之后,选择了Sybase IQ作为OLAP服务器和Brio Technology的BrioQuery作为前端分析工具。Dickenson还谈到, "…主要要求是查询速度…Sybase IQ同样是费用最为经济的选择。Sybase IQ给我们提供快速的查询和合理的加载时间。"

  在Sybase咨询人员的帮助下,整个数据仓库和DSS仅用了四个月就完成了。其结果是引人注目的。

  Sybase IQ给Mass Markets的分析员一个他们能够有效而高效地用来分析客户信息和状态的工具。"为了优化我们市场战略的效力,尽快尽多地了解我们的客户是很重要的。" Dickenson说:"我们的Sybase IQ系统已投入使用了几个月,毫无缺陷。Sybase IQ为我们提供了对激烈的市场竞争迅速作出反应的能力。我们每天运行上百个查询来响应市场需求。

  客户和业务综合数据库的规模为40GB,并且在不断增长。在全面投入使用和仅需普通维护的情况下,数据库每周重建一次,并且在两个6路Sun SPARC center 1000上运行。BrioQuery在Sybase IQ上作为前端运行,并且用于所有查询的开发。系统大约有150个分析用户,有15~25个并发用户。

  用户可以通过浏览信息系统中的数据仓库报告菜单,来分别生成数百个报告。甚至独有的或特定的报告,也可由最终用户处理,这赋予企业数据库新的可视性。

  Dickenson补充说,对这些数据的访问,通过帮助公司估价正在出现的销售活动,来改善客户服务及质量。例如,通过把过去的销售活动同目前的趋势结合起来,数据仓库就可以帮助公司做出对未来的预测。

  "公司减少延误的能力,使我们的客户受益,他们越来越多地要求及时传送和降低成本,"Dickenson总结说。"市场人员现在可以对这些数据自由地发挥创造性和直觉,并了解这一过程中的趋势和机遇。"