DataStage

来源：百度文库编辑：神马文学网时间：2024/04/19 18:05:03

DataStage 数据仓库中的数据来自于多种业务数据源，这些数据源可能是不同硬件平台上，使用不同的操作系统，数据模型也相差很远，因而数据以不同的方式存在不同的数据库中。如何获取并向数据仓库加载这些数据量大、种类多的数据，已成为建立数据仓库所面临的一个关键问题。针对目前系统的数据来源复杂，而且分析应用尚未成型的现状，强烈推荐使用专业的数据抽取、转换和装载工具DataStage。
　　DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化，并将其输入数据集市或数据仓库目标数据库的集成工具。
　　DataStage 能够处理多种数据源的数据，包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统等，以下列出它所能处理的主要数据源：
　　大型主机系统数据库：IMS,DB2,ADABAS,VSAM等
　　开放系统的关系数据库：Informix,Oracle,Sybase,DB2,Microsoft SQL Server等
　　ERP系统：SAP/R3,PeopleSoft系统等
　　普通文件和复杂文件系统，FTP文件系统，XML等
　　IIS,Netscape,Apache等Web服务器系统
　　Outlook等Email系统

　　DataStage可以从多个不同的业务系统中，从多个平台的数据源中抽取数据，完成转换和清洗，装载到各种系统里面。其中每步都可以在图形化工具里完成，同样可以灵活的被外部系统调度，提供专门的设计工具来设计转换规则和清洗规则等，实现了增量抽取、任务调度等多种复杂而实用的功能。其中简单的数据转换可以通过在界面上拖拉操作和调用一些DataStage预定义转换函数来实现，复杂转换可以通过编写脚本或结合其他语言的扩展来实现，并且DataStage提供调试环境，可以极大提高开发和调试抽取、转换程序的效率。

　　根据以往的项目实施经验，通常数据抽取工作分抽取、清洗、转换、装载几个步骤:
　　抽取主要是针对各个业务系统及不同网点的分散数据，充分理解数据定义后，规划需要的数据源及数据定义，制定可操作的数据源，制定增量抽取的定义。
　　清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务规则等问题，允许通过试抽取，将有问题的纪录先剔除出来，根据实际情况调整相应的清洗操作。
　　转换主要是针对数据仓库建立的模型，通过一系列的转换来实现将数据从业务模型到分析模型，通过内建的库函数、自定义脚本或其他的扩展方式，实现了各种复杂的转换，并且支持调试环境，清楚的监控数据转换的状态。
　　装载主要是将经过转换的数据装载到数据仓库里面，可以通过数据文件直接装载或直连数据库的方式来进行数据装载，可以充分体现高效性。在应用的时候可以随时调整数据抽取工作的运行方式，可以灵活的集成到其他管理系统中

DataStage ETL DataStage实现 WebSphere DataStage Enterprise Edition 实践 WebSphere DataStage Enterprise Edition 实践1 WebSphere DataStage Enterprise Edition 实践2 用DataStage 进行数据整合：第二部分 DataStage Parallel Job Vs Server Jobs