大集中的选择

来源:百度文库 编辑:神马文学网 时间:2024/05/01 07:51:54
2003-9-15      阅读人次:1124
——Parallel Sysplex技术在建设银行数据大集中项目中的使用
■ 中国建设银行信息技术部 王远洪
随着我国加入WTO,国内各家商业银行业一方面要应对其他银行,尤其是国外大型商业银行的竞争压力,另一方面,要满足客户对金融服务在数量和质量上日益增长的要求。为了增强自身的核心竞争力,同时达到规范业务运作、加强内部监管、防范金融风险、信息共享,各行纷纷依据自己的情况将业务处理从分布式架构改造成集中式架构。尤其是工商银行于2002年10月30日宣布已将北京市分行、上海市分行和票据营业部的数据及业务处理分别并入数据中心(北京)和数据中心(上海)的主机系统,完成历时3年的数据集中工作,更是对各家银行造成了不小的压力。中国建设银行于2002年8月正式启动了数据集中工程,其中采用的关键技术之一就是各大国有商业银行普遍采用的Parallel Sysplex(并行系统综合体)技术。下面我们简要的介绍Parallel Sysplex技术以及在建设银行数据集中项目中该技术的初步应用情况,并进行了相关的讨论。
银行的数据集中将以前分布在许多省、市分行处理的业务集中在若干个数据中心进行处理,各种风险也相应的集中。根据有关资料表明,国内一个大型银行的业务处理在高峰时期每秒钟交易量在700到1000笔。一旦出现宕机不能对外服务,将不再是一个省、市不能正常服务,而是许多个省市甚至是半个中国不能正常开展业务,影响和损失将是十分巨大的,因此对系统的高效性、稳定性和可靠性提出了非常高的要求。这里指的系统不仅仅是硬件系统,还包括操作系统、数据库管理系统、交易处理系统等。根据资料,国外大部分大的数据中心运作都采用了IBM主机系统(ES/9000主机或更新的Z系列)。IBM的主机系统通过采用Parallel Sysplex技术,系统的可获得率达到了99.999%,能够满足国内大型银行数据集中后的业务运作需要。
Parallel Sysplex技术特点
IBM eServer Z系列 900企业级服务器是IBM公司为关键性的应用而设计的具有高可靠性和高冗余性,具有很强处理能力和通道能力的服务器(IBM不久前刚推出Z系列最新的序号是990,性能又有了一定的提高),而Parallel Sysplex(并行系统综合体)技术是通过耦合器CF(Coupling Facility)将多台IBM eServer zSeries或IBM S/390服务器耦合在一起,通过硬件和软件的支持实现这些机器的互相通信和合作,达到更强的处理能力和更高的可靠性与可用性。
上图是一张采用Parallel Sysplex技术的结构图。两台900企业级服务器2064的2C型号主机(运行ZOS或OS/390操作系统),通过高速耦合通道ICB-3(带宽可高达1Gb/s)连接到外置的耦合设备2064-100形成了一个并行系统综合体。2064-100与其他2064主机基本相同,只是无中央处理器和输入输出子系统,有内部耦合处理器(Internal Coupling Facility)和较大的内存,运行的是CFCC(Coupling Facility Control Code),能够提供高性能的多系统数据共享。耦合时钟Sysplex Timer是为Sysplex系统内的多台机器提供一个统一的时钟信号,从而保证时序的一致性。每台2C型号的主机通过高速光纤通道(ESCON或FICON),透过ESCON和FICON交换机(Director)与磁盘、磁带库等各种外部设备进行连接。所有的主机设备和之间的连接线路均采用了双份,当一台机器或线路出错,可以使用其他的机器和线路正常处理,这样避免了单点故障,提高了可靠性。
Parallel Sysplex除了需要上述硬件,还需要软件的配合。操作系统软件(含JES2、SMF、WLM、DFSMS、VTAM),数据库管理软件(如IMS,DB2,VSAM)、交易管理软件(如CICS)共同实现了多个系统的相互通信和数据共享。
Parallel Sysplex技术还提供了资源共享、隔离故障、动态扩展、单点控制、动态负载均衡以及系统或子系统失败后自动重起等功能。
Parallel Sysplex在建行
建设银行数据集中项目使用Parallel Sysplex技术的联机系统环境。每台主机分2个逻辑分区(LPAR),其中各有一个用于处理通信的分区(CMC和CMC Backup),另一个的分区运行真正的应用系统。在这个分区上分别运行了1个IMS系统(DBCTL)和4个CICS。其中,1个CICS TOR(Terminal Owning Region)负责终端的管理(2个TOR都使用通用的资源名(Generic Resource name)),3个AOR(Application Owning Region)负责进行业务逻辑处理。这8个CICS合在一起形成CICSPLEX。VTAM的GR(Generic Resource)功能是指当一个终端启动会话(Session)和CICSPLEX的使用相同的Generic Resource name的TOR建立连接,VTAM会根据一定的算法动态的选择一个拥有相同的Generic Resource 名字相同的TOR建立好连接。该TOR将根据动态交易路由算法DTR(Dynamic Transaction Routing)从两个LPAR的6个AOR中动态选择一个将交易路由到该AOR进行业务处理。每个AOR都与该LPAR的DBCTL相连接,通过DBCTL访问IMS 数据库。两个DBCTL之间是通过IRLM(Internal Resource Lock Manager)和CF来实现数据的共享和一致性控制。
这样,当某个TOR或者AOR由于某种原因异常终止(Abend)时,随后的交易会通过其他的TOR或AOR进行正常的执行,并且Parallel Sysplex有自动重起(Auto Restart)子系统的功能,当TOR,AOR或DBCTL异常终止时,系统会自动重起该子系统,不需人工进行干预,这样会大大减少了故障发生时间,降低影响面。
我们还用了一些Parallel Sysplex为运行批处理作业提供的一些机制,比如负载管理器管理启动器(WLM-managed initiator)。在这种情况下,WLM会根据不同系统上运行作业数目动态选择在某台机器运行,从而分散了系统的压力。
应注意的几个问题
通过以上讨论可以看出,Parallel Sysplex在系统上提供了很强的可靠性,为关键性交易提供了一个良好的应用平台。但也需要注意如下几个方面:
(1) 尽管Parallel Sysplex在系统上提供了很强的可靠性,但总的说来,实施的投入较大,实施复杂性较高(本文只是简单的介绍了Parallel Sysplex的基本概念和应用,实际的实施远比这要复杂,而且软件都会有这样或那样的限制),对于不要求连续24小时运转、交易量和数据量不是特别巨大并且以前没有使用过主机或SYSPLEX技术的企业来说,在决定要实施主机和Parallel Sysplex技术之前需要反复权衡投入产出的效果。而且随着数据逻辑集中,数据量的加大,数据的备份恢复、重组、批处理的时间控制等都将是面临需花力气解决的问题。
(2) 在实施Parallel Sysplex技术时,许多系统的设置将使用缺省的设置,需要根据不同应用的实际运行情况进行调整。收集现行生产的实际状况组织有针对性的性能测试或者压力测试,根据结果以及RMF等系统报告进行系统参数的调整是一种比较行之有效的方法
(3) 尽管Parallel Sysplex在系统上提供了很强的可靠性,但决定系统可靠性和性能的一个重要方面仍然是运行的应用系统。如果应用设计不合理或考虑不周到、扩展性不强、访问数据库过多,仍然会使系统运行不稳定,出现大量交易超时现象,严重时会出现宕机现象。通过压力测试发现应用程序存在的瓶颈,尤其是需要解决HotSpot DB或防止联机程序扫描大的数据库,这样才能充分发挥Sysplex所提供的优势。