福建新意视野电子报刊

来源:百度文库 编辑:神马文学网 时间:2024/05/04 04:11:55
金融行业作业管理系统解决方案
一、作业管理的现状:
经过近几年的努力,中国银行业的业务和数据的大集中工作,取得了阶段性的成果。大多数银行都实现了区域集中,有的银行已经实现数据的全国集中。在业务的集中程度不断提高的同时,原来在各个系统中普遍存在的各种批处理作业自然也被集中到了中心节点。并且,面对业务和数据被集中之后产生的巨大的交易量和数据量,必须相应改造原有的业务系统的处理方式,并添加新的批处理作业来提升业务处理的效率。如何合理有效地管理这些新老批处理作业,成为各大银行必须要面对的一个重大课题。
但是在目前,各种业务的批处理作业相对独立,各个业务应用的批处理作业在运行平台、实现技术、调度方式等方面都存在着较大的差异。
首先,在运行平台方面,除了运行核心业务的主机之外,在Solaris、AIX、HP_UX、Linux、Windows等几乎所有的主流开放平台上都有不同的业务在运行。 在批处理作业的实现技术上,有各种计算机语言的的编码实现、数据库的存储过程、使用各种脚本语言编写的批处理脚本等各种不同的方式。 此外,在调度方式上也各不相同,有的需要通过定期GUI的菜单操作手动启动,有的通过计划任务、CronTab等方式实现定时启动,有的通过在业务系统中追加独自的作业管理功能来调度。
因此,目前的批处理作业管理方式存在着许多需要改进的缺陷:需要较多的人工干预,工作烦琐,作业执行效率差,容易出现操作失误,缺乏对批量作业运行的科学监控和管理。
二、基本需求分析
为了改变作业管理的现状,各银行急需引进一个成熟的统一管理解决方案,来实现科学的作业管理机制。以提高作业效率,节约管理成本,规避作业失败的风险。该解决方案需要满足的基本需求如下:
三、解决方案
在15年前,NEC率先将大型机的批处理技术引入到开放系统的世界,并且结合了NEC在系统集成业务中的大量经验形成了一款作业管理产品——JobCenter。NEC的统一作业管理的解决方案以JobCenter为核心,统一管理运行于多台计算机上的网络作业,实现业务处理的高效自动运行。从而,在充分有效地利用计算机资源的基础上,为用户提供一个安全稳定的业务应用环境。并集成了NEC的高可用集群软件ExpressCluster,以提高作业调度服务器的可用性。
在该方案中,需要在每一台执行作业的机器上配置JobCenter的代理模块,然后通过应用于高可用集群下的作业调度服务器来对所有作业进行调度。在应用的过程中,管理员通过图形化界面的控制台登录到作业调度服务器上,统一编辑作业流、时间表和作业执行计划,并通过设置将每一个单元作业指定到相应的执行作业的机器。所有的定义信息均保存在作业管理服务器上,作业管理服务器上会根据事先制定的作业执行计划自动调度各个机器上的作业。系统结构如下:

JobCenter所管理的作业可以分布于所有的主流的操作系统平台。例如Windows(2000, XP, 2003), UNIX (HP-UX, Solaris, AIX),和 Linux (RedHat, Miracle,RedFlag,Turbo等)。JobCenter作业调度基于标准的NQS (Network Queuing System)协议,对各种平台上的作业的调度方式没有任何区别。
JobCenter的作业调度服务器也可以配置在上述所有平台上。
JobCenter还可以直接调度支持NQS协议的大型机(例如 NECACOS 系列) 和超级计算机 (例如. NEC Super-UX 系列)上面的作业。
为了适应多变的市场环境,以及和国际业务接轨,将不断有新的业务系统产生。而多平台的支持能力,可以保证一个新的系统和平台可以无缝地追加到原有的作业统一管理系统当中。

通过设置作业网络中各个作业的属性,可以实现多台服务器多平台的作业之间的协作运行。(例如:在分公司的Windows机器上运行的结算作业结束之后、再在总公司的UNIX服务器上启动统计处理)


仅通过在GUI界面上通过拖放图标方式,就可以完成流程的创建。通过各种控制部件,可以灵活地描述作业,创建符合业务逻辑的作业系统。并且通过作业流程的嵌套管理、可以创建出大规模的作业流程。创建之后,整个作业流程中各个作业之间的逻辑关系清晰可见、一目了然。
JobCenter拥有一个十分完善的时间表定制功能,可以将作业的执行计划精确到分钟。通过时间表制定好作业的执行计划后,作业管理服务器将按照计划自动调度作业。管理员将彻底拜托批处理作业管理中最繁琐枯燥的工作,将精力专注于作业流程的改善和自动故障恢复方法的研讨等环节上。
可通过一览表轻松掌控作业网络的执行状况。并且在一览表中用不同颜色显示执行状况,何处发生了异常,将一目了然。还可以通过甘特图来掌握运行作业所耗费的时间。
通过过滤功能显示符合检索条件的作业网络(可以按状态、用户名、作业网络名等条件进行检索)

可以通过在GUI或命令行方式将导入、导出已创建好的业务流程和时间表,作业环境的备份/恢复和作业环境的移植工作变得十分简便易行。

在网络发生故障时,JobCenter的通信重试机制可以保证在网络故障恢复之后管理服务器可以正常获得作业的执行结果,并且正常调度后续的作业。
当作业本身由于各种原因执行失败时,JobCenter可以利用条件分支部件和负载均衡配置来提供完善的容错和故障恢复能力
可以在条件分支部件的异常处理分支中将作业流程重新定向到发生故障的单元作业,自动进行重试处理。 可以将故障恢复处理定义在条件分支部件的异常处理分支中,发生故障时,可以实现自动恢复。 在利用多台服务器实现负载均衡功能时,如果作业执行失败,作业将会被自动迁移到其他服务器上重新运行。 如果经过重试以及作业迁移均无法恢复作业运行故障,则可以实时通知给管理员,由管理员进行相应的处理。
银行的业务系统的集中程度越高,系统的规模也就越大。如何集中管理所有服务器,又不让作业管理服务器的负荷成为整个系统的瓶颈,是构建大规模作业管理系统是必须考虑的问题。
(一)通过单一管理服务器调度作业,在大规模环境下,管理服务器的负荷在超过一定的水平时就需要采取分散负荷的措施。

(二)而作业调度的负荷被分散到多台服务器之后,自然会产生统一管理和统一监控的需求

通过级联的方式搭建多层的作业管理环境,可以解决上述两方面的问题。通过这种方式可以搭建大规模的作业管理系统

在管理服务器级联的环境中,管理服务器分为两个级别,二级服务器有多台,负责分散作业调度的负荷。一级服务器只有一台,负责汇总所有二级服务器上的作业管理信息,进行统一的监控。
如果作业管理服务器无法保证正常运行,所有的作业也无法被调度。所以,作业管理服务器安全稳定运行是作业管理系统甚至整个业务系统的命脉所在。
将JobCenter应用于集群环境中,可以在服务器或管理系统的服务发生故障时,自动将IP和作业管理系统切换到备份服务器,从而保证作业的执行状况和历史记录可以完全被备份服务器继承,作业调度和作业执行可以继续,避免由于故障导致作业运行被中断。