上证所数据深耕

来源:百度文库 编辑:神马文学网 时间:2024/04/28 03:11:09
如果不出意外,上证所的数据增值系统将成为全球最好的系统之一
7月20日上海万国股市测评咨询有限公司的活动部经理吕沈强紧急电告《互联网周刊》,“今年的科技股50强实在没时间去做数据分析方面的工作了,”电话中的吕沈强带着歉意说:“没办法,几乎所有的人都在忙着推动上交所Level-2行情版的事情。”
而之前的《互联网周刊》科技股50强评选活动都是在与万国测评合作,甚至为了强化双方之间的合作,在6月底吕沈强甚至带着其同事一行三人专程来到北京,并言之凿凿“会全力配合今年的科技股50强。”目前万国测评正想如何把自己的“大智慧”交易系统做大,而与《互联网周刊》合作做这样的活动,对推广自己的网站,其好处是不言而喻的。“包括总经理在内都很支持这个事情。”吕沈强说。
而现在能让万国测评忍痛割爱的理由只能是比科技股50强还重要的事情,而这就是上证所的Level-2行情版。
开始有偿服务
7月18日,上海证券交易所证券信息独家全权经营机构—上证所信息网络有限公司宣布推出了上证所Level-2行情。作为国内证券市场的第一个商业版行情,消费者及最终用户将一律与信息服务商通过签约方式获取有偿服务。
上证所信息网络有限公司的董事长赵小平介绍,新版的Level-2行情并不是取代上海证券交易所已供给市场的即时行情(Show2003),而是为不同类型的投资者提供差异化服务。也就是说之前无论是大户还是散户都在用同样的免费交易系统,在系统上获取的交易信息几无二致,但新版的Level-2行情将会给交钱的会员以更多的信息。而这一点对于股市的投资者来说,无疑平添了获利的筹码。
赵小平1994年到上证所研究中心主持研究工作,1998年任上证所信息中心主任,2005年开始担任上证所信息网络有限公司董事长。从2000年开始,上证所开始启动三大技术项目:新交易系统、新网站和新信息系统,而赵小平经历了实施中的诸多过程。
赵小平介绍,Level-2行情是在现有的行情基础上设计了新的增值内容,由信息服务商进行再加工,并将其他信息源与之融合而成。在信息内容上,Level-2行情也有显著提升,包括从提供五个价位上的委托量增加到十个价位、加权平均委买/委卖价格实时显示、逐笔成交明细的从无到有、刷新频率明显加快,由6秒刷新提升到3秒刷新、最佳买卖价位上前50笔分笔委托量及动态成交笔数的提供等。这些内容在很大程度上丰富了交易行情的信息空白,满足了客户差异化信息需求。此外,Level-2行情还具备国际标准的数据接口、数据重发保障机制、信息安全保障等众多优势。
吕沈强说目前国内已经有三家证券服务机构与上证所信息网络有限公司签约,但至今为止都在忙于系统的对接和调整,还没有一个收费的交易系统出来。另外对于这个市场上陌生的新鲜产品,究竟应该如何收费,通过什么样的途径来收费,思路确实不是很清晰。目前大智慧的Level-2行情版仍是在测试阶段,原本计划8月1日进行收费,现在推迟到9月1日。
搭建数据仓库
而为这个系统做的准备早在2000年就开始了。
上证所信息中心副主任石晓成博士介绍,交易所中最值钱的是数据,就像源代码对微软、保密配方对可口可乐的重要,交易所的数据也是交易所的核心价值所在。数据不仅涉及到几千万股民的利益,还涉及到上千家企业的利益,更是整个宏观经济的一个微观层面的展现。
2000年上证所开始考虑如何搭建一个全面、稳健、安全的信息系统,而从1990年上证所成立之后的10年间,交易所的信息系统曾经历过六次大的系统改革,代码等信息基本上已经面目全非。同时,2000年的牛市行情,不管是开户数量和交易手数/秒都创出了历史新高,在行情突飞猛涨的时候,后台的稳健和安全被上证所提到了议事日程上。而第一件事情就是IT系统的战略规划。
“当时与BCG、路透等多家国际知名咨询公司进行过信息化战略咨询和数据仓库整体的规划与设计。”石晓成说自己当时还没有回国,所以也没有参加过一期工程IT系统的战略规划。事实上,上证所与路透集团早在1992年就有了合作,当时路透社的综合数据网络与中国最大的上海证券交易所的行情电脑系统正式联通,使得上海证券交易所的A股和B股的牌价可以通过路透社的网络传送到世界各国。
在这样的关系基础上,IT系统的战略规划多是出于路透咨询之手。
石晓成说,2002年中期,上证所开始进行严格的性能测试和专家评审。性能测试可以看作是整个项目实施过程的预演(概念验证),而2002年的测试数据量当时是国内同类测试中数据量最大的一次。石晓成说通过这次测试,一些在系统建设、实施过程中可能遇到的问题(包括技术层面、实施过程)大部分得到了验证,为随之进行的项目实施降低了相当的风险。有了这次测试之后的结果和分析,上证所最终采用了Teradata的海量并行处理技术和先进的数据仓库实施方法论。不过选中Teradata除了技术本身的因素外,之前上证所的登记结算中心也曾经采用了Teradata的技术。
2002年10月,上证所启动数据仓库一期工程。当时作为上证所三大重要项目之一,数据仓库起着承上启下的作用,并将与新一代交易系统、消息总线、新网站等共同构成未来交易所的IT基础架构。所以其重要性不言而喻。
随后上证所开始抽调精兵强将组成项目组,制定了项目管理、文档规范、安全保密、变更控制、汇报制度等。而全部的实施过程经过了信息调查分析、业务需求分析、逻辑数据模型设计、体系结构设计、物理数据库设计、ETL设计开发、历史数据加载、备份、业务应用设计开发、系统测试、验收移交、用户培训及知识转移等各个环节。2003年10月上证所完成了一期建设。
石晓成回忆说一期工作要解决的主要是基础性的工作,大致内容是基本的数据清洗、存储、整合和统一,1990年以来存储在光盘、磁盘等上面的信息资料,全被转移到新建成的数据库中。
“完成的14个节点的并行处理, 14TB的存储,使数据处理非常快,530亿成交量可以在45分钟之内全部清洗完毕,而后加载存储,全部进入库。目前在单位时间内处理的交易笔数要高于美国近100倍。”赵小平不无得意地说。
数据深耕
但是从发展的角度来说,上证所需要对数据进行深度分析,从而实现业务创新,这就需要数据仓库二期工程的补充。但二期工程应该怎么做,究竟如何才能做好,解决这些问题并不是一件简单的事情。
石晓成就是在这时候进入了上证所,并开始参与二期工程的前期论证工作。“大致时间在2003年的上半年,当时一期还没有完。”石晓成说自己在国外曾经接触过数据库方面的工作,通过朋友听说上证所需要这方面的人才,就回国找上证所谈了一下,事情很快就确定了。
赵小平介绍实施二期工程的目的很明确:实现上证所深度监管、支持产品创新和服务信息经营三大目标。具体目标是通过信息数据共享,提高监管能力;二是通过对ETF、权证、指数定制等新业务提供数据支持,提高创新能力;三是通过对信息数据的加工,为信息公司提供LEVEL-2静态数据和数据产品目录,为上证所信息经营提供全面的数据资源。
但做这样的工程要牵涉到上证所十几个部门的运作,而且这是企业级的数据仓库。并且交易所任何一个新产品开发,通常都会涉及测试、监管、建模、预警、预报、监察、指标等。而这是全局性的工作,不是一个部门或信息中心能做的。
项目实施中间的困难可想而知。
事实上,选择什么样的合作伙伴来做二期工程似乎成为更重要的一件事情。一个原因是好的合作伙伴有更多的经验可以借鉴;二是新产品的安全和稳定性应该说更为关键和重要,而这样来说对合作伙伴的要求也会更高。
石晓成说当时的竞争对手有几家,但主要是两家:IBM和NCR的Teradata。“在一期的时候,IBM就参加过竞争。”石晓成说,“当时作了一个PK,把需要测试的所有机器拉到外高桥,全部封闭,然后进行测试。一共有200多个指标,最后看数据结果,当时交易所给了他们大量的模拟数据。”
结果是Teradata再一次中标。“NCR获得两个项目非常不容易,完全是PK后拿到项目的,这没办法,一切为了公平、公正。”赵小平说。
而这时候,在一个没有产品和经验的领域内做信息系统,可能需要更多的是领导的支持和同事们的信任。
要获得这些,需要证实信息系统的作用。“我们采用了‘沿途下蛋’的方式来做,一个项目成功了就上线一个,领导和同事逐渐看到了信息化的好处后,实施工作就好干多了。”赵小平说二期工程得到了诸多业务部门的支持与“沿途下蛋”这种办法不无关系。
2004年12月,上证所启动数据仓库二期,2005年12月基本完成。从管理角度而言,数据仓库的建设实际上整合了很多系统各自的建设布局,结束了之前缺乏全局性的无序建设局面。全局数据的关联,将基础性数据工作与增值性工作做出了一个恰当的分工。
但上证所毕竟是一个企业单位,也面临着经营发展的问题,美国的纳斯达克市场本身就是一个上市公司,所以二期工程的关键在于如何应用。
开通Level-2行情版只是利用信息化进行的应用之一。上证所信息网络有限公司总经理王勇说,国内证券市场提供的都是单一即时行情,证券信息服务业也未形成从源数据供应到加工、增值、分发等的有效产业链。“而采用国际通行的‘交易所—信息经营商—用户’模式,规范化运作打造完整的产业链是上证所信息网络有限公司成立的根本初衷之一。”王勇说。
“不过,如果没有一、二期工程作支撑,所有的这些增值服务都谈不上。”赵小平承认。