袁满博士与吴超关于数据元的对话

来源:百度文库 编辑:神马文学网 时间:2024/04/30 03:20:48
王权老弟你好!
好久没有听到你伟大的Voice了,最近有什么新思想了。如果有,别忘了再回学校交流哇!
你上次的报告,学生么映相当好,所以希望你有时间时,再将你的新思想让大家来学学!
下面是咱们论坛的一个网友,昨天给我发的mail,他名字叫吴超,他是中国一航研究所的,他们要搞利用数成元来规范化他们的数据,有些问题,我给他解答了一下。我感到他问得很好,所以也希望你在咱们论坛上发布一下,供其它网友共享。内容如下:
================================================
对一航吴超数据元问题的回答
首先感谢你,对数据元这样感兴趣,下面对你提的几个问题咱们一同讨论一下:
1、数据元与元数据间的关系怎么样理解?
首先肯定一点是:数据元本身也是数据单元,即也是数据。它就是一个用来对各行业的数据进行自身规范化的一个方法或一套指导的理论。用这一套方法对行业数据进行统一的名、型、值规范及分类。可以说数据元是组成数据的最小单元,是基本的。就像化学元素一样,化学元素本身并不多,即几十种,但由这几十种元素构成的物质可是形形色色。所以对于一个行业来讲数据元应该是有限的,而不是无限的。理解数据元应该从它的几个性质来认识:
(1)原子性:即说明数据元具有原子特征,即是组成数据最小单元。例如“金额”本身就是一个基本数据元,“产量”,“重量”、“密度”等等
(2)集成性:按照数据本身自然联系建立数据间的关联关系,体现出了数据的集成性。同时,通过对数据元的分析,对数据的分类具有重要的指导作用。
(3)演绎性:说明可由基本数据元演绎或派生出许许多多的应用数据元,继上面的实例:
煤产量、原油产量、钢产量等,或更细致地可以演绎出:煤年产量/煤月产量/煤季产量/煤累计产量等。
从上面的讨论,我们可以看出,实际上数据元由基本数据元与应用数据元之分,所以一般来讲,我们就是指基本数据元。
通过这个讨论你也可以看出,行业数据元应该是有限的,规划好行业数据元之后,可以为行业构建出统一、集成的、稳定的数据模型奠定基础,同时它也为数据交换奠定基础。更重要的是在逻辑层上为我们提供了一个统的“参考模型”。以前存在的一些模型中的数据与其它模型进行共享时,可以在这个逻辑的“参考模型”一层上得到统一。
而元数据,我个人认为理解这个元数据也应有几个层面的问题,首先,从它的定义上讲,所谓的元数据是“描述数据的数据”。单从这个定义上来看,元数据的定义是相当宽泛的。例如,描述数据元有二十几个属性,即这二十几个属性(例如数据元名称、定义、类型等),我们就称为是描述数据元的元数据。这只是单纯地从它的定义上来理解,其实,一般我们所指的元数据,通常都与具体的应用挂钩的。
例如,我们保存到DBMS中的表结构、索引、字典、报表格式等等均为元数据,所以可以看出,元数据(Metadata)与数据元(Data Element)不是一个层面上的概念。
二者的关系:数据元规划好了,可以为企业提供高效的,而非冗余的元数据。元数据与软件及数据仓库紧密相关。另外,数据元之后才能谈元数据,元数据更接近于应用,而数据元仅仅是从数据名、型、值以及分类的角度对数据进行规划。数据元设计是为数据集成,即数据模型构建奠定基础,它更面向数据模型,而数据元更接近实际应用。
2、一般来说,信息系统 基本(通用)数据元都怎么样划分与提取?
这个问题问得相当好,曾有许多人问过这个问题。数据元的提取要经过下面一些过程:
(1)按照行业中的关键业务活动,即工作流程,从源头出发来初步地提取出数据项,即业备流中蕴涵着数据流,这样可以保障所提取的数据元能够满足多学科的应用需求;这个过程也是分专业进行分析的过程。
(2)将多专业的数据进行统一考虑,一般来讲,我国行业信息建设发展到今天数据已经有了很大程度上的积累,这样为我们提取数据项提供了更方便的条件。这样可以按照数据元的方法对数据元本身进行分类,这种分类一般有按照“对象”、“特性”以及“表示”等进行分类,这是最基本的分类。也有的可以按照自行业和特点按照应用主题或其它进行分类。
相似类别的数据分类到一起,这样可以统一考虑该类数据的名、型及值等问题。数据元的提取是一个逐步求精的过程,不可能一次就完成,它要有一个反复的过程。
上面所说的按照对象来分类,是指该数据元是描述什么对象的,例如,在石油行业,井号,这个数据元本身就是描述“井”这个对象的,所以如果按照对象来分类,那么它将被分到“井”这个对象。可以看出,按照对象来分类时,可以为下一步建模奠定一个好的基础。
按照特性与表示也可以从不同的角度来对这些数据元进行分类。对基本数据元的分析,最后可能会得到一个层次关系,有的人问,这个基本数据元到底要分解到何时为止呢?回答是:具体抽象为哪一层与行业应用有关系,这不是死规定。一般来讲,数据元如果越基本,那么它的抽象度应越高,而距离实际应用主题就越远。这就要根据实际而定了。例如,就拿我们石油行业来讲吧:产量,这个数据元是最抽象的了,它位于很高的高度,根据石油行业的特点,我们可以再向下分类,如石油产量、天然气产量、化肥产量,这样如果还不能满足需要,我们可以再向下细化,对于石油产量可能再抽取出稀油产量、重油产量等等。所以这个划分要根据实际,如果你认为达到了要求了就可以了。
其实,我们上面所谈的数据元分析过程,实际上就是对信息进行分类的过程,如果再加上编码就形成了我们行业的数据标准。
最后提示你注意的是:数据元它是我们信息化的一个中间产品,它是为最终数据建模与交换奠定基础的,是实现“e”能源的重要资产。我们在应用数据元时,一定不要按照它的理论来生搬硬套,只要在这一方法论的指导下,能将行业数据统一规范了就达到了目的!所以在实际应用中一定要注意这一点。
此外,要注意的一点是:利用数据元来规范化行业数据,而不是取代现有模型,它是集成多学科的一个“胶水”。
最后再一次感谢你,我们都十分渴望为我们行业信息化做出我们一点点努力,但是这个过程是相当难的。,我们只是从理论等方面进行宣传这一思想,但这一思想是我们从事信息化的人应该掌握的一个思想,它对信息化十分有利。其实,行业信息化的基础就是数据,而数据搞不好,将会使我们的信息化前进的步伐受到影响!
讨论中如有不错误之处,请批评指正!