给数据以形象 给信息以智能

来源:百度文库 编辑:神马文学网 时间:2024/04/23 22:19:28

给数据以形象 给信息以智能

-数据可视化技术及其应用展望

黄志澄

一.引言

现代的数据可视化(Data Visualization)技术指的是运用计算机图形学和图像处理技术,将数据换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。它涉及到计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互技术等多个领域。数据可视化概念首先来自科学计算可视化(Visualization in Scientific Computing),科学家们不仅需要通过图形图像来分析由计算机算出的数据,而且需要了解在计算过程中数据的变化。随着计算机技术的发展,数据可视化概念已大大扩展,它不仅包括科学计算数据的可视化,而且包括工程数据和测量数据的可视化。学术界常把这种空间数据的可视化称为体视化(Volum Visualization)技术。近年来,随着网络技术和电子商务的发展,提出了信息可视化(Information Visualization)的要求。我们可以通过数据可视化技术,发现大量金融、通信和商业数据中隐含的规律,从而为决策提供依据。这已成为数据可视化技术中新的热点。

为适应硬件平台、操作系统、网络和通信方面的飞速发展,可视化的软件产品在近几年中发展很快,其中以AVS/Express开发版、IDL(包括VIP、ION)和PV-WAVE等为代表。AVS/Express开发版,可以提供多平台的交互式多维可视化软件开发和集成环境。

二.发展数据可视化的重要意义
怎样来分析大量、复杂和多维的数据呢?答案是要提供象人眼一样的直觉的、交互的和反应灵敏的可视化环境。因此,数据可视化技术的主要特点是:

(1)交互性。用户可以方便地以交互的方式管理和开发数据。

(2)多维性。可以看到表示对象或事件的数据的多个属性或变量,而数据可以按其每一维的值,将其分类、排序、组合和显示。

(3)可视性。数据可以用图象、曲线、二维图形、三维体和动画来显示,并可对其模式和相互关系进行可视化分析。 历史证明,人类的视觉在人类的科学发现中发挥过杰出的作用。通常在可视化方面,关键技术的出现,就是重大科学发现的前奏。望远镜和显微镜在天文学和生物发展中的作用,就是明证。这些工具,放大和扩展了人类眼晴的功能。今天,这个道理仍然成立。人类的可视化功能,允许人类对大量抽象的数据进行分析。新的数据开发工具,可以大大拓展我们的视力。人的创造性不仅取决于人的逻辑思维,而且取决于人的形象思维。海量的数据只有通过可视化变成形象,才能激发人的形象思维。从表面上看来是杂乱无章的海量数据中,找出其中隐藏的规律,为科学发现、工程开发、医疗诊断和业务决策等提供依据。这里我们还必须区分数据、信息和知识的概念。数据是符号的集合。信息是有用的数据。信息不等同于知识。信息不能像知识那样去反映数据之间的内在联系。对于知识,有人主张可分成两类,一类是无法用语言和文字来描述的,称之谓隐知识(Tacit Knowledge);另一类是可以用语言和文字来描述的,称之谓显知识(Explicit Knowledge)。当前,信息就是这种显知识。展望未来,在脑科学取得突破的基础上,将研制成功类人脑的计算机-生物计算机,从而开创人工智能的黄金时代。但即使到那时,信息也不能完全表达人类全部的隐知识。只有将数据和信息用图形和图像表示出来,才有可能为获得十分宝贵的隐知识创造条件。总之,数据可视化可以大大加快数据的处理速度,使时刻都在产生的海量数据得到有效利用;可以在人与数据、人与人之间实现图像通信,从而使人们能够观察到数据中隐含的现象,为发现和理解科学规律提供有力工具;可以实现对计算和编程过程的引导和控制,通过交互手段改变过程所依据的条件,并观察其影响。

计算机用于科学计算和数据处理已有近50年的历史。但是,长期以来,由于计算机技术水平的限制,数据只能以批处理而不能进行交互处理。不能对计算过程进行干预和引导,只能被动地等待计算结果的输出。而大量的输出数据也只能采用人工方式处理,或者使用绘图仪输出二维图形。这样做,不仅不能及时地得到有关数据的直观、形象的整体概念,而且还有可能丢失大量信息。近年来,来自超级计算机、卫星、先进医学成象设备以及地质勘探的数据与日俱增,使数据可视化日益成为迫切需要解决的问题。另一方面,近年来由于计算机的计算速度迅速提高,内存容量和磁盘空间不断扩大,网络功能日益增强,并可用硬件来实现许多重要的图形生成及图像处理算法,这才有可能运用数据可视化技术,直观、形象地显示海量的数据和信息,并进行交互处理。

下面我们举例来说明发展可视技术的重大意义。长期以来人类就有认识自身内部结构的愿望。直到70年代计算机断层扫描(CT)和核磁共振图像(MRI)技术和可视化技术的出现,才使获取人体内部数据的愿望成为现实。为了实现这一目的,美国国家医学图书馆(NLM)于1989年开始实施可视化人体计划(VHP)。委托科罗拉多大学医学院建立起一男一女的全部解剖结构数据库。他们将一具男性和一具女性尸体从头到脚做 CT扫描和核磁共振扫描。男的间距1毫米,共1878 个断面;女的间距0.33毫米,共5189个断面。然后将尸体填充蓝色乳胶并裹以明胶后冰冻至摄氏零下80 度,再以同样的间距对尸体作组织切片的数码相机摄影。分辨率为2048 ×1216。所得数据共56GB(男13GB,女43GB)。全球用户在与美国国家医学图书馆签订使用协议并付少量费用后,即可获得这一庞大的数据,用于教学和科学研究。VHP数据集的出现,标志计算机三维重构图像和虚拟现实技术进入了医学领域,从而大大促进了医学的发展和普及。

三.数据可视化的应用

数据可视化的应用十分广泛,几乎可以应用于自然科学、工程技术、金融、通信和商业等各种领域。下面举例说明几个数据可视化成功应用的领域。 1.医学
医学数据的可视化,已成为数据可视化领域中最为活跃的研究领域之一。由于近代非侵入诊断技术如CT、MRI和正电子放射断层扫描(PET)的发展,医生已经可以较易获得病人有关部位的一组二维断层图象。CT打破传统的胶片感光成像模式,通过计算机重构人体器官或组织的图像,使医学图像从二维走向三维,使人们从人体外部可以看到内部。PET把核技术与计算机技术结合起来。经核素标记的示踪剂注入人体后,核素衰变过程中产生的正电子湮灭通过电子检测和计算机重构成像,使我们可以得到人体代谢或功能图像。在此基础上,利用可视化软件,对上述多种模态的图像进行图像融合,可以准确地确定病变体的空间位置、大小、几何形状以及它与周围生物组织之间的空间关系,从而及时高效地诊断疾病。美国加洲的ADAC实验室,约翰.霍普金斯大学、焦点图形公司、集成医学图象处理系统公司以及德国柏林大学等、都采用可视化软件系统,将获得的二维断层图象,重构有关器官和组织的三维图象。他们开发出的软件已在许多医院得到应用。另外,美国华盛顿大学利用可视化软件系统和心脏超声诊断技术,可以获得心脏的三维图象,并用于监控心脏的形状、大小和运动,为综合诊断提供依据。电子束CT(EBCT)由电子束扫描替代了X线管与检测器的机械扫描,因而扫描速度提高近百倍,检查运动的器官(如心脏大血管)能得到清晰的图像,实现了电影CT,是CT技术的一次革命。中国协和医科大学阜外心血管病医院已将EBCT三维图像重建用于主动脉病变的临床诊断和冠状动脉搭桥术(CABG)后的血管显示。

 

 

图1 美国ADAC实验室给出的多种模态的融合图象

由于EBCT血管造影图像时间分辨率高,消除了呼吸及运动伪影,可以明确诊断各种主动脉病变和显示冠状动脉搭桥血管解剖结构。三维重建图像利于整体直观地显示病变,帮助明确诊断并指导手术。从而在主动脉病变的诊断和冠状动脉搭桥术后的血管显示方面,可望取代有创的常规血管造影

在可视化技术的基础上可以进一步实现放射治疗、矫形手术等的计算机模拟及手术规划。例如,在做脑部肿瘤放射治疗时,需要在颅骨上穿孔,然后将放射性同位素准确地安放在脑中病灶部位,既要使治疗效果最好,又要保证整个手术过程及同位素射线不伤及正常组织。由于人脑内部结构十分复杂,而且在不开颅的情况下,医生无法观察到手术实际进行情况,因而要达到上述要求是十分困难的。利用可视化技术就可以在重构出的人脑内部结构三维图像的基础上,对颅骨穿孔位置、同位素置入通道、安放位置及等剂量线等进行计算机模拟,并选择最佳方案。同时还可以在屏幕上监视手术进行的情况,从而大大提高手术的成功率。又如,有不少儿童的髋关节发育不正常,当作矫形手术时,需要对髋关节进行切割、移位、固定等操作。利用可视化技术可以首先在计算机上构造出髋关节的三维图像,然后在计算机上对切割部位、切割形状、移位多少及固定方式等的多种方案进行模拟,从而大大提高矫形手术的质量。 2.油气勘探

图2 用PGS Tigress有限公司软件显示的油藏三维图

多年前,人们就已经找到了许多大型油气田。目前石油工业面临的一个严峻问题是:如何寻找规模小而埋藏深的油气田。除了寻找新油田之外,新技术的出现还允许我们通过改善分析和回收方法,使现存油田处于最佳状态,并延长很多油田的产油寿命。科学家和工程技术人员必须先对大量的地震勘探数据进行精确的解释,然后才能确定油田是否存在,并确定对地下资源的开采管理方案。油气勘探的主要方式,是通过天然地震波或人工爆炸产生的声波在地质构造中的传播,来重构大范围内的地质构造,并通过测井数据了解局部区域的地层结构,探明油藏气藏位置及其分布,估计蕴藏量及其勘探价值。由于地震数据及测井数据的数据量极其庞大,而且分布不均匀,因而无法根据纸面上的数据作出分析。利用可视化技术可以从大量的地质勘探数据或测井数据中,构造出感兴趣的等值面、等值线,并显示其范围及走向,并用不同颜色显示出多种参数及其 相互关系,从而使专业人员能对原始数据作出正确解释,得到矿藏是否存在、矿藏位置及储量大小等重要信息。这不仅可以指导打井作业、减少无效井位、节约资金,而且必将大大提高寻找油藏的效率,从而具有重大的经济效益及社会效益。英国的PGS Tigress有限公司开发了数据的可视化软件,已在全世界许多油田和天然气开发中得到广泛的应用。利用这种软件,可以进行地震数据处理、测井多井评估、模拟油气的储存和生产过程。不仅能确定油气储存的位置,而且便可以跟踪油气的运动,便于确定开采油气的最优路径。我国大庆勘探开发研究院开发了地质数据可视化系统,可以全方位、方便灵活地对三维数据体中的断层、部面、层面及其内部所包含的数据类别、地质属性进行立体显示,具有面向对象的开发环境,能满足用户的各种数据可视化要求。 3.气象预报

图3 美国国家海洋和大气局预报的北克拉罗多的天气数据的三维图象

气象预报关系到亿万人民的生活、国民经济的持续发展和国家安全。对灾害性天气的预报和预防将会大大减少人民生命财产的损失。气象预报的准确性依赖于对大量数据的计算和对计算结果的分析。一方面,科学计算可视化可将大量的数据转换为图像,在屏幕上显示出某一时刻的等压面、等温面、旋涡、云层的位置及运动、暴雨区的位置及其强度、风力的大小及方向等,使预

报人员能对未来的天气作出准确的分析和预测。另一方面,根据全球的气象监测数据和计算结果,可将不同时期全球的气温分布、气压分布、雨量分布及风力风向等以图像形式表示出来,从而对全球的气象情况及其变化趋势进行研究和预测。美国国家海洋和大气局(NOAA)的预报系统实验室开发了气象预报办公室(WFO-Advanced)的高级版,其关键部分是显示天气数据的三维图象。为此,该实验室开发了三维可视化软件系统Display 3D(D3D)。利用这个系统可以将从气球、地面站、雷达、飞机和卫星等收集来的大量数据进行显示和处理,并在此基础上及时跟踪和评估当地的重要气象情况,从而及时准确地作出天气预报。通常情况下,气象工作者将二维的层状数据人为叠加来进行分析,而运用三维可视化,可让气象工作者从大量二维图像计算中解脱出来,让他们的精力集中于预报所需的实际数值。利用WFO-Advanced 和 D3D ,气象工作者可以建立在4小时内做出未来12-18小时的中尺度(20-200km)或区域预报模式。该软件中的动画模块可以生成图像序列、显示出动态图像。这一软件的最大特点在于生成云雾十分逼真。我国军事气象部门最近开发的“军用数值天气预报系统”,能高速处理数千个气象台站气象观测数据,自动滚动制作10天以内逐日军用天气预报、军事气象要素预报和三维可视化信息。

4.工程

计算机辅助工程(CAE)包括计算机辅助设计(CAD)、计算机辅助制造(CAM)和计算机辅助运行等多项内容。可视化技术有助于整个工程过程一体化和流线化,并能使工程的领导和技术人员看到和了解过程中参数变化对整体的动态影响,从而达到缩短研制周期、节省工程全寿命费用的目的。可视化技术可将多种来源的各种数据(包括表格数据、离散采样数据、贴体坐标数据、多重半结构网格数据和非结构网格数据等)融合成三维的图形图像。

在工程设计中常采用计算力学的手段。计算力学更离不开可视化技术。有限元分析(FEA)是50年代提出的适用于计算机处理的一种结构分析的数值计算方法。有限元分析在飞机设计、水坝建造、机械产品设计、建筑结构应力分析等领域都得到了广泛应用。从数学的观点来看,有限元分析将研究对象划分为若干个子单元,并在此基础上求出偏微分方程的近似解。在有限元分析中,应用可视化技术可实现形体的网格划分及有限元分析结果数据的图形显示,即所谓有限元分析的前后处理,并根据分析结果,实现网格划分的优化,使计算结果更加可靠和精确。

图4 美国航空航天局阿姆斯研究中心的虚拟风洞

飞机、汽车、船舶等在设计时都必须考虑在气体、液体高速运动的环境中获得优良性能和正常工作。过去的做法是:将所设计的飞机模型放在大型风洞或水洞里做流体动力学的物理模拟实验,然后根据实验结果修改设计。这种做法既耗费资金,又延长了设计周期。目前已实现了在计算机上进行流体动力学的模拟计算,这就是计算流体动力学(CFD)。其核心是求解表示流体流动的偏微分方程。目前,利用超级计算机可以对复杂几何模型的Navier-Stokes方程式求解。最后可计算出流场中各种参数在每一时刻的数值,但数据量十分庞大。为了理解和分析流体流动的模拟计算结果,必须利用可视化技术在屏幕上将数据动态地显示出来。例如,用多种不同方法表示出每一点的速度、压力、温度和组分等,并显示出涡流、冲击波、剪切层、尾流及湍流等。在流场的可视化中,既要提高显示速度,又要逼真地显示流场的细微结构和各种参数的等值面。当然,计算流体动力学和有限元分析一样,计算的速度和准确度受网格划分的影响很大,通过可视化技术可以针对不同对象,找到最适合的网格划分方法。美国航空航天局阿姆斯研究中心(AMES)的航空航天数字模拟设备(NAF),不仅将可视化技术用于CFD计算,同时也用于从风洞试验获得的二维图象重构三维流场,并进行计算结果与试验结果的比较分析。特别是他们利用基于高度三维交互特性的虚拟现实技术,构筑了“虚拟风洞”,为分析各种非定常流动中的复杂结构,提供直观的研究环境。

四.信息可视化技术的发展

近年来,国际上提出信息了可视化问题。一般说来,科学计算可视化是指空间数据场的可视化,而信息可视化则是指非空间数据的可视化。随着社会信息化的推进和网络应用的日益广泛,信息源越来越庞大。除了需求对海量数据进行存储、传输、检索及分类等外,更迫切需求了解数据之间的相互关系及发展趋势。实际上,在激增的数据背后,隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。另一方面,人工智能自1956 年诞生后也取得了重大进展。目前的研究热点是机器学习。机器学习是用计算机模拟人类学习的一门科学,比较成熟的算法有神经网络、遗传算法等。用数据库管理系统来存储数据,用机器学习的方法来分析和挖掘大量数据背后的知识,这两者的结合促成了“数据库中的知识发现(KDD:Knowledge Discovery in Databases)”的产生。实际上,KDD是一门交叉性学科,涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等多个领域。KDD可以用在信息管理、过程控制、查询优化、科学研究、决策支持和数据自身维护等许多方面。

KDD的核心技术是数据挖掘(Data Mining)。它是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的不同构型数据。数据挖掘的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。通过数据挖掘可以发现多种类型的知识,包括反映同类事物共同性质的广义型知识;反映事物各方面特征的特征型知识;反映不同事物之间属性差别的差异型知识;反映一事物和其它事物之间依赖或关联的关联型知识;根据当前历史和当前数据推测未来数据的预测型知识;揭示事物偏离常规出现异常现象的偏离型知识。为了发现这些不同类型的知识。要采用多种发现知识的工具。为了使发现知识的过程和结果易于理解和在发现知识过程中进行人机交互,要发展发现知识的可视化方法。 为了了解数据之间的相互关系及发展趋势,人们可以求助于可视化技术。信息可视化不仅用图像来显示多维的非空间数据,使用户加深对数据含义的理解,而且用形象直观的图像来指引检索过程,加快检索速度。在科学计算可视化中,显示的对象涉及标量、矢量及张量等不同类别的空间数据,研究的重点放在如何真实、快速地显示三维数据场。而在信息可视化中,显示的对象主要是多维的标量数据,目前的研究重点在于,设计和选择什么样的显示方式才能便于用户了解庞大的多维数据及它们相互之间的关系,其中更多地涉及心理学、人机交互技术等问题。

图5 意大利中央银行对各分行业务的统计图

信息可视化在商务、金融和通信等领域,有着十分广阔的应用前景。在通信领域,一方面,目前正在开发更为精细和高级的网络模型,以辅助将来的规划过程。另一方面,更复杂的发射和交换设备,为现行网络的重构提供了更大的自由度和灵活性,但造成在单个网络单元上运行的的原始数据不断增加。全部网络运行的最优化,需要有效地使用来自所有这些信号源,而且需要在诸如市场、网络规划和日常管理等传统的不同领域之间,进行信息和思想的动态交换。覆盖物理网络的是一个包括声音、数据和图象服务的广阔领域,其中每一项都有自己的数据和管理要求。 此外,现代网络不受国界的限制,是一个覆盖很多国家和载体的国际性结构,因而其潜在的数据量和复杂程度均以更大的数量级在递增。在英国电信公司(BT)的网络中,就充分应用了信息可视化技术。这个网络有六千多个切换设备和两千五百多万条客户线,从而产生了每分钟几兆字节的网络状态和控制数据。在BT网络中,每五分钟大约有六万个与数字开关相连的局域路径的运行情况要报告给中央操作单元(Ceutral Operations Unit),中央操作单元再将这些数字用于实时网络监测和控制。通过测量大量运行参数,每天要产生两千兆字节以上的数据。图形输出描绘了选择的运行参数的地理分布,以及你所感兴趣的时间间隔中的动画。每个区域中参数的最小值,最大值和平均值都可以用一个彩条图表示。可视化在非空间数据中,诸如在财务指标或流通量统计中的应用,引起了广泛的兴趣。很多用于工程和科学应用中的可视化工具和技术能够很快地转移到财务和统计中来。可视化应用成功的关键在于它具有为用户提供了交互式的研究数据和揭示那些用其它方法很困难揭示的趋势、循环和模式的能力。在非空间数据范围内应用的一个典型例子是网络统计,其中包括记录单个网络单元的特性、开关、较大区域或地理分组等。另外城市景象(Cityscape)可视化也是这方面的一项潜在的有用技术.。城市景象是一个扩展的3D条状图,其中2D域上的标量值表示为一个均匀网格上的街区或大楼。可视化表示出对一年中的每个月,划分成十个地理带上设想的呼叫失败率的统计资料。BT已将城市景象应用用于调查按月按区的服务统计和传送系统运行性能。这些应用可以非常容易地用于金融信息,诸如每个区域、每个时间段的股票收益特性,或按地理和按收入水视化挖掘(VisualMine),通过显示各个分行的货币流通总量、总收入和现金运作平统计的消费总量。例如意大利中央银行就使用了意大利人工智能软件公司开发的可总量,可以从异常现象中发现通过银行系统的非法活动。由由于信息可视化对日益显著的“数据超载”问题,可以提供近实时的解,它将对商务、金融和通信等领域的信息管理,产生重要的影响。由此可见,数量日益增加的数据和信息是有用的,而关键在于尽快从中提练对我们有用的知识。

五.大力推动我国可视化技术的发展

我国科学计算可视化技术的研究开始于90年代初。由于数据可视化所处理的数据量十分庞大,生成图像的算法又比较复杂,过去常常需要使用巨型计算机和高档图形工作站等。因此,数据可视化开始都在国家级研究中心、高水平的大学、大公司的研究开发中心进行研究和应用。近年来,随着PC功能的提高、各种图形显卡以及可视化软件的发展, 可视化技术已扩展到科学研究、工程、军事、医学、经济等各个领域。随着Internetr 兴起,信息可视化技术方兴未艾。我国在80年代就开始进行科学计算可视化技术的研究和应用。至今,我国不论在算法方面,还是在油气勘探、气象、计算力学、医学等领域的应用方面,都已取得了一大批可喜的成果。但从总体上来说,与国外先进水平还有相当的差距,特别是在商业软件方面,还是空白。因此,组织力量开发可视化商业软件,并通过市场竞争,促使其逐步成熟,已成为当务之急。