GIS系统数据挖掘功能的扩展

来源:百度文库 编辑:神马文学网 时间:2024/04/27 22:31:11
1. (武汉科技大学计算机系,武汉 430081)
2. (华中科技大学计算机系,武汉 430074)
3. (武汉大学软件工程国家重点实验室,武汉 430072)
E-mail:leetiti@hotmail.com
摘 要:该文分析了GIS系统中数据挖掘的特点与要求,总结和比较了空间数据挖掘技术的研究和不同开发方式,提出了一种在GIS系统中扩展空间数据挖掘功能的方法。
关键词:数据挖掘GIS空间数据管理
文章编号1002-8331-(2003)28-0211-03  文献标识码:A  中图分类号:TP274
A Method of Extending GIS of Spatial Data Mining
Abstract:This article analyzes the features and demands of data mining in GIS, summarizes the research of spatial data mining technology and the different method of develoing SDM system, and suggests a method of extending GIS of spatial data mining.
Keywords:Data mining; GIS; Spatial data management
在空间数据库中发现知识,就是提取感兴趣的空间模式和特征、空间数据与非空间数据之间的联系以及不是显式地存放在空间数据库中的其它数据特点[5]。近年来地理信息系统的技术逐渐走向成熟,应用领域也在不断扩展,但由于流行的GIS系统中的空间分析在处理海量数据的能力有限,并且空间分析的复杂模型的建立往往需要专家的支持。所以GIS在支持自动空间知识发现的能力仍很薄弱。
数据挖掘是从大量的数据中提取出可信的、新颖的、有用的并能被人理解的模式的处理过程[6]。GIS主要依*用户生成假说,并以地理空间中可视化的方式表现数据的内容。而数据挖掘是依*系统生成假说在抽象空间推断和归纳超出数据库内容并将结果可视化。
该文总结和比较了国际上空间数据挖掘的研究和系统的不同开发方式,提出了一种在GIS系统中扩展空间数据挖掘功能方法。空间数据库中数据挖掘可分为两类:对矢量空间结构对象的数据挖掘;对栅格空间结构对象的数据挖掘。该文的研究对象是前者。
1 GIS系统中数据挖掘的特点与要求
GIS中含有大量的空间和非空间数据,有着比一般关系数据库和事务数据库更加丰富和复杂的语义信息,隐藏着丰富的知识。空间数据与普通数据的不同特点决定了在空间数据库进行数据挖掘与在普通事务数据库中数据挖掘方法的不同[5]。
(1)数据存储机制不同
空间数据具有不同于关系数据的特点,它带有空间拓扑结构和距离信息,通常用复杂的多维空间索引结构组织存放(如R树),并通过空间数据存取方法访问,也常常需要用空间推理、几何计算和空间知识的表示技术等。
(2)空间数据的特点
空间数据相互依赖性强。而事务挖掘算法假定数据独立,所以,数据依赖使得事务数据挖掘工具很难发现对象间的空间联系。所以,只有把事务数据挖掘技术扩充到空间数据挖掘,才能更好地分析复杂的空间现象和空间对象。
2 空间数据挖掘技术
空间数据挖掘技术按功能可分为三类:描述、解释、预测。描述性的模型将空间现象的分布特征化。如空间聚类。解释性的模型处理空间关系,如一个空间对象和影响其空间分布的因素之间的关系。预测型的模型用来根据给定的一些属性预测某些属性。预测型的模型包括分类、回归等等[3]。以下介绍几个典型的空间数据挖掘技术。
2.1 聚类方法
聚类分析方法按一定的距离或相似性测度将数据分成一系列相互区分的组[6]。
而空间数据聚类是按照某种距离度量准则,在某个大型、多维数据集中标识出聚类或稠密分布的区域,从而发现数据集的整个空间分布模式。经典统计学中的聚类分析方法对海量数据效率很低。数据挖掘中的聚类方法可以大大提高聚类效率。kopersKi等人提出了两个基于CLARANS聚类算法空间数据挖掘算法SD和ND。
2.2 分类方法
空间分类指分析空间对象导出与一定空间特征有关的分类模式,如地区、高速公路或河流的邻域[5]。目前空间分类的研究尚处在起步阶段。kopersKi等人提出了一种空间对象分类方法[7],该方法采用ID3算法,并采用了一种机器学习方法用于空间分类中的相关空间谓词或函数抽取。
2.3 关联规则
kopersKi和Han将大型事务数据库的关联规则概念扩展到空间数据库,并以此找出空间对象的关联规则。构成空间互联规则的空间谓词有三种形式:表示拓扑关系的谓词,如相交、覆盖等;表示空间方位和排列次序谓词,如东、西、左、右等;表示距离的谓词,如接近、远离等。kopersKi提出的空间关联规则的方法采用一种逐渐求精的方法计算空间谓词,该方法首先用一种快速的算法粗略地对一个较大的数据集进行一次挖掘,然后在裁剪过的数据集上用代价较高的算法进一步改进挖掘的质量。
3 空间数据挖掘系统的开发
3.1 通用SDM系统软件
在空间数据挖掘系统的开发方面,国际上最著名及有代表性的通用SDM系统有GeoMiner,Descartes和ArcViewGIS的S_PLUS接口。下面分别介绍:
(1)GeoMiner
GeoMiner是加拿大Simon Fraser大学开发的著名的数据挖掘软件DBMiner的空间数据挖掘的扩展模块,空间数据挖掘原型系统GeoMiner,包含有三大模块:空间数据立方体构建模块、空间联机分析处理(OLAP)模块和空间数据挖掘模块,能够进行交互式地挖掘并显示挖掘结果。空间数据挖掘模块能挖掘三种类型的规则:特征规则、判别规则和关联规则。GeoMiner采用的空间数据挖掘语言是GMQL。
(2)Descartes
Descartes可支持可视化的分析空间数据,它与开发此软件的公司开发的数据挖掘工具Kepler结合使用,Kepler完成数据挖掘任务且拥有自己的表现数据挖掘结果的非图形界面,Kepler和Descarte动态链接,把传统DM与自动作图可视化和图形表现操作结合起来。实现了C4.5决策树算法、聚类、关联规则的挖掘。
(3)ArcView GIS的S_PLUS接口
ArcView GIS的S_PLUS接口是著名的ESRI公司开发,它提供工具分析空间数据中指定类。
以上SDM系统它们的共同优点是把传统DM与地图可视化结合起来,提供聚类、分类等多种挖掘模式,但它们在空间数据的操作上实现方式不尽相同,Descartes是专门的空间数据可视化工具, 它和DM工具Lepler两者联合在一起才能完成SDM任务。而GeoMiner是在MapInfo平台上进行二次开发而成,系统庞大,造成较大的资源浪费。S_PLUS的局限在于,它是用一种解释性语言(Script),功能的实现比用C和C++直接实现要慢的多,所以只能使用与非常小的数据库应用。以下对现存空间数据挖掘系统的结构特点进行进一步的分析,并提出一种GIS系统扩展数据挖掘功能的实现模式。
4 系统扩展数据挖掘功能的实现
4.1 实现模式的比较
空间数据挖掘的实现技术就是指其组成要素间的集成技术。由于空间数据挖掘由空间数据库系统(主要是指GIS数据库)、数据挖掘系统和人机接口三部分组成,而从当前存在的系统状态来看,空间数据库部分又是GIS系统的组成部分。所以系统的集成就是GIS系统、数据挖掘以及人机接口系统的集成。其中GIS系统与空间数据挖掘库系统的集成是整个系统集成的核心。关于数据挖掘和GIS的结合,一般有三种模式:
(1)模式1:集成数据挖掘开发模式。
该模式自主开发GIS空间数据管理功能,装有各种数据挖掘分析模型的部件和GIS软件包集成为一个统一的支持环境。
(2)模式2:利用现有的商用GIS系统,通过数据文件或关系数据管理系统将数据挖掘和GIS结合起来。
可分为紧耦合和松散耦合两种方式。松散耦合方式是指GIS系统与空间数据挖掘系统完全分开,通过文件系统或关系数据管理系统来交换信息。GIS系统完成部分数据预处理算法和空间数据的管理及挖掘结果的显示。紧耦合方式,是指GIS系统与数据挖掘系统部分集成。紧耦合的方式有两种方式:通过GIS应用平台提供的GIS应用平台所带的脚本语言或OLE(对象连结或嵌入)来实现应用程序。如Geominer;或通过组件技术利用GIS的空间数据库管理和空间数据显示功能,以实现GIS与数据挖掘的无缝连接的集成方式,这也是当前开发GIS应用系统的主流方法。
(3)模式3:数据挖掘/扩展的空间数据管理功能的通用数据库管理系统R GIS集成的开发模式。
空间数据管理和空间分析功能还是主要由GIS组件或OLE技术实现,通用数据库只负责存储空间数据,GIS通过专用接口与通用数据库连接。
4.2 一种新的开发模式
从用户的角度来看,模式1是一种完善集成方式,但开发难度较大,如何折中选择开发模式,是成功构造基于GIS的数据挖掘的关键。为了克服以上几种模式的缺点,该文提出了一种新的开发模式。即以现有的通用空间数据库(Oracle spatial)为核心,利用其扩展的空间数据管理和空间分析的能力,另外利用GIS组件提供对挖掘结果显示。这种模式实现了GIS系统与空间数据挖掘系统完全集成。
这样构造的数据挖掘系统结构如图1所示。该系统的基本结构与一般数据挖掘系统相同,只是在数据挖掘和数据管理中增加了有关空间数据模型化、空间数据管理和空间分析的功能,并建立一个人机接口处理用户的指令和显示挖掘结果。

这种开发模式与现存开发模式的最大区别是用通用数据库代替专门的GIS商用软件实现空间数据管理功能。它的优点在于以下几点:
从GIS的功能分析可以看到:
GIS作为一个独立软件系统时,需要具有完整的功能结构,而在为数据挖掘服务时,其主要目的在于为决策者提供决策对象及显示作为挖掘结果的地图,因此只要按需选取GIS的部分功能,而不必面面俱到。
GIS的一些功能如空间数据的管理和空间分析等,在扩展了空间数据管理功能的通用数据库系统中存在相似模块,因此可通过数据库管理系统中已有功能得到。空间数据和属性数据的查询和空间操作可利用数据库管理功能,数据挖掘分析模块则可作为一个或多个模块,由数据挖掘子系统统一管理,将空间数据的存储与管理分析均交给数据库管理系统。这样不仅可减少系统的功能冗余,提高系统的一致性,还可更好地利用数据管理系统的各种优化技术提高系统空间数据管理与分析的速度。
目前不同GIS厂商遵循空间数据格式标准不同,GIS通用平台或组件一般只能直接处理该系统的空间数据文件。因此异种数据库的集成是一个难题。而扩展了空间数据管理功能的通用数据库提供了数据转换接口,可以将各种不同格式的空间数据转换为统一的格式存入扩展的对象— —关系数据库,利用通用数据库扩展的空间数据管理功能可以很好地解决异种数据库的集成的问题。另外它也克服了GIS系统空间数据与属性数据分离的缺点。
从GIS与DM的关系来看:
GIS系统与数据挖掘系统完全分开的系统尽管简单,但有不少缺点。首先,DB系统在存储、组织、访问和处理数据立方体方面提供了很大的灵活性和有效性。不使用DB/DW系统,DM系统可能要花大量的时间查找、收集、清理和转换数据。在DB和/或DW系统,数据多半被很好地组织、索引、清理、集成或合并,使得找出任务相关的、高质量的数据成为一件容易的任务。其次,在DB或DW系统中,有许多被测试的、可伸缩的算法和数据结构。使用这种系统开发有效的、可伸缩的实现是切实可行的。此外,大部分数据已经或将要存放在DB/DW系统中。不与这些系统耦合,DM系统就需要使用其它工具提取数据,使得很难将这种系统集成到信息处理环境。
5 实现示例
根据以上理论,笔者开发实现了一个基于Oracle Spatial的空间数据挖掘实验系统。挖掘目标的空间和非空间数据及概念层次的存储和空间数据的管理由Oracle 8.1.7 Spatial实现。数据准备算法和聚类、分类,关联规则等挖掘算法在服务器端实现,并提供接口给客户端,在客户端用GIS组件MapX4.0实现挖掘结果的专题图显示与评价,编程工具为VC++6.0。图2展示的是空间聚类的实现(测试数据为MapInfo地图集中美国US_CUSG,采用DBSCAN算法)。(收稿日期:2002年5月)

参考文献
1. Ester M, Kriegel H-P, Sander J et al. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise[C]. In:Proc Second International Conference on Knowledge Discovery and Data Mining, Porland, Oregon, AAAI Press, 1996
2. Ester M, Kriegel H-P, Snader J. Knowledge Discovery in Spatial Databases[C]. In:Proc 23rd German Conference on Artificial Intelligence, KI‘99, Bonn, Germany, Lecture Notes in Computer Science, 1999
3. Ng R T, Han J. Efficient and effective clustering methods for spatial data mining[C]. In:Proc 23rd German Conference on Artificial Intelligence, KI‘99, Bonn, Germany, Lecture Notes in Computer Science, 1999
4. Krzysztof Koperski, Jiawei Hand. Discovery of Spatial Association Rules in Geographic Information Database[C]. In:Proc Foruth International Symposium on Large Spatial Data bases, 1995:47~66
5. 邸凯昌著. 空间数据挖掘与知识发现
6. Jiawei Han. 数据挖掘--概念与技术
7. Koperski K, Han J W, Stefanovic N. An efficient two-step method for classification of spatial data[C]. In:PoikerTed Pro-ceedings of the 1998 International Symposium on SpatialDataHandling(SDH‘98), Vancouver, BC, 1998-11
作者简介:蒋旻(-V0’2),女,武汉科技大学计算机系教师,研究方向:数据库、多媒体技术、GIS应用研究。梁平,女,华中科技大学计算机系博士生