数据挖掘与知识发现

来源:百度文库 编辑:神马文学网 时间:2024/04/29 10:42:35

数据每年都在成倍增长,但是有用的信息却好像在减少。在过去20年里出现的数据挖掘领域正致力于这个问题。它不仅是一个重要的研究领域,而且在现实世界中具有重大的潜在应用价值。

数据挖掘和数据库知识发现(Data Mining & Knowledge Discovery in Database,简称DM&KDD)是20世纪90年代兴起的一门信息技术领域的前沿技术,它是在数据和数据库急剧增长远远超过人们对数据处理和理解能力的背景下产生的,也是数据库、统计学、机器学习、最优化与计算技术等多学科发展融合的结果。

知识发现是从数据中识别有效的、新颖的、潜在有用的、最终可理解模式的一个复杂过程。数据挖掘是知识发现中通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。知识发现是一个包括数据选择、数据预处理、数据变换、数据挖掘、模式评价等步骤,最终得到知识的全过程,而数据挖掘是其中的一个关键步骤。由于数据挖掘对于知识发现的重要性,目前,大多数知识发现的研究都集中在数据挖掘的算法和应用上,因此,很多研究者往往对数据挖掘与知识发现不作严格区分,把二者混淆使用。

目前数据挖掘研究和实践与20世纪60年代的数据库研究和实践的状态相似。当时应用程序员每次编写程序时,都必须建立一个完整的数据库环境。随着关系数据模型、查询处理和优化技术、事务管理策略和特定查询语言(SQL)与界面的发展,现在的环境已经迥然不同了。在未来几十年内,数据挖掘技术的发展可能会与数据库发展历程相似,就是使数据挖掘技术更易于使用和开发。

参考文献:

1. U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy. Advances in knowledge discovery and data mining. AAAI/MIT Press, 1996.

2. J. Han, M. Kamber. Data mining: concepts and techniques. Morgan Kaufmann Publishers, 2001.2nd Edition, 2006

3. M. H. Dunham. Data Mining: Introductory and Advanced Topics. Pearson Education, Inc., 2003.(郭崇慧,田凤占,靳晓明等译.数据挖掘教程(世界著名计算机教材精选).清华大学出版社,2005.)