2006数据挖掘技术与应用热点扫描

来源:百度文库 编辑:神马文学网 时间:2024/04/19 12:49:41
By  master 发表于 2006-9-7 14:25:00 [出自:张承东]
【摘要】 热点篇:文本挖掘与网络挖掘         算法和建模作为数据挖掘工具的核心技术,从它诞生之日起就在得到不断完善,而在最近两年,也有一些新的技术和应用热点开始引起人们的关注,比如文本挖掘、网络挖掘和可视化挖掘就是其中比较重要的三种。  “文本挖掘是个太恐怖的事情。”中国传媒大学调查统计研究所副所长、数据挖掘研究室主任沈浩如此形容文本挖掘的威力。          文本挖掘(Text mining),顾名思义,就是从非结构化的文本中发现潜在的概念以及概念间的相互关系。在这项技术中,最关键的是分词技术,建立词典。……
热点篇:文本挖掘与网络挖掘
算法和建模作为数据挖掘工具的核心技术,从它诞生之日起就在得到不断完善,而在最近两年,也有一些新的技术和应用热点开始引起人们的关注,比如文本挖掘、网络挖掘和可视化挖掘就是其中比较重要的三种。
“文本挖掘是个太恐怖的事情。”中国传媒大学调查统计研究所副所长、数据挖掘研究室主任沈浩如此形容文本挖掘的威力。

文本挖掘(Text mining),顾名思义,就是从非结构化的文本中发现潜在的概念以及概念间的相互关系。在这项技术中,最关键的是分词技术,建立词典。只有让计算机依据词典完成正确断词之后,才可以实现将非结构化信息转化为结构化信息,然后就可以进一步研究文本之间的关系。比如本文开头提到的通过分析Blog网页来建立禽流感预警机制的例子,其实既利用了文本挖掘技术,也是一个网络挖掘案例。
到目前为止,像IBM、微软等主流挖掘工具以及google和SNS网站都已经在使用文本挖掘技术。但遗憾的是,目前这些工具大多只支持英文,还不支持中文挖掘。
如果说文本挖掘是一项技术热点的话,那么网络挖掘可以称得上是数据挖掘领域中的一大应用热点了。
具体来讲,网络挖掘还可以细分为三种挖掘,一是前文提到的文本挖掘,二是结构挖掘(Structure mining),主要解决网页与网页之间的链接关系,三是点击挖掘(Hit mining),是针对点击率的挖掘分析。总体而言,要实现网络挖掘,从技术上讲并没有难度,大部分的问题都可以用成熟方法来解决。
在采访中,无论厂商、集成商还是学界都肯定了网络挖掘的美好发展前景。“我个人比较看好网络挖掘。”盛秋戬博士这样说。他认为,网络挖掘是施展数据挖掘技术很好的舞台,同时也会给挖掘工具厂商带来不少商机。沈浩同样也认为,当电子商务发展起来之后,网络挖掘肯定大有可为。
但是业内人士也指出,网络挖掘目前尚存在一些瓶颈。
首先,一个关键问题是电子商务的评估指标(e-Metrics)还没有形成一个完整的体系。所谓指标体系就要设定几个维度来衡量电子商务网站生意的好坏。目前,有些电子商务网站已经开始定义像潜在顾客率(reach)、招揽时间(Acquisition)、潜在顾客转化率(Conversion)等一些评估指标,美国的一些技术会议也已经开始做一些整合工作,但是要形成体系还需要一段时间。
其次,缺钱。在采访中,商智通公司咨询总监匡宏波表示,曾经有一家医药类电子商务网站主动找上门,提出要求想知道平台的某类药品(比如盘尼西林)主要销往哪里。但盛秋戬博士也指出,就电子商务领域的总体而言,除了像亚马逊、eBay等一些国外大型电子商务网站开始自己买工具进行挖掘之外,国内少数注意到数据挖掘技术的网站大多是自己开发做此类工作,舍得掏钱的人还不多。
在文本挖掘和网络挖掘之外,可视化挖掘(Visual Data Mining)因为和工具的易用性联系在一起,因而也颇为重要。
简单来讲,可视化包括了数据预处理和结果呈现两个方面。比如StatSoft一直强调的完整的图表工具库以及高质量的图表呈现效果就是其优势所在。但是总体情况来看,可视化的内含和标准近几年一直没有更新的内容,而且,即便工具厂商自认为做得再“可视化”,对于用户来说,仍有难以理解和掌握的地方。
苏立民介绍说,虽然现在挖掘结果的呈现已经相当易用,但是他接触到的一些用户依然会抱怨说,每回总是打印出那么多表格到底有什么用?其中的问题就在于:工具的易用性是一回事,有没有既懂业务又懂技术的人来用却是另一回事。

应用篇:瓜熟蒂不落?
在采访中,笔者发现,无论厂商、集成商还是学术界,基本上都认同一个观点,即:数据挖掘在技术上已经趋于成熟,现在更重要的就是如何拓展行业应用。 IBM软件部中国区DB2信息管理技术经理刘晶炜表示说,数据挖掘技术已经到了一个普及化的阶段,现在关键是要让数据挖掘从神坛上走下来。商智通公司咨询总监匡宏波也表示,现在数据挖掘领域的问题都不是技术问题,也不是工具问题,而是应用问题。那么,现在,数据挖掘工具在国内的实际应用处于什么阶段呢?
从行业应用来看,目前大多数的用户都来自电信、银行、保险、税务等领域,比如南京地税、四川移动两个案例就做得相当成功,应用主题则主要包含:消费者行为分析、信用评分与风险管理、欺诈行为侦测、购物篮分析等方面。综合国内外的发展趋势,可以看到的是,大型连锁商店和高科技制造产业也将成为应用数据挖掘技术的重要领域。前者的记账质量之好为业内公认,一旦开始数据挖掘方面的应用则前景不可限量;而在后一个领域,国外已经开始陆续导入数据挖掘技术,类似做法相信会很快为国内制造业大厂所借鉴。
从应用层次上看,大体可以分为三个层次,第一层次是把挖掘工具当作单独的工具来用,偶尔用一下出具一个报告,不用专门建设系统;第二层次则是把数据挖掘模块嵌入到系统中,称为部门级应用;第三层次是企业级应用,相当于把挖掘系统作为整个企业运营的CPU。目前,国内的数据挖掘应用是本来数量就比较少,即便是做了的,也有很多只是处于第一层次,偶尔某些用户能够做到第二层次。
如此一来,问题出现了:既然数据挖掘技术已经趋于成熟,为什么在应用上却迟迟跟不上呢?笔者在采访了几家主流厂商和集成商以及业内专家后发现,问题主要集中在以下几个方面。
其一,工具易用性强,那么是否用户就会运用呢?答案是否定的。
现在很多厂家都在强调工具的易用性,但是却忽视了一个问题,即工具易用性强和用户会运用完全是两码事。Sybase商务智能总监廖钢城表示,这两者的关系,就像用Word写文章一样,即便输入法、界面等再友好,但是和使用者能否写出流畅的文章并无关系。
“用户总是想像使用傻瓜相机一样使用挖掘工具,事实上这是不可能的。”盛秋戬博士表示说。据他介绍,目前很多号称已经做完的项目,其实大部分工作仍然还都是由厂商代替客户操作使用。
其二,复合型人才一将难求。
要成功完成一次数据挖掘过程,用户首先要熟悉业务,其次还要对算法和模型熟悉。两者不可偏废,才能知道拿来的数据代表什么,算出来的结果又代表了什么。然而,从目前电信、金融行业的人才结构来看,如今主导建设数据挖掘系统的大都是工科出身,不但业务不熟悉,即便是对于数学领域中的统计学也都过于生疏。客观地讲,这种复合型人才的缺乏也在很大程度上造成了目前数据挖掘市场还不够成熟。
那么,如何解决这个问题?答案似乎很简单,没有,那就只有培养了。比如现在一些电信用户就在日常培训之外,还高薪聘请一些乙方(数据仓库解决方案供应商)的咨询师和顾问,专职负责自己的数据仓库和挖掘项目,试图由此培养一批既懂业务又懂技术的专业人才。当然,一开始说的是培养,最后实在忙不过来,用户挖厂商墙角的事也不是没有。
问题是,同样是培养人才,那到底是让业务人员学技术好呢,还是让技术人员学业务好呢?苏立民和廖钢城都表示,更赞成是业务人员去学习技术。因为业务人员是为了应用而学习,可以实现很好的结合。目前,像中国人民大学已经开始招收有计算机专业背景的统计博士,而中国传媒大学的数据研发中心也是文理兼收,可以想见,未来三四年内,人才缺乏的问题将逐步得到缓解。
其三,转变意识。与国外长期的精细化管理相比,国内用户有些时候还不太习惯迅速走向精细化。沈浩就表示,国内零售企业的记账是最好的,也是被认为最值得做数据挖掘的行业,但迄今为止还没有哪家开始做,原因就在于没有这方面的意识。
编看编想:从一锤子买卖到沿途下蛋
生意人都知道,一锤子的买卖做不得。但笔者却发现,在数据挖掘领域里,敲一锤子换个地方的现象却似乎并不鲜见。为什么非要这样做呢?原因是心里太着急。很多厂商总认为,自己怀里揣着的是好产品,面前的中国又是一个大市场。如此一想,就感觉不赶快抢下几个大单简直就没天理了。
于是,搞售前的着急让用户签单,拿到钱后又着急从用户那里撤退。结果如何呢?还真像那句俏皮话说的:有困难要上,没有困难创造困难也要上。活活把一些简单问题复杂化。有些买完工具的用户其实需求都没想明白,何谈成功运用;而那些能在忽悠中挺过来的用户索性就不再理这个茬。
厂商着急,其实有些用户也着急。厂商着急卖产品,而用户却在着急让花大价钱买来的产品早日上线出效益。这种想法虽然也有问题,但是可以理解。你想,谁不担心几十万的资金打了水漂儿,谁又不想让领导说这几十万花得值、花得好呢?
那么,如何才能做到既能保证项目按周期实施、又不让用户心急火燎地难受呢?上海证券交易所信息网络有限公司董事长赵小平提出了一个“沿途下蛋”的理论。简单讲,就是不要到最后才给用户下一个大金蛋,很可能这个大金蛋还没下来,用户就已经下了逐客令。正确的办法就是不断出成果,这样用户才会安心等待并且积极配合。无疑,从“一锤子的买卖”到“沿途下蛋”这条路上还需要厂商和用户慢慢琢磨。