总述频繁模式、关联规则和相关规则的挖掘

来源:百度文库 编辑:神马文学网 时间:2024/04/29 12:27:29
总述频繁模式、关联规则和相关规则的挖掘 收藏

Ø         大量数据中的频繁模式、关联和相关关系的发现,在选中市场、决策分析和商务关联方面是有用的。一个流行的应用领域是购物篮分析,通过搜索经常一块(或依次)购买的商品的集合,研究顾客的购买习惯,以发现一些隐藏的、有趣的规则。典型的如顾客购买啤酒的时候很有可能会购买尿布。关联规则挖掘首先找出频繁项集(项的集合,如A和B,满足最小支持度阀值,或任务相关元组的百分比),然后,由它们产生形如A=>B的强关联规则。这些规则也满足最小置信度阀值(预定义的、在满足A的条件下满足B的概率)。进一步分析关联,发现项集A和B之间具有统计相关的相关规则。

Ø         根据不同的标准,频繁项集挖掘可以用很多不同的方法分成若干类型,如:

(1)       根据所挖掘的模式的完全性,频繁模式挖掘的类型包括挖掘频繁项集的完全集、闭频繁项集、极大频繁项集和被约束的频繁项集,等等。

(2)       根据规则涉及的层和维,类别可以包括单层关联规则、多层关联规则,单维关联规则和多维关联规则。

(3)       根据规则所处理的值类型,类别可以包括布尔关联规则和量化关联规则。

(4)       根据所挖掘的规则类型,包括关联规则和相关规则。

(5)       根据所挖掘的模式类型,可分为频繁项集挖掘,序列模式挖掘,结构模式挖掘,等等。

Ø         对于频繁模式的挖掘,已有许多有效的、可伸缩的算法,由它们可以导出关联和相关规则。这些算法可分为三类:

(1)       类Apriori算法;

(2)       基于频繁模式增长的算法,如FP增长;

(3)       使用垂直数据格式的算法