数据挖掘中的隐私保护

来源:百度文库 编辑:神马文学网 时间:2024/04/16 20:37:44

数据挖掘中的隐私保护主要关注两个方面:其一,像身份、姓名、地址和爱好等敏感的原始数据的处理,避免个人隐私信息的泄露。其二,能通过数据挖掘工具得到的敏感知识也应该被排除。隐私保护数据挖掘的主要目标是使用某种方法对原始数据进行处理,使得私有数据和知识在挖掘之后仍然是私有的。

    目前,数据挖掘中的隐私保护方法研究主要有:在挖掘算法中建立隐私约束规则、在应用挖掘算法之前对挖掘数据集应用随机化方法、对隐私建立度量评估、取代本样本真实数据、对记录进行交换等,同时还有在分布式环境下的数据挖掘(数据元组水平分布和属性垂直分布) 隐私保护以及通过对原始数据的混乱或扭曲进行隐私保护、敏感数据隐藏算法、规则混乱、取样法等方面[4 ] 。这些研究的焦点主要集中在关联规

则隐私保护和分类隐私保护,研究的场景可以归结为两种:个人隐私保护和分布式数据挖掘中的隐私保护。

   现有的一些隐私保护技术大体上可基于下面因素对它们分类:数据分布、隐私保护技术、数据或规则更改方法、数据挖掘算法。 

隐私保护算法分类

数据分布方式

隐私保护

技术

数据更改

方法

数据挖掘

算法

集中式

启发式

滑动窗口法关联规则

关联规则

随机修改部分值为1 的数据为0

关联规则

添加随机数

关联规则

重建式

添加随机偏移量

分类

机修改部分数据

关联规则

贝努里概率模型

关联规则

水平分布

加密式

加密、添加随机数

关联规则

垂直分布

加密式

加随、添加随机数

关联规则