分类和预测-数据挖掘

来源:百度文库 编辑:神马文学网 时间:2024/04/27 20:53:35

  分类和预测-数据挖掘 收藏

 什么是分类和预测?分类和预测具有大量应用,包括欺诈检测、针对销售、性能预测、制造和诊断。例如,可以建立一个分类模型,对银行贷款应用的安全或风险进行分类(那些贷款申请者是“安全的”,,银行的“风险”是什么);也可以建立预测模型,给定潜在顾客的收入和职业,预测他们在计算机设备上的花费。市场经理需要数据分析,以便帮助他来猜测具有某些特征的顾客是否会购买一台新的计算机;医学研究者希望分析乳腺癌数据,预测病人应当接受三种具体治疗方案的哪一种。这都是分类的例子。而如果市场经理希望预测一位顾客在一次销售期间将花多少钱,该数据任务就属于数值预测,其中所构造的模型预测一个连续值函数或有序值。这种模型是预测器(predictor)。回归分析(regression analysis)是数值预测最常用的统计学方法。我们也可以预测银行可以安全地贷给贷款人的贷款量。分类和数值预测是预测问题的两种主要类型。分类和预测都的第一步都可以看作是学习一个映射或函数y = f(X)。对于分类来说,它可以预测给定元组X的关联类标号y;而对于预测来说,X是输入,而y是连续的或有序的输出值。而且,不应当使用训练集来平规分类或预测的准确率,而应当使用一个独立的检验集。 分类与预测的数据预处理为了提高分类或预测过程的准确性、有效性和可伸缩性,我们可以使用下面的预处理步骤:(1)       数据清理:消除或减少数据噪声和处理缺失值,以减少学习时的混乱。(2)       相关分析:识别任意两个给定的属性是否是统计相关的。例如,强相关的两个属性A1和A2可能意味着两个属性之一可以从进一步分析中删除。还可能包含有不相关的属性,这时我们就可以使用属性子集选择来找出属性的规约子集,使得数据类的结果概率分布与使用所有属性得到的原分布尽可能接近。相关分析可帮助提高分类的有效性和可伸缩性。(3)       数据变换与规约:通过规范化对数据进行变换,尤其是在学习阶段使用神经网络或涉及距离度量发方法时。规范化将所给的属性的所有值按比例缩放,使得它们落入较小的指定区间,如[-1, 1]。如在使用距离度量的方法中,这可放置具有较大初始值域的属性相对于具有较小初始值域的属性权重过大。数据也可以通过泛化到较高层概念进行变换,这种变换对连续属性尤其有用。这样就压缩了原来的训练数据,使得学时时的输入/输出操作减少了。其他的变换方法还有小波变换、主成份分析、分箱、直方图分析和距离等离散化技术。