1、数据挖掘实验报告 xxx 2010210304831基于 weka 的数据分类分析实验报告1 实验基本内容本实验的基本内容是通过使用 weka 中的三种常见分类方法(朴素贝叶斯,KNN 和决策树 C4.5)分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价,找出各个模型最优的参数值,并对三个模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。2 数据的准备及预处理2.1 格式转换方法原始数据是 excel 文件保存的 xlsx 格式数据,需要转换成 Wek
2、a 支持的 arff 文件格式或csv 文件格式。由于 Weka 对 arff 格式的支持更好,这里我们选择 arff 格式作为分类器原始数据的保存格式。转换方法:在 excel 中打开“ movie_given.xlsx”,选择菜单文件-另存为,在弹出的对话框中,文件名输入“total_data ”,保存类型选择“CSV(逗号分隔) ”,保存,我们便可得到“total_data.csv ”文件;然后,打开 Weka 的 Exporler,点击 Open file 按钮,打开刚才得到的“total_data”文件,点击 “save”按钮,在弹出的对话框中,文件名输入“total_data” ,
3、文件类型选择“Arff data files (*.arff) ”,这样得到的数据文件为“total_data.arff” 。2.2 如何建立数据训练集,校验集和测试集数据的预处理过程中,为了在训练模型、评价模型和使用模型对数据进行预测能保证一致性和完整性,首先要把 movie_given.xslx 和 test.xslx 合并在一起,因为在生成 arff 文件的时候,可能会出现属性值不一样的情况,否则将为后来的测试过程带来麻烦。通过统计数据信息,发现带有类标号的数据一共有 100 行,为了避免数据的过度拟合,必须把数据训练集和校验集分开,目前的拆分策略是各 50 行。类标号为female的数
4、据有 21 条,而类标号为male的数据有 79 条,这样目前遇到的问题是,究竟如何处理仅有的 21 条 female 数据?为了能在训练分类模型时有更全面的信息,所以决定把包含 21 条female 类标号数据和 29 条 male 类标号数据作为模型训练数据集,而剩下的另 49 条类标号类 male 的数据将全部用于校验数据集,这是因为在校验的时候,两种类标号的数据的作用区别不大,而在训练数据模型时,则更需要更全面的信息,特别是不同类标号的数据的合理比例对训练模型的质量有较大的影响。数据挖掘实验报告 xxx 20102103048322.3 预处理具体步骤第一步:合并 movie_give
5、n.xlsx 和 test.xlsx,保存为 total_data.xlsx;第二步:在 total_data.xlsx 中删除多余的 ID 列信息;第三步:在 excel 中打开“total_data.xlsx” ,选择菜单文件-另存为,在弹出的对话框中,文件名输入“total_data” ,保存类型选择“CSV (逗号分隔) ”;第四步:使用 UltraEdit 工具把 total_data.csv 中的数据缺失部分补上全局常量? ;第五步:打开 Weka 的 Exporler,点击 Open file 按钮,打开刚才得到的“total_data.csv”文件,点击“save”按钮,在弹出
6、的对话框中,文件名输入 “total_data”,文件类型选择“Arff data files (*.arff) ”,这样得到的数据文件为“total_data.arff” 。第六步:从 total_data.arff 文件里面剪切所有没有分类标号的数据作为预测数据集(test.arff) ,共 26 项。第七步:把剩下含有类标号数据的 total_data.arff 文件复制一份,作为总的训练数据集。文件名称为 build_model.arff。第八步:从 total_data.arff 文件中剩下的数据里面选取所有分类标号为 male 的 49 行数据作为校验数据集(validate_da
7、ta.arff) 。第九步:从把剩下的 total_data.arff 文件改名为 train_data.arff。3. 实验过程及结果截图3.1 决策树分类用“Explorer”打开刚才得到的“train-data.arff” ,并切换到“Class ”。点“Choose”按钮选择“tree ( weka.classifiers.trees.j48)”,这是 WEKA 中实现的决策树算法。选择 Cross-Validatioin folds=10,然后点击“start”按钮:训练数据集训练决策树得出的结果数据挖掘实验报告 xxx 2010210304833使用不同配置训练参数,得到的实验数据
8、:配置不同的叶子节点的实例个数实例数/叶节点 2 3 4 5 6准确率 54% 60% 56% 56% 56%结果分析:使用决策树时,每个叶子节点最优的实例个数为 3。校验数据集校验决策树得出的结果数据挖掘实验报告 xxx 2010210304834初步结果分析:使用决策树进行分类,对于已知的 49 个类标号为 male 的数据都进行了准确的分类,并且达到 100%;虽然是个很好的数据,但是完美背后隐藏了缺陷,是以对 female 类的低准确率作为代价的,因为这样会说明该分类器很有可能偏向 male 类。3.2 K 最近邻算法分类点“Choose”按钮选择“laze-ibk” ,这是 WEKA
9、 中实现的决策树算法。选择 Cross-Validatioin folds=10,然后点击“start”按钮:训练数据集训练 KNN 得出的结果数据挖掘实验报告 xxx 2010210304835使用不同配置训练参数,得到的实验数据:配置不同的叶子节点的实例个数K 值 1 2 3 4 5 6 7 8 9 10准确率 52% 54% 56% 58% 60% 58% 60% 68% 62% 62%结果分析:使用 KNN 算法分类时,K 最优值为 8。校验数据集校验 KNN 得出的结果数据挖掘实验报告 xxx 2010210304836初步结果分析:对使用 k=8 训练出来的分类模型进行校验的结果,
10、准确率达到 77.6%,算是一个比较合理的分类结果。3.3 朴素贝叶斯分类点“Choose”按钮选择“bayes” ,这是 WEKA 中实现的决策树算法。选择 Cross-Validatioin folds=10,然后点击“start”按钮:训练数据集训练 Nave Bayes 得出的结果数据挖掘实验报告 xxx 2010210304837校验数据集校验 Nave Bayes 得出的结果数据挖掘实验报告 xxx 2010210304838初步结果分析:评价结果中准确率仅仅达到 59.1%,结果不是很让人满意。3.4 三类分类方法的校验结果比较决策树 K 最近邻 朴素贝叶斯校验准确率 100%
11、77.55% 59.18%训练混淆矩阵校验混淆矩阵标准误差 0.42 0.4654 0.5918比较结果分析:根据上述数据,虽然决策树有最高的完美的准确率和相对较好的标准误差,但是这种完美的背后,很有可能是以类标号 female 的较大错误率作为代价,这点可以从训练混淆矩阵中得到印证;而朴素贝叶斯分类算法的准确率相对较低,而标准误差也较高,综合评价可以得知,当前最好的分类算法是 KNN 算法,并且它是最优设置参数为 k=8。3.5 训练最优模型使用预处理中的 buildmodel_data.arff 数据文件训练分类模型,算法为 k=8 的 KNN。数据集训练 KNN 得出的结果数据挖掘实验报告 xxx 2010210304839使用最终模型对测试集进行预测结果4.三种算法在进行测试的性能比较4.1 实验结果决策树的测试结果:数据挖掘实验报告 xxx 20102103048310KNN 测试结果: