2015数据挖掘技术试卷A卷-参考答案.doc

上传人:11****ws 文档编号:2328937 上传时间:2019-05-06 格式:DOC 页数:3 大小:110KB
下载 相关 举报
2015数据挖掘技术试卷A卷-参考答案.doc_第1页
第1页 / 共3页
2015数据挖掘技术试卷A卷-参考答案.doc_第2页
第2页 / 共3页
2015数据挖掘技术试卷A卷-参考答案.doc_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

1、12014 2015 学年 第二学期期末考试数据挖掘技术 试卷(A 卷)参考答案 使用班级 1250411/12/13/14 答题时间_120 分钟_一、填空题 (共 10 空, 每空 1 分,共 10 分)1.数据挖掘的任务:分类、聚类、回归、关联分析、离群点监测、演化分析、序列模式。2.数据集的三个重要特性:_维度、稀疏性、分辨率。二、判断题 (共 10 小题, 每小题 1 分,共 10 分)判断下列37小题的描述是否正确?3.ID3算法不仅可以处理离散属性,还可以处理连续属性。( F ) 4.决策树方法通常用于关联规则挖掘。( F ) 5.先验原理可以表述为,一个频繁项集的任一子集也应该

2、是频繁的。( T ) 6.Clementine是IBM公司的专业级数据挖掘软件。( T ) 7.具有较高的支持度的项集具有较高的置信度。( F ) 判断下列 812 小题的描述是否属于数据挖掘任务?8.利用历史数据预测公司将来的股价。 ( T )9.监测病人心率的异常变化 。 ( F )10.监测地震活动的地震波 。 ( F )11.提取声波的频率 。 ( F )12.根据顾客喜好摆放商品位置。 ( T )三、简答题(6 个小题,每小题 5 分,共 30 分)13. 什么是信息熵? 答:信息熵(entropy)是用来度量一个属性的信息量(1 分) 。假定 S 为训练集,S 的目标属性 C 具有

3、 m 个可能的类标号值,C=C1,C2,Cm,假定训练集 S 中,Ci在所有样本中出现的频率为 (i=1,2,3,m),则该训练集 S 所包含的信息熵定义为: (3 分)熵越小表示样本对目标属性的分布越纯,反之熵越大表示样本对目标属性分布越混乱。 (1 分)14什么是文本挖掘? 答:文本挖掘是一个对具有丰富语义的文本进行分析,从而理解其所包含的内容和意义的过程。 (2 分)对其进行深入的研究可以极大地提高人们从海量文本数据中提取信息的能力,具有很高的商业价值。 (1 分)包括分词、文本表示、文本特征选择、文本分类、文本聚类、文档自动摘要等内容。 (2 分)15. 什么是主成份分析?答:主成份分

4、析(PCA)是一种用于连续属性的线性变换技术,找出新的属性(主成份) , (1 分)这些新属性是原属性的线性组合, (1 分)是相互正交的, (1 分)使得原来数据投影到较小的集合中,并且捕获数据的最大变差。 (1 分)PCA 通常揭示先前未曾觉察的联系,解释不寻常的结果。 (1 分)16. 简述 k-最近邻算法过程。 答:KNN 分类算法的基本描述如下:算法名:KNN输入:最近邻数目 K ,训练集 D,测试集 Z (1 分)输出:对测试集 Z 中所有测试样本预测其类标号值 (1 分)(1)for 每个测试样本 (1 分) do(2) 计算 z 和每个训练样本 之间的距离 (1 分)(3) 选

5、择离 z 最近的 k 最近邻集合 (1 分)(4) 返回 中样本的多数类的类标号 (1 分)(5)end for17. 简述 Apriori 算法原理。答:Apriori 性质:一个项集是频繁的,那么它的所有子集都是频繁的。 (1 分)一个项集的支持度不会超过其任何子集的支持度。 (1 分)该算法采用逐层的方法找出频繁项集, (1 分)首先找出 1 频繁-项集,通过迭代方法利用频繁 k-1-项集生成 k 候选项集, (1 分)扫描数据库后从候选 k-项集中指出频繁 k-项集,直到生成的候选项集为空。 (1 分)18. 什么是离群点?答:离群点是在数据集中偏离大部分数据的数据, (2 分)使人怀

6、疑这些数据的偏离并非由随机因素产生, (1 分)而是产生于完全不同的机制。 (2 分)四、计算题 (共 2 题, 每小题 20 分,共 40 分)1221()(,.)logmiiEntropySntropyp(,)xyzD(,)dxD219.数据集如下表:A1 A2 A3 B1 B2 B3 B4 C1 C2 C3x 1 9 7 5 9 6 2 7 2 8y 2 5 9 8 2 9 4 7 1 3以 A1、B1、C1 为初始簇中心,利用曼哈顿距离的 k-means 算法计算:(1) 第一次循环后的三个簇中心;(2) 最后的三个簇中心,以及各簇包含的对象。 (要有计算步骤)解:(1)计算其他 7

7、个数据点到三个中心的曼哈顿距离:M(A2,A1)=11 M(A2,B1)=7 M(A2,C1)=4 M(A3,A1)=13 M(A3,B1)=3 M(A3,C1)=2M(B2,A1)=8 M(B2,B1)=10 M(B2,C1)=7M(B3,A1)=12 M(B3,B1)=2 M(B3,C1)=3M(B4,A1)=3 M(B4,B1)=7 M(B4,C1)=8M(C2,A1)=2 M(C2,B1)=10 M(C2,C1)=11 M(C3,A1)=8 M(C3,B1)=8 M(C3,C1)=5经过本次循环,属于 A1 簇的数据点为( A1,B4,C2 ) , (1 分)中心为 X1(1.67,2

8、.33) ;(1 分)属于 B1 簇的数据点为(B1,B3) , (1 分)中心为 X2(5.5, 8.5) ;(1 分)属于 C1 簇的数据点为(C1,A2 ,A3,B2,C3 ) , (1 分)中心为 X3(8, 5.2) ;(1 分)(2)计算 10 个点到三个新中心的距离:M(A1,X1)=1 M(A1,X2)=11 M(A1,X3)=10.2 M(A2,X1)=10 M(A2,X2)=7 M(A2,X3)=1.2 M(A3,X1)=12 M(A3,X2)=2 M(A3,X3)=4.8M(B1,X1)=9 M(B1,X2)=1 M(B1,X3)=5.8M(B2,X1)=7.66 M(B

9、2,X2)=10 M(B2,X3)=4.2M(B3,X1)=11 M(B3,X2)=1 M(B3,X3)=5.8M(B4,X1)=2 M(B4,X2)=8 M(B4,X3)=7.2M(C1,X1)=10 M(C1,X2)=3 M(C1,X3)=2.8 M(C2,X1)=1.66 M(C2,X2)=11 M(C2,X3)=10.2 M(C3,X1)=7 M(C3,X2)=8 M(C3,X3)=2.2 经过本次循环,属于 X1 簇的数据点为( A1,B4,C2 ) , (1 分)中心为 Y1(1.67, 2.33) ;(1 分)属于 X2 簇的数据点为(A3,B1,B3 ) , (1 分)中心为

10、Y2(6, 8.67) ;(1 分)属于 X3 簇的数据点为(A2,B2,C1 ,C3) , (1 分)中心为 Y3(8.25, 4.25) ;(1 分)再次计算 10 个数据点到三个新中心的距离:M(A1,Y1)=1 M(A1, Y2)=11.67 M(A1,Y3)=9.5 M(A2,Y1)=10 M(A2,Y2)=6.67 M(A2,Y3)=1.5 M(A3,Y1)=12 M(A3,Y2)=1.33 M(A3,Y3)=6M(B1,Y1)=9 M(B1,Y2)=1.67 M(B1,Y3)=7M(B2,Y1)=7.66 M(B2,Y2)=9.67 M(B2,Y3)=3M(B3,Y1)=11 M

11、(B3,Y2)=0.33 M(B3,Y3)=7M(B4,Y1)=2 M(B4,Y2)=8.67 M(B4,Y3)=6.5M(C1,Y1)=9 M(C1,Y2)=2.67 M(C1,Y3)=4 M(C2,Y1)=1.66 M(C2,Y2)=11.67 M(C2,Y3)=9.5 M(C3,Y1)=7 M(C3,Y2)=7.67 M(C3,Y3)=1.5 经过本次循环,属于 Y1 簇的数据点为( A1,B4,C2 ) , (1 分)中心为 Y1(1.67, 2.33) ; (1 分)属于 Y2 簇的数据点为(A3,B1,B3 ,C1) , (1 分)中心为 Y2(6.25, 8.25) ; (1 分

12、)属于 Y3 簇的数据点为(A2,B2,C3 ) , (1 分)中心为 Y3(8.67, 3.33) ;(1 分)可以看到,已经不变了。 (2 分)20.已知数据集如下表:使用朴素 Bayes 算法预测气候状况为雨天,高温,湿度中等,微风时,是否适合户外运动?解:即求 X=下雨,高,中等,微风的户外运动为可以的后验概率 P(Y=y|X)和 X 在户外运动为不可以的后验概率 P(Y=n|X),其中概率最大者为 X 的预测值。 (3 分)天气情况 x1 温度情况 x2 湿度情况 x3 风力情况 x4 户外运动 Y晴朗 高 大 微风 不适合 n晴朗 高 大 强风 不适合 n阴天 高 大 微风 适合

13、y下雨 中 大 微风 适合 y下雨 低 中等 微风 适合 y下雨 低 中等 强风 不适合 n阴天 低 中等 强风 适合 y晴朗 中 大 微风 不适合 n晴朗 低 中等 微风 适合 y下雨 中 中等 微风 适合 y3根据 Bayes 定理,P(Y=y|X)=P(X|Y=y) * P(Y=y)=P(x1|Y=y)* P(x2|Y=y)* P(x3|Y=y)* P(x4|Y=y)* P(Y=y) (2 分)这里,P(x1|Y=y)=P(x1=下雨|Y=y)=3/6 (1 分)P(x2|Y=y)=P(x2=高|Y=y)=1/6 (1 分)P(x3|Y=y)=P(x3=中等|Y=y)=4/6 (1 分)

14、P(x4|Y=y)=P(x4=微风|Y=y)=5/6 (1 分)P(Y=y)=6/10 (1 分)因此,P(Y=y|X)=3/6*1/6*4/6*5/6*6/10=1/36 (1 分)同理,计算 P(Y=n|X)= P(X|Y=n) * P(Y=n)=P(x1|Y=n)* P(x2|Y=n)* P(x3|Y=n)* P(x4|Y=n)* P(Y=n) (1 分)其中,P(x1|Y=n)= P(x1=下雨|Y=n)=1/4 (1 分)P(x2|Y=n)= P(x2=高|Y=n)=2/4 (1 分)P(x3|Y=n)= P(x3=中等|Y=n)=1/4 (1 分)P(x4|Y=n)= P(x4=微

15、风|Y=n)=2/4 (1 分)P(Y=n)=4/10 (1 分)因此,P(Y=n|X)=1/4*2/4*1/4*2/4*4/10=1/160 (1 分 )因为 P(Y=y|X) P(Y=n|X),故气候状况为雨天,高温,湿度中等,微风时,户外运动应为适合。 (2 分)五、应用题 (共 1 题,共 10 分)21.你作为银行信息中心工作人员,请阐述数据挖掘技术在银行业务中的应用,并写出相关的数据分析流程。参考答案:利用数据预处理技术进行数据清洗、整理、集成等;(1 分)利用分类方法对客户进行分类,预测客户需要的服务;(2 分)利用聚类方法分析客户详细类别,有针对性地开展服务推广;(2 分)利用关联分析分析客户相关服务,方便推介服务;(1 分)利用离群点挖掘技术分析数据异常,防止入侵。 (1 分)流程:原始数据预处理 数据挖掘 结果模式评估与表示知识。 (3 分)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 实用文档资料库 > 策划方案

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。