1、数据仓库与数 据 挖 掘主讲教师:王浩畅E-mail: wanghch_School of Computer & Information Technology of NEPU第 2章 数据预处理练习 1假定用于分析的数据包含属性 age.数据元组 age值 (以递增序 )是: 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70.l (a) 该数据的均值是什么 ?中位数是什么 ?l (b) 该数据的众数是什么?讨论数据的峰l (c)数据
2、的中列数是什么?解答(a)均值:l 中位数:有序集中间值或者中间两个值平均。奇数个,中间值: 25(b):表示数据集中出现频率最高的值 两个值出现了相同的最高频率, 25和 35,都出现了 4次,也就是双峰(c)中列数:最大值和最小值的平均l ( 13+70) /2=41.5练习 2假定用于分析的数据包含属性 age.数据元组 age值 (以递增序 )是: 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70.l (d)找出数据的第一个
3、四分位数 Q1和第三个四分位数 Q3l (e)给出数据的五数概括解答(d) 第一个四分位数 Q1 : 20第三个四分位数 Q3 : 35l 中位数:有序集中间值或者中间两个值平均。奇数个,中间值: 25(e)五数概括 : 13, 20, 25, 35, 70练习 3假定用于分析的数据包含属性 age.数据元组 age值 (以递增序 )是: 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70.l (f)画出数据的盒图解答20352570
4、13年龄(f)52噪声数据 (3)u 数据平滑的分箱方法 price的排序后数据(单位:美元): 4, 8, 15, 21, 21, 24, 25, 28, 34 划分为(等深的)箱:l 箱 1: 4, 8, 15l 箱 2: 21, 21, 24l 箱 3: 25, 28, 34 用箱平均值平滑:l 箱 1: 9, 9, 9l 箱 2: 22, 22, 22l 箱 3: 29, 29, 29 用箱边界平滑:l 箱 1: 4, 4, 15l 箱 2: 21, 21, 24l 箱 3: 25, 25, 34练习假定用于分析的数据包含属性 age.数据元组 age值 (以递增序 )是: 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70.l 使用分箱均值光滑对以上数据进行光滑,箱的深度为 3.解释你的步骤