1、数据挖掘 (Data Mining)主讲教师:邵俊明Email: Tel:18280096713 Data Mining Lab, Big Data Research CenterSchool of Computer Science and Engineering, UESTC Http:/ 认识数据与数据预处理上节内容1. 什么是数据挖掘 : 从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 。2. 知识发现的过程: 数据清理 , 数据集成 , 数据选择 , 数据变换 , 数据挖掘 , 模式评估 , 和知识表示。 其中数据挖掘是知识发现的核心 !3. 数据
2、挖掘功能 /任务 : 关联规则 , 聚类 , 分类 /回归, 孤立点分析等 .4. 数据挖掘的常识性知识 : 学科的交叉性:机器学习、数据库、统计学、拓扑学等具有紧密的联系 挑战:高维,大数据、数据类型、参数、数据演化性和数据隐私 /安全性 常见工具包 /期刊、会议。 主要内容一、认识数据n 属性类型n 数据的统计描述n 相似性度量二、数据预处理n 为什么进行预处理数据?n 数据预处理方法一、认识数据l 数据 是对描述对象的抽象;l 数据集: 数据对象的集合;l 数据对象 :记录、点、向量、模式、事件、样本、案例、观测或实体;l 属性: 用于刻画对象的基本性质或特性;属性也称作:变量、特性、字
3、段、特征或维。l 属性值: 是赋予属性的数或符号基本概念Example对象属性数据集属性值1、属性类型属性类型u 分 类 型( Categorical)标 称( Nominal) -(特殊:二元)例 : ID 号、眼球 颜 色、 邮 政 编码序数( Ordinal )例 : 军阶 、 GPA、用 tall, medium, short表示的高u数 值 型( Numerical)区 间 ( Interval)例 : 日 历 、 摄 氏或 华 氏温度 .比率( Ratio)例 : 开氏温度、 长 度、 计 数属性类型属性类型 描 述 例 子 操 作标称属性的值仅仅只是不同的名字,即标称值只提供足够的信息以区分对象( =, )邮政编码、雇员 ID号、眼球颜色、性别众数、熵、列联相关、 2检验序数属性的值提供足够的信息确定对象的序( )矿石硬度、 好,较好,最好 、成绩、街道号码中值、百分位、秩相关、游程检验、符号检验对于区间属性,值之间的差是有意义的,即存在测量单位( , )日历日期、摄氏或华氏温度均值、标准差、皮尔逊相关、 t和 F检验对于比率变量,差和比率都是有意义的( *, /)绝对温度、货币量、计数、年龄、质量、长度、电流几何平均、调和平均、百分比变差分类的(定性的 )数值的(定量的 )标称序数区间比率