1、数据挖掘 概念与技术 Chapter 1 Jiawei Han and Micheline KamberDate 1Data Mining: Concepts and TechniquesChapter 1. 引言n 什么激发了数据挖掘,为什么它是重要的 ?n 什么是数据挖掘 ?n 在何种数据上进行数据挖掘 ?n 数据挖掘功能n 所有模式都是有趣的吗 ?n 数据挖掘系统的分类n 数据挖掘的主要问题Date 2Data Mining: Concepts and Techniques需要是发明之母n 数据爆炸问题 n 自动数据收集工具和成熟的数据库技术导致海量数据累积,需要对数据库、数据仓库及其他
2、信息存储设备中的数据进行分析。n 我们溺死在数据坟墓中,却难以提取有效信息n 解决方法:数据仓库与数据挖掘n 数据仓库 and 联机分析处理( OLAP)n 在大型数据库数据中挖掘有趣知识 (规则 , 模式 , 约束 )Date 3Data Mining: Concepts and Techniques数据库技术发展n 1960s:n 数据收集,数据创建n 1970s: n 关系数据模型 , 关系数据库管理系统n 1980s: n 高级数据模型 (扩充关系 , 面向对象 , etc.) n 面向应用的数据库管理系统 (空间的 ,时间的 ,知识库 , etc.)n 1990s: n 数据挖掘 ,
3、数据仓库 ,Web 数据库n 2000sn 面向各种应用的数据挖掘n Web 技术 和 全球信息系统 Date 4Data Mining: Concepts and Techniques什么是数据挖掘 ?n 数据挖掘 (从数据中提取或 “挖掘 ”知识 ) n 从大量数据中提取有兴趣 (不琐碎的 , 固有的 , 先前未知的 和 潜在有用的 ) 知识 n 数据挖掘 : 用词不当 ?n 同义词n 数据库中知识挖掘、知识提取、数据 /模式分析、数据考古和数据捕捞n 注意事项 : Is everything “data mining”?n 查询处理 . n 专家系统或统计程序Date 5Data Min
4、ing: Concepts and Techniques为什么要数据挖掘 ?潜在的应用n 数据分析与决策支持n 市场分析和管理n 目标市场 ,客户关系管理 , 市场销售分析 , 交叉销售 , 市场分割n 风险分析和管理n 预测 , 消费能力 , 质量控制 ,竞争力分析n 欺骗探测 和不寻常行为探测n 其他应用n Web 挖掘n DNA 和生物信息挖掘Date 6Data Mining: Concepts and Techniques市场分析和管理n 数据来源 ?n 信用卡事务 , 折扣优待卷 ,客户投诉电话 , 公众生活方式调查n 目标市场n 发现具有相同特征(兴趣、收入状况、消费习惯等)的消
5、费者模式n 随着时间发展,决定消费者购买的模式n 交叉市场分析n 产品间的销售联系 , 基于这些联系进行预测 n 消费者类型n 什么样的消费者买什么样的产品 (聚类 or 分类 )n 消费需求分析n 为不同消费者提供最好产品n 预测吸引新消费者的因素n 提供信息总结n 多维总结报告n 分析汇总信息 (数据集中趋势和变化 )Date 7Data Mining: Concepts and Techniques公司分析 & 风险管理n 经费计划与资产评估n 现金流转分析 和 预测n 临时问题分析进行评估资产 n 交叉组合和时间序列分析 (财政比率 , 趋势分析 , etc.)n 资源计划n 总结、比
6、较资源花费n 竞争n 监控竞争者和市场方向 n 划分消费群和基于分类的定价程序n 制定具有高度市场竞争力的定价策略Date 8Data Mining: Concepts and Techniques欺骗探测 & 挖掘不寻常模式n 方法 : 聚类 进行欺骗模式构造 , 孤立点分析n 应用 : 卫生保健 , 零售业 , 信用卡服务 .n 汽车保险 :n 洗钱 : 可疑金钱事务 n 医疗保险n 长途通讯 n 零售产业n 分析显示: 38% 的零售收缩归咎于不诚实雇员n 反对恐怖主义Date 9Data Mining: Concepts and Techniques其他应用n 运动n IBM高级侦察系统统计 NBA比赛 n 天文学n 喷气推进实验所 (JPL) 与 Palomar 天文台在数据挖掘帮助下发现 22类星体Date 10Data Mining: Concepts and Techniques