1、数据挖掘数据挖掘的产生n随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了 “数据爆炸但知识贫乏 ”的现象。数据挖掘的 案例: “啤酒 ”和 “尿布”n 一则广为流传的案例:啤酒和尿布的故事n 美国加州某个超市连锁店发现 :在下班后前来购买婴儿尿布的顾客多数是男性,他们往往也同时购买啤酒。n 处理:重新布置了货架,啤酒类商品、婴儿尿布、土豆片之类的佐酒小食品、男士们日常生活用品就近布置。n 结果:
2、上述几种商品的销量几乎马上成倍增长。什么是数据挖掘 ?n 从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。n 非平凡(的过程):有一定的智能性、自动性(仅仅给出所有数据之和不能算做一个发现过程)。n 有效性:所发现的模式对新的数据仍保持一定的可信度。n 新颖性:所发现的模式应该是新的。n 潜在有用性:所发现的模式将来有实际的效用。n 最终可理解性:能被用户理解,如:简洁性n 有趣性:有效性、新颖性、潜在有用性、最终可理解性的综合。数据挖掘是多学科的交叉数据挖掘数据库技术 统计学其他学科信息科学机器学习 可视化数据挖掘与数据仓库的关系n 数据挖掘是数据仓库发展的必然
3、结果n 数据仓库为数据挖掘提供应用基础n 数据挖掘也不必非得建立一个数据仓库n 从数据仓库中直接进行数据挖掘有许多好处。数据挖掘和 OLAPn OLAP分析过程在本质上是一个 演绎推理 的过程,是决策支持领域的一部分。 传统的查询和报表工具是告诉你数据库中都 有什么( what happened), OLAP则更进一步告诉你 下一步会怎么样 (What next)和如果采取这样的措施又会怎么样( What if)。用户首先建立一个假设,然后用 OLAP检索数据库来验证这个假设是否正确。n 数据挖掘在本质上是一个 归纳推理 的过程 ,与 OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(
4、模型)的正确性,而是在数据库中自己寻找模型。n 数据挖掘和 OLAP具有一定的 互补性 。在利用数据挖掘出来的结论采取行动之前, OLAP工具能起辅助决策作用。而且在知识发现的早期阶段, OLAP工具用来探索数据,找到哪些是对一个问题比较重要的变量,发现异常数据和互相影响的变量。这都有助于更好地理解数据,加快知识发现的过程。数据挖掘的步骤n 数据准备 n 数据选择:目标数据n 数据预处理:消除噪声、不一致、冗余等n 数据变换:连续数据离散化、数据转化n 数据归约:特征选择或抽取n 数据挖掘算法的选择 .n 首先要明确任务 ,如数据总结、分类、聚类、关联规则发现、序列模式发现等。n 考虑用户的知
5、识需求(得到描述性的知识、预测型的知识)。n 根据具体的数据集合,选取有效的 挖掘算法 。数据挖掘的步骤n 结果的解释评估( interpretation and evaluation)n 对挖掘出来的结果(模式),经用户或机器评价,剔除冗余或无关的模式。n 模式不满足用户需求时,返回到某一步,重新挖掘。如:重新选择数据、采用新的变换方法、设定新的数据挖掘参数,或者换一种挖掘算法(如分类方法,不同的方法对不同的数据有不同的效果)。n 挖掘的结果是面向用户的,对挖掘结果进行可视化或者转化为用户易于理解的形式表示。n 评注n 影响挖掘结果质量的因素:采用的算法、数据本身的质量与数量n 数据挖掘的过程是一个不断反馈的过程n 可视化在数据挖掘过程的各个阶段都扮演着重要角色,如用散点图或直方图等统计可视化技术来显示有关数据,以期对数据有一个初步的了解。常用的数据挖掘方法n目前一般常用的数据挖掘方法很多 , 它们大多属于数学统计方法或人工智能中的机器学习算法,以及人工神经网络 /遗传算法。n 概念 /类描述n 关联规则挖掘n 序列模式分析n 分类分析n 聚类分析n 异常点检测