1、数据挖掘:概念与技术韩家伟1.产生背景及定义2.数据挖掘在何种数据上运行3.数据挖掘功能 _可以挖掘什么类型的模式4.数据挖掘系统的分类5.现今面临的问题1.产生背景需要是发明之母 。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。1.产生背景显存情况:数据丰富,信息大爆炸,但是不知怎样为我所用,数据库成了数据的坟墓,被描述为 “ 数据丰富,但信息贫乏 ” ,产生背景数据挖掘:是指从大量数据中提取或“ 挖掘 ” 知识,就
2、像从砂石中提取黄金一样。2.在何种数据上运行。 原则上讲,数据挖掘可以在任何类型的信息存储上进行。 这包括关系数据库、数据仓库、事务数据库、先进的数据库系统、展平的文件和 WWW。先进的数据库系统包括面向对象和对象 -关系数据库;面向特殊应用的数据库,如空间数据库、时间序列数据库、文本数据库和多媒体数据库。挖掘的挑战和技术可能因存储系统而异。 2.1关系数据库关系数据库是表的集合,每个表都赋予一个唯一的名字。每个表包含一组属性(列或字段),并通常存放大量元组(记录或行) 。关系中的每个元组代表一个被唯一关键字标识的对象,并被一组属性值描述。语义数据模型,如实体 -联系( ER)数据模型,将数据
3、库作为一组实体和它们之间 的联系进行建模。通常为关系数据库构造 ER 模型。关系 customer 由一组属性,包括顾客的唯一标识号 (cust_ID),顾客的姓名、地址、年龄、职业、 年收入、信誉信息、分类等。2.2 数据仓库 AllElectronics 是一个成功的跨国公司,分部遍及世界。每个分部有自己的一组数据库。AllElectronics 的总裁要你提供公司第三季度每种商品、每个分部的销售分析。这是一个困难的任务, 特别是当相关数据散布在多个数据库,物理地存放在许多站点时。如果 AllElectronics 有一个数据仓库,该任务将是容易的。 数据仓库是一个从多个数据源收集的信息存储,存放在一个一致的模式下,并通常驻留在单个站点。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新构造 。 该过程在第 2、 3 章详细研究。图 1.7 给出了AllElectronics的数据仓库的基本结构