1、数据挖掘原理与 SPSS Clementine应用宝典元昌安 主编 邓 松 李文敬 刘海涛 编著电子工业出版社1 1数据挖掘的社会需求现实情况:人类积累的数据量以每月高于 15%的速度增加,如果不借助强有力的挖掘工具,仅依靠人的能力来理解这些数据是不可能的。现在人们已经评估出世界上信息的数量每二十个月翻一番,并且数据库的数量与大小正在以更快的速度增长。1 1数据挖掘的社会需求著名的 “啤酒尿布 ”案例:美国加州某个超级卖场通过数据挖掘发现,下班后前来购买婴儿尿布的男顾客大都购买啤酒。于是经理当机立断,重新布置货架,把啤酒类商品布置在婴儿尿布货架附近,并在二者之间放置佐酒食品,同时还把男士日常用
2、品就近布置。这样,上述几种商品的销量大增。1.2 数据挖掘的定义 技术定义数据挖掘( Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。1.2 数据挖掘的定义 技术定义数据挖掘和信息检索 :信息检索和数据挖掘的 相同点 是从档案文件或数据库中抽取感兴趣的数据和信息。 区别在于数据检索对信息的抽取规则是事先定义好的,抽取的是外在信息。据挖掘于挖掘寻找现象之间事先未知的关系和关联 。1.2数据挖掘的定义 商业定义按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知
3、的规律性,并进一步将其模型化的先进有效的方法。数据挖掘是从海量数据中提取隐含在其中的有用信息和知识的过程。它可以帮助企业对数据进行微观、中观乃至宏观的统计、分析、综合和推理,从而利用已有数据预测未来,帮助企业赢得竞争优势。 1.2数据挖掘的定义 商业定义应用实例:某经营公司对多年来的客户资料进行挖掘后发现,大多数购买电脑的客户具有下面的特点: 1、年轻( 2045 岁之间); 2、收入高; 3、居住地:城市; 4、学历高;基于此,此经营公司可以根据这些客户的特点有目的的做一些广告或者促销。1.3数据挖掘的发展历史 历史发展v 1989 IJCAI会议: 数据库中的知识发现讨论专题 Knowle
4、dge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991)v 1991-1994 KDD讨论专题 Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)v 1995-1998 KDD国际会议 (KDD95-98) Journal of Data Mining and Knowledge Discovery (1997)v 1998 ACM
5、 SIGKDD, SIGKDD1999-2002 会议 ,以及 SIGKDD Explorationsv 数据挖掘方面更多的国际会议 PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, DaWaK, SPIE-DM, etc.1.3数据挖掘的发展历史 国内现状v 大部分处于科研阶段 各大学和科研机构从事数据挖掘算法的研究 国内著作的数据挖掘方面的书较少(翻译的有) 数据挖掘讨论组( )v 有一些公司在国外产品基础上开发的特定的应用 IBM Intelligent Miner SAS Enterprise Minerv 自主知识产权的数据挖掘软件 复旦德门( ) 等1.3数据挖掘的发展历史 未来发展v 数据库v 人工智能v 统计学 上述学科的发展决定着数据挖掘的发展未来和方向