1、数据挖掘技 术数据挖掘的由来 n背景n网络之后的下一个技术热点n数据爆炸但知识贫乏n从商业数据到商业信息的进化1. 背景n 人类已进入一个崭新的信息时代 n 数据库中存储的数据量急剧膨胀 n 全球信息量以惊人的速度急剧增长n 目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。n 产生了一个新的研究方向:基于数据库的知识发现( Knowledge Discovery in Database),以及相应的数据挖掘( Data Mining)理论和技术的研究n 随着大数据库的建立和海量数据的不断涌现,必然提出对强有
2、力的数据分析工具的迫切需求。但现实情况往往是 “数据十分丰富,而信息相当贫乏 。 ”n 快速增长的海量数据收集、存放在大型数据库中,没有强有力的工具,理解它们已经远远超出人的能力。因此,有人称之为: “数据坟墓 ”。n 由于 专家系统工具 过分依赖用户或专家人工地将知识输入知识库中,而且分析结果往往带有偏差和错误,再加上耗时、费用高,故不可行。数据矿山 信息金块数据挖掘工具2. 网 络 之后的下一个技 术热 点n 大量信息在给人们带来方便的同时也带来了一大堆问题:n 信息过量,难以消化n 信息真假难以辨识n 信息安全难以保证n 信息形式不一致,难以统一处理3. 数据爆炸但知 识贫 乏 n 随着
3、数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了 “数据爆炸但知识贫乏 ”的现象。4. 从商 业 数据到商 业 信息的 进 化 进化阶段 商业问题 支持技术 产品厂家 产品特点数据搜集(60年代 )“ 过去五年中我的总收入是多少? ” 计算机、磁带和磁盘IBMCDC提供历史性的、静态的数据信息数据访问(80年代 )“ 在新英格兰的分部去年三月的销售额是多少? ”关系数据库 (RDBMS)结构化查询语
4、言 (SQL)ODBCOracleSybaseInformixIBMMicrosoft在记录级提供历史性的、动态数据信息数据仓库决策支持(90年代 )“ 在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论? ”联机分析处理 (OLAP)多维数据库数据仓库PilotComshareArborCognosMicrostrategy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)“ 下个月波士顿的销售会怎么样?为什么? ”高级算法多处理器计算机海量数据库PilotLockheedIBMSGI其他初创公司提供预测性的信息KDD的出 现n 数据挖掘是八十年代投资 AI研究项目失败
5、后, AI转入实际应用时提出的。它是一个新兴的,面向商业应用的 AI研究。n 基于数据库的知识发现( KDD)一词首次出现在1989年举行的第十一届 AAAI学术会议上。n 1995年在加拿大蒙特利尔召开了第一届 KDD国际学术会议( KDD95)。n 由 Kluwers Publishers出版, 1997年创刊的 Knowledge Discovery and Data Mining 是该领域中的第一本学术刊物。 KDD的出 现随后,在 1991年、 1993年和 1994年都举行 KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。最初,数据挖掘是作为 KDD中利用算法处理数据的一个步骤,其后逐渐演变成 KDD的同义词。 数据挖掘数据库技术 统计学高性能计算人工智能机器学习 可视化数据挖掘是多学科的 产 物