1、第十七章 数据挖掘技术概论本 章 内 容 第一节 数据挖掘的概念 第二节 数据挖掘的功能及主要应用 第三节 数据挖掘的过程 第四节 数据挖掘的常用方法 第五节 数据挖掘技术的发展趋势2016-2-24 第十七章 数据挖掘技术概论 2大数据时代大数据( 4V理论 ):规模性 (Volume)1多样性 (Variety)2高速性 (Velocity)3真实性 (Veracity)42016-2-24 第十七章 数据挖掘技术概论 3关于大数据信息技术进步的自然产物 : 数据挖掘信息爆炸数据过剩数据多,信息或知识少2016-2-24 第十七章 数据挖掘技术概论 41.1数据挖掘的概念数据挖掘就是从大量
2、的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程 。数据挖掘的含义数据源 必须是真实的、大量的、多数是含有噪声的 ;发现的是 用户感兴趣的知识 ;发现的知识要 可接受 、 易理解 、 可运用 ;所有发现的知识都是 相对的 ,是有特定前提和约束条件、面向特定领域的 ;2016-2-24 第十七章 数据挖掘技术概论 5本 章 内 容 第一节 数据挖掘的概念 第二节 数据挖掘的功能及主要应用 第三节 数据挖掘的过程 第四节 数据挖掘的常用方法 第五节 数据挖掘技术的发展趋势2016-2-24 第十七章 数据挖掘技术概论 62.1数据挖
3、掘的功能数据特征化目的是对数据进行更高层次的抽象,给出它的总体综合描述1.数据特征化简单关联、时序关联2.关联分析分析数据的各种属性,并找出数据的属性模型,确定哪些数据属于哪些类3.分类与预测按照某种相似程度度量方法(通常是测算距离),将数据分成一系列有意义的簇4.聚类分析对离群点数据的分析处理5.离群点分析对那些随时间变化的数据对象的变化规律和趋势进行建模描述6.演化分析2016-2-24 第十七章 数据挖掘技术概论 72.2 数据挖掘的应用领域1. 商业领域 对商业数据库中的大量业务数据进行抽取、转换、分析和模型化处理,从中提取辅助商业决策的关键性知识,尤其是在如:电信、电力、银行、保险、
4、零售等典型的商业领域2. 科学与工程研究领域制造业 实现零部件故障诊断、资源优化、生产过程分析犯罪调查 案件调查、诈骗监测、洗钱认证、犯罪组织分析生物学领域 实现 DNA序列相似搜索和比对,基因组特征及基因序列 分析3. 网络数据分析领域 可以分析出有哪些外部环境信息和内部经营信息会对企业产生重大或潜在重大的影响; 可以归纳、推理出个人用户的使用偏好,预测个人的未来行为2016-2-24 第十七章 数据挖掘技术概论 8本 章 内 容 第一节 数据挖掘的概念 第二节 数据挖掘的功能及主要应用 第三节 数据挖掘的过程 第四节 数据挖掘的常用方法 第五节 数据挖掘技术的发展趋势2016-2-24 第十七章 数据挖掘技术概论 93.1数据挖掘的过程消除数据噪声和与挖掘主题无关的数据;对数据做简单的泛化处理将来自于各个不同数据源的数据集成到一起数据清理从大量的基础数据中选择与挖掘任务相关的数据数据集成通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式数据选择KDD中最核心的一个步骤,其作用就是根据数据挖掘任务,利用各种数据挖掘方法对数据进行深入分析数据转换根据一定的评估标准,从挖掘结果筛选出有意义的模式知识数据挖掘 采用可视化和知识表示技术,向用户提供和展示挖掘的知识模式评估知识展示2016-2-24 第十七章 数据挖掘技术概论 10