ImageVerifierCode 换一换
格式:PPT , 页数:82 ,大小:2.45MB ,
资源ID:3710165      下载积分:15 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-3710165.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据分析和挖掘.ppt)为本站会员(99****p)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

数据分析和挖掘.ppt

1、2019年7月8日,1,第18章 数据分析与挖掘,1、决策支持系统2、数据分析和联机分析处理(OLAP)3、数据仓库工程4、数据挖掘,2019年7月8日,2,数据分析与挖掘的社会需求,有价值的知识,可怕的数据,2019年7月8日,3,数据分析与挖掘的社会需求,2019年7月8日,4,1、决策支持系统,数据库应用系统可广义地划分为事务处理系统和决策支持系统事务处理系统用来记录有关事务的信息的系统决策支持系统是从事务处理系统存储的细节信息中提取出高层次的信息,2019年7月8日,5,2.数据分析和联机分析处理,随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆(M)字节及千兆(G

2、)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节,同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。,2019年7月8日,6,什么是OLAP,联机分析处理(Online Analytical Processing) 是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。OLAP=多维数据库?,2019年7月8日,7,OLTP联机事务处理,传统的关系型

3、数据库的主要应用侧重于日常的商务操作专门为了实时的数据操作而设计 支持数据的快速插入和修改 提供单个纪录的查询 支持数千个并发用户,2019年7月8日,8,OLAP,是数据仓库的核心部心,数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。提供数据挖掘,发现数据间潜在的联系 从各个不同的视觉察看数据,2019年7月8日,9,OLTP vs OLAP,2019年7月8日,10,OLAP是多维的(多维数据库有层次概念),“嘿4月份我在北京卖掉了价值十万美元的可乐”,维度的层次概念:,产品类别产品名称,地域国家省市,时间年季度月日,2019年7月8日,11,维度和量

4、度,2019年7月8日,12,3、数据仓库,数据仓库简介数据仓库与数据库的区别如何建设数据仓库,2019年7月8日,13,数据仓库简介,数据仓库(data warehouse)是从多个源中收集一个信息仓储(或归档),在同一个位置用唯一的模式存储。长时间存储单独的统一的数据接口,2019年7月8日,14,数据仓库与数据库的区别,数据仓库是对于大量已经由OLTP形成的数据的一种分析型的数据库,用于处理商业智能、决策支持等重要的决策信息;数据仓库是在数据库应用到一定程度之后而对历史数据的加工与分析;是处理两种不同用途的工具而已。,2019年7月8日,15,数据仓库的建设(1),2019年7月8日,1

5、6,设计数据仓库,一个数据仓库包括了 一个中央事实表Fact table 多个维表,2019年7月8日,17,数据仓库的星型结构,2019年7月8日,18,数据仓库的建设(2),2019年7月8日,19,ETL:数据的提取与转换,2019年7月8日,20,数据仓库的建设(3),2019年7月8日,21,数据仓库的建设(4),2019年7月8日,22,四、数据挖掘,1、数据挖掘简介2、数据挖掘系统的特征3、数据挖掘技术,2019年7月8日,23,1、数据挖掘简介,基本知识数据挖掘与OLAP比较数据挖掘与KDD比较数据挖掘的流程,2019年7月8日,24,数据挖掘简介,1、数据挖掘是怎样的一个过程

6、呢? 从海量数据中,提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。2、数据挖掘特性? 数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构; 数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。,2019年7月8日,25,数据挖掘系统,2019年7月8日,26,数据挖掘与OLAP比较,(1)功能不同 数据挖掘DM的功能在于知识发现。如:数据挖掘DM中的“分类”包括:贝叶斯分类、粗糙集分类、决策树分类等,是从数据中发现知识规则 而联机分析OLAP是一种自上而下、不断深入的分析工具:用户提出问题或假设,OLAP负责从上至下深入地提取出关于该问题的详细信息,并以可视

7、化的方式呈现给用户。 用户先入为主的局限性可能会限制问题和假设的范围,从而影响最终的结论。,2019年7月8日,27,(2)数据组成不同数据挖是从混沌的、具有巨大噪声的数据中提炼知识规则;而联机分析OLAP只是从已经规范化的、纯净的关系数据库中组织数据。(3)知识与数据的关系不同数据挖掘DM是从数据中发现知识KDD;而联机分析OLAP是利用人已知的知识来有意识地组织和使用数据。,2019年7月8日,28,数据挖掘与KDD,知识发现(KD)输出的是规则 数据挖掘(DM)输出的是模型 共同点两种方法输入的都是学习集(learning sets) 目的都是尽可能多的自动化数据挖掘过程 数据挖掘过程并

8、不能完全自动化,只能半自动化,2019年7月8日,29,SQL Server 2005数据挖掘处理流程,2019年7月8日,30,2、数据挖掘系统的特征,矿山(数据),挖掘工具(算法),金子(知识),数据的特征知识的特征算法的特征,2019年7月8日,31,数据的特征,大容量POS数据(某个超市每天要处理高达2000万笔交易)卫星图象(NASA的地球观测卫星以每小时50GB的速度发回数据)互联网数据含噪音(不完全、不正确)异质数据(多种数据类型混合的数据源,来自互联网的数据是典型的例子),2019年7月8日,32,系统的特征,知识发现系统需要一个前处理过程数据抽取数据清洗数据选择数据转换知识发

9、现系统是一个自动/半自动过程知识发现系统要有很好的性能,2019年7月8日,33,知识的特征,知识发现系统能够发现什么知识?计算学习理论COLT(Computational Learning Theory)以FOL为基础的以发现关系为目的的归纳逻辑程序设计现行的知识发现系统只能发现特定模式的知识规则分类关联,2019年7月8日,34,算法的特征,构成数据挖掘算法的三要素模式记述语言:反映了算法可以发现什么样的知识模式评价:反映了什么样的模式可以称为知识模式探索:包括针对某一特定模式对参数空间的探索和对模式空间的探索,2019年7月8日,35,3、数据挖掘技术,技术分类预言(Predicatio

10、n):用历史预测未来描述(Description):了解数据中潜在的规律数据挖掘技术分类关联规则聚集时间序列,2019年7月8日,36,决策树算法,基本介绍 根据数据源,找到决定预测目标的因素的重要关系登记以及程度。 把已知条件自动分解为多个离散的类别 初始状态是一个大的空间,挖掘的过程是递归分 区不断分割。,2019年7月8日,37,案例,我们有大量的客户 年龄在20-60岁 月薪在08000元55%的被我们认可为好客户里边潜在的规律是什么?,2019年7月8日,38,谁是我们的有价值客户呢?,2019年7月8日,39,谁是我们的有价值客户呢?,2019年7月8日,40,谁是我们的有价值客户

11、呢?,2019年7月8日,41,决策树算法,典型应用 一个或多个变量预测目标,变量对目标的重要程序。 预测客户是否会购买某种产品,预测潜在客户。 评估客户风险 找到决策规则,2019年7月8日,42,关联规则算法,基本介绍 分析发现数据库中不同变量或个体间之间的关系程度,用这些规则找出顾客购买行为模式。 关联规则算法可以处理异常大的目录,经过了包含超过五千万种商品的目录的测试。,2019年7月8日,43,关联规则算法典型应用,购物篮物品关联度货品摆放捆绑销售网站内容关联个性化促销网上书店关联销售,2019年7月8日,44,聚类算法,基本介绍 将相似的事物归类 最大期望方法 K-Means,20

12、19年7月8日,45,聚类算法,典型应用分类和预测、客户价值度分析典型问题 寻找有价值客户群体 寻找欺诈群体,2019年7月8日,46,数据挖掘算法 分类,2019年7月8日,47,分类 VS 预测,分类:预测项目所属类根据已有训练数据集和所属类,构建模型来分类现有数据,并用来分类新数据预测:是构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值空间。建立连续函数值模型,比如预测空缺值,2019年7月8日,48,预测和分类的异同,相同点两者都需要构建模型都用模型来估计未知值预测当中主要的估计方法是回归分析线性回归和多元回归非线性回归不同点分类法主要是用来预测类标号(分类属性值)预测法主

13、要是用来估计连续值(量化属性值),2019年7月8日,49,第一步:建立模型,训练数据集,分类算法,IF rank = professorOR years 6THEN tenured = yes,分类规则,2019年7月8日,50,第二步:用模型进行分类,分类规则,测试集,未知数据,(Jeff, Professor, 4),Tenured?,注:测试集要独立于训练样本集,否则会出现“过分适应数据”的情况,2019年7月8日,51,分类前期工作:准备数据,通过对数据进行预处理,可以提高分类和预测过程的准确性、有效性和可伸缩性数据清理消除或减少噪声,处理空缺值。相关性分析数据中的有些属性可能与当前

14、任务不相关;也有些属性可能是冗余的;数据变换可以将数据概化到较高层概念,或将数据进行规范化,2019年7月8日,52,比较分类方法,使用下列标准比较分类和预测方法预测的准确率:模型正确预测新数据的类编号的能力速度:产生和使用模型的计算花销鲁棒性:给定噪声数据或有空缺值的数据,模型正确预测的能力可伸缩性:对大量数据,有效的构建模型的能力可解释性:学习模型提供的理解和洞察的层次,2019年7月8日,53,用判定树归纳分类,什么是判定树?类似于流程图的树结构每个内部节点表示在一个属性上的测试每个分枝代表一个测试输出每个树叶节点代表类或类分布判定树的生成由两个阶段组成判定树构建开始时,所有的训练样本都

15、在根节点递归的通过选定的属性,来划分样本 (必须是离散值)树剪枝许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检测和剪去这种分枝判定树的使用:对未知样本进行分类通过将样本的属性值与判定树相比较,2019年7月8日,54,判定归纳树算法,判定归纳树算法(一个贪心算法)自顶向下的分治方式构造判定树树以代表训练样本的单个根节点开始使用分类属性(如果是量化属性,则需先进行离散化)递归的通过选择相应的测试属性,来划分样本,一旦一个属性出现在一个节点上,就不在该节点的任何后代上出现测试属性是根据某种启发信息或者是统计信息来进行选择(如:信息增益)注:属性的选择递归划分步骤停止的条件给定节点的所有样本

16、属于同一类没有剩余属性可以用来进一步划分样本使用多数表决没有剩余的样本,2019年7月8日,55,贝叶斯分类,贝叶斯分类利用统计学中的贝叶斯定理,来预测类成员的概率,即给定一个样本,计算该样本属于一个特定的类的概率。朴素贝叶斯分类:假设每个属性之间都是相互独立的,并且每个属性对非类问题产生的影响都是一样的。,2019年7月8日,56,提高分类法的准确性,Bagging技术和boosting技术都通过将T个学习得到的分类法C1,C2CT组合起来,从而创造一个改进的分类法C*Bagging技术对训练集S进行T次迭代,每次通过放回取样选取样本集St,通过学习St得到分类法Ct对于未知样本X,每个分类

17、法返回其类预测,作为一票C*统计得票,并将得票最高的预测赋予XBoosting技术每个训练样本赋予一个权值Ct的权值取决于其错误率,2019年7月8日,57,数据挖掘算法 关联,2019年7月8日,58,什么是关联挖掘?,关联规则挖掘:在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。应用:购物篮分析、交叉销售、产品目录设计等。举例: 规则形式: “Body Head support, confidence”.buys(x, “diapers”) buys(x, “beers”) 0.5%, 60%,2019年7月8日,59,规则度量:

18、支持度与可信度,查找所有的规则 X & Y Z 具有最小支持度和可信度支持度, s, 一次交易中包含X 、 Y 、 Z的可能性可信度, c, 包含X 、 Y的交易中也包含Z的条件概率,注:可信度A C (50%, 66.6%)C A (50%, 100%),买尿布的客户,二者都买的客户,买啤酒的客户,2019年7月8日,60,关联规则挖掘:不同类型的关联,布尔 vs. 定量 关联 (基于 处理数据的类型)buys(x, “SQLServer”) buys(x, “DMBook”) buys(x, “DBMiner”) 0.2%, 60%age(x, “30.39”) income(x, “42

19、.48K”) buys(x, “PC”) 1%, 75%单维 vs. 多维 关联 (例子同上)单层 vs. 多层 分析那个品种牌子的啤酒与那个牌子的尿布有关系?各种扩展相关性、因果分析关联并不一定意味着相关或因果添加约束如, 哪些“小东西”的销售促发了“大家伙”的买卖?,2019年7月8日,61,关联规则挖掘一个例子,对于 A C:support = support(A 、C) = 50%confidence = support(A 、C)/support(A) = 66.6%,最小值尺度 50%最小可信度 50%,2019年7月8日,62,关键步骤:挖掘频繁集,Apriori的基本思想:频繁

20、项集的任何子集也一定是频繁的频繁集:是指满足最小支持度的项目集合频繁集的子集也一定是频繁的如, 如果AB 是频繁集,则 A B 也一定是频繁集从1到k(k-频繁集)递归查找频繁集用得到的频繁集生成关联规则,2019年7月8日,63,多层关联规则,项通常具有层次底层的项通常支持度也低某些特定层的规则可能更有意义交易数据库可以按照维或层编码可以进行共享的多维挖掘,2019年7月8日,64,挖掘多层关联规则,自上而下,深度优先的方法:先找高层的“强”规则:牛奶 面包 20%, 60%.再找他们底层的“弱”规则:酸奶 黄面包 6%, 50%.,2019年7月8日,65,多层关联规则,支持度不变: 在各

21、层之间使用统一的支持度+ 一个最小支持度阈值. 如果一个项集的父项集不具有最小支持度,那他本身也不可能满足最小支持度。 底层项不会成为频繁集,如果支持度太高 丢失底层关联规则太低 生成太多的高层关联规则支持度递减: 随着层次的降低支持度递减,2019年7月8日,66,支持度不变,支持度不变多层挖掘,牛奶support = 10%,酸奶 support = 6%,脱脂奶support = 4%,层 1min_sup = 5%,层 2min_sup = 5%,2019年7月8日,67,支持度递减,支持度递减多层挖掘,酸奶 support = 6%,脱脂奶 support = 4%,层 1min_s

22、up = 5%,层 2min_sup = 3%,牛奶support = 10%,2019年7月8日,68,多层关联:冗余过滤,由于“祖先”关系的原因,有些规则可能是多余的。例子牛奶 白面包 support = 8%, confidence = 70%酸奶 白面包 support = 2%, confidence = 72%我们称第一个规则是第二个规则的祖先参考规则的祖先,如果他的支持度与我们“预期”的支持度近似的话,我们就说这条规则是冗余的。,2019年7月8日,69,多层挖掘:深度优先,自顶向下,深度优先的方法:先挖掘高层频繁项: 牛奶 (15%), 面包 (10%)再挖掘他们底层的相对较弱

23、的频繁项: 酸奶 (5%), 白面包 (4%)跨层时对支持度的不同处理方法,对应了不同的算法:层之间支持度不变:如果t的祖先是非频繁的,则不用考虑t支持度随层递减:则只考虑那些其祖先是频繁的/不可忽略的项,2019年7月8日,70,多维关联规则:概念,单维规则:buys(X, “milk”) buys(X, “bread”)多维规则: 2个以上维/谓词维间关联规则 (维词不重复)age(X,”19-25”) occupation(X,“student”) buys(X,“coke”)混合维关联规则 (维词重复)age(X,”19-25”) buys(X, “popcorn”) buys(X,

24、“coke”)类别属性有限个值, 值之间无顺序关系数量属性数字的,值之间隐含了顺序关系,2019年7月8日,71,挖掘多维关联的技术,搜索频繁k-维词集合:如: age, occupation, buys 是一个3-维词集合。按照对 age 处理方式的不同,分为:1. 用静态方法把数值属性离散化数值属性可用预定义的概念层次加以离散化。2. 带数量的关联规则根据数据的分布动态的把数值属性离散化到不同的“箱”。3. 基于距离的关联规则用数据点之间的距离动态的离散化,2019年7月8日,72,大趋势 BIG DATA,2019年7月8日,73,2019年7月8日,74,美国的大数据战略,2012年3

25、月,美国奥巴马政府宣布投资2亿美元启动“大数据研发计划”,旨在提高和改进从海量和复杂数据中获取知识的能力,加速美国在科学和工程领域发明的步伐,增强国家安全。这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署,由美国国家科学基金会、能源部等6个联邦部门共同投资。,2019年7月8日,75,谷歌的盈利在于所有的软件应用都是在线的。用户在免费使用这些产品的同时,把个人的行为、喜好等信息也免费的送给了Google。因此Google的产品线越丰富,他对用户的理解就越深入,他的广告就越精准。广告的价值就越高。这是正向的循环,谷歌好用的、免费得软件产品,换取对用户的理解;通过精准的广告,

26、找到生财之道。颠覆了微软卖软件拷贝赚钱的模式。成为互联网的巨头。,互联网越来越智能,2019年7月8日,76,马云的判断来自于数据分析,“2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;而我们提前半年时间从询盘上推断出世界贸易发生变化了。”,马云对未来的预测,是建立在对用户行文分析的基础上。通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的

27、下降,自然导致买盘的下降。腾讯在天津投资建立亚洲最大的数据中心;百度也在投资建立大数据处理中心;,2019年7月8日,77,什么是大数据?,2019年7月8日,78,大数据就是云计算吗?,2019年7月8日,79,大数据的4V特性,体量Volume,多样性Variety,价值密度Value,速度Velocity,非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍,大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义,大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工

28、智能Vs传统商务智能(咨询、报告等),实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效,2019年7月8日,80,Variety 多样性,企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互信息,位置信息等是大数据的主要来源. 能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一.语义分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用.,2019年7月8日,81,Velocity 速度,1s 是临界点.对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的.实时处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一.重庆抢劫案:周克华,2019年7月8日,82,Volume 数据量,PB是大数据層次的临界点. KB-MB-GB-TB-PB-EB-ZB-YB-NB-DB,

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。