CS345DataMining.ppt

上传人:ga****84 文档编号:344958 上传时间:2018-09-24 格式:PPT 页数:74 大小:4.39MB
下载 相关 举报
CS345DataMining.ppt_第1页
第1页 / 共74页
CS345DataMining.ppt_第2页
第2页 / 共74页
CS345DataMining.ppt_第3页
第3页 / 共74页
CS345DataMining.ppt_第4页
第4页 / 共74页
CS345DataMining.ppt_第5页
第5页 / 共74页
点击查看更多>>
资源描述

1、1,数据挖掘与商务智能Data Mining & Business Intelligence,西安电子科技大学软件学院主讲人:黄健斌,第一课 数据挖掘概论,2,内容提纲,.数据挖掘由来.数据挖掘的过程模型.数据挖掘的主要研究内容.数据挖掘系统.商务智能.国际会议和期刊.主要参考资料,3,.数据挖掘的由来,背景信息网络时代的技术热点数据爆炸但知识贫乏从商业数据到商业智能KDD的出现,4,背景,人类已进入一个崭新的信息时代 数据库中存储的数据量急剧膨胀 需要从海量数据库和大量繁杂信息中提取有价值的知识,进一步提高信息的利用率产生了一个新的研究方向:基于数据库的知识发现(Knowledge Disc

2、overy in Database),以及相应的数据挖掘(Data Mining)理论和技术的研究,5,背景,随着大数据库的建立和海量数据的不断涌现,必然提出对强有力的数据分析工具的迫切需求。但现实情况往往是“数据十分丰富,而信息相当贫乏。”快速增长的海量数据收集、存放在大型数据库中,没有强有力的工具,理解它们已经远远超出人的能力。因此,有人称之为:“数据坟墓”。由于专家系统工具过分依赖用户或专家人工地将知识输入知识库中,而且分析结果往往带有偏差和错误,再加上耗时、费用高,故不可行。,数据矿山,信息金块,数据挖掘工具,6,信息网络时代的技术热点,海量信息在给人们带来方便的同时也带来了一大堆问题

3、:信息过量,难以消化信息真假难以辨识信息安全难以保证信息形式不一致,难以统一处理,7,数据爆炸但知识贫乏,随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。,8,从商业数据到商业智能的进化,9,KDD的出现,基于数据库的知识发现(KDD)一词首次出现在1989年举行的国际人工智能联合大会IJCAI-89 Workshop。1995年在加拿大蒙特利尔召开了第一届KDD国

4、际学术会议(KDD95)。由Kluwers Publishers出版,1997年创刊的Knowledge Discovery and Data Mining是该领域中的第一本学术刊物。,10,KDD的发展,11,数据挖掘,数据库技术,统计学,高性能计算,人工智能,机器学习,可视化,数据挖掘是多学科交叉的产物,12,KDD已经成为人工智能研究热点,目前,关于KDD的研究工作已经被众多领域所关注,如过程控制、信息管理、商业、医疗、金融等领域。作为大规模数据库中先进的数据分析工具,KDD的研究已经成为数据库及人工智能领域研究的一个热点。,13,.数据挖掘的过程模型,数据挖掘的定义数据挖掘的数据来源数

5、据挖掘的过程数据挖掘的功能,14,数据挖掘的定义,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 商业角度的定义 数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。,15,数据挖掘的定义,与数据挖掘类似但稍有不同含义的术语有:从数据库中发现知识(Knowledge Discovery from/in Database, KDD)知识提取(Knowledge extract)数据 /模式分析(Data / Model

6、 analysis )数据考古数据捕捞,16,数据挖掘的数据来源,关系数据库数据仓库事务数据库空间、时间数据库文本和多媒体数据异构数据源WWW各种结构化、半结构化的数据源,17,数据挖掘过程,数据挖掘是一个反复迭代的人机交互处理过程。该过程需要经历多个步骤,并且很多决策需要由用户提供。 从宏观上看,数据挖掘过程主要由三个部分组成,即数据整理、数据挖掘和结果的解释评估。,18,数据挖掘过程,19,数据挖掘功能,数据挖掘任务有两类: (1)描述性挖掘任务:刻划数据库中数据的一般特性; (2)预测性挖掘任务:在当前数据上进行推断,以进行预测。,20,.数据挖掘的主要研究内容,关联规则挖掘分类聚类序列

7、模式挖掘图模式挖掘回归离群点和异常检测,21,.数据挖掘系统,数据挖掘工具数据挖掘系统结构数据挖掘系统进展,22,数据挖掘工具,目前,世界上比较有影响的典型数据挖掘系统有:SPSS公司的Clementine、IBM公司的Intelligent Miner其他的有SAS公司的Enterprise Miner、SGI公司的SetMiner、Sybase公司的Warehouse Studio、RuleQuest Research公司的See5等,23,SPSS Clementine,SPSS Clementine是ISL(Integral Solutions Limited)公司开发的数据挖掘工具平

8、台。1999年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点。2009年7月28日,IBM公司宣布将用12亿美元现金收购统计分析软件提供商SPSS公司,因此IBM公司就有两个影响力较大的数据挖掘系统Clementine、Intelligent MinerSPSS自SPSS16.0起推出Linux版本。SPSS最新版本为SPSS 21.0,已支持Windows 7、Mac OS X、Linux及UNIX/2012年,提供Mac、Windows、Linux及UNIX四种平台产品版本下载。,24,SPSS Cleme

9、ntine中的应用模板,Clementine中的应用模板包括: CRM CAT-针对客户的获取和增长,提高反馈率并减少客户流失; Web CAT-点击顺序分析和访问行为分析; Telco CAT-客户保持和增加交叉销售; Crime CAT-犯罪分析及其特征描述,确定事故高发区,联合研究相关犯罪行为; Fraud CAT-发现金融交易和索赔中的欺诈和异常行为; Microarray CAT-研究和疾病相关的基因序列并找到治愈手段。,25,SPSS Clementine,以PMML的格式提供与预测模型系统的接口,26,SPSS Clementine,27,SPSS Clementine的统计结果

10、部分示例,28,数据挖掘系统结构,数据仓库,数据清洗和集成,过滤,数据库,数据库或数据仓库服务器,数据挖掘引擎,模式评价,图形用户接口,知识库,29,数据挖掘系统进展,什么是商务智能?,1. 什么是商务智能? 2. 为什么需要商务智能? 3. 商务智能能够为我们做什么?,.商务智能,.商务智能,何谓智能?从感觉到记忆到思维这一过程,称为“智慧”,智慧的结果就产生了行为和语言,将行为和语言的表达过程称为“能力”,两者合称“智能”。企业有智能吗? 实时业务数据历史数据挖掘知识 数据挖掘的结果(规则或知识) 企业行动(管理或决策),商务智能的概念,商务智能指收集、转换、分析和发布数据的过程,目的是为

11、了更好的决策。 商务智能是指将数据转化为知识的过程。它包括捕获和分析信息,交流信息,以及利用这些信息开发市场。商务智能是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升商务绩效,增强综合竞争力的智慧和能力。Business Intelligence is a process of turning data into knowledge and knowledge into action for business gain Data Warehouse Institute,商务智能的概念,

12、商务智能指收集、转换、分析和发布数据的过程,目的是为了更好的决策。 商务智能是指将数据转化为知识的过程。它包括捕获和分析信息,交流信息,以及利用这些信息开发市场。商务智能是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升商务绩效,增强综合竞争力的智慧和能力。Business Intelligence is a process of turning data into knowledge and knowledge into action for business gain Data Wa

13、rehouse Institute,商务智能的概念,商务智能指收集、转换、分析和发布数据的过程,目的是为了更好的决策。 商务智能是指将数据转化为知识的过程。它包括捕获和分析信息,交流信息,以及利用这些信息开发市场。商务智能是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升商务绩效,增强综合竞争力的智慧和能力。Business Intelligence is a process of turning data into knowledge and knowledge into action

14、 for business gain Data Warehouse Institute,商务智能是融合了先进信息技术与创新管理理念的结合体,集成企业内外数据,进行加工并从中提取能够创造商业价值的知识,面向企业战略并服务于管理层、业务层,指导企业经营决策,提升企业竞争力。,商务智能的概念,商务智能的概念,数据ETL,数据仓库,数据挖掘,可视化,OLAP,数据,知识,决策,商务智能方案,AdministrationData Warehouse Center,Transformation ToolsWarehouse ManagerReplication FamilyETIVality,Wareho

15、use/MartDB2 FamilyDB2 Olap Server,AnalysisIntelligent MinerIntelligent Decision ServerDB2 OLAP Server,Metadata,Templates,Access ToolsData Warehouse CenterData JoinerETI,ClientsBrowsersNotesApproachPartners,MetadataInformation Catalog,E-Business and Business Intelligence,商务智能,战略层,管理层,业务层,数据挖掘,在线分析处理,

16、数据仓库,知识,信息,数据,业务层决策,中层决策,战略决策,什么是商务智能?,1. 什么是商务智能? 2. 为什么需要商务智能? 3. 商务智能能够为我们做什么?,.商务智能, SAP 2008,管理与决策需要商务智能,决策需要信息,更离不开知识。知识更多地表现为经验学习的结晶。学习的过程是不断地对信息加工处理。信息的收集、加工、传输与利用贯穿着决策各阶段的工作过程。信息已成为企业经营中重要性仅次于人才的第二大要素。决策=知识+经验+冒险商务智能是对企业信息的科学管理。“In God we trust: all others must bring data” W. Edwards Deming

17、,管理就是决策,知识支撑管理,商务智能要求有一个坚固、可靠的大型数据库作后盾,建立这样一个数据库的任务是极其艰巨的。数据的质量问题也是令人头疼而又不可以掉以轻心的。虽然数据是宝贵的财富,然而许多公司并不能充分利用这种财富,因为信息隐藏在数据中,并不易识别。为了在竞争中占得优势地位,必须识别和应用隐藏在数据中的知识。,知识蕴含于数据之中,各自为政,互相独立,财务分析,运营分析,客户分析,信息孤岛和信息烟囱,数据充足了、信息畅通了,还需要?,数据、信息和知识,数据 数据是未经加工和修饰的原料。 数据是可以记录、通信和能识别的符号,它通过有意义的组合来表达现实世界中的某种实体(具体对象、事件、状态或

18、活动)的特征。 商务智能技术可以分析结构化数据、半结构化数据以及非结构化数据、静态的历史数据和动态数据流等各种类型的数据。,数据:符号、事实和数字,Happy New Year!,How are You?,Discrete, objective facts about the worldEasily structured and capturedEasily transferred,数据、信息和知识,信息信息是含有一定意义的数据。它是经过提炼、加工和集成的数据,是反映客观事物规律的一些数据。一个人的垃圾(数据)是另一个人的财富(信息),数据、信息和知识,信息越来越多的人从事与信息有关的工作,信

19、息产业将成为全球最大产业。首席信息官CIO (Chief Information Officer) 成为企业继CEO、CFO之后又一重要职位。 70% of employee time spent searching for relevant information 43% of users say theyre not sure if internal information is accurate 77% said bad decisions had been made because of lack of information,数据、信息和知识,知识 Information from

20、the human mind (includes reflection, synthesis),知识是对信息内容进行提炼、比较、挖掘、分析、概括、判断和推论。事实性知识和经验知识(显性和隐性)。洞察力(insight) Requires reflection and synthesis Difficult to structure, capture Often tacit,数据、信息和知识,2510,工作时间2年的消费者是优质顾客,什么是商务智能?,1. 什么是商务智能? 2. 为什么需要商务智能? 3. 商务智能能够为我们做什么?,.商务智能,53,商务智能的应用案例,商务智能能够为我们做什

21、么?To support decision making at all levels of business management based on the facts and (scientific) predictions of current and future business situations that are obtained from intelligent analysis of historical business data.Business decisions made with BI support are more Correct Accurate Object

22、ive Timely,不同层次的商务智能应用,以前发生了什么,为什么发生了,现在发生着什么,将来会发生什么,业务活动管理,不同层次的商务智能应用,55,商务智能在行业的应用,56,银行客户利润分析分支行利润分析交叉销售信用风险管理新产品推销收费策略,零售地区/商店各种货物(品牌,分类等)销售业绩定价和减价市场篮子关系市场需求预测仓储规划,保险欺诈管理收费策略目标市场活动客户挽留客户利润分析,通讯客户忠实客户流失模式客户利润分析竞争分析欺诈管理,商务智能对企业的作用和价值,麦包包:数据预测需求,创立于2007年 9月,是淘宝第一箱包品牌 成功秘笈:强大的数据分析来锁定消费者需求利用IT技术,麦包

23、包实现了对淘宝、拍拍和有啊三大C2C平台数百家箱包店铺以及数十家B2C箱包网站的信息和数据抓取,从而判断市场前景。麦包包的数据抓取范围已经走出中国,开始监控亚马逊、eBay和欧洲的一些电子商务平台。支撑这一系统的,是50多台服务器以及10个专职的数据分析师,天天对抓回来的数据进行分析,试图精确捕捉消费者需求。,58,麦包包:成功模式,提前两个月,麦包包就在做市场分析计算出各种款式的受欢迎度预测在淘宝以及它所有在线零售市场可能的销售数额倒推回去做产品设计、包装及宣传推广,59,案例二:电子商务行业的应用,60,在电子商务行业的应用,Web挖掘就是利用数据挖掘技术,从Web文档以及服务中发现信息、

24、知识的过程数据来源于Web文档、 Web服务器日志、用户Cookies主要处理文本、图形、图像等半结构化数据主要应用网站结构优化智能搜索引擎个性化推荐顾客分类,交叉销售垃圾邮件过滤,在电子商务行业的应用,Web挖掘分类,在电子商务行业的应用,Web结构挖掘通过分析页面链接的数量和对象,从而建立Web的链接结构模式 相关算法PageRank算法:网页的质量和重要性可以通过其他网页对其链接的数量进行衡量 HITS算法:权威页面:表达某一主题的页面Hub页面:把权威页面链接到一起的页面应用信息检索:根据Web重要性进行排名社区识别:识别基于某个特定主题的相关Web页面网站优化:重新定位网页链接,BI

25、在电子商务行业的应用-5,Web日志挖掘指从用户访问日志中获取有价值的信息 ,包括访问者的兴趣爱好、访问模式、满意度 应用顾客分类:开展有针对性的营销活动交叉销售:识别商品间的关联程度个性化推荐:在适合的时间,以适合的方式,将适合的产品,推荐到适合的人手中。,在电子商务行业的应用,服装款式个性化推荐技术用户聚类Web数据挖掘协同过滤推荐不确定性服装搭配预测模型研究 虚拟试衣三维人体建模技术三维人体模型与三维服装CAD结合虚拟试衣技术,66,英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。,使直邮的回应率提高了100,在电子商务行业的应用-电信,67,GUS日用品零售商店需要

26、准确的预测未来的商品销售量,降低库存成本。,通过数据挖掘的方法使库存成本比原来减少了3.8%,在电子商务行业的应用-零售商店,68,美国国内税务局需要提高对纳税人的服务水平。,合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务,在电子商务行业的应用-税务局,69,在电子商务行业的应用-银行,金融事务需要搜集和处理大量的数据,由于银行在金融领域的地位、工作性质、业务特点以及激烈的市场竞争决定了它对信息化、电子化比其它领域有更迫切的要求。利用数据挖掘技术可以帮助银行产品开发部门描述客户以往的需求趋势,并预测未来。美国商业银行是发达国家商业银行的典范,许多地方值得我国学习和借鉴。,70,美国银行

27、家协会(ABA)预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9分析客户使用分销渠道的情况和分销渠道的容量 ;建立利润评测模型;客户关系优化;风险控制等Mellon银行使用数据挖掘软件提高销售和定价金融产品的精确度,如家庭普通贷款美国Firstar银行使用数据挖掘工具,根据客户的消费模式预测何时为客户提供何种产品,在电子商务行业的应用-银行,71,汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。,营销费用减少了30,在电子商务行业的应用- 银行,72,顶级:ACM SIGKDD: Intl. Conf. on Knowledge Discovery and

28、Data MiningACM SIGMOD: Intl. Conf. on Management of DataVLDB: Intl. Conf. on Very Large Data BasesICDE: Intl. Conf. on Data Engineering数据挖掘五大国际会议:SIGKDD, ICDM, SDM, PKDD, PAKDD,.相关国际会议和期刊,73,DMKD: Data Mining and Knowledge Discovery,SpringerTKDE: IEEE Transaction on Knowledge and Data EngineeringTKD

29、D: ACM Transaction on KDDSIGKDD Explorations,与数据挖掘相关的主要国际期刊,74,.主要参考资料,1 Jiawei Han, Micheline Kamber著. 范明, 孟小峰 等译. 数据挖掘: 概念与技术 (第二版). 机械工业出版社, 2001.(Data Mining: Concepts and Techniques (Second Edition)于2005年11月正式出版)2Pangning Tan, Michael Steinbach. 数据挖掘导论. 人民邮电出版社. 2006 3 K. P. Soman, Shyam Divakar, V. Ajay. 数据挖掘基础教程. 机械工业出版社,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 重点行业资料库 > 1

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。