ImageVerifierCode 换一换
格式:PPT , 页数:31 ,大小:121.50KB ,
资源ID:1441196      下载积分:12 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-1441196.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(第9章 电子政务中的数据挖掘技术.ppt)为本站会员(99****p)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

第9章 电子政务中的数据挖掘技术.ppt

1、第九章 电子政务中的数据挖掘技术一、 数据仓库二、 数据挖掘技术三、 电子政务中的数据挖掘本章问题一、数据仓库的概念和特点 数据仓库概念始于本世纪 80年代中期,首次出现是在号称 “数据仓库之父 ”William H.Inmon的 建立数据仓库 一书中。(一)数据仓库与传统数据库的区别1、数据仓库的关键技术数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的 “ 大型数据库 ” 。数据仓库并没有严格的数学理论基础,也没有成熟的基本模式,且更偏向于工程,具有强烈的工程性。因此,在技术上人们习惯于从工作过程等方面来分析,其关键技术表现等三个基本方面

2、。( 1)数据的抽取数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等方面。数据仓库中的数据并不要求与联机事务处理系统保持实时同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。返返 回回 下一页下一页( 2)存储和管理储)存储和管理储数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有 别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么

3、产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。( 3)数据的表现数据表现实际上相当于数据仓库的门面,其性能主要集中在多维分析、数理统计和数据挖掘方面。而多维分析又是数据仓库的重要表现形式,近几年来由于互联网的发展,使得多维分析领域的工具和产品更加注重提供基于 Web前端联机分析界面,而不仅仅是在网上发布数据。2、传统数据库和数据仓库的区别主要表现为( 1)面向主题传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。这一点,类似于传统农贸市场与超市的区别 市场里面,白菜、萝卜、香菜会在一个摊位上,如果它们是一个小贩

4、卖的;而超市里,白菜、萝卜、香菜则各自一块。也就是说,市场里的菜(数据)是按照小贩(应用程序)归堆(存储)的,超市里面则是按照菜的类型(同主题)归堆的。 上一页上一页 下一页下一页 ( 2)与时间相关)与时间相关数据库保存信息的时候,并不强调一定有时间信息。数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。决策中,时间属性很重要。同样都是累计购买过九车产品的顾客,一位是最近三个月购买九车,一位是最近一年从未买过,这对于决策者意义是不同的。( 3)不可修改数据仓库中的数据并不是最新的,而是来源于其它数据源。数据仓库反映的是历史信息,并不是很多数据库处理的那种日常事务数据(有的数据

5、库例如电信计费数据库甚至处理实时信息)。因此,数据仓库中的数据是极少或根本不修改的;当然,向数据仓库添加数据是允许的。数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。(二)数据仓库的定义和特点1、定义数据仓库( Data Warehouse)是一个面向主题的( Subject Oriented)、集成的( Integrate)、相对稳定的( Non-Volatile)、反映历史变化( Time Variant)的数据集合,用于支持管理决策。上一页上一页 下一页下一页2、特点、特点 根据数据仓库概念的含义,数据

6、仓库拥有以下四个特点:( 1)面向主题。操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。( 2)集成的。面向事务处理的操作型数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。( 3)相对稳定的。操作型数据库中的数据通常实时更新。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数

7、据进入数据仓库以后,一般情况下将被长期保留,一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。( 4)反映历史变化。操作型数据库主要关心当前某一个时间段内的数据。而数据仓库中的数据通常包含历史信息,系统记录了从过去某一时点 (如开始应用数据仓库的时点 )到目前的各个阶段的信息,通过这些信息,可以对发展历程和未来趋势做出定量分析和预测。 上一页上一页 下一页下一页(三)数据仓库的结构(三)数据仓库的结构 1、数据仓库的基本体系结构数据仓库的体系结构分为数据获取层、数据存储层、数据挖掘层等多个部分。( 1)数据获取层数据获取层把决策主题所需要的数据 (当前的、历史的 ),从各

8、种相关的业务数据库或数据文件等外部数据源中抽取出来,进行各种必要的清洗、整合和转换处理,再将这些数据集成存储到仓库中。数据获取层在数据仓库的整体系统应用中占有非常重要的地位。( 2)数据存储层 数据存储层以一定的组织结构存储各种主题数据。数据仓库包括多个主题,一个主题的数据通常存储在一个数据库中,包括该主题的一些综合性表,如主题中选择的事实表、维表,还有为数据挖掘生成的中间表等。( 3)数据挖掘层数据挖掘层集成各种数据挖掘的算法,包含具有很强功能的数据挖掘工具,可以提供灵活有效的任务模型、组织形式,以支持各项决策的数据挖掘任务。数据挖掘是数据仓库应用的关键。上一页上一页 下一页下一页2、数据仓

9、库的基本体系结构中的几个基本组成部分、数据仓库的基本体系结构中的几个基本组成部分 ( 1)数据源:指为数据仓库提供最底层数据的运作数据库系统及外部数据。( 2)监视器:负责感知数据源发生的变化,并按数据仓库的需求提取数据。 ( 3)集成器:将从运作数据库中提取的数据经过转换、计算、综合等操作,集成到数据仓库中。 ( 4)数据仓库:存贮已经按企业级视图转换的数据,供分析处理用。 根据不同的分析要求,数据按不同的综合程度存储。数据仓库中还应存储元数据,其中记录了数据的结构和数据仓库的任何变化,以支持数据仓库的开发和使用。( 5)客户应用:供用户对数据仓库中的数据进行访问查询,并以直观的方表示分析结

10、果的工具。在实施智能化决策时,一般分两个步骤:第一步实现数据仓库和多维分析,构造智能决策的基础,实现分析应用;第二步实现数据挖掘,再发挥智能化决策的特色。数据挖掘是数据利用价值的再发现,它突破了传统意义上的数据查询,是在更大的尺度上、更深的层次中对数据提高利用的价值,是数据仓库应用的关键。上一页上一页 下一页下一页数据仓库的基本体系结构客户端应用数据源 数据源 数据源包装器 /监视器 包装器 /监视器 包装器 /监视器整合器数据仓库上一页上一页 下一页下一页(四)数据仓库的功能(四)数据仓库的功能 1、数据获取2、数据储存和管理3、信息访问 (五)数据仓库建设的重点 数据仓库性能指标评估包括以

11、下几个方面:( 1)管理大数据量数据的能力;( 2)进行灵活数据存取的能力;( 3)根据数据模型重组数据的能力;( 4)数据发送和接收能力;( 5)周期性成批装载数据的能力;( 6)可设定完成时间的作业管理能力。等等。这些内容,很多都与数据清理、预加工等处理流程有密切关系,因为这些流程是数据仓库 “ 原料 ” 问题的保障。只有进入仓库的原料质量有所保障,仓库才能更好地发挥作用。因此,成功建设数据仓库,一定要特别重视数据抽取、数据冲突以及数据集成等方面的工作。上一页上一页 下一页下一页1、重视集成、转换程序开发、重视集成、转换程序开发 数据仓库是一个独立的数据环境,它需要通过抽取过程将数据导入。

12、的过程,包括:数据清理、预加工工作,包括删除对决策应用没有意义的数据段、转换到统一的数据名称、计算统计和衍生数据、给缺值数据赋缺省值以及把不同的数据定义方式统一等内容。数据清理、预加工所需的集成、转换程序用于从操作性信息系统、数据库中移植数据给数据仓库,还包括数据仓库运行起来之后的定时数据补充。2、解决数据冲突 要确定可能存在的各种语法和语义上的冲突,在导入数据的时候,要对突数据进行转换。这些冲突可能包括:格式冲突:同一种数据类型可能有不同的表示方法和语义差异,这时需要定义两种模型之间的变换函数。 命名冲突:即数据源中数据的某些标识符可能是目的模型中的保留字,这时就需要重新命名。 结构冲突:如果两种数据库系统之间的数据定义模型不同,那么需要重新定义实体属性和联系,以防止属性或联系信息的丢失。上一页上一页 下一页下一页

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。