第9章 电子政务中的数据挖掘技术.ppt

上传人:99****p 文档编号:1441196 上传时间:2019-02-27 格式:PPT 页数:31 大小:121.50KB
下载 相关 举报
第9章 电子政务中的数据挖掘技术.ppt_第1页
第1页 / 共31页
第9章 电子政务中的数据挖掘技术.ppt_第2页
第2页 / 共31页
第9章 电子政务中的数据挖掘技术.ppt_第3页
第3页 / 共31页
第9章 电子政务中的数据挖掘技术.ppt_第4页
第4页 / 共31页
第9章 电子政务中的数据挖掘技术.ppt_第5页
第5页 / 共31页
点击查看更多>>
资源描述

1、第九章 电子政务中的数据挖掘技术一、 数据仓库二、 数据挖掘技术三、 电子政务中的数据挖掘本章问题一、数据仓库的概念和特点 数据仓库概念始于本世纪 80年代中期,首次出现是在号称 “数据仓库之父 ”William H.Inmon的 建立数据仓库 一书中。(一)数据仓库与传统数据库的区别1、数据仓库的关键技术数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的 “ 大型数据库 ” 。数据仓库并没有严格的数学理论基础,也没有成熟的基本模式,且更偏向于工程,具有强烈的工程性。因此,在技术上人们习惯于从工作过程等方面来分析,其关键技术表现等三个基本方面

2、。( 1)数据的抽取数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等方面。数据仓库中的数据并不要求与联机事务处理系统保持实时同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。返返 回回 下一页下一页( 2)存储和管理储)存储和管理储数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有 别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么

3、产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。( 3)数据的表现数据表现实际上相当于数据仓库的门面,其性能主要集中在多维分析、数理统计和数据挖掘方面。而多维分析又是数据仓库的重要表现形式,近几年来由于互联网的发展,使得多维分析领域的工具和产品更加注重提供基于 Web前端联机分析界面,而不仅仅是在网上发布数据。2、传统数据库和数据仓库的区别主要表现为( 1)面向主题传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。这一点,类似于传统农贸市场与超市的区别 市场里面,白菜、萝卜、香菜会在一个摊位上,如果它们是一个小贩

4、卖的;而超市里,白菜、萝卜、香菜则各自一块。也就是说,市场里的菜(数据)是按照小贩(应用程序)归堆(存储)的,超市里面则是按照菜的类型(同主题)归堆的。 上一页上一页 下一页下一页 ( 2)与时间相关)与时间相关数据库保存信息的时候,并不强调一定有时间信息。数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。决策中,时间属性很重要。同样都是累计购买过九车产品的顾客,一位是最近三个月购买九车,一位是最近一年从未买过,这对于决策者意义是不同的。( 3)不可修改数据仓库中的数据并不是最新的,而是来源于其它数据源。数据仓库反映的是历史信息,并不是很多数据库处理的那种日常事务数据(有的数据

5、库例如电信计费数据库甚至处理实时信息)。因此,数据仓库中的数据是极少或根本不修改的;当然,向数据仓库添加数据是允许的。数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。(二)数据仓库的定义和特点1、定义数据仓库( Data Warehouse)是一个面向主题的( Subject Oriented)、集成的( Integrate)、相对稳定的( Non-Volatile)、反映历史变化( Time Variant)的数据集合,用于支持管理决策。上一页上一页 下一页下一页2、特点、特点 根据数据仓库概念的含义,数据

6、仓库拥有以下四个特点:( 1)面向主题。操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。( 2)集成的。面向事务处理的操作型数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。( 3)相对稳定的。操作型数据库中的数据通常实时更新。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数

7、据进入数据仓库以后,一般情况下将被长期保留,一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。( 4)反映历史变化。操作型数据库主要关心当前某一个时间段内的数据。而数据仓库中的数据通常包含历史信息,系统记录了从过去某一时点 (如开始应用数据仓库的时点 )到目前的各个阶段的信息,通过这些信息,可以对发展历程和未来趋势做出定量分析和预测。 上一页上一页 下一页下一页(三)数据仓库的结构(三)数据仓库的结构 1、数据仓库的基本体系结构数据仓库的体系结构分为数据获取层、数据存储层、数据挖掘层等多个部分。( 1)数据获取层数据获取层把决策主题所需要的数据 (当前的、历史的 ),从各

8、种相关的业务数据库或数据文件等外部数据源中抽取出来,进行各种必要的清洗、整合和转换处理,再将这些数据集成存储到仓库中。数据获取层在数据仓库的整体系统应用中占有非常重要的地位。( 2)数据存储层 数据存储层以一定的组织结构存储各种主题数据。数据仓库包括多个主题,一个主题的数据通常存储在一个数据库中,包括该主题的一些综合性表,如主题中选择的事实表、维表,还有为数据挖掘生成的中间表等。( 3)数据挖掘层数据挖掘层集成各种数据挖掘的算法,包含具有很强功能的数据挖掘工具,可以提供灵活有效的任务模型、组织形式,以支持各项决策的数据挖掘任务。数据挖掘是数据仓库应用的关键。上一页上一页 下一页下一页2、数据仓

9、库的基本体系结构中的几个基本组成部分、数据仓库的基本体系结构中的几个基本组成部分 ( 1)数据源:指为数据仓库提供最底层数据的运作数据库系统及外部数据。( 2)监视器:负责感知数据源发生的变化,并按数据仓库的需求提取数据。 ( 3)集成器:将从运作数据库中提取的数据经过转换、计算、综合等操作,集成到数据仓库中。 ( 4)数据仓库:存贮已经按企业级视图转换的数据,供分析处理用。 根据不同的分析要求,数据按不同的综合程度存储。数据仓库中还应存储元数据,其中记录了数据的结构和数据仓库的任何变化,以支持数据仓库的开发和使用。( 5)客户应用:供用户对数据仓库中的数据进行访问查询,并以直观的方表示分析结

10、果的工具。在实施智能化决策时,一般分两个步骤:第一步实现数据仓库和多维分析,构造智能决策的基础,实现分析应用;第二步实现数据挖掘,再发挥智能化决策的特色。数据挖掘是数据利用价值的再发现,它突破了传统意义上的数据查询,是在更大的尺度上、更深的层次中对数据提高利用的价值,是数据仓库应用的关键。上一页上一页 下一页下一页数据仓库的基本体系结构客户端应用数据源 数据源 数据源包装器 /监视器 包装器 /监视器 包装器 /监视器整合器数据仓库上一页上一页 下一页下一页(四)数据仓库的功能(四)数据仓库的功能 1、数据获取2、数据储存和管理3、信息访问 (五)数据仓库建设的重点 数据仓库性能指标评估包括以

11、下几个方面:( 1)管理大数据量数据的能力;( 2)进行灵活数据存取的能力;( 3)根据数据模型重组数据的能力;( 4)数据发送和接收能力;( 5)周期性成批装载数据的能力;( 6)可设定完成时间的作业管理能力。等等。这些内容,很多都与数据清理、预加工等处理流程有密切关系,因为这些流程是数据仓库 “ 原料 ” 问题的保障。只有进入仓库的原料质量有所保障,仓库才能更好地发挥作用。因此,成功建设数据仓库,一定要特别重视数据抽取、数据冲突以及数据集成等方面的工作。上一页上一页 下一页下一页1、重视集成、转换程序开发、重视集成、转换程序开发 数据仓库是一个独立的数据环境,它需要通过抽取过程将数据导入。

12、的过程,包括:数据清理、预加工工作,包括删除对决策应用没有意义的数据段、转换到统一的数据名称、计算统计和衍生数据、给缺值数据赋缺省值以及把不同的数据定义方式统一等内容。数据清理、预加工所需的集成、转换程序用于从操作性信息系统、数据库中移植数据给数据仓库,还包括数据仓库运行起来之后的定时数据补充。2、解决数据冲突 要确定可能存在的各种语法和语义上的冲突,在导入数据的时候,要对突数据进行转换。这些冲突可能包括:格式冲突:同一种数据类型可能有不同的表示方法和语义差异,这时需要定义两种模型之间的变换函数。 命名冲突:即数据源中数据的某些标识符可能是目的模型中的保留字,这时就需要重新命名。 结构冲突:如果两种数据库系统之间的数据定义模型不同,那么需要重新定义实体属性和联系,以防止属性或联系信息的丢失。上一页上一页 下一页下一页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。