数据分析与挖掘习题.doc

上传人:h**** 文档编号:893997 上传时间:2018-11-05 格式:DOC 页数:41 大小:30.41MB
下载 相关 举报
数据分析与挖掘习题.doc_第1页
第1页 / 共41页
数据分析与挖掘习题.doc_第2页
第2页 / 共41页
数据分析与挖掘习题.doc_第3页
第3页 / 共41页
数据分析与挖掘习题.doc_第4页
第4页 / 共41页
数据分析与挖掘习题.doc_第5页
第5页 / 共41页
点击查看更多>>
资源描述

1、数据分析与挖掘习题第一章 作业1.1 什么是数据挖掘?在你的回答中,强调以下问题:(a) 它是又一个骗局吗?数据挖掘,在人工智能领域,习惯上又称为数据库中知识发现(Knowledge Discovery in Database, KDD), 也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。数据挖掘可以与用户或知识库交互。 并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的 Web 页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依

2、赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。(b) 它是一种从数据库,统计学和机器学习发展的技术的简单转换吗?硬要去区分 Data Mining 和 Statistics 的差异其实是没有太大意义的。一般将之定义为Data Mining 技术的 CART、CHAID 或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,换另一个角度看,Data Mining 有相当大的比重是由高等统计学中的多变量分析所支撑。但是为什么 Data Mining 的出现会引发各领域的广泛注意呢?主要原因在相较于传统

3、统计分析而言,Data Mining 有下列几项特性: 1.处理大量实际数据更强势,且无须太专业的统计背景去使用 Data Mining 的工具 2.数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件,Data Mining 的工具更符合企业需求; 3. 纯就理论的基础点来看,Data Mining 和统计分析有应用上的差别,毕竟 Data Mining 目的是方便企业终端用户使用而非给统计学家检测用的。(c) 解释数据库技术发展如何导致数据挖掘近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信

4、息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。 数据挖掘利用了来自如下一些领域的思想:(1) 来自统计学的抽样、估计和假设检验,(2) 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。(d) 当把数据挖掘看作知

5、识发现过程时,描述数据挖掘所涉及的步骤。知识发现过程以下三个阶段组成:(1)数据准备, (2)数据挖掘, (3)结果表达和解释。1.2 给出一个例子,其中数据挖掘对于一种商务的成功至关重要的。这种商务需要什么数据挖掘功能?他们能够由数据查询处理或简单的统计分析来实现吗?由于统计学基础的建立在计算机的发明和发展之前,所以常用的统计学工具包含很多可以手工实现的方法。因此,对于很多统计学家来说,1000 个数据就已经是很大的了。但这个“大”对于英国大的信用卡公司每年 350,000,000 笔业务或 AT数据仓库侧重于数据分析工作,是按照主题存储的“与时间相关”:数据库保存信息的时候,并不强调一定有

6、时间信息。数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。决策中,时间属性很重要。同样都是累计购买过九车产品的顾客,一位是最近三个月购买九车,一位是最近一年从未买过,这对于决策者意义是不同的。 “不可修改”:数据仓库中的数据并不是最新的,而是来源于其它数据源。数据仓库反映的是历史信息,并不是很多数据库处理的那种日常事务数据(有的数据库例如电信计费数据库甚至处理实时信息)。因此,数据仓库中的数据是极少或根本不修改的;当然,向数据仓库添加数据是允许的。数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千

7、秋。 为了更好地为前端应用服务,数据仓库必须有如下几点优点,否则是失败的数据仓库方案。 1.效率足够高。客户要求的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,要求 24 小时甚至 12 小时内,客户能看到昨天的数据分析。由于有的企业每日的数据量很大,设计不好的数据仓库经常会出问题,延迟 1-3 日才能给出数据,显然不行的。 2.数据质量。客户要看各种信息,肯定要准确的数据,但由于数据仓库流程至少分为3 步,2 次 ETL,复杂的架构会更多层次,那么由于数据源有脏数据或者代码不严谨,都可以导致数据失真,客户看到错误的信息就可能导致分析出错误的决策,造成损失,而不

8、是效益。 3.扩展性。之所以有的大型数据仓库系统架构设计复杂,是因为考虑到了未来 3-5 年的扩展性,这样的话,客户不用太快花钱去重建数据仓库系统,就能很稳定运行。主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于数据量大很多,就运行不起来了。第二章 作业1. 简述以下高级数据库系统和应用:面向对象数据库、空间数据库、文本数据库、多媒体数据库和 W W W。面向对象是一种认识方法学,也是一种新的程序设计方法学。把面向对象的方法和数据库技术结合起来可以使数据库系统的分析、设计最大程度地与人们对客观世界的认识相一致。面向对象数据库系统是为了满足新的数据库应用

9、需要而产生的新一代数据库系统。在数据库中提供面向对象的技术是为了满足特定应用的需要。随着许多基本设计应用(如MACD 和 ECAD)中的数据库向面向对象数据库的过渡,面向对象思想也逐渐延伸到其它涉及复杂数据的应用中, 其中包括辅助软件工程(CASE)、计算机辅助印刷(CAP) 和材料需求计划(MRP)。 这些应用如同设计应用一样在程序设计方面和数据类型方面都是数据密集型的,它们需要识别于类型关系的存储技术,并能对相近数据备份进行调整.空间数据库指的是地理信息系统在计算机物理存储介质上存储的与应用相关的地理空间数据的总和,一般是以一系列特定结构的文件的形式组织在存储介质之上的。空间数据库的研究始

10、于 20 世纪 70 年代的地图制图与遥感图像处理领域,其目的是为了有效地利用卫星遥感资源迅速绘制出各种经济专题地图。由于传统的关系数据库在空间数据的表示、存储、管理、检索上存在许多缺陷,从而形成了空间数据库这一数据库研究领域。而传统数据库系统只针对简单对象,无法有效的支持复杂对象(如图形、图像) 。空间数据库引擎技术是目前系统集成中广泛使用的中间件技术在空间数据库应用解决方案中的一种实现,虽然付出了附加中间层的额外代价,但它较好地解决了 GIS 应用与空间数据库集成中数据提供与访问模式方面的制约瓶颈问题,是一种比较可行的方案.而面向对象的 Geodatabase 是第三代数据模型,它克服了拓

11、扑关系数据模型的缺点,由于它是面向对象的,因此能够方便地构造用户需要的任何复杂地理实体,而且这种模式符合人们看待客观世界的思维习惯,便于用户理解。文本数据库(TXTDB )是一种常用的数据库,也是最简单的数据库。任何文件都可以成为文本数据库。关于文本数据库可以为任何扩展名,在文件中写入任何信息,通过程序(比如PHP、ASP 等)来读写文本数据库的内容。对于无需并发访问的数据库,其次数据库不大(比如只有一条记录) ,或者不需要修改删除数据的数据库才适合使用文本类型。比如网站的超级管理员,使用文本数据库存放就有优越性,无需任何数据库扩展,检查权限的程序直接获取文本内容即可,性能会比任何数据库都高。

12、这个表很少修改,而且也不会许多记录,所以适合用文本数据库。多媒体数据库是为了实现对多媒体数据的存储、存取、检索和管理而出现的一种新型数据库技术。简单地说,多媒体数据库是按一定方式组织在一起的可以共享的相关多媒体数据的集合,简称 MDB(Multimedia Database)。与传统数据库应用中的主流数据库系统关系模型数据库相比,多媒体数据库中的数据是非格式化的、不规则的,没有统一的取值范围,没有相同的数据量级,也没有相似的属性集。关系数据库中关系模型主要针对的是整数、实数、定长字符等规范数据,关系数据库的设计者必须把真实世界抽象为规范数据;目前的多媒体数据库一般应用经过扩展的关系模型,多媒体

13、数据库的设计者将真实世界的模拟信号(图形、图像、音频、视频等 )经数字化,并对原始多媒体数据进行特征参数提取获得规范数据(元数据),然后将这些规范数据和原始多媒体的非规范数据通过关系模型合成为一个元组。万维网(亦作“网络” 、 “WWW”、 “3W”,英文“Web”或“World Wide Web”) ,是一个资料空间。在这个空间中:一样有用的事物,称为一样“资源” ;并且由一个全域“统一资源标识符” (URL)标识。这些资源通过超文本传输协议(Hypertext Transfer Protocol)传送给使用者,而后者通过点击链接来获得资源。从另一个观点来看,万维网是一个透过网络存取的互连超

14、文件(interlinked hypertext document)系统。万维网联盟(World Wide Web Consortium,简称 W3C) ,又称 W3C 理事会。1994 年 10 月在拥有“世界理工大学之最”称号的麻省理工学院(MIT)计算机科学实验室成立。2. 定义下列数据挖掘功能:特征化、区分、关联、分类、预测、聚类和演变分析。使用你熟悉的现实生活中的数据库,给出每种数据挖掘功能的例子。数据特征是目标类数据的一般特征或特性的汇总。通常,用户指定类的数据通过数据库查询收集。关联规则挖掘是由 rakesh apwal 等人首先提出的。两个或两个以上变量的取值之间存在某种规律性

15、,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。购物篮分析聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。聚类分析可以在AllElectronics 的顾客数据上进行,识别顾客的同类子群。这些聚类可以表示每个购物目标群。图 1.10 展示一个城市内顾客的 2-D 图。数据点

16、的三个聚类是显而易见的。分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。决策树预测(predication)预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。时序模式(time-series pattern)数据区分是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。目标类和对比类由用户指定,而对应的数据通过数据库查询提取。数据挖掘系统应当能够

17、比较两组AllElectronics 顾客,如定期(每月多于2 次)购买计算机产品的顾客和偶尔(即,每年少于3 次)购买这种产品的顾客。结果描述可能是一般的比较轮廓,如经常购买这种产品的顾客80%在20-40 岁之间,受过大学教育;而不经常购买这种产品的顾客60%或者太老,或者太年青,没有大学学位。沿着维下钻,如沿occupation 维,或添加新的维,如 income_level,可以帮助发现两类之间的更多区分特性。数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。尽管这可能包括时间相关数据的特征、区分、关联、分类或聚类,这类分析的不同特点包括时间序列数据分析、序列或周期模式匹配

18、和基于类似性的数据分析。股票数据挖掘研究可以识别整个股票市场和特定的公司的股票演变规律。3. 什么是 OLTP 和 OLAP,并简要说明他们的区别。联机事务处理(OLTP)将查询看作只读事务,对于关系技术的发展和广泛地将关系技术作为大量数据的有效存储、提取和管理的主要工具作出了重要贡献.OLAP 是一种分析技术,具有汇总、合并和聚集功能,以及从不同的角度观察信息的能力。尽管OLAP 工具支持多维分析和决策,对于深层次的分析,如数据分类、聚类和数据随时间变化的特征,仍然需要其它分析工具。OLTP 和OLAP 的主要区别概述如下。用户和系统的面向性:OLTP 是面向顾客的,用于办事员、客户、和信息

19、技术专业人员的事务和查询处理。OLAP 是面向市场的,用于知识工人(包括经理、主管、和分析人员)的数据分析。数据内容:OLTP 系统管理当前数据。通常,这种数据太琐碎,难以方便地用于决策。OLAP 系统管理大量历史数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息。这些特点使得数据容易用于见多识广的决策。数据库设计:通常,OLTP 系统采用实体-联系(ER)模型和面向应用的数据库设计。而OLAP 系统通常采用星形或雪花模型和面向主题的数据库设计。视图:OLTP 系统主要关注一个企业或部门内部的当前数据,而不涉及历史数据或不同组织的数据。相比之下,由于组织的变化,OLAP 系统常常跨越

20、数据库模式的多个版本。OLAP 系统也处理来自不同组织的信息,由多个数据存储集成的信息。由于数据量巨大,OLAP 数据也存放在多个存储介质上。访问模式:OLTP 系统的访问主要由短的、原子事务组成。这种系统需要并行控制和恢复机制。然而,对OLAP 系统的访问大部分是只读操作(由于大部分数据仓库存放历史数据,而不是当前数据),尽管许多可能是复杂的查询。第三章 作业1. 根据你的观察,描述一种可能的知识类型,它需要由数据挖掘方法发现,但未在本章中列出。它需要一种不同于本章列举的数据挖掘技术吗?信息评价,用来反映信息的及时性,有效性,信息量关于一类的大量信息的综合指标,可以运用数据挖掘中的分类算法来

21、实现最初的信息分类,在分好的类别中运用信息熵的计算方法来计算,信源熵:H(x)=EI(xi)=Elog2 1/p(xi)=-p(xi)log2 p(xi)(i=1,2,.n)信 息 量 = -( p1*log p1 + p2 * log p2 + p32 *log p32), 其 中 , p1, p2 , , p32 分 别 是 这 32 个 球 队 夺 冠 的 概 率 。 香农 把 它 称 为 “信 息 熵 ” (Entropy), 一 般 用 符 号 H 表 示 , 单 位 是 比 特 。2. 聚类作为数据挖掘中的重要技术之一,在实际应用中有广泛的应用,请针对用聚类来做数据预处理工具以支持

22、其后的其他数据挖掘任务的实际应用的例子。再做数据预处理时,可以用聚类做用在市场细分、目标顾客定位、业绩评估、生物群种划分等方面。如在商务上,聚类分析可以帮助市场分析人员从客户基本库中发现不同的客户群,在对已经分类的客户群进行后续数据的挖掘算法,如关联规则或者分类方法等,从而对客户随后的数据挖掘过程中提高效率,增加正确率,并且用购买模式来刻画不同的客户群的特征。3. 如表 1 所示,某数据库有四条交易记录。假设最小支持度为 60%,最小可信度为80%。TID Date Items_boughtT100 10/15/99 K、A、D、BT200 10/15/99 D、 A、C、E、BT300 10/19/99 C、 A、B、ET400 10/22/99 B、 A、D(1)运用 Apriori 算法找出所有的频繁项集;A,B,D A,B A,D B,D A B D(2)列出所得到的强关联规则,并且这些强关联规则必须符合下面的超规则,其中 X 代表客户变量,item i 指所购买的商品(如 “A”、 “B”等):任意的 X 属于交易集, buys(X,item 1) buys(X,item 2)= buys(X,item 3)s,c强关联规则 AB BA DA DB DA,B A,DB B,DA超规则 A,DB B,DA

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 参考答案

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。