数据挖掘技术在校园卡信息管理系统中的应用研究.doc

上传人:99****p 文档编号:1947891 上传时间:2019-03-24 格式:DOC 页数:8 大小:29KB
下载 相关 举报
数据挖掘技术在校园卡信息管理系统中的应用研究.doc_第1页
第1页 / 共8页
数据挖掘技术在校园卡信息管理系统中的应用研究.doc_第2页
第2页 / 共8页
数据挖掘技术在校园卡信息管理系统中的应用研究.doc_第3页
第3页 / 共8页
数据挖掘技术在校园卡信息管理系统中的应用研究.doc_第4页
第4页 / 共8页
数据挖掘技术在校园卡信息管理系统中的应用研究.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

1、数据挖掘技术在校园卡信息管理系统中的应用研究摘要 随着科学技术的不断进步以及信息化时代的到来,信息化建设已经逐渐渗透到校园网络信息化平台的建设过程中,高校数据库共享信息资源平台的建设为各种高校的数据挖掘提供了坚实的技术基础。本课题以校园卡信息资源的数据挖掘为研究目标,通过目前比较先进的数据仓库技术、OLAP 技术以及数据挖掘技术搭建了校园卡信息管理系统数据挖掘模型。 关键词 数据挖掘; 校园卡; OLAP; 神经网络 中图分类号 TP391 文献标识码 A 文章编号 1673 - 0194(2013)04- 0079- 02 1 数据挖掘技术简介 所谓的数据挖掘就是从很多先不是很完全并且模糊有

2、噪声的随机数据中提取信息和知识的过程,这些信息和知识大多都是人们事所未知的,被隐含在其中的潜在并且有用的。由于当今的信息技术飞速的发展,被人们所积累应用的数据量急剧上升,应该如何从大量的数据中对有用的知识进行高质量的提取才是当务之急。我们所提到的数据挖掘技术就是为这种需求应运而生的,并且不断地发展强大起来。这也是知识发现很关键的一个环节。 数据挖掘技术的主要任务就是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。下面是对这些主要的任务做简单的介绍。 1.1 关联分析 在很早之前运用关联分析的方法是由 Rakesh Apwal 等人所提出的。关联就是两个或者两个以上的变量之间所存在的一定的

3、规律特点。这种数据关联在数据库中是属于非常重要的并且是可被发现的知识。关联又可以大致的分为简单关联、因果关联以及时序关联。这些关联分析主要的目的是寻找数据库里面没被发现的隐藏着的关联网。可信度和支持度是用来度量关联规则相关性的两个关键的阈值,并且不断对兴趣度以及相关性等参数进行引入,使被挖掘的规则越来越符合需求。 1.2 聚类分析 所谓的聚类分析就是把相关的数据按照它们的相似程度归纳为若干个类别,其中相同类别中的数据具有彼此相似性,不同类别中的数据存在着差异。聚类分析建立的是宏观的概念,从数据不同的分布模式及可能的数据的属性间发现所存在的相互关系。 1.3 分类 分类大多是用规则或者决策树的模

4、式表示,它会找出同一个类别的概念进行描述,对该类的内涵进行描述,它代表着此类数据整体的信息,并且用这种描述进行模型构造。分类就是一种分类的规则,这种规则是将数据集通过一定的算法而得出的。分类通常被用于规则的描述以及预测中。 1.4 预测 预测就是从历史的数据中找出一些变化的规律,并且建立相应的模型,用来对未来的数据特征及种类进行推测、预测。预测中通常用预测方差来度量预测的精度及不确定性。 1.5 时序模式 时序模式其实就是根据已知的数据对未来值进行预测。通过时间的序列对重复发生概率较高的模式进行搜索,所预测的未来值之间的区别就是它们所处的时间不同。 1.6 偏差分析 数据库中的数据是很复杂多样

5、的,同时也是存在着很多的异常情况,若能够在数据库中发现异常的情况很重要。偏差中包含了许多非常有用的知识,寻找所观察的结果中与参照数据之间的差别是偏差检验的基本方法。 2 数据挖掘技术常用方法 2.1 神经网络方法 神经网络是近几年逐渐流行的一种计算机技术,被很多研究学者用于各个领域的科学研究,其自身所具备的较高性能的自组织自适应性、分布存储、鲁棒性、高度容错以及高速并行处理等独特特性使得其发展以及应用空间非常巨大,数据挖掘问题的解决方案就迫切需要这些特性,因此,众多的学着逐渐将神经网络方法应用在数据挖掘问题的求解中,越来越得到人们的高度关注。神经网络模型比较多样,但是主要分为 3个大类:第一种

6、类可以称之为前馈式神经网络模型,其主要代表是函数型网络、bp 反向传播模型以及感知机,其主要的作用是用于模式识别、预测以及各种分类;第二种类可以称之为反馈式神经网络模型,其主要代表是连续模型以及 hopfield 离散模型,其主要作用域是优化各种计算以及联想记忆;最后一个种类是自组织映射方法,其主要代表模型是koholon 模型以及经典的 art 模型,其主要功能是用于聚类。除此之外,神经网络模型以及算法也具有其自身的局限性,即“黑箱”性,学者在研究的过程中并不能够深入地理解神经网络的自我学习以及决策过程。 2.2 遗传算法 数据挖掘方法中通常还会用到遗传算法,遗传算法是借鉴于自然界生物的基因

7、遗传以及自适应机理实现目标的随机搜索,可以理解为一种仿生物的全局优化计算方法。遗传算法之所以在数据挖掘中得到应用,主要是因为遗传算法具备的与其余模型结合较容易、隐含并行性等特征。此外,与粗集、神经网络等计算技术相结合的应用也是遗传算法的主要应用方向之一,比如借助遗传算法对现有的神经网络进行优化,能够实现在保持现有错误率的情况下将多余的隐层单元以及连接删除掉,再比如可以通过结合 bp 算法对神经网络进行训练,进而提取所需的网络规则等等。但是遗传算法也具备收敛较早以及局部收敛等问题。 2.3 决策树方法 决策树方法通常用于数据量处理规模比较大的应用中,应用最为广泛的是预测模型,决策树算法能够对大量

8、的数据进行有计划的分类,并在分类的数据中搜寻到潜在的价值比较高的信息,决策树算法具备较快的数据分类速度以及描述非常简单等优势,因此在数据量比较大的数据处理中应用得比较广泛。决策树算法最为经典的是 id3 算法,是 Quinlan在基于信息熵算法的基础上提出的,但是由于技术等各个方面的瓶颈,使得 id3 算法具备了较多的局限性:比如学习过程无法递增、相互关系在同性之间强调不够、其决策树是单一变量等。但是随着科学技术的不断发展,很多学者都对其进行了不同程度的改进,比如 id4 递增式学习算法以及 ible 算法等。 2.4 粗集方法 粗集理论算法的研究对象主要是不确定知识以及不精确的算法模型,粗集

9、理论具备以下几个突出的特点:信息输入的表达空间比较简单、额外相关信息不需要提供、操作比较简单、算法实现比较简单。具体处理对象则是与二维关系表相似的信息表,随着数据仓库管理系统的不断发展以及关系型数据库管理系统的不断成熟,为粗集理论算法在数据挖掘中的应用打下了坚实的基础,但是粗集理论算法在处理连续属性的数据的时候具备较大的困难,主要是因为续属性的数据通常具备离散化的特点,但是随着众多学者的不断努力,目前国际上已经研究出基于粗集理论的专用的应用工具软件,比如 lers 以及 kdd-r 等。 2.5 覆盖正例排斥反例算法 覆盖正例排斥反例算法的实现规则是排斥一切反例、覆盖一切正例,其具体实现过程中

10、首先该算法会在正例的集合中随机挑选一个正例种子,然后将该正例种子与反例集中的一切数据进行对比,与字段取值构成的选择子相容则丢弃,相反的则进行保留,覆盖正例排斥反例算法按照这种模式将所有的正例种子在反例集合中都进行循环,通过循环比对,正例的规则(选择子的合取式)便会得到,目前典型的覆盖正例排斥反例算法包括 aq11 方法、aq15 方法以及 ae5 方法等。 2.6 统计分析方法 在统计分析方法研究之前需要明确相关关系以及函数关系的概念,相关关系则指的是数据库字段之间的关系虽然无法用函数公式表示,但是却依然存在着相关的确定性关系,而函数关系则指的是可以用函数公式表示数据库字段之间的确定关系,数据

11、库字段之间便存在着相关关系与函数关系,分析关系的时候便会用到统计分析方法,即在分析数据库中的信息的时候采用统计学原理,具体包括数据的常用统计、相关分析、回归分析以及差异分析等。 2.7 模糊集方法 模糊集方法的理论基础是模糊集合理论,主要用于对现实的求解问题进行模糊模式识别、模糊评判、模糊聚类分析以及模糊决策等,其模糊性与系统的复杂性呈正向比例关系,即模糊性越强代表其系统愈加的复杂,传统的模糊集合理论在刻画模糊事物的亦此亦彼性的时候采用的是隶属度,但是经过不断的发展,概率统计逐渐被融入到了模糊集方法中,李德毅等人充分地结合传统的模糊集合理论以及概率统计,在此基础上提出了定性定量不确定性转换模型

12、云模型,云理论便逐渐形成了。 3 校园卡研究现状 校园卡信息管理系统的开发与建设进一步提升了校园信息化的管理水平,目前校园卡信息管理系统已经渗入到各个高校校园的信息化网络建设系统中,但是就相关调查结果发现,只有较少的一部分高校真正意义上将校园卡功能用到了极致,大多数的高校都将校园卡局限应用在消费管理上面,身份识别、信息查询等功能并没有得到较好的开发以及利用。造成校园卡没有得到充分应用的主要原因是管理水平的缺陷以及对校园网络信息化管理系统建设的需求不高,高校并不具备一套完善的校园中心数据仓库,校园日常运行管理机制也并不完善。 21 世纪属于信息全球化,学校的建设离不开现代化的管理措施,校园卡不仅

13、是学生以及教职工的消费工具,更应该发展成为校园的通行证件,校园卡能够借助先进的科学技术将强大的射频功能以及数字化管理理念逐渐融入到校园网网络中,能够实现高校所有系统的无缝融合,能够动态地掌握持有校园卡的人员的实际情况,将校园管理水平提升到了另外一个档次。 4 校园卡信息管理系统数据挖掘模型 现阶段,校园卡的主要作用是用于校园内的日常消费,因此,校园卡中存储了大量的持卡人的消费数据,校园卡信息管理系统的数据挖掘通常是以这些消费数据作为基础,并充分结合持卡人的信息数据,通过数据的深入分析得到用于系统决策的关键信息。校园卡信息管理系统的数据挖掘需要联机服务,涉及到的数据量比较巨大,传统的数据信息仓库

14、已经无法满足数据量比较大的决策系统,具体表现在以下几个方面: (1) 数据挖掘涉及到大量的数据分析,持卡人的行为模式具备运行时间持久、涉及到的数据量比较大、系统资源消耗严重等特点,与传统的事务处理并不相同。 (2) 传统的数据库存储的大部分数据都是用户的短期数据,并且数据的保存周期根据数据类型的不同而不同,用户历史数据即使有保存比较持久的,但是也并没有得到很好的应用,数据挖掘技术要想在校园卡信息管理系统中得到充分的应用,必须借助与完善的历史数据记录,历史数据是决策分析的基础。 (3) 数据挖掘中的决策分析数据涉及到的数据量非常巨大,是多部门数据的有效集合,但是现实情况是不同系统的数据集成起来却

15、非常困难。 针对现有数据库的局限性,必须在数据仓库环境中搭建完善的数据挖掘系统模型。本课题中提出了基于数据挖掘技术、Web 系统以及 OLAP的校园卡信息管理系统数据挖掘系统模型,图 1 便是校园卡信息管理系统数据挖掘模型。 5 总 结 数据挖掘技术在校园卡信息管理系统的应用不仅能够充分地集成学校现有的各个系统,还能够进一步提升校园的信息化管理水平。本课题充分研究了数据挖掘技术的方法、技术措施等,在现有校园卡发展现状的基础上提出了图 1 所示的基于数据挖掘技术、Web 系统以及 OLAP 的校园卡信息管理系统数据挖掘系统模型,通过该模型能够充分地挖掘现有的校园信息数据,能够对决策分析提供必要的研究基础,帮助校园实现信息管理一体化建设方案。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。