1、数据挖掘在高校资产管理中的应用摘 要 进行高校资产数据挖掘与分析研究,能更好地为高校管理、高校决策提供科学依据。本文分析了高校资产管理的现状与特点,构建了高校资产数据仓库雪花模型,挖掘出高校资产管理指标之间的关联规则,并对该数据挖掘模型进行评价,在实际应用中取得了良好效果。 关键词 高校资产;数据仓库;数据挖掘;雪花模型;关联规则 概述 高校资产信息管理系统中的数据客观记录了高校所有资产的历史情况和现状,同时也隐含着各种资产的特点,蕴藏着学校的发展规律和趋势。然而现阶段高校各部门一般采用不同的数据库,数据整合困难,无法实现不同系统跨平台信息的共享与交互,无法实现面向主题的数据分析,从而无法更多
2、更好地利用数据资源。为了充分利用这些积累的记录信息,从中发现有用的知识,获得潜在的规律,为高校资产管理和决策提供科学参考,需要建立一个分析决策系统。而实现分析决策系统的主要技术就是数据仓库和数据挖掘。 数据挖掘是指从大量数据中提取或发现知识 。数据挖掘通过一些模型和智能方法,从大量数据中提取、识别用户真正感兴趣的、新颖的、潜在有用的模式,提供给用户作为决策的依据和参考。 数据仓库与数据挖掘技术已被广泛应用于商业领域,但用于高校资产管理领域的却很少。本文通过构建高校资产数据仓库模型,对资产管理指标的相关属性进行分析,通过数据挖掘得出了资产管理指标之间存在的一些强关联规则,各规则的信任度均达到以上
3、。 高校资产数据仓库逻辑模型 数据仓库多维数据集能对数据仓库中的所有数据提供统一的和集成的视图,可作为传统报表、联机分析处理和数据挖掘的基础。数据仓库的逻辑模型包括事实表和维度表,事实表描述挖掘主题包涵的多个角度,维度表则从不同角度描述挖掘主题的相关数据 。结合高校资产挖掘主题与资产信息数据的特点,高校资产数据仓库的逻辑模型采用了雪花模型结构,如图所示。 “资产数据事实表”与“部门表” 、 “资产编码表”、 “资产分级表” 、 “时间表”4 个主维度表关联, “部门表” 、 “资产编码表”和“资产分级表”还分别有“上级部门表” 、 “资产类别表”和“资产指标表”3 个二级维度表,其中“资产类别
4、表”还有三级维度表“资产大类表” 。建立这种多级维度表不但可以降低数据仓库的数据冗余度,减少数据量,保证数据一致性,还有利于改变数据粒度,实现灵活粒度的数据挖掘。 数据挖掘如果建立在原始数据水平或较低的维层次上,则此时数据粒度小,挖掘速度慢,挖掘得到的规则繁杂,难以理解;如果数据从低维层次抽象到高维层次,对较高维层次数据进行挖掘,则此时数据粒度大,挖掘速度快,得到的规则泛化程度高,便于宏观理解。因此通常在高维层次上进行挖掘,必要时再进行较低维层次上的挖掘 。 数据属性归约及取值 数据属性归约 高校的资产数据按教育部规定分为 16 类,对这些资产进行管理非常繁杂,根据实际我们选取以下 4 个管理
5、指标以利于资产数据挖掘: ()资产购建价值,用表示。它是购买或建造资产的原值。理论上同类资产价值高的要比价值低的使用寿命长。 ()资产剩余使用年限率,用表示。每种资产都有一定的使用年限,使用中每年提取折旧,当到达规定的使用年限后该资产一般只剩下很少的残值,原则上也就报废了。资产剩余使用年限率反映了资产的剩余使用年限,是资产管理的一个重要指标。 ()资产每年使用率,用表示。不同的资产每年的使用率各不相同,有的长年使用,如房屋和家具等;有的一年才使用几次,如某些实验仪器设备。同样的资产使用次数多的肯定比使用次数少的容易坏。 ()资产质量评估值,用表示。每年由相关人员对每种资产进行一次评估,评估该资
6、产当时的性能和好坏程度。 资产管理指标数据的取值 对资产管理的 4 个指标值采用统一的分级,分为“一级” 、 “二级” 、“三级” 、 “四级” 、 “五级”个等级,分别用、表示,对指标数据的取值采取分类转换。 ()同一类资产的购建价值会因品牌种类、购建时间、市场行情等因素的影响而不同,一线品牌中的高档资产购建价值肯定高,定为一级;一线品牌中的中档资产或二线品牌中的高档资产定为二级;二线品牌中的中档资产或非品牌中的高档资产定为三级;非品牌中的中档资产定为四级;淘汰产品、试用品或非正规单位生产的产品定为五级。 ()会计上对资产的使用年限没有明确规定,资产折旧的年限通常是分大类按税务规定进行计算的
7、:一般房屋为年;生产设备为年;工具、家具为年;电子设备为年;低值易耗品为年。这个规定与实际使用年限相比是偏低的,因此将规定使用年限近似平均分成 5 个区间,其中第五区间包括规定使用年限到期后仍在使用的那段时间。每个区间数按年取整,如不为整则在购建初的第一区间多分配一点时间。资产剩余使用年限率(税务规定使用年限已使用年限)税务规定使用年限。将数值型数据离散化后分区计算资产剩余使用年限率,结果各类资产剩余使用年限率基本近似,各区间取值(, ,(, , (, , (, ,(, ,依次定为一级、二级、三级、四级、五级,如房屋从新建起使用(,年为一级, (, 年为二级, (, 年为三级, (, 年为四级
8、, 年为五级。 ()资产每年使用率由使用资产的负责人在每年年中依据使用记录对每种资产作出评价,平均分成五级,使用最少的为一级,它的使用寿命相应就长;使用最多的为五级,它的使用寿命相应就短。 ()对资产质量进行评估的相关人员在每年年中时对每种资产的性能和好坏进行一次评估,评估的结果值也分成五级,最好的为一级,最差的为五级,五级意味着不能再使用。 根据以上分析,高校的每种资产可以描述如下:(资产编号,购建价值,剩余使用年限率,每年使用率,资产评估值) 。例如:(,)表示资产号为的资产,其购建价值一级, 剩余使用年限率三级,每年使用率一级,质量评估值二级。 实例:年某学院的实验室正在使用的计算机有台
9、,当年各项管理指标分级情况和计算机数量之间的关系如表所示。 数据挖掘 本文对高校资产进行关联规则挖掘,频繁数据项集的生成采用算法。 算法及其特点 关联规则挖掘是数据挖掘的一个主要研究方向,目的是发现海量数据中数据项集之间存在的潜在关系规则。先识别出频繁出现的属性值集,也称频繁项集,然后再利用这些频繁项集创建描述关联规则 。关联规则中有支持度和信任度两个重要的度量,为满足一定的要求,用户需要指定规则必须满足最小支持度()和最小信任度()两个门限 。关联规则的挖掘分为两个步骤:发现频繁项目集: 找出所有大于或等于用户指定最小支持度的最大频繁项目集,又称强项集;生成关联规则: 根据用户指定的最小信任
10、度利用频繁项目集生成关联规则,该规则是满足最小支持度和最小信任度的强关联规则。 rr算法是关联规则中最典型的算法,它通过对事务数据清单的多趟扫描来发现所有的频繁项目集(强项集): ; 频繁项目集 (;) (,) ; 是频繁项目候选集 (,) ; 是从候选集中提取的包含在事务中的候选集元素 ; ; ; 求所有频繁项目集 的和 rr算法中调用了函数(,) ,是为了通过频繁()项目集产生频繁项目候选集,即利用第(-)趟扫描得到强项集集合 的候选集。该函数先进行拼接,再剪枝。在拼接生成候选数据项集时,一个项集必须是频繁数据项集且它的所有子集也都是频繁数据项集,因此要删除所有含有非频繁项目子集的候选元素
11、。如果项集 的某()子集不是()强项集,则将从候选集 中删除。 r算法中如果生成的候选项集太多,则多次扫描会使效率急剧下降,同时过多的候选项集还可能生成大量的规则,影响它的应用。本系统中采用数据属性归约,大大减少了生成的候选项集,能快速发现关联规则,提高使用效率。 采用 算法实现关联规则挖掘 本系统对建立的某高校资产数据仓库多维数据集进行数据挖掘,先对原始数据进行整理和特征化变换,设定资产管理指标中的资产质量评估值为规则目标。 采用 算法生成频繁数据项集。设定最小支持度为,最小信任度为,先构造个属性的候选集,计算 的支持度,去掉 中支持度小于的属性,得到频繁项目集。再根据 及个属性的组合,构造
12、候选集,计算 的支持度,去掉 中支持度小于的二维属性,得到频繁项目集。依次类推重复上述过程,直到所有属性组合完毕,形成频繁项集 , 。 再研究资产数据间的关联性,挖掘满足最小信任度的规则。若,为项目集,且 ?准,蕴涵式?圯称为数量关联规则,和分别称为?圯的前提和结论。项目集()的支持度称为关联规则?圯的支持度,记作(?圯) ,即(?圯)() 。数值关联规则?圯的信任度记作(?圯):(?圯) ()()。给定用户的最小支持度和最小信任度,如果 (?圯),同时(?圯),则称数量关联规则?圯为强规则,即根据用户指定的最小信任度而生成的关联规则是满足最小支持度和最小信任度的强关联规则。表是系统数据挖掘的
13、强关联规则,它反映了资产购建价值、资产剩余使用年限率和资产每年使用率这 3 个指标与资产质量评估值之间的关联性。购建价值高,又在购建初期且很少使用的资产其性能变化不大,它的资产质量评估值肯定很高。数据挖掘时如降低最小支持度,会增加系统生成的频繁项目集数,这样挖掘出的规则会太多,因而会降低了规则的普遍性和代表性。 结束语 本文利用数据挖掘技术对高校资产作了深层次研究,通过采用 算法生成频繁数据项集,进而挖掘出高校资产管理指标之间的关联规则,各规则的信任度均达到以上,对关联规则进行分析得出的结论和决策建议在实际应用中取得了良好效果。 主要参考文献 加Jiawei Han,Micheline Kamber.数据挖掘概念与技术M.影印版.北京:高等教育出版社,2001. 袁隽媛试论数据仓库在高校网络教育管理中的应用 发明与创新,(): 安利平,张松,仝凌云基于决策树的及其应用研究 计算机工程与设计,() 陈安,陈宁,周龙骧数据挖掘技术及应用 北京:科学出版社, 李新良,陈湘数据挖掘中关联规则算法的研究 计算机工程与科学,().