基于数据挖掘聚类分析的全国在岗职工平均工资研究.docx

上传人:h**** 文档编号:1364529 上传时间:2019-02-12 格式:DOCX 页数:2 大小:17.21KB
下载 相关 举报
基于数据挖掘聚类分析的全国在岗职工平均工资研究.docx_第1页
第1页 / 共2页
基于数据挖掘聚类分析的全国在岗职工平均工资研究.docx_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

1、基于数据挖掘聚类分析的全国在岗职工平均工资研究 【摘要】本文提出了一个基于数据挖掘聚类分析的全国在岗职工平均工资的研究方法,该方法使用数据挖掘的聚类算法,对全国 36个主要城市的在岗职工平均工资进行聚类分析。本文给出了方法的具体实施过程,做出了全国在岗职工平均工资的聚类的结果。为了解全国各地工资水平提供了比较直观的依据。 下载 【关键词】聚类分析 全国在岗职工平均工资 数据挖掘 一、聚类分析过程 (一)数据预处理 数据库中常存在受噪声数据、空缺数据和不一致数据。现实世界的数据库十分庞大,因此如何预处理数据才能提高数据质量,提高数据挖掘结果的质量,使挖掘过程更有效、更容易成为目前研究的重点。数据

2、预处理的方法主要包括:数据清理、数据集成、数据变换和数据归约。 数据清理( Data Cleaning)例程通过填补空缺数据平滑噪声数据,识别、删除孤立点,并纠正不一致的数据。异常数据可能使挖掘过程 陷入混乱,导致不可靠输出。 数据集成( Data Integration)指将来自不同数据源的数据合成一致的数据存储。 数据变换( Data Transformation)操作,如规格化和聚集,是将数据转化成适于挖掘的形式的预处理过程。 数据归约策略包括维归约和数值归约,它有助于从原有的庞大的数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性。在精简数据集上进行的数据挖掘显然

3、效率高,并且挖掘结果与使用原有数据集的结果基本相同。 (二)面板数据的聚类分 析 1.面板数据的统计描述。设单指标的面板数据,即全国 36 个主要城市1990 年到 2011 年的在岗职工平均工资数据,为, i=1, 2, , N, 0 t T,那么称, 为 xi( t)的均值函数, xt表示一种动态平均水平。 全国 1990 2011 年在岗职工平均工资均值表 2.层次方法。层次方法创建给定数据对象集的层次分解。根据层次分解如何形成,层次方法可以分为凝聚的或分裂的方法。凝聚的方法,也称自底向上的方法,开始将每个对象作为单独的一个组,然后逐次合并相近的对象或组,直到所有的 组合合并为一个组(层

4、次的最顶层),或者满足某个终止条件。分裂的方法,也称为自顶向下的方法,开始将所有的对象置于一个簇中。在每次相继迭代中,一个簇被划分为更小的簇,直到最终每个对象在单独的一个簇中,或者满足某个终止条件。层次聚类方法可以是基于距离的或基于密度和连通性的。 利用 spss软件进行系统聚类分析就可以得到分析结果,其聚类的基本过程是:假设面板数据, i=1, 2, , N, 0 t T,第一步是将每个数据, i=1,2, , N,独自聚成一类,共 N类;第二步根据所确定的面板数据的相似指标把 “ 距离 ” 较近的 两个面板数据聚合为一类,其它的面板数据仍各自聚为一类,共聚成 N-1类;第三步将 “ 距离

5、” 最近的两个类进一步聚成一类,共聚成 N-2类; ,以上步骤一直进行下去,最后将所研究的面板数据全聚成一类。可见本文采用的是层次凝聚的方法。 3.算法方法的距离度量。对于面板数据, i=1, 2, , N, 0 t T,考虑 N个面板数据之间的近似性,用面板之间的距离表示,其表现形式是一个N*N 的对称阵,即 其中 i , j是第 i个面板数据与第 j个面板数据之间的相异程度的量化表示,当第 i 个与第 j个面板数据相似或接近,其 值越接近于 0。 对于设定的面板数据 xit, i=1, 2, , N, 0 t T,那么,面板数据之间的相似指标可用: 差异的上确界 0 t T; ( 2)一致

6、差异; 本文所用的聚类方法采用组间连接,度量标准采用平方 Euclidean 距离。 组间连接聚类定义为两类之间的平均平方距离,即DKL=1NKNLiCKjCLd ( xi, xj)。类 CK 和 CL 合并为下一步的 CM,则 CM与 CJ 距离的递推公式为: DJM=( NKDJK+NLDJL) /NM。 平方 Euclidean 距离为平方欧氏距离,即 Dij=t=1T|xi( t) -xj( t) |2,( i, j=1, 2, , N)。 二、结语 数据挖掘以及聚类分析应用领域十分广泛和巨大,通过对全国在岗职工平均工资这面板数据的聚类分析,我们了解到了全国 36 个主要城市工资水平的

7、异同性。也见识到了数据挖掘这门学科的魅力,数据挖掘中的聚类算法正在走一条综合了机器学习、数据挖掘、模式识别、物理等领域的研究成果,不断创新发展的道路。 参考文献 朱建平,陈民恳 .面板数据的聚类分析及应用 J.统计研究 .2007. 李爱国等编著 .数据挖掘原理、算法及应用 M.西安电子科技大学出版社 .2012. 郑兵云 .多指标面板数据的聚类分析及应用 J.数理统计与管理 .2008. 孙旭 .时间序列全局特征聚类分析方法及其应用 J.统计教育 .2009. 高惠璇编著 .应用统计多元分析 M.北京大学出版社 .2009. 作者简介:万颖( 1990-),女,汉族,江西南昌人,将毕业于华东交通大学,研究方向:统计学。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。