改进的Kprototypes算法在农民工养老参保中的应用研究.docx

上传人:h**** 文档编号:1383358 上传时间:2019-02-23 格式:DOCX 页数:4 大小:19.87KB
下载 相关 举报
改进的Kprototypes算法在农民工养老参保中的应用研究.docx_第1页
第1页 / 共4页
改进的Kprototypes算法在农民工养老参保中的应用研究.docx_第2页
第2页 / 共4页
改进的Kprototypes算法在农民工养老参保中的应用研究.docx_第3页
第3页 / 共4页
改进的Kprototypes算法在农民工养老参保中的应用研究.docx_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

1、改进的 K-prototypes 算法在农民工养老参保中的应用研究摘要:农民工养老问题一直备受社会关注。许多学者对该问题展开了调研,并采用 Logistic 回归模型来分析调研结果。但是,Logistic 回归模型要避免变量间的多元共线性。农民工养老保险参保调研数据各变量之间往往存在关联性,而且数据维度高。针对 Logistic 回归模型的局限性和调研数据维度高的问题,本文改进了 K- prototypes 聚类算法,并用于分析农民工未购买养老保险的原因。基于该方法得到的分析结果可以为相关部门制定针对性政策提供参考。 下载 关键词:聚类 改进的 K- prototypes 算法 农民工养老保险

2、 改革开放以来的城镇化浪潮中,国人印象中皮肤黝黑,风尘仆仆的农民工,为我国的城镇化发展做出了巨大的贡献。然而,在艰辛的体力劳动背后,庞大的农民工群体却一直游离在城市的边缘,无法真正享受农民工养老保险等应有的待遇。正确分析农民工未购买养老保险的原因是解决农民工养老问题的关键,而解决该问题的基础是对调查数据的合理分析。 目前,针对农民工养老参保调研成果的研究主要运用 logistic 回归进行分析。Logistic 回归分析是处理混合型数据常用的方法。在过去的许多年间,logistic 回归分析主要用于流行病学研究。现在它的应用更为广泛。但是,logistic 回归模型也存在自身的局限性,会影响该

3、方法在调研数据分析中的运用。比如,Logistic 回归要求变量之间不存在多元共线性。而农民工养老参保调研数据各变量之间存在着联系。而且,调研的结果数据维度往往比较高,这也给调研数据的分析带来了一定的困难。 生活中,不同的农民工所面临的农民工养老保险参保(以下简称农民工养老参保)问题不同,影响他们参保的因素也不同。基于这样的思路,本文拟采用聚类的方法对样本点进行分析。聚类是一种无监督的学习,因此不受主观判断的影响,更利于体现数据的内在规律。由于本文的数据是混合型数据,我们拟采用广泛用于混合类数据的 k-prototypes 算法来分析问题。此外,我们注意到,调查问卷所涉及的数据的维度高,运用

4、K-prototypes 算法会降低聚类效果,故本文改进了 k-prototypes 算法。本文在基于 K-prototypes 算法,对其结果通过分析删除一些大簇中部分出现频率较高的属性后,再次聚类,从而得到更为合理的结果。 本文的结构如下:第二部分,通过查阅文献,分析比较不同的统计分析的优缺点,发现引入聚类算法更为合理。第三部分,介绍 K-prototypes 算法并且在其基础上提出改进的 K-prototypes 算法。第四部分,运用改进的K-prototypes 算法对农民工养老参保状况分析的运用状况进行分析。最后,总结该方法的优点和目前存在的不足。 一、文献综述 目前,许多学者对农民

5、工养老参保问题的影响因素进行了研究,农民工养老参保率低的情况并非偶然,大多学者认为其和政府、社会、企业以及农民工自身等因素有关。蒋云?S 发现,现阶段不合理的缴费率和缴费率和缴费基数降低了农民工参保积极性。刘梦炫指出有些企业为了自身利益,不执行为农民工缴纳养老保险费用的行为,损害了农民工的正当权益。张又山等认为农民工本身工资水平低,就业不稳定,流动性大以及,对养老保险认识不足的原因导致了其参保率低。李珍等提出农民工对养老保险存在需求会受到年龄、收入,就业状况等因素影响的观点。基于安徽省的调查数据,杨哲等建立养老保险参与意愿的 Tobit 模型,研究发现性别与婚姻对农民工养老保险参与有显著影响。

6、 上述研究并未针对不同的人群来分析未参保的原因,虽然得到了虽然准确的结论,但是,各影响因素的内在联系并不能体现出来。 而针对问卷调查数据的统计方法,国内外许多学者都做过相关研究。其中张、刘指出,目前对问卷调查结果的分析还停留在单指标的频数分析,或者双变量的列联表分析上,而忽视了多个变量之间的联系。而事实上,信息往往隐含在多个变量之间。白、赵提到,基于列联表测量两个定类变量的相互关系时,主要有两种测量方法。其一,建立在卡方统计量理论上的相关程度测量方法;其二,建立误差消减理论基础上的相关程度测量方法。多变量统计的统计方法很多,但从实际应用角度看,使用最广泛的还是回归分析。对数线性回归模型是专门针

7、对定性数据的回归分析方法。但是根据 Mosteller 的描述,我们知道对于高维数据集给对数线性回归模型选择一个“最佳拟合”是不可能的,且对数线性回归模型在处理定量数据也存在困难。 Logistic 回归分析是处理混合型数据最常用的方法。在过去的许多年间,logistic 回归分析主要在流行病学中。但是,现在它的应用已经非常广泛了。邹志红利用 Logistic 回归进行水质分析,具有良好的拟合和预测效果。任康等和吕纯镰发现 logstic 回归模型用于判别分析时,取得较高的准确性和较好的预测效果。庞素琳在信用风险分析中运用 Logistic 回归模型准确建立信用评价模型。虽然,Logistic

8、 回归分析得到越来越广泛的应用,但是张虎、刘强指出,在问卷调查分析中利 Logistic 方法还存在困难。主要体现在缺省值的处理,样本维度高以及当变量是多水平的或者是连续型的,容易造成空单元和过离散等问题。近年来,聚类分析在数据统计方面的作用越来越受到人们的重视。祁玉海通过对数据进行模糊聚类,选出类代表从而建立统计分析指标体系。陈子锦等通过对按不同指标进行聚类的结果进行相关性分析,发现地区火灭损失同生产总值、消防基本投入之间均为正相关。张、刘利用聚类对数据进行预处理,降低变量的维度与分类水平。方江晓等运用聚类方法对历史风速数据进行处理,根据预测日的特征参数,按照相似度最大的原则,选择合适的类别

9、作为预测建模用的训练样本。预测精度得到了提高。通过上述可知运用聚类分析问卷调查数据得到的结果更为令人满意。Huang 等提出一种解决分类属性数据和混合属性数据的 K-prototypes 算法。但其存在着局限性,陈?|等指出 K-prototypes算法运用海明威距离,计算两个分类属性值的相异度,处理复杂数据集时并不能完全体现样本间的差异。王宇等发现 K-prototypes 算法结果不理想,有时会发生几个类比较相似的情况。 二、改进的 K- prototypes 算法 本文对聚类结果进行分析,将在皖建筑业农民工未购买保险分为五类:占比例最多的普通型,老年型,转移型,年壮型,年老抛弃型。针对各

10、个类型的不同特点,本文总结出各个类型未购买养老保险的原因。比如转移型,该类型农民工虽然有着较高的工资,但是他们的日工作时间达到 10 小时以上;这类人群迫于生活的种种压力,不得不透支自己的劳动力来获得较高的报酬;为了追求高报酬,他们不断流转于不同城市,平均在 12 个城市工作过,在一家单位工作的时间仅有 0.6 年;他们未购买养老保险的主要原因是流动性大导致的养老保险转移接续不畅。 从上述结果可以观察到,影响因素之间存在着密切联系比如:学历和工资,转移频繁与否与工资等。通过分析总结在皖建筑业农民工未购买养老保险的主要原因是:信息不对称;流动性大导致的养老保险转移接续不畅;收入低,支出特别大;家

11、庭结构的影响;为了缩小生产成本,部分企业消极抵制;参保机制不合理;统筹层次太低。 四、结束语 近年来农民工养老问题越来越被社会所关注,本文以此为背景,通过在安徽多地对建筑行业农民工进行走访、调查问卷,得到相关调研数据。针对调研分析中常采用的 Logistic 回归模型的局限性,我们引入了 k-prototypes 聚类算法,并改进了该算法,使得该算法适用于本文中的高维数据。与传统方法分析的结果相比,发现本方法得出的结果更有针对性,原因更为丰满,思路更为简洁清晰。基于该方法得到的分析结果可以为相关部门制定针对性政策提供参考。 但是,本文的研究方法还有其局限性。如何合理的确定分类型数据和数值型数值

12、的权重 k 值,以及删除属性标准的 值。将来的研究将围绕该问题继续展开。 参考文献: 蒋云?S.我国农民工养老保险方案的再研究基于财政负担视角的代际核算模拟财经研究J.财经研究,2013,39(10):4-18. 刘梦炫.推进新生代农民工养老保险制度发展问题研究D.南昌:江西财经大学,2013. 张又山,张剑伟.农民工养老保险相关问题探讨A. 当代法学论坛,2011,(7). 李珍,王林昌.农民工社会养老保险研究述评J.经济研究导刊,2014 . 杨哲,王茂福.新生代农民工养老保险参与意愿及影响因素基于安徽省调查数据J.社会保障研究,2013(5). 张虎,刘强.问卷调查分析中的 logist

13、ic 回归与自变量筛选问题研究N.中南财经政法大学学报,2013(5). 白雪梅,赵松山.也谈对两个定类变量间的相关分析J.江苏统计,1997.12:17-19. 樊晓燕.深圳市农民工养老保险需求影响因素研究J.改革与开发,2013. Mostel. J Amer, Statist Assoc,1968. 邹志红等.基于 Logistic 回归的水质预测研究J.数学的实践与认识,2008,38(1):82-87. 任康,李刚.Logistic 回归模型在判别分析中的应用J.统计与信息论坛,2007,22(6):71-73. 吕纯镰,陈杰伦. logistic 判别及其应用(I)J.数学的实践与

14、认识.1983. 庞素琳.Logistic 回归模型在信用风险分析中的应用J.数学的实践与认识,2006 ,36(9):129-137. 何俊毓.Logistic 回归分析方法在流行病学研究中的应用条件回归与非条件回归模型的比较J.消费导刊,2013,(7):163-164. 祁玉海.模糊聚类分析在建立统计分析指标体系中的应用J.青海师范大学学报(自然科学版),2002,(2):9-11. 陈子锦,王福亮,陆守香等.我国火灾统计数据的聚类分析J.中国工程科学,2007,9(1):86-88,94. 方江晓,周晖,黄梅等.基于统计聚类分析的短期风电功率预测J.电力系统保护与控制,2011,39(11):67-73,78. HUANG Z.MA N G.a fuzzy k-modes algorithm for clustering categorical data 孙吉贵,刘杰,赵连宇等.聚类算法研究J.软件学报,2008,19(1):48-61. 陈?|,王雷,蒋子云.基于 K-prototypes 的混合属性数据聚类算法J.计算机应用,2010(08):2003-2006. 王宇,杨莉. 模糊 k-prototypes 聚类算法的一种改进算法J.大连理工大学学报,2003(06):849-852.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 >

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。