基于数据挖掘的纳税人预警监控系统 ——聚类算法的实现与比较---毕业论文.doc

上传人:滴答 文档编号:1273856 上传时间:2019-01-26 格式:DOC 页数:90 大小:2.29MB
下载 相关 举报
基于数据挖掘的纳税人预警监控系统 ——聚类算法的实现与比较---毕业论文.doc_第1页
第1页 / 共90页
基于数据挖掘的纳税人预警监控系统 ——聚类算法的实现与比较---毕业论文.doc_第2页
第2页 / 共90页
基于数据挖掘的纳税人预警监控系统 ——聚类算法的实现与比较---毕业论文.doc_第3页
第3页 / 共90页
基于数据挖掘的纳税人预警监控系统 ——聚类算法的实现与比较---毕业论文.doc_第4页
第4页 / 共90页
基于数据挖掘的纳税人预警监控系统 ——聚类算法的实现与比较---毕业论文.doc_第5页
第5页 / 共90页
点击查看更多>>
资源描述

1、 本 科 毕 业 论 文 基于数据挖掘的纳税人预警监控系统 聚类算法的实现与比较 Early-warning Supervisory System of Taxpayers Based on Data Mining Realization and Comparison of Clustering Algorithms 姓 名: 学 号: 学 院:软件学院 系:软件工程 专 业:软件工程 年 级: 指导教师: 年 月 摘 要 随着金税工程(二期)的实施,全国建立了总局、省、地市、县四级税务广域网,税务部门以四级网络为依托,实现了业务数据省级集中,积累了大量分布在各个应用系统中的涉税信息,是税务部

2、门进行税收分析的重要依据。如果不能对这些数据进行有效的分析利用,那么这些系统和数据只能是一个个“信息孤岛”和“数据坟墓”,成为目前税务信息化建设向 更高层次推进的瓶颈。因此, 将传统的数据挖掘技术应用于全新的领域 ,对税务系统中积累的海量数据进行挖掘,从中提取有价值的信息,建设基于数据仓库的纳税人预警监控系统,成为税收数据分析的必然要求。 本论文的主要研究内容是实现数据挖掘技术在纳税人预警监控系统中的应用。首先,针对纳税人预警监控业务流程的实际需求,设计、实现了 DBSCAN 和EM两种聚类分析算法,并借助 Weka 平台,将 DBSCAN 和 EM算法应用到了纳税人预警监控系统中。然后,使用

3、广西省国税局 2008 年 1月 1日到 12月 31 日的税收业务数据进行 DBSCAN 和 EM 聚类分析实验。实验结果表明: DBSCAN 算法无法进行有效的聚合,大部分数据对象被归为一类,同时产生的噪声点较多,即使改变参数的设置,实验结果依然没有太大改变。而相对于 DBSCAN, EM 算法能够对税务数据进行较好的聚合。虽然 EM 算法由于其本身的局限性,并不能识别出所有期望的纳税人类别,但总的来说, EM 算法可以将实验数据集划分为较为合理的几个簇,比较清楚地反应出某一种纳税人类型,能够为税务部门的税收监管工作提供有效的建议。 关键词: 数据挖掘;聚类分析; DBSCAN 算法; E

4、M 算法 Abstract As the Golden Tax Project(Second-Period) being executed, a four-level WAN of taxation has been built based on headquarters, provinces, cities and counties. Taxation department use the four-level WAN to collect the business data and accumulate a large number of tax data among every appl

5、ication system. These data is important to analyse the situation of tax collection. If these data can not be used effectively in data-analysis, then they will just become Information Islands and Data Tombs. This will prevent the development of the Informatization Construction of taxation. Therefore,

6、 it is a inevitable demand to use technique of data mining in a bran-new field - Taxation Management, to find out the useful information among thousands of accumulated data, and build Pre-warning Supervisory System of Taxation based on Data Warehouse. The primary content of this paper is to implemen

7、t the application of data mining in Pre-warning Supervisory System of Taxpayers(PSST). First, I design and implement DBSCAN and EM algorithms according to the requirements of PSST. Second, I use the tax data, which is collected from Jan.1st.2008 to Dec.31st.2008 provided by Guangxi province, to perf

8、orm DBSCAN and EM algorithms. The experimental results show that: DBSCAN is unable to cluster the dataset to appropriate clusters. Most of the data objects are assigned to a same cluster while others are marked as noises. And the result doesnt get better through changeing the parameters. But EM, ano

9、ther clustering algorithm, has a better result. Although EM can not recognise all the taxpayer types, it can assign the dataset to several clusters which can represent a certain type of taxpayers. Therefore, EM is better than DBSCAN to give suggestions in tax management. Key Words: Data Mining; Clus

10、tering; DBSCAN; EM 目录 第一章 绪论 . 1 1.1 研究背景及选题意义 . 1 1.2 研究现状及存在问题 . 2 1.3 主要研究内容及特点 . 5 1.4 本文结构安排 . 6 第二章 总体需求与系统结构 . 7 2.1 纳税人预警监控系统 . 7 2.1.1 纳税人预警监控系统介绍 . 7 2.1.2 纳税人预警监控系统的功能 . 8 2.2 数据挖掘子系统 . 10 2.2.1 数据挖掘子系统概述 . 10 2.2.2 数据挖掘子系统的需求 . 11 2.2 数据说明 . 13 2.3 数据挖掘子系统的架构 . 26 2.4 小结 . 30 第三章 数据挖掘子系统

11、的设计 . 31 3.1 数据预处理 . 31 3.2 聚类分析 . 31 3.2.1 聚类分析介绍 . 31 3.2.2 本系统的聚类算法基础 . 33 3.3 DBSCAN 算法 . 34 3.3.1 DBSCAN 算法原理 . 34 3.3.2 DBSCAN 算法在纳税人预警监控系统中的应用 . 36 3.3.3 DBSCAN 算法 描述 . 36 3.4 EM 算法 . 37 3.4.1 EM 算法原理 . 37 3.4.2 EM 算法在纳税人预警监控系统中的应用 . 39 3.4.3 EM 算法描述 . 40 3.5 小结 . 41 第四章 数据挖掘子系统的实现 . 43 4.1 W

12、eka 平台介绍 . 43 4.1.1 Weka 概述 . 43 4.1.2 Weka 的架构 . 43 4.1.3 Weka 的聚类功能 . 45 4.1.4 在 Weka 中集成算法 . 45 4.2 子系统的实现 . 46 4.2.1 聚类功能的实现 . 46 4.2.2 DBSCAN 算法的实现 . 47 4.2.3 EM 算法的实现 . 49 4.3 小结 . 51 第五章 实验结果与分析 . 53 5.1 实验数据介绍 . 53 5.2 DBSCAN 算法实验结果分析 . 53 5.2.1 参数值的估计 . 53 5.2.2 实验结果与分析 . 54 5.3 EM 算法实验结果分析

13、 . 59 5.3.1 簇个数的估计 . 59 5.3.2 实验结果与分析 . 60 5.4 DBSCAN 与 EM 的结果比较 . 65 5.4.1 DBSCAN 结果总结 . 65 5.4.2 EM 结果总结 . 67 5.4.3 DBSCAN 与 EM的比较 . 67 5.5 小结 . 67 第六章 总结与展望 . 69 参考文献 . 701 致 谢 . 71 Contents Chapter 1 Introduction. 1 1.1 Background and Significance . 1 1.2 Research Status and Problems . 2 1.3 Mai

14、n Research and Contributions of The Paper . 5 1.4 Outlines of Thesis . 6 Chapter 2 The Requirements and Architecture of The System . 7 2.1 Early-warning Supervisory System of Taxpayers(ESST) . 7 2.1.1 Introduction of ESST . 7 2.1.2 Function of ESST. 8 2.2 Data Mining Subsystem. 10 2.2.1 Introduction

15、 of Subsystem . 10 2.2.2 Requirement of Subsystem . 11 2.2 Description of Data . 13 2.3 The Architecture of Subsystem . 26 2.4 Summary. 30 Chapter 3 Design of Data Mining Subsystem . 31 3.1 Pre-process of Data . 31 3.2 Clustering. 31 3.2.1 Introduction of Clustering . 31 3.2.2 Basic Algorithm of Clu

16、stering in Subsystem . 33 3.3 DBSCAN Algorithm. 34 3.3.1 Theory of DBSCAN Algorithm . 34 3.3.2 Application of DBSCAN in ESST. 36 3.3.3 Description of DBSCAN Algorithm . 36 3.4 EM Algorithm. 37 3.4.1 Theory of EM Algotirhm . 37 3.4.2 Application of EM in ESST . 39 3.4.3 Description of EM Algotirhm .

17、40 3.5 Summary. 41 Chapter 4 Implementation of Data Mining Subsystem . 43 4.1 Weka . 43 4.1.1 Introduction of Weka. 43 4.1.2 Architecture of Weka . 43 4.1.3 Clustering function of Weka . 45 4.1.4 Integrate Algorithm to Weka . 45 4.2 Implementation of Subsystem. 46 4.2.1 Implementation of Clutering .

18、 46 4.2.2 Implementation of DBSCAN Algorithm . 47 4.2.3 Implementation of EM Algorithm . 49 4.3 Summary. 51 Chapter 5 Experimental Results Analysis . 53 5.1 Introduction of Experimental Data . 53 5.2 Experimental Results Analysis of DBSCAN . 53 5.2.1 Estimate of Parameters. 53 5.2.2 Results Analysis

19、 . 54 5.3 Experimental Results Analysis EM . 59 5.3.1 Estimate of Cluster Number. 59 5.3.2 Results Analysis . 60 5.4 Comparison between DBSCAN and EM . 65 5.4.1 Summary of DBSCAN . 65 5.4.2 Summary of EM. 67 5.4.3 Comparison between DBSCAN and EM. 67 5.5 Summary. 67 Chapter 6 Conclusions and Future

20、Work . 69 References . 70 Acknowledgement . 71 第一章 绪论 1 第一章 绪论 随着计算机科学技术的迅猛发展,电子化应用已成为现代化管理和决策不可缺少的手段。税务部门通过信息化建设,积累了大量分布在各个应用系统中的业务数据,这些数据是各级领导决策的重要依据。如何选用一种合适的分析方法,科学的掌握和分析这些大量的数据,是现在决策系统的问题所在。本章将对纳税人预警监控系统的研究现状以及存在的问题等进行阐述,最后对本文研究内容以及本文结构安排等进行总体阐述。 1.1 研究背景及选题意义 随着金税工程(二期)的实施, 全国建立了总局、省、地市、县四级税务广

21、域网,税务部门以四级网络为依托,实现了业务数据省级集中,积累了大量分布在各个应用系统中的涉税信息,是税务部门进行税收分析的重要依据。事实表明,基于传统事务处理的查询、报表工具已无法应对海量数据的分析工作,如果不能对其进行有效的分析利用,那么这些系统和数据只能是一个个“信息孤岛”和“数据坟墓”。如何将这些静态的历史数据通过各种处理,转换成具有分析决策价值的信息,已成为目前税务信息化建设向更高层次推进的瓶颈。因此,人们迫切需要一种能够去粗取精、对数据进行深层次加工的自动化技 术,而这正是数据挖掘技术 从海量的数据中提取知识和信息的技术的用武之地 1。 数据挖掘( Data Mining)是指借助于人工智能和高级统计方法技术,运用聚类分析、神经网络、数据可视化、决策树等技术,从大量数据中提取隐含的、全面的和有用的信息,该信息可以揭示数据的不明显的模式、趋势或规则 2。数据挖掘技术是面向应用的,它不仅面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以知道实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测 3。通过计算机系统的开发与数据挖掘技术的利用,可以在税源信息数据库的基础上,建立起科学的税收管理数据模型,利用各种分析工具在海量数据中发现模型和数据之间的关系

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。