基于临床数据的数据挖掘软件开发 ——聚类分析与可视化模块设计---毕业论文.doc

上传人:滴答 文档编号:1274239 上传时间:2019-01-26 格式:DOC 页数:51 大小:1.64MB
下载 相关 举报
基于临床数据的数据挖掘软件开发 ——聚类分析与可视化模块设计---毕业论文.doc_第1页
第1页 / 共51页
基于临床数据的数据挖掘软件开发 ——聚类分析与可视化模块设计---毕业论文.doc_第2页
第2页 / 共51页
基于临床数据的数据挖掘软件开发 ——聚类分析与可视化模块设计---毕业论文.doc_第3页
第3页 / 共51页
基于临床数据的数据挖掘软件开发 ——聚类分析与可视化模块设计---毕业论文.doc_第4页
第4页 / 共51页
基于临床数据的数据挖掘软件开发 ——聚类分析与可视化模块设计---毕业论文.doc_第5页
第5页 / 共51页
点击查看更多>>
资源描述

1、 本 科 毕 业 论 文 基于 临床 数据的数据挖掘软件开发 聚类分析与可视化模块 设计 Development of DM Software Based on the Clinical Data The Design of Clustering and Visualization 姓 名: 学 号: 学 院:软件学院 系: 软件工程 专 业:软件工程 年 级: 指导教师: 年 月摘 要 I 摘 要 随着经济和社会的快速发展、计算机技术的进步日新月异, 人们拥有了越来越强大的数据存储技术,在社会的各个领域每时每刻都在产生大量的数据 ,导致人们淹没在海量数据之中 。 为了能够在大量数据之中寻找价

2、值,数据挖掘 技术 应运而生。 数据挖掘 是 一门综合性学科,涉及了多门学科的概念、理论、方法和技术。从 20 世纪 80 年代诞生以来,数据挖掘的研究和应用都得到了快速的发展,在制造业 、服务业以及医学界等行业都可以发现数据挖掘的身影。尽管数据挖掘这门学科已经深入到人们生活的各个方面,但作为一门新兴的技术学科,其理论框架尚未成熟,需要进一步研究,但仍然具备充足的发展潜力。 本文主要是 针 对基于医学数据的数据挖掘软件开发 而 进行 的 设计与实现,简单介绍了数据挖掘、聚类分析算法和可视化 的相关 概念 ,以此作为技术基础对数据挖掘软件进行了进一步的设计,并利用实现的数据挖掘软件对相关医学数据

3、进行分析,得出相应的结论, 旨在能够 获得一定的医学价值。 关键词: 数据挖掘;聚类;可视化 Abstract II Abstract Along with the development of economy and the progress of computer technology, people have more powerful technology for data storage, meanwhile large amounts of data are produced in every aspect of society life everyday, causing peo

4、ple drowned in the sea of massive data. In order to find valuable information among great amounts of data, data mining technology emerges. Data mining is a comprehensive discipline involving concepts, theories, methods and techniques of multiply disciplines. Since the 1980s, the research of data min

5、ing has achieved great development. In manufacturing, service industry, medical field and all kinds of other fields, the technology of data mining can be applied. Although the data mining subject has gone deeply into every aspect of life, but as a newly emerged technology subject, the theoretical fr

6、amework of it is not yet mature, which requires further study. This subject still requires plenty of potential for development. This paper focuses mainly on the design and implementation of the development for data mining software based on medical data analysis. And it firstly introduces the related

7、 concepts of data mining, cluster analysis algorithm, and visualization. Then, this paper elaborates the further design of data mining software based on these technologies. And we also use the realized data mining software to analyze medical data, and finally draw corresponding conclusions and obtai

8、n certain valuable medical information, which are also included in this paper. Key words: data mining; clustering; visualization 目 录 III 目 录 第一章 绪论 . 1 1.1 研究背景及意义 .1 1.2 论文组织结构 .3 第二章 相关技术概念介绍 . 4 2.1 数据挖掘基础知识 .4 2.1.1 数据挖掘的发展历史 .4 2.1.2 数据挖掘的概念 .5 2.1.3 数据挖掘的功能 .5 2.1.4 数据挖掘的过程 .6 2.2 聚类分析技术 .8 2.

9、2.1 聚类概念 .8 2.2.2 聚类分析算法 .8 2.2.3 K 均值算法 .10 2.2.4 EM 算法 . 11 2.3 Weka 数据挖掘软件 . 11 2.4 可视化开发组件 .12 2.4.1 Java 3D.12 2.4.2 JFreeChart.12 第三章 软件设计与实现 .14 3.1 软件简介与开发环境 .14 3.1.1 软件简介 .14 3.1.2 开发环境 .14 3.2 软件设计目标 .14 3.2.1 整体设计目标 .14 3.2.2 聚类分析模块设计目标 .15 3.2.3 可视化模块设计目标 .15 3.3 概要设计 .15 目 录 IV 3.3.1 概

10、要设计任务 .15 3.3.2 软件总体概要设计 .15 3.3.3 聚类模块设计 .17 3.3.4 可视化模块设计 .17 3.3.5 接口设 计 .18 3.3.6 运行设计 .19 3.3.7 系统出错处理设计 .20 3.4 详细设计 .20 3.4.1 详细设计的任务 .20 3.4.2 软件总体详细设计 .20 3.4.3 聚类模块设计与实现 .23 3.4.4 可视化模块设计与实现 .30 第四章 运行结果 .36 4.1 软件运行结果 .36 4.2 聚类分析运行结果 .37 4.3 可视化运行结果 .39 第五章 结论与展望 .42 参考文献 .43 致 谢 .44 Con

11、tent V Content Chapter 1 Preface. 1 1.1 Introduction .1 1.2 Structure of dissertation.3 Chapter 2 System related technologies outline . 4 2.1 Basic knowledge of data mining .4 2.1.1 Development history of data mining.4 2.1.2 Concept of data mining .5 2.1.3 Function of data mining .5 2.1.4 Process of

12、 data mining .6 2.2 Clustering analysis technology .8 2.2.1 Concept of clustering .8 2.2.2 Clustering algorithm .8 2.2.3 K-Means algorithm .10 2.2.4 EM algorithm . 11 2.3 Weka . 11 2.4 Tools of visualization development .12 2.4.1 Java 3D.12 2.4.2 JFreeChart .12 Chapter 3 Software design and implemen

13、tation .14 3.1 Introduction of software and development environment.14 3.1.1 Introduction of software.14 3.1.2 Development environment .14 3.2 Design objective of software .14 3.2.1 Design objective of integer .14 3.2.2 Design objective of clustering module .15 3.2.3 Design objective of visualizatio

14、n module .15 3.3 Preliminary design.15 Content VI 3.3.1 Tasks of preliminary design .15 3.3.2 Preliminary design of integer .15 3.3.3 Preliminary design of clustering module .17 3.3.4 Preliminary design of visualization module .17 3.3.5 Design of interfaces .18 3.3.6 Design of operation .19 3.3.7 De

15、sign of error handling .20 3.4 Detailed design .20 3.4.1 Tasks of detailed design .20 3.4.2 Detailed design of integer .20 3.4.3 Detailed design of clustering module.23 3.4.4 Detailed design of visualization module .30 Chapter 4 Running results .36 4.1 Running results of software .36 4.2 Running res

16、ults of clustering module .37 4.3 Running results of visualization module .39 Chapter 5 Conclusions and visions.42 References .43 Acknowledgements.44 第一章 绪论 1 第一章 绪论 1.1 研究背景及意义 随着计算机处理能力的提高 , 数据库技术的飞速发展以及人们获取数据的方式越发多样,人们 所拥有的数据急剧增加。然而, 却缺乏 能够对海量数据进行分析处理 、 发现潜在价值的工具,因此,数据挖掘技术应运而生。 数据挖掘诞生 于 20 世纪 80

17、年代后期,并在 这 之后有了蓬勃繁荣的发展,渗透到社会的各个方面。在零售业、制造业、 通讯业、 金融业 、医药界等行业都有数据挖掘 应用 的 成功案例。 只要某产业拥有具备分析价值和需求的数据库或者数据仓库,都可以凭借数据挖掘技术的应用来发现潜在价值,提高行业竞争力 。 特别是对于医药行业来说,数据挖掘技术的运用不仅可以提高竞争力和效益,还能为医学的发展提供动力。医 学 数据信息是以治愈病人为首要目的而搜集的数据,同时也具备十分宝贵的医学研究价值。因其特殊性,医 学 数据信息具有如下特点 1: 1. 多样性:医学信息的形式具有多样性,包括信号(如脑电波等)、图像(如核磁共振生成的结果)、数字(

18、如化验结果)、文字及语音视频等等。这种多样性有别于其他领域的数据,增加了数据挖掘的难度。 2. 不完整性: 由于病例的有限性以及对于病人隐私的保护,使得在对医学数据进行数据处理及挖掘时,无法全面地反映 某种疾病的信息。此外,医学信息,尤其是文字信息,在表达上具有一定的主观性和模糊性,使得医学数据本身会受到主观影响。因此,客观缺陷以及主观影响决定了医学数据的不完整性。 3. 冗余性:医学数据库是一个庞大的数据资源,每天都会有大量相同或部分相同的数据信息存储于其中;由于数据来源及表达形式的多样性,在进行数据挖掘之前,需要对冗余 或者不完整的 数据 进行处理, 以 满足数据挖掘的要求 ,从而 提高分

19、析结果的可靠性。 4. 隐私性: 医学数据信息来源于对病人体征信息以及病症数据的采集。这些信息的泄露,会导致患者的日常生活受到不必要的打扰,甚 至是被不法分子加以利用来进行违法犯罪。这就要求在对医学信息进行数据挖掘之前,需要采取严第一章 绪论 2 格的保密措施防止信息泄露,同时还需要得到患者的许可。 目前,数据挖掘在医学领域的运用主要集中在以下四个方面 2: 1. 疾病辅助诊断:采用数据挖掘技术,对大量的医疗历史信息进行处理,以期发现具备医学价值的诊断规则,然后依据患者的各项体征与病征(比如性别、年龄、 各项检查结果 等) 作出诊断结论。由于是对大量的历史数据进行挖掘,提高了诊断的客观性和可靠

20、性,所得的诊断结果也具有一定的普遍性。 2. 药物开发 :采用数据挖掘建立的药物开发系统,可 以准确定位开发目标,有效缩短开发周期,提高效益。 3. 遗传学研究: 遗传是 由 基因决定的,而基因包含有大量的 DNA 数据。通过数据挖掘技术的应用,可以从 DNA数据中寻找到具有统计特异性的序列组 3 4,提高研究的有效性。 4. 医院信息系统 :包含临床信息系统和管理信息系统两部分。数据挖掘技术主要应用在关注疾病信息(比如发病率、以及患者人数变化等)、医疗器械及药物使用等领域。 本 毕业设计 属于第一种运用领域 ,其 需求 来源于指导教师与中山医院 一位 医生 的合作项目 , 所使用的数据 主要

21、包括搜集到的癌症病人的病理、病历各项数据。该项目 的主要目的在于找出癌症的发病情况与体征因素和其他病理因素之间的联系。但 癌症的发病原因需要得到进一步的研究,而与癌症相关的各项病理因素名目繁多,通过一般的统计分析方法难以得到可靠的医学价值 ,由此提出了对于基于医学数据开发数据挖掘软件的需要。 本毕业设计旨在 针对合作项目的需要 ,开发出能够满足基本数据挖掘功能的软件,以帮助项目组 从大量的医学信息中 更便捷、更准确地发现 潜在的医学价值 ,为癌症的研究提供一定的帮助。 本研究课题的意义在于: 1. 按照具有针对性的需求,设计开发基于医学数据的数据挖掘软件, 以期能够更高效便捷 地对大 量医学数

22、据进行处理,有效 发现 有关癌症的 各项病征之间的潜在联系,为癌症的研究与治疗提供一定的参考价值 ,并能对后续的开发研究工作起到 一定的 启发作用 。 2. 对聚类分析的一般方法进行探讨与比较,特别是对 K 均值算法 和 EM(期望最大值 )算法 进行较为详细的阐述。 第一章 绪论 3 3. 对于聚类结果以及数据集的可视化方面进行了研究,其中从不同查看角度对数据集进行了可视化展示,具有一定的新意。 1.2 论文组织结构 本文一共分为五章,本文首先从在数据挖掘软件开发过程中所涉及的技术出发,阐述各项技术的相关概念 。随后根据医学项目提出的各种需求,对软件和涉及的模块 进行分析与设计。然后使用开发的数据挖掘软件,对提供的医学数据进行数据挖掘分析工作,并依据获得的结果得出相应的结论。 本文的主要结构为: 在第一章中, 主要描述本文的研究背景和意以及对本文的 综述 ,同时简单介绍数据挖掘技术在医学领域的运用。 第二章对本毕业设计中涉及到的相关技术进行概述。 第三章中将对数据挖掘软件 的开发 进行分析与设计,主要包括软件的设计目标 、总体设计和详细设计。 第四章的主要内容包括 对开发完成的数据挖掘软件的运行结果进行分析工作 。 第五章是在前四章的基础之上,得出相应的结论,并对毕业设计所做的工作进 行总结,指出优点与不足。

展开阅读全文
相关资源
相关搜索
资源标签

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。