连续数据的离散化研究[开题报告].doc

上传人:一*** 文档编号:45378 上传时间:2018-05-14 格式:DOC 页数:5 大小:45KB
下载 相关 举报
连续数据的离散化研究[开题报告].doc_第1页
第1页 / 共5页
连续数据的离散化研究[开题报告].doc_第2页
第2页 / 共5页
连续数据的离散化研究[开题报告].doc_第3页
第3页 / 共5页
连续数据的离散化研究[开题报告].doc_第4页
第4页 / 共5页
连续数据的离散化研究[开题报告].doc_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

1、(2011届)本科毕业论文(设计)开题报告题目连续数据的离散化研究学院数学与信息工程学院专业信息管理与信息系统班级学号姓名指导教师教务处制一、选题的背景、意义21世纪以来,随着科学技术和社会生产力的迅速发展以及人们认识和管理水平的提高,同时伴随着信息化,电子化进程的发展,信息处理在整个社会规模上迅速产业化。同时计算机和信息技术的高速发展给人类社会带来了巨大的变化和影响,数据库管理系统的日益普及,使人们能够非常方便地获取和存储大量的数据,数据成为了最重要的战略资源。如今,随着计算机、网络和通讯等信息技术的高速发展,当今社会已经进入了网络信息时代,计算机技术得到了迅猛的发展,特别是存储技术、数据库

2、技术和网络技术,信息处理在整个社会规模上迅速产业化,在技术表现为整个社会对大规模数据操作的产业化。存储设备单位价格的不断下跌而容量的急剧扩大,关系数据库、对象数据库、多媒体数据库、地理信息数据库和空间数据库的不断成熟并得到广泛的应用,数据库管理系统的日益普及,这使得人们所积累的数据越来越多,并且数据与信息系统中的不确定性更加显著。海量的数据背后隐藏着许多重要的信息,人们希望能够对其进行深入分析,以便更好地利用这些数据所隐藏的信息。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,缺乏挖掘数据背后隐藏知识的手段,导

3、致了“数据爆炸但知识贫乏的现象”。例如,商业上条形码的普遍使用,使得每天很多行业都积累了数以万计的数据,各种同步卫星每小时传回地球的遥感图像数据就达50千兆字节。要把大量的数据作为信息,信息成为知识,知识付诸于应用,已使一些传统的方法感到无能为力。海量的数据背后隐藏着许多重要的信息,人们希望能够对其进行深入分析,以便更好地利用这些数据所隐藏的信息。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,缺乏挖掘数据背后隐藏知识的手段。因此,如何从大量的、杂乱无章的、强干扰的数据中挖掘出潜在的、有利用价值的信息,便成为人

4、类智能信息处理中面临的前所未有的挑战。由此产生了人工智能研究的一个崭新领域一一数据挖掘(DATAMINING,简称DM。实际数据库中存在较多的连续型数值属性,而现有的很多数据挖掘方法只能处理离散型的属性,因而需要对连续属性进行离散化。因此,连续属性离散化方法成为数据挖掘领域重要的基础性工作,直接影响到数据挖掘的质量。由于各种相关领域的实际应用的推进,对于连续数据的离散化算法取得了突飞猛进的发展,连续属性的离散化问题被广泛研究,并取得了大量成果,研究人员从不同领域提出了多种离散化方法。连续数据离散化技术在传统的机器学习中被当作边缘性课题而没有受到足够的重视,随着近年来数据挖掘的不断更新发展,数据

5、离散化在数据挖掘技术中渐渐显现出其不可替代的重要性,在规则提取、特征分类等很多算法中,尤其是在应用粗集理论进行数据挖掘的研究中,连续属性数据必须进行离散化。但作为一种相对比较新兴的领域,其现有的算法还远没有达到领人满意的程度。因此,本人认为对连续数据的离散化研究是当今国内的一个重要的课题。为数据挖掘做准备,掌握连续数据的离散化方法并知道各种方法的适用环境对于数据处理是必要的。因此,本次毕业设计选择连续数据的离散化研究的选题。二、研究的基本内容与拟解决的主要问题1研究的基本内容掌握连续值属性离散化方法的基本思想,设一个具有连续值属性的决策信息系统SU,ATD,这里U为有限非空的样本集合,称为论域

6、或对象空问,AT是样本空间的非空属性集合,D为决策属性集合,对于每个连续值属性AAT,其值域旷是样本空间U在属性A上的取值范围,由实数域上的一段左闭右开的区间VA,WA来表示。对样本空间U的连续值属性离散化的结果就是要在每个连续值属性A的值域V中寻找一个恰当的划分,且在划分P下的系统与初始系统具有相同的决策能力,只将属性值域划分为若干互不相交的子区间,对每个子区间以符号赋值,即得到一组屹上的离散化取值。因为任何划分只是由一组值域屹内的分割点序列VVV。确定的,所以,离散化就是要在每个连续值域屹的划分点序列集合中选出一个恰当的划分点序列,进而形成满足系统需要的划分。学习和掌握几种典型的连续数据离

7、散化方法,并熟练掌握其中一种,利用编程工具实现并编写一个连续数据离散化的方法,并用实际的连续数据进行离散化后放置到程序决策树分析方法C45中进行测试。2拟解决的主要问题学习连续数据离散化的方法,包括局部离散化和全局离散化方法、监督离散化和非监督离散化方法、静态离散化和动态离散化方法。同时,熟练掌握其中一种方法并编程实现,并通过实际数据对连续属性离散化并对离散化后的数据进行分析。三、研究的方法与技术路线、研究难点,预期达到的目标1研究方法和技术路线主要采用的研究方法为实验法、文献资料法、程序设计法、数据分析法,即根据离散化的方法找到具体的对连续数据的离散化的步骤,用软件工程的方法实现系统程序。本

8、次设计中采用的开发环境为VISUALSTUDIO2005C和MICROSOFTSQLSERVER2000数据库。开发工具VISUALSTUDIONET是NET平台下最为强大的开发工具,无论是软件服务商,还是企业应用程序的部署与发布,VISUALSTUDIONET都可以提供近乎完美的解决方案。VISUALSTUDIONET提供了包括设计、编码、编译调试、数据库联接操作等基本功能和基于开放架构的服务器组件开发平台、企业开发工具和应用程序重新发布工具以及性能评测报告等高级功能。数据库MICROSOFTSQLSERVER2000是一个关系数据库管理系统,是MICROSOFT公司推出的SQLSERVER

9、数据库管理系统的一个版本,具有INTERNET集成、可伸缩和可用性、企业数据库等功能的数据库管理系统。2研究难点本次设计中理论内容是学习过程中没有遇到过的新问题,因此,理解和掌握连续数据离散化的理论和算法是一个挑战;另外,然后如何通过编程来实现某种连续属性离散化方法也是本文研究的难点。3预期目标(1)查到连续数据离散化的方法并熟悉这些离散化方法(2)掌握这几种连续数据离散化方法(3)在掌握离散化方法的基础上,通过编程实现其中一种算法。四、论文详细工作进度和安排2011011120110301系统开发与代码设计设计阶段,开始撰写论文初稿,完成论文提纲。201103012011315论文初稿201

10、1031620110505毕业实习,论文完善2011050620110512论文定稿20110513毕业论文评阅、修改和论文答辩五、主要参考文献1SHORTLANDR,SCARFERDIGGINGFORGOLDIEEREVIEW,199552132172刘伟基于粗集理论的数据挖掘中数据预处理的方法研究D长春理工大学,20043仇丽青粗糙集在数据挖掘中的应用研究D山东师范大学,20054岳海亮,闫德勤一种基于信息论的决策表连续属性离散化算法J计算机科学,2010,42312375赵军,张显跃基于粗集理论的数据离散化技术研究J重庆邮电学院学报自然科学版,2006,186276孟祥萍,鞠传香,王贤勇

11、,任纪川粗糙集理论中基于属性重要性的离散化方法J东北电力学院学院报,200525140437赵荣泳,张浩,李翠玲,樊留群,王骏粗糙集连续属性离散化模型研究与应用要点分析R同济大学CIMS研究中心,20058田学全信息系统中连续属性的离散化及规则提取D电子科技大学,20069JRQUILANIMPROVEDUSEOFCONTINUOUSATTRIBUTESINC45JJOURNALOFARTIFICIALINTELIGENCERESEARCH,1996,4779010汪庆,张巍,刘鹏连续特征离散化方法综述DB/OLHTTP/WENKUBAIDUCOM/VIEW/D38264791711CC793

12、1B71691HTML,2010120511杨宝华基于粗集的数据挖掘算法研究及应用D合肥工业大学,200512孔祥明基于变精度粗糙集的连续属性离散化方法及数据预处理方法D东北师范大学,200613倪春鹏决策树在数据挖掘中若干问题的研究D天津大学,200414刘业政,焦宁,姜元春连续属性离散化算法比较研究J计算机应用研究,2007,9293315HARTVIGSENG,JOHNSANDCORPERATIONINADISTRIBUTEDARTIFICIALINTELLIGENCEENVIRONMENTTHESTORMCASTAPPLICATIONJENGINEE2RINGAPPLYOFARTIFICIALINTELLIGENCE,1990,3322923716乔增伟,孙卫祥C45算法的两点改进J江苏工业学院学报,2008,204565917NITESHVCHAWLAC45ANDIMBALANCEDDATASETSINVESTIGATINGTHEEFFECTOFSAMPLINGMETHOD,PROBABILISTICESTIMATE,ANDDECISIONTREESTRUCTURECWORKSHOPONLEARNINGFROMIMBALANCEDDATASETSII,ICML,WASHINGTONDC,2003

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 开题报告

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。