天体光谱数据挖掘技术.ppt-资源下载-文客久久网

天体光谱数据挖掘技术.ppt

1、天体光谱数据挖掘技术太原科技大学计算机科学与技术学院张继福 2008年 11月一、概述1）数据挖掘 2）天体光谱数据挖掘 3）课题的研究意义二、主要研究工作1）基于约束 FP树的天体光谱数据相关性分析2）基于概念格的天体光谱离群数据挖掘数据挖掘定义：数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含的、未知的、潜在的有用信息和知识，为决策支持服务。主要任务：关联规则、分类、聚类、离群数据等。常用的方法有：关联规则、决策树、神经网络、遗传算法、粗糙集、模糊集、概念格、统计分析等。天体光谱数据挖掘我国正在建造一台大天区面积多目标光纤光谱望远镜（ LAMOST），

2、是国家重大科学工程项目，也是世界上光谱获取率最高的望远镜。预计 LAMOST所观测到的光谱数据容量将有可能达到 4TB。急需一种新的以计算机为主的数据分析技术 , 分析和识别如此庞大的海量光谱数据。天体光谱数据处理主要内容 :预处理 (去噪、归一化等 )、分类与识别、测量（红移等参数）等。一条 Seyfert 2 光谱数据图 (红移为 0)天体光谱是天体电磁辐射按照波长的有序排列，蕴含着天体的重要物理信息，例如：天体的化学成份、天体的表面温度、直径、质量、光度以及天体的视向运动和自转。天文学家和天体物理学家通过分析天体光谱的信息，不仅可以研究宇宙中物质的分布特征，还可以研究天体的形

3、成和随时间的演化等重大科学问题。主要的方法交叉相关分析与主成分分析（ PCA）、人工神经网络、小波变换、贝叶斯统计、 SVM等。典型的成果1） Autoclass，基于贝叶斯统计的一种光谱分类方法，发现了一些以前未注意的光谱类型和谱线；2） Gulati等人采用两层 BP神经网络方法，用于恒星光谱次型的分类；3） Ellis等人采用交叉相关分析对光谱进行分类；4）邱波等人采用基于粗糙集的方法，进行了恒星光谱的分类识别；5）覃冬梅等人采用基于主分量分析法的二维恒星特征空间的快速光谱识别方法；6）刘中田等人提出基于小波特征的 M型星自动识别方法等。课题的研究意义由于天文界对宇宙的认识还比较有限

4、， LAMOST巡天计划的一个重要任务是要发现一些新的、特殊类型的天体，因此，如何利用数据挖掘技术从海量天体光谱数据中发现未知的、特殊的天体及天体规律是数据挖掘值得研究和探索的新应用领域。面向特定任务的数据挖掘是当前数据挖掘领域发展的趋势之一。以 LAMOST项目为背景，对天体光谱数据挖掘技术进行了研究，其研究成果不仅具有重要的理论价值，而且可直接应用到 LAMOST中，为国家重大科学工程提供技术支撑。退回退回引言关联规则描述了属性之间的关联程度，也就是说有效地描述了数据集属性之间的相关性关系。利用关联规则来描述天体光谱数据特征与其物理化学性质之间存在的、未知的相关性是可行性的，具有重要

5、的应用价值。频繁模式集的生成是提高关联规则挖掘效率的关键。频繁模式生成主要有： Apriori和 FP两类算法。 Apriori算法优点 : 思路比较清晰，以递归统计为基础，剪枝生成频繁集；缺点 : 在生成频繁模式过程中，需要产生大量的候选项和多次遍历数据库， I/O代价太高，难以适应海量高维数据。 FP算法优点 : (l) 通过对 FP树的递归访问，产生频繁模式集，仅需要构造 FP树和条件 FP树，不需要产生候选项集；(2) 对事务数据库仅需两次遍历，第 l次遍历产生频繁 l-项集，第 2次遍历用于构造 FP树，从而降低了访问数据库的次数。缺点 : FP树需要占用大量内存。约束 FP树及其构造一阶谓词逻辑与背景知识数据挖掘是从宏观角度利用积累的巨量数据进行知识抽象的高级阶段，是一项高级的智能活动，因此数据挖掘过程离不开背景知识的支持。关联规则挖掘过程也离不开背景知识的支持。面向关联规则挖掘的背景知识实际上是描述数据集中的对象与属性之间、属性与属性之间的约束关系，因此采用一阶谓词逻辑描述关联规则挖掘中的背景知识是可行的。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？