天文学中的数据挖掘和知识发现.ppt

上传人:ga****84 文档编号:451822 上传时间:2018-10-08 格式:PPT 页数:37 大小:2.40MB
下载 相关 举报
天文学中的数据挖掘和知识发现.ppt_第1页
第1页 / 共37页
天文学中的数据挖掘和知识发现.ppt_第2页
第2页 / 共37页
天文学中的数据挖掘和知识发现.ppt_第3页
第3页 / 共37页
天文学中的数据挖掘和知识发现.ppt_第4页
第4页 / 共37页
天文学中的数据挖掘和知识发现.ppt_第5页
第5页 / 共37页
点击查看更多>>
资源描述

1、天文学中的数据挖掘,张彦霞 国家天文台2011.11.10贵阳,概要,必要性概念技巧问题展望文献,海量数据,NVO (IVOA) 注册的数据资源有14,000一些大型的天文数据库包括NASA空间天文项目已经完成或正在进行的大型天文巡天项目,如:MACHO 和相关的暗物质巡天: 1 TBDPOSS: 3 TB2MASS: 10 TBGALEX: 30 TBSDSS: 40 TB将来的巨型巡天项目,如:PanSTARRS:每晚 10 TB,预计最终40 PBLSST (Large Synoptic Survey Telescope):2018开始运行, with 3-Gigapixel camer

2、a每30秒10 GB每晚 30 TB,持续十年预计最终的图像数据100 PB 所有数据公开!预计最终的星表数据30 PB实时事件挖掘: 每晚事件10,000-100,000个, 持续十年每三晚巡全天一次: 制作天体的电影,天文学: 数据驱动的科学,天文学:是发现驱动的科学, 驱动发现的因素: 新问题 新的思想 新模型 新理论 更重要的是新数据!,天文学:是发现驱动的科学, 发现导致: 新的问题 新思想 新模型 新理论 更重要的是 . 更多的新数据! 因此,需要更有效的挖掘和分析算法或工具,天文学家一直在从事数据挖掘,“The data are mine, and you cant have t

3、hem!” 严格意义上讲 . 天文学家喜欢对事物进行分类 . (监督学习. 如,分类) 天文学家喜欢对事物归类 . (非监督学习. 如,聚类) 天文学家更希望发现新的天体或现象 . (半监督学习. 如, 离群探测),天文中的数据挖掘课题,压缩 (如. 图像和光谱)分类 (如. 恒星,星系,或伽马射线暴)重建 (如. 星系模糊图像的重建, 弱引力透镜质量分布的重建)特征抽取 (如. 恒星、星系和类星体的重要特征)参数估计 (如. 恒星参数估计, 测光红移预测, 太阳系外行星的轨道参数, 或宇宙参数 )模型选择 (如. 一颗恒星有几颗行星绕转?),Ofer Lahav, 2006, astro-p

4、h/0610703Summary on the 4th meeting on “Statistical Challenge in Modern Astronomy” held at Penn State University in June 2006,过去: 100到1000个独立的分布的异构数据 / 元数据 / 信息库.目前: 天文数据可以从融合的分布资源中获得,如虚拟天文台.将来: 随着大型巡天项目的发展,天文学在未来将越来越成为数据密集型的科学.挑战: 越来越难于将数据传输到用户 算法移植到数据 !,天文学研究的转变,数据驱动到数据密集,天文学一直以来就是数据驱动的科学现在成为数据密集型

5、的科学: 天文信息学(Astroinformatics )!面向数据的天文学研究= “第四范式”科学知识发现,大数据集的优点:很好地统计分析典型或特殊事件自动搜寻稀有事件,Scientific Knowledge !,第四范式: 数据密集型的科学发现,定义,数据挖掘:从大量的、不完全的、有噪声的、 模糊的、随机的实际应用数据中, 提取隐含在其中的、人们事先不知 道的、但又是潜在有用的信息和知 识的过程。,巨量,价值,EDP,MIS,DSS,知识发现的优点,产生,快速响应,发布,EDP: 电子数据加工MIS: 管理信息系统DSS: 决策支持系统,数据挖掘知识发现(KDD)过程的核心,数据清洁,数

6、据融合,数据库,数据仓库,知识,特定任务的数据,选择,数据挖掘,模式评估,数据挖掘:知识发现的过程,数据挖掘,数据库系统,统计学,其它学科,信息科学,机器学习&人工智能,可视化,数据挖掘:多学科的交叉学科,KDD: 机遇和挑战,数据丰富知识贫乏,驱动技术:(互动的管理信息系统, OLAP, 并行计算, Web, etc.),竞争的压力,数据挖掘技术的成熟,KDD,人工神经网络支持矢量机决策树 遗传算法近邻算法规则推导 粗糙集,数据挖掘的常用技术,数据总结分类分析聚类分析回归分析关联规则分析序列模式分析依赖关系分析偏差分析模式分析或统计分析时序数据分析其它,数据挖掘的任务,分类分析,定义按照某种

7、规则,新的数据被划分到已知类别中的一类。这个规则是通过具有标签的数据进行监督学习获得的。应用恒星分成不同的光谱型,星系按哈勃或形态分类,活动 星系核进一步细分,等等方法神经网络决策树Nave Bayesian Networks支持矢量机学习矢量量化遗传算法.,采用何种分类器?,分类器可以沿几个正交的轴来训练,探索所有的维数比较困难不同的任务需要不同的分类器来实现.,分类算法决策树, OC1神经网络最近邻规则或其他算法,观测参量流量, 位置, 色参数, 变化参量, 空间扩展, X射线, 可见光, 红外, .,训练样本WGACAT, ROSAT All Sky Survey, .,分类粗分: 恒星

8、 vs. 河外天体细分: A0 vs. B0, AGN vs. QSO vs. 星系,聚类分析,定义:按照某种规律聚在一起的称为一类。所用的数据是无标签的,通过非监督的学习方式训练数据,类间的差异尽可能地大,而类内的差异尽可能地小。应用:SDSS的双色图恒星聚在一块 如香蕉状,类星体则偏离该区域。方法:K均值聚类Hierarchical clustering预期最大算法(Expectation Maximization algorithm)高斯混合模型(Gaussian mixture modeling)主成分分析优越性 新的概念(Concept discovery)点滴知识(Bootstra

9、pping knowledge),聚类分析,1,Djorgovski,etal.,基本的天文问题 1,聚类问题:在数据集中查找聚类的天体统计意义和科学意义上各个类别的重要性是什么?找“朋友的朋友”或近邻的最优算法?N 1010, 如何有效地排序、分类?维数 1000 因此, 若干子空间搜索问题是否存在两点或更高阶的相关性?N 1010, N-point 相关怎么做? 与N2logN成正比的算法显然不能用,基本的天文问题 2,离群探测: (未知的未知)找到那些超出我们预期的天体或事件 (不属于已知类别)这些有可能是真正的科学发现或垃圾因此,离群探测可用于:新奇发现 Nobel prize?异常探

10、测 探测系统是否正常工作?数据质量保证 数据流是否正常工作?在1000维空间中或感兴趣的子空间(低维空间)中,如何最优化地探测到离群?怎样衡量“兴趣度”?,降维问题:寻找相关性和参数的基平面,维数成千上万维灾 !参数之间的相关性?线性或非线性混合?本征值或紧致表示是否可以代表整个数据集的性质?,基本的天文问题 3,基本的天文问题 4,叠加和分解问题:在参数空间中重叠的天体找出它们的所属类别假设1010 天体在1000维空间中重叠怎么办?如何最优地分解和抽取不同类型的天体?一些约束条件如何应用?,最优化问题:在高维参数空间中如何找到复杂的多变量函数的最优解(最佳拟合、全局最大似然),基本的天文问

11、题 5,为什么需要分布的数据挖掘?,由于,“Just Checking”, 许多重大的科学发现产生于多数据源的交叉证认:- 类星体- Gamma-ray bursts- 极亮红外星系- X射线黑洞双星- 射电星系 . . .,天文数据的分布性,不同的人、研究所、项目、国家、机构, 数据的异构性 (如,数据库, 图像, 星表, 文件系统, 网页, 文档数据图书馆, 二进制, 文本, 结构的,非结构的, )天文学家要查询和挖掘这些数据需要进行两步操作尽管虚拟天文台驱动数据发现和融合,但是 仍然不能有助于大型数据挖掘的开展,分布的数据挖掘,分布的数据挖掘有两种类型:分布的挖掘数据挖掘分布的数据第一类

12、要求复杂的算法移植到数据第二类多种形式, 数据整体存放或分割上集中, 或者数据分布存放在不同的地方,实践数据挖掘,线性或非线性高斯或非高斯连续或离散 是否存在缺值对比特征和样本数按照数据挖据的任务和特征, 选择合适的数据挖掘算法,未来天文数据的挑战,统计、计算和挖掘方法用于peta-和 exa-量级的可扩张性在海量多维数据空间中同时多点拟合的算法优化用于探索PB级数据的紧致表示的多分辨率、多级、分形、分级方法和结构PB量级数据的可视化分析 (包括特征探测, 模型和有趣事件或天体的发现, 相关关系、聚类, 新类型天体的发现, 降维)高维PB级数据的索引和联合存储技巧(树、图、网络拓扑)PB级数据

13、库的快速查询和搜索方法,成功的数据挖掘项目(I),http:/dame.dsf.unina.it/, 测光红移估计 球状星团搜寻多波段测光暂源分类 天文图像分割,http:/astrostatistics.psu.edu/vostat/,成功的数据挖掘项目(II),VOSTATStatistical Analysis for the Virtual Observatory,VOStat项目通过网页服务为天文学家提供了一套工具。天文学家可以按照需要调用简单的或复杂的程序来实现自己的任务。这套工具是基于大的开源的统计计算语言和环境R 开发的。所有的统计计算在VOStat 的服务器端进行,算完后再传

14、给用户。,天文会议或组织,ADASS(The Astronomical Data Analysis Software and Systems)ADA(The Astronomical Data Analysis)Summer School in Statistics for Astronomers Statistical Challenges in Modern Astronomy Astroinformatics Astrostatistics,数据挖掘的参考文献(I),“From Data Mining To Knowledge Discovery: An Overview.” Fayya

15、d, U.M., Piatetsky-Shapiro, G., and Smyth, P. In Advances In Knowledge Discovery And Data Mining , eds. U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, AAAI Press/The MIT Press, Menlo Park, CA., 1996, pp. 1-34. “Data Mining and Machine Learning in Astronomy”, Ball,NicholasM.; Brunner

16、,RobertJ. International Journal of Modern Physics D, Volume 19, Issue 07, pp. 1049-1106 (2010). “Scientific Data Mining in Astronomy”Borne,Kirkeprint arXiv:0911.0505 “Data Mining and Discovery of Astronomical Knowledge”Al-Naymat,GhaziScientific Data Mining and Knowledge Discovery, , Volume . ISBN 97

17、8-3-642-02789-5. Springer-Verlag Berlin Heidelberg, 2009, p. 319,数据挖掘的参考文献(II),“数据挖掘技术在天文学中的应用” 张彦霞 赵永恒. 科研信息化技术与应用, 2011,V2(3): 13-27 “Mining knowledge in astrophysical massive data sets”Brescia,Massimo; Longo,Giuseppe; Pasian,Fabio Nuclear Instruments and Methods in Physics Research Section A, Volume 623, Issue 2, p. 845-849. “DAME: A Web Oriented Infrastructure for Scientific Data Mining Richards,JosephW. eprint arXiv:1104.3142,Thank you very much !,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。