快速星表交叉证认算法-ChineseVirtualObservatory.ppt

资源描述

1、面向天文信号处理的GPU加速与实现,三峡大学,徐洋,报告内容,1、射电信号交叉关联GPU加速,2、银河系整体消光贝叶斯定理GPU加速,射电信号交叉关联GPU加速,GPU的性价比越来越高，能耗越来越低，随着官方开发工具的逐步升级，学习及开发难度逐渐降低。,研究背景,研究内容,1、单GPU关联模型的建立及测试,2、GPU集群关联模型的建立及测试,射电干涉仪阵列规模的不断扩大带来了海量的数据处理需求，该需求的实时处理对传统解决方案的性能和成本等带来巨大的挑战，针对该挑战，我们提出了GPU解决方案。,射电信号交叉关联GPU加速,GPU与CPU架构的区别,射电信号交叉关联数据处理流程,FFT：快速傅里叶

2、变换,CMAC：复数的乘累加,射电信号交叉关联GPU加速,单GPU模型的建立,CMAC GPU实现模型,射电信号交叉关联GPU加速,B(B+1)/2,射电信号交叉关联GPU加速,单GPU模型的测试,CMAC阶段测试数据参数及规模,射电信号交叉关联GPU加速,单GPU模型的测试,基于GTX580单GPU的CMAC测试结果,“分块”即对累加过程分多次进行，测试结果性能最好的情况为异步方式下分块大小为256时的802GFLOPS，约为GTX580理论峰值的51%，还有一定的提升空间。,射电信号交叉关联GPU加速,GPU集群模型的建立,M个接收节点,N个FFT节点,K个相关节点,交叉相关GPU集群模型

3、,射电信号交叉关联GPU加速,GPU集群模型的测试,GPU集群基本处理过程测试（串行方式）,射电信号交叉关联GPU加速,GMRT项目需求,总数据产生速率： 2.014GB/s,FFT阶段计算量： 31.68GFLOPS,CMAC阶段计算量：544GFLOPS,GMRT (Giant Meter wave Radio Telescope)现用集群共有48个节点，包括16个接收节点、16个计算节点和16个存储节点。下表为望远镜基本配置参数：,即GMRT项目总的计算需求约为600GFLOPS，约占GTX580显卡峰值性能的40%，比上面单机GPU测试的51%的占用率要低，即完成整体项目的计算仅需单个

4、计算节点（一块GTX580显卡）,射电信号交叉关联GPU加速,FFT CMAC,16个接收节点,1个计算节点,GMRT交叉相关GPU集群模型,GMRT项目需求,银河系整体消光贝叶斯定理GPU加速,贝叶斯公式原型,根据94颗BHB校验星，对14265颗 BHB 候选星进行消光处理，采用Intel Core i7 2600k CPU的C程序需要近一个月的时间，通过GPU加速实现后，在GTX580显卡上仅需要2天。,计算密集型任务,总结,2、在面向计算密集型的贝叶斯定律时，相对CPU程序，可以得到15倍的加速效果。,1、经过大量的探索测试，GPU方案可以有效对射电信号的交叉关联过程进行加速。,3、随着GPU的进一步发展，将来可以满足更多的天文数据处理需求。,谢谢！,

展开阅读全文