1、面向天文信号处理的GPU加速与实现,三峡大学,徐洋,报告内容,1、射电信号交叉关联GPU加速,2、银河系整体消光贝叶斯定理GPU加速,射电信号交叉关联GPU加速,GPU的性价比越来越高,能耗越来越低,随着官方开发工具的逐步升级,学习及开发难度逐渐降低。,研究背景,研究内容,1、单GPU关联模型的建立及测试,2、GPU集群关联模型的建立及测试,射电干涉仪阵列规模的不断扩大带来了海量的数据处理需求,该需求的实时处理对传统解决方案的性能和成本等带来巨大的挑战,针对该挑战,我们提出了GPU解决方案。,射电信号交叉关联GPU加速,GPU与CPU架构的区别,射电信号交叉关联数据处理流程,FFT:快速傅里叶
2、变换,CMAC:复数的乘累加,射电信号交叉关联GPU加速,单GPU模型的建立,CMAC GPU实现模型,射电信号交叉关联GPU加速,B(B+1)/2,射电信号交叉关联GPU加速,单GPU模型的测试,CMAC阶段测试数据参数及规模,射电信号交叉关联GPU加速,单GPU模型的测试,基于GTX580单GPU的CMAC测试结果,“分块”即对累加过程分多次进行,测试结果性能最好的情况为异步方式下分块大小为256时的802GFLOPS,约为GTX580理论峰值的51%,还有一定的提升空间。,射电信号交叉关联GPU加速,GPU集群模型的建立,M个接收节点,N个FFT节点,K个相关节点,交叉相关GPU集群模型
3、,射电信号交叉关联GPU加速,GPU集群模型的测试,GPU集群基本处理过程测试(串行方式),射电信号交叉关联GPU加速,GMRT项目需求,总数据产生速率: 2.014GB/s,FFT阶段计算量: 31.68GFLOPS,CMAC阶段计算量:544GFLOPS,GMRT (Giant Meter wave Radio Telescope)现用集群共有48个节点,包括16个接收节点、16个计算节点和16个存储节点。下表为望远镜基本配置参数:,即GMRT项目总的计算需求约为600GFLOPS,约占GTX580显卡峰值性能的40%,比上面单机GPU测试的51%的占用率要低,即完成整体项目的计算仅需单个
4、计算节点(一块GTX580显卡),射电信号交叉关联GPU加速,FFT CMAC,16个接收节点,1个计算节点,GMRT交叉相关GPU集群模型,GMRT项目需求,银河系整体消光贝叶斯定理GPU加速,贝叶斯公式原型,根据94颗BHB校验星,对14265颗 BHB 候选星进行消光处理,采用Intel Core i7 2600k CPU的C程序需要近一个月的时间,通过GPU加速实现后,在GTX580显卡上仅需要2天。,计算密集型任务,总结,2、在面向计算密集型的贝叶斯定律时,相对CPU程序,可以得到15倍的加速效果。,1、经过大量的探索测试,GPU方案可以有效对射电信号的交叉关联过程进行加速。,3、随着GPU的进一步发展,将来可以满足更多的天文数据处理需求。,谢谢!,