1、三峡大学三峡大学徐洋徐洋报告内容1、射电信号交叉关联 GPU加速2、银河系整体消光 贝叶斯定理 GPU加速射电信号交叉关联 GPU加速GPU的性价比越来越高,能耗越来越低,随着官方开发工具的逐步升级,学习及开发难度逐渐降低。研究背景研究内容1、单 GPU关联模型的建立及测试2、 GPU集群关联模型的建立及测试射电干涉仪阵列规模的不断扩大带来了海量的数据处理需求,该需求的实时处理对传统解决方案的性能和成本等带来巨大的挑战,针对该挑战,我们提出了 GPU解决方案。射电信号交叉关联 GPU加速GPU与 CPU架构的区别射电信号交叉关联数据处理流程FFT:快速傅里叶变换CMAC:复数的乘累加射电信号交
2、叉关联 GPU加速单 GPU模型的建立CMAC GPU实现模型射电信号交叉关联 GPU加速B(B+1)/2射电信号交叉关联 GPU加速单 GPU模型的测试天 线 个数 256个天 线 极化个数 2极单 位数据的 长 度 8个数据点累加次数 1024次主机拷入数据到 设备 (源数据) 32MB设备 拷出数据到主机( 结 果) 8.03125MB计 算量 8.6GFLOPCMAC阶段测试数据参数及规模射电信号交叉关联 GPU加速 单 GPU模型的测试分 块 大小 128 256 512 1024同步方式 主机到 设备 (ms) 5.07 5.06 5.05 5.04CMAC(ms) 9.05 8.
3、09 7.66 7.76设备 到主机 (ms) 1.28 1.28 1.28 1.28总时间 (ms) 15.4 14.43 13.99 14.08吞吐率 (Gflops) 560 597 616 613异步方式 总时间 (ms) 11.5 10.7 11.5 14吞吐率 (Gflops) 747 802 751 616基于 GTX580单 GPU的 CMAC测试结果“分块 ”即对累加过程分多次进行,测试结果性能最好的情况为异步方式下分块大小为 256时的 802GFLOPS,约为 GTX580理论峰值的 51%,还有一定的提升空间。射电信号交叉关联 GPU加速GPU集群模型的建立Recv1
4、Recv2 RecviFFT1 FFT2 FFTiCMAC1 CMAC2 CMACiM个接收节点N个 FFT节点K个相关节点交叉相关 GPU集群模型射电信号交叉关联 GPU加速GPU集群模型的测试GPU集群基本处理过程测试(串行方式)节 点 类 型 处 理 阶 段 时间 (ms) 部分 总时间 (ms) 总时间 (ms)FFT节 点 接收数据 23 23 78拷入 显 存 8.63 32数据重 组 1 0.028FFT 0.033转 置 0.011数据重 组 2 0.011拷出 显 存 23发 送数据 23 23CMAC节 点 接收数据 28 28 78数据重 组 3 9.4 9.4拷入 显 存 16 38CMAC 1.1拷出 显 存 9.4