spark的优化-控制数据分区和分布(共6页).doc

上传人：晟*** 文档编号：12093808 上传时间：2022-05-16 格式：DOC 页数：6 大小：18KB

下载相关举报

第1页 / 共6页

第2页 / 共6页

第3页 / 共6页

第4页 / 共6页

第5页 / 共6页

点击查看更多>>

资源描述

精选优质文档-倾情为你奉上spark的优化控制数据分区和分布数据分区：在分布式集群里，网络通信的代价很大，减少网络传输可以极大提升性能。mapreduce框架的性能开支主要在io和网络传输，io因为要大量读写文件，它是不可避免的，但是网络传输是可以避免的，把大文件压缩变小文件，从而减少网络传输，但是增加了cpu的计算负载。Spark里面io也是不可避免的，但是网络传输spark里面进行了优化：spark把rdd进行分区（分片），放在集群上并行计算。同一个rdd分片100个，10个节点，平均一个节点10个分区当进行sum型的计算的时候，先进行每个分区的sum，然后把sum值shuffle传输到主程序进行全局sum，所以进行sum型计算对网络传输非常小。但对于进行join型的计算的时候，需要把数据本身进行shuffle，网络开销很大。spark是如何优化这个问题的呢？spark把keyvalue rdd通过key的hashcode进行分区，而且保证相同的key存储在同一个节点上，这样对改rdd进行key聚合时，就不需要sh

展开阅读全文

相关资源

2019六年级数学下册教学计划及进度表(北师大版)精品教育(共4页).doc

2019届中考语文第四部分现代文阅读第13讲常见写作手法与拓展延伸复习习题(共5页).docx

2019年-2019学年度教师述职报告(共6页).doc