spark的优化-控制数据分区和分布(共6页).doc

上传人:晟*** 文档编号:12093808 上传时间:2022-05-16 格式:DOC 页数:6 大小:18KB
下载 相关 举报
spark的优化-控制数据分区和分布(共6页).doc_第1页
第1页 / 共6页
spark的优化-控制数据分区和分布(共6页).doc_第2页
第2页 / 共6页
spark的优化-控制数据分区和分布(共6页).doc_第3页
第3页 / 共6页
spark的优化-控制数据分区和分布(共6页).doc_第4页
第4页 / 共6页
spark的优化-控制数据分区和分布(共6页).doc_第5页
第5页 / 共6页
点击查看更多>>
资源描述

精选优质文档-倾情为你奉上spark的优化控制数据分区和分布 数据分区:在分布式集群里,网络通信的代价很大,减少网络传输可以极大提升性能。mapreduce框架的性能开支主要在io和网络传输,io因为要大量读写文件,它是不可避免的,但是网络传输是可以避免的,把大文件压缩变小文件,从而减少网络传输,但是增加了cpu的计算负载。Spark里面io也是不可避免的,但是网络传输spark里面进行了优化:spark把rdd进行分区(分片),放在集群上并行计算。同一个rdd分片100个,10个节点,平均一个节点10个分区当进行sum型的计算的时候,先进行每个分区的sum,然后把sum值shuffle传输到主程序进行全局sum,所以进行sum型计算对网络传输非常小。但对于进行join型的计算的时候,需要把数据本身进行shuffle,网络开销很大。spark是如何优化这个问题的呢?spark把keyvalue rdd通过key的hashcode进行分区,而且保证相同的key存储在同一个节点上,这样对改rdd进行key聚合时,就不需要sh

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 实用文档资料库 > 公文范文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。