一种Spark集群下的shuffle优化机制

doi:10.3778/j.issn.1002-8331.1701-0238

计算机工程与应用 ›› 2018, Vol. 54 ›› Issue (4): 72-76.DOI: 10.3778/j.issn.1002-8331.1701-0238

一种Spark集群下的shuffle优化机制

熊安萍1，2，夏玉冲1，杨方方1

1.重庆邮电大学计算机科学与技术学院，重庆 400065
2.重庆市移动互联网数据应用工程技术研究中心，重庆 400065

出版日期:2018-02-15 发布日期:2018-03-07

Shuffle optimization for Spark cluster

XIONG Anping1，2, XIA Yuchong1, YANG Fangfang1

1.School of Computer Science and Technology, Chongqing University of Posts and Telecommunications, Chongqing 400065, China
2.Chongqing Engineering Research Center of Mobile Internet Data Application, Chongqing 400065, China

Online:2018-02-15 Published:2018-03-07

摘要/Abstract

摘要： Spark是基于内存的分布式数据处理框架，其shuffle过程中大量数据需要通过网络传输，已成为Spark最主要的瓶颈之一。针对shuffle过程中存在的数据分布不均造成不同节点网络I/O负载不均的问题，设计了基于task本地性等级的重启策略，进一步提出了均衡的调度策略来平衡各节点的网络I/O负载。最后通过实验验证了优化机制能够减少计算任务的执行时间，提升整个shuffle过程的执行效率。

关键词: Spark集群, shuffle过程, 数据传输, 本地性, 调度策略

Abstract: Spark is a distributed processing framework based on memory. The large amounts of data generated by the shuffle process deeply affect the network transmission, which has become one of the main bottlenecks of the Spark performance. In order to solve the problem of unbalanced data distribution resulting in the I/O load imbalance in different nodes, a restart policy based on task local level is designed. Finally, the optimization mechanism is verified by experiments, which can reduce the execution time of task and improve the efficiency of shuffle process.

Key words: Spark cluster, shuffle process, data transfer, locality, schedule strategy

熊安萍1，2，夏玉冲1，杨方方1. 一种Spark集群下的shuffle优化机制[J]. 计算机工程与应用, 2018, 54(4): 72-76.

XIONG Anping1，2, XIA Yuchong1, YANG Fangfang1. Shuffle optimization for Spark cluster[J]. Computer Engineering and Applications, 2018, 54(4): 72-76.

[1]	陈思思1，2，曾珊1，李卫东1，2，齐法制1. 高能物理实验数据传输系统的研究和实现[J]. 计算机工程与应用, 2019, 55(13): 218-224.
[2]	蒋溢1，2，罗宇豪1，朱恒伟1. Storm集群下一种基于Topology的任务调度策略[J]. 计算机工程与应用, 2018, 54(7): 84-88.
[3]	王聪1，2，徐琪1，2，程耀东1，陈刚1. 高能物理事例级数据管理与传输系统的研究[J]. 计算机工程与应用, 2018, 54(23): 230-237.
[4]	包博，李体方. 考虑设备随机故障的装备维修作业调度方法[J]. 计算机工程与应用, 2017, 53(9): 258-262.
[5]	马文涛，李双庆. TinyOS中多优先级任务队列调度策略研究[J]. 计算机工程与应用, 2014, 50(22): 106-110.
[6]	杨波，徐建波. 无线传感网使用网络编码的新型数据传输方法[J]. 计算机工程与应用, 2013, 49(5): 99-102.
[7]	周志平，梁梅连，潘成贤. 基于遗传算法的立体码头传送系统调度策略[J]. 计算机工程与应用, 2013, 49(12): 228-232.
[8]	史园莉，申文明，熊文成，付卓，肖如林. 遥感数据集群处理作业调度管理系统研究[J]. 计算机工程与应用, 2012, 48(25): 77-82.
[9]	魏立线1，张倩2，杨晓元1，3，王丽琴1. WSN下虚拟多路径逐跳数据源认证方案[J]. 计算机工程与应用, 2011, 47(9): 77-79.
[10]	杨希¹，赵跃龙^1，2，周云霞^1，3. 智能网络磁盘集群负载平衡研究[J]. 计算机工程与应用, 2011, 47(4): 26-28.
[11]	杜久升，陈宜金. 移动数据传输安全性研究[J]. 计算机工程与应用, 2011, 47(34): 11-14.
[12]	许富龙，刘明，李建平. 延迟评估的车载自组织网络数据传输协议[J]. 计算机工程与应用, 2011, 47(3): 23-26.
[13]	肖琳1，徐歆恺2，钮文良1，梁军2. 延迟满足特性在流媒体中的应用研究[J]. 计算机工程与应用, 2011, 47(16): 108-110.
[14]	马娜¹，朱立谷¹，陈志杰¹，胡怀湘²，易奇²，鄢楚平²，杨帆³. 磁盘阵列性能测试工具研究[J]. 计算机工程与应用, 2010, 46(36): 74-78.
[15]	宋风坤，陈涤. 采用快速排队算法的WSN任务调度策略研究 [J]. 计算机工程与应用, 2010, 46(12): 115-117.

一种Spark集群下的shuffle优化机制

Shuffle optimization for Spark cluster

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics