计算机工程与应用 ›› 2018, Vol. 54 ›› Issue (4): 72-76.DOI: 10.3778/j.issn.1002-8331.1701-0238
熊安萍1,2,夏玉冲1,杨方方1
XIONG Anping1,2, XIA Yuchong1, YANG Fangfang1
摘要: Spark是基于内存的分布式数据处理框架,其shuffle过程中大量数据需要通过网络传输,已成为Spark最主要的瓶颈之一。针对shuffle过程中存在的数据分布不均造成不同节点网络I/O负载不均的问题,设计了基于task本地性等级的重启策略,进一步提出了均衡的调度策略来平衡各节点的网络I/O负载。最后通过实验验证了优化机制能够减少计算任务的执行时间,提升整个shuffle过程的执行效率。