Spark迭代密集型应用的优化方法研究

doi:10.3778/j.issn.1002-8331.1912-0293

计算机工程与应用 ›› 2020, Vol. 56 ›› Issue (23): 68-73.DOI: 10.3778/j.issn.1002-8331.1912-0293

Spark迭代密集型应用的优化方法研究

魏占辰，刘晓宇，黄秋兰，孙功星

1.中国科学院高能物理研究所，北京 100049
2.中国科学院大学，北京 100049

出版日期:2020-12-01 发布日期:2020-11-30

Research on Optimization for Iteration-Intensive Applications on Spark

WEI Zhanchen, LIU Xiaoyu, HUANG Qiulan, SUN Gongxing

1.Institute of High Energy Physics, Chinese Academy of Sciences, Beijing 100049, China
2.University of Chinese Academy of Sciences, Beijing 100049, China

Online:2020-12-01 Published:2020-11-30

摘要/Abstract

摘要：

Spark是一个非常流行且广泛适用的大数据处理框架，具有良好的易用性和可扩展性。但在实际应用中，仍然存在一些问题需要解决。例如在部分迭代计算场景中，得到的加速效果并不理想，究其原因在于使用Spark等分布式系统后引入的额外损耗较大。为准确分析并降低这些损耗，提出了Spark效率分析公式，以分布式计算代价衡量额外损耗，以有效计算比衡量执行效率。在此基础上，还针对Spark迭代密集型应用设计并实现了一种优化策略。测试结果表明，有效计算比和程序执行性能得到了大幅提升，其中有效计算比提升了约0.373，程序执行时间缩短了约68.2%。

关键词: Spark, 迭代密集型应用优化, 分布式计算代价, 有效计算比

Abstract:

Spark is a very popular and widely applicable big data processing framework with good easy-using and scalability. However, there are still some problems that need to be solved in practical applications. For example, in some iteration-intensive computing scenarios, the acceleration effect is not ideal. The reason is that the application efficiency is influenced by large additional loss introduced when using Spark. In order to accurately analyze and reduce these losses, this paper proposes a Spark efficiency formula. Additional losses are measured with the distributed calculation cost and application efficiency is measured with effective calculation ratio. This paper also proposes an optimization strategy for iteration-intensive applications on Spark according to the formula. Test results show that the effective calculation ratio has been greatly improved by about 0.373 and the execution time has been reduced by about 68.2%.

Key words: Spark, optimization for iteration-intensive application, distributed calculation cost, effective calculation ratio

魏占辰，刘晓宇，黄秋兰，孙功星. Spark迭代密集型应用的优化方法研究[J]. 计算机工程与应用, 2020, 56(23): 68-73.

WEI Zhanchen, LIU Xiaoyu, HUANG Qiulan, SUN Gongxing. Research on Optimization for Iteration-Intensive Applications on Spark[J]. Computer Engineering and Applications, 2020, 56(23): 68-73.

[1]	李俊丽. Spark平台下类别数据互信息计算的并行化[J]. 计算机工程与应用, 2021, 57(7): 95-100.
[2]	李硕，梁毅. 面向Spark的批处理应用执行时间预测模型[J]. 计算机工程与应用, 2021, 57(5): 79-87.
[3]	李超，董新华，陈建峡. Spark环境下基于子图的异步迭代更新方法[J]. 计算机工程与应用, 2020, 56(7): 67-73.
[4]	王永贵，郭昕彤. SparkSql上自适应数据集的高效频繁集挖掘算法[J]. 计算机工程与应用, 2020, 56(21): 72-78.
[5]	胡阳，胡学钢，李培培. 基于Spark的快速短文本数据流分类方法[J]. 计算机工程与应用, 2020, 56(14): 138-147.
[6]	刘佳耀，王佳斌. Slope One算法的改进及其在大数据平台的实现[J]. 计算机工程与应用, 2020, 56(1): 83-91.
[7]	刘莉萍1，章新友1，牛晓录2，郭永坤1，丁亮1. 基于Spark的并行关联规则挖掘算法研究综述[J]. 计算机工程与应用, 2019, 55(9): 1-9.
[8]	陈熙宁1，2，马蔚吟3，李力4. 基于Spark的指纹定位数据处理方法[J]. 计算机工程与应用, 2019, 55(4): 79-83.
[9]	谭荻，段桂华，王建新，任立男. 面向银行业务的交易量预测与告警研究[J]. 计算机工程与应用, 2019, 55(12): 220-224.
[10]	康家兴，牛保宁，郝晋瑶. 多参数的城市时空热点查询[J]. 计算机工程与应用, 2019, 55(10): 233-239.
[11]	曲朝阳1，2，冯荣强1，2，曲楠3，谢树雅1，2，刘耀伟4，颜佳4. 计及Spark和属性权重的售电套餐推荐方法[J]. 计算机工程与应用, 2019, 55(10): 90-95.
[12]	曾有灵，陈耿铎，熊威，李喆. 基于Spark的CT图像FBP重建算法程序并行设计[J]. 计算机工程与应用, 2019, 55(10): 218-224.
[13]	马菁1，2，李力3. RDD上扩展索引层优化的分布式K-means算法[J]. 计算机工程与应用, 2019, 55(1): 161-167.
[14]	刘惠惠，张祖平，龙哲. 基于Spark的FP-Growth伴随车辆发现与应用[J]. 计算机工程与应用, 2018, 54(8): 7-13.
[15]	熊安萍1，2，夏玉冲1，杨方方1. 一种Spark集群下的shuffle优化机制[J]. 计算机工程与应用, 2018, 54(4): 72-76.

Spark迭代密集型应用的优化方法研究

Research on Optimization for Iteration-Intensive Applications on Spark

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics