Spark环境下基于子图的异步迭代更新方法

doi:10.3778/j.issn.1002-8331.1909-0124

计算机工程与应用 ›› 2020, Vol. 56 ›› Issue (7): 67-73.DOI: 10.3778/j.issn.1002-8331.1909-0124

Spark环境下基于子图的异步迭代更新方法

李超，董新华，陈建峡

湖北工业大学计算机学院，武汉 430068

出版日期:2020-04-01 发布日期:2020-03-28

Asynchronous Iterative Updates Method Based on Subgraph in Spark

LI Chao, DONG Xinhua, CHEN Jianxia

School of Computer Science, Hubei University of Technology, Wuhan 430068, China

Online:2020-04-01 Published:2020-03-28

摘要/Abstract

摘要：

全局同步计算模型简单易用，但是路障同步导致收敛速度变慢。以顶点为中心的异步迭代虽然提高了收敛速度，但在计算节点之间需要频繁发送信息。在Spark环境下提出一种基于子图的异步迭代更新方法。在子图之间建立异步消息通信连接后，子图能以异步方式发送数据块；通过多线程同步避免数据读写冲突，保证异步更新时顶点状态的一致性。在大规模样本数据集上分别从收敛结果、收敛速度和通信代价验证方法有效性。实验结果表明，与全局同步迭代相比，该方法有效提高了计算收敛速度。与顶点为中心的异步更新方式相比，该方法在收敛时间上略有增长，但是显著降低了通信开销。

关键词: 子图, 异步更新, Spark环境, 图数据, 图切分

Abstract:

Bulk synchronous parallel model is easy to program. However, long waiting time is required for each vertex to step into next round in the BSP models, and frequent messages-passing are incurred by vertex-centric asynchronous methods. To accelerate the execution of iterative graph computations, this paper proposes an asynchronous iterative method in Spark, and exploits two means to guarantee the validity. Firstly, by leveraging remote procedure call to establish connections, data blocks can be transmitted asynchronously among vertex partitions and edge partitions. Secondly, to guarantee data consistency during updating, synchronization is adopted to make threads exclusive access to vertex state. Experiments on large scale graph data are conducted on a local cluster. Comparing with the BSP and vertex-centric model, the proposed method not only accelerates iteration, but also improves communication efficiency.

Key words: subgraph, asynchronous update, Spark, graph data, graph partition

李超，董新华，陈建峡. Spark环境下基于子图的异步迭代更新方法[J]. 计算机工程与应用, 2020, 56(7): 67-73.

LI Chao, DONG Xinhua, CHEN Jianxia. Asynchronous Iterative Updates Method Based on Subgraph in Spark[J]. Computer Engineering and Applications, 2020, 56(7): 67-73.

[1]	翟正利，李鹏辉，冯舒. 图对抗攻击研究综述[J]. 计算机工程与应用, 2021, 57(7): 14-21.
[2]	方希禄，付伟，胡正言，竺凡超，周建含. 基于随机子图像模型的遥感图像分类[J]. 计算机工程与应用, 2020, 56(21): 204-209.
[3]	刘峰，Godfred Kim Mensah，李欣芸，刘鸿丽，李瑶，郭浩. 不确定脑网络的异常拓扑分析及分类研究[J]. 计算机工程与应用, 2020, 56(2): 127-132.
[4]	张孝，孙一铭，吴旭峰. 查询感知的关系-图数据库自适应存储技术研究[J]. 计算机工程与应用, 2020, 56(17): 100-108.
[5]	陈雨婷，刘旭红，刘秀磊. 面向招投标领域的远程监督实体关系抽取研究[J]. 计算机工程与应用, 2020, 56(17): 243-250.
[6]	胡阳，胡学钢，李培培. 基于Spark的快速短文本数据流分类方法[J]. 计算机工程与应用, 2020, 56(14): 138-147.
[7]	吕伟，宋文爱，富丽贞，许文. 大规模图数据边受限制的最短距离查询算法[J]. 计算机工程与应用, 2019, 55(7): 71-81.
[8]	鲁润泽，张海平. 应用机器学习方法的设计模式挖掘研究[J]. 计算机工程与应用, 2019, 55(6): 113-119.
[9]	任成林，姜丽雁，单晓欢，宋宝燕. 层次序列索引的大规模动态标签图子图查询[J]. 计算机工程与应用, 2019, 55(1): 70-75.
[10]	林定1，2，徐颖1，2，黄国新1，2，陈崇成1，2. 基于Louvain算法的图数据三维树形可视化[J]. 计算机工程与应用, 2018, 54(7): 96-101.
[11]	周翠莲，游进国，张婷，简兴明. S-Clique：属性约束的极大团枚举[J]. 计算机工程与应用, 2018, 54(5): 66-71.
[12]	张帆，陈俊杰，郭浩. 基于脑功能超网络的多特征融合分类方法[J]. 计算机工程与应用, 2018, 54(21): 120-127.
[13]	丁强龙，王津，张学杰. 基于子模式的关系数据到图数据ETL方法研究[J]. 计算机工程与应用, 2017, 53(12): 76-84.
[14]	刘金萌1，刘金魁1，郑玉歌2. 幂圈嵌套网络图[C10m×Pm10(m≡2,5(mod6))]的边-平衡指数集[J]. 计算机工程与应用, 2016, 52(7): 28-34.
[15]	宋宁宁，韩华，吴翎燕. 一种基于阈值构建金融网络的新方法[J]. 计算机工程与应用, 2015, 51(6): 249-253.

Spark环境下基于子图的异步迭代更新方法

Asynchronous Iterative Updates Method Based on Subgraph in Spark

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics