基于Spark的L1-BC算法在关键蛋白质检测中的应用

doi:10.3778/j.issn.1002-8331.1708-0299

计算机工程与应用 ›› 2018, Vol. 54 ›› Issue (24): 234-240.DOI: 10.3778/j.issn.1002-8331.1708-0299

基于Spark的L1-BC算法在关键蛋白质检测中的应用

胡德祺，孙永奇，秦朝

北京交通大学计算机与信息技术学院，北京 100044

出版日期:2018-12-15 发布日期:2018-12-14

Application of L1-BC algorithm based on Spark in key proteins detection

HU Deqi, SUN Yongqi, QIN Chao

School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China

Online:2018-12-15 Published:2018-12-14

摘要/Abstract

摘要： Spark作为当今大数据领域的分布式处理框架，在各个领域的应用越来越广泛。在关键蛋白质预测中，基于蛋白质相互作用网络拓扑结构的介数中心（BC）指标有着很好的预测效果，提出一种新的L1-BC指标，不仅能区分一些BC指标值相同的蛋白质，还能通过取子图计算体现出蛋白质的局部特性，实验结果表明该指标能够提高关键蛋白质的预测精度。基于Spark平台实现了L1-BC指标的并行计算算法，通过累加器和广播变量使得内存得到极大的优化，在数据集YDIP上的实验结果表明，基于Spark的L1-BC算法的加速比达到了94.31%。

关键词: Spark, 分布式计算, 关键蛋白质检测, 介数中心性

Abstract: Spark is widely used in various fields as a distributed processing framework in big data field. For the key protein prediction in Protein-Protein Interaction（PPI） networks, the Betweenness Centrality（BC） which is based on the topology properties of PPI networks has a good prediction effect. In this paper, a new index called L1-BC is presented, which not only distinguishes some proteins with the same values of BC index, but also reflects the local properties of proteins. The experimental results show that the index L1-BC can improve the accuracy of key proteins prediction. In addition, the parallel computing algorithm of L1-BC is implemented based on Spark platform, in which the memory is greatly optimized by utilizing accumulator and broadcast variable. The results of acceleration ratio experiment on the dataset YDIP show that the optimized L1-BC algorithm on the Spark can reach the acceleration ratio of 94.31%.

Key words: Spark, distributed computing, key proteins prediction, betweenness centrality

胡德祺，孙永奇，秦朝. 基于Spark的L1-BC算法在关键蛋白质检测中的应用[J]. 计算机工程与应用, 2018, 54(24): 234-240.

HU Deqi, SUN Yongqi, QIN Chao. Application of L1-BC algorithm based on Spark in key proteins detection[J]. Computer Engineering and Applications, 2018, 54(24): 234-240.

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	0	0	55

来源	本网站	其他网站

次数	54	1
比例	98%	2%

摘要

最新录用	在线预览	正式出版

0	0	76

	来源	本网站

	次数	77
	比例	100%

[1]	李俊丽. Spark平台下类别数据互信息计算的并行化[J]. 计算机工程与应用, 2021, 57(7): 95-100.
[2]	李硕，梁毅. 面向Spark的批处理应用执行时间预测模型[J]. 计算机工程与应用, 2021, 57(5): 79-87.
[3]	李超，董新华，陈建峡. Spark环境下基于子图的异步迭代更新方法[J]. 计算机工程与应用, 2020, 56(7): 67-73.
[4]	魏占辰，刘晓宇，黄秋兰，孙功星. Spark迭代密集型应用的优化方法研究[J]. 计算机工程与应用, 2020, 56(23): 68-73.
[5]	王永贵，郭昕彤. SparkSql上自适应数据集的高效频繁集挖掘算法[J]. 计算机工程与应用, 2020, 56(21): 72-78.
[6]	胡阳，胡学钢，李培培. 基于Spark的快速短文本数据流分类方法[J]. 计算机工程与应用, 2020, 56(14): 138-147.
[7]	刘佳耀，王佳斌. Slope One算法的改进及其在大数据平台的实现[J]. 计算机工程与应用, 2020, 56(1): 83-91.
[8]	刘莉萍1，章新友1，牛晓录2，郭永坤1，丁亮1. 基于Spark的并行关联规则挖掘算法研究综述[J]. 计算机工程与应用, 2019, 55(9): 1-9.
[9]	陈熙宁1，2，马蔚吟3，李力4. 基于Spark的指纹定位数据处理方法[J]. 计算机工程与应用, 2019, 55(4): 79-83.
[10]	谭荻，段桂华，王建新，任立男. 面向银行业务的交易量预测与告警研究[J]. 计算机工程与应用, 2019, 55(12): 220-224.
[11]	康家兴，牛保宁，郝晋瑶. 多参数的城市时空热点查询[J]. 计算机工程与应用, 2019, 55(10): 233-239.
[12]	曲朝阳1，2，冯荣强1，2，曲楠3，谢树雅1，2，刘耀伟4，颜佳4. 计及Spark和属性权重的售电套餐推荐方法[J]. 计算机工程与应用, 2019, 55(10): 90-95.
[13]	曾有灵，陈耿铎，熊威，李喆. 基于Spark的CT图像FBP重建算法程序并行设计[J]. 计算机工程与应用, 2019, 55(10): 218-224.
[14]	马菁1，2，李力3. RDD上扩展索引层优化的分布式K-means算法[J]. 计算机工程与应用, 2019, 55(1): 161-167.
[15]	刘惠惠，张祖平，龙哲. 基于Spark的FP-Growth伴随车辆发现与应用[J]. 计算机工程与应用, 2018, 54(8): 7-13.

基于Spark的L1-BC算法在关键蛋白质检测中的应用

Application of L1-BC algorithm based on Spark in key proteins detection

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics