计算机工程与应用 ›› 2018, Vol. 54 ›› Issue (24): 234-240.DOI: 10.3778/j.issn.1002-8331.1708-0299
胡德祺,孙永奇,秦 朝
HU Deqi, SUN Yongqi, QIN Chao
摘要: Spark作为当今大数据领域的分布式处理框架,在各个领域的应用越来越广泛。在关键蛋白质预测中,基于蛋白质相互作用网络拓扑结构的介数中心(BC)指标有着很好的预测效果,提出一种新的L1-BC指标,不仅能区分一些BC指标值相同的蛋白质,还能通过取子图计算体现出蛋白质的局部特性,实验结果表明该指标能够提高关键蛋白质的预测精度。基于Spark平台实现了L1-BC指标的并行计算算法,通过累加器和广播变量使得内存得到极大的优化,在数据集YDIP上的实验结果表明,基于Spark的L1-BC算法的加速比达到了94.31%。