计算机工程与应用 ›› 2023, Vol. 59 ›› Issue (5): 70-77.DOI: 10.3778/j.issn.1002-8331.2206-0472
谭卓昆,罗龙飞,王顺芳
TAN Zhuokun, LUO Longfei, WANG Shunfang
摘要: 单一生物数据网络提供的特征信息是十分受限的,针对这一问题,提出了一种基于半监督自编码器的多网络特征融合方法,丰富特征信息。此外,为解决在人为设置模型的超参数时,易出现模型性能较低、陷入局部最优等问题,进一步提出了利用遗传算法优化支持向量机(GA-SVM算法)模型的方法,提高脑部疾病基因的预测性能。构建来自不同数据源的相似性数据网络,利用重启随机游走算法从四个数据网络中提取特征,通过半监督自编码器进行处理及融合,在十折交叉验证的策略下使用GA-SVM算法模型预测脑部疾病基因,并与其他算法进行比较。实验结果表明,在PD数据集上的AUC和AUPR值分别为0.805、0.792,而在MDD数据集上的AUC和AUPR值分别为0.825、0.823,均优于已有的预测模型,有效证明了该方法能够提高脑部疾病基因的预测效果。