序列信息融合与两阶段特征选择的膜蛋白预测

doi:10.3778/j.issn.1002-8331.1712-0265

计算机工程与应用 ›› 2019, Vol. 55 ›› Issue (6): 145-150.DOI: 10.3778/j.issn.1002-8331.1712-0265

序列信息融合与两阶段特征选择的膜蛋白预测

郭磊，王顺芳

云南大学信息学院计算机科学与工程系，昆明 650504

出版日期:2019-03-15 发布日期:2019-03-14

Prediction of Membrane Protein Based on Sequence Information Fusion and Two-Stage Feature Selection

GUO Lei, WANG Shunfang

Department of Computer Science and Engineering, School of Information Science and Engineering, Yunnan University, Kunming 650504, China

Online:2019-03-15 Published:2019-03-14

摘要/Abstract

摘要： 膜蛋白的功能与其类型密切相关，因此膜蛋白类型的预测具有重要意义。针对膜蛋白特征表达过程中出现的特征维数高的问题，结合最大信息系数与遗传算法提出一种两阶段特征选择（MIC-GA）。抽取膜蛋白序列信息中的伪氨基酸组成、二肽组成和位置特异性分数矩阵等特征融合后作为特征参数，并在融合过程中提出一种改进的ReliefF算法（FReliefF）得到更有效的特征分数。基于Stacking集成学习框架，两次使用极端随机树对膜蛋白类型进行合理化预测。结果表明该方法能够有效提高膜蛋白预测的准确率。

关键词: 膜蛋白预测, 最大信息系数, 遗传算法, 特征选择, 特征融合, 极端随机树

Abstract: Researching on membrane protein type prediction is of great significance, because the type of membrane protein is exceedingly related with its function. In this study, a two-stage feature selection method is proposed（MIC-GA）, which is on the basis of Maximum Information Coefficient（MIC） and Genetic Algorithm（GA）, to address the problem of high-dimensional feature in the process of feature extraction for membrane protein. Three kinds of feature representations, PseAAC, DC and PSSM, are extracted from a membrane protein sequence. In the process of feature fusion, an improved ReliefF algorithm（FReliefF） is proposed to obtain an effective feature score. Ultimately the extremely randomized tree is used two times based on Stacking ensemble learning framework to realize a reasonable prediction of membrane protein types. The results show that the proposed method can improve the accuracy of membrane protein prediction efficiently.

Key words: membrane protein type prediction, maximum information coefficient, genetic algorithm, feature selection, feature fusion, extremely randomized tree

郭磊，王顺芳. 序列信息融合与两阶段特征选择的膜蛋白预测[J]. 计算机工程与应用, 2019, 55(6): 145-150.

GUO Lei, WANG Shunfang. Prediction of Membrane Protein Based on Sequence Information Fusion and Two-Stage Feature Selection[J]. Computer Engineering and Applications, 2019, 55(6): 145-150.

[1]	陆莉霞，邹俊忠，郭玉成，张见，王蓓. 多模态融合的膝关节损伤预测[J]. 计算机工程与应用, 2021, 57(9): 225-232.
[2]	李明山，韩清鹏，张天宇，王道累. 改进SSD的安全帽检测方法[J]. 计算机工程与应用, 2021, 57(8): 192-197.
[3]	郭晓静，隋昊达. 改进YOLOv3在机场跑道异物目标检测中的应用[J]. 计算机工程与应用, 2021, 57(8): 249-255.
[4]	王玲，王家沛，王鹏，孙爽滋. 融合注意力机制的孪生网络目标跟踪算法研究[J]. 计算机工程与应用, 2021, 57(8): 169-174.
[5]	李莉，纪欣沅，宋嵩. 回环软件缺陷数量预测模型[J]. 计算机工程与应用, 2021, 57(7): 158-163.
[6]	李静星，杨有龙. 针对高维数据的马尔科夫毯特征选择[J]. 计算机工程与应用, 2021, 57(6): 58-66.
[7]	韩文静，罗晓曙，杨日星. 一种复合型手势识别方法研究[J]. 计算机工程与应用, 2021, 57(4): 108-113.
[8]	赵辉，李志伟，方禄发. 特征信息增强的单发多框检测器算法[J]. 计算机工程与应用, 2021, 57(4): 148-154.
[9]	李昱奇，刘志乾，程凝怡，王莹莹，朱春丽. 多约束条件下无人机航迹规划[J]. 计算机工程与应用, 2021, 57(4): 225-230.
[10]	杨玮，吴莹莹，王婷. 子母式穿梭车仓储系统配置优化问题研究[J]. 计算机工程与应用, 2021, 57(4): 258-265.
[11]	王殿伟，赵梦影，刘颖，宋海军，谢永军. 改进的R-SSD全景视频图像车辆检测算法[J]. 计算机工程与应用, 2021, 57(3): 189-195.
[12]	卢苇，刘丹，邵敏，吴扬东. 改进Mask R-CNN网络在医学图像识别与分割中的应用[J]. 计算机工程与应用, 2021, 57(24): 234-241.
[13]	肖瑞雪，冯英伟，屈建萍. 结合高效特征融合的可变尺寸图像隐写分析[J]. 计算机工程与应用, 2021, 57(24): 126-134.
[14]	李倩，蒋丽，梁昌勇. 基于模糊时间窗的多目标冷链配送优化[J]. 计算机工程与应用, 2021, 57(23): 255-262.
[15]	滕金保，孔韦韦，田乔鑫，王照乾，李龙. 基于CNN和LSTM的多通道注意力机制文本分类模型[J]. 计算机工程与应用, 2021, 57(23): 154-162.

序列信息融合与两阶段特征选择的膜蛋白预测

Prediction of Membrane Protein Based on Sequence Information Fusion and Two-Stage Feature Selection

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics