计算机工程与应用 ›› 2019, Vol. 55 ›› Issue (11): 136-141.DOI: 10.3778/j.issn.1002-8331.1802-0070
刘清华1,赖裕平2,丁洪伟1,杨志军1,崔晓龙3
LIU Qinghua1, LAI Yuping2, DING Hongwei1, YANG Zhijun1, Cui Xiaolong3
摘要: 首先基于特征融合思想,采用氨基酸组成、熵密度和自相关系数结合的方式构建190维特征向量进行特征表达,与仅考虑氨基酸组成信息的传统方法相比,能更好地表达蛋白质结构信息。然后利用LDA(Linear Discriminant Analysis)方法进行降维,降低计算复杂性,加强同类样本间的相关性。接下来选用支持向量机作为分类器进行定位预测,最后采用留一法在Gram-negative和Gram-positive数据集上进行交叉检验。实验结果表明,多特征结合的方法优于传统的氨基酸组成方法和简单的自相关系数方法,证明了新方法的有效性。