计算机工程与应用 ›› 2012, Vol. 48 ›› Issue (36): 238-244.
王 怡1,2,郭躬德1,2,孔祥增1,2
WANG Yi1,2, GUO Gongde1,2, KONG Xiangzeng1,2
摘要: 在信号肽预测问题中,由于信号肽序列长度不等且氨基酸组成具有多样性的特点,以往方法通常采用滑动窗口进行处理,从而导致了信息丢失以及数据不平衡等问题。为改善少数类预测效果,对训练数据进行了预处理,将多数类样本数据划分,生成的各组样本分别与少数类样本合并组成若干个数据子集,在两种蛋白质编码方案下采用概率神经网络建立多个分类器,采用加权投票将多分类器集成的方法预测信号肽。在目前广泛使用的Neilsen数据集上进行实验,表明该方法具有一定的有效性。