计算机工程与应用 ›› 2007, Vol. 43 ›› Issue (32): 180-184.
王海军1,3,林亚平2,1,卢新国1,聂雅琳1
WANG Hai-jun1,3,LIN Ya-ping2,1,LU Xin-guo1,NIE Ya-lin1
摘要: 基于基因表达谱的分类技术对于疾病检测具有十分重要的研究意义。利用显现模式(Emerging Patterns,EPs)的基因分类方法不仅可以识别癌症样本,同时可以挖掘出隐含的与癌症相关的具有生物意义的基因模式,从基因角度揭示癌症病理。针对提取显现模式时在小样本情况下将频率近似于概率的缺陷以及PCL(Prediction by Collective Likelihood)分类器的不足,提出一种基于显现模式的基因分类算法:在显现模式的提取中引入贝叶斯估计以提高熵的可靠度,并借鉴KNN思想,提出一种新的基于EP的分类算法EP-KNN(Emerging Patterns-K Nearest Neighbors)。最后在急性白血病数据集上进行实验,实验结果表明新的算法提高了分类正确率,说明了该方法的有效性。