计算机工程与应用 ›› 2018, Vol. 54 ›› Issue (16): 235-240.DOI: 10.3778/j.issn.1002-8331.1704-0408
刘月丽1,覃锡忠1,贺三刚2,李文蓉2,王 悦1,贾振红1,刘明军2
LIU Yueli1, QIN Xizhong1, HE Sangang2, LI Wenrong2, WANG Yue1, JIA Zhenhong1, LIU Mingjun2
摘要: 针对品种鉴别中面临的SNP(Single Nucleotide Polymorphisms)数据高维小样本的难点,研究利用少数高信息量SNP位点正确鉴别品种的方法,提出了一种新的SNP位点筛选方法。先利用PCA提取SNP主要位点,随后使用随机森林方法,根据平均精度下降和Gini指数下降对主位点的重要性进行评估,训练分类模型。最后分别选取重要度排名前48和96的位点,以这些位点为分类特征,建立分类模型进行品种鉴别。将该模型应用于6种绵羊Illumina OvineSNP50的SNP数据。实验表明,可以从46 013个位点中分别筛选出49、96个高信息量位点用于品种鉴别,鉴别准确率达到97%以上。该方法减少了用于品种鉴别的SNP位点个数,降低了品种鉴别成本。