计算机工程与应用 ›› 2009, Vol. 45 ›› Issue (26): 216-219.DOI: 10.3778/j.issn.1002-8331.2009.26.065
郭 烁1,2,朱义胜1
GUO Shuo1,2,ZHU Yi-sheng1
摘要: DNA序列编码区的辨识是基因辨识的一个重要方面。由于基因序列数据量大,导致许多统计辨识算法泛化性差、运算速度慢。根据编码区域序列和非编码区域序列相比有不同的碱基组成,提出将Takagi-Sugeno模型用于DNA序列的编码区辨识。首先,用基于模糊似然函数的模糊聚类算法确定系统的模糊划分数目,进而根据聚类个数建立相应的Takagi-Sugeno局部线性化模型,最后用最小二乘法实现模型结论参数的辨识。该算法不仅可以确定编码区的位置,还可以辨识出密码子第一位碱基的位置,对蛋白质结构的研究是非常重要的。算法简单、高效。仿真结果表明,该算法非常适合编码区辨识和其他编码区辨识算法有可比性。
中图分类号: