计算机工程与应用 ›› 2014, Vol. 50 ›› Issue (15): 120-124.
陈 莉,古丽拉·阿东别克
CHEN Li, Gulila·ALTENBEK
摘要: 柯尔克孜语的语言信息处理研究,对新疆柯尔克孜族是否能跨入信息时代,传承民族文化起着至关重要的作用。采用两级标注法,基于传统的HMM理论,改进了HMM模型参数的计算、数据平滑和未登入词的处理方法,更好地体现了上下文依赖关系。同时,把基于自动分词词典的词干提取算法与规则和统计相结合的方法用于柯尔克孜语的词性标注系统上。相对于传统的HMM,改进后的方法有效提高了准确性。