计算机工程与应用 ›› 2008, Vol. 44 ›› Issue (20): 242-244.DOI: 10.3778/j.issn.1002-8331.2008.20.073
刘 艳,古丽拉·阿东别克,伊力亚尔
LIU Yan,GULILA.Altenbek,Yiliyaer
摘要: 词性标注在很多信息处理环节中都扮演着关键角色。哈萨克语作为新疆地区通用的少数民族语言之一,自然语言处理中的一些基础性的课题同样成为迫切需要解决的问题。分析了哈萨克语的构形语素特征,基于词典的一级标注基础上,采用统计方法,训练得到二元语法的HMM模型参数,运用Viterbi算法完成了基于统计方法的词性标注,最后运用哈语规则库对词性标注进行了修正。对单纯使用统计方法和以统计为主辅以规则修正的方法进行了比对测试,结果表明后者排岐正确率有所提高。