计算机工程与应用 ›› 2013, Vol. 49 ›› Issue (11): 126-129.
桑海岩1,2,古丽拉·阿东别克1,2,牛宁宁1,2
SANG Haiyan1,2, Gulia·Altenbek1,2, NIU Ningning1,2
摘要: 最大熵模型能够充分利用上下文,灵活取用多个特征。使用最大熵模型进行哈萨克语的词性标注,根据哈语的粘着性、形态丰富等特点设计特征模板,并加入了向后依赖词性的特征模板。对模型进行了改进,在解码中取概率最大的前n个词性分别加入下一个词的特征向量中,以此类推直至句子结束,最终选出一条概率最优的词性标注序列。实验结果表明,特征模板的选择是正确的,改进模型的准确率达到了96.8%。