计算机工程与应用 ›› 2015, Vol. 51 ›› Issue (2): 218-223.
古丽扎达·海沙1,古丽拉·阿东别克2,3
GULIZADA·Haisa1, GULILA·Altenbek2,3
摘要: 由于哈萨克语基本动词短语KzBaseVP的组成结构比较复杂,并且存在歧义情况和训练语料规模不够大等问题,所以既不能直接使用基于规则的方法,又不能直接使用基于统计的方法来进行处理。所以提出了一种规则与最大熵相结合的方法对哈萨克语基本动词短语(KzBaseVP)进行识别。在该混合策略系统中,根据专属KzBaseVP的特点构建了KzBaseVP搭配规则集,通过规则集对无歧义的KzBaseVP进行标注,其正确率为85.43%;运用基于统计的最大熵模型对存在歧义的KzBaseVP进行识别,根据哈萨克语的单词、词性、词缀和上下文信息等来设计最大熵模型的特征模板,并对模型进行了改进,在解码中选取概率最大的前n个上下文信息分别加入到下一个VP的特征向量中,以此类推直至文本结束,最终选出一条概率最优的VP标注。实验证明,在封闭和开发测试条件下对基本动词短语的识别准确率分别为97.23%和93.22%。