计算机工程与应用 ›› 2010, Vol. 46 ›› Issue (14): 162-165.DOI: 10.3778/j.issn.1002-8331.2010.14.047
艾山·吾买尔,吐尔根·依步拉音
AISHAN Wumaier,TUERGEN Yibulayin
摘要: 句子边界识别是词性标注和句法分析等自然语言处理系统的基础问题。提出了一种统计与规则相结合的维吾尔语句子边界识别方法,首先利用歧义段落分类算法分类段落,第二步对无歧义段落进行基于规则的句子边界识别,最后使用最大熵模型对有歧义段落进行句子边界识别。该方法有效利用规则弥补最大熵模型因数据稀疏而误判不存在任何歧义情况的不足,使用最大熵模型有效地消除歧义,提高算法的鲁棒性,召回率达到了98.77%。
中图分类号: