计算机工程与应用 ›› 2010, Vol. 46 ›› Issue (18): 138-141.DOI: 10.3778/j.issn.1002-8331.2010.18.044
钱小飞
QIAN Xiao-fei
摘要: 以“的”字结构为核心的最长名词短语是汉语最长名词短语的一个特殊子类。以该短语的自动识别为基础重新分化了汉语MNP的识别任务。在考察其结构和分布特征的基础上,提出“先识别右边界,识别成果参与左边界识别”的策略,并使用边界分布概率模型分治了左右边界。实验基于85万字的新闻语料上进行训练,并在42万字的同质语料上进行了开放测试,取得了80.63%的正确率和75.68%的召回率。
中图分类号: