计算机工程与应用 ›› 2014, Vol. 50 ›› Issue (2): 124-128.
周 俊1,3,郑中华2,张 炜3
ZHOU Jun1,3, ZHENG Zhonghua2, ZHANG Wei3
摘要: 中文粗分和歧义消解是中文分词的两大基本过程。通过引入广义词条和诱导词集,在最大匹配算法基础上提出一种中文分词的粗分方法,以最长广义词匹配为原则进行中文分词,利用诱导词集实现交叉型歧义识别。在保证快速准确切分无歧义汉语语句的同时,100%检测并标记有歧义汉语语句中的交叉型歧义,最大程度上简化后续歧义消解过程。通过对含有160万汉字1998年1月人民日报语料测试的结果证明了算法速度、歧义词准确率以及粗分召回率的有效性。