计算机工程与应用 ›› 2015, Vol. 51 ›› Issue (6): 204-207.
姜 芳1,2,李国和1,2,3,岳 翔4,吴卫江1,2,3,洪云峰3,刘智渊3,程 远3
JIANG Fang1,2, LI Guohe1,2,3, YUE Xiang4, WU Weijiang1,2,3, HONG Yunfeng3, LIU Zhiyuan3, CHENG Yuan3
摘要: 中文分词是中文信息处理的重要内容之一。在基于最大匹配和歧义检测的粗分方法获取中文粗分结果集上,根据隐马尔可夫模型标注词性,通过Viterbi算法对每个中文分词的粗分进行词性标注。通过定义最优分词粗分的评估函数对每个粗分的词性标注进行粗分评估,获取最优的粗分为最终分词。通过实验对比,证明基于粗分和词性标注的中文分词方法具有良好的分词效果。