计算机工程与应用 ›› 2012, Vol. 48 ›› Issue (14): 139-142.
李国和1,2,3,刘光胜1,2,3,秦波波1,2,3,吴卫江1,2,3,李洪奇1,2,3
LI Guohe1,2,3, LIU Guangsheng1,2,3, QIN Bobo1,2,3, WU Weijiang1,2,3, LI Hongqi1,2,3
摘要: 中文分词是中文文本信息处理的重要预处理。针对目前中文分词中存在的准确率低和粗分结果集大的问题,在最大匹配算法基础上,采用文本切分时的组合歧义检测和交叉歧义检测以及全切分算法,提高了文本粗分的准确率,并减小了粗分结果集的规模,为进一步正确分词奠定基础。通过公共语料库数据集的实验对比,取得很好的效果。