计算机工程与应用 ›› 2009, Vol. 45 ›› Issue (12): 157-159.DOI: 10.3778/j.issn.1002-8331.2009.12.051
胡长春,刘功申
HU Chang-chun,LIU Gong-shen
摘要: 针对目前应用于搜索引擎Lucene的中文分析器的分词不符合汉语习惯的现状,根据正向最大匹配切分算法和采用包括基本标准中文词语的词库,实现了自己的分析器。该分析器的分词结果更符合汉语的习惯,并且在分词、建立索引等方面的性能非常接近基于机械分词的分析器,另外在检索速度方面性能提升了2~4倍,在检索召回率方面性能提升了59%。