计算机工程与应用 ›› 2008, Vol. 44 ›› Issue (19): 146-149.
达吾勒·阿布都哈依尔,古丽拉·阿东别克
DAWEL Abilhaye,GULILA Altenbek
摘要: 研究了哈萨克语自动词法分析中的附加成分的切分和词干提取问题,并实现了哈萨克语词法分析系统KazStemmer。系统首先对待切分词使用有限状态自动机进行分析。如果成功则将输出作为切分结果,否则再使用双向全切分和词法分析相结合的改进方法来进行切分。与最大匹配法相比,该方法提高了词干提取的正确率和切分速度。同时,在词干表的搜索中首次采用了改进的逐字母二分词典查询机制来提高了词干提取的效率。