计算机工程与应用 ›› 2014, Vol. 50 ›› Issue (11): 218-222.
康才畯1,龙从军2,3,江 荻1,2
KANG Caijun1, LONG Congjun2,3, JIANG Di1,2
摘要: 基于词位的统计分析方法识别并切分现代藏语文本中的黏写形式,其最大特点是减少了未登录词对识别效果的影响。首先根据藏文自身的特点,将常用的四词位扩充为六词位,再利用条件随机场模型作为标注建模工具来进行训练和测试,并根据规则对识别结果进行后处理。从实验结果来看,该方法有较高的识别正确率,具有进一步研究的价值。下一步的改进需要扩充训练语料,并对模型选用的特征集进行优化。