计算机工程与应用 ›› 2011, Vol. 47 ›› Issue (4): 117-120.DOI: 10.3778/j.issn.1002-8331.2011.04.032
于江德1,王希杰1,樊孝忠2
YU Jiangde1,WANG Xijie1,FAN Xiaozhong2
摘要: 上下文是统计语言学中获取语言知识和解决自然语言处理中多种实际应用问题必须依靠的资源和基础。近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,当前字的词位标注需要借助于该字的上下文来确定。为克服仅凭主观经验给出猜测结果的不足,采用四词位标注集,使用条件随机场模型研究了词位标注汉语分词中上文和下文对分词性能的贡献情况,在国际汉语分词评测Bakeoff2005的PKU和MSRA两种语料上进行了封闭测试,采用分别表征上文和下文的特征模板集进行了对比实验,结果表明,下文对分词性能的贡献比上文的贡献高出13个百分点以上。
中图分类号: