计算机工程与应用 ›› 2009, Vol. 45 ›› Issue (19): 9-11.DOI: 10.3778/j.issn.1002-8331.2009.19.003
周 浪1,2,冯 冲2,黄河燕2
ZHOU Lang1,2,FENG Chong2,HUANG He-yan2
摘要: 在术语抽取工作中,经常会遇到一些包含活跃词汇的短语或短语碎片,这些干扰项一般具有稳定的搭配模式,并且在语料中共现的概率也非常高。常用的短语过滤方法都是侧重于计算短语内部词语之间的黏合度,对这些干扰项的鉴别能力并不强。提出了一种基于左右熵的短语过滤方法,估算出短语或短语碎片中词语的活跃度,并过滤掉活跃度较高的短语或短语碎片。将该方法应用到一个术语抽取系统中,实验证实能够有效去除这些干扰项,提升术语抽取系统的性能。