计算机工程与应用 ›› 2007, Vol. 43 ›› Issue (21): 157-159.
贺 敏1,2,龚才春1,2,张华平1,程学旗1
HE Min1,2,GONG Cai-chun1,2,ZHANG Hua-ping1,CHENG Xue-qi1
摘要: 提出了一种基于大规模语料的新词识别方法,在重复串统计的基础上,结合分析不同串的外部环境和内部构成,依次判断上下文邻接种类,首尾单字位置成词概率以及双字耦合度等语言特征,分别过滤得到新词。通过在不同规模的语料上实验发现,此方法可行有效,能够应用到词典编撰,术语提取等领域。