计算机工程与应用 ›› 2020, Vol. 56 ›› Issue (16): 165-168.DOI: 10.3778/j.issn.1002-8331.1906-0128
刘永芳,郝晓燕,刘荣
LIU Yongfang, HAO Xiaoyan, LIU Rong
摘要:
随着中国英语新词大量出现,缺少中国英语新词语料库成为研究中国英语的主要障碍,新词识别是建设语料库主要的技术问题。针对现有的点互信息和邻接熵新词识别算法中的词内部凝聚度低,及点互信息单阈值设置存在较多高阈值无效词组,且低阈值新词组无法识别的问题,提出了改进多字点互信息和邻接熵中国英语新词识别算法。利用多字点互信息以及点互信息双阈值的设定来识别新词。实验结果表明,相同数据和实验环境下,该方法提高了准确率、召回率和[F]值,对语料库建设是有效可行的。