计算机工程与应用 ›› 2010, Vol. 46 ›› Issue (31): 130-134.DOI: 10.3778/j.issn.1002-8331.2010.31.037
肖 健,徐 建,徐晓兰,袁 琦
XIAO Jian,XU Jian,XU Xiao-lan,YUAN Qi
摘要: 多词表达(MWE)不仅用来提高当前机器翻译系统质量,而且也用于跨语言检索和数据挖掘等其他自然语言处理领域。为此,提出了基于语义模板与基于统计工具相结合的方法从三元组可比语料库中自动提取本族英语MWE。采用基于词表和分布方法计算词语间的相似度,扩大MWE覆盖范围。利用GIZA++对齐算法提取对译的中文MWE,依据统计方法计算互译概率信息,根据概率大小,选择最佳英汉MWE互译对。实验结果表明上述方法可以有效提高MWE提取和对齐的准确率。
中图分类号: