计算机工程与应用 ›› 2020, Vol. 56 ›› Issue (10): 106-114.DOI: 10.3778/j.issn.1002-8331.1905-0122
张振,苏依拉,牛向华,高芬,赵亚平,仁庆道尔吉
ZHANG Zhen, SU Yila, NIU Xianghua, GAO Fen, ZHAO Yaping, Ren Qing Daoer Ji
摘要:
蒙汉翻译属于低资源语言的翻译,面临着平行语料资源稀缺的困难,为了缓解平行语料数据稀缺和词汇表受限引发的翻译正确率低的问题,利用动态的数据预训练方法ELMo(Embeddings from Language Models),并结合多任务域信息共享的Transformer翻译架构进行蒙汉翻译。利用ELMo(深层语境化词表示)进行单语语料的预训练。利用FastText词嵌入算法把蒙汉平行语料库中的上下文语境相关的大规模文本进行预训练。根据多任务共享参数以实现域信息共享的原理,构建了一对多的编码器-解码器模型进行蒙汉神经机器翻译。实验结果表明,该翻译方法比Transformer基线翻译方法在长句子输入序列中可以有效提高翻译质量。