计算机工程与应用 ›› 2021, Vol. 57 ›› Issue (4): 161-168.DOI: 10.3778/j.issn.1002-8331.1912-0118
艾山·吾买尔,斯拉吉艾合麦提·如则麦麦提,西热艾力·海热拉,刘文其,吐尔根·依布拉音,汪烈军,瓦依提·阿不力孜
Hasan Wumaier, Sirajahmat Ruzmamat, Xireaili Hairela, LIU Wenqi, Tuergen Yibulayin, WANG Liejun, Wayit Abulizi
摘要:
近年来,基于神经网络的机器翻译成为机器翻译领域的主流方法,但是在低资源翻译领域中仍存在平行语料不足和数据稀疏的挑战。针对维-汉平行语料不足和维吾尔语形态复杂所导致的数据稀疏问题,从维吾尔语的音节特点出发,将单词切分成音节,同时融入BME(Begin,Middle,End)标记思想,提出一种基于带标记音节的神经网络机器翻译方法。与使用单词粒度和BPE粒度的两类神经网络机器翻译方法对比,该方法在维-汉机器翻译任务中分别提升7.39与3.04个BLEU值,在汉-维机器翻译任务中分别提升5.82与3.09个BLEU值,可见在平行语料不足的条件下,该方法有效地提升了维-汉机器翻译的质量。