计算机工程与应用 ›› 2020, Vol. 56 ›› Issue (17): 167-172.DOI: 10.3778/j.issn.1002-8331.1906-0332
蒋亚芳,严馨,李思远,徐广义,周枫
JIANG Yafang, YAN Xin, LI Siyuan, XU Guangyi, ZHOU Feng
摘要:
针对现有双语词向量研究方法获取双语词向量需要用到大量双语平行文本,对于柬汉双语而言存在着平行文本不足的关键问题,而英语作为通用语言,英语-汉语以及英语-柬埔寨语双语平行文本较多且容易获得,因此在典型相关分析跨语言词向量模型上作出进一步改进,提出以英语为中间语言的基于多重CCA算法的汉柬双语词向量构建方法。通过将英语、汉语词向量投影至汉-英向量空间,将英语、柬语词向量投影至柬-英向量空间,根据CCA算法分别得到英-汉、英-柬双语词向量;以英语作为中间词并结合部分实验室构建的柬汉双语电子词典将上一步得到的英-柬、英-汉双语词向量投影至第三方同一向量空间中,再次根据CCA算法得到柬语和汉语在新向量空间中的投影转换矩阵;得到柬英汉多语词向量,多语词向量中包含有柬汉双语词向量。与传统方法相比,该方法解决了当前其他模型所面临的初始柬汉平行文本稀缺的问题,且获得较高的柬汉双语词向量。