计算机工程与应用 ›› 2018, Vol. 54 ›› Issue (24): 20-25.DOI: 10.3778/j.issn.1002-8331.1810-0354
蔡文彬1,魏云龙1,徐海华2,潘 林1
CAI Wenbin1, WEI Yunlong1, XU Haihua2, PAN Lin1
摘要: 合成语音的基元是通过最小化目标代价和拼接代价来选取。由于拼接基元涉及复杂的语言学、声学特性,如何选择能准确描述基元信息的声学特征(或语言学特征)并构建相应目标代价是提高合成语音质量的关键。从声学特征和声学模型两个方面对目标代价构建进行了探究。实验结果表明,经过相似语料训练后微调的深度声学网络模型,预测的瓶颈特征更能表征拼接基元特性,从而指导目标代价筛选理想候选单元,提高合成语音的质量。