深度学习语音合成技术综述

doi:10.3778/j.issn.1002-8331.2101-0044

计算机工程与应用 ›› 2021, Vol. 57 ›› Issue (9): 50-59.DOI: 10.3778/j.issn.1002-8331.2101-0044

深度学习语音合成技术综述

张小峰，谢钧，罗健欣，杨涛

1.中国人民解放军陆军工程大学指挥控制工程学院，南京 210007
2.中国人民解放军 31121部队

出版日期:2021-05-01 发布日期:2021-04-29

Overview of Deep Learning Speech Synthesis Technology

ZHANG Xiaofeng, XIE Jun, LUO Jianxin, YANG Tao

1.Command & Control Engineering College, Army Engineering University of PLA, Nanjing 210007, China
2.Unit 31121 of PLA, China

Online:2021-05-01 Published:2021-04-29

摘要/Abstract

摘要：

语音合成技术在人机交互中扮演着重要角色，深度学习的发展带动语音合成技术高速发展。基于深度学习的语音合成技术在合成语音的质量和速度上都超过了传统语音合成技术。从基于深度学习的声码器和声学模型出发对语音合成技术进行综述，探讨各类声码器和声学模型的工作原理及其优缺点，在此基础上对语音合成系统进行综述，系统综述经典的基于深度学习的语音合成系统，对基于深度学习的语音合成技术进行展望。

关键词: 语音合成, 声码器, 声学模型, 端到端语音合成系统

Abstract:

Speech synthesis technology plays an important role in human-machine interaction. The development of deep learning drives the rapid development of speech synthesis technology. Speech synthesis technology based on deep learning surpasses traditional speech synthesis technology in both quality and speed. This paper reviews speech synthesis technology based on deep learning vocoders and acoustic models, discusses the working principles and advantages and disadvantages of various vocoders and acoustic models, and then summarizes the speech synthesis system, systematically reviews the classic speech synthesis system based on deep learning, and finally looks forward to the speech synthesis technology based on deep learning.

Key words: speech synthesis, vocoder, acoustic model, end to end speech synthesis

张小峰，谢钧，罗健欣，杨涛. 深度学习语音合成技术综述[J]. 计算机工程与应用, 2021, 57(9): 50-59.

ZHANG Xiaofeng, XIE Jun, LUO Jianxin, YANG Tao. Overview of Deep Learning Speech Synthesis Technology[J]. Computer Engineering and Applications, 2021, 57(9): 50-59.

[1]	陈宙斯，胡文心. 简化LSTM的语音合成[J]. 计算机工程与应用, 2018, 54(3): 131-135.
[2]	蔡文彬1，魏云龙1，徐海华2，潘林1. 混合单元选择语音合成系统的目标代价构建[J]. 计算机工程与应用, 2018, 54(24): 20-25.
[3]	王海坤，伍大勇，刘江，王士进，胡国平，胡郁. 基于时域建模的自动语音识别[J]. 计算机工程与应用, 2017, 53(20): 243-248.
[4]	戈永侃，于凤芹. 后置滤波器参数自适应的语音合成改进算法[J]. 计算机工程与应用, 2017, 53(1): 168-171.
[5]	郝东亮，杨鸿武，张策，张帅，郭立钊，杨静波. 面向汉语统计参数语音合成的标注生成方法[J]. 计算机工程与应用, 2016, 52(19): 146-153.
[6]	徐世鹏，杨鸿武，王海燕. 面向藏语语音合成的语音基元自动标注方法[J]. 计算机工程与应用, 2015, 51(6): 199-203.
[7]	孙燕1，姜占才2，王蕴杰2. 浊音隶属度参数及F-LBG算法[J]. 计算机工程与应用, 2014, 50(2): 204-207.
[8]	包希日莫1，高光来1，张璟2. 基于遗传算法的声学模型拓扑结构优化[J]. 计算机工程与应用, 2014, 50(14): 5-8.
[9]	李秀滢，段晓毅，王建新. 一种心理声学模型的自同步音频水印方案[J]. 计算机工程与应用, 2013, 49(8): 96-99.
[10]	米日古力·阿布都热素，米吉提·阿不力米提，艾克白尔·帕塔尔，艾斯卡尔·艾木都拉. 基于HTK的维吾尔语连续音素识别技术研究[J]. 计算机工程与应用, 2013, 49(22): 150-154.
[11]	包希日莫1，高光来1，张璟2. 基于BIC与PSO的简约语音识别系统创建[J]. 计算机工程与应用, 2013, 49(10): 14-17.
[12]	汪石农，许钢. 改进相位声码器的音频时长变换算法研究[J]. 计算机工程与应用, 2012, 48(36): 155-159.
[13]	奎丽萍，杨鉴，胡恩星，何彬. 可训练语音合成在越南语合成中的应用[J]. 计算机工程与应用, 2012, 48(35): 101-105.
[14]	潘伟洲，单志龙，邱景钦，袁世超，黄煜廉. 一种基于小波和快速傅里叶变换的学习型歌唱系统[J]. 计算机工程与应用, 2012, 48(3): 143-145.
[15]	姑丽加玛丽·麦麦提艾力，艾斯卡尔·肉孜，艾斯卡尔·艾木都拉. 多基元及韵律参数匹配的维吾尔语语音合成方法[J]. 计算机工程与应用, 2012, 48(2): 116-118.

深度学习语音合成技术综述

Overview of Deep Learning Speech Synthesis Technology

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics