计算机工程与应用 ›› 2022, Vol. 58 ›› Issue (7): 185-191.DOI: 10.3778/j.issn.1002-8331.2108-0265
朱学超,张飞,高鹭,任晓颖,郝斌
ZHU Xuechao, ZHANG Fei, GAO Lu, REN Xiaoying, HAO Bin
摘要: 由于传统循环神经网络具有复杂的结构,需要大量的数据才能在连续语音识别中进行正确训练,并且训练需要耗费大量的时间,对硬件性能要求很大。针对以上问题,提出了基于残差网络和门控卷积神经网络的算法,并结合联结时序分类算法,构建端到端中文语音识别模型。该模型将语谱图作为输入,通过残差网络提取高层抽象特征,然后通过堆叠门控卷积神经网络捕获有效的长时间记忆,摆脱了传统循环神经网络对上下文相关性建模的依赖,加快了模型的训练速度。对残差网络进行了优化,并在门控卷积神经网络中加入了前馈神经网络,极大提高了模型的性能。实验结果表明,在Aishell-1中文数据集上,该模型的字错误率降低至11.43%;并且在?5?dB低信噪比环境下,字错误率达到了19.77%。