计算机工程与应用 ›› 2020, Vol. 56 ›› Issue (18): 124-130.DOI: 10.3778/j.issn.1002-8331.1907-0019
胡章芳,徐轩,付亚芹,夏志广,马苏东
HU Zhangfang, XU Xuan, FU Yaqin, XIA Zhiguang, MA Sudong
摘要:
基于深度学习的端到端语音识别模型中,由于模型的输入采用固定长度的语音帧,造成时域信息和部分高频信息损失进而导致识别率不高、鲁棒性差等问题。针对上述问题,提出了一种基于残差网络与双向长短时记忆网络相结合的模型,该模型采用语谱图作为输入,同时在残差网络中设计并行卷积层,提取不同尺度的特征,然后进行特征融合,最后采用连接时序分类方法进行分类,实现一个端到端的语音识别模型。实验结果表明,该模型在Aishell-1语音集上字错误率相较于传统端到端模型的WER下降2.52%,且鲁棒性较好。