计算机工程与应用 ›› 2019, Vol. 55 ›› Issue (10): 135-140.DOI: 10.3778/j.issn.1002-8331.1802-0089
缪裕青1,邹 巍1,刘同来1,周 明2,蔡国永1
MIAO Yuqing1, ZOU Wei1, LIU Tonglai1, ZHOU Ming2, CAI Guoyong1
摘要: 在语音情感识别研究中,已有基于深度学习的方法大多没有针对语音时频两域的特征进行建模,且存在网络模型训练时间长、识别准确性不高等问题。语谱图是语音信号转换后具有时频两域的特殊图像,为了充分提取语谱图时频两域的情感特征,提出了一种基于参数迁移和卷积循环神经网络的语音情感识别模型。该模型把语谱图作为网络的输入,引入AlexNet网络模型并迁移其预训练的卷积层权重参数,将卷积神经网络输出的特征图重构后输入LSTM(Long Short-Term Memory)网络进行训练。实验结果表明,所提方法加快了网络训练的速度,并提高了情感识别的准确率。