采用GW-MFCC模型空间参数的语音情感识别

计算机工程与应用 ›› 2015, Vol. 51 ›› Issue (10): 219-222.

采用GW-MFCC模型空间参数的语音情感识别

沈燕，肖仲喆，李冰洁，周孝进，周强，陶智

苏州大学物理科学与技术学院，江苏苏州 215006

出版日期:2015-05-15 发布日期:2015-05-15

Speech emotion recognition using GW-MFCC feature

SHEN Yan, XIAO Zhongzhe, LI Bingjie, ZHOU Xiaojin, ZHOU Qiang, TAO Zhi

School of Physical Science and Technology, Soochow University, Suzhou, Jiangsu 215006, China

Online:2015-05-15 Published:2015-05-15

摘要/Abstract

摘要： 针对单一语音特征对语音情感表达不完整的问题，将具有良好量化和插值特性的LSF参数与体现人耳听觉特性的MFCC参数相融合，提出基于线谱权重的MFCC（WMFCC）新特征。同时，通过高斯混合模型来对该参数建立模型空间，进一步得到GW-MFCC模型空间参数，以获取更高维的细节信息，进一步提高情感识别性能。采用柏林情感语料库进行验证，新参数的识别率比传统的MFCC和LSF分别有5.7%和6.9%的提高。实验结果表明，提出的WMFCC以及GW-MFCC参数可以有效地表现语音情感信息，提高语音情感识别率。

关键词: 语音情感识别, 线谱对频率（LSF）, Mel频率倒谱系数（MFCC）, 高斯混合模型, 模型空间

Abstract: Aiming the insufficient expression of speech emotion with single type of speech features, a new feature weighted MFCC（WMFCC） is proposed combining LSF with good interpolation and quantization performance and MFCC which presents human hearing characters. GMM model is applied to this feature to obtain high level model space parameter GW-MFCC in order to further improve the emotion recognition rate with detailed information. Experiments are carried out on EMO-DB. The correct recognition rates are 5.7% and 6.9% higher than using MFCC and LSF respectively. The experiment results show that the GW-MFCC feature can effectively convey emotional information in speech, thus can improve the performance in the emotion recognition.

Key words: speech emotion recognition, Linear Spectrum Frequence（LSF）, Mel-Frequency Cepstral Coeffients（MFCC）, Gaussian Mixture Model（GMM）, model space

沈燕，肖仲喆，李冰洁，周孝进，周强，陶智. 采用GW-MFCC模型空间参数的语音情感识别[J]. 计算机工程与应用, 2015, 51(10): 219-222.

SHEN Yan, XIAO Zhongzhe, LI Bingjie, ZHOU Xiaojin, ZHOU Qiang, TAO Zhi. Speech emotion recognition using GW-MFCC feature[J]. Computer Engineering and Applications, 2015, 51(10): 219-222.

[1]	潘沛鑫，潘中良. 结合显著性的主动轮廓图像分割[J]. 计算机工程与应用, 2021, 57(8): 225-230.
[2]	雷恒林，古兰拜尔·吐尔洪，买日旦·吾守尔，张东梅. 新奇检测综述[J]. 计算机工程与应用, 2021, 57(5): 47-55.
[3]	孙晓虎，李洪均. 语音情感识别综述[J]. 计算机工程与应用, 2020, 56(11): 1-9.
[4]	贾兵兵，曹辉，秦驰杰. 基于SGMM和DNN结合提高音素识别率的研究[J]. 计算机工程与应用, 2019, 55(24): 117-121.
[5]	陈超. 高斯混合模型结合加权似然的目标跟踪算法[J]. 计算机工程与应用, 2019, 55(12): 124-131.
[6]	缪裕青1，邹巍1，刘同来1，周明2，蔡国永1. 基于参数迁移和卷积循环神经网络的语音情感识别[J]. 计算机工程与应用, 2019, 55(10): 135-140.
[7]	陈闯1，RYAD Chellali1，邢尹2. 改进GWO优化SVM的语音情感识别研究[J]. 计算机工程与应用, 2018, 54(16): 113-118.
[8]	仇功达1，何明1，祝朝政1，杨杰2，刘勇1. 基于稀疏交界最大密度连通的模糊聚类方法[J]. 计算机工程与应用, 2018, 54(14): 82-88.
[9]	梁恺彬，管一弘. 基于隐高斯混合模型的人脑MRI分割方法[J]. 计算机工程与应用, 2018, 54(10): 196-203.
[10]	陈卉，胡立坤，黄钰雯. 采用高斯混合模型及树结构的立体匹配算法[J]. 计算机工程与应用, 2017, 53(20): 195-200.
[11]	张卫，张雪英，孙颖. 融合模糊认知图用于语音情感识别[J]. 计算机工程与应用, 2017, 53(15): 14-17.
[12]	唐闺臣1，冯月芹1，梁瑞宇1，2，包永强1，赵力2. 面向语音情感识别的语谱特征提取算法研究[J]. 计算机工程与应用, 2016, 52(21): 152-156.
[13]	牛艺蓉，王士同. 基于噪音受益的快速图像分割算法[J]. 计算机工程与应用, 2016, 52(21): 195-201.
[14]	胡志立，郭敏. 基于SLIC的改进GrabCut彩色图像快速分割[J]. 计算机工程与应用, 2016, 52(2): 186-190.
[15]	杜楠楠，赵晖. 维吾尔语情感语音韵律转换研究[J]. 计算机工程与应用, 2016, 52(19): 154-160.