音视频双模态情感识别融合框架研究

doi:10.3778/j.issn.1002-8331.1811-0332

计算机工程与应用 ›› 2020, Vol. 56 ›› Issue (6): 140-146.DOI: 10.3778/j.issn.1002-8331.1811-0332

音视频双模态情感识别融合框架研究

宋冠军，张树东，卫飞高

首都师范大学信息工程学院，北京 100048

出版日期:2020-03-15 发布日期:2020-03-13

Research on Audio-Visual Dual-Modal Emotion Recognition Fusion Framework

SONG Guanjun, ZHANG Shudong, WEI Feigao

College of Information Engineering, Capital Normal University, Beijing 100048, China

Online:2020-03-15 Published:2020-03-13

摘要/Abstract

摘要：

针对双模态情感识别框架识别率低、可靠性差的问题，对情感识别最重要的两个模态语音和面部表情进行了双模态情感识别特征层融合的研究。采用基于先验知识的特征提取方法和VGGNet-19网络分别对预处理后的音视频信号进行特征提取，以直接级联的方式并通过PCA进行降维来达到特征融合的目的，使用BLSTM网络进行模型构建以完成情感识别。将该框架应用到AViD-Corpus和SEMAINE数据库上进行测试，并和传统情感识别特征层融合框架以及基于VGGNet-19或BLSTM的框架进行了对比。实验结果表明，情感识别的均方根误差（RMSE）得到降低，皮尔逊相关系数（PCC）得到提高，验证了文中提出方法的有效性。

关键词: 音视频, 双模态, 特征层融合, 情感识别, BLSTM

Abstract:

Aiming at the problem of low recognition rate and poor reliability of dual-modal emotion recognition framework, the fusion of two most important modal speech and facial expression in dual-modal emotion recognition is studied. Feature extraction method based on prior knowledge and VGGNet-19 network are used to extract features of pre-processed audio and video signals respectively. Feature fusion is achieved by direct cascade and dimensionality reduction through PCA. BLSTM network is used to construct model to complete emotion recognition. The framework is applied to AViD-Corpus and SEMAINE databases for testing, and is compared with the traditional framework of feature level fusion of emotional recognition and the framework based on VGGNet-19 or BLSTM. The experimental results show that the Root Mean Square Error（RMSE） of emotional recognition is reduced and the Pearson Correlation Coefficient（PCC） is improved, which verifies the effectiveness of the proposed method.

Key words: audio-visual, dual-modal, feature-level fusion, emotion recognition, BLSTM

宋冠军，张树东，卫飞高. 音视频双模态情感识别融合框架研究[J]. 计算机工程与应用, 2020, 56(6): 140-146.

SONG Guanjun, ZHANG Shudong, WEI Feigao. Research on Audio-Visual Dual-Modal Emotion Recognition Fusion Framework[J]. Computer Engineering and Applications, 2020, 56(6): 140-146.

124

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	3	0	121

来源	本网站	其他网站

次数	116	8
比例	94%	6%

摘要

156

最新录用	在线预览	正式出版

1	0	155

	来源	本网站

	次数	156
	比例	100%

[1]	蔡冬丽，钟清华，朱永升，廖金湘，韩劢之. 三维输入卷积神经网络脑电信号情感识别[J]. 计算机工程与应用, 2021, 57(5): 161-167.
[2]	米珍美，赵恒斌，高攀. 基于ConvLSTM网络的维度情感识别模型研究[J]. 计算机工程与应用, 2021, 57(18): 289-296.
[3]	赵怡，高淑萍，何迪. 基于深度学习的眼动跟踪数据融合算法[J]. 计算机工程与应用, 2021, 57(10): 211-217.
[4]	胡章芳，刘鹏飞，蒋勤，罗飞，王明丽. 基于3DC-BGRU的脑电情感识别[J]. 计算机工程与应用, 2020, 56(20): 111-117.
[5]	胡章芳，徐轩，付亚芹，夏志广，马苏东. 基于ResNet-BLSTM的端到端语音识别[J]. 计算机工程与应用, 2020, 56(18): 124-130.
[6]	王顺业，芦天亮，杜彦辉. 面向智能家居的音视频文件匿名通信系统[J]. 计算机工程与应用, 2020, 56(15): 101-105.
[7]	孙晓虎，李洪均. 语音情感识别综述[J]. 计算机工程与应用, 2020, 56(11): 1-9.
[8]	张雪英，王薇蓉，孙颖，宋春晓. 面向脑电情感识别的改进多分类RVM模型研究[J]. 计算机工程与应用, 2019, 55(9): 112-117.
[9]	陈景霞，王丽艳，贾小云，张鹏伟. 基于深度卷积神经网络的脑电信号情感识别[J]. 计算机工程与应用, 2019, 55(18): 103-110.
[10]	缪裕青1，邹巍1，刘同来1，周明2，蔡国永1. 基于参数迁移和卷积循环神经网络的语音情感识别[J]. 计算机工程与应用, 2019, 55(10): 135-140.
[11]	陈闯1，RYAD Chellali1，邢尹2. 改进GWO优化SVM的语音情感识别研究[J]. 计算机工程与应用, 2018, 54(16): 113-118.
[12]	张小华，黄波. 基于Bandlet和KW技术的移动应用面部情感识别[J]. 计算机工程与应用, 2018, 54(10): 213-218.
[13]	姜晓庆1，2，夏克文1，林永良1，3 . 使用二次特征选择及核融合的语音情感识别[J]. 计算机工程与应用, 2017, 53(3): 7-11.
[14]	王衍业1，杨玉红1，2，董少龙1. 音频编码器中导谱频率系数的差错隐藏算法[J]. 计算机工程与应用, 2017, 53(2): 146-150.
[15]	李宇驰，李海芳，介丹，阴桂梅，呼克佑. 基于复杂网络的情感脑电相位同步性分析[J]. 计算机工程与应用, 2017, 53(18): 230-235.

音视频双模态情感识别融合框架研究

Research on Audio-Visual Dual-Modal Emotion Recognition Fusion Framework

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐 0

Metrics