音视频信息融合的说话人跟踪算法研究

计算机工程与应用 ›› 2012, Vol. 48 ›› Issue (13): 118-124.

• 数据库、信号与信息处理 • 上一篇下一篇

音视频信息融合的说话人跟踪算法研究

曹洁，郑景润

兰州理工大学电气工程与信息工程学院，兰州 730050

出版日期:2012-05-01 发布日期:2012-05-09

Speaker tracking based on audio-video information fusion

CAO Jie, ZHENG Jingrun

College of Electrical and Information Engineering, Lanzhou University of Technology, Lanzhou 730050, China

Online:2012-05-01 Published:2012-05-09

摘要/Abstract

摘要： 针对单独的音频和视频信息跟踪的缺陷，提出了一种音视频信息融合的粒子滤波跟踪算法。采用闭环跟踪框架，分为底层跟踪、融合、重要性粒子滤波、跟踪输出和反馈五个环节。底层跟踪环节利用说话人脸部肤色信息进行均值漂移跟踪的同时，利用说话人声音信号到达麦克风阵列的时间延迟进行跟踪定位；融合环节对这两者得到的跟踪信息进行整合，得出基于音视频信息融合的重要性函数和融合似然模型；滤波环节利用重要性粒子滤波算法对融合的数据进行滤波处理；跟踪环节根据滤波结果对说话人进行跟踪；反馈环节将跟踪结果动态反馈给人脸肤色跟踪和声源定位跟踪模块。流程化的闭环处理过程保证了算法的实时性。最后，采用AMI会议语料库对该算法进行测试，结果表明该算法平均误跟率仅为9.32%，比使用单一音频或视频信息的跟踪算法稳定性好、准确性高。

关键词: 对象跟踪, 声源定位, 肤色跟踪, 均值漂移, 重要性粒子滤波

Abstract: In order to solve the defects of tracking using only audio and video information, a novel speaker tracking algorithm based on audio-video information fusion using importance particle filter is proposed. The proposed algorithm performs in a closed-loop tracking system where five modules that are bottom tracking, fusion center, importance particle filtering, tracking results output and results feedback work together to make the system best. At the bottom tracking module, based on the complementarity between speech and image of a speaker, both mean shift tracking based on face color information and sound source localization using time delay of arrival from microphone array are adopted to acquire tracking information, and they are integrated in the fusion center to obtain audio-video fused importance function and fused likelihood model. Then the fused data are processed by importance particle filter to output the tracking results, and the results are returned dynamically to the skin color tracking module and sound source localization module. Such a closed-loop system ensures the proposed algorithm performs in real-time. Experiments using AMI Meeting Corpus data demonstrate that the proposed approach is more better than those trackers utilizing only audio or video information at robustness and accuracy, and reaches an average tracking error of 9.32%.

Key words: object tracking, sound source localization, skin color tracking, mean shift, importance particle filter

曹洁，郑景润. 音视频信息融合的说话人跟踪算法研究[J]. 计算机工程与应用, 2012, 48(13): 118-124.

CAO Jie, ZHENG Jingrun. Speaker tracking based on audio-video information fusion[J]. Computer Engineering and Applications, 2012, 48(13): 118-124.

[1]	王杰，黄丽霞，张雪英. 改进DSB方法的语音信号多声源定位[J]. 计算机工程与应用, 2021, 57(1): 173-180.
[2]	孙新领，张皓，赵丽. 结合尺度估计MST和粒子滤波的视频目标跟踪[J]. 计算机工程与应用, 2020, 56(8): 117-123.
[3]	王忠民1，2，段娜1，范琳1. 融合YOLO检测与均值漂移的目标跟踪算法[J]. 计算机工程与应用, 2019, 55(10): 186-192.
[4]	孙凯，谢林柏. 结合稀疏表示和均值偏移的运动目标跟踪算法[J]. 计算机工程与应用, 2017, 53(9): 195-200.
[5]	桂雅骏1，吴小培1，张超1，吕钊1，万梦时1，王营冠2. 融合音频和视频的室内智能监控系统[J]. 计算机工程与应用, 2017, 53(1): 220-226.
[6]	田浩，巨永锋，王培. 改进的抗遮挡MeanShift目标跟踪算法[J]. 计算机工程与应用, 2016, 52(6): 197-203.
[7]	郑浩，董明利，潘志康. 基于背景加权的尺度方向自适应均值漂移算法[J]. 计算机工程与应用, 2016, 52(22): 192-197.
[8]	黄娟，梅浙川，黄小明. 融合区域合并和Graph Cuts的彩色图像分割方法[J]. 计算机工程与应用, 2016, 52(17): 225-228.
[9]	马媛，冯全，杨梅，李妙祺. 基于HOG的酿酒葡萄叶检测[J]. 计算机工程与应用, 2016, 52(15): 158-161.
[10]	王耀军1，林勇刚2. 压缩感知下的自适应声源定位估计[J]. 计算机工程与应用, 2016, 52(14): 62-66.
[11]	张奕，孟书杰. 针对头佩式麦克风阵列的声源定位算法研究[J]. 计算机工程与应用, 2015, 51(24): 266-270.
[12]	江二华，王汇源. 一种改进的运动目标跟踪算法[J]. 计算机工程与应用, 2015, 51(22): 168-171.
[13]	潘峥嵘，段丽萍，杨智刚. 基于麦克风阵列的时延定位算法研究[J]. 计算机工程与应用, 2015, 51(20): 188-191.
[14]	钟林波1，吉建华1，文小军1，王艳芬1，伍守豪2. 基于角度预估计的声源定位MUSIC算法实验研究[J]. 计算机工程与应用, 2015, 51(2): 205-208.
[15]	张新红1，张　帆2，3，崔延斌3. 基于误差扩散和均值漂移的DSA特征点选择[J]. 计算机工程与应用, 2015, 51(13): 157-161.

音视频信息融合的说话人跟踪算法研究

Speaker tracking based on audio-video information fusion

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics