基于文本及视音频多模态信息的新闻分割

计算机工程与应用 ›› 2007, Vol. 43 ›› Issue (35): 190-194.

基于文本及视音频多模态信息的新闻分割

刘扬¹,郑逢斌¹,樊卞玲²

1.河南大学计算机与信息工程学院，河南开封 475001
2.平煤集团开封东大化工有限公司，河南开封 475003

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2007-12-11 发布日期:2007-12-11
通讯作者: 刘扬

TV news automatic segmentation base on text and audio-visual multi-modal features information

LIU Yang¹,ZHENG Feng-bin¹,FAN Bian-ling²

1.College of Computer Science and Information Engineering，Henan University，Kaifeng，Henan 475001，China
2.Kaifeng Dongda Chemical Industry Co.，L td.，Pingmei Group，Kaifeng，Henan 475003，China

Received:1900-01-01 Revised:1900-01-01 Online:2007-12-11 Published:2007-12-11
Contact: LIU Yang

摘要/Abstract

摘要： 提出了一种融合文本和视音频多模态特征的电视新闻自动分割方案。该方案充分考虑各种媒体特征的特点，先用矢量模型和GMM对文本进行预分割，用语谱图和HMM对语音预分割、用改进的直方图和SVM分类器对视频进行预分割。然后在时间同步的基础上，使用复合策略用ANN对预分割的数据进行融合，从而获得具有一定语义内容的视频段。实验结果表明此方法的有效性，并且分割后的视频片段具备较完整的语义信息特征，避免了分割的过度细碎的弊端。

关键词: 基于内容的检索, 多模态, 直方图, 语谱图, 视频分割

Abstract: TV news automatic segmentation scheme of fuse text and audio-visual multi-modal features information is presented.Regarding the different of all kinds of media feature，texts first were preparation segmented by GMM using vector model.Then audio are preparation segmented by HMM using spectrogram，and video were preparation segmented by SVM using improved histogram.At last，audio-visual and text segmentation are integrated to ANN base on synchronization and with compound strategy to get segmentation of the video with respect to its semantic meaning.The experimental results show the approach is valid，and avoids the problem of a far too segmentation of the video.

Key words: content-based retrieval, multi-modal classifiers, histogram, spectrogram, video segmentation

刘扬¹,郑逢斌¹,樊卞玲². 基于文本及视音频多模态信息的新闻分割[J]. 计算机工程与应用, 2007, 43(35): 190-194.

LIU Yang¹,ZHENG Feng-bin¹,FAN Bian-ling². TV news automatic segmentation base on text and audio-visual multi-modal features information[J]. Computer Engineering and Applications, 2007, 43(35): 190-194.

[1]	陆莉霞，邹俊忠，郭玉成，张见，王蓓. 多模态融合的膝关节损伤预测[J]. 计算机工程与应用, 2021, 57(9): 225-232.
[2]	王鹏，叶学义，王涛，钱丁炜. 双偏差双空间局部方向模式的人脸识别[J]. 计算机工程与应用, 2021, 57(4): 91-99.
[3]	王传昱，李为相，陈震环. 基于语音和视频图像的多模态情感识别研究[J]. 计算机工程与应用, 2021, 57(23): 163-170.
[4]	李文龙，李兴广，胡冉冉，崔炜. 基于天空分割的单幅交通标志图像去雾算法[J]. 计算机工程与应用, 2021, 57(20): 221-228.
[5]	任泽裕，王振超，柯尊旺，李哲，吾守尔·斯拉木. 多模态数据融合综述[J]. 计算机工程与应用, 2021, 57(18): 49-64.
[6]	张杰，常天庆，郭理彬，张雷，马金盾. 基于跟踪异常与相关性检验的目标丢失判断[J]. 计算机工程与应用, 2021, 57(18): 204-212.
[7]	郭艳芬，崔喆，杨智鹏，彭静，胡金蓉. 基于深度学习的医学图像配准技术研究进展[J]. 计算机工程与应用, 2021, 57(15): 1-8.
[8]	黄宏展，蒙祖强. 基于双向注意力机制的多模态情感分类方法[J]. 计算机工程与应用, 2021, 57(11): 119-127.
[9]	唐维军，徐琨，柳有权，夏悬. 自动驾驶汽车虚拟测试中的树木点云生成方法[J]. 计算机工程与应用, 2021, 57(11): 185-192.
[10]	陈建促，王越，朱小飞，李章宇，林志航. 融合多特征图的野生动物视频目标检测方法[J]. 计算机工程与应用, 2020, 56(7): 221-227.
[11]	林克正，张元铭，李昊天. 信息熵加权的HOG特征提取算法研究[J]. 计算机工程与应用, 2020, 56(6): 147-152.
[12]	李松，周亚同，池越，何静飞，张世立. 高斯过程混合模型应用于网络流量预测研究[J]. 计算机工程与应用, 2020, 56(5): 186-193.
[13]	孙影影，贾振堂，朱昊宇. 多模态深度学习综述[J]. 计算机工程与应用, 2020, 56(21): 1-10.
[14]	项前，唐继婷，吴建国. 多级上采样融合的强监督RGBD显著性目标检测[J]. 计算机工程与应用, 2020, 56(19): 182-188.
[15]	曾安，王烈基，潘丹，黄殷. 基于FCN和互信息的医学图像配准技术研究[J]. 计算机工程与应用, 2020, 56(18): 202-208.