语音识别中基于发音特征的声调集成算法

计算机工程与应用 ›› 2014, Vol. 50 ›› Issue (23): 21-25.

语音识别中基于发音特征的声调集成算法

晁浩，宋成，刘志中

河南理工大学计算机科学与技术学院，河南焦作 454000

出版日期:2014-12-01 发布日期:2014-12-12

Integrating tone models into speech recognition system based on articulatory feature

CHAO Hao, SONG Cheng, LIU Zhizhong

School of Computer Science and Technology, Henan Polytechnic University, Jiaozuo, Henan 454000, China

Online:2014-12-01 Published:2014-12-12

摘要/Abstract

摘要： 提出基于发音特征的声调建模改进方法，并将其用于随机段模型的一遍解码中。根据普通话的发音特点，确定了用于区别汉语元音、辅音信息的7种发音特征，并以此为目标值利用阶层式多层感知器计算语音信号属于发音特征的35个类别后验概率，将该概率作为发音特征与传统的韵律特征一起用于声调建模。根据随机段模型的解码特点，在两层剪枝后对保留下来的路径计算其声调模型概率得分，加权后加入路径总的概率得分中。在“863-test”测试集上进行的实验结果显示，使用了新的发音特征集合中声调模型的识别精度提高了3.11%；融入声调信息后随机段模型的字错误率从13.67%下降到12.74%。表明了将声调信息应用到随机段模型的可行性。

关键词: 语音识别, 随机段模型, 声调建模, 发音特征, 阶层式多层感知器

Abstract: The tone model based on articulatory features is improved in this paper, and a framework is proposed which attempts to integrate the proposed tone model into stochastic segment based Mandarin speech recognition system. A set of seven articulatory features which represent the articulatory information is given. As well as prosodic features, the posteriors of speech signal belonging to the 35 pronunciation categories of articulatory features are used for tone modeling. The tone models are fused into the SSM-based speech recognition system after second pruning according to the property of segmental models. Tone recognition experiments conducted on “863-test” set indicate that about 3.11% absolute increase of accuracy can be achieved when using new articulatory features. When the proposed tone model is integrated into SSM system, the character error rate is reduced significantly. Thus, potential of the method is demonstrated.

Key words: speech recognition, stochastic segment modeling, tone modeling, articulatory feature, hierarchical multilayer perceptron classifiers

晁浩，宋成，刘志中. 语音识别中基于发音特征的声调集成算法[J]. 计算机工程与应用, 2014, 50(23): 21-25.

CHAO Hao, SONG Cheng, LIU Zhizhong. Integrating tone models into speech recognition system based on articulatory feature[J]. Computer Engineering and Applications, 2014, 50(23): 21-25.

[1]	娄英丹，徐静林，黄丽霞，张雪英. MLLR和MAP在远场噪声混响下的语音识别研究[J]. 计算机工程与应用, 2020, 56(10): 122-126.
[2]	赵悦，李要嫱，徐晓娜，吴立成. 临近最优主动学习的藏语语音识别方法研究[J]. 计算机工程与应用, 2018, 54(22): 156-159.
[3]	黄晓辉1，2，李京1，马睿2，3. 藏语口语语音语料库的设计与研究[J]. 计算机工程与应用, 2018, 54(13): 231-235.
[4]	宋春晓，孙颖. 面向情感语音识别的非线性几何特征提取算法[J]. 计算机工程与应用, 2017, 53(20): 128-133.
[5]	常静雅，张晓俊，顾玲玲，袁悦，顾济华，陶智. 小波域能量谱和非线性降维的病理嗓音识别[J]. 计算机工程与应用, 2017, 53(2): 166-171.
[6]	黄丽霞1，王亚楠1，张雪英1，王洪翠2. 基于深度自编码网络语音识别噪声鲁棒性研究[J]. 计算机工程与应用, 2017, 53(13): 49-54.
[7]	赵彩光，张树群，雷兆宜. 基于并行回火改进的GRBM的语音识别[J]. 计算机工程与应用, 2016, 52(8): 125-129.
[8]	达吾勒·阿布都哈依尔，努尔买买提·尤鲁瓦斯，刘艳. 面向哈萨克语LVCSR的语言模型构建方法研究[J]. 计算机工程与应用, 2016, 52(24): 178-181.
[9]	晁浩，宋成，薛霄，刘志中. 基于模型自适应的声效鲁棒性语音识别算法[J]. 计算机工程与应用, 2016, 52(2): 156-160.
[10]	晁浩. 融合音素串编辑距离的随机段模型解码算法[J]. 计算机工程与应用, 2015, 51(6): 208-211.
[11]	王路露1，夏旭2，冯璐1，刘光灿1. 基于频谱方差和谱减法的语音端点检测新算法[J]. 计算机工程与应用, 2014, 50(8): 194-197.
[12]	包希日莫1，高光来1，张璟2. 基于遗传算法的声学模型拓扑结构优化[J]. 计算机工程与应用, 2014, 50(14): 5-8.
[13]	贺元元1，张雪英1，刘晓峰2. 多类分类预选取的SVM在语音识别中的应用[J]. 计算机工程与应用, 2013, 49(7): 115-118.
[14]	郭超1，张雪英1，刘晓峰2. 支持向量机在低信噪比语音识别中的应用[J]. 计算机工程与应用, 2013, 49(5): 213-215.
[15]	努尔麦麦提·尤鲁瓦斯，吾守尔·斯拉木. 维吾尔语连续语音识别声学模型优化研究[J]. 计算机工程与应用, 2013, 49(2): 145-147.