基于上下文三音素DBN模型的连续语音识别

计算机工程与应用 ›› 2007, Vol. 43 ›› Issue (35): 35-38.

基于上下文三音素DBN模型的连续语音识别

吕国云¹,赵荣椿¹,蒋冬梅¹,SAHLI H²

1.西北工业大学计算机学院，西安 710072
2.布鲁塞尔自由大学电子信息系，Pleinlaan 2，B1050 布鲁塞尔，比利时

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2007-12-11 发布日期:2007-12-11
通讯作者: 吕国云

DBN model based on triphone for continuous speech recognition

LV Guo-yun¹,ZHAO Rong-chun¹,JIANG Dong-mei¹,SAHLI H²

1.School of Computer Science，Northwestern Polytechnical University，Xi’an 710072，China
2.Department ETRO，Vrije Universiteit Brussel，Pleinlaan 2，1050 Brussel，Belgium

Received:1900-01-01 Revised:1900-01-01 Online:2007-12-11 Published:2007-12-11
Contact: LV Guo-yun

摘要/Abstract

摘要： 考虑连续语音中的协同发音问题，提出基于词内扩展的单流上下文相关三音素动态贝叶斯网络（SS-DBN-TRI）模型和词间扩展的单流上下文相关三音素DBN（SS-DBN-TRI-CON）模型。SS-DBN-TRI模型是Bilmes提出单流DBN（SS-DBN）模型的改进，采用词内上下文相关三音素节点替代单音素节点，每个词由它的对应三音素单元构成，而三音素单元和观测向量相联系；SS-DBN-TRI-CON模型基于SS-DBN模型，通过增加当前音素的前音素节点和后音素节点，构成一个新的词间扩展的三音素变量节点，新的三音素节点和观测向量相联系，采用高斯混合模型来描述，采用数字连续语音数据库的实验结果表明：SS-DBN-TRI-CON具备最好的语音识别性能。

关键词: 动态贝叶斯网络, 语音识别, 三音素, 单音素, 上下文相关

Abstract: To accurately capture the variations of real speech spectra，two single stream Dynamic Bayesian Network（DBN） models based on context-dependent triphone：SS-DBN-TRI model and SS-DBN-TRI-CON model，are proposed for continuous speech recognition.SS-DBN-TRI model is an augmentation of Single Stream DBN（SS-DBN） model proposed by Bilmes，the phone variable is replaced by triphone variable generated by inter-word；simultaneously，based on SS-DBN model，a previous phone node and a next phone node of current phone are added，resulting in a new triphone node to describe co-articulary of continuous speech inter-word，new triphone node is associated with observation，with some probabilities modeled by Gaussian Mixture Model.Experiment is done on continuous digit audio database，results show that：SS-DBN-TRI-CON model has the best performance in word recognition.

Key words: Dynamic Bayesian Network（DBN）, speech recognition, triphone, mono-phone, context-dependent

吕国云¹,赵荣椿¹,蒋冬梅¹,SAHLI H². 基于上下文三音素DBN模型的连续语音识别[J]. 计算机工程与应用, 2007, 43(35): 35-38.

LV Guo-yun¹,ZHAO Rong-chun¹,JIANG Dong-mei¹,SAHLI H². DBN model based on triphone for continuous speech recognition[J]. Computer Engineering and Applications, 2007, 43(35): 35-38.

[1]	陈海洋，刘喜庆，环晓敏. 一步预测的SVDDBN缺失数据插补算法[J]. 计算机工程与应用, 2020, 56(7): 81-87.
[2]	娄英丹，徐静林，黄丽霞，张雪英. MLLR和MAP在远场噪声混响下的语音识别研究[J]. 计算机工程与应用, 2020, 56(10): 122-126.
[3]	赵悦，李要嫱，徐晓娜，吴立成. 临近最优主动学习的藏语语音识别方法研究[J]. 计算机工程与应用, 2018, 54(22): 156-159.
[4]	黄晓辉1，2，李京1，马睿2，3. 藏语口语语音语料库的设计与研究[J]. 计算机工程与应用, 2018, 54(13): 231-235.
[5]	宋春晓，孙颖. 面向情感语音识别的非线性几何特征提取算法[J]. 计算机工程与应用, 2017, 53(20): 128-133.
[6]	常静雅，张晓俊，顾玲玲，袁悦，顾济华，陶智. 小波域能量谱和非线性降维的病理嗓音识别[J]. 计算机工程与应用, 2017, 53(2): 166-171.
[7]	黄丽霞1，王亚楠1，张雪英1，王洪翠2. 基于深度自编码网络语音识别噪声鲁棒性研究[J]. 计算机工程与应用, 2017, 53(13): 49-54.
[8]	刘飞飞，蔺婧娜，刘潇潇. 基于动态贝叶斯网络的复杂网络攻击方法研究[J]. 计算机工程与应用, 2017, 53(11): 18-25.
[9]	赵彩光，张树群，雷兆宜. 基于并行回火改进的GRBM的语音识别[J]. 计算机工程与应用, 2016, 52(8): 125-129.
[10]	达吾勒·阿布都哈依尔，努尔买买提·尤鲁瓦斯，刘艳. 面向哈萨克语LVCSR的语言模型构建方法研究[J]. 计算机工程与应用, 2016, 52(24): 178-181.
[11]	张骁逸1，苏宇2，晏小辉3. 基于用户浏览日志的上下文相关新闻推荐[J]. 计算机工程与应用, 2016, 52(22): 99-104.
[12]	晁浩，宋成，薛霄，刘志中. 基于模型自适应的声效鲁棒性语音识别算法[J]. 计算机工程与应用, 2016, 52(2): 156-160.
[13]	郝东亮，杨鸿武，张策，张帅，郭立钊，杨静波. 面向汉语统计参数语音合成的标注生成方法[J]. 计算机工程与应用, 2016, 52(19): 146-153.
[14]	晁浩. 融合音素串编辑距离的随机段模型解码算法[J]. 计算机工程与应用, 2015, 51(6): 208-211.
[15]	陈海洋，毛蕊蕊，聂弘颖. 单元化单隐变量变结构DDBN推理算法[J]. 计算机工程与应用, 2015, 51(17): 128-133.