并行化语音识别系统的研究与设计

计算机工程与应用 ›› 2012, Vol. 48 ›› Issue (11): 71-74.

并行化语音识别系统的研究与设计

王硕，刘文

IBM中国研究院，北京 100083

出版日期:2012-04-11 发布日期:2012-04-16

Research and design of parallel speech recognition system

WANG Shuo, LIU Wen

IBM China Research Laboratory, Beijing 100083, China

Online:2012-04-11 Published:2012-04-16

摘要/Abstract

摘要： 如何处理海量语音数据是语音识别应用的一个重要问题，采用并行化计算取代传统的单机处理，如果并行调度控制不当，最终合并的结果在合并顺序上就会出现错误，并且数据切分不合理还会造成语义连贯性的丢失导致准确率的降低，文件片段在网络上传输的时间开销也需要考虑，针对上述问题，提出了一种基于Hadoop的语音识别系统，借助其分布式文件系统HDFS与MapReduce并行算法解决文件片段传输与并行调度控制的问题，同时引入静音检测算法合理地处理文件切分，通过实验验证了该系统的有效性。

关键词: 语音识别, 并行计算, Hadoop, MapReduce, 静音检测

Abstract: How to handle large voice data is an important problem in speech recognition applications. It uses parallel?computing?to replace the traditional?standalone?process, if the parallel scheduling control is not good, the final result will be an error and if data segmentation is unreasonable, the data will lose semantic consistency leading to decline accuracy. Pieces of the file on the network transmission costs also need to consider. To solve above problems, it proposes a speech recognition system based on Hadoop, uses HDFS and MapReduce to solve pieces of the file transfer and control parallel scheduling and uses silence detection to handle file split. Through the experiment, it proves the effectiveness of this system.

Key words: speech recognition, parallel computing, Hadoop, MapReduce, silence detection

王硕，刘文. 并行化语音识别系统的研究与设计[J]. 计算机工程与应用, 2012, 48(11): 71-74.

WANG Shuo, LIU Wen. Research and design of parallel speech recognition system[J]. Computer Engineering and Applications, 2012, 48(11): 71-74.

[1]	吴东阳，窦建平，李俊. 四旋翼飞行器的数字孪生系统设计[J]. 计算机工程与应用, 2021, 57(16): 237-244.
[2]	冯凯，李婧. k元n方体网络的子网络可靠性[J]. 计算机工程与应用, 2021, 57(16): 83-89.
[3]	李雷孝，邓丹，李杰，王永生. 基于粒子群优化的全比较计算数据分发策略[J]. 计算机工程与应用, 2021, 57(15): 109-117.
[4]	李健，张大伟，姜晓明，向立云. 并行化洪水演进模拟研究综述[J]. 计算机工程与应用, 2021, 57(13): 1-7.
[5]	孙明，陈昕. 面向卷积神经网络的硬件加速器设计方法[J]. 计算机工程与应用, 2021, 57(13): 77-84.
[6]	陈元文. MapReduce技术在物资调运与配载问题中的应用[J]. 计算机工程与应用, 2021, 57(12): 273-278.
[7]	叶颖诗，魏福义，蔡贤资. 基于并行计算的快速Dijkstra算法研究[J]. 计算机工程与应用, 2020, 56(6): 58-65.
[8]	杜伟，傅游. 基于GPU的最小二乘蒙特卡罗算法期权定价[J]. 计算机工程与应用, 2020, 56(4): 225-229.
[9]	金之雁，杨磊，林隽民，王哲. 广义共轭余差法的通信避免算法[J]. 计算机工程与应用, 2020, 56(3): 74-79.
[10]	刘家华，陈靖宇. 多核并行脉冲神经网络模拟器的设计[J]. 计算机工程与应用, 2020, 56(22): 244-250.
[11]	娄英丹，徐静林，黄丽霞，张雪英. MLLR和MAP在远场噪声混响下的语音识别研究[J]. 计算机工程与应用, 2020, 56(10): 122-126.
[12]	邬阳阳，汤建国. 大数据背景下粗糙集属性约简研究进展[J]. 计算机工程与应用, 2019, 55(6): 31-38.
[13]	刘军，李威，吴梦婷，陈起凤. Hadoop平台下新型图像并行处理模型设计[J]. 计算机工程与应用, 2019, 55(6): 186-190.
[14]	王静宇，栾俊清，谭跃生. 基于数据敏感性的大数据访问控制模型研究[J]. 计算机工程与应用, 2019, 55(23): 70-77.
[15]	季长清1，2，肖鹏3，刘畅4，汪祖民2，西方2，邵寅博1，李泽宇2. 基于空间近邻查询的移动医疗呼叫算法[J]. 计算机工程与应用, 2019, 55(2): 206-212.