计算机工程与应用 ›› 2009, Vol. 45 ›› Issue (32): 111-113.DOI: 10.3778/j.issn.1002-8331.2009.32.035
欧建林,林 茜,史晓东
OU Jian-lin,LIN Qian,SHI Xiao-dong
摘要: 研究了潜在语义分析(LSA)理论及其在连续语音识别中应用的相关技术,在此基础上利用WSJ0文本语料库上构建LSA模型,并将其与3-gram模型进行插值组合,构建了包含语义信息的统计语言模型;同时为了进一步优化混合模型的性能,提出了基于密度函数初始化质心的k-means聚类算法对LSA模型的向量空间进行聚类。WSJ0语料库上的连续语音识别实验结果表明:LSA+3-gram混合模型能够使识别的词错误率相比较于标准的3-gram下降13.3%。
中图分类号: