计算机工程与应用 ›› 2015, Vol. 51 ›› Issue (4): 222-225.
吴 伟,李艳雄,王梓里,陈祝允
WU Wei, LI Yanxiong, WANG Zili, CHEN Zhuyun
摘要: 新闻发布会中,首要说话人(例如政府要员)通常要即兴回答记者事先准备好的问题。因而首要说话人语速一般很慢,而其他说话人(例如记者、翻译等)语速则相对较快。基于两者的语速差异,采用一个滑动窗从连续语音流中截取语音段,再估计各音段语速得到一条语速曲线,然后寻找语速曲线中的局部最小值进而得到两类说话人的改变点,最后将语速低于门限且在两相邻改变点之间的语音段判为首要说话人语音,从而实现首要说话人检测。实验结果表明,与传统方法相比,基于语速差异的方法获得了更好的性能。