计算机工程与应用 ›› 2023, Vol. 59 ›› Issue (24): 110-120.DOI: 10.3778/j.issn.1002-8331.2208-0085
邓力洪,邓飞,张葛祥,杨强
DENG Lihong, DENG Fei, ZHANG Gexiang, YANG Qiang
摘要: 说话人识别系统中轻量卷积神经网络的特征提取能力弱、识别效果差。而为了提升特征提取能力,许多方法使用了更深、更宽、更复杂的网络结构,使得参数量和推理时间成倍增加。将目标检测任务中的轻量网络Res2Net引入到说话人识别任务中,验证了它在说话人识别任务中的有效性和鲁棒性。并改进提出了FullRes2Net,它拥有更多、更大的感受野组合。在几乎没有增加参数量的情况下,相比于Res2Net,性能提升了17%。同时,为了解决现有注意力方法存在的问题改善卷积本身的缺点,进一步提升卷积神经网络的特征提取能力,提出了混合时频通道注意力。它可以对音频特征的时间、频率、通道维度进行交互,捕捉特征间的依赖,从而有效增强卷积神经网络的特征提取能力。在Voxceleb数据集上进行了实验,结果表明提出的方法有效地提升了系统的特征提取能力和泛化能力,相较于Res2Net性能提升了34%,并优于使用复杂结构的先进说话人识别系统,是一种参数量更少、效率更高的端到端结构,适合在现实场景中的应用。