基于双路时延神经网络的说话人及性别识别
为提高说话人和性别识别性能,提出一种新的时延神经网络(time delay neural network, TDNN)变体——双路时延神经网络。在网络架构层面,通过神经网络底层设置不同上下文大小时延单元捕捉说话人声纹信息特征,构建双路并行网络使得网络学习丰富异构特征,同时将通道注意力与空间注意力双机制融合于深度网络模型进而提取语音信息特征,在保证精度的前提下使得该网络实现说话人身份和性别的同时识别。基于公共数据集Librispeech、 ST-CMDS的测试结果表明,该方法对说话人识别准确率分别能达到76.43%和75.82%,说话人性别识别准确率分别能达到91.69%和90.06%,比原有时延神经网络在说话人识别准确率上分别提高7.90和8.11百分点。
桂林理工大学学报
2024年04期
立即查看 >
图书推荐
相关工具书