博客
关于我
最强大脑第二场战平听音神童!百度大脑小度声纹识别技术解析
阅读量:798 次
发布时间:2023-04-05

本文共 972 字,大约阅读时间需要 3 分钟。

百度小度机器人在江苏卫视《最强大脑》第四季“人机大战”中展现出强大的性能。首先,小度在跨年龄人脸识别竞赛中击败人类顶级选手,随后在声纹识别任务上与11岁的“听音神童”孙亦廷对决,双方最终以1:1打成平手。更令人关注的是,未来第三轮比赛中,小度将与“鬼才之眼”水哥(王昱珩)在图像识别领域展开较量。

本轮比赛的任务为“不能说的秘密”。节目组策划了高难度选题,选取21名性别、年龄相仿、声线极为相似的专业合唱团成员,每人读一句话,声音样本被加密后传给小度和孙亦廷,要求从合唱声音中识别出三名线人的声音。

百度语音技术部总监高亮指出,声纹识别对机器来说是一项“高难度挑战”。主要体现在以下四个方面:

  • 泛化能力:传统声纹识别任务通常采用注册和测试样本严格匹配,而本次比赛中,注册样本采用唱歌形式,测试样本则为正常说话。这种跨模式识别对算法的泛化能力提出了更高要求。

  • 注册语音的趋同效应:大合唱形式降低了不同人的差异性,合唱内容包含长时间的语气词,进一步增加了语音混淆度。

  • 线人测试声音的断断续续:协同发音效应导致发音习惯可能被损坏,特征提取难度加大。

  • 线人测试声音时长过短:短时语音声纹验证难题,有效时间小于3秒,提取特征信息不足。

  • 声纹识别过程一般包括注册和测试两个阶段。注册阶段通过录制语音并提取特征建立模型库,测试阶段通过提取目标语音特征与模型库进行相似度计算以识别说话人身份。在本次比赛中,大合唱阶段需要收集每个合唱队员的唱歌语音,构建21个声纹模型库。线人测试语音通过断断续续特征提取,与模型库相似度计算得出身份。

    百度大脑声纹识别算法主要包括两种系统:

  • DNN-ivector算法:通过发声单元对齐和总体变异建模,提取说话人特征。算法利用深度神经网络对齐特征,结合载荷空间矩阵和概率线性判别分析(PLDA)进行说话人识别。

  • 基于端到端深度学习的说话人信息提取:通过海量数据训练深度卷积神经网络,自动提取说话人特征差异信息。

  • 两套系统在得分域上进行加权融合,输出最终判决结果。百度语音技术未来发展方向包括金融反欺诈、客户呼叫中心、智能硬件声纹识别等领域。

    对于小度在比赛中的表现,下一轮对阵王昱珩的结果至关重要。百度深度学习实验室主任林元庆表示,此次人机大战是检验百度人工智能与人类的差距,但参赛目的是通过实战进步,演化出更好的技术服务人类。

    转载地址:http://worfk.baihongyu.com/

    你可能感兴趣的文章