多模态的知识蒸馏方法及系统

授权公布号：CN113361396B

多模态的知识蒸馏方法及系统

有效

申请

2021-06-04

申请公布

2021-09-07

授权

2023-12-26

预估到期

2041-06-04

申请号	CN202110624603.9
申请日	2021-06-04
申请公布号	CN113361396A
申请公布日	2021-09-07
授权公布号	CN113361396B
授权公告日	2023-12-26
分类号	G06V40/16;G06V10/80;G06V10/82;G06N3/047;G06N3/042;G06N3/0464;G06N3/096;G10L17/18
分类	计算；推算；计数;
申请人名称	思必驰科技股份有限公司
申请人地址	江苏省苏州市苏州工业园区新平街388号腾飞创新园14栋

专利法律状态

2023-12-26 授权

状态信息

授权

2021-09-07 公布

状态信息

公布

摘要

本发明实施例提供一种多模态的知识蒸馏方法。该方法包括：搭建单模态声纹识别系统和单模态人脸识别系统，得到单模态声纹嵌入以及得到单模态人脸嵌入；将同一组声音‑人脸数据得到的单模态声音嵌入和单模态人脸嵌入组合输入至作为教师模型的多模态融合系统中，得到多模态说话人嵌入；利用教师模型对作为学生模型的单模态系统进行知识蒸馏，其中，知识蒸馏的方式包括：标签层面的知识蒸馏、深度说话人嵌入层面的知识蒸馏和分布层面的知识蒸馏。本发明实施例还提供一种多模态的知识蒸馏系统。本发明实施例将知识从多模态系统提炼至单模态系统，将教师模型的优势迁移至单模态学生模型中，从而利用知识迁移后的学生模型可以获得更好的识别效果。