语音识别方法、装置、设备及存储介质

授权公布号：CN117153152B

语音识别方法、装置、设备及存储介质

有效

申请

2023-10-31

申请公布

2023-12-01

授权

2024-02-13

预估到期

2043-10-31

申请号	CN202311423684.1
申请日	2023-10-31
申请公布号	CN117153152A
申请公布日	2023-12-01
授权公布号	CN117153152B
授权公告日	2024-02-13
分类号	G10L15/06;G10L15/08;G10L15/16;G10L15/183;G10L15/22;G10L15/26;G06N3/0455;G06N3/0442;G06N3/09
分类	乐器；声学;
申请人名称	科大讯飞股份有限公司
申请人地址	安徽省合肥市高新区望江西路666号

专利法律状态

2024-02-13 授权

状态信息

授权

2023-12-19 实质审查的生效

状态信息

实质审查的生效；IPC(主分类):G10L15/06；申请日:20231031

2023-12-01 公布

状态信息

公布

摘要

本申请公开了一种语音识别方法、装置、设备及存储介质，在对输入语音进行识别时，通过编码器对输入语音进行编码，得到音频编码向量，利用融合有大语言模型的解码器处理输入数据并解码得到识别文本。本申请在语音识别模型的解码器中融合大语言模型的网络结构，从而实现将大语言模型与语音识别模型的深度结合，借助大语言模型的建模能力提升语音识别模型中解码器的解码能力，进而提升语音识别效果。输入数据可以包括音频编码向量，或者可以包括音频编码向量和提示指令信息，该提示指令信息包括用于辅助对输入语音进行识别的辅助信息，从而为解码器提供更加丰富的参考信息，辅助进一步提升语音识别效果。