授权公布号:CN117153152B
语音识别方法、装置、设备及存储介质
有效
申请
2023-10-31
申请公布
2023-12-01
授权
2024-02-13
预估到期
2043-10-31
| 申请号 | CN202311423684.1 |
| 申请日 | 2023-10-31 |
| 申请公布号 | CN117153152A |
| 申请公布日 | 2023-12-01 |
| 授权公布号 | CN117153152B |
| 授权公告日 | 2024-02-13 |
| 分类号 | G10L15/06;G10L15/08;G10L15/16;G10L15/183;G10L15/22;G10L15/26;G06N3/0455;G06N3/0442;G06N3/09 |
| 分类 | 乐器;声学; |
| 申请人名称 | 科大讯飞股份有限公司 |
| 申请人地址 | 安徽省合肥市高新区望江西路666号 |
专利法律状态
2024-02-13
授权
状态信息
授权
2023-12-19
实质审查的生效
状态信息
实质审查的生效;IPC(主分类):G10L15/06;申请日:20231031
2023-12-01
公布
状态信息
公布
摘要
本申请公开了一种语音识别方法、装置、设备及存储介质,在对输入语音进行识别时,通过编码器对输入语音进行编码,得到音频编码向量,利用融合有大语言模型的解码器处理输入数据并解码得到识别文本。本申请在语音识别模型的解码器中融合大语言模型的网络结构,从而实现将大语言模型与语音识别模型的深度结合,借助大语言模型的建模能力提升语音识别模型中解码器的解码能力,进而提升语音识别效果。输入数据可以包括音频编码向量,或者可以包括音频编码向量和提示指令信息,该提示指令信息包括用于辅助对输入语音进行识别的辅助信息,从而为解码器提供更加丰富的参考信息,辅助进一步提升语音识别效果。


