品牌网
公司信息商标信息专利信息
授权公布号:CN117153152B
语音识别方法、装置、设备及存储介质
有效
申请
2023-10-31
申请公布
2023-12-01
授权
2024-02-13
预估到期
2043-10-31
申请号 CN202311423684.1
申请日 2023-10-31
申请公布号 CN117153152A
申请公布日 2023-12-01
授权公布号 CN117153152B
授权公告日 2024-02-13
分类号 G10L15/06;G10L15/08;G10L15/16;G10L15/183;G10L15/22;G10L15/26;G06N3/0455;G06N3/0442;G06N3/09
分类 乐器;声学;
申请人名称 科大讯飞股份有限公司
申请人地址 安徽省合肥市高新区望江西路666号

专利法律状态

2024-02-13 授权
状态信息
授权
2023-12-19 实质审查的生效
状态信息
实质审查的生效;IPC(主分类):G10L15/06;申请日:20231031
2023-12-01 公布
状态信息
公布

摘要

本申请公开了一种语音识别方法、装置、设备及存储介质,在对输入语音进行识别时,通过编码器对输入语音进行编码,得到音频编码向量,利用融合有大语言模型的解码器处理输入数据并解码得到识别文本。本申请在语音识别模型的解码器中融合大语言模型的网络结构,从而实现将大语言模型与语音识别模型的深度结合,借助大语言模型的建模能力提升语音识别模型中解码器的解码能力,进而提升语音识别效果。输入数据可以包括音频编码向量,或者可以包括音频编码向量和提示指令信息,该提示指令信息包括用于辅助对输入语音进行识别的辅助信息,从而为解码器提供更加丰富的参考信息,辅助进一步提升语音识别效果。