授权公布号:CN111599346B
一种说话人聚类方法、装置、设备及存储介质
有效
申请
2020-05-19
申请公布
2020-08-28
授权
2024-02-20
预估到期
2040-05-19
| 申请号 | CN202010424995.X |
| 申请日 | 2020-05-19 |
| 申请公布号 | CN111599346A |
| 申请公布日 | 2020-08-28 |
| 授权公布号 | CN111599346B |
| 授权公告日 | 2024-02-20 |
| 分类号 | G10L15/02;G10L15/06;G06F18/23 |
| 分类 | 乐器;声学; |
| 申请人名称 | 科大讯飞股份有限公司 |
| 申请人地址 | 安徽省合肥市高新区望江西路666号 |
专利法律状态
2024-02-20
授权
状态信息
授权
2020-09-22
实质审查的生效
状态信息
实质审查的生效;IPC(主分类):G10L15/02;申请日:20200519
2020-08-28
公布
状态信息
公布
摘要
本申请提供了一种说话人聚类方法、装置、设备及存储介质,方法包括:获取语音数据集;对于语音数据集中的每条语音数据,以趋于通过该语音数据中的说话人信息与信道信息分离得到的说话人特征为获取方向,从该语音数据中获取说话人特征,得到由获取的说话人特征组成的说话人特征集;根据说话人特征集对语音数据集进行聚类。其中,在根据说话人特征集对语音数据集进行聚类时,可采用不需要预先设定类别数的聚类算法对说话人特征集中的说话人特征进行粗聚类,在粗聚类基础上,进一步根据类内距离和类间距离进行细聚类,从而根据细聚类结果获得语音数据集中语音数据的聚类结果。通过本申请提供的说话人聚类方法能够获得比较准确的聚类结果。


