授权公布号:CN110765360B
文本话题处理方法、装置、电子设备及计算机存储介质
有效
申请
2019-11-01
申请公布
2020-02-07
授权
2022-08-02
预估到期
2039-11-01
| 申请号 | CN201911061265.1 |
| 申请日 | 2019-11-01 |
| 申请公布号 | CN110765360A |
| 申请公布日 | 2020-02-07 |
| 授权公布号 | CN110765360B |
| 授权公告日 | 2022-08-02 |
| 分类号 | G06F16/9535;G06F16/35 |
| 分类 | 计算;推算;计数; |
| 申请人名称 | 新华网股份有限公司 |
| 申请人地址 | 北京市大兴区北兴路(东段)2号院12号楼1-5层101 |
专利法律状态
2022-08-02
授权
状态信息
授权
2020-02-07
公布
状态信息
公布
摘要
本申请实施例涉及计算机数据处理技术领域,公开了一种文本话题处理方法、装置、电子设备及计算机存储介质,包括:根据预定步长确定预定K值范围内包括的N个K值,并基于N个K值,通过K均值聚类算法K‑Means,依次对获取到的第一文本数据集进行话题聚类处理及文本滤除处理,得到第N次文本滤除处理后的文本数据集及N个K值分别对应的轮廓系数,N为不小于2的正整数;根据N个K值分别对应的轮廓系数,从N个K值中确定目标K值;根据确定出的目标K值,通过K‑Means,对第N次文本滤除处理后的文本数据集进行话题聚类处理,得到第二话题聚类结果,并将第二话题聚类结果包括的各个话题作为第一文本数据集的各个话题。


