授权公布号:CN107656919B
一种基于主题间最小平均相似度的最优LDA模型自动选择方法
有效
申请
2017-09-12
申请公布
2018-02-02
授权
2018-10-26
预估到期
2037-09-12
| 申请号 | CN201710815144.6 |
| 申请日 | 2017-09-12 |
| 申请公布号 | CN107656919A |
| 申请公布日 | 2018-02-02 |
| 授权公布号 | CN107656919B |
| 授权公告日 | 2018-10-26 |
| 分类号 | G06F17/27;G06F17/30 |
| 分类 | 计算;推算;计数; |
| 申请人名称 | 中国软件与技术服务股份有限公司 |
| 申请人地址 | 北京市海淀区学院南路55号(中软大厦) |
专利法律状态
2018-10-26
授权
状态信息
授权
2018-03-02
实质审查的生效
状态信息
实质审查的生效IPC(主分类):G06F 17/27
2018-02-02
公布
状态信息
公开
摘要
本发明公开了一种基于主题间最小平均相似度的最优LDA模型自动选择方法,本方法为:在初始设定区间内改变K值,对于每一K值:将目标文档集合的主题个数初始值设为当前K值,利用LDA模型对该目标文档集合进行训练,得到K个主题‑词的概率分布向量;计算向量之间的平均相似度ACK并将其存储到全局平均相似度数组;从该数组中选取平均相似度最小值作为临时最小平均相似度,在该数组中以当前临时最小平均相似度所在位置为中心,根据该中心确定该目标文档集合的最佳主题个数,对应的LDA模型为该目标文档集合的最优LDA模型。本发明提出的方法在实际应用中更直观、可靠。


