授权公布号:CN104899324B
一种基于IDC有害信息监测系统的样本训练系统
有效
申请
2015-06-19
申请公布
2015-09-09
授权
2018-09-11
预估到期
2035-06-19
| 申请号 | CN201510343176.1 |
| 申请日 | 2015-06-19 |
| 申请公布号 | CN104899324A |
| 申请公布日 | 2015-09-09 |
| 授权公布号 | CN104899324B |
| 授权公告日 | 2018-09-11 |
| 分类号 | G06F17/30;G06K9/66 |
| 分类 | 计算;推算;计数; |
| 申请人名称 | 成都国腾实业集团有限公司 |
| 申请人地址 | 四川省成都市高新技术开发区西部园区西芯大道3号 |
专利法律状态
2018-09-11
授权
状态信息
授权
2015-10-07
实质审查的生效
状态信息
实质审查的生效IPC(主分类):G06F 17/30申请日:20150619
2015-09-09
公布
状态信息
公开
摘要
本发明公开了一种基于IDC有害信息监测系统的样本训练系统,爬虫样本训练单元中,主题相关度计算模块将爬虫系统抓取的网页信息结合爬虫样本数据库计算网页的主题相关度,并根据该主题相关度调整URL队列,过滤掉低于预设阈值的URL,并把计算得到的主题相关度值反馈给爬虫样本训练模块,爬虫样本训练模块进行训练学习后,更新爬虫样本数据库;有害监测样本训练单元中,关键字近似词汇训练模块,有害信息监测系统根据近似匹配算法所生成的与输入字符串相关的近似词汇进行有害检测,关键字近似词汇训练模块根据搜索结果拟合度计算模块来确定搜索结果的准确性,判断近似词汇的相似度,并将有效的近似词汇更新到有害监测样本数据库中。


