授权公布号:CN104899323B
一种用于IDC有害信息监测平台的爬虫系统
有效
申请
2015-06-19
申请公布
2015-09-09
授权
2018-09-11
预估到期
2035-06-19
| 申请号 | CN201510343175.7 |
| 申请日 | 2015-06-19 |
| 申请公布号 | CN104899323A |
| 申请公布日 | 2015-09-09 |
| 授权公布号 | CN104899323B |
| 授权公告日 | 2018-09-11 |
| 分类号 | G06F17/30 |
| 分类 | 计算;推算;计数; |
| 申请人名称 | 成都国腾实业集团有限公司 |
| 申请人地址 | 四川省成都市高新技术开发区西部园区西芯大道3号 |
专利法律状态
2018-09-11
授权
状态信息
授权
2015-10-07
实质审查的生效
状态信息
实质审查的生效IPC(主分类):G06F 17/30申请日:20150619
2015-09-09
公布
状态信息
公开
摘要
本发明公开了一种用于IDC有害信息监测平台的爬虫系统,它包括一个或多个爬虫集群,且每个爬虫集群均包括多个爬虫结点和一个爬虫根节点,形成一个分布式的数据采集网络,爬虫根节点用于对该爬虫集群中的爬虫结点进行控制和管理,爬虫结点用于采集网络中的有害信息,每个爬虫结点均包括多线程网页采集模块、网页库、编码识别处理模块、网页内容自动提取模块、URL过滤器、URL去重模块和URL调度模块。本发明提供了强大的数据收集功能,通过多个爬虫集群对动态网页和静态网页进行全面的实时监控。


