品牌网
公司信息商标信息专利信息
授权公布号:CN104899323B
一种用于IDC有害信息监测平台的爬虫系统
有效
申请
2015-06-19
申请公布
2015-09-09
授权
2018-09-11
预估到期
2035-06-19
申请号 CN201510343175.7
申请日 2015-06-19
申请公布号 CN104899323A
申请公布日 2015-09-09
授权公布号 CN104899323B
授权公告日 2018-09-11
分类号 G06F17/30
分类 计算;推算;计数;
申请人名称 成都国腾实业集团有限公司
申请人地址 四川省成都市高新技术开发区西部园区西芯大道3号

专利法律状态

2018-09-11 授权
状态信息
授权
2015-10-07 实质审查的生效
状态信息
实质审查的生效IPC(主分类):G06F 17/30申请日:20150619
2015-09-09 公布
状态信息
公开

摘要

本发明公开了一种用于IDC有害信息监测平台的爬虫系统,它包括一个或多个爬虫集群,且每个爬虫集群均包括多个爬虫结点和一个爬虫根节点,形成一个分布式的数据采集网络,爬虫根节点用于对该爬虫集群中的爬虫结点进行控制和管理,爬虫结点用于采集网络中的有害信息,每个爬虫结点均包括多线程网页采集模块、网页库、编码识别处理模块、网页内容自动提取模块、URL过滤器、URL去重模块和URL调度模块。本发明提供了强大的数据收集功能,通过多个爬虫集群对动态网页和静态网页进行全面的实时监控。