授权公布号:CN102663023B
一种提取网页内容的实现方法
有效
申请
2012-03-22
申请公布
2012-09-12
授权
2014-09-17
预估到期
2032-03-22
| 申请号 | CN201210078159.6 |
| 申请日 | 2012-03-22 |
| 申请公布号 | CN102663023A |
| 申请公布日 | 2012-09-12 |
| 授权公布号 | CN102663023B |
| 授权公告日 | 2014-09-17 |
| 分类号 | G06F17/30 |
| 分类 | 计算;推算;计数; |
| 申请人名称 | 浙江盘石信息技术股份有限公司 |
| 申请人地址 | 浙江省杭州市拱墅区祥园路45号盘石大厦 |
专利法律状态
2015-09-16
专利权人的姓名或者名称、地址的变更
状态信息
专利权人的姓名或者名称、地址的变更;IPC(主分类):G06F17/30;变更事项:专利权人;变更前:浙江盘石信息技术有限公司;变更后:浙江盘石信息技术股份有限公司;变更事项:地址;变更前:310011 浙江省杭州市拱墅区祥园路45号盘石大厦;变更后:310011 浙江省杭州市拱墅区祥园路45号盘石大厦
2014-09-17
授权
状态信息
授权
2012-11-07
实质审查的生效
状态信息
实质审查的生效;IPC(主分类):G06F17/30;申请日:20120322
2012-09-12
公布
状态信息
公布
摘要
一种提取网页内容的实现方法,包括以下步骤:步骤S110,对整个网页采用DOM树进行分割处理,以将网页中相关联的内容分割为至少一个布局块;步骤S120,对网页类型进行判断,首先判断出导航页,并将导航页删除;步骤S130,对所述布局块进行块属性的判断,如果存在主题块,根据链接密度、标点符号个数判断是否为主题页;如果不存在主题块,根据列表块的个数进行判断,若小于阈值L,对应网页就是主题页,否则不是;步骤S140,根据主题块或列表块得到主题页,并提取所需的主题页信息。本发明提供一种适用性良好、兼有较好实时性的提取网页内容的实现方法。


