品牌网
公司信息商标信息专利信息
授权公布号:CN102663023B
一种提取网页内容的实现方法
有效
申请
2012-03-22
申请公布
2012-09-12
授权
2014-09-17
预估到期
2032-03-22
申请号 CN201210078159.6
申请日 2012-03-22
申请公布号 CN102663023A
申请公布日 2012-09-12
授权公布号 CN102663023B
授权公告日 2014-09-17
分类号 G06F17/30
分类 计算;推算;计数;
申请人名称 浙江盘石信息技术股份有限公司
申请人地址 浙江省杭州市拱墅区祥园路45号盘石大厦

专利法律状态

2015-09-16 专利权人的姓名或者名称、地址的变更
状态信息
专利权人的姓名或者名称、地址的变更;IPC(主分类):G06F17/30;变更事项:专利权人;变更前:浙江盘石信息技术有限公司;变更后:浙江盘石信息技术股份有限公司;变更事项:地址;变更前:310011 浙江省杭州市拱墅区祥园路45号盘石大厦;变更后:310011 浙江省杭州市拱墅区祥园路45号盘石大厦
2014-09-17 授权
状态信息
授权
2012-11-07 实质审查的生效
状态信息
实质审查的生效;IPC(主分类):G06F17/30;申请日:20120322
2012-09-12 公布
状态信息
公布

摘要

一种提取网页内容的实现方法,包括以下步骤:步骤S110,对整个网页采用DOM树进行分割处理,以将网页中相关联的内容分割为至少一个布局块;步骤S120,对网页类型进行判断,首先判断出导航页,并将导航页删除;步骤S130,对所述布局块进行块属性的判断,如果存在主题块,根据链接密度、标点符号个数判断是否为主题页;如果不存在主题块,根据列表块的个数进行判断,若小于阈值L,对应网页就是主题页,否则不是;步骤S140,根据主题块或列表块得到主题页,并提取所需的主题页信息。本发明提供一种适用性良好、兼有较好实时性的提取网页内容的实现方法。