授权公布号:CN116362223B
一种网页文章标题和正文的自动识别方法及装置
有效
申请
2023-03-07
申请公布
2023-06-30
授权
2023-12-15
预估到期
2043-03-07
| 申请号 | CN202310211865.1 |
| 申请日 | 2023-03-07 |
| 申请公布号 | CN116362223A |
| 申请公布日 | 2023-06-30 |
| 授权公布号 | CN116362223B |
| 授权公告日 | 2023-12-15 |
| 分类号 | G06F40/205;G06F40/154;G06F40/258;G06F40/253;G06F40/284 |
| 分类 | 计算;推算;计数; |
| 申请人名称 | 北京粉笔蓝天科技有限公司 |
| 申请人地址 | 北京市朝阳区酒仙桥北路甲10号院103号楼-1至7层101内6层601室 |
专利法律状态
2023-12-15
授权
状态信息
授权
2023-07-18
实质审查的生效
状态信息
实质审查的生效;IPC(主分类):G06F40/205;申请日:20230307
2023-06-30
公布
状态信息
公布
摘要
本发明提出一种网页文章标题和正文的自动识别方法及装置,属于特征识别与数据处理技术领域。方法包括将网页中的所有元素解析成DOM树、逐个对DOM树中的所有元素进行广度优先遍历、将查找到的父元素添加到哈希记录表中,并将其对应的网页文章正文根元素的权重值加1、对网页内容进行反向广度优先遍历,查找文章的当前标题元素、结合网页文章正文根元素与文章标题元素,获得当前网页的完整文章内容等步骤。本发明提出了一种在不对网页内容进行预处理的情况下,可以方便提取网页文章信息的技术方案,可以精确获取到文章的标题和正文,对下一步的数据分析和训练提供了良好的半结构化数据。


