品牌网
公司信息商标信息专利信息
授权公布号:CN116362223B
一种网页文章标题和正文的自动识别方法及装置
有效
申请
2023-03-07
申请公布
2023-06-30
授权
2023-12-15
预估到期
2043-03-07
申请号 CN202310211865.1
申请日 2023-03-07
申请公布号 CN116362223A
申请公布日 2023-06-30
授权公布号 CN116362223B
授权公告日 2023-12-15
分类号 G06F40/205;G06F40/154;G06F40/258;G06F40/253;G06F40/284
分类 计算;推算;计数;
申请人名称 北京粉笔蓝天科技有限公司
申请人地址 北京市朝阳区酒仙桥北路甲10号院103号楼-1至7层101内6层601室

专利法律状态

2023-12-15 授权
状态信息
授权
2023-07-18 实质审查的生效
状态信息
实质审查的生效;IPC(主分类):G06F40/205;申请日:20230307
2023-06-30 公布
状态信息
公布

摘要

本发明提出一种网页文章标题和正文的自动识别方法及装置,属于特征识别与数据处理技术领域。方法包括将网页中的所有元素解析成DOM树、逐个对DOM树中的所有元素进行广度优先遍历、将查找到的父元素添加到哈希记录表中,并将其对应的网页文章正文根元素的权重值加1、对网页内容进行反向广度优先遍历,查找文章的当前标题元素、结合网页文章正文根元素与文章标题元素,获得当前网页的完整文章内容等步骤。本发明提出了一种在不对网页内容进行预处理的情况下,可以方便提取网页文章信息的技术方案,可以精确获取到文章的标题和正文,对下一步的数据分析和训练提供了良好的半结构化数据。