授权公布号:CN113177393B
改进针对网页结构理解的预训练语言模型的方法和装置
有效
申请
2021-04-29
申请公布
2021-07-27
授权
2023-12-26
预估到期
2041-04-29
| 申请号 | CN202110476275.2 |
| 申请日 | 2021-04-29 |
| 申请公布号 | CN113177393A |
| 申请公布日 | 2021-07-27 |
| 授权公布号 | CN113177393B |
| 授权公告日 | 2023-12-26 |
| 分类号 | G06F40/146;G06F40/126;G06F16/958;G06F18/243;G06N3/042;G06N3/08 |
| 分类 | 计算;推算;计数; |
| 申请人名称 | 思必驰科技股份有限公司 |
| 申请人地址 | 江苏省苏州市苏州工业园区新平街388号腾飞创新园14栋 |
专利法律状态
2023-12-26
授权
状态信息
授权
2021-07-27
公布
状态信息
公布
摘要
本发明公开改进针对网页结构理解的预训练语言模型的方法和装置,其中,一种改进针对网页结构理解的预训练语言模型的方法,其中,所述针对网页结构理解的预训练语言模型具有上下文编码器且不具有结构信息编码器,所述方法包括:利用所述针对网页结构理解的预训练语言模型的上下文编码器编码网页的上下文信息;构建结构信息编码器编码所述网页的文档对象模型给出的所述网页的树状结构信息;基于所述树状结构信息从所述结构信息编码器中得到所述网页的各个节点的嵌入向量;基于所述各个节点的向量利用线性层加上Softmax层计算所述各个节点是答案节点的概率。


