授权公布号:CN117150305B
融合检索和填空的文本数据增强方法、装置及电子设备
有效
申请
2023-11-01
申请公布
2023-12-01
授权
2024-02-27
预估到期
2043-11-01
| 申请号 | CN202311437081.7 |
| 申请日 | 2023-11-01 |
| 申请公布号 | CN117150305A |
| 申请公布日 | 2023-12-01 |
| 授权公布号 | CN117150305B |
| 授权公告日 | 2024-02-27 |
| 分类号 | G06F18/214;G06F18/15;G06F18/241;G06F16/33;G06F16/35;G06N3/0455;G06N3/08 |
| 分类 | 计算;推算;计数; |
| 申请人名称 | 杭州光云科技股份有限公司 |
| 申请人地址 | 浙江省杭州市滨江区江南大道588号恒鑫大厦主楼15层 |
专利法律状态
2024-02-27
授权
状态信息
授权
2023-12-19
实质审查的生效
状态信息
实质审查的生效;IPC(主分类):G06F18/214;申请日:20231101
2023-12-01
公布
状态信息
公布
摘要
本申请公开了一种融合检索和填空的文本数据增强方法、装置及电子设备,对特定领域的带标签文本数据和未标注文本数据做数据预处理,接着生成有带标签文本数据和未标注文本数据的句向量,然后通过构造完形填空的输入方式由训练好的语言模型进一步提纯数据,最后,根据多个评判标准确定召回的未标注文本数据的标签,融合相似句检索的候选句召回方式和构造完形填空输入语言模型提纯的文本数据增强方法,提高了候选问句的标签准确性,从而获取多样的增强数据用于分类模型的训练,提高分类模型的识别率及分类准确率,充分发挥模型预训练时在无监督任务中学习到的先验知识,在训练数据较少的情况下也能取得较好的效果。


