授权公布号:CN117272053B
少样本地址数据集生成方法、地址匹配方法、介质及设备
有效
申请
2023-11-22
申请公布
2023-12-22
授权
2024-02-23
预估到期
2043-11-22
| 申请号 | CN202311561276.2 |
| 申请日 | 2023-11-22 |
| 申请公布号 | CN117272053A |
| 申请公布日 | 2023-12-22 |
| 授权公布号 | CN117272053B |
| 授权公告日 | 2024-02-23 |
| 分类号 | G06F18/214;G06F18/22;G06F40/295;G06F16/29;G06N3/0442;G06N3/09 |
| 分类 | 计算;推算;计数; |
| 申请人名称 | 杭州中房信息科技有限公司 |
| 申请人地址 | 浙江省杭州市西湖区马塍路36号2幢 |
专利法律状态
2024-02-23
授权
状态信息
授权
2024-01-09
实质审查的生效
状态信息
实质审查的生效;IPC(主分类):G06F18/214;申请日:20231122
2023-12-22
公布
状态信息
公布
摘要
本发明公开了一种少样本地址数据集生成方法、地址匹配方法、介质及设备,属于人工智能领域。本发明针对命名实体识别模型的训练样本过少的问题,通过构建地址数据模板,利用少量地址样本数据自动生成大量同类型的地址训练、测试数据,使模型充分训练,避免欠拟合的情况。同时,本发明还构建了命名实体识别模型自学习框架,用户检索地址过程中通过命名实体识别模型进行匹配,然后由自学习框架完成命名实体识别模型的更新迭代。本发明可大大减少了模型训练数据的人工标注时间,并且通过自学习的方式对模型进行快速迭代,能显著的提高了地址文本匹配的准确率和效率。


