品牌网
公司信息商标信息专利信息
授权公布号:CN117272053B
少样本地址数据集生成方法、地址匹配方法、介质及设备
有效
申请
2023-11-22
申请公布
2023-12-22
授权
2024-02-23
预估到期
2043-11-22
申请号 CN202311561276.2
申请日 2023-11-22
申请公布号 CN117272053A
申请公布日 2023-12-22
授权公布号 CN117272053B
授权公告日 2024-02-23
分类号 G06F18/214;G06F18/22;G06F40/295;G06F16/29;G06N3/0442;G06N3/09
分类 计算;推算;计数;
申请人名称 杭州中房信息科技有限公司
申请人地址 浙江省杭州市西湖区马塍路36号2幢

专利法律状态

2024-02-23 授权
状态信息
授权
2024-01-09 实质审查的生效
状态信息
实质审查的生效;IPC(主分类):G06F18/214;申请日:20231122
2023-12-22 公布
状态信息
公布

摘要

本发明公开了一种少样本地址数据集生成方法、地址匹配方法、介质及设备,属于人工智能领域。本发明针对命名实体识别模型的训练样本过少的问题,通过构建地址数据模板,利用少量地址样本数据自动生成大量同类型的地址训练、测试数据,使模型充分训练,避免欠拟合的情况。同时,本发明还构建了命名实体识别模型自学习框架,用户检索地址过程中通过命名实体识别模型进行匹配,然后由自学习框架完成命名实体识别模型的更新迭代。本发明可大大减少了模型训练数据的人工标注时间,并且通过自学习的方式对模型进行快速迭代,能显著的提高了地址文本匹配的准确率和效率。