品牌网
公司信息商标信息专利信息
授权公布号:CN111061853B
一种快速获取FAQ模型训练语料的方法
有效
申请
2019-12-26
申请公布
2020-04-24
授权
2024-01-12
预估到期
2039-12-26
申请号 CN201911368811.6
申请日 2019-12-26
申请公布号 CN111061853A
申请公布日 2020-04-24
授权公布号 CN111061853B
授权公告日 2024-01-12
分类号 G06F16/332;G06F40/30
分类 计算;推算;计数;
申请人名称 竹间智能科技(上海)有限公司
申请人地址 上海市徐汇区宜山路700号B2幢楼18层整层

专利法律状态

2024-01-12 授权
状态信息
授权
2020-05-19 实质审查的生效
状态信息
实质审查的生效;IPC(主分类):G06F16/332;申请日:20191226
2020-04-24 公布
状态信息
公布

摘要

本发明公开了一种快速获取FAQ模型训练语料的方法,包括以下步骤:获取标准问句队列,从标准问句队列中调取第一个标准问句;将调取的标准问句输入搜索引擎进行搜索,获取搜索结果;对获取到的搜索结果,逐条进行标题抽取操作,将抽取到的标题作为扩写问句;对获取的扩写问句进行存储;判断标准问句队列中是否还有下一个标准问句;调取标准问句队列中下一个标准问句;将存储的所有扩写问句和标准问句放到一块进行聚类操作;对聚类得到的每个簇类进行判断,判断簇类中是否有标准问句,若是,则将该簇类中的扩写问句和标准问句作为FAQ模型训练语料。本发明扩写训练语料效率高,不易受标注人员水平影响,能反映真实语料多样性。