授权公布号:CN111061853B
一种快速获取FAQ模型训练语料的方法
有效
申请
2019-12-26
申请公布
2020-04-24
授权
2024-01-12
预估到期
2039-12-26
| 申请号 | CN201911368811.6 |
| 申请日 | 2019-12-26 |
| 申请公布号 | CN111061853A |
| 申请公布日 | 2020-04-24 |
| 授权公布号 | CN111061853B |
| 授权公告日 | 2024-01-12 |
| 分类号 | G06F16/332;G06F40/30 |
| 分类 | 计算;推算;计数; |
| 申请人名称 | 竹间智能科技(上海)有限公司 |
| 申请人地址 | 上海市徐汇区宜山路700号B2幢楼18层整层 |
专利法律状态
2024-01-12
授权
状态信息
授权
2020-05-19
实质审查的生效
状态信息
实质审查的生效;IPC(主分类):G06F16/332;申请日:20191226
2020-04-24
公布
状态信息
公布
摘要
本发明公开了一种快速获取FAQ模型训练语料的方法,包括以下步骤:获取标准问句队列,从标准问句队列中调取第一个标准问句;将调取的标准问句输入搜索引擎进行搜索,获取搜索结果;对获取到的搜索结果,逐条进行标题抽取操作,将抽取到的标题作为扩写问句;对获取的扩写问句进行存储;判断标准问句队列中是否还有下一个标准问句;调取标准问句队列中下一个标准问句;将存储的所有扩写问句和标准问句放到一块进行聚类操作;对聚类得到的每个簇类进行判断,判断簇类中是否有标准问句,若是,则将该簇类中的扩写问句和标准问句作为FAQ模型训练语料。本发明扩写训练语料效率高,不易受标注人员水平影响,能反映真实语料多样性。


