文本分类样本的构建方法和文本分类模型的训练方法

授权公布号：CN112711660B

有效

申请

2020-12-29

申请公布

2021-04-27

授权

2023-09-26

预估到期

2040-12-29

申请号	CN202011593010.2
申请日	2020-12-29
申请公布号	CN112711660A
申请公布日	2021-04-27
授权公布号	CN112711660B
授权公告日	2023-09-26
分类号	G06F16/34;G06F16/35;G06F40/258;G06F18/214
分类	计算；推算；计数;
申请人名称	易方达基金管理有限公司
申请人地址	广东省珠海市横琴新区宝华路6号105室-42891（集中办公区）

专利法律状态

2023-09-26 授权

状态信息

授权

2021-05-14 实质审查的生效

状态信息

实质审查的生效；IPC(主分类):G06F16/34；申请日:20201229

2021-04-27 公布

状态信息

公布

摘要

本发明提供了文本分类样本的构建方法和文本分类模型的训练方法。该方法包括：获取训练文本集；将训练文本转化为输入向量；对训练文本集中一定数量的训练文本进行分类结果标注得到训练样本集；通过训练样本集对预训练模型进行训练，得到对应一级标签的第一分类模型和对应二级标签的第二分类模型；获取训练文本集中训练样本集之外的训练文本，作为扩充文本；将扩充文本对应的输入向量分别输入至第一分类模型和第二分类模型，得到一级标签概率向量和二级标签概率向量；计算二级标签概率向量中每个元素与一级标签概率向量中对应元素的乘积；根据该乘积确定扩充文本对应的分类结果，以对训练样本集进行扩充。通过本发明，能够实现样本的快速标注。