授权公布号:CN111709242B
一种基于命名实体识别的中文标点符号添加方法
有效
申请
2020-06-01
申请公布
2020-09-25
授权
2024-02-02
预估到期
2040-06-01
| 申请号 | CN202010485752.7 |
| 申请日 | 2020-06-01 |
| 申请公布号 | CN111709242A |
| 申请公布日 | 2020-09-25 |
| 授权公布号 | CN111709242B |
| 授权公告日 | 2024-02-02 |
| 分类号 | G06F40/295;G06F40/10;G06N3/0442;G06N3/045;G06N3/047;G06F16/903 |
| 分类 | 计算;推算;计数; |
| 申请人名称 | 广州多益网络股份有限公司 |
| 申请人地址 | 广东省广州市萝岗区伴河路90号自编一栋301房 |
专利法律状态
2024-02-02
授权
状态信息
授权
2020-09-25
公布
状态信息
公布
摘要
本发明公开了一种基于命名实体识别的快速中文标点符号添加方法,主要包括:收集并清洗文本数据,以命名实体识别任务形式为标点符号添加模型构造生成训练数据集;用双向LSTM或者双向GRU网络加条件随机场的组合,构建轻量级的网络模型;利用训练数据集来训练神经网络;利用训练得到的神经网络模型对无标签文本进行实体识别,根据识别到的实体类别在实体后添加实体所属类别的标点符号。本发明通过构建轻量级的神经网络模型来对无标点符号文本进行中文标点符号的添加,可以快速地根据句中语义与语法,为无标点符号文本添加上四种常用的标点符号,便于读者阅读文本时快速理解语义。所用的网络结构轻,训练与推理速度快,且不需要大量的训练数据。


