授权公布号:CN106708961B
垃圾文本库的建立方法、过滤方法及系统
有效
申请
2016-11-30
申请公布
2017-05-24
授权
2020-11-06
预估到期
2036-11-30
| 申请号 | CN201611085764.0 |
| 申请日 | 2016-11-30 |
| 申请公布号 | CN106708961A |
| 申请公布日 | 2017-05-24 |
| 授权公布号 | CN106708961B |
| 授权公告日 | 2020-11-06 |
| 分类号 | G06F16/35 |
| 分类 | 计算;推算;计数; |
| 申请人名称 | 北京粉笔蓝天科技有限公司 |
| 申请人地址 | 北京市朝阳区望京利星行中心F区4层 |
专利法律状态
2020-11-06
授权
状态信息
授权
2017-06-16
实质审查的生效
状态信息
实质审查的生效;IPC(主分类):G06F17/30;申请日:20161130
2017-05-24
公布
状态信息
公布
摘要
本发明实施例公开了一种垃圾文本库的建立方法,属于计算机文本库建立技术领域。其中,该方法包括:S100:从文本中获取预先采集的至少一个垃圾文本样本;S200:检测每个垃圾文本样本中是否存在长特征词,若存在,则将该长特征词录入长特征词集;S300:基于贝叶斯分类器对长特征词集对应的垃圾文本样本进行分类,得到垃圾文本和非垃圾文本;S400:将垃圾文本新增的数量与预设的收敛阈值进行比较,若垃圾文本新增的数量小于收敛阈值,则执行步骤500,否则,执行步骤600;S500:垃圾文本库建立完毕,结束流程;S600:从文本中获取新的垃圾文本样本,返回执行步骤S200至步骤S500。本发明实施例实现了只需收集少量的垃圾文本样本构建垃圾文本库,省时省力,且更加精确。


