品牌网
公司信息商标信息专利信息
授权公布号:CN106708961B
垃圾文本库的建立方法、过滤方法及系统
有效
申请
2016-11-30
申请公布
2017-05-24
授权
2020-11-06
预估到期
2036-11-30
申请号 CN201611085764.0
申请日 2016-11-30
申请公布号 CN106708961A
申请公布日 2017-05-24
授权公布号 CN106708961B
授权公告日 2020-11-06
分类号 G06F16/35
分类 计算;推算;计数;
申请人名称 北京粉笔蓝天科技有限公司
申请人地址 北京市朝阳区望京利星行中心F区4层

专利法律状态

2020-11-06 授权
状态信息
授权
2017-06-16 实质审查的生效
状态信息
实质审查的生效;IPC(主分类):G06F17/30;申请日:20161130
2017-05-24 公布
状态信息
公布

摘要

本发明实施例公开了一种垃圾文本库的建立方法,属于计算机文本库建立技术领域。其中,该方法包括:S100:从文本中获取预先采集的至少一个垃圾文本样本;S200:检测每个垃圾文本样本中是否存在长特征词,若存在,则将该长特征词录入长特征词集;S300:基于贝叶斯分类器对长特征词集对应的垃圾文本样本进行分类,得到垃圾文本和非垃圾文本;S400:将垃圾文本新增的数量与预设的收敛阈值进行比较,若垃圾文本新增的数量小于收敛阈值,则执行步骤500,否则,执行步骤600;S500:垃圾文本库建立完毕,结束流程;S600:从文本中获取新的垃圾文本样本,返回执行步骤S200至步骤S500。本发明实施例实现了只需收集少量的垃圾文本样本构建垃圾文本库,省时省力,且更加精确。