授权公布号:CN110321466B
一种基于语义分析的证券资讯查重方法及系统
有效
申请
2019-06-14
申请公布
2019-10-11
授权
2023-09-15
预估到期
2039-06-14
| 申请号 | CN201910520287.3 |
| 申请日 | 2019-06-14 |
| 申请公布号 | CN110321466A |
| 申请公布日 | 2019-10-11 |
| 授权公布号 | CN110321466B |
| 授权公告日 | 2023-09-15 |
| 分类号 | G06F16/9032;G06F16/951;G06F40/30;G06F18/22;G06Q40/06 |
| 分类 | 计算;推算;计数; |
| 申请人名称 | 广发证券股份有限公司 |
| 申请人地址 | 广东省广州市黄埔区中新广州知识城腾飞一街2号618室 |
专利法律状态
2023-09-15
授权
状态信息
授权
2019-11-05
实质审查的生效
状态信息
实质审查的生效;IPC(主分类):G06F16/9032;申请日:20190614
2019-10-11
公布
状态信息
公布
摘要
本发明公开了一种基于语义分析的证券资讯查重方法及系统,所述方法包括:从撰写资讯的业务系统中实时采集最新的待检测资讯数据;采用文本切分算法对所述待检测资讯数据进行分块处理,得到若干个资讯分块;分别对每个所述资讯分块进行爬虫处理,得到对应的关联文本后采用网页分块方法和网页信息结构化提取方法进行清洗拼装,得到最终爬虫数据;采用simhash邻域算法和最大文本片段算法对所述待检测资讯数据和所述最终爬虫数据依次进行邻域检索和语义相似度计算,最终得到语义相似度计算结果。本发明提出simhash算法和最大文本片段算法,与爬虫系统有机结合,在不需建立文本库的前提下解决证券行业资讯原创检测的问题,并提高查重精确度和效率。


