授权公布号:CN115910216B
一种基于机器学习识别基因组序列分类错误的方法和系统
有效
申请
2022-12-01
申请公布
2023-04-04
授权
2023-07-25
预估到期
2042-12-01
| 申请号 | CN202211537778.7 |
| 申请日 | 2022-12-01 |
| 申请公布号 | CN115910216A |
| 申请公布日 | 2023-04-04 |
| 授权公布号 | CN115910216B |
| 授权公告日 | 2023-07-25 |
| 分类号 | G16B40/00;G16B30/10;G16B20/00;G16B50/30 |
| 分类 | 物理 |
| 申请人名称 | 杭州瑞普基因科技有限公司 |
| 申请人地址 | 浙江省杭州市余杭区五常街道联创街188号3号楼7楼 |
专利法律状态
2023-07-25
授权
状态信息
授权
2023-04-21
实质审查的生效
状态信息
实质审查的生效;IPC(主分类):G16B40/00;申请日:20221201
2023-04-04
公布
状态信息
公布
摘要
本发明公开了一种基于机器学习识别基因组序列分类错误的方法和系统,属于生物信息学技术领域。本发明还公开了一种构建用于识别组装基因组分类错误的机器学习模型的方法,包括以下步骤:获得多个有参考基因组的物种的组装基因组序列;将各组装基因组序列随机生成reads,并打断得到contigs序列集;将reads与各contigs序列集进行比对,获取各contig每个位置的比对参数,构建特征数据集;利用所有组装基因组序列的特征数据集及其分类是否错误的信息构建机器学习模型。利用本发明的方法和系统,可以准确判断组装基因组序列分类是否正确,删除分类错误的组装基因组后,利用剩余的高质量组装基因组序列作为参考数据库时,在实际样本检测中,能够有效降低检出假阳性。


