授权公布号:CN102509549B
语言模型训练方法及系统
有效
申请
2011-09-28
申请公布
2012-06-20
授权
2013-08-14
预估到期
2031-09-28
| 申请号 | CN201110301029.X |
| 申请日 | 2011-09-28 |
| 申请公布号 | CN102509549A |
| 申请公布日 | 2012-06-20 |
| 授权公布号 | CN102509549B |
| 授权公告日 | 2013-08-14 |
| 分类号 | G10L15/14 |
| 分类 | 乐器;声学; |
| 申请人名称 | 上海果壳电子股份有限公司 |
| 申请人地址 | 上海市浦东新区中国(上海)自由贸易试验区郭守敬路356号3幢127室 |
专利法律状态
2021-02-05
专利权人的姓名或者名称、地址的变更
状态信息
专利权人的姓名或者名称、地址的变更;IPC(主分类):G10L15/14;变更事项:专利权人;变更前:上海果壳电子有限公司;变更后:上海果壳电子股份有限公司;变更事项:地址;变更前:201203 上海市浦东新区殷北路380号1幢108室;变更后:200120 上海市浦东新区中国(上海)自由贸易试验区郭守敬路356号3幢127室
2014-10-22
专利申请权、专利权的转移
状态信息
专利权的转移;IPC(主分类):G10L15/14;变更事项:专利权人;变更前:盛乐信息技术(上海)有限公司;变更后:上海果壳电子有限公司;变更事项:地址;变更前:201203 上海市浦东新区张江高科技园区郭守敬路356号3幢102室;变更后:201203 上海市浦东新区殷北路380号1幢108室;登记生效日:20140919
2013-08-14
授权
状态信息
授权
2012-07-18
实质审查的生效
状态信息
实质审查的生效;IPC(主分类):G10L15/14;申请日:20110928
2012-06-20
公布
状态信息
公布
摘要
本发明涉及一种语言模型训练方法及系统,包括:对训练语料进行一轮MapReduce操作,统计N元组的词频统计量;对所述N元组的词频统计量进行一轮MapReduce操作,得到N元组的COC统计量;对所述N元组的词频统计量进行一轮MapReduce操作,得到N元组的概率值;进行多轮MapReduce操作,分别计算一元组至m元组的回退系数;汇总所述概率值和回退系数得到APRA格式的语言模型。本发明采用以哈希前缀树为基础的数据结构,巧妙地将海量数据进行分拆和组合,把数据分散到集群的每个节点,统计相应的数据值,然后进行并行运算,得到一个基于海量数据的语言模型,实现了Katz算法的分布式版本,有效地训练基于海量数据的语言模型,同时能有效解决数据稀疏问题,提高其识别率。


