品牌网
公司信息商标信息专利信息
授权公布号:CN102509549B
语言模型训练方法及系统
有效
申请
2011-09-28
申请公布
2012-06-20
授权
2013-08-14
预估到期
2031-09-28
申请号 CN201110301029.X
申请日 2011-09-28
申请公布号 CN102509549A
申请公布日 2012-06-20
授权公布号 CN102509549B
授权公告日 2013-08-14
分类号 G10L15/14
分类 乐器;声学;
申请人名称 上海果壳电子股份有限公司
申请人地址 上海市浦东新区中国(上海)自由贸易试验区郭守敬路356号3幢127室

专利法律状态

2021-02-05 专利权人的姓名或者名称、地址的变更
状态信息
专利权人的姓名或者名称、地址的变更;IPC(主分类):G10L15/14;变更事项:专利权人;变更前:上海果壳电子有限公司;变更后:上海果壳电子股份有限公司;变更事项:地址;变更前:201203 上海市浦东新区殷北路380号1幢108室;变更后:200120 上海市浦东新区中国(上海)自由贸易试验区郭守敬路356号3幢127室
2014-10-22 专利申请权、专利权的转移
状态信息
专利权的转移;IPC(主分类):G10L15/14;变更事项:专利权人;变更前:盛乐信息技术(上海)有限公司;变更后:上海果壳电子有限公司;变更事项:地址;变更前:201203 上海市浦东新区张江高科技园区郭守敬路356号3幢102室;变更后:201203 上海市浦东新区殷北路380号1幢108室;登记生效日:20140919
2013-08-14 授权
状态信息
授权
2012-07-18 实质审查的生效
状态信息
实质审查的生效;IPC(主分类):G10L15/14;申请日:20110928
2012-06-20 公布
状态信息
公布

摘要

本发明涉及一种语言模型训练方法及系统,包括:对训练语料进行一轮MapReduce操作,统计N元组的词频统计量;对所述N元组的词频统计量进行一轮MapReduce操作,得到N元组的COC统计量;对所述N元组的词频统计量进行一轮MapReduce操作,得到N元组的概率值;进行多轮MapReduce操作,分别计算一元组至m元组的回退系数;汇总所述概率值和回退系数得到APRA格式的语言模型。本发明采用以哈希前缀树为基础的数据结构,巧妙地将海量数据进行分拆和组合,把数据分散到集群的每个节点,统计相应的数据值,然后进行并行运算,得到一个基于海量数据的语言模型,实现了Katz算法的分布式版本,有效地训练基于海量数据的语言模型,同时能有效解决数据稀疏问题,提高其识别率。