• 热门行业
  • 装修建材
  • 家居生活
  • 餐饮食品
  • 母婴教育
  • 电脑办公
  • 服装首饰
  • 汽车工具
  • 家电数码
  • 机械化工
  • 休闲美容
返回上一页
专利状态
语言模型训练方法及系统
有效
专利申请进度
申请
2011-09-28
申请公布
2012-06-20
授权
2013-08-14
预估到期
2031-09-28
专利基础信息
申请号 CN201110301029.X 申请日 2011-09-28
申请公布号 CN102509549A 申请公布日 2012-06-20
授权公布号 CN102509549B 授权公告日 2013-08-14
分类号 G10L15/14
分类 乐器;声学;
申请人名称 上海果壳电子股份有限公司
申请人地址 上海市浦东新区中国(上海)自由贸易试验区郭守敬路356号3幢127室
专利法律状态
  • 2021-02-05
    专利权人的姓名或者名称、地址的变更
    状态信息
    专利权人的姓名或者名称、地址的变更;IPC(主分类):G10L15/14;变更事项:专利权人;变更前:上海果壳电子有限公司;变更后:上海果壳电子股份有限公司;变更事项:地址;变更前:201203 上海市浦东新区殷北路380号1幢108室;变更后:200120 上海市浦东新区中国(上海)自由贸易试验区郭守敬路356号3幢127室
  • 2014-10-22
    专利申请权、专利权的转移
    状态信息
    专利权的转移;IPC(主分类):G10L15/14;变更事项:专利权人;变更前:盛乐信息技术(上海)有限公司;变更后:上海果壳电子有限公司;变更事项:地址;变更前:201203 上海市浦东新区张江高科技园区郭守敬路356号3幢102室;变更后:201203 上海市浦东新区殷北路380号1幢108室;登记生效日:20140919
  • 2013-08-14
    授权
    状态信息
    授权
  • 2012-07-18
    实质审查的生效
    状态信息
    实质审查的生效;IPC(主分类):G10L15/14;申请日:20110928
  • 2012-06-20
    公布
    状态信息
    公布
摘要
本发明涉及一种语言模型训练方法及系统,包括:对训练语料进行一轮MapReduce操作,统计N元组的词频统计量;对所述N元组的词频统计量进行一轮MapReduce操作,得到N元组的COC统计量;对所述N元组的词频统计量进行一轮MapReduce操作,得到N元组的概率值;进行多轮MapReduce操作,分别计算一元组至m元组的回退系数;汇总所述概率值和回退系数得到APRA格式的语言模型。本发明采用以哈希前缀树为基础的数据结构,巧妙地将海量数据进行分拆和组合,把数据分散到集群的每个节点,统计相应的数据值,然后进行并行运算,得到一个基于海量数据的语言模型,实现了Katz算法的分布式版本,有效地训练基于海量数据的语言模型,同时能有效解决数据稀疏问题,提高其识别率。