• 热门行业
  • 装修建材
  • 家居生活
  • 餐饮食品
  • 母婴教育
  • 电脑办公
  • 服装首饰
  • 汽车工具
  • 家电数码
  • 机械化工
  • 休闲美容
返回上一页
专利状态
生成文本纠错模型训练语料的方法、装置、设备及介质
有效
专利申请进度
申请
2021-07-09
申请公布
2021-09-03
授权
2022-04-01
预估到期
2041-07-09
专利基础信息
申请号 CN202110776500.4 申请日 2021-07-09
申请公布号 CN113343674A 申请公布日 2021-09-03
授权公布号 CN113343674B 授权公告日 2022-04-01
分类号 G06F40/253;G06K9/62
分类 计算;推算;计数;
申请人名称 北京海泰方圆科技股份有限公司
申请人地址 北京市海淀区东北旺西路8号中关村软件园9号楼国际软件大厦E座一层、二层
专利法律状态
  • 2022-04-01
    授权
    状态信息
    授权
  • 2021-09-03
    公布
    状态信息
    公布
摘要
本发明公开了一种生成文本纠错模型训练语料的方法、装置、设备及介质,用以提高文本纠错模型的训练语料的质量。由于本发明实施例可以针对预设的每个被掩码字词的属性信息,根据初始语料中包含的每个字词的属性信息及对应该属性信息的掩码比例,从初始语料中,选取该属性信息及该掩码比例的被掩码字词,并对选取的被掩码字词进行掩码,以生成训练语料。相比现有技术,从初始语料中随机选取被掩码字词的方式而言,本发明实施例中选取的被掩码字词为初始语料中相对比较容易出错或比较重要的字词等,所以本发明实施例的训练语料的质量较高,基于本发明实施例的训练语料训练完成的文本纠错模型进行文本纠错时,可以提高文本纠错的准确性和召回率。