• 热门行业
  • 装修建材
  • 家居生活
  • 餐饮食品
  • 母婴教育
  • 电脑办公
  • 服装首饰
  • 汽车工具
  • 家电数码
  • 机械化工
  • 休闲美容
返回上一页
专利状态
一种语料库生成方法、装置、设备和计算机存储介质
有效
专利申请进度
申请
2017-08-24
申请公布
2019-07-16
授权
2023-03-14
预估到期
2037-08-24
专利基础信息
申请号 CN201710735803.5 申请日 2017-08-24
申请公布号 CN110019827A 申请公布日 2019-07-16
授权公布号 CN110019827B 授权公告日 2023-03-14
分类号 G06F16/36;G06F16/35
分类 计算;推算;计数;
申请人名称 腾讯科技(北京)有限公司
申请人地址 北京市海淀区海淀大街38号银科大厦16层1601-1608室
专利法律状态
  • 2023-03-14
    授权
    状态信息
    授权
  • 2019-07-16
    公布
    状态信息
    公布
摘要
本发明实施例公开了一种语料库生成方法,所述方法包括:从待处理信息库中确定第一媒体;其中,第一媒体为待处理信息库中评分大于第一阈值的媒体;基于第一媒体和所述第一媒体对应的文本,生成第一种子语料;采用预设算法对待处理信息库中的文本进行分类,并对得到的分类集合中的文本进行筛选,生成第二种子语料;所述第二种子语料中包括至少一个种子语料;基于所述第一种子语料和所述第二种子语料生成基准分类模型;基于所述第一种子语料和所述第二种子语料从所述待处理信息库中获取增量文本,并采用所述基准分类模型对所述增量文本进行筛选生成目标语料库。本发明实施例同时还公开了一种语料库生成装置、设备和计算机存储介质。