• 热门行业
  • 装修建材
  • 家居生活
  • 餐饮食品
  • 母婴教育
  • 电脑办公
  • 服装首饰
  • 汽车工具
  • 家电数码
  • 机械化工
  • 休闲美容
返回上一页
专利状态
一种文本数据清洗方法及装置
有效
专利申请进度
申请
2020-12-30
申请公布
2021-04-06
授权
2023-12-08
预估到期
2040-12-30
专利基础信息
申请号 CN202011621579.5 申请日 2020-12-30
申请公布号 CN112613317A 申请公布日 2021-04-06
授权公布号 CN112613317B 授权公告日 2023-12-08
分类号 G06F40/295;G06F16/215
分类 计算;推算;计数;
申请人名称 中国农业银行股份有限公司
申请人地址 北京市东城区建国门内大街69号
专利法律状态
  • 2023-12-08
    授权
    状态信息
    授权
  • 2021-04-23
    实质审查的生效
    状态信息
    实质审查的生效;IPC(主分类):G06F40/295;申请日:20201230
  • 2021-04-06
    公布
    状态信息
    公布
摘要
本申请公开了一种文本数据清洗方法及装置,该方法包括:获取预设数量个待清洗机构名。对目标机构名进行分词操作,获得目标机构名的各个词;目标机构名为待清洗机构名中的任意一个。根据词性设定模式和自定义词库对目标机构名的各个词进行词性标注,获得目标机构名的各个词所对应的词性模式。将目标机构名的各个词所对应的词性模式转换成复杂事件处理CEP中的各个事件,将各个事件按照词的先后顺序进行排序,获得事件流。按照匹配规则表对事件流进行清洗,获得保留下来的事件流,进而确定保留下来的机构名。通过该方法,将待清洗机构名进行分词和词性标注,将其封装成事件流,并结合CEP模式对待清洗机构名清洗,解决了待清洗机构名噪声多的问题。