• 热门行业
  • 装修建材
  • 家居生活
  • 餐饮食品
  • 母婴教育
  • 电脑办公
  • 服装首饰
  • 汽车工具
  • 家电数码
  • 机械化工
  • 休闲美容
返回上一页
专利状态
一种面向公共资源交易数据的清洗去重方法及其系统
有效
专利申请进度
申请
2019-04-09
申请公布
2019-09-03
授权
2022-04-12
预估到期
2039-04-09
专利基础信息
申请号 CN201910278683.X 申请日 2019-04-09
申请公布号 CN110196848A 申请公布日 2019-09-03
授权公布号 CN110196848B 授权公告日 2022-04-12
分类号 G06F16/215;G06F16/951
分类 计算;推算;计数;
申请人名称 广联达科技股份有限公司
申请人地址 北京市海淀区西北旺东路10号院东区13号楼广联达信息大厦
专利法律状态
  • 2022-04-12
    授权
    状态信息
    授权
  • 2019-09-03
    公布
    状态信息
    公布
摘要
本发明涉及一种面向公共资源交易数据的清洗去重方法及其系统,该公共资源交易数据所对应的文本以文本数据记录形式存储在数据集中;其中,按照预设规则对数据集进行分组,控制每个分组内的文本数据记录数量;基于最长公共子序列计算每一分组内各个文本数据记录之间的数据相似度;当两条文本数据记录之间的数据相似度大于预定阈值时,进一步对比这两条文本数据记录的命名实体信息,当这两条文本数据记录的命名实体信息相同时,判断属于重复数据,否则判断属于非重复数据。通过多维度的交叉验证方式来确定来自公共资源交易数据中的重复信息,能够在提高文本处理性能的基础上进一步防止误判重复数据。