• 热门行业
  • 装修建材
  • 家居生活
  • 餐饮食品
  • 母婴教育
  • 电脑办公
  • 服装首饰
  • 汽车工具
  • 家电数码
  • 机械化工
  • 休闲美容
返回上一页
专利状态
多版本文件比对方法、装置、系统及存储介质
有效
专利申请进度
申请
2023-11-14
申请公布
2023-12-15
授权
2024-03-12
预估到期
2043-11-14
专利基础信息
申请号 CN202311512879.3 申请日 2023-11-14
申请公布号 CN117235546A 申请公布日 2023-12-15
授权公布号 CN117235546B 授权公告日 2024-03-12
分类号 G06F18/22;G06F40/30;G06F40/211;G06F40/284
分类 计算;推算;计数;
申请人名称 国泰新点软件股份有限公司
申请人地址 江苏省苏州市张家港经济开发区(杨舍镇长兴路)
专利法律状态
  • 2024-03-12
    授权
    状态信息
    授权
  • 2024-01-02
    实质审查的生效
    状态信息
    实质审查的生效;IPC(主分类):G06F18/22;申请日:20231114
  • 2023-12-15
    公布
    状态信息
    公布
摘要
本申请公开一种多版本文件比对方法、装置、系统及存储介质,涉及大数据信息处理技术领域。该方法包括:获取原始文本数据,并对原始文本数据进行预处理,得到预处理文本数据;通过词向量模型对预处理文本数据进行词向量表示,得到词向量文本数据;通过文本结构分析算法对词向量文本数据进行处理,提取文本的结构化信息;基于词向量文本数据和结构化信息计算多版本文件之间的相似度;设定相似度阈值,通过相似度阈值与计算得到的多版本文件之间的相似度判断多版本文件之间是否相似。本申请实施例提供的多版本文件比对方法考虑了语义信息、能够弹性处理格式差异、结构化信息分析、处理文本重排和支持大规模处理。