• 热门行业
  • 装修建材
  • 家居生活
  • 餐饮食品
  • 母婴教育
  • 电脑办公
  • 服装首饰
  • 汽车工具
  • 家电数码
  • 机械化工
  • 休闲美容
返回上一页
专利状态
针对短文本的数据挖掘方法及系统
有效
专利申请进度
申请
2018-07-17
申请公布
2019-06-28
授权
2024-01-30
预估到期
2038-07-17
专利基础信息
申请号 CN201810784159.5 申请日 2018-07-17
申请公布号 CN109947934A 申请公布日 2019-06-28
授权公布号 CN109947934B 授权公告日 2024-01-30
分类号 G06F16/35;G06F16/335
分类 计算;推算;计数;
申请人名称 中国银联股份有限公司
申请人地址 上海市浦东新区含笑路36号银联大厦
专利法律状态
  • 2024-01-30
    授权
    状态信息
    授权
  • 2019-07-23
    实质审查的生效
    状态信息
    实质审查的生效;IPC(主分类):G06F16/35;申请日:20180717
  • 2019-06-28
    公布
    状态信息
    公布
摘要
本发明涉及针对短文本的数据挖掘方法,包括:对第一短文本集合进行预处理以提取第一语料;基于第一语料来构建第一词向量模型,以使得每个短文本对应于至少一个词向量;确定多个短文本各自的词向量统计信息,利用第一聚类方法对多个短文本进行聚类以得到第一聚类结果;对每一类,确定该类中包括的至少一个短文本各自对应的至少一个词向量,并基于各词向量的词频信息来确定该类的至少一个关键词;对第一聚类结果,将至少一个关键词之间的重叠量满足第一条件的不同类进行合并。该方法能够克服聚类个数难以确定的问题,显著提升了聚类的准确性,使得聚类结果更符合技术人员预期。