• 热门行业
  • 装修建材
  • 家居生活
  • 餐饮食品
  • 母婴教育
  • 电脑办公
  • 服装首饰
  • 汽车工具
  • 家电数码
  • 机械化工
  • 休闲美容
返回上一页
专利状态
一种文本聚类的处理方法、服务器及系统
有效
专利申请进度
申请
2015-04-13
申请公布
2016-11-23
授权
2020-06-02
预估到期
2035-04-13
专利基础信息
申请号 CN201510172296.X 申请日 2015-04-13
申请公布号 CN106156142A 申请公布日 2016-11-23
授权公布号 CN106156142B 授权公告日 2020-06-02
分类号 G06F16/35
分类 计算;推算;计数;
申请人名称 深圳市腾讯计算机系统有限公司
申请人地址 广东省深圳市南山区高新区高新南一路飞亚达大厦5-10楼
专利法律状态
  • 2020-06-02
    授权
    状态信息
    授权
  • 2018-01-05
    实质审查的生效
    状态信息
    实质审查的生效;IPC(主分类):G06F17/30;申请日:20150413
  • 2016-11-23
    公布
    状态信息
    公布
摘要
一种文本聚类的处理方法、服务器及系统,该方法包括:从主题集合中为预处理后的文本集合中各文本中每一个词随机分配一个主题,将分配主题后的文本集合中各文本分配到多个第二服务器,建立该多个第二服务器分配的文本中的每一个词的初始映射关系,根据第二服务器反馈的第二服务器分配的文本的每一个词更新后的主题确定文本集合中各文本的聚类结果,每一个词更新后的主题由第二服务器基于改进的吉布斯采样算法,根据第二服务器上的词的初始映射关系进行采样计算得到的。通过确定词的映射关系及使用稠密数据结构的矩阵及使用改进后的吉布斯采样算法,能够有效的降低第二服务器处理的数据量及降低内存消耗,且能够避免出现网络瓶颈。