• 热门行业
  • 装修建材
  • 家居生活
  • 餐饮食品
  • 母婴教育
  • 电脑办公
  • 服装首饰
  • 汽车工具
  • 家电数码
  • 机械化工
  • 休闲美容
返回上一页
专利状态
一种中文短文本聚类方法
有效
专利申请进度
申请
2016-11-02
申请公布
2017-04-26
授权
2021-04-06
预估到期
2036-11-02
专利基础信息
申请号 CN201610952122.X 申请日 2016-11-02
申请公布号 CN106599029A 申请公布日 2017-04-26
授权公布号 CN106599029B 授权公告日 2021-04-06
分类号 G06F16/35;G06F40/30
分类 计算;推算;计数;
申请人名称 焦点科技股份有限公司
申请人地址 江苏省南京市仙林大学城文苑路3号
专利法律状态
  • 2021-04-06
    授权
    状态信息
    授权
  • 2017-05-24
    实质审查的生效
    状态信息
    实质审查的生效
  • 2017-04-26
    公布
    状态信息
    公布
摘要
本发明涉及一种中文短文本聚类方法,具体涉及一种基于词向量及其相似度计算的中文短文本聚类方法。具体步骤如下,利用Word2Vec词向量训练模型获得所需要的词向量;利用词权重计算算法获取短文本集中所有词的权重;根据词向量和所有词的权重通过短文本相似度算法计算短文本集中每两个文本之间的相似度值;根据短文本集中每两个文本之间的相似度值对短文本进行聚类。本发明提出一种“搬运优化”的短文本相似度计算方法,解决了短文本文法特征稀疏和语义缺失等问题;基于图模型不断迭代计算词的权重,提高句子相似度计算的准确度;选择基于密度峰值聚类方法应用到短文本的聚类中,有效地提高聚类方法的效率。