• 热门行业
  • 装修建材
  • 家居生活
  • 餐饮食品
  • 母婴教育
  • 电脑办公
  • 服装首饰
  • 汽车工具
  • 家电数码
  • 机械化工
  • 休闲美容
返回上一页
专利状态
一种基于知识图谱的爬取种子列表更新方法及装置
有效
专利申请进度
申请
2017-03-02
申请公布
2017-07-25
授权
2020-05-12
预估到期
2037-03-02
专利基础信息
申请号 CN201710119956.7 申请日 2017-03-02
申请公布号 CN106980651A 申请公布日 2017-07-25
授权公布号 CN106980651B 授权公告日 2020-05-12
分类号 G06F16/31
分类 计算;推算;计数;
申请人名称 中电海康集团有限公司
申请人地址 浙江省杭州市余杭区文一西路1500号1幢311室
专利法律状态
  • 2020-05-12
    授权
    状态信息
    授权
  • 2019-12-24
    著录事项变更
    状态信息
    著录事项变更;IPC(主分类):G06F17/30;变更事项:发明人;变更前:赵明 沈颂 林友勇 刘钊岐 张芬;变更后:刘钊岐 沈颂 林友勇 张芬
  • 2017-09-15
    实质审查的生效
    状态信息
    实质审查的生效;IPC(主分类):G06F17/30;申请日:20170302
  • 2017-07-25
    公布
    状态信息
    公布
摘要
本发明公开了一种基于知识图谱的爬取种子列表更新方法及装置,该方法从初始的爬取种子列表中选取一个种子,爬取该种子的网页,从该种子的网页中提取出所有链接的URL作为新种子,爬取新种子的网页,并基于知识图谱计算出新种子对应的网页内容与搜索主题的相似度,然后用新种子的相似度与设定的相似度阈值进行比对,如果新种子的相似度大于设定的相似度阈值,则将该新种子加入爬取种子列表中,否则直接丢弃该新种子。本发明的装置包括种子选取模块、新种子提取模块、相似度计算模块和相似度比对模块。本发明能有效过滤与搜索主题相似度不高的网页,逐步调整网页爬取的方向,提高了爬取网页的准确度以及爬取网页的效率。