• 热门行业
  • 装修建材
  • 家居生活
  • 餐饮食品
  • 母婴教育
  • 电脑办公
  • 服装首饰
  • 汽车工具
  • 家电数码
  • 机械化工
  • 休闲美容
返回上一页
专利状态
一种基于搜索引擎的轻量级通用网页主题爬虫方法
失效
专利申请进度
申请
2013-07-08
申请公布
2013-09-18
授权
2016-11-23
预估到期
2033-07-08
专利基础信息
申请号 CN201310285000.6 申请日 2013-07-08
申请公布号 CN103310026A 申请公布日 2013-09-18
授权公布号 CN103310026B 授权公告日 2016-11-23
分类号 G06F17/30
分类 计算;推算;计数;
申请人名称 焦点科技股份有限公司
申请人地址 江苏省南京市高新区星火路软件大厦A座12F
专利法律状态
  • 2023-07-21
    专利权的终止
    状态信息
    未缴年费专利权终止;IPC(主分类):G06F 17/30;专利号:ZL2013102850006;申请日:20130708;授权公告日:20161123;终止日期:
  • 2016-11-23
    授权
    状态信息
    授权
  • 2013-10-23
    实质审查的生效
    状态信息
    实质审查的生效;IPC(主分类):G06F17/30;申请日:20130708
  • 2013-09-18
    公布
    状态信息
    公布
摘要
发明基于搜索引擎的轻量级通用网页主题爬虫方法,包括,初始种子:给定的少量描述特定主题相关种子,根据一定规则,对种子进行扩充至一系列种子;发现网站:将初始种子转换为查询词,通过搜索引擎接口获得相关的若干网站;下载网站:将相关的网站下载到本地并存入数据库;网页解析:从下载的网站进行分析,获取其中的链接信息;种子更新:通过分析已爬取到的新网站,从中提取主题相关词,并以此构造新种子,保证爬取过程持续进行;爬取更新:根据已爬取网站的更新信息,计算重新爬取的周期,使得已爬取网站能实现自适应的自动更新。本发明具有低代价、易实现、高效、准确等特点。