首页
品牌
排行
问答
专题
特惠
资讯
展会
百科
热门行业
装修建材
家居生活
餐饮食品
母婴教育
电脑办公
服装首饰
汽车工具
家电数码
机械化工
休闲美容
热门行业
教育培训
板材
地板
涂料
家纺
集成吊顶
美缝剂
木门
硅藻泥
管材
指纹锁
橱柜
衣柜
床垫
电热水器
集成灶
暖气片
净水器
酒店
卫浴
装修建材
卫浴洁具
板材
地板
建筑陶瓷
天花板
涂料
瓷砖泥瓦
水电管材
火锅
快餐
生活用品
软装
装饰装潢
灯具
家纺
干洗服务
内衣
男装
女装
幼教
整体卫浴
地板砖
阻燃板
铝材
集成吊顶
美缝剂
硅藻泥
管材
烤鱼
汉堡
叶酸
婴儿用品
婴儿床
指纹锁
品牌首页
品牌资讯
企业信息
商标信息
专利信息
返回上一页
专利状态
一种基于搜索引擎的轻量级通用网页主题爬虫方法
失效
专利申请进度
申请
2013-07-08
申请公布
2013-09-18
授权
2016-11-23
预估到期
2033-07-08
专利基础信息
申请号
CN201310285000.6
申请日
2013-07-08
申请公布号
CN103310026A
申请公布日
2013-09-18
授权公布号
CN103310026B
授权公告日
2016-11-23
分类号
G06F17/30
分类
计算;推算;计数;
申请人名称
焦点科技股份有限公司
申请人地址
江苏省南京市高新区星火路软件大厦A座12F
专利法律状态
2023-07-21
专利权的终止
状态信息
未缴年费专利权终止;IPC(主分类):G06F 17/30;专利号:ZL2013102850006;申请日:20130708;授权公告日:20161123;终止日期:
2016-11-23
授权
状态信息
授权
2013-10-23
实质审查的生效
状态信息
实质审查的生效;IPC(主分类):G06F17/30;申请日:20130708
2013-09-18
公布
状态信息
公布
摘要
发明基于搜索引擎的轻量级通用网页主题爬虫方法,包括,初始种子:给定的少量描述特定主题相关种子,根据一定规则,对种子进行扩充至一系列种子;发现网站:将初始种子转换为查询词,通过搜索引擎接口获得相关的若干网站;下载网站:将相关的网站下载到本地并存入数据库;网页解析:从下载的网站进行分析,获取其中的链接信息;种子更新:通过分析已爬取到的新网站,从中提取主题相关词,并以此构造新种子,保证爬取过程持续进行;爬取更新:根据已爬取网站的更新信息,计算重新爬取的周期,使得已爬取网站能实现自适应的自动更新。本发明具有低代价、易实现、高效、准确等特点。
更多专利
1
一种跨机房的数据同步方法及系统
2
一种基于网络访问日志数据的在线访问渠道间的溢出效应分析方法
3
一种基于用户行为的加权轨迹数据集构建方法
4
一种分布式对象存储系统闪回方法及装置
5
一种基于本地缓存快速建立索引的方法及系统
6
一种微信小程序第三方平台管理的方法及系统
7
一种基于守护进程的服务器端应用发布监控方法及装置
8
一种基于策略库交互的更新方法、升级方法与升级系统
9
一种日志文件的异常检测与处理的方法与装置
10
一种纠错重启以及自动判断启动的ETL调度系统及方法
11
大数据环境下的流式数据处理方法
12
一种基于DHT机制的云存储系统的资源动态分配方法
13
高可靠性的大数据日志采集与传输方法
14
一种知识依赖的网页信息抽取方法
15
一种优化电子商务商品搜索的方法及系统
16
一种运动能力分析数据智能采集的方法和系统
17
一种基于账号的跨系统数据同步方法及系统
18
一种适用于带纹理模型的三维模型简化方法
19
一种数据仓库数据监控的方法
20
一种基于机器学习的销售系统客户匹配方法
全国服务热线:
在线客服
1211389656
咨询
商务合作
85926368
咨询
媒体合作
921888730
咨询
在线客服
客服微信号
品牌网官方客服微信
打开微信扫一扫
客服微信
商务合作微信
商务合作详谈
打开微信扫一扫
商务合作
回到顶部