• 热门行业
  • 装修建材
  • 家居生活
  • 餐饮食品
  • 母婴教育
  • 电脑办公
  • 服装首饰
  • 汽车工具
  • 家电数码
  • 机械化工
  • 休闲美容
返回上一页
专利状态
一种提取网页内容的实现方法
有效
专利申请进度
申请
2012-03-22
申请公布
2012-09-12
授权
2014-09-17
预估到期
2032-03-22
专利基础信息
申请号 CN201210078159.6 申请日 2012-03-22
申请公布号 CN102663023A 申请公布日 2012-09-12
授权公布号 CN102663023B 授权公告日 2014-09-17
分类号 G06F17/30
分类 计算;推算;计数;
申请人名称 浙江盘石信息技术股份有限公司
申请人地址 浙江省杭州市拱墅区祥园路45号盘石大厦
专利法律状态
  • 2015-09-16
    专利权人的姓名或者名称、地址的变更
    状态信息
    专利权人的姓名或者名称、地址的变更;IPC(主分类):G06F17/30;变更事项:专利权人;变更前:浙江盘石信息技术有限公司;变更后:浙江盘石信息技术股份有限公司;变更事项:地址;变更前:310011 浙江省杭州市拱墅区祥园路45号盘石大厦;变更后:310011 浙江省杭州市拱墅区祥园路45号盘石大厦
  • 2014-09-17
    授权
    状态信息
    授权
  • 2012-11-07
    实质审查的生效
    状态信息
    实质审查的生效;IPC(主分类):G06F17/30;申请日:20120322
  • 2012-09-12
    公布
    状态信息
    公布
摘要
一种提取网页内容的实现方法,包括以下步骤:步骤S110,对整个网页采用DOM树进行分割处理,以将网页中相关联的内容分割为至少一个布局块;步骤S120,对网页类型进行判断,首先判断出导航页,并将导航页删除;步骤S130,对所述布局块进行块属性的判断,如果存在主题块,根据链接密度、标点符号个数判断是否为主题页;如果不存在主题块,根据列表块的个数进行判断,若小于阈值L,对应网页就是主题页,否则不是;步骤S140,根据主题块或列表块得到主题页,并提取所需的主题页信息。本发明提供一种适用性良好、兼有较好实时性的提取网页内容的实现方法。