• 热门行业
  • 装修建材
  • 家居生活
  • 餐饮食品
  • 母婴教育
  • 电脑办公
  • 服装首饰
  • 汽车工具
  • 家电数码
  • 机械化工
  • 休闲美容
返回上一页
专利状态
一种网页文章标题和正文的自动识别方法及装置
有效
专利申请进度
申请
2023-03-07
申请公布
2023-06-30
授权
2023-12-15
预估到期
2043-03-07
专利基础信息
申请号 CN202310211865.1 申请日 2023-03-07
申请公布号 CN116362223A 申请公布日 2023-06-30
授权公布号 CN116362223B 授权公告日 2023-12-15
分类号 G06F40/205;G06F40/154;G06F40/258;G06F40/253;G06F40/284
分类 计算;推算;计数;
申请人名称 北京粉笔蓝天科技有限公司
申请人地址 北京市朝阳区酒仙桥北路甲10号院103号楼-1至7层101内6层601室
专利法律状态
  • 2023-12-15
    授权
    状态信息
    授权
  • 2023-07-18
    实质审查的生效
    状态信息
    实质审查的生效;IPC(主分类):G06F40/205;申请日:20230307
  • 2023-06-30
    公布
    状态信息
    公布
摘要
本发明提出一种网页文章标题和正文的自动识别方法及装置,属于特征识别与数据处理技术领域。方法包括将网页中的所有元素解析成DOM树、逐个对DOM树中的所有元素进行广度优先遍历、将查找到的父元素添加到哈希记录表中,并将其对应的网页文章正文根元素的权重值加1、对网页内容进行反向广度优先遍历,查找文章的当前标题元素、结合网页文章正文根元素与文章标题元素,获得当前网页的完整文章内容等步骤。本发明提出了一种在不对网页内容进行预处理的情况下,可以方便提取网页文章信息的技术方案,可以精确获取到文章的标题和正文,对下一步的数据分析和训练提供了良好的半结构化数据。