• 热门行业
  • 装修建材
  • 家居生活
  • 餐饮食品
  • 母婴教育
  • 电脑办公
  • 服装首饰
  • 汽车工具
  • 家电数码
  • 机械化工
  • 休闲美容
返回上一页
专利状态
垃圾文本库的建立方法、过滤方法及系统
有效
专利申请进度
申请
2016-11-30
申请公布
2017-05-24
授权
2020-11-06
预估到期
2036-11-30
专利基础信息
申请号 CN201611085764.0 申请日 2016-11-30
申请公布号 CN106708961A 申请公布日 2017-05-24
授权公布号 CN106708961B 授权公告日 2020-11-06
分类号 G06F16/35
分类 计算;推算;计数;
申请人名称 北京粉笔蓝天科技有限公司
申请人地址 北京市朝阳区望京利星行中心F区4层
专利法律状态
  • 2020-11-06
    授权
    状态信息
    授权
  • 2017-06-16
    实质审查的生效
    状态信息
    实质审查的生效;IPC(主分类):G06F17/30;申请日:20161130
  • 2017-05-24
    公布
    状态信息
    公布
摘要
本发明实施例公开了一种垃圾文本库的建立方法,属于计算机文本库建立技术领域。其中,该方法包括:S100:从文本中获取预先采集的至少一个垃圾文本样本;S200:检测每个垃圾文本样本中是否存在长特征词,若存在,则将该长特征词录入长特征词集;S300:基于贝叶斯分类器对长特征词集对应的垃圾文本样本进行分类,得到垃圾文本和非垃圾文本;S400:将垃圾文本新增的数量与预设的收敛阈值进行比较,若垃圾文本新增的数量小于收敛阈值,则执行步骤500,否则,执行步骤600;S500:垃圾文本库建立完毕,结束流程;S600:从文本中获取新的垃圾文本样本,返回执行步骤S200至步骤S500。本发明实施例实现了只需收集少量的垃圾文本样本构建垃圾文本库,省时省力,且更加精确。