• 热门行业
  • 装修建材
  • 家居生活
  • 餐饮食品
  • 母婴教育
  • 电脑办公
  • 服装首饰
  • 汽车工具
  • 家电数码
  • 机械化工
  • 休闲美容
返回上一页
专利状态
一种基于真实世界统计的中文专业术语与新词发现的方法
有效
专利申请进度
申请
2019-07-08
申请公布
2019-11-12
授权
2023-04-07
预估到期
2039-07-08
专利基础信息
申请号 CN201910608625.9 申请日 2019-07-08
申请公布号 CN110442861A 申请公布日 2019-11-12
授权公布号 CN110442861B 授权公告日 2023-04-07
分类号 G06F40/295;G06F40/242;G06F40/216
分类 计算;推算;计数;
申请人名称 万达信息股份有限公司
申请人地址 上海市徐汇区桂平路481号20号楼5层
专利法律状态
  • 2023-04-07
    授权
    状态信息
    授权
  • 2019-11-12
    公布
    状态信息
    公布
摘要
本发明涉及一种基于真实世界统计的中文专业术语与新词发现的方法。本发明使用了点间互信息(PMI)以及邻接熵(BE)来判断来寻找“种子”(具有高聚合性的词),采用这两个方法的原因主要是他们都属于无监督学习并且有着互补的作用。在找到“种子”之后,我们用基于16亿字的真实世界语料中所提炼出的统计信息来筛选出新词。