• 热门行业
  • 装修建材
  • 家居生活
  • 餐饮食品
  • 母婴教育
  • 电脑办公
  • 服装首饰
  • 汽车工具
  • 家电数码
  • 机械化工
  • 休闲美容
返回上一页
专利状态
一种基于声音与图像融合的发言者定位方法
有效
专利申请进度
申请
2019-12-31
申请公布
2020-04-21
授权
2021-04-06
预估到期
2039-12-31
专利基础信息
申请号 CN201911406105.6 申请日 2019-12-31
申请公布号 CN111046850A 申请公布日 2020-04-21
授权公布号 CN111046850B 授权公告日 2021-04-06
分类号 H04N7/18;G06K9/00;G01S5/18;G06N3/04
分类 计算;推算;计数;
申请人名称 杭州晨安科技股份有限公司
申请人地址 浙江省杭州市西湖区三墩镇西湖科技园西园一路16号4幢4层
专利法律状态
  • 2021-04-06
    授权
    状态信息
    授权
  • 2020-05-15
    实质审查的生效
    状态信息
    实质审查的生效
  • 2020-04-21
    公布
    状态信息
    公布
摘要
本发明提供一种基于声音与图像融合的发言者定位方法,可以精准的定位发言者,并且平滑的切换到发言者区域特写图像。本发明包括如下步骤:步骤一、基于麦克风阵列来实现声源定位;步骤二、基于改进的YOLO V3神经网络来实现人脸检测;步骤三、设置2个变倍摄像头与1个定焦摄像头,并通过步骤一的声源定位和步骤二的人脸检测来定位发言者,2个变倍摄像头定义为摄像机一与摄像机二。