2017-05-04 11:44:23
作者:zq
日前,美国一家公司宣称专业速记员在记录对话时,转录词错率为5.1%,而该公司最新研发的语音识别系统词错率已达到5.5%,超越之前的历史最佳水平,树立了新的里程碑。语音识别,是人工智能领域的核心问题之一,0.4%的差距似乎意味着机器即将比肩人类。已过甲子之年斯坦福大学的相关研究者在2016年9月发布了一篇名为《2030年的人工智能与生活》的文章,提到:人工智能领域正式诞生于1956年
日前,美国一家公司宣称专业速记员在记录对话时,转录词错率为5.1%,而该公司比较新研发的语音识别系统词错率已达到5.5%,超越之前的历史比较佳水平,树立了新的里程碑。语音识别,是人工智能领域的核心问题之一,0.4%的差距似乎意味着机器即将比肩人类。
已过甲子之年
斯坦福大学的相关研究者在2016年9月发布了一篇名为《2030年的人工智能与生活》的文章,提到:人工智能领域正式诞生于1956年夏天,一场由约翰麦卡锡组织的在美国达特茅斯暑期研究项目的研讨会,在多年以后被认定为全球人工智能研究的起点。
其实,对于人工智能子项目之一的语音识别来说,它的历史甚至比60年还要久。
语音识别的研究源头可追溯至1950年,计算机科学之父阿兰图灵在《思想》(Mind)杂志上发表了题为计算的机器和智能的论文,首次提出了机器智能的概念,论文还提出了一种验证机器是否有智能的方法:让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器,就说明这个机器有智能了,这就是后来鼎鼎有名的人工智能图灵测试。
图灵测试的概念极大影响了人工智能对于功能的定义,以此为途径,卡内基梅隆大学的两位科学家希尔伯特西蒙和曼纽尔布卢姆做了大量的前期工作,非常精妙地证明了罗素《数学原理》52道中的38道。西蒙甚至宣称在10年之内,机器就可以达到和人类智能一样的高度。
在这一时期,科学家们也将语音识别比作机器的听觉系统,该技术可以让机器通过识别和理解,把语音信号转变为相应的文本或命令。1952年,贝尔研究所、Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年,英国的Denes等人研制了第一个计算机语音识别系统。
从模拟人脑到开创统计方法
当20世纪50年代明确了人工智能要模拟人类智慧这一大胆目标后,这一领域经历了近20年的辉煌。研究人员开展了一系列项目,表明计算机能够完成一系列原本只属于人类能力范畴之内的任务,例如证明定理、求解微积分、通过规划来响应命令、履行物理动作,甚至是模拟心理学家心理实验、作曲家谱曲这样的活动。
但是,过分简单的算法以及计算能力的限制,严重阻碍了人们使用人工智能来解决更加困难和多样化的问题。
这一阶段在人工智能的细分领域语音识别上,科学家们也走上了同样的弯路。他们认为,计算机要完成语音识别这类只有人才能做的事情,必须先让计算机理解自然语言,导致研究局限在人类学习语言的方式上了,即电脑模拟人脑,语言学者参与了大量的研究工作,但比较后的成果却近乎为零。伴随着对未来继续努力的失望,人工智能包括语音识别都于20世纪70年代中期逐渐淡出公众视野。
转机出现在统计语言学的创立上。这不得不提一个关键性人物德里克贾里尼克和他领导的IBM华生实验室,他们创新的使用统计方法,将当时的语音识别率从70%迅速提升到90%,同时语音识别的规模从几百个单词上升到几万个单词,使得语音识别就有了从实验室走向实际应用的可能。
在贾里尼克之前,科学家们都把语音识别问题的核心归结为语言学中的规则问题,而贾里尼克将它当作通信问题后,用两个隐含马尔可夫模型(声学模型和语言模型)把语音识别重新概括清楚了。
这个框架结构至今仍对语音识别影响深远,它不仅从根本上使得语音识别有使用的可能,而且奠定了今天自然语言处理的基础。贾里尼克后来也因此当选美国工程院院士,并被某杂志评为20世纪100名发明家之一。
尽管贾里尼克在1972年就提出了新的研究范式,但模拟人脑与统计学的方法之争,却持续了近十五年时间,语音识别领域历经了十五年的新旧交替后,比较大的成果其实是在技术的应用及产品化方面出现了进展。
大进步的催化剂
在互联网大爆发的20世纪90年代,人工智能的相关研究又一次停滞了。直到21世纪前10年,出现了一系列复兴人工智能研究进程的要素,尤其是下面这些重要的因素和核心技术:
大数据。得益于互联网、社交媒体、移动设备和廉价的传感器,这个世界产生的数据量急剧增加。大数据是人工智能发展的助推剂,这是因为有些人工智能技术使用统计模型来进行数据的概率推算,如语音识别,通过数据的海洋中丰富的语料,使得技术不断优化。
新算法。算法是解决一个设计程序或完成任务的路径方法。在一个完整的工业界语音识别系统里,比较关键的是深度学习算法,还有很多工作是专业领域相关的算法,以及海量数据收集和工程系统架构的搭建。这些算法本身很重要,同时也是其他技术的推动者,比如机器学习算法Google的TensorFlow目前就被开源使用。
可以说,任何技术都有蓄能阶段和爆发阶段,人工智能包括语音识别技术的爆发都得益于以上条件。这也不难理解,从语音识别来看,它是需要经验、数据和用户反馈共同作用来提升表现的。需要利用用户的反馈总结出一些特点。
谷歌是比较早在全球范围内大规模使用深度学习算法的公司,也比较早开创了用互联网思维做语音识别。在这方面,科大讯飞受到谷歌的启发,迅速跟进成为国内第一个在商用系统里使用深度学习的公司。
现有成绩和待解难题一样多
语音识别技术已经发展了几十年,因为大数据和深度学习的应用,这一领域的传统强者成了谷歌、亚马逊、苹果和微软这些美国科技巨头,据统计,美国至少有26家公司在开发语音识别技术,而中国则有近50家公司研究这一领域。
尽管谷歌这些巨头在语音识别技术上的技术积累和先发优势让后来者似乎难以望其项背,但因为一些政策和市场方面的原因,当然也有部分原因是中文的复杂程度高于英语,所以国际巨头的语音识别主要偏向于英语,中文领域的语音智能机会则留给了科大讯飞、百度、搜狗等中国公司。在国内,这些本土化产品更为用户所熟知。
中文领域的识别难度在哪里?举个简单的例子,鲁迅《孔乙己》中的孔乙己之问:茴香豆的茴有几种写法?或者一个更有时代感的案例,如何形容物流很快?据说,在汉语里回答这个问题竟然至少有3600种说法,比如第二天就到了、物流很给力、给快递点赞等不尽其详。尽管语音识别在近些年来取得了巨大的进步,但其实仍然还有很多的工作要做。
此外,还有确保语音识别能在更为真实生活的环境中良好地工作。这些环境包括具有很多背景噪声的地方,比如聚会场所或在高速路上驾驶的时候;还有在多人交谈环境中将不同的说话人区分开。
还有一个更深层次的难题是,如果需要实现人机对话、人机写作,不只是需要用机器转录来自人类嘴巴的声音信号,更要理解人们所说的话。
从语音识别来看,下一个前沿是从识别走向理解,真正的人工智能仍然还在遥远的地平线上,在机器能理解其所听到或看到的事物的真正含义之前,还需要很长时间的工作,有很长的路要走。
或许也可以说,我们正在从一个人类必须理解计算机的世界,迈向一个计算机必须理解我们的世界。亚里士多德曾说过,如果机器能干很多活,岂不能让人类解放出来,或许这一解放的起点就是理解。
本文推荐语音识别已过“甲子”之年 距人类只差0.4%?仅代表作者观点,不代表本网站立场。本站对作者上传的所有内容将尽可能审核来源及出处,但对内容不作任何保证或承诺。请读者仅作参考并自行核实其真实性及合法性。如您发现图文视频内容来源标注有误或侵犯了您的权益请告知,本站将及时予以修改或删除。
猜您喜欢
最新推荐
兆弟控股助力湖州市南浔区重大项目集中开竣工
2024-08-02
2024-07-24
2024-05-28
2024-04-29
2024-04-18
2024-02-02
2023-11-28
相关新闻
日前,美国一家公司宣称专业速记员在记录对话时,转录词错率为5.1%,而该公司最新研发的语音识别系统词错率已达到5.5%,超越之前的历史最佳水平,树立了新的里程碑。语音识别,是人工智能领域的核心问题之一,0.4%的差距似乎意味着机器即将比肩人类。已过甲子之年斯坦福大学的相关研究者在2016年9月发布了一篇名为《2030年的人工智能与生活》的文章,提到:人工智能领域正式诞生于1956年
语音控制洗衣机等智能家电?之前似乎更多的出现在科幻影视中,现在已经开始进入我们的生活。格兰仕推出的这款支持语音识别的智能洗衣机,除了普通话,还可以支持多种方言,感觉好神奇,有木有?7月21日下午消息,格兰仕推出基于其G+智慧家居平台的首款智能家电“G+嘀嘀”滚筒洗衣机,这款产品支持语音和手机APP两种操控方式,能够实现人机语音交互,而且还能够识别普通话、粤语、湖南话、东北话等多种方言。
2017年6月8日,上海——哈曼国际今日发布全新的远程语音识别解决方案SONIQUE。该解决方案将面向快速发展的消费类语音电子产品、企业及机器人语音应用市场,提供有别于传统手动输入(如:通过按键、键盘输入或鼠标点击等)的新型语音输入技术。作为三星电子旗下全资子公司,哈曼国际为汽车市场、大众消费市场和专业市场提供领先的互联技术。哈曼今日正式发布全新远程语音识别解决方案——SONI
鞋子一脱到处扔、衣服杂乱无处放、钥匙小物品经常找不到,衣物堆积如山不但不美观,还因为挤作一团皱巴巴的,再穿的时候在身上十分不得体。
利用尖峰神经元的人工神经网络,使便携式计算机在不消耗大量能源或借助云计算技术的情况下完成智能型任务。去年8月,IBM公布了运行方式与人脑神经元和突触相似的芯片。据《麻省理工技术评论》网站报道,目前,IBM已经开始研发新一代人脑模拟芯片,使移动设备能更好地完成一些对人脑来说相当容易但对计算机来说却相当困难的任务,例如语音识别和诠释图片。负责IBM研究院的高级副总裁约翰柯利(John
用户名密码的组合是目前应用比较普遍的身份验证方式,但我们都知道,这种方式的安全程度和效率都不高:太长或太复杂的密码不好记,而太短的密码又不够安全。因此,生物识别技术也就成了一种被寄予厚望的身份验证方法。我们对于指纹扫描已经非常熟悉了,但还有一种更安全的生物识别技术也在快速发展,那就是虹膜扫描。比较近,东芝就推出了一款专用的虹膜扫描传感器。据报道,东芝日前发布了一款全新的近红外摄像头传感器,代号为“
10日消息指出,据国外媒体报道,科技博客网站TechCrunch当地时间周一报道称,苹果将在其数据中心中使用通信公司Nuance的语音软件,甚至硬件...
据韩联社11月6日报道,三星电子4日在收购美国人工智能(AI)公司VivLabs后举行的记者会上表示,将于明年上市的三星新一代智能手机GalaxyS8将搭载语音识别人工智能功能。
[摘要]有了这项功能,Siri将只会对用户本人的声音作出回应。腾讯数码讯(肖恩)允许Siri在锁屏界面运行可以说是一个潜在的安全威胁,在过去,这个“漏洞”可让心怀不轨之人查看手机当中的个人数据。而在解锁状态下,Siri则会对任何人所下达的任何命令作出回应。为了尽可能降低安全风险,苹果想出了一个解决方案。在最新曝光的专利当中,苹果就介绍了为Siri增加语音身份识别功能的方式。在记录下
易到今天正式宣布,对网约车服务动态调价功能实行封顶机制,实施平台所有订单最高浮动加价0.4倍。据悉,此项调价封顶措施将分阶段在全国各大城市陆续实行。
热门推荐
最新招商信息
相关推荐