语音识别已过“甲子”之年距人类只差0.4%?

语音识别人工智能

1676阅读量2017-05-04

导读：日前，美国一家公司宣称专业速记员在记录对话时，转录词错率为5.1%，而该公司最新研发的语音识别系统词错率已达到5.5%，超越之前的历史最佳水平，树立了新的里程碑。语音识别，是人工智能领域的核心问题之一，0.4%的差距似乎意味着机器即将比肩人类。已过甲子之年斯坦福大学的相关研究者在2016年9月发布了一篇名为《2030年的人工智能与生活》的文章，提到：人工智能领域正式诞生于1956年

日前，美国一家公司宣称专业速记员在记录对话时，转录词错率为5.1%，而该公司比较新研发的语音识别系统词错率已达到5.5%，超越之前的历史比较佳水平，树立了新的里程碑。语音识别，是人工智能领域的核心问题之一，0.4%的差距似乎意味着机器即将比肩人类。

　已过甲子之年

斯坦福大学的相关研究者在2016年9月发布了一篇名为《2030年的人工智能与生活》的文章，提到：人工智能领域正式诞生于1956年夏天，一场由约翰麦卡锡组织的在美国达特茅斯暑期研究项目的研讨会，在多年以后被认定为全球人工智能研究的起点。

语音识别已过“甲子”之年距人类只差0.4%?1

其实，对于人工智能子项目之一的语音识别来说，它的历史甚至比60年还要久。

语音识别的研究源头可追溯至1950年，计算机科学之父阿兰图灵在《思想》(Mind)杂志上发表了题为计算的机器和智能的论文，首次提出了机器智能的概念，论文还提出了一种验证机器是否有智能的方法：让人和机器进行交流，如果人无法判断自己交流的对象是人还是机器，就说明这个机器有智能了，这就是后来鼎鼎有名的人工智能图灵测试。

图灵测试的概念极大影响了人工智能对于功能的定义，以此为途径，卡内基梅隆大学的两位科学家希尔伯特西蒙和曼纽尔布卢姆做了大量的前期工作，非常精妙地证明了罗素《数学原理》52道中的38道。西蒙甚至宣称在10年之内，机器就可以达到和人类智能一样的高度。

在这一时期，科学家们也将语音识别比作机器的听觉系统，该技术可以让机器通过识别和理解，把语音信号转变为相应的文本或命令。1952年，贝尔研究所、Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年，英国的Denes等人研制了第一个计算机语音识别系统。

　从模拟人脑到开创统计方法

当20世纪50年代明确了人工智能要模拟人类智慧这一大胆目标后，这一领域经历了近20年的辉煌。研究人员开展了一系列项目，表明计算机能够完成一系列原本只属于人类能力范畴之内的任务，例如证明定理、求解微积分、通过规划来响应命令、履行物理动作，甚至是模拟心理学家心理实验、作曲家谱曲这样的活动。

但是，过分简单的算法以及计算能力的限制，严重阻碍了人们使用人工智能来解决更加困难和多样化的问题。

这一阶段在人工智能的细分领域语音识别上，科学家们也走上了同样的弯路。他们认为，计算机要完成语音识别这类只有人才能做的事情，必须先让计算机理解自然语言，导致研究局限在人类学习语言的方式上了，即电脑模拟人脑，语言学者参与了大量的研究工作，但比较后的成果却近乎为零。伴随着对未来继续努力的失望，人工智能包括语音识别都于20世纪70年代中期逐渐淡出公众视野。

转机出现在统计语言学的创立上。这不得不提一个关键性人物德里克贾里尼克和他领导的IBM华生实验室，他们创新的使用统计方法，将当时的语音识别率从70%迅速提升到90%，同时语音识别的规模从几百个单词上升到几万个单词，使得语音识别就有了从实验室走向实际应用的可能。

在贾里尼克之前，科学家们都把语音识别问题的核心归结为语言学中的规则问题，而贾里尼克将它当作通信问题后，用两个隐含马尔可夫模型(声学模型和语言模型)把语音识别重新概括清楚了。

这个框架结构至今仍对语音识别影响深远，它不仅从根本上使得语音识别有使用的可能，而且奠定了今天自然语言处理的基础。贾里尼克后来也因此当选美国工程院院士，并被某杂志评为20世纪100名发明家之一。

尽管贾里尼克在1972年就提出了新的研究范式，但模拟人脑与统计学的方法之争，却持续了近十五年时间，语音识别领域历经了十五年的新旧交替后，比较大的成果其实是在技术的应用及产品化方面出现了进展。

大进步的催化剂

在互联网大爆发的20世纪90年代，人工智能的相关研究又一次停滞了。直到21世纪前10年，出现了一系列复兴人工智能研究进程的要素，尤其是下面这些重要的因素和核心技术：

大数据。得益于互联网、社交媒体、移动设备和廉价的传感器，这个世界产生的数据量急剧增加。大数据是人工智能发展的助推剂，这是因为有些人工智能技术使用统计模型来进行数据的概率推算，如语音识别，通过数据的海洋中丰富的语料，使得技术不断优化。

新算法。算法是解决一个设计程序或完成任务的路径方法。在一个完整的工业界语音识别系统里，比较关键的是深度学习算法，还有很多工作是专业领域相关的算法，以及海量数据收集和工程系统架构的搭建。这些算法本身很重要，同时也是其他技术的推动者，比如机器学习算法Google的TensorFlow目前就被开源使用。

可以说，任何技术都有蓄能阶段和爆发阶段，人工智能包括语音识别技术的爆发都得益于以上条件。这也不难理解，从语音识别来看，它是需要经验、数据和用户反馈共同作用来提升表现的。需要利用用户的反馈总结出一些特点。

谷歌是比较早在全球范围内大规模使用深度学习算法的公司，也比较早开创了用互联网思维做语音识别。在这方面，科大讯飞受到谷歌的启发，迅速跟进成为国内第一个在商用系统里使用深度学习的公司。

　现有成绩和待解难题一样多

语音识别技术已经发展了几十年，因为大数据和深度学习的应用，这一领域的传统强者成了谷歌、亚马逊、苹果和微软这些美国科技巨头，据统计，美国至少有26家公司在开发语音识别技术，而中国则有近50家公司研究这一领域。

尽管谷歌这些巨头在语音识别技术上的技术积累和先发优势让后来者似乎难以望其项背，但因为一些政策和市场方面的原因，当然也有部分原因是中文的复杂程度高于英语，所以国际巨头的语音识别主要偏向于英语，中文领域的语音智能机会则留给了科大讯飞、百度、搜狗等中国公司。在国内，这些本土化产品更为用户所熟知。

中文领域的识别难度在哪里?举个简单的例子，鲁迅《孔乙己》中的孔乙己之问：茴香豆的茴有几种写法?或者一个更有时代感的案例，如何形容物流很快?据说，在汉语里回答这个问题竟然至少有3600种说法，比如第二天就到了、物流很给力、给快递点赞等不尽其详。尽管语音识别在近些年来取得了巨大的进步，但其实仍然还有很多的工作要做。

此外，还有确保语音识别能在更为真实生活的环境中良好地工作。这些环境包括具有很多背景噪声的地方，比如聚会场所或在高速路上驾驶的时候;还有在多人交谈环境中将不同的说话人区分开。

还有一个更深层次的难题是，如果需要实现人机对话、人机写作，不只是需要用机器转录来自人类嘴巴的声音信号，更要理解人们所说的话。

从语音识别来看，下一个前沿是从识别走向理解，真正的人工智能仍然还在遥远的地平线上，在机器能理解其所听到或看到的事物的真正含义之前，还需要很长时间的工作，有很长的路要走。

或许也可以说，我们正在从一个人类必须理解计算机的世界，迈向一个计算机必须理解我们的世界。亚里士多德曾说过，如果机器能干很多活，岂不能让人类解放出来，或许这一解放的起点就是理解。

三星Galaxy S8将推语音识别AI助手功能

据韩联社11月6日报道，三星电子4日在收购美国人工智能(AI)公司VivLabs后举行的记者会上表示，将于明年上市的三星新一代智能手机GalaxyS8将搭载语音识别人工智能功能。

2016-11-07

都在谈人工智能，人工智能如何走进千家万户？

2017年8月7日消息国务院近日印发的《新一代人工智能发展规划》明确将人工智能作为未来国家重要的发展战略，这让本就火热的人工智能一词再度被推向高潮。战略指出：到2020年，人工智能总体技术和应用与世界先进水平同步；到2025年，人工智能基础理论实现重大突破；到2030年，成为世界主要人工智能创新中心。中国希望用13年的时间将自己打造成世界级的人工智能强国，但对大多数人来说，人工智能还离

2017-08-07

李开复：面对人工智能时代我比较担心什么

日前，创新工场创始人兼CEO、人工智能工程院院长李开复博士在纽约时报的观点栏目发表专栏文章《人工智能对人类社会的真正威胁》。在人工智能已经深入生活的今天，社会上不乏人工智能威胁论，担忧机器人会反噬人类。在这篇文章里，李开复博士讨论了人工智能技术未来发展所带来的几个更真切和亟待解决的问题：全球性的失业问题及可能产生的全球性经济失衡和贫富差距。以下为中文全文：面对呼之欲出的人工智能

2017-06-26

范式转变人工智能对家居系统有巨大推动力?

人工智能正在进入商用时代。经过60年的发展，基于DNN的人工智能已经从高校和实验室走进了企业，并从企业扩散向千家万户。谷歌发布的智能硬件GoogleHome、百度无人车、微软人工智能助理Cortana等，都是基于人工智能的规模化商业应用。对于离人们日常生活最近的物家电来看，在未来，硬件的差异会越来越小，人工智能将带来家电业的范式转变。一场以物为中心，更加智能互联的家电业智能革命真正到来。

2017-04-07

长虹海信等20家成立人工智能电视产业联盟

7月26日，在北京举办的2017人工智能电视行业高峰论坛上，中国电子商会和京东家电联合发布《2017人工智能电视白皮书》(以下简称《白皮书》)，全面介绍了国内人工智能电视产业现状与发展趋势。同时，由中国电子商会和京东家电共同发起，长虹、TCL、海信、暴风、小米、乐视、微鲸等近20家企业、机构共同组成的人工智能电视产业联盟正式成立。不过，由于人工智能电视产业发展仍处于起步阶段，定义不明、

2017-07-27

引爆行业新革命暴风人工智能电视X5 ECHO震撼发布

5月10日，暴风TV在北京召开主题为“越玩越好玩”的新品发布会，革命性地推出了首款可实现远场语音交互的人工智能电视——暴风人工智能电视X5ECHO，颠覆传统互联网电视，让电视成为人工智能助手：暴风大耳朵。全面升级用户体验，实现最自然的人机交互。在全球人工智能大势之下，暴风TV基于AI技术的创新和深度升级，势必颠覆行业格局，重整互联网电视新秩序。图：暴风TVC

2017-05-11

科大讯飞：在中国，用人工智能改变世界

今年5月9日，深圳湾体育中心“春茧”体育馆。当夜幕降临，一场盛大的锤子手机发布会在这座滨海建筑举行：罗永浩现场演示科大讯飞的语音输入，一字不差的识别结果惊艳全场。站在中国人工智能产业迈入“成年礼”的时间节点，中文智能语音产业正发生微妙变化：由国外IT巨头垄断的格局被彻底扭转。数据显示，截至今年，科大讯飞占有中文语音市场70%以上份额。这家名字之中同时标识着技术背景和企业愿景的科技公司，

2017-06-08

电视扮演“好管家” 人工智能电视风口将至？

通过语音搜索就能轻松看剧，这种人机对话场景已不算新鲜事。近年来，彩电业发展的概念频出：继量子点、激光、OLED、VR/AR后，彩电业又有了新的竞逐方向人工智能。上周，人工智能电视领域再添一名新成员，屏幕厚度仅有4.9mm的小米电视4在北京发布。如果说，以往电视的人工语音智能还停留在影片搜索、信息查询等人机对话功能，那小米电视4的发布，让人工智能电视从单纯的人机对话跨越到能够控制其他家居设备

2017-05-26

我国人工智能产业创新联盟今日成立

雷克大会(2017机器人与人工智能大会)将于今日（6月21日）在北京召开，大会期间将同时举办中国人工智能产业创新联盟的成立仪式。据悉，中国人工智能产业创新联盟将团结联盟内人工智能领域领军企业、成长型中小企业、科研机构、投资机构以及第三方产业服务平台，自下而上、抱团取暖、共谋发展。联盟计划未来3年将孵化50项人工智能产品、培育40家人工智能企业、建设3个地方创新基地、推动20项示范应用工程以

2017-06-21

人工智能已out，虚拟生命才是未来黑科技

备受瞩目的“十九大”上的政府工作报告中提到了人工智能，指出人工智能将和实体经济深度融合。人工智能正在成为新一轮科技革命和产业变革核心技术，全球都在争先进行战略部署，中国则是全世界人工智能行动最早、动作最快的国家之一。早在2015年，国务院将“互联网+人工智能”列为重点行动之一;2016年，“人工智能”一词被写入国家“十三五”规划纲要，国家发改委、科技部、工信部、中央网信办4部委联合发布《“互联

2017-12-06

语音识别已过“甲子”之年 距人类只差0.4%?