作为人工智能范畴的一个紧张方向,语音辨认比年来在深度学习(DeepLearning)的推动下取得了庞大的突破,为人机语音交互应用的开辟奠定了技能底子。语音辨认技能演进及实现方法、结果,既是语音辨认从业者必要体系把握的知识,也是智能化应用开辟者应当相识的内容。日前,微软研究院首席研究员、《分析深度学习-语音辨认实践》第一作者俞栋担当CSDN专访,深入分析了基于深度学习的语音辨认的最新技能方向,和微软团队的实践心得,并对微软开源的深度学习工具CNTK的迭代思绪做了先容。
俞栋先容了deepCNN、LFMMI、深度聚类、PIT和RNN天生模子等最新的用于语音辨认的深度学习模子,以及《分析深度学习-语音辨认实践》中提到的迁徙学习、盘算型网络(CN)等技能。他表现,更困难环境下的辨认(如远场、高噪音、或带口音的语音辨认)会是下一个必要办理的题目,如今他的团队就专注于研发对各种场景都具有更强辨认本领的模子,如deepCNN以及能提拔远场辨认率的模子(如PIT)。
作为研究职员,俞栋同样注意工程方面的实用性。题目的紧张性、研究方向的潜力、办理方案的普适性和工程上的便利性,是他选择研究方向的四个紧张考量因素。从工程的角度,他以为,盘算型网络在语音辨认中的应用,必要思量练习的难易程度、模子的巨细、以及运行时的速率、时延和能耗。这着实也是CNTK将来迭代的核心诉求。
别的,他表现,深度学习只是浩繁人工智能技能中的一种,重要善于非线性特性提取和端到端的基于梯度的优化,无法单独用来办理很多实际题目,把多种技能有机地连合起来才是最佳方案。
俞栋,1998年参加微软公司,现任微软研究院首席研究员,兼任浙江大学兼职传授和中科大客座传授。语音辨认和深度学习方向的资深专家,出书了两本专著,发表了160多篇论文,是60项专利的发明人及深度学习开源软件CNTK的发起人和重要作者之一。曾获2013年IEEE信号处理惩罚协会最佳论文奖。现担当IEEE语音语言处理惩罚专业委员会委员,曾担当IEEE/ACM音频、语音及语言处理惩罚汇刊、IEEE信号处理惩罚杂志等期刊的编委。
以下为采访实录:
语音辨认的最新盼望
CSDN:可否先容当前语音辨认范畴最让您高兴的一些盼望,以及您如今所做的一些风趣的工作?
俞栋:自从2010年我们在大词汇量语音辨认体系里乐成引入深层神经网络后,语音辨认研究和应用就进入了深度学习期间。近来这几年语音辨认范畴的发展速率大大超出了我们的预期,每年都有新的更有效的模子和方法被提出来。
在近来的这一年里,有几项工作让我以为很故意思。
第一项工作是包罗IBM、微软、讯飞、上海交大等研究机构陈诉的深层卷积网络(deepCNN)在大词汇量语音辨认中的乐成应用。之前我们一样平常仅在底层利用卷积网络,在那样的框架下卷积网络大大增长工作量但辨认上的性能上风并不显着,以是在书中我们没有花很大的篇幅先容这方面的工作。但当我们应用雷同于图像辨认中所用的诸如VGG、GoogleNet、和ResNet那样的深层卷积网络时,辨认率有了很大的提拔,乃至高出了之前表现最佳的深层双向LSTM。由于时延(latency)的缘故起因,双向LSTM不能用于及时体系,而深层卷积网络的时延比力小而且可控,以是可以用于及时语音辨认体系中。
第二项工作是约翰霍普金斯大学DanPovey博士主导的latticefreeMMI(LFMMI)。为了进步语音辨认体系构建过程的鲁棒性,传统语音辨认体系的构建必要颠末很多步调。近来几年里,很多研究职员都在实行通过端到端(end-to-end)优化直接构建辨认体系以省去其他步调,最有影响力的工作是基于LSTM的ConnectionistTemporalClassification(CTC)模子。Google和百度都陈诉说乐成应用了该技能,但据我们所知,直接利用CTC必要大量的调参工作因而总的建模时间反而更长,否者结果很差。大概说这一方法在新任务上的可重复性较差。而LFMMI从传统的MMI序列练习方法发展而来,引入了CTC的一些概念,也可以实现端到端的练习,但构建过程更轻易重复,鲁棒性更高。
第三和第四项工作是对鸡尾酒会题目的办理方案。鸡尾酒会是语音辨认里一个很难但很紧张的题目。近来有两项工作使我们看到了办理这一题目的曙光。
一项是MERL的JohnHershey博士为主提出的深度聚类(DeepClustering)方法。他们的方法通过把肴杂语音的每个time-frequencybin连合它的context映射到一个新的空间,使得在这一空间中属于同一语言人的bin间隔较小因而可以聚类到一起。
另一项是我们和Aalborg大学相助提出的具有置换稳固性的练习方法(permutationinvarianttraining,PIT)。PIT通过主动探求分离出的信号和标注的语源之间的最佳匹配来优化语音分离这一目标。这两种方法各有千秋,我个人的观点是PIT更有潜力一些,终极办理题目的有大概是PIT的某种改进或这两种方法的某种组合。
别的在基于RNN天生模子的辨认方法(比方sequence-to-sequence模子)上近来也有一些盼望,但总的来说,这一方面的研究还在开端阶段。
我近来在做三项工作:
一项是deepCNN,我们差不多与其他几个研究组同时发现了deepCNN在大词汇量语音辨认中的良好性能;
一项是基于PIT的语音分离,我是这项工作的主导者和重要贡献者;
第三项是基于RNN天生模子的辨认方法,我们有一些新的想法,但这项工作还在低级阶段。
深度学习与语音辨认
CSDN:概括地说,除了特性提取,深度学习在语音辨认范畴重要还发挥哪些作用?
俞栋:深度学习如今最重要的作用仍旧在特性提取上。纵然deepCNN也可以当作是一个更复杂的特性提取器。但正如你可以想见的,深度学习的作用不但仅是特性提取。比如我们两年条件出的prediction-adaptation-correction(PAC)模子可以把一些辨认上的举动特性比如猜测、自顺应、和纠偏直接建在模子里。又比如,我们在书中提到的noise-aware和speaker-aware自顺应方法可以通过网络布局直接实现自顺应建模。再比如,PIT模子可以直接由深度学习模子分离语音,而基于CTC和RNN天生模子的辨认方法更是直接由深度学习模子产生辨认结果。
CSDN:您与邓力博士合著的《分析深度学习-语音辨认实践》体系地先容了基于DNN的语音辨认技能,哪些人应该读这本书?他们会劳绩些什么?这本书得当入门吗?必要读者具备什么知识底子?
俞栋:对于正在或将来想从事语音辨认研究或工程实践的学者、门生、和工程师,这本书都会对他们有所助益。而这也正是我们写这本书的初志。在这本书里,我们试图刻画基于深度学习的语音辨认技能的整个框架和重要技能。由于我本人不停奋斗在科研的第一线,以是在书中我们可以或许提供各种方法提出的根本思绪、具体的数学推导、以及实现上的细节和履历。我们盼望这本书可以成为各人的referencebook。差别的读者可以在书中找到他们想要相识的东西。对于非语音辨认范畴的研究职员,这本书中提到的方法和头脑对他们办理本身的题目也会有所资助,由于这些都是通用的。
这本书同样得当入门。究竟上北美和日本都有大学把本书作为本科或研究生语音处理惩罚课程的讲义或参考书之一。要读懂这本书,读者只必要根本的微积分、概率论、和矩阵分析的知识。固然,学过呆板学习会对内里提到的一些根本概念有更好的认识,而有传统语音辨认体系的知识有助于明白辨认体系的整个框架以及序列层面上的区分度练习(sequence-leveldiscriminativetraining)。
CSDN:您先容了很多进步鲁棒性的方法,有哪一种是您最喜好的吗?
俞栋:从实用的角度看,基于辅助信息(auxiliaryinformation)的方法比方noise-aware和speaker-aware模子、以及基于SVD和KLDregularization的自顺应方法如今最简单有效。
CSDN:书中专门谈到了迁徙学习,举了一些例子,如欧洲语言到中文平凡话的乐成迁徙,那么哪些因素决定共享DNN隐层架构在当前语音辨认范畴的边界和范围?迁徙学习在语音辨认范畴推广应用的挑衅是什么?
俞栋:理论上来讲基于共享DNN隐层架构的多语言迁徙学习没有本质上的范围,这是由于你总能找到某个层面,在这个层面上语音特性非常雷同,纵然黑白常差别的语言,比如西语与中文。从工程实践的角度来讲,会有衡量。一样平常来讲,迁徙学习想要实现两个目标,一个是快速学习新任务(在这里是新语言),一个是镌汰学习新任务所需的数据。以是假如一个新语言有充足的数据而运算工具不是题目,那么直接练习大概更好,这是由于一个已经收敛的模子比力难调解到新语言上,就好像一个成年人学新语言比幼儿会难一些。但是假如数据和运算工具有一个不敷,那么基于共享DNN隐层架构的多语言迁徙学习就会对你的终极体系有资助。
值得指出的是,基于共享DNN隐层架构的迁徙学习也可以用于唤醒词辨认(hot-worddetection)中以支持用户自选唤醒词。图像辨认中也有雷同的应用,比如,用ImageNet练习出来的分类器的隐层可以用于imagecaptioning或其他图像分类任务。别的,我们这里提到的是特性层面的迁徙,其他层面的迁徙也有大概但会困难很多。
CSDN:书中还夸大了盘算型网络(CN)在新语音辨认体系中的作用,思量CN必要留意哪些题目?热门的LSTMRNN被高估了吗?
俞栋:从学术研究的角度来讲最紧张的是分析模子各变量之间的关系,然后用盘算型网络来实现这些关系。从工程的角度来讲,还要思量练习的难易程度、模子的巨细、以及运行时的速率、时延和能耗。
LSTM在很多模子中仍旧有紧张的作用。不外我们发现一些其他模子在某些题目上可以和LSTM表现靠近乃至高出它,比如前面提到的deepCNN在非特定人语音辨认上能高出LSTM,而GRU和基于RectifiedLinearUnit的RNN在很多时序题目上和LSTM表现靠近但更简单。
将来技能趋势
CSDN:语音辨认的将来技能方向,此中哪些是您的团队所关注的?您怎样确定一个技能研究的方向?
俞栋:我们以为更困难环境下的辨认比如远场、高噪音、或带口音的语音辨认会是下一个必要办理的题目,我们的研究也侧重在这些方面。我们如今专注于研发对各种场景都具有更强辨认本领的模子比如deepCNN以及能提拔远场辨认率的模子比如PIT。我们也关注大概引发技能革新的其他新想法比如基于RNN天生模子的辨认体系。
对于研究方向,我个人重要基于如下四个方面来决定:
题目的紧张性。我们侧重办理紧张的题目而不管题目本身是简单还是困难。
研究方向或方法的潜力而不但仅是如今的表现。假如一个方法如今表现不敷佳,但是具有很大的可扩展性和想象空间,那么我们会在这个方向上推进。
办理方案的普适性。我们更喜好能办理一类题目或多个场景的方法而不是某个特定题目或场景的方法。
工程上的便利性。我们更喜好简便的方法,简便的方法更便于工程实现和快速迭代。
CSDN:练习关键的发音特性并泛化,如今有什么样的盼望?您以为技能成熟还必要什么条件?
俞栋:我们如今的全部模子都不对关键的发音特性做任何预设,模子参数美满是从数据中学出来的。
在呆板学习中,有个闻名的biasandvariancedilemma。拟合本领弱的模子一样平常有较小的方差引起的错误率,比力不轻易过拟合,但有较大的由毛病引起的错误率。而拟合本领强的模子则反之。由毛病引起的错误率不轻易减小,但是由方差引起的错误率却可以通过增长练习数据来减小。深度学习模子着实就是拟合本领较强的一类模子,如今办理泛化本领(或由方差引起的错误率)的重要方法就是增长练习数据。
但是人可以用少得多的练习数据到达在差别场合下的较高的辨认率,尤其是对未见场合的泛化本领人远远高出深度学习。我个人做过一些这方面的探索,比如让每个音素学习一个在多种环境下都实用的模板(或mask),但遗憾的是这些实行并不乐成。如今我们还没有发现具有这种强泛化本领的模子。要办理这个题目,呆板学习算法必须可以或许主动辨认各条理低维流型上差别sample的雷同点和差别点,并知道对哪个题目用哪个条理上的特性。
CSDN:将来三五年的语音辨认范畴,是否尚有一些非深度学习方法具有发掘的潜力(大概可以和深度学习举行连合实现更好的结果)?
俞栋:着实如今的主流语音辨认技能仍旧集成了传统方法和深度学习方法。假如把深度学习界说为任何具有多级非线性处理惩罚的体系,那么任何含有深度学习模块的体系都是深度学习体系。但这并不表现深度学习就是全部。
从更广泛的范围来看,深度学习只是浩繁人工智能技能中的一种,它的重要长处还是在于非线性特性提取和端到端的基于梯度的优化。很多题目都不能仅仅利用深度学习技能来完成。比如AlphaGo着实就是集成了深度学习、强化学习、和蒙特卡洛树搜刮技能。我个人以为应该让每个技能做它善于的事,把多种技能有机地连合起来会是办理很多实际题目的最佳方案。
新技能学习方法
CSDN:这本书的参考文献数量到达了450多份,包罗很多论文,这大概得益于您的IEEE的工作,但如今各个大会/期刊收的论文非常多,可否先容一些快速选择和研读论文的通用方法?
俞栋:你会发现,固然论文很多,但重要的盼望仍旧是由几个重要的研究机构和个人推动的。假如你没有充足的时间,那么跟踪这些研究机构和个人会是一个比力有效的方法。假如你能与他们创建精良的关系,你乃至可以在他们的工作正式出书之前就相识他们的盼望或得到文章的预印本。假如你尚有时间,我发起你去参加相干的学术集会会议。学术集会会议是信息交换的场合,你可以相识到各人都在讨论什么题目和方法,保举阅读哪一篇文章,留意哪一项工作。
固然,并不是每篇文章都值得细致研读。我会阅读概要、简介、和总结以对一篇文章有个大抵的相识,而只花更多时间在有新头脑、新方法、新视角大概新结论的具有潜力的工作上。
CNTK加快模子练习速率
CSDN:您以为CNTK在语音辨认算法开辟中的上风怎样表现?
俞栋:就我个人所知,很多新的语音辨认模子都是基于CNTK开辟的。我们一开始开辟CNTK重要就是为语音辨认的研究服务的。纵然本日CNTK能方便地支持图像、视频、文本、以及其他信息的处理惩罚,它对于语音辨认模子的支持仍旧比力好。CNTK非常机动,它支持各种主流模子,比如DNN、CNN、LSTM,同时可以自界说各种新模子,比如PIT模子和PAC模子就都是完全由CNTK构建的。别的,由于CNTK也是我们产物线上的重要工具,以是我们开辟了很多高服从高性能的并行算法。这些算法极大地提拔了像语音辨认如许必要大量练习数据的任务的练习速率。
CSDN:可否先容CNTK的Python支持的盼望?将来对于其他语言如Matlab、R、Java、Lua、Julia的支持是怎样规划的?
俞栋:我们在已经发布的1.5和1.6版本中已经有对Python的支持。在将要发布的2.0版本中我们会提供更美满的支持,别的2.0版的API也会更完备、更机动。在新的API框架下,参加对其他语言的支持会变得很轻易。
CSDN:CNTK可扩展GPU的本领值得称道,但大规模摆设GPU能耗同样不小,如今有不少FPGA、ASIC加快方案的实行,CNTK会做雷同扩展的思量吗?
俞栋:究竟上,感谢我们工程师的优化工作,我们如今的全部语音辨认体系都可以在单CPU上实现及时辨认。以是在serving端,GPU能耗还不是题目。但我们预见到单CPU的瓶颈,以是在CNTK上也在摆设低精度低能耗的CPU/GPU架构。固然,我们也有同事在做FPGA的工作。
CSDN:深度学习用于语音辨认的情势每每是肴杂模子,您以为是否有须要思量CNTK与非深度呆板学习体系的整合,比如Yahoo!的Caffe-On-Spark?
俞栋:在运行环境上的集成方面,黄学东博士(1993年被微软从卡内基梅隆大学约请来主导语音辨认项目)主导的Philly项目有做雷同的工作。
CSDN:在将来半年CNTK会有哪些紧张的更新?
俞栋:我们会有更好更机动的API层,会提供更全面的Python支持,会进一步提拔练习的服从,对希罕矩阵会做更好的支持,会支持低精度盘算。固然,更多种类的更复杂的盘算节点(比如LFMMI)也会参加到工具中。
CSDN:除了CNTK,尚有哪些深度学习开源技能是您喜好的?
俞栋:TensorFlow、Torch、MxNet、Theano等都是不错的深度学习开源工具。每种工具都有本身的特点和长处。
《分析深度学习-语音辨认实践》的别的一位作者邓力也已经同意担当CSDN的专访,文章将于近期发布,敬请等待。
CCAI2016中国人工智能大会(https://ccai.caai.cn/)将于8月26-27日在京举行,AAAI主席,国表里浩繁院士,MIT、微软、大疆、百度、微信、滴滴专家领衔环球技能首脑和财产前锋打造国内人工智能前沿平台,8个重磅主题陈诉,4大专题论坛,1000+高质量参会高朋,探究人机交互、呆板学习、模式辨认及财产实战。八折特惠门票克制8月12日24时(https://huiyi.csdn.net/activity/product/goods_list?project_id=3023)。
内容转载自公众号
人工智能头条
相识更多
我要评论