立即下载 知乎日报 每日提供高质量新闻资讯

Siri:「你说了什么?我不太明白」

图片:编辑瞎的同事

语音识别领域的最新进展目前是什么样的水准?

知乎用户,语音识别博士生,剑桥大学工程系

其实语音识别在发音规范且背景噪音可以得到合理控制的情况下,很多年前就已经可以勉强实用了,很多尖端系统在工程水平很高的情况下甚至可以做的更好,比如早期的 Siri,以及 DARPA 项目语音识别评测中的各种参赛系统。当时前沿研究的困难和今天差不多,一方面是复杂条件下(自然发音、口音、复杂噪声等等)识别率显著下降的问题;另一方面是语音的训练和测试用数据的匹配问题(比如用朗读人民日报的语音做的模型很难用来准确识别电话对话语音)。传统上解决第一个问题,除了高超的工程技巧外,还会使用声学模型自适应等方式;而第二个问题则有不同的解决思路,比如偏向研究,想要对语音本质有更深入理解的方式。

Chin-Hui Lee, "From knowledge-ignorant to knowledge-rich modeling: A new speech research paradigm for next-generation automatic speech recognition"

另外就是更计算机科学家的方式,即收集更多更多的数据来改进统计模型。代表性的工作我认为应该是 2015 年过世的方棣棠老师和他夫人李树青老师的论文:

方棣棠,李树青,"汉语语音识别产品走向实用的途径"

方老师提出要收集百万个说话人的电话拨号或命令词控制语音,来完成一个在实际应用中足够鲁棒的简单语音识别器,可惜因为学术界的条件限制,在当时的条件下很难达成。事实上,这种数据量的限制在学术界一直长期存在,学术界语音识别研究使用的所谓大数据量多年来也不过只是一两千小时语音的规模,再不断增加数据量,不但人力、存储、运算等代价显著增加,同时识别器性能提升的收益也在下降(其实这个问题今天也依然存在)。进一步说,数据量的限制对学术界的影响很普遍,比如计算机视觉研究的数据量传统上其实比语音识别的更小,还比如 Deep Learning 刚开始兴起的时候,Hinton 等几位教授的研究组其实关注的都是小数据量的学习问题,甚至是无监督或弱监督的学习。

语音识别产品普遍的性能提升应该是从深度学习在(基于 HMM 的)语音识别器中应用开始的,当时领先的工作出自与 Hinton 教授合作的微软、IBM、Google 等公司,最代表性的工作包括

G.E. Hinton et. al, "Deep Neural Networks for Acoustic Modeling in Speech Recognition"

G. Dahl et. al, "Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition"

F. Seide et. al, "Conversational speech transcription using context-dependent deep neural networks"

当时 DNN 使用在语音识别中主要的三个显著的作用。一是可以显著提高识别器的性能,这样即使没有高超的工程技巧也可以做出实用效果很好的语音识别器;而是性能提升很稳定,即使当时效果最好的识别器,在把 GMM 换成 DNN 之后也普遍有 10%左右的提升;三是方便了大数据的使用。因为神经网络大量使用矩阵和向量运算进行计算,并且神经网络的结构很容易进行扩展从而可以更好的配合大数据的使用。很多杰出的高性能计算领域人才的介入直接让语音识别等方向可以更高效率的使用规模大的多的数据(比如十万小时语音等)。在 DNN 和大数据量的条件下,很多复杂工程技巧的作用下降了,甚至说话人自适应等方式也都不再同样重要,这又极大的降低了语音识别产品的研发门槛,并且提高了在诸如语音输入法、语音搜索等产品中的实用性。

之后语音识别的研究逐渐越来越多的受到深度学习研究的影响。DNN 之后,包括 RNN 和 TDNN 的复兴,CNN、LSTM、CLDNN 等更复杂模型的应用。之所以叫做复兴是因为 RNN 最早的大规模应用就在语音识别中,而 TDNN 则根本就是在语音识别中提出的,并且启发了 CNN 的研究,论文见:

A. Robinson and F. Fallside, "The utility driven dynamic error propagation network"

A. Waibel et. al, "Phoneme recognition using time-delay neural networks"

同时,神经网络的训练方式也在向着传统语音识别中更常用的序列化区分性准则发展,比如

A. Graves and N. Jaitly, "Towards end-to-end speech recognition with recurrent neural networks"

D. Povey et. al. "Purely sequence-trained neural networks for ASR based on lattice-free MMI"

之所以没把 CTC 列入是因为包括 A. Graves 自己都证实了传统语音识别中考虑所有可能候选的训练准则效果更好,并且 CTC 在小数据等一些情况下的效果还有争议。另外类似 CTC 的工作其实在早期语音识别研究中可以找到不少(但确实 A. Graves 的工作最完整,并且得到了 Google 的大力推动)。

基于以上很多技术,在某些特定的应用场景中,一定限定条件下(比如特定数据集上的电话对话语音识别),语音识别器已经初步达到或者接近人类的识别能力,见

G. Saon et. al, "The IBM 2016 English conversational telephone speech recognition system"

W. Xiong et. al. "The Microsoft 2016 conversational speech recognition system"

但这并不意味着语音识别器就真正完全达到 / 超过人类的识别能力。首先人类语音识别能力的鲁棒性相当好,而对于机器语音识别,当更换使用场景(比如不同麦克风、背景噪声、说话人口音、谈话内容等)时,语音识别器的性能就会有显著下降。另一方面,当机器使用海量数据(比如几十万、几百万小时语音)试图改善鲁棒性问题时,人类却并不需要这么多语音就可习得更好的语音识别的能力。本质上的原因仍然是我们对人类语音识别的机理缺乏足够的认知。不过近年来有许多认知科学的相关研究都取得了一定进展,比如将深度学习与人脑关联对认知机理进行的探索:

D. Yamins et. al, "Predicting IT and V4 Neural Responses With Performance-Optimized Neural Networks"

B. Devereux et. al, "Using neural network models of conceptual representation to understand the

stages of visual object processing in the ventral stream"

C. Wingfield et. al, "Multi-level representations in speech processing in brain and machine: evidence from EMEG and RSA"

需要注意的是即使在使用同样深度学习方法时,高超的工程技巧仍然可以带来语音识别器性能的显著差别,这在近年来一系列的国际评测已经有足够的体现。正像微软公司的黄学东院士所说的:『达到人类水平的对话语音识别,与其说是算法的胜利,不如说是‘工程的奇迹’』。

另外随着深度学习对语音识别领域影响的加深,不同于传统 HMM 框架的语音识别器也正在发展。CTC 虽然不依赖 HMM,但基本可以基于 HMM 类似实现,并且类似的纯神经网络语音识别器也早就存在,比如前面引用的 RNN 和 TDNN 的文献。更有意思的应该是近年来在 NLP 等方向中受到追捧的 encoder-decoder 的端到端方法。这种方法联合学习语音和语言的所有信息,并没有显式的马尔科夫性假设,从而极大的降低搜索解码以及数据资源收集的难度。但这种方法在语音识别中还面临很多问题。具体来说,包括模型记忆长度的问题、语音数据和语言联合学习导致的严重的资源限制、应用中灵活性的限制、缺乏 lattice 生成算法等导致的对系统融合等后处理的困难等等。所以实用系统中目前最理想的还是传统的统计语音识别框架(基于 HMM 的,或者类似的 CTC 等等)。不过这种 encoder-decoder 方法目前是非常好的研究平台,有很多开创性的工作可以做。另外,多语言、小数据量、无监督或弱监督学习仍然是语音识别的研究长期以来的热点和难点。

最后要提到的是语音识别工具包对语音识别技术和产业发展带来的巨大推进,比如 Sphinx、HTK、Kaldi 等。基于这些工具包演化出了主流的语音技术、极大的降低了研发的门槛,使得更多人和机构可以免除长年的技术积累而通过使用和逆向分析工具包快速进入语音识别领域。

更多讨论,查看 知乎圆桌 · 人工智能 · 机器感知

扫描二维码下载知乎日报

支持 iOS 和 Android
二维码下载知乎日报
阅读更多 美联储再次宣布降息 25 个基点,会产生哪些影响? 下载 「知乎日报」 客户端查看更多