现在机器视觉这么火那机器听觉被人忽视了吗?为什么?
我这里从狭义上的“机器听觉”补充一些内容吧。如果做computer vision的研究者以David Marr的《Vision》作为开山之作的话,做computer audition的或许可以以Albert Bregman的《Auditory Scene Analysis》作为开山之作。但这是比较狭义的说法,因为实际上目前机器的音频感知的主流领域包括语音识别,cocktail party problem,music transcription等问题,从模型选择上并没有follow人的感知过程。基于HMM的ASR的研究也只是把这个问题描述成序列建模的数学问题,包括后续的CTC,attention model。如果说MFCC是有一定的心理声学的基础的话,实际上Mel滤波器并不是刻画耳蜗传函的最佳滤波器组,比如Gammatone filter bank就被证明是更接近人耳蜗的选择 (PNCC用的是Gammatone filter bank,但并不是主流的ASR特征)。目前的研究方向甚至到了直接用时域信号做ASR,即使用Mel filter bank feature,似乎也只是作为一个frequency warping的降维或者提升运算速度的方法,这就与真正的人耳感知相去甚远了。狭义上的computer audition,一般包括以下研究方向,binaural sound source localization, binaural source separation, binaural speech enhancement,应用领域主要在hearing assistant,cochlear implant,机器人听觉,以及audio reality。之所以都带着binaural是因为人的听觉感知就是双耳啊。在这个方向上Deliang Wang的《computational auditory scene analysis》做了很全面的介绍。虽然他们组现在也是DNN玩的飞起,但涉及到助听器人工耳蜗AR的研究方向,还是不能避开人耳感知的基本原理。
至于目前CV的研究方法和《Vision》相去多远我不是很了解,据说CNN的convolution还是受到人的reception field的启发的。
当然有机器听觉啦。一切以声音为输入的机器学习任务,都可以纳入「机器听觉」的范畴。这样的任务太多、太杂,所以一般不把它们统称为「机器听觉」而已。最为大众熟知的「机器听觉」任务,就是语音识别了,它的具体含义是把语音转化成文字。从语音中能够获得的信息远远不止文字,还包括语种、说话人身份、说话人情绪等等,相应的任务分别称为语种识别、说话人识别、情感识别。上面说的「语音」都是指人的声音。而世界上能够「听」到的声音也不只有语音。一种典型的其它的声音是音乐,那么就可以有旋律识别、和弦识别、体裁识别、情感识别等多种任务;考虑到有些音乐是有歌词的,那么就还可以进行歌词识别。广义的声音还包括动物、机械、自然界发出的各种声音。识别这些声音的任务,称为「声音事件检测」,这正是我的博士论文课题。前面所说的各种任务,都属于「识别」类型,即输入是声音,输出不是声音。当然还有输入和输出都是声音的任务,比如降噪、分离等等,也都可以算「机器听觉」。反过来,以声音为输出的机器学习任务,就可以算是「机器嘴巴」了(这个名字有点怪……),包括语音合成、语音转换等等。