当前位置：首页科技正文

现在机器视觉这么火那机器听觉被人忽视了吗？为什么？

白素电竞 2020-12-08 11:03:03

精选回答

我这里从狭义上的“机器听觉”补充一些内容吧。如果做computer vision的研究者以David Marr的《Vision》作为开山之作的话，做computer audition的或许可以以Albert Bregman的《Auditory Scene Analysis》作为开山之作。但这是比较狭义的说法，因为实际上目前机器的音频感知的主流领域包括语音识别，cocktail party problem，music transcription等问题，从模型选择上并没有follow人的感知过程。基于HMM的ASR的研究也只是把这个问题描述成序列建模的数学问题，包括后续的CTC，attention model。如果说MFCC是有一定的心理声学的基础的话，实际上Mel滤波器并不是刻画耳蜗传函的最佳滤波器组，比如Gammatone filter bank就被证明是更接近人耳蜗的选择（PNCC用的是Gammatone filter bank，但并不是主流的ASR特征）。目前的研究方向甚至到了直接用时域信号做ASR，即使用Mel filter bank feature，似乎也只是作为一个frequency warping的降维或者提升运算速度的方法，这就与真正的人耳感知相去甚远了。狭义上的computer audition，一般包括以下研究方向，binaural sound source localization, binaural source separation, binaural speech enhancement，应用领域主要在hearing assistant，cochlear implant，机器人听觉，以及audio reality。之所以都带着binaural是因为人的听觉感知就是双耳啊。在这个方向上Deliang Wang的《computational auditory scene analysis》做了很全面的介绍。虽然他们组现在也是DNN玩的飞起，但涉及到助听器人工耳蜗AR的研究方向，还是不能避开人耳感知的基本原理。

至于目前CV的研究方法和《Vision》相去多远我不是很了解，据说CNN的convolution还是受到人的reception field的启发的。

逼格

当然有机器听觉啦。一切以声音为输入的机器学习任务，都可以纳入「机器听觉」的范畴。这样的任务太多、太杂，所以一般不把它们统称为「机器听觉」而已。最为大众熟知的「机器听觉」任务，就是语音识别了，它的具体含义是把语音转化成文字。从语音中能够获得的信息远远不止文字，还包括语种、说话人身份、说话人情绪等等，相应的任务分别称为语种识别、说话人识别、情感识别。上面说的「语音」都是指人的声音。而世界上能够「听」到的声音也不只有语音。一种典型的其它的声音是音乐，那么就可以有旋律识别、和弦识别、体裁识别、情感识别等多种任务；考虑到有些音乐是有歌词的，那么就还可以进行歌词识别。广义的声音还包括动物、机械、自然界发出的各种声音。识别这些声音的任务，称为「声音事件检测」，这正是我的博士论文课题。前面所说的各种任务，都属于「识别」类型，即输入是声音，输出不是声音。当然还有输入和输出都是声音的任务，比如降噪、分离等等，也都可以算「机器听觉」。反过来，以声音为输出的机器学习任务，就可以算是「机器嘴巴」了（这个名字有点怪……），包括语音合成、语音转换等等。

安居邦

现在机器视觉这么火那机器听觉被人忽视了吗？为什么？

相关推荐

相似问题

精选推荐