您现在所在的位置:首页 >> 通知公告 >>
发布日期:2014年10月31日
走近特定音频识别(之二)——计算机是靠什么来分辨声音种类的?

我们人类是可以轻易地分辨声音的种类,但很难有人能说清楚人们分辨声音种类的原理。

很难吗?好吧,我尝试总结一下:耳膜可以感受到空气中声波所传递的压强变化,进而由神经传导给大脑,然后……然后就没有然后了,因为我们对于大脑学习机理的认知目前还不足以解释这些问题。

那么,计算机是依靠什么来分辨声音种类的呢?

我们都知道,音频在计算机的存储是以数字方式进行的,而这个数字,是如何得到的呢?没错,就是数模转换器。麦克风或者模拟信号的输入信号,通过数模转换,变成量化的数字信号,用横轴表示时间,纵轴表示声音能量的大小,就是而我们常见的波形图,也就是下面这个样子:

下面的图是另一段音频的样子:

你能看出这两段音频的差异么?比较难是吧!第一幅图的是一段外文电影的音频,而下面这幅图,是蜂群飞舞的声音。差别挺大是吧!可是从波形图上看上去,这两段音频似乎没啥区别啊?于是,一位困扰了很多通信类本科生的老先生出马了,他就是——傅里叶。

通过傅里叶变换,我们可以得到语谱图。语谱图就是以时间为横轴、频率为纵轴,以颜色的明亮程度表示能量大小的图像(颜色越暗,表示能量越小,颜色越亮,表示能量越大)。频率可以和平常的听觉联系起来,频率高的信号,耳朵听起来比较刺耳,频率低的信号,听上去比较低沉。
从语谱图中,我们可以轻易地看出上面两段音频的差异。

这是电影音频的语谱图:

这是蜂群飞舞音频的语谱图:

怎么样,这下很清楚了是吧!

    计算机就是依靠傅里叶变换之后的数据,来进行音频识别的。
    可是计算机也没有长眼睛,它是如何进行判别的呢?且听下回分解:)