走近特定音频识别(之五)—— 音频预处理技术

上一篇博文向大家介绍了,一个典型的特定音频识别系统的原理如下图所示:

                           走近特定音频识别(之五)—— 音频预处理技术
特定音频识别系统原理图
​    上图中可以看到,离线训练和在线识别两个阶段中,都有 预处理 和 生成特征向量 这两个模块,事实上,这两个模块是大多数音频识别系统(例如特定音频识别、说话人识别、音频场景识别等)所必须的。特别是预处理模块,是几乎所有的音频处理系统(例如语音编码、音频压缩、音频检索等)不可缺少的组成部分。
    预处理,顾名思义,就是在进行系统的核心处理步骤之前所进行的处理动作。不同的音频处理系统,预处理所涉及的步骤及算法也不尽相同。
    一个特定音频识别系统的经典音频预处理模块的处理步骤如下图所示:
                                走近特定音频识别(之五)—— 音频预处理技术
经典音频预处理模块示意图
    首先是解码过程,我们常见的音频文件都是按照不同的编码方式(例如wav、MP3、acc、ape、fla、mp4、wma等)存储在文件系统当中的,因此,在进行识别或者训练之前,必须将不同编码方式下的音频文件通过解码,统一转换为后续处理步骤可以处理的数据格式(例如PCM、wav 等等)。
    解码之后,音频文件需要进行分帧处理,也就是把音频数据按照时间顺序,分割成20毫秒左右的音频片段(被称作音频帧)。实际的操作过程中,往往采用滑窗的方法进行,即采用一个20毫秒长的窗口,从音频的起点开始向后滑动,每隔一段特定的时长(例如10毫秒,这个时长被称作帧移),就做一次分帧处理。在分帧时,往往并不适用矩形窗,而使用双肩并不是直角的窗口,例如汉明(Hamming)窗和汉宁(Hanning)窗等。
    对于特定音频识别系统来说,静音及能量过低的音频片段,对后续的训练和识别过程都是有负面影响的,因此,在预处理阶段去除静音及能量过低的音频片段,是预处理模块的一项基本步骤。一个简单的处理办法是:设定一个能量阈值,能量低于该阈值的音频帧,判断为静音或能量过低的音频帧,予以丢弃。
    接下来的步骤是生成音频段。由于音频帧受时间的限制,所包含的信息相对有限,对于特定音频的共性特征不易表现,因此不能直接采用帧特征进行特定音频的学习和识别,而是将一定数量的音频帧组成音频段,通过分析和处理音频段内的所有帧特征得到音频段特征,利用段特征进行特定音频训练和识别,可以得到更好的识别效果。音频段特征的生成方法如下图所示。
                                  走近特定音频识别(之五)—— 音频预处理技术
   音频段的生成方法示意图
    在实际情况下,音频信号往往受到背景噪声、编码损耗、以及非理想的传输通道的影响,如电话信道、手机信道等等,这些都会对特定音频识别系统的性能造成一定的影响。因此,信道自适应也是一项重要的预处理步骤。
    在倒谱域,卷积噪声的影响变成了加性的。假设传输信道的性质(相对于语音信号而言)在较长的时间内是不变的,因此其倒谱参数也就不变,并且假设卷积噪声同语音信号不相关,因此就可以在倒谱域通过一个高通滤波器,把慢变的卷积噪声滤掉。倒谱均值归一化(Cepstral Mean Normalization, CMN; 又称为倒谱均值相减, Cepstral Mean Subtraction, CMS)是一种简单有效的解决方法,复杂的方法包括RASTA滤波,短时高斯化(CDF),特征映射(Feature Mapping)等。
    到这里,就把一个典型的特定音频识别系统的预处理模块介绍完毕了,里面涉及到了一些专业术语和比较复杂的处理算法,有兴趣的同学可以自行维基百科或者谷歌:) 下一节,将向大家介绍生成特征向量模块。

原创文章,作者:admin,如若转载,请注明出处:https://www.isclab.org.cn/2014/10/28/%e8%b5%b0%e8%bf%91%e7%89%b9%e5%ae%9a%e9%9f%b3%e9%a2%91%e8%af%86%e5%88%ab%ef%bc%88%e4%b9%8b%e4%ba%94%ef%bc%89-%e9%9f%b3%e9%a2%91%e9%a2%84%e5%a4%84%e7%90%86%e6%8a%80%e6%9c%af/

(2)
adminadmin
上一篇 2014年10月28日 下午4:45
下一篇 2014年10月31日

相关推荐

  • 属性缺失异质图神经网络

    本报告主要介绍属性缺失异质图神经网络,探讨了异质图研究领域的发展历程,详细介绍了属性缺失异质图的基本概念、常用处理方法以及两种前沿的属性补全异质图神经网络。

    2025年2月20日
    2.2K
  • 层次聚类算法

    对聚类算法有一点点入门的时候就知道,几乎所有的“平面型”聚类算法都有一个共同的弱点-难以确定类别数(聚类停止条件),而层次聚类在一定程度上解决了这个问题(它算一种比较古老比较通用的…

    2015年1月28日
    2.8K
  • 表格数据隐私保护

    本次报告对表格数据的隐私保护方法展开介绍,介绍了目前常用的表格数据隐私保护方法,重点讲解生成对抗网络的基本原理及其和表格数据隐私保护间关系,详细阐述了经典的利用生成对抗网络生成新表…

    2022年5月25日
    2.2K
  • DNN模型水印及其鲁棒性评估

    模型水印技术是一种利用特定信息认证保护模型知识产权的方法。本次报告分析了深度学习领域现有的模型水印嵌入方法,从性能鲁棒性和稳定鲁棒性两方面讲述模型水印鲁棒性评估方法,并以实例分析和…

    2023年11月30日
    2.4K
  • 逆向分析与软件保护

    逆向思维应用在学习、工作中的方方面面,学术报告中介绍了逆向分析的概念及应用,通过微信的破解演示展示了软件逆向的过程。在最后针对软件发布后可能存在的被调试、被破解风险,介绍了几种软件…

    2020年5月5日
    3.3K
  • 源代码变更表征

    本次报告介绍了源代码变更表征领域,其属于源代码表征领域的进一步研究工作,报告首先介绍领域研究目标、背景意义、发展脉络与基础框架,梳理显式与隐式信息交互两类代码变更表示学习方法;随后…

    2026年3月23日
    1.7K
  • 协同训练

        协同训练是一种多视角学习方法,当数据充分时,在具有这种特征的数据集的任何一个视图上均可以利用一定的机器学习算法训练出一个强分类器。但…

    学术报告 2018年1月7日
    2.4K
  • 认知扭曲识别研究

    认知扭曲是认知行为治疗中的核心概念,与抑郁、焦虑等心理障碍的形成和维持密切相关,但现有很多研究主要关注情绪倾向或表层语义,难以刻画个体更深层的思维偏差与认知模式,同时认知扭曲往往存…

    2026年4月8日
    1.5K
  • 异质图神经网络

    异构图(HG)也称为异构信息网络,在现实世界中已变得无处不在;因此,HG嵌入(HG embedding)近年来受到了广泛关注,它旨在学习低维空间中的表示,同时保留下游任务的异构结构…

    2022年9月26日
    2.7K
  • Bias-Variance trade-off

    背景 熟悉模式识别的童鞋都很清楚,在模式识别领域内存在许多的学习算法和技术。面对纷繁的算法,我们必然会产生疑问:究竟哪一个算法才是“最好的”。值的强调的是每个算法都有相应的先验假设…

    2016年1月21日
    2.9K