走近特定音频识别(之五)—— 音频预处理技术

上一篇博文向大家介绍了,一个典型的特定音频识别系统的原理如下图所示:

                           走近特定音频识别(之五)—— 音频预处理技术
特定音频识别系统原理图
​    上图中可以看到,离线训练和在线识别两个阶段中,都有 预处理 和 生成特征向量 这两个模块,事实上,这两个模块是大多数音频识别系统(例如特定音频识别、说话人识别、音频场景识别等)所必须的。特别是预处理模块,是几乎所有的音频处理系统(例如语音编码、音频压缩、音频检索等)不可缺少的组成部分。
    预处理,顾名思义,就是在进行系统的核心处理步骤之前所进行的处理动作。不同的音频处理系统,预处理所涉及的步骤及算法也不尽相同。
    一个特定音频识别系统的经典音频预处理模块的处理步骤如下图所示:
                                走近特定音频识别(之五)—— 音频预处理技术
经典音频预处理模块示意图
    首先是解码过程,我们常见的音频文件都是按照不同的编码方式(例如wav、MP3、acc、ape、fla、mp4、wma等)存储在文件系统当中的,因此,在进行识别或者训练之前,必须将不同编码方式下的音频文件通过解码,统一转换为后续处理步骤可以处理的数据格式(例如PCM、wav 等等)。
    解码之后,音频文件需要进行分帧处理,也就是把音频数据按照时间顺序,分割成20毫秒左右的音频片段(被称作音频帧)。实际的操作过程中,往往采用滑窗的方法进行,即采用一个20毫秒长的窗口,从音频的起点开始向后滑动,每隔一段特定的时长(例如10毫秒,这个时长被称作帧移),就做一次分帧处理。在分帧时,往往并不适用矩形窗,而使用双肩并不是直角的窗口,例如汉明(Hamming)窗和汉宁(Hanning)窗等。
    对于特定音频识别系统来说,静音及能量过低的音频片段,对后续的训练和识别过程都是有负面影响的,因此,在预处理阶段去除静音及能量过低的音频片段,是预处理模块的一项基本步骤。一个简单的处理办法是:设定一个能量阈值,能量低于该阈值的音频帧,判断为静音或能量过低的音频帧,予以丢弃。
    接下来的步骤是生成音频段。由于音频帧受时间的限制,所包含的信息相对有限,对于特定音频的共性特征不易表现,因此不能直接采用帧特征进行特定音频的学习和识别,而是将一定数量的音频帧组成音频段,通过分析和处理音频段内的所有帧特征得到音频段特征,利用段特征进行特定音频训练和识别,可以得到更好的识别效果。音频段特征的生成方法如下图所示。
                                  走近特定音频识别(之五)—— 音频预处理技术
   音频段的生成方法示意图
    在实际情况下,音频信号往往受到背景噪声、编码损耗、以及非理想的传输通道的影响,如电话信道、手机信道等等,这些都会对特定音频识别系统的性能造成一定的影响。因此,信道自适应也是一项重要的预处理步骤。
    在倒谱域,卷积噪声的影响变成了加性的。假设传输信道的性质(相对于语音信号而言)在较长的时间内是不变的,因此其倒谱参数也就不变,并且假设卷积噪声同语音信号不相关,因此就可以在倒谱域通过一个高通滤波器,把慢变的卷积噪声滤掉。倒谱均值归一化(Cepstral Mean Normalization, CMN; 又称为倒谱均值相减, Cepstral Mean Subtraction, CMS)是一种简单有效的解决方法,复杂的方法包括RASTA滤波,短时高斯化(CDF),特征映射(Feature Mapping)等。
    到这里,就把一个典型的特定音频识别系统的预处理模块介绍完毕了,里面涉及到了一些专业术语和比较复杂的处理算法,有兴趣的同学可以自行维基百科或者谷歌:) 下一节,将向大家介绍生成特征向量模块。

原创文章,作者:admin,如若转载,请注明出处:https://www.isclab.org.cn/2014/10/28/%e8%b5%b0%e8%bf%91%e7%89%b9%e5%ae%9a%e9%9f%b3%e9%a2%91%e8%af%86%e5%88%ab%ef%bc%88%e4%b9%8b%e4%ba%94%ef%bc%89-%e9%9f%b3%e9%a2%91%e9%a2%84%e5%a4%84%e7%90%86%e6%8a%80%e6%9c%af/

(2)
adminadmin
上一篇 2014年10月28日 下午4:45
下一篇 2014年10月31日

相关推荐

  • 虚拟化平台操作系统内核级恶意攻击行为及其检测技术

          虚拟化技术的提出为操作系统内核安全的保护引入了新的思路和手段——虚拟机监视器( Virtual Machin…

    2019年5月20日
    1.3K
  • 鲁棒性认证方法

    随着对抗样本的危险性日益凸显,提高模型的鲁棒性成为研究的主要方向之一,然而,在评估鲁棒性方面还没有统一的标准,使得不同的防御方法之间对比存在很大的困难。

    2021年9月13日
    1.8K
  • 多人协作利器Git

    详细介绍Git的原理、初级和进阶用法

    2020年9月4日
    1.6K
  • 基于行为语义分析的android恶意软件分析方法

    Android恶意软件对社会造成较大危害。为此,本文介绍了一种基于关联行为分析的Android恶意软件检测系统,该方法具有较强的行为表征能力,能有效的应对各种进化变异的恶意软件。

    2019年8月13日
    1.4K
  • 偷走你的训练数据:模型反演攻击方法研究

    通过模型反演攻击方法研究,验证了模型训练数据面临泄露风险的问题,并希望以此促进对应防御手段的发展。本次学术报告介绍了模型反演攻击方法的相关知识,并聚焦于两个经典的白盒和黑盒攻击方法…

    2024年2月27日
    1.6K
  • 扩散模型加速采样方法与应用

    扩散模型在数据生成的众多领域上呈现出了非常好的效果。然而,在实际应用过程中,扩散模型的采样原理导致其生成速度非常缓慢,严重限制了模型的实际应用效果。为了对采样生成过程进行优化,近年…

    2023年4月17日
    1.2K
  • 文本生成中的幻觉

    本次报告讲解了文本生成中的幻觉问题。首先从文本生成的基本原理出发引入到幻觉问题,着重介绍了幻觉的概念、产生原因以及解决方法。然后从添加外部信息和幻觉数据处理两个角度入手分别介绍了K…

    2023年8月20日
    1.2K
  • 面向联邦基础模型的安全评测与防御方法研究

    聚焦IoRT/IIoT场景下联邦基础模型的安全评测与防御,概述联邦微调范式与隐蔽后门风险;重点介绍SecFFT频域一致性检测机制与长期意图建模相结合实现安全加权聚合,以及FL-ID…

    2025年12月22日
    1.4K
  • 走近特定音频识别(之四)—— 训练和识别

    上篇文章介绍了“识别”和“检索”的区别和关系,从这篇开始,我们将从更近的距离接触特定音频识别,本文将向大家介绍特定音频识别系统的基本构成。     一个典型的特定音频识别系统的原理…

    2014年10月28日
    1.2K
  • 敏感文本数据脱敏方法

    本次报告对文本数据的脱敏方法展开介绍,介绍了目前常用的文本数据脱敏方法,重点讲解了文本数据泛化脱敏的基本概念,详细阐述了文本泛化脱敏方法和文本差分隐私噪声扰动脱敏方法,最后对比了文…

    2022年5月30日
    2.4K