走近特定音频识别(之五)—— 音频预处理技术

上一篇博文向大家介绍了,一个典型的特定音频识别系统的原理如下图所示:

                           走近特定音频识别(之五)—— 音频预处理技术
特定音频识别系统原理图
​    上图中可以看到,离线训练和在线识别两个阶段中,都有 预处理 和 生成特征向量 这两个模块,事实上,这两个模块是大多数音频识别系统(例如特定音频识别、说话人识别、音频场景识别等)所必须的。特别是预处理模块,是几乎所有的音频处理系统(例如语音编码、音频压缩、音频检索等)不可缺少的组成部分。
    预处理,顾名思义,就是在进行系统的核心处理步骤之前所进行的处理动作。不同的音频处理系统,预处理所涉及的步骤及算法也不尽相同。
    一个特定音频识别系统的经典音频预处理模块的处理步骤如下图所示:
                                走近特定音频识别(之五)—— 音频预处理技术
经典音频预处理模块示意图
    首先是解码过程,我们常见的音频文件都是按照不同的编码方式(例如wav、MP3、acc、ape、fla、mp4、wma等)存储在文件系统当中的,因此,在进行识别或者训练之前,必须将不同编码方式下的音频文件通过解码,统一转换为后续处理步骤可以处理的数据格式(例如PCM、wav 等等)。
    解码之后,音频文件需要进行分帧处理,也就是把音频数据按照时间顺序,分割成20毫秒左右的音频片段(被称作音频帧)。实际的操作过程中,往往采用滑窗的方法进行,即采用一个20毫秒长的窗口,从音频的起点开始向后滑动,每隔一段特定的时长(例如10毫秒,这个时长被称作帧移),就做一次分帧处理。在分帧时,往往并不适用矩形窗,而使用双肩并不是直角的窗口,例如汉明(Hamming)窗和汉宁(Hanning)窗等。
    对于特定音频识别系统来说,静音及能量过低的音频片段,对后续的训练和识别过程都是有负面影响的,因此,在预处理阶段去除静音及能量过低的音频片段,是预处理模块的一项基本步骤。一个简单的处理办法是:设定一个能量阈值,能量低于该阈值的音频帧,判断为静音或能量过低的音频帧,予以丢弃。
    接下来的步骤是生成音频段。由于音频帧受时间的限制,所包含的信息相对有限,对于特定音频的共性特征不易表现,因此不能直接采用帧特征进行特定音频的学习和识别,而是将一定数量的音频帧组成音频段,通过分析和处理音频段内的所有帧特征得到音频段特征,利用段特征进行特定音频训练和识别,可以得到更好的识别效果。音频段特征的生成方法如下图所示。
                                  走近特定音频识别(之五)—— 音频预处理技术
   音频段的生成方法示意图
    在实际情况下,音频信号往往受到背景噪声、编码损耗、以及非理想的传输通道的影响,如电话信道、手机信道等等,这些都会对特定音频识别系统的性能造成一定的影响。因此,信道自适应也是一项重要的预处理步骤。
    在倒谱域,卷积噪声的影响变成了加性的。假设传输信道的性质(相对于语音信号而言)在较长的时间内是不变的,因此其倒谱参数也就不变,并且假设卷积噪声同语音信号不相关,因此就可以在倒谱域通过一个高通滤波器,把慢变的卷积噪声滤掉。倒谱均值归一化(Cepstral Mean Normalization, CMN; 又称为倒谱均值相减, Cepstral Mean Subtraction, CMS)是一种简单有效的解决方法,复杂的方法包括RASTA滤波,短时高斯化(CDF),特征映射(Feature Mapping)等。
    到这里,就把一个典型的特定音频识别系统的预处理模块介绍完毕了,里面涉及到了一些专业术语和比较复杂的处理算法,有兴趣的同学可以自行维基百科或者谷歌:) 下一节,将向大家介绍生成特征向量模块。

原创文章,作者:admin,如若转载,请注明出处:https://www.isclab.org.cn/2014/10/28/%e8%b5%b0%e8%bf%91%e7%89%b9%e5%ae%9a%e9%9f%b3%e9%a2%91%e8%af%86%e5%88%ab%ef%bc%88%e4%b9%8b%e4%ba%94%ef%bc%89-%e9%9f%b3%e9%a2%91%e9%a2%84%e5%a4%84%e7%90%86%e6%8a%80%e6%9c%af/

(2)
adminadmin
上一篇 2014年10月28日 下午4:45
下一篇 2014年10月31日

相关推荐

  • 大模型也不安全-小心信息被泄露

    研究大模型隐私泄露攻击,揭示了大模型面临的隐私信息泄露风险。本次学术报告介绍了大模型的应用价值和市场体量,讲述了关于大模型隐私泄露攻击的最新方法,指明了现有的缺陷和未来发展方向。

    2025年8月27日
    3.4K
  • 如何优雅地开发

    如何优雅地进行项目开发应该是程序员开发一个项目首先考虑的事情,优雅地开发意味着高效率的进行开发。本次报告从优雅地编码、优雅地使用开发工具以及优雅地使用协作工具三个方面来介绍如何进行…

    2019年12月23日
    3.4K
  • http协议概览

    HTTP 协议本身并不复杂,理解起来也不会花费太多学习成本,但很多前端工程师常常忽视了 HTTP 协议这部分基础内容。实际上,如果想要在专业技术道路上走得更坚实,绝对不能绕开学习 …

    2020年4月25日
    2.8K
  • 基于深度学习的NIDS对抗样本检测与防御技术

    随着网络攻击日益复杂化,基于深度学习的入侵检测系统面临严峻的对抗性威胁。本次学术报告聚焦对抗样本的攻防研究,介绍了一种提升模型自身抗攻击能力的防御方法,以及一种能够有效甄别隐蔽对抗…

    2025年12月15日
    2.7K
  • XenAccess介绍

    1.Xen虚拟平台 Xen Hypervisor 位于操作系统与硬件之间,为其上层运行的操作系统内核提供虚拟化的硬件环境。Xen采用混合模式(Hybrid Model),因此在Xe…

    2014年10月21日
    2.9K
  • 图神经网络的反事实解释方法

    图神经网络模型的可解释性对于建立用户与决策模型之间的信任关系至关重要,为了安全、可信地部署图神经网络模型,需要提高图神经网络模型的可解释性和透明性。本次报告为大家介绍图神经网络反事…

    2024年6月3日
    2.6K
  • 弱监督技术方法

    当前监督学习技术已经取得了巨大的成功,但是值得注意的是,由于数据标注过程的成本太高,很多任务很难获得如全部真值标签这样的强监督信息。而无监督学习由于学习过程太过困难,它的发展缓慢。…

    2022年2月21日
    2.6K
  • 卷积神经网络在图中的应用

          卷积神经网络可以有效提取空间特征,但是它研究的对象还是限制在具有规则空间结构的欧几里得数据。本次学术报告重点…

    2018年8月20日
    3.1K
  • 人工智能模型的公平性测试

    人工智能技术发展迅速,不仅在图像领域,在决策系统等领域也发挥了重要作用。用于模型训练的数据集中含有显示或者隐式的敏感属性(如性别、种族等),模型往往会利用敏感属性的特征做出决策,这…

    2024年9月29日
    2.8K
  • 机器学习模型后门攻击检测

    本次学术报告简要介绍了人工智能系统面临的各种安全威胁,通过将对抗样本与后门攻击进行多方面比较,从而引入了机器学习模型后门攻击的原理和检测方法,以及后门攻击技术的应用领域。

    2021年8月22日
    3.3K