走近特定音频识别(之五)—— 音频预处理技术

上一篇博文向大家介绍了,一个典型的特定音频识别系统的原理如下图所示:

                           走近特定音频识别(之五)—— 音频预处理技术
特定音频识别系统原理图
​    上图中可以看到,离线训练和在线识别两个阶段中,都有 预处理 和 生成特征向量 这两个模块,事实上,这两个模块是大多数音频识别系统(例如特定音频识别、说话人识别、音频场景识别等)所必须的。特别是预处理模块,是几乎所有的音频处理系统(例如语音编码、音频压缩、音频检索等)不可缺少的组成部分。
    预处理,顾名思义,就是在进行系统的核心处理步骤之前所进行的处理动作。不同的音频处理系统,预处理所涉及的步骤及算法也不尽相同。
    一个特定音频识别系统的经典音频预处理模块的处理步骤如下图所示:
                                走近特定音频识别(之五)—— 音频预处理技术
经典音频预处理模块示意图
    首先是解码过程,我们常见的音频文件都是按照不同的编码方式(例如wav、MP3、acc、ape、fla、mp4、wma等)存储在文件系统当中的,因此,在进行识别或者训练之前,必须将不同编码方式下的音频文件通过解码,统一转换为后续处理步骤可以处理的数据格式(例如PCM、wav 等等)。
    解码之后,音频文件需要进行分帧处理,也就是把音频数据按照时间顺序,分割成20毫秒左右的音频片段(被称作音频帧)。实际的操作过程中,往往采用滑窗的方法进行,即采用一个20毫秒长的窗口,从音频的起点开始向后滑动,每隔一段特定的时长(例如10毫秒,这个时长被称作帧移),就做一次分帧处理。在分帧时,往往并不适用矩形窗,而使用双肩并不是直角的窗口,例如汉明(Hamming)窗和汉宁(Hanning)窗等。
    对于特定音频识别系统来说,静音及能量过低的音频片段,对后续的训练和识别过程都是有负面影响的,因此,在预处理阶段去除静音及能量过低的音频片段,是预处理模块的一项基本步骤。一个简单的处理办法是:设定一个能量阈值,能量低于该阈值的音频帧,判断为静音或能量过低的音频帧,予以丢弃。
    接下来的步骤是生成音频段。由于音频帧受时间的限制,所包含的信息相对有限,对于特定音频的共性特征不易表现,因此不能直接采用帧特征进行特定音频的学习和识别,而是将一定数量的音频帧组成音频段,通过分析和处理音频段内的所有帧特征得到音频段特征,利用段特征进行特定音频训练和识别,可以得到更好的识别效果。音频段特征的生成方法如下图所示。
                                  走近特定音频识别(之五)—— 音频预处理技术
   音频段的生成方法示意图
    在实际情况下,音频信号往往受到背景噪声、编码损耗、以及非理想的传输通道的影响,如电话信道、手机信道等等,这些都会对特定音频识别系统的性能造成一定的影响。因此,信道自适应也是一项重要的预处理步骤。
    在倒谱域,卷积噪声的影响变成了加性的。假设传输信道的性质(相对于语音信号而言)在较长的时间内是不变的,因此其倒谱参数也就不变,并且假设卷积噪声同语音信号不相关,因此就可以在倒谱域通过一个高通滤波器,把慢变的卷积噪声滤掉。倒谱均值归一化(Cepstral Mean Normalization, CMN; 又称为倒谱均值相减, Cepstral Mean Subtraction, CMS)是一种简单有效的解决方法,复杂的方法包括RASTA滤波,短时高斯化(CDF),特征映射(Feature Mapping)等。
    到这里,就把一个典型的特定音频识别系统的预处理模块介绍完毕了,里面涉及到了一些专业术语和比较复杂的处理算法,有兴趣的同学可以自行维基百科或者谷歌:) 下一节,将向大家介绍生成特征向量模块。

原创文章,作者:admin,如若转载,请注明出处:https://www.isclab.org.cn/2014/10/28/%e8%b5%b0%e8%bf%91%e7%89%b9%e5%ae%9a%e9%9f%b3%e9%a2%91%e8%af%86%e5%88%ab%ef%bc%88%e4%b9%8b%e4%ba%94%ef%bc%89-%e9%9f%b3%e9%a2%91%e9%a2%84%e5%a4%84%e7%90%86%e6%8a%80%e6%9c%af/

(2)
adminadmin
上一篇 2014年10月28日 下午4:45
下一篇 2014年10月31日

相关推荐

  • 聚类知识及其初始化问题

    聚类学习作为机器学习中最为常用的算法,已经广泛的应用于许多领域。本文主要介绍聚类的一些基础知识,并且以概率聚类模型为例,并讲解一个聚类算法:基于t分布的熵惩罚最大期望算法,使大家对…

    2019年8月24日
    2.6K
  • 文本分类硬标签黑盒模型的对抗样本生成方法研究

    研究文本分类硬标签黑盒模型的对抗样本生成方法,分析模型的潜在安全风险,为加强模型鲁棒性提供方向。本次学习报告讲解了文本分类模型对抗样本生成方法的总体状况,并介绍了关于文本分类硬标签…

    2024年11月27日
    2.4K
  • 隧道流量识别研究

    本文介绍两种隧道流量识别方法:DecETT方法构建不同的损失解耦隧道流协议特征和应用语义特征,实现AF检测;Graphtunnel方法构建DNS递归解析图进行DNS隧道流量监测。未…

    2026年2月3日
    2.2K
  • 深度神经网络模型窃取防御方法

    模型窃取防御技术能够促进深度神经网络的健康发展,推动数据交流与共享。本次报告从大范围的模型窃取防御领域,聚焦到一类算法,从数学公式上对算法进行详细的分析,并对实验结果进行详细解读,…

    2023年9月27日
    2.6K
  • 二进制代码相似性检测技术

    二进制函数相似性分析在1-Day漏洞检测、代码克隆检测、恶意软件检测、软件剽窃检测和自动软件修复等多个应用领域中具有广泛的应用。本次学术报告主要讲解了二进制代码相似性检测技术的基本…

    2024年10月17日
    2.6K
  • 深度学习系统的自动化测试简介

    深度学习(DL)在图像分类、语音识别等领域达到或超过了人类水平的性能,且被广泛应用于安全关键领域中(自动驾驶、恶意软件检测等)。然而一些原因(如训练数据偏差、模型过拟合或欠拟合),…

    2020年7月12日
    3.2K
  • 基于深度学习的源代码漏洞挖掘

    安全漏洞的数量和复杂程度与日俱增,导致漏洞挖掘的成本也在不断升高。而近年对深度学习的研究使得机器具有分析学习能力,如何将深度学习算法应用漏洞挖掘技术成为研究热点。本次报告首先介绍了…

    2020年2月27日
    3.1K
  • 贝叶斯网络

    贝叶斯网络又称信度网络,是Bayes方法的扩展,是目前不确定知识表达和推理领域最有效的理论模型之一。从1988年由Pearl提出后,已经成为近几年来研究的热点.。

    2020年6月21日
    3.0K
  • 面向深度学习软件库的API层的漏洞挖掘方法

    深度学习软件库作为构建和训练深度学习模型的基础,对深度学习软件库进行检测、挖掘软件库的代码漏洞,是保障深度学习模型的可靠性的基础之一。本次报告介绍了2种基于API层的深度学习软件库…

    2023年2月27日
    2.7K
  • 时空数据挖掘

    物联网技术和人工智能的快速发展,含时间、空间特性的数据指数增长。如何进行多源异构时空数据本身特性出发,和机器学习深度学习技术深入融合,实现数据实现知识发现和信息挖掘,服务于城市发展…

    2021年5月18日
    2.6K