走近特定音频识别(之五)—— 音频预处理技术

上一篇博文向大家介绍了,一个典型的特定音频识别系统的原理如下图所示:

                           走近特定音频识别(之五)—— 音频预处理技术
特定音频识别系统原理图
​    上图中可以看到,离线训练和在线识别两个阶段中,都有 预处理 和 生成特征向量 这两个模块,事实上,这两个模块是大多数音频识别系统(例如特定音频识别、说话人识别、音频场景识别等)所必须的。特别是预处理模块,是几乎所有的音频处理系统(例如语音编码、音频压缩、音频检索等)不可缺少的组成部分。
    预处理,顾名思义,就是在进行系统的核心处理步骤之前所进行的处理动作。不同的音频处理系统,预处理所涉及的步骤及算法也不尽相同。
    一个特定音频识别系统的经典音频预处理模块的处理步骤如下图所示:
                                走近特定音频识别(之五)—— 音频预处理技术
经典音频预处理模块示意图
    首先是解码过程,我们常见的音频文件都是按照不同的编码方式(例如wav、MP3、acc、ape、fla、mp4、wma等)存储在文件系统当中的,因此,在进行识别或者训练之前,必须将不同编码方式下的音频文件通过解码,统一转换为后续处理步骤可以处理的数据格式(例如PCM、wav 等等)。
    解码之后,音频文件需要进行分帧处理,也就是把音频数据按照时间顺序,分割成20毫秒左右的音频片段(被称作音频帧)。实际的操作过程中,往往采用滑窗的方法进行,即采用一个20毫秒长的窗口,从音频的起点开始向后滑动,每隔一段特定的时长(例如10毫秒,这个时长被称作帧移),就做一次分帧处理。在分帧时,往往并不适用矩形窗,而使用双肩并不是直角的窗口,例如汉明(Hamming)窗和汉宁(Hanning)窗等。
    对于特定音频识别系统来说,静音及能量过低的音频片段,对后续的训练和识别过程都是有负面影响的,因此,在预处理阶段去除静音及能量过低的音频片段,是预处理模块的一项基本步骤。一个简单的处理办法是:设定一个能量阈值,能量低于该阈值的音频帧,判断为静音或能量过低的音频帧,予以丢弃。
    接下来的步骤是生成音频段。由于音频帧受时间的限制,所包含的信息相对有限,对于特定音频的共性特征不易表现,因此不能直接采用帧特征进行特定音频的学习和识别,而是将一定数量的音频帧组成音频段,通过分析和处理音频段内的所有帧特征得到音频段特征,利用段特征进行特定音频训练和识别,可以得到更好的识别效果。音频段特征的生成方法如下图所示。
                                  走近特定音频识别(之五)—— 音频预处理技术
   音频段的生成方法示意图
    在实际情况下,音频信号往往受到背景噪声、编码损耗、以及非理想的传输通道的影响,如电话信道、手机信道等等,这些都会对特定音频识别系统的性能造成一定的影响。因此,信道自适应也是一项重要的预处理步骤。
    在倒谱域,卷积噪声的影响变成了加性的。假设传输信道的性质(相对于语音信号而言)在较长的时间内是不变的,因此其倒谱参数也就不变,并且假设卷积噪声同语音信号不相关,因此就可以在倒谱域通过一个高通滤波器,把慢变的卷积噪声滤掉。倒谱均值归一化(Cepstral Mean Normalization, CMN; 又称为倒谱均值相减, Cepstral Mean Subtraction, CMS)是一种简单有效的解决方法,复杂的方法包括RASTA滤波,短时高斯化(CDF),特征映射(Feature Mapping)等。
    到这里,就把一个典型的特定音频识别系统的预处理模块介绍完毕了,里面涉及到了一些专业术语和比较复杂的处理算法,有兴趣的同学可以自行维基百科或者谷歌:) 下一节,将向大家介绍生成特征向量模块。

原创文章,作者:admin,如若转载,请注明出处:https://www.isclab.org.cn/2014/10/28/%e8%b5%b0%e8%bf%91%e7%89%b9%e5%ae%9a%e9%9f%b3%e9%a2%91%e8%af%86%e5%88%ab%ef%bc%88%e4%b9%8b%e4%ba%94%ef%bc%89-%e9%9f%b3%e9%a2%91%e9%a2%84%e5%a4%84%e7%90%86%e6%8a%80%e6%9c%af/

(2)
adminadmin
上一篇 2014年10月28日 下午4:45
下一篇 2014年10月31日

相关推荐

  • 时序知识图谱推理

    着大数据和人工智能技术的飞速发展,知识图谱已成为表示和存储结构化知识的重要工具,其中时序知识图谱则进一步强调了事件随时间演变的重要性。本次学术报告致力于讲解时序知识图谱推理方法,重…

    2024年5月18日
    2.1K
  • 简述对抗样本检测方法

          对抗样本会的存在严重威胁到机器学习模型的输出准确性。目前最常用的对抗样本生成方法是FGSM,其通过在沿着损失…

    2018年10月17日
    3.8K
  • 人工智能模型的公平性测试

    人工智能技术发展迅速,不仅在图像领域,在决策系统等领域也发挥了重要作用。用于模型训练的数据集中含有显示或者隐式的敏感属性(如性别、种族等),模型往往会利用敏感属性的特征做出决策,这…

    2024年9月29日
    2.0K
  • 文本相似度度量方法

    文本相似度度量是自然语言处理中的一个基础问题,是许多下游任务的基础,如文本分类、信息检索、对话系统、句义标注等。相似度匹配的过程包括了构造特征与度量特征两个基本步骤,其中构造特征是…

    2022年3月13日
    2.4K
  • Bias-Variance trade-off

    背景 熟悉模式识别的童鞋都很清楚,在模式识别领域内存在许多的学习算法和技术。面对纷繁的算法,我们必然会产生疑问:究竟哪一个算法才是“最好的”。值的强调的是每个算法都有相应的先验假设…

    2016年1月21日
    2.4K
  • 联邦学习

    联邦学习(Federated Learning)在2016年由谷歌最先提出,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或…

    2020年6月7日
    2.6K
  • 基于GNN的加密流量方法

    本次报告围绕基于GNN的加密流量分类技术展开,首先阐述了基于GNN的加密流量分类的基本概念、研究背景和研究意义,然后介绍了传统加密流量识别方法的特点与优劣势,并介绍了利用GNN进行…

    2025年6月4日
    1.8K
  • 源代码漏洞检测

    本次学术报告对实验室以往在源代码漏洞检测方向的积累做一个总结,展望未来的发展方向,从技术和应用两个视角审查当前源代码漏洞检测面临的问题。进一步从泛化性、细粒度漏洞检测两个方面进行论…

    2023年5月15日
    2.1K
  • 基于LSTM-CRF的序列标注算法

        条件随机场(conditional random fields)是一种满足马尔可夫性质的条件概率图模型。它很好地解决了隐马尔可夫模型…

    学术报告 2018年1月29日
    2.2K
  • 加密移动流量分析方法

    本次报告主要讲述了加密移动流量分析方法的相关内容,介绍了加密移动流量与普通流量的区别,流量分析的常用方法。解释了判断加密移动流量所属应用程序的分析方法,最后思考模糊流量对加密移动流…

    2022年4月24日
    2.8K