走近特定音频识别(之四)—— 训练和识别

上篇文章介绍了“识别”和“检索”的区别和关系,从这篇开始,我们将从更近的距离接触特定音频识别,本文将向大家介绍特定音频识别系统的基本构成。

    一个典型的特定音频识别系统的原理如下图所示:
                                走近特定音频识别(之四)—— 训练和识别
特定音频识别系统原理图
    从图中可以看到,特定音频识别系统一般分为离线训练在线识别两个阶段。作为用户,我们常常接触到的是在线识别这个部分,而特定音频识别系统在实用中最耗时的部分,却是离线训练阶段。
    下面,请大家跟随我的介绍,逐一了解这两个阶段的工作内容吧!
    一、离线训练
    离线训练的目的是:通过对一系列预先标注好类别的训练数据的训练,得到用以识别目标类别的分类器,具体而言,可以分为以下几个步骤:
     1. 预处理。预处理的目的是为了对原始音频进行一定的处理,使其便于被后续的计算所采用。一个常见的预处理过程为:骤首先对原始音频信号作预加重处理,减少尖锐噪音影响,提升高频信号,然后对音频数据加20ms的汉明窗形成帧,帧移为10ms,最后去除静音帧,这样不仅可以减少音频信号的干扰,提取有效音频,而且也减少了音频处理的运算量,从而有效地提高系统的运算性能,提高识别效率。
    2. 提取训练文件的音频特征。提取的音频特征包括:MFCC、LPCC、子带能量、短时能量、短时过零率和基音频率等(这些特征的含义,后文会做简要介绍,如要深入研究,可以自行百度或者维基),一个实用的特定音频事件识别系统往往还包括一个特征向量生成的步骤,目的是对上述特征向量进行筛选、统计、融合,组成更具代表性的特征向量。
    3. 分类器训练。对大量种类繁多的特定音频样本和非特定音频样本进行训练,最终得到一个泛化的分类器池,至此离线训练完成。
    二、在线识别
    在线识别阶段可以分为以下几个步骤:
    1. 预处理。
    2. 提取训练文件的音频特征。
    以上两个步骤与离线训练阶段的完全相同,接下来的两个步骤,是识别的关键。
    3. 识别。根据所提取的音频特征向量以及训练得到的分类器池进行计算得到每一个音频片段的类别属性。
    4. 平滑处理。对基于音频片段的识别结果进行平滑处理,合并同类别的连续音频片段。根据音频帧和音频片段的时长计算出所有单一类别音频的起止位置。
    要指出的是,和离线学习阶段相比,在线识别阶段的运算量往往要小得多,这也是我们可以实现快速识别的理论和技术基础。
    到这里,特定音频识别系统的基本构成和原理就介绍完毕啦,下一篇博文,将向大家介绍音频预处理相关的技术和概念。

原创文章,作者:admin,如若转载,请注明出处:https://www.isclab.org.cn/2014/10/28/%e8%b5%b0%e8%bf%91%e7%89%b9%e5%ae%9a%e9%9f%b3%e9%a2%91%e8%af%86%e5%88%ab%ef%bc%88%e4%b9%8b%e5%9b%9b%ef%bc%89-%e8%ae%ad%e7%bb%83%e5%92%8c%e8%af%86%e5%88%ab/

(0)
adminadmin
上一篇 2014年10月25日
下一篇 2014年10月28日

相关推荐

  • 大模型在微调阶段的后门攻击

    随着大语言模型的快速发展与广泛应用,其安全问题日益凸显,后门攻击便是主要威胁之一。本次报告介绍了两种针对大模型微调阶段的后门攻击方法,它们分别通过确定目标生成条件和改变Token,…

    2025年11月24日
    3.1K
  • 模型水印攻击方法

    模型水印攻击旨在干扰、破坏或绕过嵌入在模型中的水印信息。本次报告从模型水印攻击的概念入手,分析其原理和应用场景,利用模型水印攻击方法对模型水印算法分析与评估,为模型水印算法的改进提…

    2024年8月19日
    2.8K
  • 源代码漏洞分类

    漏洞分类是漏洞分析中的重要一环,为了及时评估并缓解漏洞问题,快速、准确的漏洞分类方法必不可少,但目前漏洞分类领域面临着由于不同类型的漏洞数量高度不平衡导致的漏洞类型预测精度不佳的问…

    2023年12月14日
    2.8K
  • 降维算法(二)—— MDS

    2014年10月22日
    2.2K
  • 网络表示学习-Deepwalk

          网络表示是衔接网络原始数据和网络应用任务的桥梁。网络表示学习算法负责从网络数据中学习得到网络中每个节点的向量…

    2019年3月18日
    2.4K
  • 提高对抗鲁棒性的特征降噪方法

    当深度学习以惊人的准确性执行各种各样任务的同时,在图像分类等领域的深度神经网络却容易受到对抗样本的攻击,从而输出错误的预测结果。本次学术报告首先说明了对抗攻防的主要方法分类和残差网…

    2021年4月19日
    2.7K
  • 虚拟化安全监控技术小结

    Virtualization-based Monitoring Virtualization-based Monitoring 是指利用虚拟化技术对上层虚拟机进行监控或者保护。通常…

    2014年11月14日
    3.1K
  • 基于度量学习的小样本学习方法介绍

    Few-shot learning (FSL)的含义是得到从少量样本中学习和概括的能力,它希望机器学习模型在学习了一定类别的大量数据后,对于新的类别,只需要少量的样本就能快速学习。…

    2020年11月2日
    3.8K
  • 面向深度学习软件库的API层的漏洞挖掘方法

    深度学习软件库作为构建和训练深度学习模型的基础,对深度学习软件库进行检测、挖掘软件库的代码漏洞,是保障深度学习模型的可靠性的基础之一。本次报告介绍了2种基于API层的深度学习软件库…

    2023年2月27日
    2.7K
  • 对抗环境强化学习

    强化学习(Reinforcement learning ,RL )是机器学习领域之一,研究如何通过一系列的顺序决策来达成一个特定目标。本次报告从强化学习的基本框架开始,介绍了强化学…

    2019年12月17日
    2.7K