走近特定音频识别(之四)—— 训练和识别

上篇文章介绍了“识别”和“检索”的区别和关系,从这篇开始,我们将从更近的距离接触特定音频识别,本文将向大家介绍特定音频识别系统的基本构成。

    一个典型的特定音频识别系统的原理如下图所示:
                                走近特定音频识别(之四)—— 训练和识别
特定音频识别系统原理图
    从图中可以看到,特定音频识别系统一般分为离线训练在线识别两个阶段。作为用户,我们常常接触到的是在线识别这个部分,而特定音频识别系统在实用中最耗时的部分,却是离线训练阶段。
    下面,请大家跟随我的介绍,逐一了解这两个阶段的工作内容吧!
    一、离线训练
    离线训练的目的是:通过对一系列预先标注好类别的训练数据的训练,得到用以识别目标类别的分类器,具体而言,可以分为以下几个步骤:
     1. 预处理。预处理的目的是为了对原始音频进行一定的处理,使其便于被后续的计算所采用。一个常见的预处理过程为:骤首先对原始音频信号作预加重处理,减少尖锐噪音影响,提升高频信号,然后对音频数据加20ms的汉明窗形成帧,帧移为10ms,最后去除静音帧,这样不仅可以减少音频信号的干扰,提取有效音频,而且也减少了音频处理的运算量,从而有效地提高系统的运算性能,提高识别效率。
    2. 提取训练文件的音频特征。提取的音频特征包括:MFCC、LPCC、子带能量、短时能量、短时过零率和基音频率等(这些特征的含义,后文会做简要介绍,如要深入研究,可以自行百度或者维基),一个实用的特定音频事件识别系统往往还包括一个特征向量生成的步骤,目的是对上述特征向量进行筛选、统计、融合,组成更具代表性的特征向量。
    3. 分类器训练。对大量种类繁多的特定音频样本和非特定音频样本进行训练,最终得到一个泛化的分类器池,至此离线训练完成。
    二、在线识别
    在线识别阶段可以分为以下几个步骤:
    1. 预处理。
    2. 提取训练文件的音频特征。
    以上两个步骤与离线训练阶段的完全相同,接下来的两个步骤,是识别的关键。
    3. 识别。根据所提取的音频特征向量以及训练得到的分类器池进行计算得到每一个音频片段的类别属性。
    4. 平滑处理。对基于音频片段的识别结果进行平滑处理,合并同类别的连续音频片段。根据音频帧和音频片段的时长计算出所有单一类别音频的起止位置。
    要指出的是,和离线学习阶段相比,在线识别阶段的运算量往往要小得多,这也是我们可以实现快速识别的理论和技术基础。
    到这里,特定音频识别系统的基本构成和原理就介绍完毕啦,下一篇博文,将向大家介绍音频预处理相关的技术和概念。

原创文章,作者:admin,如若转载,请注明出处:https://www.isclab.org.cn/2014/10/28/%e8%b5%b0%e8%bf%91%e7%89%b9%e5%ae%9a%e9%9f%b3%e9%a2%91%e8%af%86%e5%88%ab%ef%bc%88%e4%b9%8b%e5%9b%9b%ef%bc%89-%e8%ae%ad%e7%bb%83%e5%92%8c%e8%af%86%e5%88%ab/

(0)
adminadmin
上一篇 2014年10月25日
下一篇 2014年10月28日

相关推荐

  • 极端多标签文本分类

    极端多标签文本分类旨在为每个文本分配大量可能的标签,处理标签数量巨大和数据稀疏性问题。该技术通过高效的特征选择、标签嵌入和深度学习模型,提高分类准确性和速度。极端多标签文本分类广泛…

    2024年9月17日
    1.2K
  • 预训练加密流量分类方法

    本文介绍两种预训练加密流量分类方法:基于BERT和包头信息的分类系统,利用包头字段生成语义句子;YaTC模型采用MFR矩阵和注意力机制,结合MAE进行预训练。未来研究需优化模型效率…

    2025年2月10日
    1.4K
  • 深度域适应方法

    本次学术报告介绍了深度域适应方法的基本概念,以三种无监督域适应基本算法为例,简要梳理了域适应方法的发展脉络。通过分析半监督域适应方法论文,详细讲解了半监督域适应方法的基本原理。最后…

    2022年11月7日
    1.2K
  • Transformer中的Multi-Head Attention

          注意力(Attention)机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中。随着注意力机制的…

    2018年12月17日
    1.3K
  • 深度学习模型校准技术

    深度学习模型校准技术是模型预测可靠性的重要保障手段之一,其通过正则化或后处理方法调节模型对样本实例上的置信度,使其与预测的真实概率良好匹配。本次报告介绍了深度学习模型校准的基本概念…

    2024年7月2日
    1.4K
  • DQN深度强化学习算法

    本次学术报告主要给大家详细的介绍DQN算法原理及其调参细节,并且进行举例说明和总结以加深大家的理解。

    2020年5月31日
    1.5K
  • 图半监督学习

          图半监督学习是半监督学习中的一种,基于聚类假设和流形假设,利用少量的有标记样本和大量的未标记样本,提高训练得…

    2018年9月3日
    1.1K
  • 异质图神经网络

    异构图(HG)也称为异构信息网络,在现实世界中已变得无处不在;因此,HG嵌入(HG embedding)近年来受到了广泛关注,它旨在学习低维空间中的表示,同时保留下游任务的异构结构…

    2022年9月26日
    1.5K
  • 大模型也不安全-小心信息被泄露

    研究大模型隐私泄露攻击,揭示了大模型面临的隐私信息泄露风险。本次学术报告介绍了大模型的应用价值和市场体量,讲述了关于大模型隐私泄露攻击的最新方法,指明了现有的缺陷和未来发展方向。

    2025年8月27日
    1.4K
  • 使用Python进行并发编程

    本次报告首先介绍了线程、进程的概念,由此讲解操作系统中实现并发编程的三种方式,着重介绍了Python语言下多线程、多进程、协程的编程方法,并结合开发实际,给出了在线程、进程、协程之…

    2020年2月27日
    1.5K