走近特定音频识别(之四)—— 训练和识别

上篇文章介绍了“识别”和“检索”的区别和关系,从这篇开始,我们将从更近的距离接触特定音频识别,本文将向大家介绍特定音频识别系统的基本构成。

    一个典型的特定音频识别系统的原理如下图所示:
                                走近特定音频识别(之四)—— 训练和识别
特定音频识别系统原理图
    从图中可以看到,特定音频识别系统一般分为离线训练在线识别两个阶段。作为用户,我们常常接触到的是在线识别这个部分,而特定音频识别系统在实用中最耗时的部分,却是离线训练阶段。
    下面,请大家跟随我的介绍,逐一了解这两个阶段的工作内容吧!
    一、离线训练
    离线训练的目的是:通过对一系列预先标注好类别的训练数据的训练,得到用以识别目标类别的分类器,具体而言,可以分为以下几个步骤:
     1. 预处理。预处理的目的是为了对原始音频进行一定的处理,使其便于被后续的计算所采用。一个常见的预处理过程为:骤首先对原始音频信号作预加重处理,减少尖锐噪音影响,提升高频信号,然后对音频数据加20ms的汉明窗形成帧,帧移为10ms,最后去除静音帧,这样不仅可以减少音频信号的干扰,提取有效音频,而且也减少了音频处理的运算量,从而有效地提高系统的运算性能,提高识别效率。
    2. 提取训练文件的音频特征。提取的音频特征包括:MFCC、LPCC、子带能量、短时能量、短时过零率和基音频率等(这些特征的含义,后文会做简要介绍,如要深入研究,可以自行百度或者维基),一个实用的特定音频事件识别系统往往还包括一个特征向量生成的步骤,目的是对上述特征向量进行筛选、统计、融合,组成更具代表性的特征向量。
    3. 分类器训练。对大量种类繁多的特定音频样本和非特定音频样本进行训练,最终得到一个泛化的分类器池,至此离线训练完成。
    二、在线识别
    在线识别阶段可以分为以下几个步骤:
    1. 预处理。
    2. 提取训练文件的音频特征。
    以上两个步骤与离线训练阶段的完全相同,接下来的两个步骤,是识别的关键。
    3. 识别。根据所提取的音频特征向量以及训练得到的分类器池进行计算得到每一个音频片段的类别属性。
    4. 平滑处理。对基于音频片段的识别结果进行平滑处理,合并同类别的连续音频片段。根据音频帧和音频片段的时长计算出所有单一类别音频的起止位置。
    要指出的是,和离线学习阶段相比,在线识别阶段的运算量往往要小得多,这也是我们可以实现快速识别的理论和技术基础。
    到这里,特定音频识别系统的基本构成和原理就介绍完毕啦,下一篇博文,将向大家介绍音频预处理相关的技术和概念。

原创文章,作者:admin,如若转载,请注明出处:https://www.isclab.org.cn/2014/10/28/%e8%b5%b0%e8%bf%91%e7%89%b9%e5%ae%9a%e9%9f%b3%e9%a2%91%e8%af%86%e5%88%ab%ef%bc%88%e4%b9%8b%e5%9b%9b%ef%bc%89-%e8%ae%ad%e7%bb%83%e5%92%8c%e8%af%86%e5%88%ab/

(0)
adminadmin
上一篇 2014年10月25日
下一篇 2014年10月28日

相关推荐

  • 群体认知诊断技术研究

    智慧教育系统的不断发展促进了在线学习的用户数量爆炸式增长,对于学生认知水平诊断要求不断提高,群体认知诊断技术能够帮助平台挖掘学习群体的共性需求,增进教学效果。本次学术报告介绍了群体…

    2025年10月11日
    2.5K
  • 时序知识图谱推理

    着大数据和人工智能技术的飞速发展,知识图谱已成为表示和存储结构化知识的重要工具,其中时序知识图谱则进一步强调了事件随时间演变的重要性。本次学术报告致力于讲解时序知识图谱推理方法,重…

    2024年5月18日
    3.0K
  • 扩散模型加速采样方法与应用

    扩散模型在数据生成的众多领域上呈现出了非常好的效果。然而,在实际应用过程中,扩散模型的采样原理导致其生成速度非常缓慢,严重限制了模型的实际应用效果。为了对采样生成过程进行优化,近年…

    2023年4月17日
    2.8K
  • 智能体的工具调用攻击

    本报告探讨了大语言模型智能体工具调用机制中的安全漏洞,重点分析了两种新型攻击方法。AMA攻击通过黑盒迭代优化恶意工具的元数据,使其在语义合法的前提下显著提升被智能体选择的概率,在多…

    2026年1月26日
    3.1K
  • 文本生成大模型后门攻击研究

    研究文本生成大模型的后门攻击,揭示了现有文本大模型的后门风险。本次学术报告详细介绍了现有文本生成模型的后门分类方法以及基准数据集,在文本大模型的多个下游任务实现了后门攻击,并总结了…

    2025年3月24日
    3.1K
  • 预训练语言模型GPT3

    为了从网络上海量文本信息提取有价值信息,需要使用计算机处理文本数据,首要任务是将文本转换为计算机可以处理的向量化数据。单词是文本的最小单位,所以需要使用语言模型得到词向量表示成为文…

    2021年2月19日
    3.1K
  • 数据挖掘

    Bias-Variance trade-off 启发式参数优化算法举例 参数寻优:梯度下降/牛顿下降法 追根溯源 频繁项集算法分析 并查集算法及其在约束传递中的应用 Floyd解决…

    学术报告 2014年10月18日
    2.8K
  • 深度神经网络中的后门攻击

    深度神经网络在图像识别、语音处理以及机器翻译等领域具有良好的预测性能,但是由于深度神经网络对决策结果可解释性的缺乏以及解决训练开销而寻求的外包训练的安全难以有效保证,都导致深度神经…

    2020年12月7日
    3.5K
  • 归一化流在表格数据生成中的应用

    归一化流(Normalizing Flows)是一类生成模型,它利用一系列可逆变换将简单分布映射为复杂数据分布,具有精确计算概率密度的能力。在表格数据生成领域,归一化流的应用对于理…

    2024年4月17日
    3.2K
  • 数据样本的质量评估方法

    本报告主要介绍数据样本的质量评估方法。随着数据规模的不断扩大,如何有效评估数据样本的贡献成为提升模型性能和效率的关键问题。报告分析了当前领域内的主要评估方法,讨论了不同评估标准对模…

    2025年2月24日
    3.0K