走近特定音频识别(之四)—— 训练和识别

上篇文章介绍了“识别”和“检索”的区别和关系,从这篇开始,我们将从更近的距离接触特定音频识别,本文将向大家介绍特定音频识别系统的基本构成。

    一个典型的特定音频识别系统的原理如下图所示:
                                走近特定音频识别(之四)—— 训练和识别
特定音频识别系统原理图
    从图中可以看到,特定音频识别系统一般分为离线训练在线识别两个阶段。作为用户,我们常常接触到的是在线识别这个部分,而特定音频识别系统在实用中最耗时的部分,却是离线训练阶段。
    下面,请大家跟随我的介绍,逐一了解这两个阶段的工作内容吧!
    一、离线训练
    离线训练的目的是:通过对一系列预先标注好类别的训练数据的训练,得到用以识别目标类别的分类器,具体而言,可以分为以下几个步骤:
     1. 预处理。预处理的目的是为了对原始音频进行一定的处理,使其便于被后续的计算所采用。一个常见的预处理过程为:骤首先对原始音频信号作预加重处理,减少尖锐噪音影响,提升高频信号,然后对音频数据加20ms的汉明窗形成帧,帧移为10ms,最后去除静音帧,这样不仅可以减少音频信号的干扰,提取有效音频,而且也减少了音频处理的运算量,从而有效地提高系统的运算性能,提高识别效率。
    2. 提取训练文件的音频特征。提取的音频特征包括:MFCC、LPCC、子带能量、短时能量、短时过零率和基音频率等(这些特征的含义,后文会做简要介绍,如要深入研究,可以自行百度或者维基),一个实用的特定音频事件识别系统往往还包括一个特征向量生成的步骤,目的是对上述特征向量进行筛选、统计、融合,组成更具代表性的特征向量。
    3. 分类器训练。对大量种类繁多的特定音频样本和非特定音频样本进行训练,最终得到一个泛化的分类器池,至此离线训练完成。
    二、在线识别
    在线识别阶段可以分为以下几个步骤:
    1. 预处理。
    2. 提取训练文件的音频特征。
    以上两个步骤与离线训练阶段的完全相同,接下来的两个步骤,是识别的关键。
    3. 识别。根据所提取的音频特征向量以及训练得到的分类器池进行计算得到每一个音频片段的类别属性。
    4. 平滑处理。对基于音频片段的识别结果进行平滑处理,合并同类别的连续音频片段。根据音频帧和音频片段的时长计算出所有单一类别音频的起止位置。
    要指出的是,和离线学习阶段相比,在线识别阶段的运算量往往要小得多,这也是我们可以实现快速识别的理论和技术基础。
    到这里,特定音频识别系统的基本构成和原理就介绍完毕啦,下一篇博文,将向大家介绍音频预处理相关的技术和概念。

原创文章,作者:admin,如若转载,请注明出处:https://www.isclab.org.cn/2014/10/28/%e8%b5%b0%e8%bf%91%e7%89%b9%e5%ae%9a%e9%9f%b3%e9%a2%91%e8%af%86%e5%88%ab%ef%bc%88%e4%b9%8b%e5%9b%9b%ef%bc%89-%e8%ae%ad%e7%bb%83%e5%92%8c%e8%af%86%e5%88%ab/

(0)
adminadmin
上一篇 2014年10月25日
下一篇 2014年10月28日

相关推荐

  • LDA主题模型浅析

          LDA主题模型可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要…

    2018年7月3日
    1.9K
  • Android Hook 技术分析

      Hook技术就是在事件传送到终点前截获并监控事件的传输,像个钩子钩上事件一样,并且能够在钩上事件时,处理一些自己特定的事件。  附件-Android Hook 技术分析.pdf

    学术报告 2017年11月11日
    1.8K
  • 虚拟化平台操作系统内核级恶意攻击行为及其检测技术

          虚拟化技术的提出为操作系统内核安全的保护引入了新的思路和手段——虚拟机监视器( Virtual Machin…

    2019年5月20日
    1.9K
  • APT攻击行为表示

    本报告介绍了APT攻击行为的基本概念,展示了APT攻击行为表示的方法原理,并分别讲述了面向恶意流量数据场景下的攻击行为检测技术和面向开源威胁情报场景下的攻击行为提取方法,最后简要梳…

    2024年5月19日
    1.9K
  • 软件漏洞注入技术

    随着计算机技术的发展,漏洞威胁问题已然日渐严峻,高效、准确的漏洞检测技术对于漏洞的发现和防护都至关重要,但目前常用的检测算法面临漏洞数据集少、信息不准确、构建成本高等问题,所以一个…

    2023年9月27日
    1.9K
  • 深度神经网络模型窃取检测

    本报告介绍了深度神经网络模型窃取检测的三种方法,从算法思想,实验结果,算法分析三个角度对已有算法进行贯穿式总结,阐述了模型窃取检测领域的难点,提升对模型安全领域问题的认识

    2023年3月6日
    1.9K
  • 面向数据异构与通信高效的联邦大模型优化与应用研究

    联邦大模型将联邦学习与大语言模型相结合,遵循“数据不动、模型动”的原则,在无需集中原始数据的前提下,共同训练与优化大模型。该技术能有效破解数据孤岛,为医疗、教育等领域提供隐私安全的…

    2025年10月27日
    1.9K
  • 基于深度学习的NIDS对抗样本检测与防御技术

    随着网络攻击日益复杂化,基于深度学习的入侵检测系统面临严峻的对抗性威胁。本次学术报告聚焦对抗样本的攻防研究,介绍了一种提升模型自身抗攻击能力的防御方法,以及一种能够有效甄别隐蔽对抗…

    2025年12月15日
    1.8K
  • 大模型指导的协议模糊测试

    本次报告围绕大模型指导的协议模糊测试技术展开,首先阐述了大模型指导的协议模糊测试的基本概念、研究背景和研究意义,然后介绍了传统协议模糊测试方法的特点与优劣势,并介绍了大模型指导的协…

    2025年5月19日
    1.9K
  • 跨语言命名实体识别

    跨语言命名实体识别是用源语言的标记数据训练NER模型,并在目标语言的测试数据上对其进行评估。其利用具有丰富实体标签的高资源(源)语言(如英语)的知识来克服低(零)资源(目标)语言的…

    2024年5月18日
    2.1K