走近特定音频识别(之四)—— 训练和识别

上篇文章介绍了“识别”和“检索”的区别和关系,从这篇开始,我们将从更近的距离接触特定音频识别,本文将向大家介绍特定音频识别系统的基本构成。

    一个典型的特定音频识别系统的原理如下图所示:
                                走近特定音频识别(之四)—— 训练和识别
特定音频识别系统原理图
    从图中可以看到,特定音频识别系统一般分为离线训练在线识别两个阶段。作为用户,我们常常接触到的是在线识别这个部分,而特定音频识别系统在实用中最耗时的部分,却是离线训练阶段。
    下面,请大家跟随我的介绍,逐一了解这两个阶段的工作内容吧!
    一、离线训练
    离线训练的目的是:通过对一系列预先标注好类别的训练数据的训练,得到用以识别目标类别的分类器,具体而言,可以分为以下几个步骤:
     1. 预处理。预处理的目的是为了对原始音频进行一定的处理,使其便于被后续的计算所采用。一个常见的预处理过程为:骤首先对原始音频信号作预加重处理,减少尖锐噪音影响,提升高频信号,然后对音频数据加20ms的汉明窗形成帧,帧移为10ms,最后去除静音帧,这样不仅可以减少音频信号的干扰,提取有效音频,而且也减少了音频处理的运算量,从而有效地提高系统的运算性能,提高识别效率。
    2. 提取训练文件的音频特征。提取的音频特征包括:MFCC、LPCC、子带能量、短时能量、短时过零率和基音频率等(这些特征的含义,后文会做简要介绍,如要深入研究,可以自行百度或者维基),一个实用的特定音频事件识别系统往往还包括一个特征向量生成的步骤,目的是对上述特征向量进行筛选、统计、融合,组成更具代表性的特征向量。
    3. 分类器训练。对大量种类繁多的特定音频样本和非特定音频样本进行训练,最终得到一个泛化的分类器池,至此离线训练完成。
    二、在线识别
    在线识别阶段可以分为以下几个步骤:
    1. 预处理。
    2. 提取训练文件的音频特征。
    以上两个步骤与离线训练阶段的完全相同,接下来的两个步骤,是识别的关键。
    3. 识别。根据所提取的音频特征向量以及训练得到的分类器池进行计算得到每一个音频片段的类别属性。
    4. 平滑处理。对基于音频片段的识别结果进行平滑处理,合并同类别的连续音频片段。根据音频帧和音频片段的时长计算出所有单一类别音频的起止位置。
    要指出的是,和离线学习阶段相比,在线识别阶段的运算量往往要小得多,这也是我们可以实现快速识别的理论和技术基础。
    到这里,特定音频识别系统的基本构成和原理就介绍完毕啦,下一篇博文,将向大家介绍音频预处理相关的技术和概念。

原创文章,作者:admin,如若转载,请注明出处:https://www.isclab.org.cn/2014/10/28/%e8%b5%b0%e8%bf%91%e7%89%b9%e5%ae%9a%e9%9f%b3%e9%a2%91%e8%af%86%e5%88%ab%ef%bc%88%e4%b9%8b%e5%9b%9b%ef%bc%89-%e8%ae%ad%e7%bb%83%e5%92%8c%e8%af%86%e5%88%ab/

(0)
adminadmin
上一篇 2014年10月25日
下一篇 2014年10月28日

相关推荐

  • 基于图结构处理的文本生成

    文本生成技术是自然语言处理中一个重要的研究领域,具有广阔的应用前景。传统文本生成的Seq2Seq框架不能有效地利用原始语料中的语义信息,而Graph2Seq模型可以丰富文本的语义知…

    2022年2月28日
    2.4K
  • 浅谈TCP/IP协议栈

    本次报告从TCP/IP四层模型出发,讲解了分层模型的原理和意义,并系统地从底层到顶层分别讲解了数据链路层、传输层和网络层这三层的主要协议和这些协议的实现原理。通过此次学术报告可以清…

    2020年1月12日
    2.9K
  • 准确高效地检测安卓APP中的第三方库

    本次报告主要讲述了如何准确高效地检测安卓APP内的第三方库。介绍了第三方库检测的基本概念和主要困难,解释了准确高效检测第三方库的意义,详细讲解布隆过滤器的原理与使用方法、基于熵的代…

    2023年7月27日
    2.3K
  • AI幻觉陷阱与创造力

    聚焦大模型生成中“幻觉”问题的原理、检测方法及其创造力价值。内容涵盖AI幻觉的定义与分类、典型案例、LLM-Check与Verify-and-Edit两种前沿算法的原理与实验评估,…

    2025年6月9日
    2.6K
  • AI模型计量&图增强的幻觉检测

    本次报告以小米SU7等案例引入AI模型计量,概述计量内涵、发展现状与指标体系,并梳理数据评测、算法评测与人工评测方法;进一步聚焦图增强幻觉检测,讲解LapEigvals注意力谱特征…

    2026年3月2日
    1.8K
  • web项目开发方法

    本次报告介绍了web项目开发方法,展示了在web开发过程中前后端分离与前后端不分离两种开发模式的基本流程以及优缺点,然后大致介绍了前端与后端各自常用的web框架,最后具体介绍了对外…

    2022年12月19日
    2.5K
  • 基于因果推理的对抗防御方法

    基于因果推理的对抗防御方法通过因果干预、特征解耦与不变性学习,识别并强化数据中的因果特征,抑制模型对伪相关与“捷径特征”的依赖,从而在机理上增强模型的泛化能力和抗干扰能力,使其在遭…

    2025年11月10日
    2.3K
  • 网络嵌入研究方法综述

    网络嵌入(Network Embedding)是针对网络中节点进行特征学习的一项新兴的研究任务,它旨在将网络中的节点表示成低维、实值、稠密的向量形式,使得得到的向量形式可以在向量空…

    2020年3月23日
    3.5K
  • Android MediaRecorder架构详解

    1. 简介 在android中录制音频有两种方式,MediaRecorder和AudioRecord。两者的区别如下: (1) MediaRecorder 简单方便,不需要理会中间…

    2014年12月7日
    3.5K
  • 跨语言词向量

        跨语言词向量(corss-lingual word embeddings)是一种的对单语言环境下的模型进行多语言扩展的有效手段。通过…

    学术报告 2018年2月26日
    2.8K