走近特定音频识别(之三)—— 检索 Vs 识别

在说明计算机如何进行特定音频识别这个问题之前,我们有必要对两个我们经常接触到的概念加以区分——“检索”和“识别”。

    刚刚接触音频信号处理的朋友们常常会混淆这两个概念,本人刚刚接触这个领域的时候,也不能很好地将其区分清楚。事实上,检索和识别这两个概念可以从用户需求和技术实现两个角度来分析。
    从用户需求的角度来说,“检索”是要从既有的数据库中找到用户需要的音频片段或文件,例如,用户给定一段音频(比如一段广告,通常我们将其称之为“待检样例”)给检索系统,系统将待检样例相似的音频文件按照相似度降序排序展现给用户,这一过程与使用网络搜索引擎相似;而“识别”并不需要用户指定音频样例,只需指定音频类型(如枪声、狗叫、海浪等),系统即可对待识别音频进行处理,最终输出识别结果。简而言之,“检索”往往是“以声音找声音”,通常需要给定一段待检样例;而“识别”往往是“以类别判断声音”只需指定音频类型。
    有的同学说,在有些检索系统中,我只需输入类别,也可以得到一系列按照相似度排序的结果啊?这种情况往往出现在基于人工标记的标签检索技术上,这种技术的实质仍然是关键词匹配技术,与音频处理没有太大关系,不在本文讨论的范围之内。当然,不久的将来,很多音频当中的标签将由特定音频识别系统来标注,这是题外话,也不再详述了:)
   从技术实现的角度来说,“检索”系统将待检样例与音频库中的每段音频进行逐一比较,比较方法往往涉及各种针对特征向量的相似性度量方法;而“识别”系统将待识别音频的特征向量输入判别模型或分类器,由判别模型给出最终的判断。简而言之,“检索”使用的是相似性度量方法,而“识别”系统使用的是模型匹配或是机器学习的方法。
    这两种技术到底孰优孰劣呢?其实很难给出答案,两种技术在用户需求与技术实现两个角度的不同,决定了他们在使用场景、实施难度、评判指标等诸多方面的差异,因此只能说各有所长,各有千秋啦!
    本系列所涉及的技术,就是以“识别”为主线开展的,下一篇,将向大家介绍识别系统的基本原理和模块组成。

 

原创文章,作者:admin,如若转载,请注明出处:https://www.isclab.org.cn/2014/10/25/%e8%b5%b0%e8%bf%91%e7%89%b9%e5%ae%9a%e9%9f%b3%e9%a2%91%e8%af%86%e5%88%ab%ef%bc%88%e4%b9%8b%e4%b8%89%ef%bc%89-%e6%a3%80%e7%b4%a2-vs-%e8%af%86%e5%88%ab/

(0)
adminadmin
上一篇 2014年10月24日 上午9:29
下一篇 2014年10月28日 下午4:45

相关推荐

  • 大模型赋能的模糊测试用例生成技术

    随着大模型技术的兴起和发展,软件漏洞模糊测试方法在新技术的赋能下,可以实现更好的代码覆盖率和漏洞发现数量。本次学术报告针对结合大模型实现模糊测试用例生成的方法,介绍了Fuzz4Al…

    2024年9月3日
    2.2K
  • 多人协作利器Git

    详细介绍Git的原理、初级和进阶用法

    2020年9月4日
    2.4K
  • 源代码自动化编辑方法

    代码自动编辑任务通过应用频繁出现的编辑模式对现有代码进行修改,能够提升软件开发的效率。CODIT方法将代码编辑过程建模为树结构变换和标记生成两个阶段。MODIT方法输入整合需要编辑…

    2022年7月10日
    1.8K
  • 学术论文评审意见生成方法研究

    学术论文投稿数量的不断增长带来巨大审稿压力,而人工智能和大数据的发展为学术论文自动化评审提供了契机。本次学术报告介绍了学术论文评审意见生成的两种最新方法,为减轻审稿人负担、提高评审…

    2025年9月22日
    1.6K
  • 域自适应网络框架DANE

    本次报告介绍一种域自适应网络嵌入框架DANE,该框架解决了嵌入空间偏移和嵌入分布偏移的问题。在DANE中,来自多个网络的节点通过一组共享的可学习参数被编码为向量,以便向量共享对齐的…

    2021年3月1日
    2.2K
  • 网络表示学习-Deepwalk

          网络表示是衔接网络原始数据和网络应用任务的桥梁。网络表示学习算法负责从网络数据中学习得到网络中每个节点的向量…

    2019年3月18日
    1.8K
  • 成员推理攻击

    成员推理攻击(Membership Inference Attack)作为一种隐私攻击方法,其攻击对象是机器学习目标模型,攻击目标是推理一条或一批数据是否作为目标模型的训练集,以此…

    2022年10月16日
    4.7K
  • 跨语言词向量

        跨语言词向量(corss-lingual word embeddings)是一种的对单语言环境下的模型进行多语言扩展的有效手段。通过…

    学术报告 2018年2月26日
    2.1K
  • 深度神经网络对抗样本防御方法

    近年来深度学习技术不断突破,极大促进了人工智能行业的发展,但人工智能模型本身易受到对抗攻击从而引起严重后果。对原始样本有针对性地加入微小扰动,该扰动不易被人眼所察觉,但会导致人工智…

    2021年1月4日
    2.3K
  • 如何优雅地阅读和复用代码

    面对大型软件项目,如何准确、快速地找到目标代码的位置将会极大地加速我们的二次开发。本次报告以GUI程序为例介绍了软件源码查找、修改和使用的一般流程。对初学者的软件项目开发工作大有裨…

    2020年1月2日
    2.1K