走近特定音频识别(之三)—— 检索 Vs 识别

在说明计算机如何进行特定音频识别这个问题之前,我们有必要对两个我们经常接触到的概念加以区分——“检索”和“识别”。

    刚刚接触音频信号处理的朋友们常常会混淆这两个概念,本人刚刚接触这个领域的时候,也不能很好地将其区分清楚。事实上,检索和识别这两个概念可以从用户需求和技术实现两个角度来分析。
    从用户需求的角度来说,“检索”是要从既有的数据库中找到用户需要的音频片段或文件,例如,用户给定一段音频(比如一段广告,通常我们将其称之为“待检样例”)给检索系统,系统将待检样例相似的音频文件按照相似度降序排序展现给用户,这一过程与使用网络搜索引擎相似;而“识别”并不需要用户指定音频样例,只需指定音频类型(如枪声、狗叫、海浪等),系统即可对待识别音频进行处理,最终输出识别结果。简而言之,“检索”往往是“以声音找声音”,通常需要给定一段待检样例;而“识别”往往是“以类别判断声音”只需指定音频类型。
    有的同学说,在有些检索系统中,我只需输入类别,也可以得到一系列按照相似度排序的结果啊?这种情况往往出现在基于人工标记的标签检索技术上,这种技术的实质仍然是关键词匹配技术,与音频处理没有太大关系,不在本文讨论的范围之内。当然,不久的将来,很多音频当中的标签将由特定音频识别系统来标注,这是题外话,也不再详述了:)
   从技术实现的角度来说,“检索”系统将待检样例与音频库中的每段音频进行逐一比较,比较方法往往涉及各种针对特征向量的相似性度量方法;而“识别”系统将待识别音频的特征向量输入判别模型或分类器,由判别模型给出最终的判断。简而言之,“检索”使用的是相似性度量方法,而“识别”系统使用的是模型匹配或是机器学习的方法。
    这两种技术到底孰优孰劣呢?其实很难给出答案,两种技术在用户需求与技术实现两个角度的不同,决定了他们在使用场景、实施难度、评判指标等诸多方面的差异,因此只能说各有所长,各有千秋啦!
    本系列所涉及的技术,就是以“识别”为主线开展的,下一篇,将向大家介绍识别系统的基本原理和模块组成。

 

原创文章,作者:admin,如若转载,请注明出处:https://www.isclab.org.cn/2014/10/25/%e8%b5%b0%e8%bf%91%e7%89%b9%e5%ae%9a%e9%9f%b3%e9%a2%91%e8%af%86%e5%88%ab%ef%bc%88%e4%b9%8b%e4%b8%89%ef%bc%89-%e6%a3%80%e7%b4%a2-vs-%e8%af%86%e5%88%ab/

(0)
adminadmin
上一篇 2014年10月24日 上午9:29
下一篇 2014年10月28日 下午4:45

相关推荐

  • 大语言模型调研

    针对大语言模型展开调研,介绍大语言模型发展背景和研究现状,通过讲解LLaMA2模型的预训练和微调步骤,全面讲解大语言模型的训练过程,随后对越狱攻击大语言模型的方法进行研究,通过讲解…

    2024年1月3日
    1.2K
  • 网络表示学习-Deepwalk

          网络表示是衔接网络原始数据和网络应用任务的桥梁。网络表示学习算法负责从网络数据中学习得到网络中每个节点的向量…

    2019年3月18日
    1.2K
  • 单词级文本对抗攻击

    本报告介绍了单词级文本对抗攻击(Word-Level Attack)的背景和基本原理,展示了在OpenAttack和TextAttack两类开源工具上的测试样例,并分别讲述了基于义…

    2023年5月29日
    1.7K
  • 媒体安全

    走近特定音频识别(之一)——让计算机分辨出“这是什么声音” 走进特定音频识别(之二)——计算机是靠什么来分辨声音种类的? 走进特定音频识别(之三)——检索 Vs 识别 走近特定音频…

    学术报告 2014年10月18日
    988
  • 基于图的知识追踪方法研究

    随着智慧教育系统(Intelligent Tutoring System, ITS)的快速发展,ITS以其时空约束少、便捷程度高和个性化定制学习的优势,在现代教育事业中获得广泛关注…

    2023年5月15日
    1.4K
  • 联邦学习

    联邦学习(Federated Learning)在2016年由谷歌最先提出,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或…

    2020年6月7日
    1.9K
  • 模型无关元学习

    元学习是人工智能领域继深度学习、深度强化学习、生成对抗之后,又一个重要的研究分支。模型无关元学(MAML)算法可以适用于多个领域,包括少样本的回归、图像分类,以及增强学习,并且使用…

    2020年3月9日
    1.7K
  • 归一化流在表格数据生成中的应用

    归一化流(Normalizing Flows)是一类生成模型,它利用一系列可逆变换将简单分布映射为复杂数据分布,具有精确计算概率密度的能力。在表格数据生成领域,归一化流的应用对于理…

    2024年4月17日
    1.5K
  • 机器学习中的多分类问题

          机器学习在现实中常常遇到多分类问题,而一些优秀的二分类学习算法(如逻辑回归,SVM等等)不支持多分类任务。一…

    2019年4月21日
    1.2K
  • 认知诊断技术及其研究

    认知诊断广泛适用于教育教学、临床测量等需要评估用户认知状态的场景。研究智能教育领域下的认知诊断有助于发现学生的认知缺陷,从而进行个性化精准干预。本次学术报告讲述了认知诊断的基本概念…

    2023年9月16日
    1.0K