走近特定音频识别(之三)—— 检索 Vs 识别

在说明计算机如何进行特定音频识别这个问题之前,我们有必要对两个我们经常接触到的概念加以区分——“检索”和“识别”。

    刚刚接触音频信号处理的朋友们常常会混淆这两个概念,本人刚刚接触这个领域的时候,也不能很好地将其区分清楚。事实上,检索和识别这两个概念可以从用户需求和技术实现两个角度来分析。
    从用户需求的角度来说,“检索”是要从既有的数据库中找到用户需要的音频片段或文件,例如,用户给定一段音频(比如一段广告,通常我们将其称之为“待检样例”)给检索系统,系统将待检样例相似的音频文件按照相似度降序排序展现给用户,这一过程与使用网络搜索引擎相似;而“识别”并不需要用户指定音频样例,只需指定音频类型(如枪声、狗叫、海浪等),系统即可对待识别音频进行处理,最终输出识别结果。简而言之,“检索”往往是“以声音找声音”,通常需要给定一段待检样例;而“识别”往往是“以类别判断声音”只需指定音频类型。
    有的同学说,在有些检索系统中,我只需输入类别,也可以得到一系列按照相似度排序的结果啊?这种情况往往出现在基于人工标记的标签检索技术上,这种技术的实质仍然是关键词匹配技术,与音频处理没有太大关系,不在本文讨论的范围之内。当然,不久的将来,很多音频当中的标签将由特定音频识别系统来标注,这是题外话,也不再详述了:)
   从技术实现的角度来说,“检索”系统将待检样例与音频库中的每段音频进行逐一比较,比较方法往往涉及各种针对特征向量的相似性度量方法;而“识别”系统将待识别音频的特征向量输入判别模型或分类器,由判别模型给出最终的判断。简而言之,“检索”使用的是相似性度量方法,而“识别”系统使用的是模型匹配或是机器学习的方法。
    这两种技术到底孰优孰劣呢?其实很难给出答案,两种技术在用户需求与技术实现两个角度的不同,决定了他们在使用场景、实施难度、评判指标等诸多方面的差异,因此只能说各有所长,各有千秋啦!
    本系列所涉及的技术,就是以“识别”为主线开展的,下一篇,将向大家介绍识别系统的基本原理和模块组成。

 

原创文章,作者:admin,如若转载,请注明出处:https://www.isclab.org.cn/2014/10/25/%e8%b5%b0%e8%bf%91%e7%89%b9%e5%ae%9a%e9%9f%b3%e9%a2%91%e8%af%86%e5%88%ab%ef%bc%88%e4%b9%8b%e4%b8%89%ef%bc%89-%e6%a3%80%e7%b4%a2-vs-%e8%af%86%e5%88%ab/

(0)
adminadmin
上一篇 2014年10月24日 上午9:29
下一篇 2014年10月28日 下午4:45

相关推荐

  • DEEP-GAUSSIAN-MIXTURE-MODEL

    近年来,尽管针对监督任务的深度模型取得了巨大成功,但机器学习和统计学界对深度聚类方 法的研究有限。在这次学术报告中,我们将讨论深度高斯混合聚类,一个由经典高斯混合模型推广而来 的强…

    2019年10月27日
    1.4K
  • 对抗环境下的鲁棒机器学习

    对抗样本的存在表明现代神经网络是相当脆弱的。为解决这一问题,研究者相继提出了许多方法,其中使用对抗样本进行训练被认为是至今最有效的方法之一。 然而,经过对抗训练后神经网络对于正常样…

    2021年1月21日
    1.6K
  • 基于知识库的命名实体识别

          基于统计的命名实体识别方法根据特征的获取方式,有神经网络和特征工程两个研究方向,实践表明来自知识库的词典特征…

    2019年7月18日
    1.4K
  • 文本相似度度量方法

    文本相似度度量是自然语言处理中的一个基础问题,是许多下游任务的基础,如文本分类、信息检索、对话系统、句义标注等。相似度匹配的过程包括了构造特征与度量特征两个基本步骤,其中构造特征是…

    2022年3月13日
    1.5K
  • 词向量计算——word2vec算法理解

    魏超2014.11.2

    2014年11月4日
    1.1K
  • 半监督聚类和患者相似性分析

    首先介绍半监督学习和患者相似性分析的概念和研究背景,其次介绍半监督聚类的的具体分类和聚类评价指标;最后介绍两篇文献的算法原理和实验结果,第一篇时融合多源约束信息的的半监督聚类方法,…

    2022年9月5日
    972
  • 图神经网络的反事实解释方法

    图神经网络模型的可解释性对于建立用户与决策模型之间的信任关系至关重要,为了安全、可信地部署图神经网络模型,需要提高图神经网络模型的可解释性和透明性。本次报告为大家介绍图神经网络反事…

    2024年6月3日
    1.1K
  • 预训练加密流量表征方法-巩锟

    本次报告从BERT框架入手,讲解基于预训练的加密流量表征方法。首先介绍加密流量分析的问题和挑战,在基本概念部分着重分析BERT输入表示、预训练过程中的MLM和NSP任务,然后以ET…

    2023年8月7日
    1.2K
  • 格式化字符串漏洞

          介绍了格式化字符串漏洞的常见形式,以及在Windows32和Linux64下的两种利用思路,可以扩展到其他漏…

    2018年7月15日
    1.3K
  • 图半监督学习

          图半监督学习是半监督学习中的一种,基于聚类假设和流形假设,利用少量的有标记样本和大量的未标记样本,提高训练得…

    2018年9月3日
    1.1K