走近特定音频识别(之三)—— 检索 Vs 识别

在说明计算机如何进行特定音频识别这个问题之前,我们有必要对两个我们经常接触到的概念加以区分——“检索”和“识别”。

    刚刚接触音频信号处理的朋友们常常会混淆这两个概念,本人刚刚接触这个领域的时候,也不能很好地将其区分清楚。事实上,检索和识别这两个概念可以从用户需求和技术实现两个角度来分析。
    从用户需求的角度来说,“检索”是要从既有的数据库中找到用户需要的音频片段或文件,例如,用户给定一段音频(比如一段广告,通常我们将其称之为“待检样例”)给检索系统,系统将待检样例相似的音频文件按照相似度降序排序展现给用户,这一过程与使用网络搜索引擎相似;而“识别”并不需要用户指定音频样例,只需指定音频类型(如枪声、狗叫、海浪等),系统即可对待识别音频进行处理,最终输出识别结果。简而言之,“检索”往往是“以声音找声音”,通常需要给定一段待检样例;而“识别”往往是“以类别判断声音”只需指定音频类型。
    有的同学说,在有些检索系统中,我只需输入类别,也可以得到一系列按照相似度排序的结果啊?这种情况往往出现在基于人工标记的标签检索技术上,这种技术的实质仍然是关键词匹配技术,与音频处理没有太大关系,不在本文讨论的范围之内。当然,不久的将来,很多音频当中的标签将由特定音频识别系统来标注,这是题外话,也不再详述了:)
   从技术实现的角度来说,“检索”系统将待检样例与音频库中的每段音频进行逐一比较,比较方法往往涉及各种针对特征向量的相似性度量方法;而“识别”系统将待识别音频的特征向量输入判别模型或分类器,由判别模型给出最终的判断。简而言之,“检索”使用的是相似性度量方法,而“识别”系统使用的是模型匹配或是机器学习的方法。
    这两种技术到底孰优孰劣呢?其实很难给出答案,两种技术在用户需求与技术实现两个角度的不同,决定了他们在使用场景、实施难度、评判指标等诸多方面的差异,因此只能说各有所长,各有千秋啦!
    本系列所涉及的技术,就是以“识别”为主线开展的,下一篇,将向大家介绍识别系统的基本原理和模块组成。

 

原创文章,作者:admin,如若转载,请注明出处:https://www.isclab.org.cn/2014/10/25/%e8%b5%b0%e8%bf%91%e7%89%b9%e5%ae%9a%e9%9f%b3%e9%a2%91%e8%af%86%e5%88%ab%ef%bc%88%e4%b9%8b%e4%b8%89%ef%bc%89-%e6%a3%80%e7%b4%a2-vs-%e8%af%86%e5%88%ab/

(0)
adminadmin
上一篇 2014年10月24日 上午9:29
下一篇 2014年10月28日 下午4:45

相关推荐

  • 机器学习中的多分类问题

          机器学习在现实中常常遇到多分类问题,而一些优秀的二分类学习算法(如逻辑回归,SVM等等)不支持多分类任务。一…

    2019年4月21日
    655
  • 软件漏洞检测及其严重性评估

    本报告介绍了漏洞检测的基本方法以及基于漏洞代码的漏洞评估的概念和评估方法。针对一种漏洞检测方式和一种漏洞评估方式进行了深入讲解,并探讨了漏洞检测和评估领域的现状,提出了一些未来发展…

    2023年3月27日
    582
  • 如何优雅地进行模型训练

    本次报告介绍了机器学习模型训练过程中的显存优化方法。首先介绍了深度学习框架的显存利用机制,随后结合原理和具体实例讲解了“代码级”和“框架级”显存优化方法,引导大家在实际科研过程中更…

    2022年5月5日
    823
  • 偷走你的训练数据:模型反演攻击方法研究

    通过模型反演攻击方法研究,验证了模型训练数据面临泄露风险的问题,并希望以此促进对应防御手段的发展。本次学术报告介绍了模型反演攻击方法的相关知识,并聚焦于两个经典的白盒和黑盒攻击方法…

    2024年2月27日
    918
  • 法律文本可解释性研究

    法律文本可解释性研究是将可解释性研究方法应用到法律文本领域,旨在构建智慧法庭,辅助法官判案,实现法律检索和类案匹配。本次学术报告从案件罪名预测和相似案例匹配两个应用角度进行讲解,对…

    2020年11月22日
    679
  • 启发式参数优化算法举例

    优化问题在日常生活中比较常见,而对于数据挖掘领域优化问题则更为常见,更为普遍。任何一种算法在设计之初必然预留了一组可调的参数,以期通过参数调节来得到算法的最佳效果。因为参数优化问题…

    学术报告 2015年9月9日
    1.6K
  • 格式化字符串漏洞

          介绍了格式化字符串漏洞的常见形式,以及在Windows32和Linux64下的两种利用思路,可以扩展到其他漏…

    2018年7月15日
    611
  • 基于MPEG-2码流的非线性编辑系统编辑方法

    以本人为主提出了基于ES(基本数据流层)的视, 音频剪辑算法;基于打包数据流层的视, 音频剪辑算法;基于PES流的视, 音频同步剪辑算法。并基于这些算法实现了基于MPEG-2码流的…

    2011年10月9日
    627
  • 机器学习常用的可解释方法

    可解释性对于建立用户与决策模型之间的信任关系至关重要,提高机器学习模型的可解释性和透明性是机器学习在现实任务中进一步发展和应用的关键。本次报告带大家了解机器学习常用的可解释方法的基…

    2020年10月25日
    869
  • 浅谈TCP/IP协议栈

    本次报告从TCP/IP四层模型出发,讲解了分层模型的原理和意义,并系统地从底层到顶层分别讲解了数据链路层、传输层和网络层这三层的主要协议和这些协议的实现原理。通过此次学术报告可以清…

    2020年1月12日
    933