走近特定音频识别（之三）—— 检索 Vs 识别

admin • 2014年10月25日下午12:20 • 学术报告 • 阅读 1160

在说明计算机如何进行特定音频识别这个问题之前，我们有必要对两个我们经常接触到的概念加以区分——“检索”和“识别”。

刚刚接触音频信号处理的朋友们常常会混淆这两个概念，本人刚刚接触这个领域的时候，也不能很好地将其区分清楚。事实上，检索和识别这两个概念可以从用户需求和技术实现两个角度来分析。

从用户需求的角度来说，“检索”是要从既有的数据库中找到用户需要的音频片段或文件，例如，用户给定一段音频（比如一段广告，通常我们将其称之为“待检样例”）给检索系统，系统将待检样例相似的音频文件按照相似度降序排序展现给用户，这一过程与使用网络搜索引擎相似；而“识别”并不需要用户指定音频样例，只需指定音频类型（如枪声、狗叫、海浪等），系统即可对待识别音频进行处理，最终输出识别结果。简而言之，“检索”往往是“以声音找声音”，通常需要给定一段待检样例；而“识别”往往是“以类别判断声音”只需指定音频类型。

有的同学说，在有些检索系统中，我只需输入类别，也可以得到一系列按照相似度排序的结果啊？这种情况往往出现在基于人工标记的标签检索技术上，这种技术的实质仍然是关键词匹配技术，与音频处理没有太大关系，不在本文讨论的范围之内。当然，不久的将来，很多音频当中的标签将由特定音频识别系统来标注，这是题外话，也不再详述了：）

从技术实现的角度来说，“检索”系统将待检样例与音频库中的每段音频进行逐一比较，比较方法往往涉及各种针对特征向量的相似性度量方法；而“识别”系统将待识别音频的特征向量输入判别模型或分类器，由判别模型给出最终的判断。简而言之，“检索”使用的是相似性度量方法，而“识别”系统使用的是模型匹配或是机器学习的方法。

这两种技术到底孰优孰劣呢？其实很难给出答案，两种技术在用户需求与技术实现两个角度的不同，决定了他们在使用场景、实施难度、评判指标等诸多方面的差异，因此只能说各有所长，各有千秋啦！

本系列所涉及的技术，就是以“识别”为主线开展的，下一篇，将向大家介绍识别系统的基本原理和模块组成。

原创文章，作者：admin，如若转载，请注明出处：https://www.isclab.org.cn/2014/10/25/%e8%b5%b0%e8%bf%91%e7%89%b9%e5%ae%9a%e9%9f%b3%e9%a2%91%e8%af%86%e5%88%ab%ef%bc%88%e4%b9%8b%e4%b8%89%ef%bc%89-%e6%a3%80%e7%b4%a2-vs-%e8%af%86%e5%88%ab/

走近特定音频识别（之三）—— 检索 Vs 识别

相关推荐