序列标注模型

背景知识

序列标注模型被广泛应用于文本处理相关领域,例如分词、词性标注、命名实体识别等方面。现有的序列标注模型主要有HMM,MEMM 以及 CRF,通过对这几种自然语言处理中常用的序列标注模型进行对比,分析其各自的优缺点。

在介绍三种序列标注模型之前,首先需了解下产生式模型与判别式模型的概念,二者在分类器中经常被提及。假定输入,类别标签:产生式模型估计联合概率,判别式模型估计条件概率。产生式模型可以根据贝叶斯公式得到判别式模型,但反过来不行。

  1. 1.        隐马尔科夫模型(HMM

HMM是一种产生式模型,它采用一个联合概率将观测序列和状态序列结合在一起,通过训练参数来最大化拟合训练语料的联合概率,结构如图1所示。

序列标注模型

图1  HMM结构图

图中,分别表示HMM的状态值和观察值,每一个位置可以看作是一个时刻。从图中可以清楚地发现时刻的状态只取决于时刻的状态,即仅取决于,并且每个观察值只由状态值决定。即HMM是一个双重随机过程:①马尔可夫链,用来描述状态的转移;②随机过程,用来描述状态值和观察值之间的统计关系。

缺点:(1)为对联合概率分布进行建模,HMM引入两条独立性假设:第一,马尔科夫链在任意时刻的状态仅依赖于前一个状态;第二,任意时刻的观测只依赖于该时刻马尔科夫链的状态。这就导致HMM只能局限于部分上下文特征,无法充分利用更多有效的特征。(2)为定义观察值和状态值的联合概率,产生式模型必须列出所有可能的观察序列,这在实际操作中是很难实现的。

  1. 2.        最大熵隐马尔科夫模型(MEMM

最大熵马尔可夫模型是一种判别式模型,它不需要HMM那样严格的独立性假设。MEMM是基于概率有限状态模型这样一个概念,该模型将观察序列看作是条件事件,而不是由状态生成的。它结合了MEM和HMM的优点,允许状态转移可以基于输入序列中的非独立性特征,使得MEMM在处理自然语言处理的任务时,性能优于HMM。MEMM是通过求局部最优的条件概率来获得最终的条件概率。MEMM的结构如图2所示。

 

序列标注模型

图2  MEMM结构图

由图2可以看出,观察序列是作为条件,而不是生成的,因此图的分布指的是时刻状态所表示的随机变量的联合分布。

缺点:仅对局部求解条件概率,取其概率最大的标注作为最终的输出标注,导致标注偏置问题的产生,即凡是训练语料中未出现的情况全都忽略掉。

图3是一个对标记偏置进行解释的实例。

 

序列标注模型

图3    Viterbi算法解码MEMM

图3中状态1倾向于转换到状态2,同时状态2倾向于保留在状态2;但是得到的最优的状态转换路径是1->1->1->1,这是因为状态2可以转换的状态比状态1要多,从而使转移概率降低,即MEMM倾向于选择拥有更少转移的状态。这就是标记偏置问题。

  1. 3.       条件随机场模型(CRF

条件随机场也是一种判别式模型,是指在给定输入节点条件下计算输出节点的条件概率,其核心思想是利用无向图理论使序列标注的结果达到在整个序列上全局最优。CRF模型己被应用到自然语言处理的多个领域,如中文分词、命名实体识别等等。理论上,图的结构可以是任意的,但是当用于序列标记任务时,一般假设图是最简单和最通用的图结构,将其称为线性链条件随机场(Linear-chain CRF),结构如图4所示。

序列标注模型

图4  Linear-chain CRF结构

优点:无需引入独立性假设,能够充分利用上下文信息特征;计算全局最优输出节点的条件概率,克服了最大熵马尔可夫模型存在的标记偏置问题。

缺点:训练代价大、特征函数复杂度高。

总结

三种模型都可以通过Viterbi等动态规划算法求得最优值。HMM模型是对转移概率和表现概率直接建模,统计共现概率。MEMM模型是对转移概率和表现概率建立联合概率,统计的是条件概率,容易陷入局部最优。CRF模型统计了全局概率,考虑了数据在全局的分布,而不是仅仅在局部归一化,解决了MEMM中的标记偏置问题。

 

 

邹丽丽

2015.1.30

原创文章,作者:admin,如若转载,请注明出处:https://www.isclab.org.cn/2015/02/02/%e5%ba%8f%e5%88%97%e6%a0%87%e6%b3%a8%e6%a8%a1%e5%9e%8b/

(0)
adminadmin
上一篇 2015年1月29日
下一篇 2015年2月5日

相关推荐

  • 超参数优化

    本次报告介绍了超参数的概念和对模型的影响,解释了超参数与模型参数的区别,详细讲解了网格搜索、随机搜索、贝叶斯优化三种优化方法,分析其使用场景及优缺点,最后列举了三种实用的开源调优工…

    2023年1月2日
    1.2K
  • 模型窃取

    机器学习,尤其是神经网络,已广泛部署在行业环境中,模型通常被部署为预测服务。但是,具有对模型的查询访问权的对手可以窃取该模型以获得与远程目标模型基本一致的替代模型,这就是模型窃取攻…

    2021年5月10日
    3.5K
  • 走近特定音频识别(之三)—— 检索 Vs 识别

    在说明计算机如何进行特定音频识别这个问题之前,我们有必要对两个我们经常接触到的概念加以区分——“检索”和“识别”。     刚刚接触音频信号处理的朋友们常常会混淆这两个概念,本人刚…

    学术报告 2014年10月25日
    1.1K
  • 跨语言过程调用方法

    本报告介绍了跨语言过程调用的基本概念,展示了基于socket、http通信和rpc框架等三种方法的网络通信式过程调用的原理,梳理了基于ctypes和pybind11等两种方法的链接…

    2022年10月31日
    1.2K
  • 人工智能系统安全综述

    人类正在经历着由深度学习技术推动的人工智能浪潮,它为人类生产和生活带来了巨大的技术革新。然而,以往的机器学习理论大多没有考虑开放甚至对抗的系统运行环境,逐渐暴露出了许多安全和隐私问…

    2020年4月22日
    1.9K
  • 强化学习基础与实战

    本报告介绍了强化学习领域基本概念,详细介绍了Q-Learning算法和Deep Q Learning算法的原理,简要梳理了了两种算法的发展脉络,以经典案例windy grid-wo…

    2022年3月28日
    1.2K
  • 深度学习模型校准技术

    深度学习模型校准技术是模型预测可靠性的重要保障手段之一,其通过正则化或后处理方法调节模型对样本实例上的置信度,使其与预测的真实概率良好匹配。本次报告介绍了深度学习模型校准的基本概念…

    2024年7月2日
    1.4K
  • Dropout随机失活

    具有大量参数的深度神经网络是非常强大的机器学习系统。然而,在这样复杂的网络中,过拟合的问题难以解决。复杂的网络结构和缓慢的运行速度导致我们很难在测试时通过组合许多不同大型神经网络的…

    2022年1月21日
    1.1K
  • 深度神经网络后门攻击

    人工智能模型安全是人工智能应用落地需要考量的重要问题,后门攻击威胁是人工智能模型安全的重要议题。本次学术报告以深度神经网络为后门攻击的对象,从深度神经网络训练的内部机理出发,通过了…

    2021年8月15日
    1.8K
  • 大模型越狱攻击的检测技术

    本次报告围绕大模型越狱攻击的检测技术展开,首先阐述了越狱检测的定义,然后介绍了常见的越狱攻击以及检测技术的研究现状。接着详细介绍了GradSafe和JailGuard两种主流方法,…

    2025年5月8日
    1.6K