条件随机场

条件随机场(Conditional Random Field,CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型，其特点是假设输出随机变量构成马尔科夫随机场。

1. 概率无向图模型

概率无向图模型(Prodbabilistic Undirected Graphical Model),又称为马尔科夫随机场(Markov Random Field)，是一个可以由无向图模型表示的联合概率分布。

1.1 模型定义

图(Graph)是由结点(Node)及连接结点的边(Edge)组成的集合，结点和边分别记作和，结点和边的集合分别记作和 ,图记作 .无向图是指边没有方向的图。

概率图模型(Prodbabilistic Graphical Model)是由图表示的概率分布。设有联合概率分布 , 是一组随机变量。由无向图表示概率分布，即在图中，结点表示一个随机变量；边表示随机变量之间的概率依赖关系。

给定一个联合概率分布和表示它的无向图。首先定义无向图表示的随机变量之间存在的成对马尔科夫性(Pairwise Markov Property)、局部马尔科夫性(Local Markov Property)和全局马尔科夫性(Global Markov Property).

成对马尔科夫性：设和是无向图中任意两个没有边连接的结点，结点和分别对应随机变量和。其他所有结点为 ,对应的随机变量组是 .成对马尔科夫性是指给定随机变量组的条件下随机变量和是条件独立的，即

局部马尔科夫性：设是无向图中任意一个结点，是与有边连接的所有结点，是以外的其他所有结点。表示的随机变量是表示的随机变量组是表示的随机变量组是 .局部马尔科夫性是指在给定随机变量组的条件下随机变量与随机变量组是独立的，即

有

局部马尔科夫性如下图所示：

全局马尔科夫性:设结点集合是在无向图中被结点集合分开的任意结点集合，如下图：

结点集合和对应的随机变量组分别是，全局马尔科夫性是指给定随机变量组条件下随机变量组和是条件独立的，即

概率无向图模型： 设有联合概率分布，由无向图表示，在图中，结点表示随机变量，边表示随机变量之间的依赖关系。如果联合概率分布满足成对、局部或全局马尔科夫性，就称此联合概率分布为概率无向图模型(Prodbabilistic Undirected Graphical Model),又称为马尔科夫随机场(Markov Random Field)。

概率无向图模型的最大特点就是易于因子分解，这样便于模型的学习与计算。

1.2 概率无向图模型的因子分解

团与最大团： 无向图中任何两个结点均有边连接的结点子集称为团(Clique).若是无向图的一个团，并且不能再加进任何一个的结点使其成为一个更大的团，则称此为最大团(Maximal Clique).

如上图表示由4个点组成的无向图。图中由2个结点组成的团由5个：

有两个最大团：

而

不是一个团。因为和没有边连接。

将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作，称为概率无向图模型的因子分解(Factorization).

给定概率无向图模型，设其无向图为，为上的最大团，表示对应的随机变量。那么概率无向图模型的联合概率分布可写作图中所有最大团上的函数的乘积形式，即

其中，是规范化因子(Normalization Factor)：

规范化因子保证构成一个概率分布，函数称为势函数(Potential Function). 这里要求势函数是严格正的，通常定义为指数函数：

Hammersley-Clifford 定理 概率无向图模型的联合概率分布可以表示为如下形式：

其中，是无向图的最大团，是的结点对应的随机变量，是上定义的严格正函数，乘积是在无向图所有的最大团上进行的。

2. 条件随机场的定义与形式

2.1 条件随机场的定义

条件随机场(CRF)是给定随机变量条件下，随机变量的马尔科夫随机场，本文主要介绍定义在线性链上的特殊的条件随机场，称为线性链条件随机场(Linear Chain Conditional Random Field).线性链条件随机场可以用于标注等问题。这时，在条件概率模型中，是输出量，表示标记序列，是输入变量，表示需要标注的观测序列。也把标记序列称为状态序列(参见 ).学习时，利用训练数据集通过极大似然估计或正则化的极大似然估计得到条件概率模型 ;预测是，对于给定的输入序列，求出条件概率最大的输出序列 .

条件随机场： 设与是随机变量，是在给定的条件下的条件概率分布，若随机变量构成一个由无向图表示的马尔科夫随机场，即

对任意结点成立，则称条件概率分布为条件随机场。式中表示在无向图中与结点有边连接的所有结点表示结点以外的所有结点，为结点对应的随机变量。

在定义中并没有要求和具有相同的结构。现实中，一般假设和有相同的图结构。一般考虑无向图如下图所示的线性链情况。

即

在此情况下，，最大团是相邻两个结点的集合。

线性链条件随机场： 设均为线性链表示的随机变量序列，若在给定随机变量序列的条件下，随机变量序列的条件概率分布构成条件随机场，即满足马尔科夫性

则称为线性链条件随机场。其中，在时只考虑单边。在标注问题中，表示输入观测序列，表示对应的输出标记序列或状态序列。

2.2 条件随机场的参数化形式

根据Hammersley-Clifford 定理，可以给出线性链条件随机场的因子分级式，各因子是定义在相邻两个结点上的函数。

线性链条件随机场的参数化形式(定理)： 设为线性链条件随机场，则在随机变量的取值为的条件下，随机变量取值为的条件概率具有如下形式:

其中，

式中，和是特征函数，和是对应的权值，是规范化因子，求和是在所有可能的输出序列上进行的，

上述两个公式是线性链条件随机场模型的基本形式，表示给定输入序列，对输出序列预测的条件概率。式中是定义在边上的特征函数，称为转移特征，依赖于当前和前一个位置，是定义在结点上的特征函数，称为状态特征，依赖于当前位置. 和都依赖于位置，是局部特征函数。通常，特征函数和取值为1或0；当满足特征条件时取值为 1，否则为0.条件随机场完全由特征函数和对应的权值确定。

线性链条件随机场也是对数线性模型(Log Linear Model).

例

设有一个标注问题：输入观测序列为，输出标记序列为取值于

假设特征和对应的权值如下:

这里只注明特征取值为 1 的条件，取值为 0 的条件省略，即

下同。

对给定的观测序列，求标记序列为的非规范化条件概率(即没有除以规范化因子的条件概率)。

解线性链条随机场模型为

对给定的观测序列，标记序列的非规范化条件概率为

2.3条件随机场的简化形式

条件随机场可以由简化形式表示。条件随机场的参数化形式中同一特征在各个位置都有定义，可以对同一个特征在各个位置求和，将局部特征函数转化为一个全局特征函数，这样就可以将条件随机场写成权值向量和特征向量的内积形式，即条件随机场的简化形式。

为简便起见，首先将转移特征和状态特征及其权值用统一的符号表示。设有个转移特征，个状态特征， ,记

然后，对转移与状态特征在各个位置求和，记作

用表示特征的权值，即

于是有

若以表示权值向量，即

以表示全局特征向量，即

则条件随机场可以写成向量与的内积形式:

其中，

2.4 条件随机场的矩阵形式

条件随机场还可以由矩阵表示。假设

表示对给定观测序列 ,相应的标记序列的条件概率，引进特殊的起点和终点状态标记 ,这时可以通过矩阵形式表示。

对观测序列的每一个位置，定义一个阶矩阵( 是标记的取值个数)

这样，给定观测序列 ,相应标记序列的非规范化概率可以通过该序列个矩阵适当元素的乘积表示，条件概率是:

其中是规范化因子，是个矩阵的乘积的元素：

注意，表示开始状态与终止状态，规范化因子是以为起点为终点通过状态的所有路径的非规范化概率之和。

3. 条件随机场的概率计算问题

条件随机场的概率计算问题是给定条件随机场，输入序列和输出序列 ,计算条件概率以及相应的数学期望的问题。为了方便，像那样，引进前向-后向向量，递归地计算以上概率记期望。这样的算法称为前向-后向算法。

3.1 前向-后向算法

对每个指标 ,定义前向向量

递推公式为

又可表示为

表示在位置的标记是并且到位置的前部分标记序列的非规范化概率，可取的值有个，所以是维列向量。

同样，对每个指标 ,定义后向向量 :

又可表示为

表示在位置的标记是并且从到的后半部分标记序列的非规范化概率。

由前向-后向向量定义可得:

这里，是元素均为 1 的维列向量。

3.2 概率计算

按照前向-后向向量的定义，很容易计算标记序列在位置是标记的条件概率和在位置与是标记和的条件概率:

其中，

3.3 期望计算

利用前向-后向向量，可以计算特征函数关于联合分布和条件分布的数学期望。

特征函数关于条件分布的数学期望是

其中，

假设经验分布为 ,特征函数关于联合分布的数学期望是

其中，

上述两式是特征函数数学期望的一般计算公式。对于转移特征，可以将式中的换成 ;对于状态特征，可以将式中的换成，表示为 .

有了概率和期望计算的公式，对给定的观测序列与标记序列 ,可以通过一次前向扫描计算及，通过一次后向扫描计算 ,从而计算所有的概率和期望特征。

4. 条件随机场的学习算法

条件随机场模型实际上是定义在时序数据上的对数线形模型，其学习方法包括极大似然估计和正则化的极大似然估计。具体地算法有改进的迭代尺度法，梯度下降法以及拟牛顿法。

4.1 改进的迭代尺度法

已知训练数据集，由此可知经验概率分布可以通过极大训练数据的对数似然函数来求模型参数。

训练书的对数似然函数为:

当是

时，对数似然函数为

改进的迭代尺度算法通过迭代的方法不断优化对数似然函数改变量的下界，达到极大化对数似然函数的目的。假设模型的当前参数向量为，向量的增量为 ,更新参数向量为。在每一步迭代过程中，改进的迭代尺度法依次通过求解和，得到。

关于转移特征的更新方程为

关于状态特征的更新方程为

这里，是在数据中出现所有特征数的总和:

条件随机场模型学习的改进的迭代尺度法

输入: 特征函数 ; 经验分布 ;

输出：参数估计值 ; 模型 .

(1)对所有

取初值

(2)对每一个

有：

(a)当时，令是方程

的解；当时，令是方程

的解。

(b)更新值：

(3)如果不是所有都收敛，重复步骤(2).

和公式中，表示数据中的特征总数，对不同的数据取值可能不同。为了处理这个问题，定义松弛特征

式中是一个常数，选择足够大的常数使得对训练数据集的所有数据成立。这时特征总数可取 .

由可得，对于转移特征的更新方程是

其中，

同样由可得，对于状态特征的更新方程是

其中，

以上算法称为算法 S ,在算法 S 中需要使常数取足够大，这样，每步迭代的增量向量会变大，算法收敛会变慢。算法 T 试图解决这个问题。算法 T 对每个观测序列计算特征总数最大值 :

利用前向-后向递推公式，可以很容易地计算 .

这时，关于转移特征参数的更新方程可以写成:

这里，是特征的期待值， . 是上式唯一的实根，可以用牛顿法求得。从而求得相关 .

同样，关于状态特征的参数更新方程可以写成：

这里，是特征的期望值，是上式得唯一实根，也可以用牛顿法求得。

4.2 拟牛顿法

条件随机场模型学习还可以应用牛顿法或拟牛顿法。对于条件随机场模型

学习的优化目标函数是

其梯度函数是

条件随机场模型学习的BFGS算法

输入：特征函数 ;经验分布 ;

输出：最优参数值 ; 最优模型 .

(1)选定初始点 ,取为正定对称矩阵，置

(2)计算 .若 ,则停止计算；否则转(3)

(3)由求出

(4)一维搜索：求使得

(5)置

(6)计算 ,若，则停止计算；否则，按下士求出 :

其中，

(7)置 ,转(3).

5. 条件随机场的预测算法

条件随机场的预测问题是给定条件随机场和输入序列(观测序列) ，求条件概率最大的输出序列(标记序列) ,即对观测序列进行标注。条件随机场的观测算法是著名的维比特算法。

由

可得:

于是，条件随机场的预测问题成为求非规范化概率最大的最优路径问题

这里，路径表示标记序列。其中，

注意，这时只需计算非规范化概率，可以大大提高效率，为了求解最优路径，将目标函数写成:

其中，

是局部特征向量。

下面描述维特比算法，首先求出位置 1 的各个标记的非规范化概率:

由递推公式，求出到位置的各个标记的非规范化概率的最大值，同时记录非规范化概率最大值的路径

直到终止。这时求得非规范化概率的最大值为

及最优路径的终点

由此最优路径终点返回，

求得最优路径.

条件随机场预测的维特比算法

输入：模型特征向量和权值向量，观测序列 ;

输出：最优路径.

(1)初始化

(2)递推，对

(3)终止

(4)返回路径

求得最优路径

例

在第一个例子中，用维特比算法求给定的输入序列对应的最优输出序列(标记序列).

解

特征函数及对应的权值均已给出，利用维特比算法求最优路径问题：

(1)初始化

(2)递推

(3)终止

(4)返回

最优标记序列

参考

周志华《机器学习》
条件随机场（CRF）
条件随机场

math

#math #ML #CRF

条件随机场

https://mztchaoqun.com.cn/posts/D7_Conditional_Random_Field/

作者

mztchaoqun

发布于

2023年12月13日

许可协议

manjaro安装cuda,cudnn,tensorrt,pytorch,tensorflow 上一篇

隐马尔科夫模型下一篇