最大熵模型

1.熵

决策树中已经说明。

2.最大熵模型

2.1熵的定义

假设随机变量的概率分布为，取值为 , ，则由上节我们可知息熵的计算公式如下：

用来表示事件的信息量，则即为随机变量的平均信息量(期望)。熵满足下列不等式：

由Jensen不等式：为凸函数，若为凹函数，则有，为凹函数可得：

其中是的取值个数，当随机变量退化为定值时（概率为1），那么此时的熵值为0。另一个极限就是：当随机变量服从均匀分布的时候，此时的熵值最大。

联合熵

对于服从的两个随机变量，可以形成联合熵Joint Entropy，用表示:

条件熵

在随机变量发生的前提下，随机变量发生所新带来的熵定义为的条件熵，用表示，用来衡量在已知随机变量的条件下随机变量的不确定性。

若，条件熵为：

联合熵等于其中一个随机变量的熵加上另一个随机变量的条件熵，即：。证明如下：

相对熵

又称互熵，交叉熵，鉴别信息，Kullback熵，Kullback-Leible散度等。是中取值的两个概率分布，则对的相对熵是：

并约定，。因此，如果存在，使得，则有。

在一定程度上，相对熵可以度量两个随机变量的“距离”，且有，可以通过证明知道相对熵总是非负的，而且，当且仅当时为零。

互信息

两个随机变量的互信息定义为的联合分布和各自独立分布乘积的相对熵，用表示：

互信息是一个随机变量包含另一个随机变量信息量的度量。互信息也是在给定另一个随机变量知识的条件下，原随机变量不确定度的缩减量。通过查看表达式，即可知道互信息具有对称性，同样可以简单证明得互信息的非负性。

互信息与熵的关系

由此可见，互信息是在给定另一个随机变量知识的条件下，不确定度的缩减量。

由于互信息的对称性，可得：

将 | 代入上式得：

一些重要表达式:

韦恩图可以很好地表示以上各变量之间的关系，对着上面的公式，应该可以很好理解下面的图表达的含义。

2.2最大熵模型

最大熵原理认为要选择的概率模型首先必须满足已有的事实，即约束条件。在没有更多信息的情况下，那些不确定的部分都是“等可能的”(无偏性)。“最大熵模型”的核心两点：1.承认已知事物（或知识）；2.对未知事物不做任何假设，没有任何偏见。 ### 2.2.1无偏原则例如，一篇文章中出现了“学习”这个词，那这个词可以作主语、谓语、宾语。换言之，已知“学习”可能是动词，也可能是名词，故“学习”可以被标为主语、谓语、宾语、定语等等。令表示“学习”被标为名词，表示“学习”被标为动词。令表示“学习”被标为主语，表示被标为谓语，表示宾语，表示定语。则有：

如果没有其他的知识，根据信息熵的理论，概率趋向于均匀。所以有：

若我们已知“学习”被标为定语的可能性很小，只有0.05。引入这个新的知识：在满足了这个约束的情况下，其他的事件我们尽可能的让他们符合均匀分布（无偏原则）：

再加入另一个约束条件：当“学习”被标作名词的时候，它被标作谓语的概率为0.95。即：

此时我们仍然坚持无偏见原则，但随着已知的知识点越来越多，其实也就是约束越来越多，求解的过程会变得越来越复杂。我们可以通过使得熵尽可能的大来保持无偏性。将上述优化及约束转化为数学公式：

且满足以下4个约束条件：

以上表达中，一般用 | ，和用效果一样，由于 | , 为训练集集合，分布已知，即是一个定值，因此最大等价于 | 最大。

2.2.2最大熵模型表示

最大熵模型的一般表达式：

其中， | 是上满足条件的概率分布,此处对数为自然对数。

假设分类模型是一个条件概率分布 | 表示输入，表示输出。这个模型表示对于给定输入 ,以条件概率输出。给定训练集，学习的目标是用最大熵原理选择最好的分类模型。

特征：其中为这个特征中的上下文信息，为这个特征中需要确定的信息。样本：即特征对的训练数据集。

对于一个特征，定义特征函数：

则特征函数关于经验分布在样本中的期望：

其中为在样本中出现的概率。

特征函数关于模型 | 与经验分布的期望值为：

其中为在样本中出现的概率。

换言之，如果能够获取训练数据中的信息，那么上述这两个期望值相等，即：

上面这个等式就是最大熵模型中的限制条件，那么最大熵模型的完整提法是：

2.2.3求解最大熵模型

针对原问题，首先引入拉格朗日乘子定义拉格朗日函数，转换为对偶问题求其极大化：

其中参数表示 | , 表示的向量形式，即：

按照Lagrange乘子法的思路，对参数求偏导，可得：

求得：

由于 | ，得

这里起到了归一化的作用。

现将求得的最优解 | 带回之前建立的拉格朗日函数L,可得到关于的函数：

从可以看出，最大熵模型模型属于对数线性模型，因为其包含指数函数，所以几乎不可能有解析解。我们需要使用其他方式进行逼近。

2.2.4极大似然估计

极大似然估计的MLE一般形式表示为：

其中是对模型进行估计的概率分布，是实验结果得到的概率分布。两边取对数，得到对数似然估计:

则对于的对数似然估计为：

上述式子最后结果的第二项是常数项,所以最终结果等价于：

将之前得到的最大熵的解带入MLE:

上述结果跟之前得到的对偶问题的极大化解

只差一个“-”号，所以只要把原对偶问题的极大化解也加个负号，等价转换为对偶问题的极小化解,则与极大似然估计的结果具有完全相同的目标函数。因此，最大熵模型的对偶问题的极小化等价于最大熵模型的极大似然估计。

熵是表示不确定性的度量，似然表示的是与知识的吻合程度，进一步，最大熵模型是对不确定度的无偏分配，最大似然估计则是对知识的无偏理解。且根据MLE的正确性，可以断定：最大熵的解（无偏的对待不确定性）同时是最符合样本数据分布的解，进一步证明了最大熵模型的合理性。

2.3改进的迭代尺度法(IIS)

最大熵模型为：

对数似然函数为：

通过极大似然函数求解最大熵模型的参数，即求上述对数似然函数参数的极大值。此时，通常通过迭代算法求解，比如改进的迭代尺度法IIS、梯度下降法、牛顿法或拟牛顿法。这里主要介绍下其中的改进的迭代尺度法IIS。

改进的迭代尺度法IIS的核心思想是：假设最大熵模型当前的参数向量是，希望找到一个新的参数向量，使得当前模型的对数似然函数值L增加。重复这一过程，直至找到对数似然函数的最大值。

下面，计算参数变到的过程中，对数似然函数的增加量，用表示，同时利用不等式：，可得到对数似然函数增加量的下界，如下：

将上述求得的下界结果记为 ,并引入 ,f是一个二值函数，故表示的是所有特征出现的次数，然后利用Jensen不等式：

把上述式子求得的的下界记为：

则 ,对求偏导：

令偏导为0,若为常数：

若不是常数，那么无法直接求得令偏导为0时候的值，令偏导表示为：

转为的根，用牛顿法：

计算的根而不是求的极小值,所以牛顿法中是函数值除以一阶导，而不是一阶导除以二阶导。实践中，可采用拟牛顿法BFGS解决。

将上述求解过程中得到的参数，回代到下式中，即可得到最大熵模型的最优估计:

参考

math

#math #ML #MaxEnt

最大熵模型

https://mztchaoqun.com.cn/posts/D1_Maximum_Entropy_Principle/

作者

mztchaoqun

发布于

2023年8月8日

许可协议

EM算法上一篇

梯度提升树GBDT 下一篇