200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > 概率图模型(PGM)/马尔可夫随机场(MRF)/条件随机场基本概念(CRF)

概率图模型(PGM)/马尔可夫随机场(MRF)/条件随机场基本概念(CRF)

时间:2023-10-15 12:30:53

相关推荐

概率图模型(PGM)/马尔可夫随机场(MRF)/条件随机场基本概念(CRF)

概率图模型:

1:为什么引入图模型:一般的问题我们都可以用概率模型去很好的解决,那么为什么又要在概率的基础上加一个图呢?在这里我们引入图结构其实是因为图结构可以将概率模型的结构可视化,应用图这是一种直观,简单的方式,可以简单的描述随机变量之间的独立性的性质,最重要的是可以将一份复杂的概率模型转化为一些简单的模型的组合。

2:有向的图模型叫做贝叶斯网络,而贝叶斯的有向无环图来表示因果关系,而无向图模型称为马尔科夫随机场,无向图表示变量间的相互作用

(1)有向图模型贝叶斯网络: 对于K随机变量{X1,X2,··· ,XK}和 一个有向非循环图 G,G 中的每个节点都对应一个随机变量,可以是观察变量,隐变量或是未知参数等;G中的每个连接eij 表示两个随机变量 Xi 和 Xj 之间具有非独立的因果关系。我们定义 Xπk 表示变量 Xk 的所有父节点变量集合,每个随机变量的局部条件概率(local conditional probability distribution)为 P (Xk |Xπk )。如果X = X1,X2,··· ,XK 的联合概率分布可以分解为每个随机变量 Xk 的局部条件概率的连乘形式,即:

那么 (G, X ) 构成了一个贝叶斯网络。

如何用图来表示贝叶斯网络:当我们观察条件概率时,我们必须要指明那个是条件,如果我们采用的变量是节点,采用无向图这样的节点等价关系肯定是不能描述条件概率的,因为对于一个节点说双向都可以,所以我们这里采用的是有向图,如果我们要描述p(x2|x1)就可以化成下图

在贝叶斯网络中,如果两个节点是直接相连的,他们肯定是非条件独立的,而是直接因果关系,其父节点是”因”,子节点是”果”。如果两个节点不是直接连接的,而是之间有经过其他节点的路径间接连接的,这时候情况比较复杂,这里我们举个例子:

给定三个节点x1, x2, x3,x1 和x3 是不直接连接的,可以通过节点x2 连接。这三个节点之间可以有四种连接关系:

间接因果关系: 在已知 x2 时,x1 和 x3 为条件独立;

间接果因关系:在已知 x2 时,x1 和 x3 为条件独立;

共因关系: x1和x3是不独立的,在已知x2时,x1和x3条件独立;

共果关系: x1和x3是独立的,在已知x2时,x1和x3不独立

在图1图2 中,在已知 x2 时,x1 和 x3 为条件独立;

在图3 中,x1 和 x3 是不独立的,在已知 x2 时,x1 和 x3 条件 独立;

在图4中,x1 和 x3 是独立的,在已知 x2 时,x1 和 x3 不独立。

(2)无向图模型马尔科夫随机场:构造有向图的模型需要变量之间是显式的,很强的约束关系,即首先要满足之前的条件概率分布关系,其次还有计算要简便,这时候可能就跟我们的真实情况有区别了。很多时候我们知道两个变量之间一定是相关的,但我们不知道到底是怎么相关的。这时候我们也可以用其相关性来构造概率图模型。相关是不分方向的,此时我们应该选择无向图来表示。

马尔可夫随机场,也叫概率无向图模型,或马尔可夫网络(Markov network),是一类用无向图来表示一组具有马尔可夫性质(满足成对、局部或全局马尔可夫性)的随机变量 X 的联合概率分布模型。和贝叶斯网络类似,马尔可夫随机场也图结构来随机变量之间的依赖关系。 但是,贝叶斯网络是有向非循环图,而马尔可夫随机场是一个无向图,并且可以存在循环。这样,马尔可夫随机场可以表示贝叶斯网络无法表示的一些依赖关系,如循环依赖;但它不能表示贝叶斯网络能够表示的某些关系,如推导关系。

成对马尔可夫性:设 u 和 v 是无向图G中任意两个没有边连接的结点,结点u和v分别对应随机变量 Yu 和 Yv。其他所有结点为 O(集合),对应的随机变量组是 YO。成对马尔可夫性是指给定随机变量组 YO 的条件下随机变量 Yu 和 Yv 是条件独立的,其实意思就是说没有直连边的任意两个节点是独立的,即

P(Yu,Yv|YO)=P(Yu|YO)P(Yv|YO)

局部马尔可夫性:设 v 属于点集 V ,是无向图 G 中任意一个结点,W 是与 v 有边连接的所有结点,O 是除 v,W 以外的其他所有结点。v 表示的随机变量是 Yv ,W 表示的随机变量组是 Yw,O 表示的随机变量组是 YO。局部马尔可夫性是指在给定随机变量组 Yw 的条件下随机变量 v 与随机变量组 YO 是独立的,即

P(Yv,YO|Yw)=P(Yv|Yw)P(YO|Yw)

在 P(YO|Yw)>0 时,等价地,p(Yv|Yw)=P(Yv|Yw,YO)

下图表示了局部马尔可夫性。

全局马尔可夫性:设结点集合 A,B 是在无向图 G 中被结点集合 C 分开的任意结点集合,如图所示。结点集合 A,B 和 C 所对应的随机变量组分别是 YA,YB 和 YC。全局马尔可夫性是指给定随机变量组条件下随机变量组 YA 和 YB 是条件独立的,即P(YA,YB|YC)=P(YA|YC)P(YB|YC)

概率无向图模型/马尔可夫随机场:设有联合概率分布 P(Y) ,由无向图 G=(V,E) 表示,在图 G 中,结点表示随机变量,边表示随机变量之间的依赖关系。如果联合概率分布 P(Y) 满足成对、局部或全局马尔可夫性,就称此联合概率分布为概率无向图模型或马尔可夫随机场。

以上是概率无向图模型的定义,实际上,我们更关心的是如何求其联合概率分布。对给定的概率无向图模型,我们希望将整体的联合概率写成若干子联合概率的乘积的形式,也就是将联合概率进行因子分解,这样便于模型的学习与计算。事实上,概率无向图模型的最大特点就是易于因子分解。下面介绍这一结果。

概率无向图模型的因子分解:

首先给出无向图中的团与最大团的定义,无向图 G 中任何两个结点均有边连接的结点子集称为团(clique)。若 C 是无向图 G 的一个团,并且不能再加进任何一个 G 的结点使其成为一个更大的团,则称此 C 为最大团(团中任意两个结点都有直接的边相连,构成的结点和边的最大集合就是极大团)。

下图 (a) 表示由4个结点组成的无向图。图中由2个结点组成的团有5个: {Y1,Y2},{Y2,Y3},{Y3,Y4} 和 {Y4,Y2},{Y1,Y3} 。有2个最大团:{Y1,Y2,Y3} 和 {Y2,Y3,Y4}。而 {Y1,Y2,Y3,Y4} 不是一个团,因为 Y1 和 Y4 没有边连接。

将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作,称为概率无向图模型的因子分解,譬如在解高次方程的时候,我们非常希望方程能够分解为多个低次方程的乘积。那么,对于概率分布函数而言,我们也希望能够这样做,即给定概率无向图模型,设无向图为 G , C 为 G 上的最大团, YC 表示 C 对应的随机变量。那么概率无向图模型的联合概率分布 P(Y) 可分解为图中所有最大团 C 上的函数 ΨC(YC) 的乘积形式,分解后的因子图如 (b) 所示,每个黑色的正方形便代表一个函数,图中将无向图拆分为两个最大团上势函数的乘积,具体的拆分公式为:

其中,Z 是规范化因子(normalization factor),形式如下:

规范化因子保证 P(Y) 构成一个概率分布。ΨC(YC)→R 称为势函数 (potential function)。这里要求势函数 ΨC(YC) 是严格正的,通常定义为指数函数:

总结一下,便得到 Hammersley-Clifford定理 ,概率无向图模型的联合概率分布可以表示为如下形式:

其中,C 是无向图的最大团, YC 是 C 的结点对应的随机变量, ΨC(YC) 是 C 上定义的严格正函数,乘积是在无向图所有的最大团上进行的。

势函数:

下图是一个简单的马尔可夫随机场:

图中的边表示节点之间具有相互关系,这种关系是双向的、对称的。如:x2 和x3 之间有边相连,则x2和x3具有相关关系,这种相关关系采用势函数进行度量。例如,可以定义如下势函数:

则说明该模型偏好变量x2与x3拥有相同的取值,换言之,在该模型中,x2与x3的取值正相关。势函数刻画了局部变量之间的相关关系,它应该是非负的函数。为了满足非负性,指数函数常被用于定义势函数:

H(x)是一个定义在变量x xx上的实值函数,常见形式为:

其中αuv和βv 是需要学习的参数,称为参数估计。

联合概率分布p(x)定义为:

团:两两之间有连线的两个结点构成团

极大团:团中任意两个结点都有直接的边相连,构成的结点和边的最大集合就是极大团

CRF:

条件随机场(conditional random field)是给定随机变量 X 条件下,随机变量 Y 的马尔可夫随机场,也就是说CRF的特点是假设输出随机变量构成马尔可夫随机场(输出随机变量满足马尔可夫三性质)。本文主要介绍定义在线性链上的特殊的条件随机场,称为线性链条件随机场(linear-chain CRF)。线性链条件随机场可以用于机器学习里的标注问题。这时,在条件概率模型 P(Y|X) 中,Y 是输出变量,表示标记序列,也把标记序列称为状态序列(同 HMM 中的状态序列);X 是输入变量,表示观测序列。学习时,利用训练数据集通过极大似然估计或正则化的极大似然估计得到条件概率模型 P^(Y|X) ;然后使用该模型预测即可。

其实和马尔可夫局部性是一个意思,v与O无关,而只与相邻的w有关,省去了O之后,剩下的w是用一条线性链串接而成,就是我们的线性链条件随机场。

可以对应之前文章的简化形式

下面的几个链接分别是CRF概率计算,参数训练方法和预测问题的解决:

/ooon/p/5823445.html

/ooon/p/5826757.html

/ooon/p/5827078.html

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。