200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > 因果推理(四):因果模型

因果推理(四):因果模型

时间:2019-02-12 07:42:55

相关推荐

因果推理(四):因果模型

因果模型对于因果量的确定是很重要的。在前面的学习中,我们将“确定”(identification)描述为将因果估计转换为统计估计的过程。确定-估计(Identification-Estimation)的流程如下图:

1. Do-算子和干预(interventional)分布

首先需要区别给定条件(condition)和干预(intervention)的概念。给定条件T=t的意思是我们只看在总体中treatment为t的子集;而intervention的意思是将总体中左右个体的treatment设为t。我们用do-算子表示intervention:do(T=t)do(T=t)do(T=t)。这是图形因果模型中常用的表示法,并且在潜在结果表示法中具有相同的表示法。例如,可以将第二讲中的潜在结果表示为:

P(Y(t)=y)=P(Y=y∣do(T=t))=P(y∣do(t))P(Y(t)=y)=P(Y=y|do(T=t))=P(y|do(t))P(Y(t)=y)=P(Y=y∣do(T=t))=P(y∣do(t))

在上式中将do(T=t)do(T=t)do(T=t)简写为do(t)do(t)do(t)。此外,全概率可表示为Y∣do(t)Y|do(t)Y∣do(t)。通常将P(Y∣do(T=t))P(Y|do(T=t))P(Y∣do(T=t))的形式叫做interventional distributions。

需要注意形如P(Y∣do(T=t))P(Y|do(T=t))P(Y∣do(T=t))的干预性分布(interventional distribution)和形如P(Y)P(Y)P(Y)的观察分布(observational distribution)的区别。观察分布不带do算子,是不需要任何实验和干预就可以得到的变量分布。如果可以将带do算子的表达式(干预性表达式)转换为不带do算子的表达式(观察行表达式),就说这个表达式是可识别的(identifiable)。通常,将包含do算子的估计称为因果估计,将不包含do算子的估计称为统计估计。

带do算子的表达式中的所有变量都处于一个干预后的世界。(这里14节细讲)

2. 模块化假设(modularity)

在介绍模块化假设之前,需要先介绍因果机制(causal mechanism)的概念。可以将产生XiX_iXi​的因果机制理解为给定XiX_iXi​的所有原因的XiX_iXi​的条件概率分布:P(xi∣pai)P(x_i|pa_i)P(xi​∣pai​)。如下图所示,生成XiX_iXi​的因果机制由XiX_iXi​的所有父节点和指向XiX_iXi​的所有边组成。

为了获得许多因果识别结果,我们将做出的主要假设是干预(iinterventions)是局部的。 更具体地说,我们假设对变量XiX_iXi​的干预只会改变XiX_iXi​的因果机制。 它不会改变产生任何其他变量的因果机制。 从这个意义上说,因果机制是模块化的。

模块化(modularity)假设:如果对节点集合S⊆[n]S \subseteq[n]S⊆[n]进行干预,将它们设为常量,那么对于每一个i,有:

(1)如果i∉Si \notin Si∈/​S,那么P(xi∣pai)P\left(x_{i} \mid \mathrm{pa}_{i}\right)P(xi​∣pai​)保持不变。

(2)如果i∈Si \in Si∈S,那么当xix_ixi​为XiX_iXi​被设为的值时P(xi∣pai)=1P\left(x_{i} \mid \mathrm{pa}_{i}\right)=1P(xi​∣pai​)=1;否则,P(xi∣pai)=0P\left(x_{i} \mid \mathrm{pa}_{i}\right)=0P(xi​∣pai​)=0。

介入性分布的因果图(操纵图,manipulated graph)与观察性关节分布所使用的图完全相同,只是介入节点的所有边都被删除。这是因为干预因素的概率已设置为1,因此我们可以忽略该因素的所有因。

3. 截断式因式分解(Truncated Factorization)

回顾一下贝叶斯网络因式分解:

P(x1,…,xn)=∏iP(xi∣pai)P\left(x_{1}, \ldots, x_{n}\right)=\prod_{i} P\left(x_{i} \mid \mathrm{pa}_{i}\right)P(x1​,…,xn​)=∏i​P(xi​∣pai​)

现在,如果我们干预一组节点SSS并假设其符合模块化(modularity),则除Xi∈SX_{i} \in SXi​∈S的因式外,所有因式都应保持相同;而Xi∈SX_{i} \in SXi​∈S的节点的因式变为1(值与干预一致时)。

截断式因式分解(Truncated Factorization):我们假设PPP和GGG满足马尔可夫假设和模块化。 给定一组干预节点SSS,

如果xxx与干预一致,则

P(x1,…,xn∣do(S=s))=∏i∉SP(xi∣pai)P\left(x_{1}, \ldots, x_{n} \mid d o(S=s)\right)=\prod_{i \notin S} P\left(x_{i} \mid \mathrm{pa}_{i}\right)P(x1​,…,xn​∣do(S=s))=∏i∈/​S​P(xi​∣pai​).

否则,P(x1,…,xn∣do(S=s))=0P\left(x_{1}, \ldots, x_{n} \mid d o(S=s)\right)=0P(x1​,…,xn​∣do(S=s))=0.

从贝叶斯网络因式分解变为上面的截断式分解的关键是,后者的乘积建立在i∉Si \notin Si∈/​S而不是全部的iii之上。 换句话说,i∈Si \in Si∈S的因子已被截断。

下面给出一个用截断因式分解计算因果量的例子。

根据贝叶斯网络因式分解:P(y,t,x)=P(x)P(t∣x)P(y∣t,x)P(y, t, x)=P(x) P(t \mid x) P(y \mid t, x)P(y,t,x)=P(x)P(t∣x)P(y∣t,x)

根据截断因式分解:P(y,x∣do(t))=P(x)P(y∣t,x)P(y, x \mid d o(t))=P(x) P(y \mid t, x)P(y,x∣do(t))=P(x)P(y∣t,x)

边缘化X:P(y∣do(t))=∑xP(y∣t,x)P(x)P(y \mid d o(t))=\sum_{x} P(y \mid t, x) P(x)P(y∣do(t))=∑x​P(y∣t,x)P(x)

4. 后门调整

回顾第3讲,因果关联从TTT到YYY沿着有向路径流动,非因果关联沿着从TTT到YYY的且满足以下约束的任何其他路径流动:1)非对撞节点在条件集中;2)对撞节点不在条件集中。 这些从TTT到YYY的无方向无阻塞路径称为后门路径(backdoor paths)。 事实证明,如果我们可以通过调节条件来阻止这些后门路径,则可以确定形如的因果量P(Y∣do(t))P(Y \mid d o(t))P(Y∣do(t))。

后门标准(Backdoor Criterion):如果满足以下条件,则一组变量WWW满足从TTT到YYY的后门标准:

WWW阻止从TTT到YYY的所有后门路径。WWW不包含TTT的任何后代。

满足后门准则使WWW成为充分调整集(sufficient adjustment set)。

后门调整(Backdoor Adjustment):给定模块化假设,且W满足后门标准,则可以确定TTT作用在YYY上的因果效应:

P(y∣do(t))=∑wP(y∣t,w)P(w)P(y \mid d o(t))=\sum_{w} P(y \mid t, w) P(w)P(y∣do(t))=∑w​P(y∣t,w)P(w)

证明:

P(y∣do(t))=∑wP(y∣do(t),w)P(w∣do(t))=∑wP(y∣t,w)P(w∣do(t))=∑wP(y∣t,w)P(w)\begin{aligned} P(y \mid d o(t)) &=\sum_{w} P(y \mid d o(t), w) P(w \mid d o(t)) \\ &=\sum_{w} P(y \mid t, w) P(w \mid d o(t)) \\ &=\sum_{w} P(y \mid t, w) P(w) \end{aligned}P(y∣do(t))​=w∑​P(y∣do(t),w)P(w∣do(t))=w∑​P(y∣t,w)P(w∣do(t))=w∑​P(y∣t,w)P(w)​

5. 结构因果模型(Structural Causal Models , SCMs)

结构方程

在因果模型中,用记号:=:=:=来表示因果关系,A是B的因可以记为:B:=f(A)B:=f(A)B:=f(A)或B:=f(A,U)B:=f(A, U)B:=f(A,U),这样的式子被称为结构方程,其中UUU是未被观测到的随机变量。

利用结构方程,我们可以对因果图进行建模。

上图的因果图可以建模为M:

B:=fB(A,UB)C:=fC(A,B,UC)D:=fD(A,C,UD)\begin{aligned} B &:=f_{B}\left(A, U_{B}\right) \\ C &:=f_{C}\left(A, B, U_{C}\right) \\ D &:=f_{D}\left(A, C, U_{D}\right) \end{aligned}BCD​:=fB​(A,UB​):=fC​(A,B,UC​):=fD​(A,C,UD​)​

在因果图中,未被观测到的变量U通常不会显式画出。我们为之编写结构方程的变量称为内生(endogenous)变量。 这些是我们正在建模其因果机制的变量-在因果图中具有父节点的变量。 相反,外生(exogenous)变量是因果图中没有任何父节点的变量。例如,上图中的内生变量为{B,C,D}\{B, C, D\}{B,C,D},外生变量为{A,UB,UC,UD}\left\{A, U_{B}, U_{C}, U_{D}\right\}{A,UB​,UC​,UD​}。

结构因果模型(Structural Causal Model , SCM)是以下集合的元组:

1)一组内生变量VVV

2)一组外生变量UUU

3)一组函数fff,其因变量为一个内生变量,自变量为其他变量。

干预(interventions)

在SCM中,如果干预do(T=t)do(T=t)do(T=t)表示为将T的结构方程改为T:=tT:=tT:=t。例如,对于下列SCM MMM:

T:=fT(X,UT)T:=f_{T}\left(X, U_{T}\right)T:=fT​(X,UT​)

Y:=fY(X,T,UY)Y:=f_{Y}\left(X, T, U_{Y}\right)Y:=fY​(X,T,UY​)

对T进行干预后的模型为MtM_tMt​:

T:=tT:=tT:=t

Y:=fY(X,T,UY)Y:=f_{Y}\left(X, T, U_{Y}\right)Y:=fY​(X,T,UY​)

上述的例子中,控制T只改变了T的结构方程,其他变量的结构方程并没有发生改变,这也反映了模块化假设,即说明因果机制(结构方程)是模块化的。

对撞偏倚以及为什么条件集中不包含干预变量的后代节点

在为后门调整定义后门准则时,我们不仅指定调整集WWW阻止所有后门路径,而且还指定WWW不包含TTT的任何后代。 为什么? 如果我们以TTT的后代为条件,则可能会发生两类错误:

阻止因果关系从TTT到YYY。引起TTT和YYY之间的非因果关联。

如果我们以从TTT到YYY的有向路径上的节点为条件,那么我们将阻止因果关系沿该因果路径流动。 例如,在下面两个图中,控制MMM分别阻塞了全部和部分因果路径。

如果以不在从TTT到YYY的有向路径上的TTT的后代节点为条件,则它可能会打通被对撞节点阻塞的关联路径,如下图以Z为条件。

此外,对于下图,如果以Z为条件,会打通TTT与UMU_MUM​之间的关联路径,从而对TTT到YYY的因果路径产生影响。

后门标准的这一准则通常被描述为:不以干预后变量为条件。

但有时,仅仅以干预前变量为条件也会引入偏倚,例如M偏倚:

例子

问题:钠摄入量对血压的影响

数据:Luque-Fernandez et al. ()

干预T:钠摄入量(高于3.5mg值为1,否则为0)

结果Y:血压(连续)

协变量:W 年龄;Z 尿蛋白含量

首先画出因果图:

我们现在想要得到的是一个因果估计量:E(Y∣do(t))E(Y|do(t))E(Y∣do(t))

分析因果图,要想得到因果估计量,需要进行后门调整,截断T←W→Y这条后门路径,因此需要控制W。注意,因果图中Z为对撞节点,不能对其进行控制。基于此,将因果估计量转为统计估计量:EWE[Y∣t,W]E_WE[Y|t,W]EW​E[Y∣t,W]

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。