200字范文 > 因果推理（四）：因果模型

因果推理（四）：因果模型

时间：2019-02-12 07:42:55

相关推荐

因果推理（四）：因果模型

因果模型对于因果量的确定是很重要的。在前面的学习中，我们将“确定”（identification）描述为将因果估计转换为统计估计的过程。确定-估计（Identification-Estimation）的流程如下图：

1. Do-算子和干预（interventional）分布

首先需要区别给定条件（condition）和干预（intervention）的概念。给定条件T=t的意思是我们只看在总体中treatment为t的子集；而intervention的意思是将总体中左右个体的treatment设为t。我们用do-算子表示intervention：do(T=t)do(T=t)do(T=t)。这是图形因果模型中常用的表示法，并且在潜在结果表示法中具有相同的表示法。例如，可以将第二讲中的潜在结果表示为：

P(Y(t)=y)=P(Y=y∣do(T=t))=P(y∣do(t))P(Y(t)=y)=P(Y=y|do(T=t))=P(y|do(t))P(Y(t)=y)=P(Y=y∣do(T=t))=P(y∣do(t))

在上式中将do(T=t)do(T=t)do(T=t)简写为do(t)do(t)do(t)。此外，全概率可表示为Y∣do(t)Y|do(t)Y∣do(t)。通常将P(Y∣do(T=t))P(Y|do(T=t))P(Y∣do(T=t))的形式叫做interventional distributions。

需要注意形如P(Y∣do(T=t))P(Y|do(T=t))P(Y∣do(T=t))的干预性分布（interventional distribution）和形如P(Y)P(Y)P(Y)的观察分布（observational distribution）的区别。观察分布不带do算子，是不需要任何实验和干预就可以得到的变量分布。如果可以将带do算子的表达式（干预性表达式）转换为不带do算子的表达式（观察行表达式），就说这个表达式是可识别的（identifiable）。通常，将包含do算子的估计称为因果估计，将不包含do算子的估计称为统计估计。

带do算子的表达式中的所有变量都处于一个干预后的世界。（这里14节细讲）

2. 模块化假设（modularity）

在介绍模块化假设之前，需要先介绍因果机制（causal mechanism）的概念。可以将产生XiX_iXi的因果机制理解为给定XiX_iXi的所有原因的XiX_iXi的条件概率分布：P(xi∣pai)P(x_i|pa_i)P(xi∣pai)。如下图所示，生成XiX_iXi的因果机制由XiX_iXi的所有父节点和指向XiX_iXi的所有边组成。

为了获得许多因果识别结果，我们将做出的主要假设是干预（iinterventions）是局部的。更具体地说，我们假设对变量XiX_iXi的干预只会改变XiX_iXi的因果机制。它不会改变产生任何其他变量的因果机制。从这个意义上说，因果机制是模块化的。

模块化（modularity）假设：如果对节点集合S⊆[n]S \subseteq[n]S⊆[n]进行干预，将它们设为常量，那么对于每一个i，有：

（1）如果i∉Si \notin Si∈/S，那么P(xi∣pai)P\left(x_{i} \mid \mathrm{pa}_{i}\right)P(xi∣pai)保持不变。

（2）如果i∈Si \in Si∈S，那么当xix_ixi为XiX_iXi被设为的值时P(xi∣pai)=1P\left(x_{i} \mid \mathrm{pa}_{i}\right)=1P(xi∣pai)=1；否则，P(xi∣pai)=0P\left(x_{i} \mid \mathrm{pa}_{i}\right)=0P(xi∣pai)=0。

介入性分布的因果图（操纵图，manipulated graph）与观察性关节分布所使用的图完全相同，只是介入节点的所有边都被删除。这是因为干预因素的概率已设置为1，因此我们可以忽略该因素的所有因。

3. 截断式因式分解（Truncated Factorization）

回顾一下贝叶斯网络因式分解：

P(x1,…,xn)=∏iP(xi∣pai)P\left(x_{1}, \ldots, x_{n}\right)=\prod_{i} P\left(x_{i} \mid \mathrm{pa}_{i}\right)P(x1,…,xn)=∏iP(xi∣pai)

现在，如果我们干预一组节点SSS并假设其符合模块化（modularity），则除Xi∈SX_{i} \in SXi∈S的因式外，所有因式都应保持相同；而Xi∈SX_{i} \in SXi∈S的节点的因式变为1（值与干预一致时）。

截断式因式分解（Truncated Factorization）：我们假设PPP和GGG满足马尔可夫假设和模块化。给定一组干预节点SSS，

如果xxx与干预一致，则

P(x1,…,xn∣do(S=s))=∏i∉SP(xi∣pai)P\left(x_{1}, \ldots, x_{n} \mid d o(S=s)\right)=\prod_{i \notin S} P\left(x_{i} \mid \mathrm{pa}_{i}\right)P(x1,…,xn∣do(S=s))=∏i∈/SP(xi∣pai).

否则，P(x1,…,xn∣do(S=s))=0P\left(x_{1}, \ldots, x_{n} \mid d o(S=s)\right)=0P(x1,…,xn∣do(S=s))=0.

从贝叶斯网络因式分解变为上面的截断式分解的关键是，后者的乘积建立在i∉Si \notin Si∈/S而不是全部的iii之上。换句话说，i∈Si \in Si∈S的因子已被截断。

下面给出一个用截断因式分解计算因果量的例子。

根据贝叶斯网络因式分解：P(y,t,x)=P(x)P(t∣x)P(y∣t,x)P(y, t, x)=P(x) P(t \mid x) P(y \mid t, x)P(y,t,x)=P(x)P(t∣x)P(y∣t,x)

根据截断因式分解：P(y,x∣do(t))=P(x)P(y∣t,x)P(y, x \mid d o(t))=P(x) P(y \mid t, x)P(y,x∣do(t))=P(x)P(y∣t,x)

边缘化X：P(y∣do(t))=∑xP(y∣t,x)P(x)P(y \mid d o(t))=\sum_{x} P(y \mid t, x) P(x)P(y∣do(t))=∑xP(y∣t,x)P(x)

4. 后门调整

回顾第3讲，因果关联从TTT到YYY沿着有向路径流动，非因果关联沿着从TTT到YYY的且满足以下约束的任何其他路径流动：1）非对撞节点在条件集中；2）对撞节点不在条件集中。这些从TTT到YYY的无方向无阻塞路径称为后门路径（backdoor paths）。事实证明，如果我们可以通过调节条件来阻止这些后门路径，则可以确定形如的因果量P(Y∣do(t))P(Y \mid d o(t))P(Y∣do(t))。

后门标准（Backdoor Criterion）：如果满足以下条件，则一组变量WWW满足从TTT到YYY的后门标准：

WWW阻止从TTT到YYY的所有后门路径。WWW不包含TTT的任何后代。

满足后门准则使WWW成为充分调整集（sufficient adjustment set）。

后门调整（Backdoor Adjustment）：给定模块化假设，且W满足后门标准，则可以确定TTT作用在YYY上的因果效应：

P(y∣do(t))=∑wP(y∣t,w)P(w)P(y \mid d o(t))=\sum_{w} P(y \mid t, w) P(w)P(y∣do(t))=∑wP(y∣t,w)P(w)

证明：

P(y∣do(t))=∑wP(y∣do(t),w)P(w∣do(t))=∑wP(y∣t,w)P(w∣do(t))=∑wP(y∣t,w)P(w)\begin{aligned} P(y \mid d o(t)) &=\sum_{w} P(y \mid d o(t), w) P(w \mid d o(t)) \\ &=\sum_{w} P(y \mid t, w) P(w \mid d o(t)) \\ &=\sum_{w} P(y \mid t, w) P(w) \end{aligned}P(y∣do(t))=w∑P(y∣do(t),w)P(w∣do(t))=w∑P(y∣t,w)P(w∣do(t))=w∑P(y∣t,w)P(w)

5. 结构因果模型(Structural Causal Models , SCMs)

结构方程

在因果模型中，用记号:=:=:=来表示因果关系，A是B的因可以记为：B:=f(A)B:=f(A)B:=f(A)或B:=f(A,U)B:=f(A, U)B:=f(A,U)，这样的式子被称为结构方程，其中UUU是未被观测到的随机变量。

利用结构方程，我们可以对因果图进行建模。

上图的因果图可以建模为M：

B:=fB(A,UB)C:=fC(A,B,UC)D:=fD(A,C,UD)\begin{aligned} B &:=f_{B}\left(A, U_{B}\right) \\ C &:=f_{C}\left(A, B, U_{C}\right) \\ D &:=f_{D}\left(A, C, U_{D}\right) \end{aligned}BCD:=fB(A,UB):=fC(A,B,UC):=fD(A,C,UD)

在因果图中，未被观测到的变量U通常不会显式画出。我们为之编写结构方程的变量称为内生（endogenous）变量。这些是我们正在建模其因果机制的变量-在因果图中具有父节点的变量。相反，外生（exogenous）变量是因果图中没有任何父节点的变量。例如，上图中的内生变量为{B,C,D}\{B, C, D\}{B,C,D}，外生变量为{A,UB,UC,UD}\left\{A, U_{B}, U_{C}, U_{D}\right\}{A,UB,UC,UD}。

结构因果模型（Structural Causal Model , SCM）是以下集合的元组：

1）一组内生变量VVV

2）一组外生变量UUU

3）一组函数fff，其因变量为一个内生变量，自变量为其他变量。