因果推断|干预影响(四)

Posted by Derek on June 13, 2020

中介作用(Mediation)


通常情况下,当一个变量导致另一个变量时,它通过一组中介变量(Mediating Variable)既直接又间接地导致了另一个变量。例如,在我们讨论辛普森悖论提到的血压/治疗/康复的例子中,治疗通过血压这种中介变量,既是康复的直接原因,又是间接原因 - 血疗使血压下降,增加了康复能力。在许多情况下,了解$X$对$Y$的影响有多少是直接的,有多少是中介的是有用的,然而在实践中将两者区分开来是很困难的。

假设我们想知道一家公司在其招聘中($Y$)是否以及在多大程度上存在性别($X$)歧视。这种歧视将构成性别对招聘的直接影响,然而性别也会以其它方式影响招聘方式。例如在某些情况下,女性比男性更有可能拥有更高的学历,因此性别也可能通过学历($Z$)这一中介变量对招聘产生间接影响。

为了找到性别对招聘的直接影响,我们需要在某种程度上控制学历,并衡量性别与招聘之间的剩余关系。在学历不变的情况下,招聘中的任何变化都必须是仅有性别引起的。一般来说我们是通过调节中介变量来实现的。所以,如果$P(\text{Hired}|\text{Female, Highly qualified})$与$P(\text{Hired}|\text{Male, Highly qualified})$不一样,那么性别对招聘有直接影响。

但是中介变量和结果变量可能存在混杂因素,比如收入 - 收入较高的人更有可能上过大学并帮助他们被录用。现在如果我们以学历为条件,我们就是以collider为条件。所以如果我们不以学历为条件,间接非独立性可以通过$\text{Gender} \rightarrow \text{Qualifications} \rightarrow \text{Hiring}$的路径从性别传递到录用。但如果我们以学历为条件,间接非独立性可以通过$\text{Gender} \rightarrow \text{Qualifications} \leftarrow \text{Income} \rightarrow \text{Hiring}$的路径从性别传递到录用。也就是说,如果以学历为条件,我们将比较不同收入水平的男性和女性,因为要保持学历不变,收入必须改变。因此,我们没有得到性别对招聘的真正直接影响。因此,传统统计学不得不放弃一大类潜在的中介问题,在这些问题上,直接效应的概念无法界定和估计。

我们有一个概念性的方法来保持中介变量的稳定而不需要以之为条件:我们可以对其进行干预。如果我们只是固定学历(而不是以学历为条件),那么性别与学历之间的箭头,以及收入与学历之间的箭头就会消失,任何虚假的非独立关系都无法通过它。当然,我们不可能改变申请者的学历,这是一种通过适当调整来完成的理论干预。

所以对于任意三个变量$X, Y, Z,$ 其中$Z$是$X$和$Y$的中介变量,我们定义将$X$的值从$x$改为$x'$对$Y$的可控直接效应(Controlled Direct Effect, CDE)为$$\text{CDE}=P(Y=y|do(X=x), do(Z=z))-P(Y=y|do(X=x'), do(Z=z))$$

与基于条件的定义相比,这个定义的优势在于它的通用性。它抓住了“保持$Z$不变”的想法,即使在$Z \rightarrow Y$关系被混淆的情况下($X \rightarrow Z$和$X \rightarrow Y$关系也是如此)。实际上,这个定义向我们保证,在任何情况下,如果干预概率可以从观察到的概率中识别出来,我们就可以估计出$X$对$Y$的直接影响。注意,$Z$的不同值可能会产生不同的直接影响,比如说在高学历要求的工作中,招聘惯例会歧视女性,但在低学历要求的工作中却会歧视男性。因此,为了了解完整的直接效应,我们必须对$Z$的每一个相关值$z$进行计算(但在线性模型中,这是不必要的)。

Figure 1.1 A graphical model1

我们现在需要了解当式子中包含了两个$do$算子时,我们应该如何估算直接效应。与之前类似,我们通过调整处理了一个单一的$do$算子。在图1.1的例子中,我们首先注意到从$X$(性别)到$Y$(招聘)没有后门路径,因此我们可以直接条件于$x$来代替$do(x)$(本质上相当于对所有混杂因素进行调整),结果是$$P(Y=y|X=x, do(Z=z))-P(Y=y|X=x', do(Z=z))$$ 接下来我们尝试去掉$do(z)$项,从$Z$(学历)到$Y$存在两条后门路径,一条通过$X$,另一条通过$I$(收入)。第一条是被阻塞的(因为我们条件于$X$),如果我们对$I$进行调整,那么第二条也可以被阻塞。我们有$$\sum_i[P(Y=y|X=x, Z=z, I=i)-P(Y=y|X=x', Z=z, I=i)]P(I=i)$$而我们成功地摆脱了$do$算子,意味着这一个式子可以从非实验性数据中进行估算。

一般来说,如果以下两个性质成立,则以$Z$为中介变量,$X$对$Y$的CDE是可以识别的:

  1. 存在一个变量集$S_1$能阻塞从$Z$到$Y$的所有后门路径。
  2. 存在一个变量集$S_2$在删除所有指向$Z$的箭头后阻塞从$X$到$Y$的所有后门路径。

如果这两个性质在模型中成立,那么我们可以通过调整相应的变量,从数据集中确定$P(Y=y|do(X=x), do(Z=z)),$ 并估算条件概率。注意第二个条件在随机试验中是不需要的,因为随机化$X$会使$X$不存在父母变量。在$X$是外生的情况下也是如此。

间接效应的确定比直接效应更为棘手,因为没有办法把$X$对$Y$的直接效应设为条件。找出总效应和直接效应是容易的,但这不意味着间接效应是这两者的差异(在线性系统中可能是正确的)。在非线性系统中,差异的意义并不大。例如$Y$的变化可能取决于$X$和$Z$之间的某种相互作用(Interaction),如果女性在高学历需求的工作中受到歧视,男性在低学历需求的工作中受到歧视,那么从总效应中减去直接效应,对以学历为中介的性别对招聘的影响就没有意义了。显然,我们需要一个不取决于总效应或直接效应的间接效应的定义。我们之后将会提到反事实(Counterfactual),一种适用于个人层面的、改良后的干预措施,我们可以利用这一概念进一步定义。

Reference


1. Pearl, J., Glymour, M., & Jewell, N. P. (2016). Causal inference in statistics: A primer. John Wiley & Sons, 77.