统计学|交互效应与混杂效应小议

Posted by Derek on October 14, 2019

1. 一些废话


前段时间在上课的时候对于两个定义的理解不是很清楚,刚好后来进一步学习了一些偏性分析,再阅读了几篇相关的文献,把一些核心的东西记录一下。

2. 交互效应


交互效应(Interaction Effect)是指当某个自变量对因变量的作用效应的大小与另一个自变量有关时,两个变量有交互作用。比如我们考虑$$\mathbb{E}[Y]=\beta_0+\beta_1X_1+\beta_2X_2+\beta_3X_1X_2,$$ 那么模型里的乘积项就是交互效应。

假设$X_1$与$X_2$是定量变量,那么我们有$$\mathbb{E}[Y]=\beta_0+(\beta_1+\beta_3X_2)X_1+\beta_2X_2=\beta_0+\beta_1X_1+(\beta_2+\beta_3X_1)X_2.$$

有两种理解方式,比如说,当$X_2$固定时,$X_1$每改变一个单位,$Y$的平均改变值为$\beta_1+\beta_3X_2.$

3. 混杂效应


混杂效应(Confounding Effect)则是指存在混杂变量,这一变量与自变量与因变量都存在关系。假设我们先建立模型$$\mathbb{E}[Y]=\beta_0+\beta_1X_1. \tag{1}$$ 考虑变量$X_2$是否为混杂变量,可以建立以$X_1, X_2$为自变量的模型$$\mathbb{E}[Y]=\beta_0+\beta_1X_1+\beta_2X_2. \tag{2}$$

假设根据公式(1)和(2)我们得到的估计值分别为$\widetilde{\beta}_1$和$\widehat{\beta}_1.$ 当$\widetilde{\beta}_1 \neq \widehat{\beta}_1$时,我们认为$X_2$为混杂变量。但是这一不等必须是有实际意义的不等,不能依赖统计学检验。所以,在估计这一差别时,必须要结合研究实际对差别是否有实际意义给出正确的判断。

值得注意的是,不能同时考虑一个变量既有交互效应,又有混杂效应,而一般优先考虑交互效应。另外,$\widetilde{\beta}_1$和$\widehat{\beta}_1$的不等,也有可能涉及到遗漏变量偏差(Omitted Variable Bias),是需要根据实际情况进行判断的。