Prose_回归分析的几个常见误区

Posted on 2022-01-09 In Social Research Method , Quantitative Method Waline: Views: Word count in article: 1.7k Reading time ≈ 6 mins.

第一次看谢宇的《回归分析》是一七年一月，最近因统计课需要，重新看了一遍。有一些常见的学界误区需要说明，也是我偶尔会犯错的^[1]。感谢李龙老师。

一、基础

1. 回归模型的四个基本假定

A0 线性假定
A1正交假定
- 误差项（又名扰动项）与自变量不相关， $cov(x,ε)=0$ .
- 无偏性、误差项期望值为0， $E(ε)=0$ .
A2 独立同分布假定 i.i.d假定
- 误差项之间不相关（任何两个误差项协方差等于0）， $cov(ε_i,ε_j)=0$ 且 $i ≠j$
- 同方差性（所有误差项方差相同）， $σ_(ε_i)^2=σ^2$
A3 正态分布假定
- 小样本： $ε_i$ ~ $N(0, σ^2)$
- 大样本：根据中心极限定理，估计量的分布趋近正态分布

在实际判断时，我们一般以能够观测的残差，代替理论上的误差。残差即观测值与拟合值之间的距离。

2. 回归模型的四个基本检验

A0 线性关系检验
A1 正交假定检验
- 内生性检验。如Durbin-Wu-Hausman检验（Hausman检验）、IV、多重共线性检验（VIF检验）等。
- 误差项随机分布检验。如常数项 $β$ 显著性，如果不显著，则支持误差项的期望值为0的假设。对此点需要说明，如果不满足该点则有偏、非最优。一般情况下研究者会加入常数项以吸收系统性偏差。
A2 独立同分布假定 i.i.d假定
- 异方差性检验，如残差图、Breusch-Pagan或White等。
- 自相关性检验，如ACF图、Durbin-Watson、Breusch-Godfrey或Ljung-Box等。
A3 正态性假定
- 正态分布检验，如QQ图、Shapiro-Wilk或Kolmogorov-Smirnov。

3. LAD、OLS、MLE的区别与联系

LAD（最小绝对偏差法），原理即最小化残差的绝对值之和，优点是对奇异值不敏感，缺点是大样本的计算复杂度高；
OLS（常规最小二乘法），原理即最小化残差的平方之和，优点是满足A1、A2、A3，则估计量为BLUE（Best Linear Unbiased Estimator，最佳线性无偏估计值），缺点是对奇异值十分敏感；
MLE（最大似然估计），原理即最大化样本数据的似然函数。优点是大样本时，MLE不仅满足一致性，也满足一致估计量中的最小方差，即当A1、A2、A3均成立，则OLS=MLE，且MLE可以用以估计非线性模型。缺点是对误差项的分布有具体假设，通常是正态分布。

二、常见误区

1. 估计参数与置信区间的解释

线性回归模型的置信区间说明，总体真实参数有95%的可能性落入其中？
总体真实参数是一个固定的未知值，不存在概率问题。95%的置信水平意味着，如果我们从总体中进行100次独立抽样，并计算每次的置信区间，那么大约95次的置信区间会包含总体真实参数。

2. LR检验与Z检验

LR检验（似然比检验）和Z检验（或t检验）的区别？
第一，在检验一个变量时，二者实际等价的，检验的是自变量的系数是否显著不为零。其一，LR检验基于MLE，比较两个嵌套模型的拟合优度，其无效假设是自变量的系数为零，Z检验是检验自变量的系数是否显著不为零，其无效假设与LR检验同样。其二，在小样本时，二者一致，在大样本时，LR检验趋近Z检验。
第二，在检验多个变量时，二者不同，LR检验的无效假设是所有被检验的自变量的系数同时为零，关注多个变量的联合效应；Z检验仍然是针对单个变量的，其无效假设是某一个自变量的系数为零。

3. LR检验与拟合度检验

LR检验（似然比检验）和拟合度检验（Goodness-of-Fit Test）的区别？
LR检验的无效假设是“简化模型与完整模型在解释方面没有显著差异”，增加的参数是否显著提高了模型的拟合优度，针对至少两个模型。
拟合度检验的无效假设是“模型与观测数据之间没有显著差异”，模型拟合是否良好，针对一个模型。此外，拟合度检验的深入讨论亦可以参考另文。

4. 异方差性与自相关性

回归模型的残差随着自变量增大而增大，是因为扰动项（误差项）自相关么？
通常是因为异方差性。异方差性是指残差的方差随着自变量的变化而变化，自相关性是指残差与其前一个或多个残差之间存在相关性。
异方差性导致OLS估计量本身无偏、但估计量的方差有偏，从而影响回归结果的显著性检验和置信区间。自相关性导致OLS估计量本身无偏，但不是最优，且估计量的方差可能被低估，从而影响显著性检验和置信区间。
异方差线性回归模型中，使用稳健标准误的OLS估计能得到BLUE结果？
使用GLS（广义最小二乘法）才可以得到。
其一，稳健标准误的目的，是在异方差存在的情况下，提供正确的标准误，以便进行有效的显著性检验和构建置信区间。它不改变OLS估计量本身，即估计量不是最优的。
其二，GLS通过重新加权和变换模型，使误差项满足同方差性假设，从而得到最优估计量。该方法的潜在问题是需要估计误差项的方差结构。

5. 遗漏变量与多重共线问题

线性回归模型如果遗漏变量，是否会导致估计结果不具有一致性？
要分情况讨论，只有遗漏与解释变量相关的变量才会影响。
线性回归模型中平均方差膨胀因子VIF超过10时，估计结果会有偏？
多重共线性本身不会导致估计结果有偏，即估计的期望值仍是参数的真实值。但多重共线影响标准误增大、估计系数不稳定、掩盖重要变量显著性，即影响的是精确性与稳定性。

初稿为廿二年一月，二次修订于廿四年五月廿五日。 ↩︎