Prose_回归分析的几个常见误区
第一次看谢宇的《回归分析》是一七年一月,最近因统计课需要,重新看了一遍。有一些常见的学界误区需要说明,也是我偶尔会犯错的[1]。感谢李龙老师。
一、基础
1. 回归模型的四个基本假定
- A0 线性假定
- A1正交假定
- 误差项(又名扰动项)与自变量不相关 ,.
- 无偏性、误差项期望值为0,.
- A2 独立同分布假定 i.i.d假定
- 误差项之间不相关(任何两个误差项协方差等于0),且
- 同方差性(所有误差项方差相同),
- A3 正态分布假定
- 小样本:~
- 大样本:根据中心极限定理,估计量的分布趋近正态分布
在实际判断时,我们一般以能够观测的残差,代替理论上的误差。残差即观测值与拟合值之间的距离。
2. 回归模型的四个基本检验
- A0 线性关系检验
- A1 正交假定检验
- 内生性检验。如Durbin-Wu-Hausman检验(Hausman检验)、IV、多重共线性检验(VIF检验)等。
- 误差项随机分布检验。如常数项显著性,如果不显著,则支持误差项的期望值为0的假设。对此点需要说明,如果不满足该点则有偏、非最优。一般情况下研究者会加入常数项以吸收系统性偏差。
- A2 独立同分布假定 i.i.d假定
- 异方差性检验,如残差图、Breusch-Pagan或White等。
- 自相关性检验,如ACF图、Durbin-Watson、Breusch-Godfrey或Ljung-Box等。
- A3 正态性假定
- 正态分布检验,如QQ图、Shapiro-Wilk或Kolmogorov-Smirnov。
3. LAD、OLS、MLE的区别与联系
LAD(最小绝对偏差法),原理即最小化残差的绝对值之和,优点是对奇异值不敏感,缺点是大样本的计算复杂度高;
OLS(常规最小二乘法),原理即最小化残差的平方之和,优点是满足A1、A2、A3,则估计量为BLUE(Best Linear Unbiased Estimator,最佳线性无偏估计值),缺点是对奇异值十分敏感;
MLE(最大似然估计),原理即最大化样本数据的似然函数。优点是大样本时,MLE不仅满足一致性,也满足一致估计量中的最小方差,即当A1、A2、A3均成立,则OLS=MLE,且MLE可以用以估计非线性模型。缺点是对误差项的分布有具体假设,通常是正态分布。
二、常见误区
1. 估计参数与置信区间的解释
- 线性回归模型的置信区间说明,总体真实参数有95%的可能性落入其中?
总体真实参数是一个固定的未知值,不存在概率问题。95%的置信水平意味着,如果我们从总体中进行100次独立抽样,并计算每次的置信区间,那么大约95次的置信区间会包含总体真实参数。
2. LR检验与Z检验
- LR检验(似然比检验)和Z检验(或t检验)的区别?
第一,在检验一个变量时,二者实际等价的,检验的是自变量的系数是否显著不为零。其一,LR检验基于MLE,比较两个嵌套模型的拟合优度,其无效假设是自变量的系数为零,Z检验是检验自变量的系数是否显著不为零,其无效假设与LR检验同样。其二,在小样本时,二者一致,在大样本时,LR检验趋近Z检验。
第二,在检验多个变量时,二者不同,LR检验的无效假设是所有被检验的自变量的系数同时为零,关注多个变量的联合效应;Z检验仍然是针对单个变量的,其无效假设是某一个自变量的系数为零。
3. LR检验与拟合度检验
- LR检验(似然比检验)和拟合度检验(Goodness-of-Fit Test)的区别?
LR检验的无效假设是“简化模型与完整模型在解释方面没有显著差异”,增加的参数是否显著提高了模型的拟合优度,针对至少两个模型。
拟合度检验的无效假设是“模型与观测数据之间没有显著差异”,模型拟合是否良好,针对一个模型。此外,拟合度检验的深入讨论亦可以参考另文。
4. 异方差性与自相关性
- 回归模型的残差随着自变量增大而增大,是因为扰动项(误差项)自相关么?
通常是因为异方差性。异方差性是指残差的方差随着自变量的变化而变化,自相关性是指残差与其前一个或多个残差之间存在相关性。
异方差性导致OLS估计量本身无偏、但估计量的方差有偏,从而影响回归结果的显著性检验和置信区间。自相关性导致OLS估计量本身无偏,但不是最优,且估计量的方差可能被低估,从而影响显著性检验和置信区间。 - 异方差线性回归模型中,使用稳健标准误的OLS估计能得到BLUE结果?
使用GLS(广义最小二乘法)才可以得到。
其一,稳健标准误的目的,是在异方差存在的情况下,提供正确的标准误,以便进行有效的显著性检验和构建置信区间。它不改变OLS估计量本身,即估计量不是最优的。
其二,GLS通过重新加权和变换模型,使误差项满足同方差性假设,从而得到最优估计量。该方法的潜在问题是需要估计误差项的方差结构。
5. 遗漏变量与多重共线问题
- 线性回归模型如果遗漏变量,是否会导致估计结果不具有一致性?
要分情况讨论,只有遗漏与解释变量相关的变量才会影响。 - 线性回归模型中平均方差膨胀因子VIF超过10时,估计结果会有偏?
多重共线性本身不会导致估计结果有偏,即估计的期望值仍是参数的真实值。但多重共线影响标准误增大、估计系数不稳定、掩盖重要变量显著性,即影响的是精确性与稳定性。
初稿为廿二年一月,二次修订于廿四年五月廿五日。 ↩︎