Prose_回归分析的几个常见误区

第一次看谢宇的《回归分析》是一七年一月,最近因统计课需要,重新看了一遍。有一些常见的学界误区需要说明,也是我偶尔会犯错的[1]。感谢李龙老师。

一、基础

1. 回归模型的四个基本假定

  • A0 线性假定
  • A1正交假定
    • 误差项(又名扰动项)与自变量不相关 ,cov(x,ε)=0cov(x,ε)=0.
    • 无偏性、误差项期望值为0,E(ε)=0E(ε)=0.
  • A2 独立同分布假定 i.i.d假定
    • 误差项之间不相关(任何两个误差项协方差等于0),cov(εi,εj)=0cov(ε_i,ε_j)=0iji ≠j
    • 同方差性(所有误差项方差相同),σ(εi)2=σ2σ_(ε_i)^2=σ^2
  • A3 正态分布假定
    • 小样本:εiε_i~N(0,σ2)N(0, σ^2)
    • 大样本:根据中心极限定理,估计量的分布趋近正态分布

在实际判断时,我们一般以能够观测的残差,代替理论上的误差。残差即观测值与拟合值之间的距离。

2. 回归模型的四个基本检验

  • A0 线性关系检验
  • A1 正交假定检验
    • 内生性检验。如Durbin-Wu-Hausman检验(Hausman检验)、IV、多重共线性检验(VIF检验)等。
    • 误差项随机分布检验。如常数项ββ显著性,如果不显著,则支持误差项的期望值为0的假设。对此点需要说明,如果不满足该点则有偏、非最优。一般情况下研究者会加入常数项以吸收系统性偏差。
  • A2 独立同分布假定 i.i.d假定
    • 异方差性检验,如残差图、Breusch-Pagan或White等。
    • 自相关性检验,如ACF图、Durbin-Watson、Breusch-Godfrey或Ljung-Box等。
  • A3 正态性假定
    • 正态分布检验,如QQ图、Shapiro-Wilk或Kolmogorov-Smirnov。

3. LAD、OLS、MLE的区别与联系

LAD(最小绝对偏差法),原理即最小化残差的绝对值之和,优点是对奇异值不敏感,缺点是大样本的计算复杂度高;
OLS(常规最小二乘法),原理即最小化残差的平方之和,优点是满足A1、A2、A3,则估计量为BLUE(Best Linear Unbiased Estimator,最佳线性无偏估计值),缺点是对奇异值十分敏感;
MLE(最大似然估计),原理即最大化样本数据的似然函数。优点是大样本时,MLE不仅满足一致性,也满足一致估计量中的最小方差,即当A1、A2、A3均成立,则OLS=MLE,且MLE可以用以估计非线性模型。缺点是对误差项的分布有具体假设,通常是正态分布。

二、常见误区

1. 估计参数与置信区间的解释

  • 线性回归模型的置信区间说明,总体真实参数有95%的可能性落入其中?
    总体真实参数是一个固定的未知值,不存在概率问题。95%的置信水平意味着,如果我们从总体中进行100次独立抽样,并计算每次的置信区间,那么大约95次的置信区间会包含总体真实参数。

2. LR检验与Z检验

  • LR检验(似然比检验)和Z检验(或t检验)的区别?
    第一,在检验一个变量时,二者实际等价的,检验的是自变量的系数是否显著不为零。其一,LR检验基于MLE,比较两个嵌套模型的拟合优度,其无效假设是自变量的系数为零,Z检验是检验自变量的系数是否显著不为零,其无效假设与LR检验同样。其二,在小样本时,二者一致,在大样本时,LR检验趋近Z检验。
    第二,在检验多个变量时,二者不同,LR检验的无效假设是所有被检验的自变量的系数同时为零,关注多个变量的联合效应;Z检验仍然是针对单个变量的,其无效假设是某一个自变量的系数为零。

3. LR检验与拟合度检验

  • LR检验(似然比检验)和拟合度检验(Goodness-of-Fit Test)的区别?
    LR检验的无效假设是“简化模型与完整模型在解释方面没有显著差异”,增加的参数是否显著提高了模型的拟合优度,针对至少两个模型。
    拟合度检验的无效假设是“模型与观测数据之间没有显著差异”,模型拟合是否良好,针对一个模型。此外,拟合度检验的深入讨论亦可以参考另文

4. 异方差性与自相关性

  • 回归模型的残差随着自变量增大而增大,是因为扰动项(误差项)自相关么?
    通常是因为异方差性。异方差性是指残差的方差随着自变量的变化而变化,自相关性是指残差与其前一个或多个残差之间存在相关性。
    异方差性导致OLS估计量本身无偏、但估计量的方差有偏,从而影响回归结果的显著性检验和置信区间。自相关性导致OLS估计量本身无偏,但不是最优,且估计量的方差可能被低估,从而影响显著性检验和置信区间。
  • 异方差线性回归模型中,使用稳健标准误的OLS估计能得到BLUE结果?
    使用GLS(广义最小二乘法)才可以得到。
    其一,稳健标准误的目的,是在异方差存在的情况下,提供正确的标准误,以便进行有效的显著性检验和构建置信区间。它不改变OLS估计量本身,即估计量不是最优的。
    其二,GLS通过重新加权和变换模型,使误差项满足同方差性假设,从而得到最优估计量。该方法的潜在问题是需要估计误差项的方差结构。

5. 遗漏变量与多重共线问题

  • 线性回归模型如果遗漏变量,是否会导致估计结果不具有一致性?
    要分情况讨论,只有遗漏与解释变量相关的变量才会影响。
  • 线性回归模型中平均方差膨胀因子VIF超过10时,估计结果会有偏?
    多重共线性本身不会导致估计结果有偏,即估计的期望值仍是参数的真实值。但多重共线影响标准误增大、估计系数不稳定、掩盖重要变量显著性,即影响的是精确性与稳定性。

  1. 初稿为廿二年一月,二次修订于廿四年五月廿五日。 ↩︎