多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。一般来说,由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。

产生原因

主要有3各方面:

(1)经济变量相关的共同趋势

(2)滞后变量的引入

(3)样本资料的限制

主要影响

(1)完全共线性下参数估计量不存在

(2)近似共线性下OLS估计量非有效

多重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF)

(3)参数估计量经济含义不合理

(4)变量的显着性检验失去意义,可能将重要的解释变量排除在模型之外

(5)模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测失去意义。

需要注意:即使出现较高程度的多重共线性,OLS估计量仍具有线性性等良好的统计性质。但是OLS法在统计推断上无法给出真正有用的信息。

判断共线性的方法

如图,是对德国人口老龄化情况的分析,其中y是老龄化情况,线性回归的x1、x2、x3分别为人均国内生产总值人口出生率、每个医生平均负担人口数。

判断方法1:特征值,存在维度为3和4的值约等于0,说明存在比较严重的共线性。

判断方法2:条件索引列第3第4列大于10,可以说明存在比较严重的共线性。

判断方法3:比例方差内存在接近1的数(0.99),可以说明存在较严重的共线性。

解决方法

(1)排除引起共线性的变量

找出引起多重共线性的解释变量,将它排除出去,以逐步回归法得到最广泛的应用。

(2)差分法

时间序列数据、线性模型:将原模型变换为差分模型。

(3)减小参数估计量的方差:岭回归法(Ridge Regression)。

参考资料