干货丨CFA®二级量化方法重点分析：线性回归假设的违反，识别与处理

时间：2018-05-31 11:05 作者：CFA考试俱乐部来源：CFA考试俱乐部

线性回归分析的有效性依赖于若干假设，这些假设包括：1)因变量与自变量间存在着线性关系；2)自变量不是随机变量，且不存在精确的(完全的)线性关系；3)给定自变量，误差项的条件期望为零，即；4)误差项的方差应为常数，即；5)误差项之间应相互独立，即；6)误差项是正态分布的。

以上六个假设如果有一个或多个被违反，则线性回归分析的结果会有问题，最常见的三个问题是异方差性、序列相关与多重共线性。针对以上三个问题，我们需要明确：1)问题的含义是什么？2)它对回归分析的影响；3)如何识别这些问题？4)如何处理这些问题？下面我们做一个系统的总结。

一、异方差性(heteroskedasticity)

含义：误差项的方差不为常数，而是随着观察值的变化而变化，可以分为无条件异方差(unconditional heteroskedasticity)与条件异方差(conditional heteroskedasticity)。无条件异方差指误差项的方差虽然随观察值的变化而变化，但是没有固定的规律，这虽然违反了线性回归的假设，但对回归分析结果不会有太大的影响。条件异方差则不同，误差项的方差会随着观察值的增大而增大或减小，从而对回归分析的结果会产生较大的影响。

影响：1)回归系数的标准误不能有效的估计；2)回归系数的估计不受影响；3)回归系数的T检验的结果会受影响，如果标准误被过大估计，则T统计量会过小，则容易导致错误地无法拒绝原假设；如果标准误被过小估计，则T统计量会过大，则容易导致错误地拒绝原假设；4)F检验的结果也是不可靠的。

识别：1)在一元回归中，可以观察值为横轴，残差为纵轴做散点图进行观察，如果发现残差随着观察值的增大或减少有显着变化，则可能存在异方差；2)更常用的识别方法为Breusch-Pagan检验。

处理：1)使用稳健标准误(robust standard error)重新计算T统计量，根据新的统计值判断是否拒绝还是无法拒绝原假设；2)使用广义最小二乘回归。

二、序列相关(serial correlation)

含义：序列相关也称自相关，是指误差项之间不是完全相互独立的，而是存在相关性。序列相关分为两种，一种得正序列相关，一种是负序列相关。正序列相关中，正的误差项之后有较大概率仍是一个正的误差项，在负序列相关中，正的误差项之后有较大概率是一个负的误差项。

影响：正的序列相关使得残差项倾向于集聚，从而使得系数的标准误缩小，从而夸大了 T统计量，使得第一类错误的可能性上升，即在原假设成立时错误的拒绝它，这会使得我们错误的把不显着的结果当成显着的。但系数本身的估计仍是可靠的。

识别：1)在一元回归中与识别异方差的方法类似，可以观察值为横轴，残差为纵轴做散点图进行观察；2)DW 检验：如果 DW 统计量小于下临界值，则拒绝原假设，残差正序列相关。如果，则无法得出结论。如果DW统计量大于上临界值，则无法拒绝原假设。

处理：1)使用 Hansen-white标准误，对原来的标准误进行调整；2)进一步修正模型，将数据的时间序列性质纳入到模型中。

三、多重共线性(multicollinearity)

含义：两个或更多的自变量，或者自变量的线性组合高度相关。

影响：1)对系数的估计不可靠；2)过高的估计系数的标准误，从而导致低估T统计量，从而错误地无法拒绝原假设，从而错误的得出结论认为系数统计上不显着。

识别：1) 如果模型的F检验与都表明模型显着，但T检验表明各个变量不显着，则很可能存在多重共线性；2) 如果只有两个自变量，它们的相关系数大于0.7，则很可能存在多重共线性，注意这条经验规律只在只有两个自变量的情况下成立。

处理：1)试着去掉一两个变量；2)使用逐步回归法(stepwise regression)，逐渐减小多重共线性。

以下表格对比分析了三种违反线性回归假设情况的含义、影响、识别与处理方法：

本文来源于高顿，原创文章，欢迎转载，转载请注明来源高顿。如果想了解更多关于CFA®考试相关信息，可以关注CFA®考试俱乐部（www.cfa.com.cn）。

上一篇：CFA®二级考试报名时间费用以及备考攻略

下一篇：cfa二级考试科目内容分析划分

2022年为啥说cfa二级考试是较难的?

2022-01-27

CFA考生交流群
扫一扫进群有福利

干货丨CFA®二级量化方法重点分析：线性回归假设的违反，识别与处理

更多 >热门文章

2022年为啥说cfa二级考试是较难的?

推荐阅读