在多元回归中,我们会把多个自变量一起纳入模型,用来解释因变量的方差。这种方法把原来简单的一元回归升级了,它同时利用多个变量来拆解方差。然而,这个过程中常常会有一些容易被忽视的细节,比如中心化、抑制变量和多重共线性。这些细节都影响着模型的可靠性。 中心化是让计算更简单的魔术,把每个自变量都减去它的均值,让数据重新排列到以零为中心的坐标系里。这个过程能把计算量减少很多,同时让回归系数直接对应“平均一个单位变化带来多少因变量变化”的直观解释。 但是需要注意的是,中心化并不等同于标准化。标准化是把数据缩放到均值为0、标准差为1的空间,而中心化只是把数据移到原点,不改变离散程度。这两种方法都会影响系数的大小,但不会改变显著性。 抑制变量是模型膨胀的隐形炸弹。当我们在模型中加入与因变量Y无关却与其他自变量高度相关的变量时,R²会虚胖上涨。这个变量并没有提供新的信息,只是把原本归因于其他自变量的误差抢走自己承担。 回归分析默认自变量是无误差的固定值,然而现实世界中测量不可能完美。常见的误差包括模型设定错误和测量误差。这些误差会导致系数失真或者偏离真实情况。 当研究问题复杂到需要同时考虑多个维度时,Hierarchical Regression就能派上用场了。举个例子:如果只考虑工资差距和主管冲突还不能很好地解释离职倾向时,再加入工作嵌入这个三维结构(匹配、连接、牺牲),自变量数量就会增加到5个。这时候就需要检验ΔR²是否显著大于0来确定新增变量是否真的带来了额外贡献。 虚拟变量是处理分类变量的通行证。如果有K类分类变量,只需要K-1个虚拟变量即可表示全部信息。记得给参考类别留一个截距项。 多重共线性是个温柔陷阱,它可以通过VIF值来判断。VIF值小于5是安全区;等于或大于5需要注意;等于或大于10就非常危险了。一旦进入危险区,系数稳定性会大幅下降。 另外还可以通过观察系数跳变、R²上涨却无人显著等现象来判断是否存在多重共线性问题。解决办法包括合并高度相关变量、使用主成分分析降维以及引入交互项等方法。 把中心化、抑制变量和多重共线性这三个问题逐一排查后,你就能把多元回归从单纯凑数字升级到逻辑严谨了。