回归模型中哪个自变量的作用更大?标准化回归系数来解答!

专题合集更多教程

提到不同变量的效应大小,大家一定会联想到在多因素回归模型中所得到的回归系数。例如,我们假设自变量分别为身高和体重,根据回归系数很容易就知道每增加1cm的身高或每增加1kg的体重,引起的对因变量Y的影响大小,但是两者相比之下,到底谁的作用大谁的作用小呢?

 

原始的回归系数已经无法回答这样的问题,我们需要借助标准化回归系数来进行判断,今天我们就来向大家介绍一下,在回归模型中这个标准化回归系数到底是个什么鬼?

 

标准化回归系数  VS 未标准化回归系数

 

1、未标准化回归系数

 

通常我们在构建多因素回归模型时,方程中呈现的是未标准化回归系数,它是方程中不同自变量对应的原始的回归系数。它反映了在其他因素不变的情况下,该自变量每变化一个单位对因变量的作用大小。通过未标准化回归系数和常数项构建的方程,便可以对因变量进行预测,并得出结论。

 

2、标准化回归系数

 

而对于标准化回归系数,它是在对自变量和因变量同时进行标准化处理后所得到的回归系数,数据经过标准化处理后消除了量纲、数量级等差异的影响,使得不同变量之间具有可比性,因此可以用标准化回归系数来比较不同自变量对因变量的作用大小。

 

通常我们主要关注的是标准化回归系数的绝对值大小,绝对值越大,可认为它对因变量的影响就越大。

 

3、两者的区别

 

未标准化回归系数体现的是自变量变化对因变量的绝对作用大小,而标准化回归系数反映的是不同自变量对因变量的相对作用大小,可以显示出不同自变量对因变量影响的重要性。

 

如果用标准化回归系数构建方程,得到的结论是有偏差的,因为此时自变量和因变量的数据都发生了转化,成为了标准化数据,因此标准化回归系数不能用于构建回归方程


标准化回归系数  VS  每变化1个标准差的回归系数

 

我们在前期文章《回归模型中引入连续变量,还有哪些玩法?》中,介绍到对于连续型变量,在纳入多因素回归模型中时,可以将其转变为每变化1个标准差的形式,具体的操作方法是对原始的自变量进行标准化处理,然后再带入到回归模型中,所得到的回归系数即为该自变量每变化1个标准差对应的回归系数。

 

那么,我们假设此时有两个自变量,一个自变量的标准差为1,另一个自变量的标准差为100,两者对因变量都具有一定的影响。如果用上述每增加1个标准差对应的回归系数,来判断哪个自变量对因变量的影响更大的话,当同样变化1个标准差时,第一个自变量只需要改变1个单位,而第二个自变量则需要改变100个单位,因此标准差大的自变量改变起来就显得比较困难。此时,我们就需要用标准化回归系数来救场。

 

每增加1个标准差对应的回归系数,反映的是自变量每变化1个标准差时对因变量原始值变化产生的影响。而标准化回归系数,它反映的是自变量每变化1个标准差时,对因变量变化1个标准差产生的影响。

 

在计算每增加1个标准差对应的回归系数时,我们只需要对原始自变量进行标准化处理;而如果要计算标准化回归系数,则需要对原始的自变量和因变量同时进行标准化处理,标准化为标准正态分布对应的值后再构建回归模型。


SPSS操作

 

一、研究实例

 

某研究人员收集了100名研究对象的最大摄氧量(VO2 max),并记录了他们的年龄、体重、心率等信息,拟探讨年龄、体重、心率对VO2 max的作用大小,同时评价上述哪一个因素对VO2max的影响作用更大。

 

 

二、操作步骤

 

1、多重线性回归

 

(操作步骤参考文章《SPSS实例教程:多重线性回归》)

 

 

根据多重线性回归分析的结果,回归方程可写为:

 

VO2 max = 72.581 – 0.188 * age – 0.184 * weight – 0.059 * heart_rate

 

其实不难发现,在SPSS的回归结果中,不仅展示了未标准化回归系数(Unstandardized Coefficients),同时也得出了标准化回归系数(Standardized Coefficients)。

 

注意,未标准化回归系数更大的自变量,其标准化回归系数不一定更大。例如本例中,age的未标准化回归系数绝对值为0.188,大于weight的绝对值0.184,但是weight的标准化回归系数绝对值为0.325,却大于age的标准化回归系数绝对值0.200,说明weight对于VO2 max的影响较age更大。

 

2、数据标准化处理

 

虽然SPSS在回归结果中可以直接输出标准化回归系数,但为了加深对它的理解,我们可以亲自对数据进行一遍标准化处理,对上述结果进行一下验证。

 

Analyze → Descriptive Statistics → Descriptives → Save standardized values as variables

 

通过上述步骤分别生成4个标准化处理后的新变量。

 

 

3、标准化回归系数

 

在进行多重线性回归时,以VO2 max的标准化形式作为因变量,以age、 weight、 heart_rate的标准化形式作为自变量构建模型。结果发现,所得的结果与上述结果一致。

 

 


 

相互转换关系

 

今天我们介绍了未标准化回归系数、每变化1个标准差的回归系数、以及标准化回归系数,最后再跟大家补充一下三者之间的相互转换关系。

 

每变化1个标准差的回归系数 = 未标准化回归系数 * 该自变量的标准差

 

标准化回归系数 = 未标准化回归系数 * 该自变量的标准差 / 因变量的标准差

 

大家可以根据上述转换关系自行进行验证哈。

 

哦,对了,细心的同学会发现,在SPSS中多重线性回归可以直接输出标准化回归系数,但是在logistic回归中,SPSS只能输出原始的未标准化的回归系数,如果我们想要计算logistic回归的标准化回归系数,比较不同自变量对因变量的相对作用大小,应该怎么办呢?

 

根据上述标准化回归系数的转换关系,在logistic回归中随机变量分布函数的标准差为π / √3 = 1.8138[1],故标准化回归系数 = 未标准化回归系数 * 该自变量的标准差 / 1.8138,即可计算logistic回归的标准化回归系数。

 

参考文献

[1] 宋娜. 多元Logistic分布及其参数估计[D]. 北京工业大学, 2007.

描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
我要提问
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
    提交问题