岭回归-SPSS教程

龚志忠

龚志忠

首都医科大学附属北京中医医院

擅长:临床研究数据统计分析、流行病学方法设计、临床预测模型建模与评价
已关注
关注
2017-12-30 来源:医咖会

一、问题与数据

在前期推送的有关多重线性回归的内容中,我们讨论了当自变量之间存在多重共线性时,可以采用变量剔除和逐步回归的方法,对自变量进行一定的筛选,从而避免在模型拟合时出现多重共线性的问题。

但不管是变量剔除还是逐步回归,往往有时候会出现我们所研究的重点因素被剔除了模型,或者该因素估计的偏回归系数与实际明显相反的情况,此时所得出的结论可靠度也较差。当我们希望能够建立因变量与某个给定自变量的回归模型,但在模型中又出现自变量多重共线性时,应该如何进行处理呢?

今天我们讨论处理多重共线性的一种常用方法--岭回归。 

岭回归 

岭回归(Ridge Regression)在1962年首次提出,是采用改进的普通最小二乘法,用于处理自变量多重共线性问题的一种有偏估计回归方法。岭回归放弃了普通最小二乘法的无偏估计,损失了部分信息,因此岭回归方程的R2通常会稍低于普通最小二乘法回归,但其估计的偏回归系数往往更接近真实的情况,从而提高了回归模型的稳定性和可靠性,对于病态数据的修复和拟合,具有较好的效果。

岭参数K值

岭回归的原理较为复杂,简单来说就是通过在正规方程中引入一个有偏常数,通常称为岭参数(K值),从而求得回归估计量。当K=0时即为最小二乘法估计,由于岭回归为有偏估计,K的取值应尽可能小,才能确保更接近于最小二乘法的无偏估计,因此岭回归分析的一个重要问题就是确定岭参数K的最适宜取值。

岭迹分析确定K值

当岭参数K值发生变化时,我们可以将各个自变量的岭迹曲线描绘出来,即对每个自变量绘制出随K值变化而引起岭回归估计值变化的曲线,称作为岭迹图,如图1所示。通过岭迹图分析,根据曲线的变化形状来确定适宜的K值。

一般要求当各个自变量的回归系数的岭轨迹基本趋于稳定,用最小二乘法估计时符号不合理的回归系数,其岭估计的符号变得合理,残差平方和增长不太多时,此时对应的K值就是要寻找的最适宜的K值。此外也可以应用方差膨胀因子法,选择的K值使得岭回归估计的所有自变量VIF<10。
试读结束,兑换后即可解锁本专栏全部课程
评论
请先登录后再发表评论
发表评论
youngman
请教老师:案例数据中gender赋值为1和2,回归时是否要变成0和1?改用哑变量可以吗?还是直接用1和2回归也行?谢谢!
2023-03-12 20:34:03 回复
0
medi_4vnd5yq
错误号 1. 命令名:RIDGEREG >无法将行中的第一个单词识别为 SPSS Statistics 命令。 >此命令的执行停止。 /DEP= Y /START= 0 /STOP= 10 /INC= 0.1. 请问老师,这个代码应该怎么修改呢
2022-03-19 17:16:20 回复
0
LXY1971
spss 25或者spss 26都没有插件,也不能重复上面的结果,有没有更好的手段?致谢
2021-03-24 10:47:18 回复
0
嘎嘎嘎
这个教程是根据spss 22写的,可以看看
2021-06-11 15:58:30 回复
0
大嘴猴
老师您好,根据多重线性回归那一节讲的内容,不是说容忍度<0.1、膨胀因子>10才考虑有多重共线性吗,这一节数据给的是容忍度>0.1,膨胀因子<10,为什么说存在多重共线性嘞?
2020-12-01 21:07:49 回复
0
李侗桐
这里面缩小了多重共线性的标准,容忍度<0.2、膨胀因子>5就认为存在多重共线问题
2021-01-20 10:21:34 回复
0
又没有标准,这些定义都是自己定的,自己把握呗
2021-04-23 08:08:24 回复
0
使用课程券需先认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈