前进法、后退法...细讲下这些自变量筛选方法!

龚志忠

龚志忠

首都医科大学附属北京中医医院

擅长:临床研究数据统计分析、流行病学方法设计、临床预测模型建模与评价
已关注
关注
2018-09-11 来源:医咖会

构建多重线性回归模型时,要求各个自变量之间相互独立,不存在多重共线性。所谓多重共线性,是指自变量之间存在某种相关或者高度相关的关系,其中某个自变量可以被其他自变量组成的线性组合来解释。

医学研究中常见的生理资料,如收缩压和舒张压、总胆固醇和低密度脂蛋白胆固醇等,这些变量之间本身在人体中就存在一定的关联性。如果在构建多重线性回归模型时,把具有多重共线性的变量一同放在模型中进行拟合,就会出现方程估计的偏回归系数明显与常识不相符,甚至出现符号方向相反的情况,对模型的拟合带来严重的影响。

今天我们就来讨论一下,如果自变量之间存在多重共线性,如何通过有效的变量筛选来加以解决

一、多重共线性判断

回顾一下前期讲解多重线性回归时,介绍的判断自变量多重共线性的方法。

1. 计算自变量两两之间的相关系数及其对应的P值,一般认为相关系数>0.7,且P<0.05时可考虑自变量之间存在共线性,可以作为初步判断多重共线性的一种方法。

2. 共线性诊断统计量,即Tolerance(容忍度)和VIF(方差膨胀因子)。一般认为如果Tolerance<0.2或VIF>5(Tolerance和VIF呈倒数关系),则提示要考虑自变量之间存在多重共线性的问题。 

二、多重共线性解决方法:变量剔除 

顾名思义,当自变量之间存在多重共线性时,最简单的方法就是对共线的自变量进行一定的筛选,保留更为重要的变量,删除次要或可替代的变量,从而减少变量之间的重复信息,避免在模型拟合时出现多重共线性的问题。

对于如何去把握应该删除哪一个变量,保留哪一个变量,近期也有小伙伴在微信平台中问到这个问题,下面举个例子进行一个简单的说明。

试读结束,兑换后即可解锁本专栏全部课程
评论
请先登录后再发表评论
发表评论
medi_28009632125
多因素logistic回归分析的结果中霍斯默检验<0.05,是不是这个模型就不能用了?
2023-04-04 11:22:49 回复
0
medi_27833939076
自变量对相关性
2022-12-05 21:40:59 回复
0
medi_27326224923
Ok
2021-12-15 21:07:46 回复
0
行舟听雨
请问老师这里说的是多重线性回归模型,那么对于Cox回归模型的因素筛选是否也需要检查因素间的共线性问题?如果进行stepwise法进入变量,是不是可以认为已经处理的共线性问题;而用enter法筛选变量,则不能解决共线性问题,谢谢老师!
2021-05-30 09:43:33 回复
1
嘎嘎嘎
前进、后退方法可以帮助筛掉共线问题。但是最好先进行共线性检验。Cox回归模型在进行分析之前也需要进行共线性检验
2022-02-24 16:05:05 回复
0
andahos
在Linear Regression对话框中,可以利用Previous和Next组合选项,将自变量分为不同的块(Block),并且对不同Block中的变量可以指定不同的变量筛选的方法。spss里竟然还能这么选择啊,真是厉害。那其他软件是不是也能这么做
2021-03-08 08:27:09 回复
0
嘎嘎嘎
其他软件大部分需要根据自己撰写的语法,可以人工设定出block来
2021-05-19 15:00:22 回复
0
使用课程券需先认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈