想将连续变量转化为哑变量纳入回归模型,咋分组?

龚志忠

龚志忠

首都医科大学附属北京中医医院

擅长:临床研究数据统计分析、流行病学方法设计、临床预测模型建模与评价
已关注
关注
2018-08-23 来源:医咖会

我们在前面用了2期的内容,向大家介绍了有关哑变量的知识,同时结合SPSS软件的应用,介绍了如何在不同的回归模型中设置哑变量。需要复习的同学可以戳这里: 

回归模型中的哑变量是个啥?何时需要设置哑变量?

SPSS教程:手把手教你设置哑变量以及解读结果

细心的同学们会发现,我们在讲解哑变量时,主要针对的是原始变量本身即为分类变量的情况,不管是无序多分类还是有序多分类变量,在引入模型时可以按照统计需要转化为哑变量引入模型,并且通过SPSS即可实现对哑变量进行0或1的编码。

当然我们在前面的内容中也提到对于连续型变量,在引入回归模型时往往要考虑实际的临床意义,若直接带入原始的连续型变量,每变化一个单位水平所引起的因变量的变化效应是很微弱的。同时当我们无法很好地确定自变量和因变量之间的线性变化关系时,也需要考虑将连续型变量离散化,转化为哑变量带入模型。

那么提到连续型变量,应该如何有效的进行分组,将其转化为哑变量的形式呢?今天我们就来跟大家细数一下,在回归模型中连续型变量转化为哑变量的多种变化形式。

1、二分类分组

严格意义上,提到哑变量通常是指转化为多分类的变量,但在这里我们首先介绍二分类分组,将连续型变量按照某个切点转化为二分类变量,是因为二分类变量在某种意义上也是一种最为简单的哑变量形式。二分类变量有2个分类属性,我们选择其中一个分类作为参照(通常设置变量=0),则另一个分类自动作为比较组(通常设置变量=1)。

那么如何确定二分类分组的切点呢?通常情况下,为了保证以切点划分的两组研究对象,在样本量上能够尽量保持一致,我们可以以该自变量的中位数为切点进行分组,即按照中位水平分为高、低两组来进行比较;或者也可以按照临床实践中具有某种特殊意义的诊断切点作为分组标准,将研究人群分为有无此类疾病特点的两组来进行比较。

试读结束,兑换后即可解锁本专栏全部课程
评论
请先登录后再发表评论
发表评论
雨顺
老师,您好!请问将连续自变量按四分位数分成4组(Q1-Q4)后,是将4组全部和其他协变量一起纳入logistic回归分析,并以最低四分位数组(Q1)做参照,得出另外3组的OR与P值,还是以Q1做参照,分别纳入其他的分组,分次得出每组的OR与p值,如一次只纳入Q1与Q2及其他协变量,而不纳入另外两组(Q3、Q4)算出来Q2的OR与p值, 以此类推算其他组的,如Q1遇Q3,Q1与Q4?
2022-04-03 01:13:55 回复
0
medi_28005641344
“将连续自变量按四分位数分成4组(Q1-Q4)后,是将4组全部和其他协变量一起纳入logistic回归分析”这就是文章里面提到了研究年龄每增加十岁对死亡率影响的例子。“以最低四分位数组(Q1)做参照,得出另外3组的OR与P值”就是利用哑变量探究不同年龄段相较于第一个年龄段的死亡风险。“以Q1做参照,分别纳入其他的分组,分次得出每组的OR与p值”这样做没有必要。
2023-04-01 17:36:32 回复
0
medi_28005641344
上一篇文章提到:原则上哑变量在模型中应同进同出,也就是说在一个模型中,如果同一个分类变量的不同哑变量,出现了有些哑变量有统计学显著性,有些无统计学显著性的情况下,为了保证所有哑变量代表含义的正确性,应当在模型中纳入所有的哑变量。 因此,我们在引入哑变量进入模型时,需选择Enter强制进入法,以保证所有哑变量都能保留在最后的模型中。
2023-04-01 17:37:33 回复
0
Jiantao Zhang
请问进行等分位分组时,变量应该重编码为对应分组区间内的中位数,还是直接转变为等级1、2、3、4这样子?
2022-01-06 13:46:33 回复
0
李侗桐
习惯是转变为等级1、2、3、4
2022-02-24 16:46:28 回复
0
medi_67ltgw9
请问老师可以用ROC的cutoff值作为哑变量的分割点吗?进行logistic回归时只纳入哑变量就行,不用纳入原来的连续型变量了吧?
2021-06-26 17:36:25 回复
2
medi_26875859772
你这个问题解决没,还有要是自变量为连续型变量,p<0.05,根据cutoff划分变为p>0.05了,怎么解释
2021-07-12 19:01:41 回复
0
李侗桐
可以的,只纳入哑变量就行
2022-02-24 16:47:06 回复
0
medi_ddzoa2q
想问一下老师,前面说到哑变量之前进行比较时,是分别跟选择的参照比。而本文中提到年龄每增加10岁,风险增加多少倍。我的理解是61-70,71-80,≥80分别跟<60岁的比较风险增加多少倍。盼解答~
2020-11-25 16:21:57 回复
1
李侗桐
这个应该是把61-70,71-80,≥80以及<60岁作为一个连续变脸处理了,设置为1-4,然后得到一个OR值和一个P值
2021-03-04 16:05:15 回复
1
李侗桐
回复 李侗桐 : *变量
2021-03-04 16:05:28 回复
0
使用课程券需先认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈