想将连续变量转化为哑变量纳入回归模型，咋分组？

龚志忠

首都医科大学附属北京中医医院

擅长：临床研究数据统计分析、流行病学方法设计、临床预测模型建模与评价

已关注

关注

个人主页

2018-08-23 来源：医咖会

我们在前面用了2期的内容，向大家介绍了有关哑变量的知识，同时结合SPSS软件的应用，介绍了如何在不同的回归模型中设置哑变量。需要复习的同学可以戳这里:

回归模型中的哑变量是个啥？何时需要设置哑变量？

SPSS教程：手把手教你设置哑变量以及解读结果

细心的同学们会发现，我们在讲解哑变量时，主要针对的是原始变量本身即为分类变量的情况，不管是无序多分类还是有序多分类变量，在引入模型时可以按照统计需要转化为哑变量引入模型，并且通过SPSS即可实现对哑变量进行0或1的编码。

当然我们在前面的内容中也提到对于连续型变量，在引入回归模型时往往要考虑实际的临床意义，若直接带入原始的连续型变量，每变化一个单位水平所引起的因变量的变化效应是很微弱的。同时当我们无法很好地确定自变量和因变量之间的线性变化关系时，也需要考虑将连续型变量离散化，转化为哑变量带入模型。

那么提到连续型变量，应该如何有效的进行分组，将其转化为哑变量的形式呢？今天我们就来跟大家细数一下，在回归模型中连续型变量转化为哑变量的多种变化形式。

1、二分类分组

严格意义上，提到哑变量通常是指转化为多分类的变量，但在这里我们首先介绍二分类分组，将连续型变量按照某个切点转化为二分类变量，是因为二分类变量在某种意义上也是一种最为简单的哑变量形式。二分类变量有2个分类属性，我们选择其中一个分类作为参照（通常设置变量=0），则另一个分类自动作为比较组（通常设置变量=1）。

那么如何确定二分类分组的切点呢？通常情况下，为了保证以切点划分的两组研究对象，在样本量上能够尽量保持一致，我们可以以该自变量的中位数为切点进行分组，即按照中位水平分为高、低两组来进行比较；或者也可以按照临床实践中具有某种特殊意义的诊断切点作为分组标准，将研究人群分为有无此类疾病特点的两组来进行比较。

试读结束，兑换后即可解锁本专栏全部课程

110积分兑换

请先登录后再发表评论

发表评论

雨顺

老师，您好！请问将连续自变量按四分位数分成4组（Q1-Q4）后，是将4组全部和其他协变量一起纳入logistic回归分析，并以最低四分位数组（Q1）做参照，得出另外3组的OR与P值，还是以Q1做参照，分别纳入其他的分组，分次得出每组的OR与p值，如一次只纳入Q1与Q2及其他协变量，而不纳入另外两组（Q3、Q4）算出来Q2的OR与p值, 以此类推算其他组的，如Q1遇Q3，Q1与Q4？

2022-04-03 01:13:55 回复

medi_28005641344

“将连续自变量按四分位数分成4组（Q1-Q4）后，是将4组全部和其他协变量一起纳入logistic回归分析”这就是文章里面提到了研究年龄每增加十岁对死亡率影响的例子。“以最低四分位数组（Q1）做参照，得出另外3组的OR与P值”就是利用哑变量探究不同年龄段相较于第一个年龄段的死亡风险。“以Q1做参照，分别纳入其他的分组，分次得出每组的OR与p值”这样做没有必要。

2023-04-01 17:36:32 回复

medi_28005641344

上一篇文章提到：原则上哑变量在模型中应同进同出，也就是说在一个模型中，如果同一个分类变量的不同哑变量，出现了有些哑变量有统计学显著性，有些无统计学显著性的情况下，为了保证所有哑变量代表含义的正确性，应当在模型中纳入所有的哑变量。因此，我们在引入哑变量进入模型时，需选择Enter强制进入法，以保证所有哑变量都能保留在最后的模型中。

2023-04-01 17:37:33 回复