我们在前面用了2期的内容,向大家介绍了有关哑变量的知识,同时结合SPSS软件的应用,介绍了如何在不同的回归模型中设置哑变量。需要复习的同学可以戳这里:
细心的同学们会发现,我们在讲解哑变量时,主要针对的是原始变量本身即为分类变量的情况,不管是无序多分类还是有序多分类变量,在引入模型时可以按照统计需要转化为哑变量引入模型,并且通过SPSS即可实现对哑变量进行0或1的编码。
当然我们在前面的内容中也提到对于连续型变量,在引入回归模型时往往要考虑实际的临床意义,若直接带入原始的连续型变量,每变化一个单位水平所引起的因变量的变化效应是很微弱的。同时当我们无法很好地确定自变量和因变量之间的线性变化关系时,也需要考虑将连续型变量离散化,转化为哑变量带入模型。
那么提到连续型变量,应该如何有效的进行分组,将其转化为哑变量的形式呢?今天我们就来跟大家细数一下,在回归模型中连续型变量转化为哑变量的多种变化形式。
1、二分类分组
严格意义上,提到哑变量通常是指转化为多分类的变量,但在这里我们首先介绍二分类分组,将连续型变量按照某个切点转化为二分类变量,是因为二分类变量在某种意义上也是一种最为简单的哑变量形式。二分类变量有2个分类属性,我们选择其中一个分类作为参照(通常设置变量=0),则另一个分类自动作为比较组(通常设置变量=1)。
那么如何确定二分类分组的切点呢?通常情况下,为了保证以切点划分的两组研究对象,在样本量上能够尽量保持一致,我们可以以该自变量的中位数为切点进行分组,即按照中位水平分为高、低两组来进行比较;或者也可以按照临床实践中具有某种特殊意义的诊断切点作为分组标准,将研究人群分为有无此类疾病特点的两组来进行比较。
确认删除