在前期推送的内容《想将连续变量转化为哑变量纳入回归模型,咋分组?》中,我们向大家介绍了在回归模型中引入连续型变量时,除了以其原始变量的形式纳入到模型中外,有时还需要考虑到实际的分析需求,将其按照一定的分组切点转换为哑变量,例如二分类分组、等分位分组、等距分组、临床界值分组,或者按照自己的“Free Style”进行分组等多种转换形式。
但是在介绍以上的转换形式时,我们主要针对的是将连续型变量转化为分类变量,以哑变量的形式引入模型。
而作为连续型变量,本身就自带七十二变的属性,因此本期内容我们继续来向大家介绍一下,在构建回归模型时,连续型变量还有哪些其他神奇的变化形式。
1、正态转换
首先要提到的就是较为常见的正态转换形式。我们都知道,在构建线性回归时,需要满足一定的前提条件,其中有一项即要求变量需服从正态分布或者近似正态分布,如果不满足正态分布的条件,往往会导致构建的回归模型产生一定的偏倚,因此对于连续型变量在事前进行正态性检验是十分必要的。
我们在前期推送的文章《判断数据正态分布的超多方法》中,介绍了多种正态性检验的方法,包括利用数据分布的参数(偏度值、峰度值)进行判断,利用数据分布的图形(直方图,P-P图,Q-Q图)进行判断,或者借助非参数检验的方法(Shapiro-Wilk检验,Kolmogorov-Smirnov检验)来帮助判断。需要复习的同学可以戳上文连接。
那么,当我们的数据资料分布呈现非正态时,需要怎么办呢?此时,我们可以将原始的连续型变量作某种函数的转换,使偏态资料正态化,从而满足回归模型构建的需要。
根据数据本身分布形态的不同,我们可以采用不同的正态转换函数,例如对原始连续型变量开平方取根号值(Square Root)、取自然对数(Ln X)、取以10为底的对数(Log10 X)、取倒数(1 / X)等等,具体的操作方法详见前期推送的文章《正态转换的多种方法》。
确认删除