数据库搭建(EDC)

统计分析服务

提问

登录 / 注册

回归模型中引入连续变量，还有哪些玩法？

龚志忠

首都医科大学附属北京中医医院

擅长：临床研究数据统计分析、流行病学方法设计、临床预测模型建模与评价

关注

个人主页

2018-08-26 来源：医咖会

在前期推送的内容《想将连续变量转化为哑变量纳入回归模型，咋分组？》中，我们向大家介绍了在回归模型中引入连续型变量时，除了以其原始变量的形式纳入到模型中外，有时还需要考虑到实际的分析需求，将其按照一定的分组切点转换为哑变量，例如二分类分组、等分位分组、等距分组、临床界值分组，或者按照自己的“Free Style”进行分组等多种转换形式。

但是在介绍以上的转换形式时，我们主要针对的是将连续型变量转化为分类变量，以哑变量的形式引入模型。

而作为连续型变量，本身就自带七十二变的属性，因此本期内容我们继续来向大家介绍一下，在构建回归模型时，连续型变量还有哪些其他神奇的变化形式。

1、正态转换

首先要提到的就是较为常见的正态转换形式。我们都知道，在构建线性回归时，需要满足一定的前提条件，其中有一项即要求变量需服从正态分布或者近似正态分布，如果不满足正态分布的条件，往往会导致构建的回归模型产生一定的偏倚，因此对于连续型变量在事前进行正态性检验是十分必要的。

我们在前期推送的文章《判断数据正态分布的超多方法》中，介绍了多种正态性检验的方法，包括利用数据分布的参数（偏度值、峰度值）进行判断，利用数据分布的图形（直方图，P-P图，Q-Q图）进行判断，或者借助非参数检验的方法（Shapiro-Wilk检验，Kolmogorov-Smirnov检验）来帮助判断。需要复习的同学可以戳上文连接。

那么，当我们的数据资料分布呈现非正态时，需要怎么办呢？此时，我们可以将原始的连续型变量作某种函数的转换，使偏态资料正态化，从而满足回归模型构建的需要。

根据数据本身分布形态的不同，我们可以采用不同的正态转换函数，例如对原始连续型变量开平方取根号值（Square Root）、取自然对数（Ln X）、取以10为底的对数（Log10 X）、取倒数（1 / X）等等，具体的操作方法详见前期推送的文章《正态转换的多种方法》。

试读结束，兑换后即可解锁本专栏全部课程

110积分兑换

评论

请先登录后再发表评论

发表评论

请问非正态的连续型变量，可以为转换为每增加1/4等份吗（类似每变化一个标准差）

2022-09-09 20:40:37 回复

0

请问如何把原始的连续型变量进行标准化处理？有步骤或者教程吗？

2022-09-09 18:04:07 回复

0

medi_27291808769

讲的太好了

2021-11-22 21:13:54 回复

1

推荐课程

【视频】33节科研进阶教程：系统学习临床研究知识！

【视频】33节科研进阶教程：系统学习临床研究知识！

【图文】手把手教你PASS计算样本量

【图文】手把手教你PASS计算样本量

【视频】数据管理的千层套路

【视频】数据管理的千层套路

【视频】在开始统计分析前，如何对数据进行清洗或转换？

【视频】在开始统计分析前，如何对数据进行清洗或转换？

索引目录

1、正态转换

7

Scan me!

确认

取消

确认

取消

APP下载 NEW

扫码下载APP

领2张课程券

公众号

统计咨询

扫一扫添加小咖个人微信，立即咨询统计分析服务！