回归模型中的哑变量是个啥?何时需要设置哑变量?

龚志忠

龚志忠

首都医科大学附属北京中医医院

擅长:临床研究数据统计分析、流行病学方法设计、临床预测模型建模与评价
已关注
关注
2018-05-29 来源:医咖会

在构建回归模型时,如果自变量X为连续性变量,回归系数β可以解释为:在其他自变量不变的条件下,X每改变一个单位,所引起的因变量Y的平均变化量;如果自变量X为二分类变量,例如是否饮酒(1=是,0=否),则回归系数β可以解释为:其他自变量不变的条件下,X=1(饮酒者)与X=0(不饮酒者)相比,所引起的因变量Y的平均变化量。

但是,当自变量X为多分类变量时,例如职业、学历、血型、疾病严重程度等等,此时仅用一个回归系数来解释多分类变量之间的变化关系,及其对因变量的影响,就显得太不理想。

此时,我们通常会将原始的多分类变量转化为哑变量,每个哑变量只代表某两个级别或若干个级别间的差异,通过构建回归模型,每一个哑变量都能得出一个估计的回归系数,从而使得回归的结果更易于解释,更具有实际意义。

我们将分2期内容,向大家来介绍哑变量的相关知识,同时结合SPSS软件的应用,来介绍在不同的回归模型中如何设置哑变量。

哑变量

哑变量(Dummy Variable),又称为虚拟变量、虚设变量或名义变量,从名称上看就知道,它是人为虚设的变量,通常取值为0或1,来反映某个变量的不同属性。对于有n个分类属性的自变量,通常需要选取1个分类作为参照,因此可以产生n-1个哑变量。

将哑变量引入回归模型,虽然使模型变得较为复杂,但可以更直观地反映出该自变量的不同属性对于因变量的影响,提高了模型的精度和准确度。

举一个例子,如职业因素,假设分为学生、农民、工人、公务员、其他共5个分类,其中以“其他职业”作为参照,此时需要设定4哑变量X1-X4,如下所示:

X1=1,学生;X1=0,非学生;

X2=1,农民;X2=0,非农民;

试读结束,兑换后即可解锁本专栏全部课程
评论
请先登录后再发表评论
发表评论
medi_27677094953
解释的非常清楚,非专业都能看懂,谢谢!
2023-10-08 15:27:48 回复
0
张张张坚涛
讲得非常清楚,十分受益,感谢!
2022-01-06 16:46:04 回复
1
使用课程券需先认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈