那么多变量,我该选择哪些进入统计模型呢?

李延龙

李延龙

上海盛迪医药有限公司

擅长:研究设计和统计分析
已关注
关注
2018-09-27 来源:医咖会

Heart最近发表了一篇综述《Graphics and statistics for cardiology: clinical prediction rules》[1],作者以心血管风险评分(CVD risk factor)为例探讨了如何借助统计图优势构建疾病的预测模型,并提出了6个重要步骤。(表1)

表1. 疾病预测模型的构建

 

上期我们聊到如何选择合适的统计模型来解释预测变量和结局事件之间的关系,这次我们接着说说模型中变量筛选

单因素分析结果可靠吗?

相信大多数小伙伴在多因素回归中是这么操作的:先进行单因素分析,单因素分析有统计学意义的变量纳入多因素回归分析中,无意义的变量不纳入分析。但是这样操作是对的吗?显然不是,仅仅将单因素分析有统计学意义的因素纳入多因素回归分析,很可能会将重要的危险因素漏掉

来看一个栗子,某项研究旨在探索血脂异常的影响因素,单因素分析结果见表2,不同年龄组的血脂异常患病率差异无统计学意义(P=0.072),而血脂异常与性别、饮酒以及BMI均有统计学意义(P<0.01)。

表2. 血脂异常危险因素的单因素分析结果

有的小伙伴会说,这不对呀,年龄是血脂异常的影响因素,地球人都知道啊,应该是哪里出了问题;也有的小伙伴可能会想,统计又不会骗人,没有统计学意义,就不应该算为影响因素……

先别着急将年龄从血脂异常候选影响因素中删去,我们再来看看多因素Logistic回归分析结果(表3)。SPSS软件的多因素Logistic回归结果显示,55-岁组血脂异常的患病风险是<45岁组的2.093倍。之所以会出现这种现象,是因为在做单因素分析时,往往无法识别混杂因素的存在,而混杂因素很可能会干扰我们关注的变量与结局之间的关系。

试读结束,兑换后即可解锁本专栏全部课程
评论
请先登录后再发表评论
发表评论
夏清
请问一下J Royal Stat Soc B.1996; 58:267–88,这个参考文献可以提供一下吗?
2022-05-17 11:20:31 回复
0
medi_27507721831
https://www.cc.gatech.edu/fac/Charles.Isbell/classes/reading/papers/lasso.pdf
2023-07-03 10:30:31 回复
0
medi_26784055146
请问一下图2的GOF图用什么软件画的?怎么画的?
2022-01-04 11:57:32 回复
0
使用课程券需先认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈