在前期推送的内容中,我们介绍了构建多因素回归模型,探讨对结局指标有独立作用的影响因素,就好比侦探破案找出真凶的过程。我们作为研究人员,就像是一名侦探,通过统计学方法及专业知识,在众多的嫌疑人中一一排查,来一次『白夜追凶』,最终才能找出真正的凶手X。
相关阅读:嫌疑人X的献身:如何理解回归模型中的"调整"和"独立作用"
当然,要做一名好侦探,你一定要有一种可靠的直觉,能够准确划定嫌疑人的范围,这才是成功破案最为关键的一步,如果事先连嫌疑人都判断错了,那就只能让凶手逃之夭夭了。
同样,对于一个研究来说,我们通常会收集很多数据资料,但由于受到样本量、或者结局事件数量的限制,我们不可能把所有的变量都带入到多因素回归中进行分析。那么,在面对众多自变量需要进行分析时,到底如何来确定谁是可疑因素,哪些因素需要被纳入到嫌疑人的范围内,从而进入到多因素回归分析呢?今天就跟着小咖一起,教大家如何筛选多因素回归分析的候选变量。
研究实例
学习标准的统计方法,最直观便捷的一个途径就是从文献中去学习,看看在高分期刊上发表文章的大牛们都是怎么进行分析的。
我们首先来看一篇2011年发表在The New England Journal of Medicine (影响因子:72.4)的文章:《A Prospective Natural-History Study of Coronary Atherosclerosis》[1]。
我们先不管这篇文章都做了哪方面的研究,就单凭作者对于统计学方法的描述,小咖觉得已经足够膜拜的了。
关于如何筛选多因素回归分析的候选变量,作者原文中这样写道:
Baseline variables that were considered clinically relevant or that showed a univariate relationship with outcome were entered into multivariate Cox proportional-hazards regression model. Variables for inclusion were carefully chosen, given the number of events available, to ensure parsimony of the final model.
确认删除