内容来自:“小白学统计”微信公众号,感谢作者授权。
危险因素筛选或探索是医学研究中的一大类目的,很多临床医生都会通过已有的数据,确定一个医学结局,然后分析这一结局跟哪些因素有关,或者说,哪些因素可能是该结局发生的独立影响因子。
危险因素的探索分析过程,说简单就简单,说复杂也很复杂。说简单,是因为很多人习惯把数据往软件里一扔,因变量放到因变量的地方,自变量拖到自变量的地方,运行,出结果,结束。说复杂,是因为往往上述的这种分析方式,其实很多都有问题,因为统计分析最关键的不是软件,而是使用软件的人。
本文根据作者多年的分析经验,说一下危险因素探索分析中的3个关键问题,希望以此提醒各位朋友,在数据分析时,不要一味依赖软件。软件主要是帮你计算,思路是无法替代的。
没有一个明确的分析思路,只能导致garbage in, garbage out 这种悲惨结局。关键的问题是,很多人即使得到了garbage的结果,却懵然不知,还以为发现了真理。这才是最大的悲哀。所以本文特地介绍几个在危险因素探索过程中比较关键的3个问题,希望对各位有所帮助。
一、线性问题
不管是线性回归还是logistic回归或Poisson回归,他们都属于广义线性模型,本质上都是“线性模型”,因此一定要确认自变量与因变量(logistic回归中为logit P)之间是否线性关系,如果不是,需要考虑进行相应的变换,否则可能会产生错误结果。
例1:某研究分析老年人高血压(二分类变量,是或否)的危险因素,研究因素包括gender、age、ox-LDL、Adiponectin、ox-LDL IgG和ox-LDL IgM 共6个指标。其中gender为二分类变量,其余变量均为连续变量。如果把这6个自变量直接纳入统计软件分析,所得结果如表1所示。
确认删除