本文转载自微信公众号“小白学统计”,感谢作者授权。
在我个人审稿过程中,关于预测建模类的文章我觉得比较常见的一个问题就是:用危险因素筛选的思路来写预测建模过程。事实上,危险因素筛选和预测建模尽管有关系,但并不是一回事。不少临床医师很容易搞混,写文章的时候不知不觉就写成了四不像,导致被拒稿的几率大增。所以今天特地说一下这个问题。
举个例子,有个研究要 构建某生化指标c对某疾病的预测模型。该文章题目很清楚,就是看c这个指标对某病的预测性能(当然,当我看到文章正文的时候我严重怀疑作者并不清楚自己究竟要做什么)。
在文章的 材料方法中,作者介绍了下面内容:
病例选自于某一时期内该医院就诊患者,进行CT造影检查,根据检查结果确定结局。这一点说明结局的确定还是比较客观的。
关于预测变量,主要包括年龄、性别、多个生化指标。
统计方法主要采用logistic回归,采用逐步筛选方法,构建模型。
其实当我看到采用逐步筛选的时候,就已经觉得有点不对。 既然作者想分析的是c这个指标,却又用逐步筛选。我不禁替作者有点担心,万一逐步筛选时候把c这个指标筛出去了怎么办?(当然,我相信肯定不会,也许很可能是作者倒推来写的,先发现了c有意义,然后再说用筛选,这时候c没有被晒出去)。
确认删除