内容来自:“小白学统计”微信公众号,感谢作者授权
我在审稿一些预测模型开发类文章的时候,经常看到很多文章都是采用大概这种思路:首先进行单因素分析,筛选出p值小于0.05的变量(当然,有的文章会设置为小于0.1、0.15等),然后将这些变量纳入多因素分析,再以其中有统计学意义的变量构成一个预测模型。可能不少临床大夫喜欢这种方式,因为简单。但是否合理,这就很难说了。
事实上,几乎所有的统计学家都明确反对根据p值来构建预测模型,这类文献不少(国外的),感兴趣的大家可以搜一下。为什么呢?因为确实不大靠谱。我举个简单例子大家可以看一下:
我曾经分析4个指标(简单的用a、b、c、d表示)与结局的关系,结果发现,d变量的参数估计值和P值在单因素和多因素分析中均差别非常大(下表)。仔细分析原因发现,a、b、c和d均为负相关,尽管相关系数分别为-0.15、-0.15、-0.11,但总的仍对d造成了很大影响。
在这个例子中就不难发现,如果我们在单因素分析中以p值小于0.05为标准(甚至以0.2为标准),那在第一步就把d给排除了。后面的预测模型构建,最多只能用abc三个变量。在这种情况下,构建的最佳预测模型是包含a和b两个变量的模型。而如果我把d纳入多因素分析,最佳模型则是含a、b、d三个变量的模型。也就是说,你把一个本来其实对预测也有作用的变量在一开始就排除掉了。那后续也不可能得到一个真正有用的预测模型。
这类例子其实很多,我自己在分析过程中遇到的都有不少。可能有的人会说,我就没遇到过。我想,不是你没有遇到,而是你直接忽略了,直接就采用了错误的做法,给出了错误的结果,但你却认为这是正确的做法和结果。
还有一种比较错误的观点是:把p值大小与变量对预测模型的贡献大小等同,认为p值越小的变量,对模型的贡献越大。这也是一个非常错误的观念。还是通过一个例子来说明。
下面是我曾经分析的另一份数据,变量也都用abcde表示。下表可以很明显看出几个变量的p值大小。
那是不是就可以根据p值说贡献大小依次为a、e、d、b、c呢?当我们再对几个变量的重要性大小分析的时候发现(下图),其实并非如此,贡献大小依次为:a、b、e、d、c。
确认删除