根据P值构建预测模型，合理吗？

2024-05-22 来源：小白学统计

内容来自：“小白学统计”微信公众号，感谢作者授权

我在审稿一些预测模型开发类文章的时候，经常看到很多文章都是采用大概这种思路：首先进行单因素分析，筛选出p值小于0.05的变量（当然，有的文章会设置为小于0.1、0.15等），然后将这些变量纳入多因素分析，再以其中有统计学意义的变量构成一个预测模型。可能不少临床大夫喜欢这种方式，因为简单。但是否合理，这就很难说了。

事实上，几乎所有的统计学家都明确反对根据p值来构建预测模型，这类文献不少（国外的），感兴趣的大家可以搜一下。为什么呢？因为确实不大靠谱。我举个简单例子大家可以看一下：

我曾经分析4个指标（简单的用a、b、c、d表示）与结局的关系，结果发现，d变量的参数估计值和P值在单因素和多因素分析中均差别非常大（下表）。仔细分析原因发现，a、b、c和d均为负相关，尽管相关系数分别为-0.15、-0.15、-0.11，但总的仍对d造成了很大影响。

在这个例子中就不难发现，如果我们在单因素分析中以p值小于0.05为标准（甚至以0.2为标准），那在第一步就把d给排除了。后面的预测模型构建，最多只能用abc三个变量。在这种情况下，构建的最佳预测模型是包含a和b两个变量的模型。而如果我把d纳入多因素分析，最佳模型则是含a、b、d三个变量的模型。也就是说，你把一个本来其实对预测也有作用的变量在一开始就排除掉了。那后续也不可能得到一个真正有用的预测模型。

这类例子其实很多，我自己在分析过程中遇到的都有不少。可能有的人会说，我就没遇到过。我想，不是你没有遇到，而是你直接忽略了，直接就采用了错误的做法，给出了错误的结果，但你却认为这是正确的做法和结果。

还有一种比较错误的观点是：把p值大小与变量对预测模型的贡献大小等同，认为p值越小的变量，对模型的贡献越大。这也是一个非常错误的观念。还是通过一个例子来说明。

下面是我曾经分析的另一份数据，变量也都用abcde表示。下表可以很明显看出几个变量的p值大小。