给打算做预测建模的人提几点建议

2023-05-30 来源：小白学统计

本文转载自微信公众号“小白学统计”，感谢作者授权。

最近审稿时见到了很多预测建模类的文章，既喜且忧，喜的是临床科研工作者终于认识到利用已有数据开展分析，忧的是生怕预测建模成为第三波被国人玩坏的内容。前两波分别是meta分析、公共数据库挖掘，十年前的meta分析、5年前的公共数据库挖掘（时间不一定准确，虚词），都有相同的特点，都是红极一时，一拥而上，然后盛极而衰，当然最重要的特点是国人发文量极大。有篇文章提到，2014年全球共发表9135篇meta分析，其中国人占了34%。

作为统计学家，我是真心不希望预测建模沦为第三波这种量产类文章。我最近审稿的各种预测建模类文章中，真正的质量高的真的凤毛麟角，大多数都是流于形式，一看就是只为发文章而发文章（当然这可能更多的是一种无奈吧）。

虽然从文章量产来说，meta分析、公共数据挖掘、预测建模似乎有相似之处，但从实用角度，预测建模的应用性更强，医学中如果一个预测模型最终目的不是为了临床应用，那构建出来预测模型有什么用呢？从这一角度来讲，我们很多的预测模型恐怕都不是出于这一目的，绝大多数模型就是发表文章，然后……，然后好像就没有然后了。

如果一个模型从一开始就是为了应用，必然会对数据质量、统计方法、模型的优劣等非常仔细，会非常认真地核对每一环节，否则一旦应用中出点问题，后果不堪设想。但如果只是为了发表文章，那恐怕就未必如此认真了。

我想，预测建模的文章写没问题，但一定要慎重。我个人经常讲预测模型的内容，几乎每次都会强调，决不能滥用。我也做了一些预测模型，基本全部都投入临床应用，也算是有点价值吧。虽然我做的模型也并非十全十美，也许在将来的应用中需要改进，但至少在应用方面努力，而不是只为了发文章。

因此， 有几点个人建议希望临床科研工作者能够在开展预测建模之前仔细考虑一下（当然不一定全面，只是暂时想到的）：