期刊编辑：盘点论文中常见的统计错误

2024-09-29 来源：医咖会

本文整理自一篇题为“Common errors in statistics and methods”的综述，由期刊编辑和审稿人所撰写，总结了在审核论文时经常见到的统计错误，希望能够帮助准备投稿的研究者以避免踩坑。

统计学显著性和P值

只有P值，没有效应值

一些作者常在论文只给出p值而不给出效应值（如OR、RR）。如果是为了减少字数，在效应值和p值之间进行选择时，建议选择省略p值。效应值代表效应的大小，例如，患者风险降低了多少，在研究中具有显而易见的重要性。

使用近似的p值

一些作者可能会以近似值的形式陈述p值，通常使用不等式，例如p<0.05。这是在计算机和统计软件普及之前遗留下来的，当时需要在表格或教科书中查找统计量，通常无法获得准确的 p 值。现在软件可以给出P值的精确值，如果有精确值，就没有理由使用近似值。

一个例外是p值非常小，甚至计算机软件都可能无法准确计算p值。对于这些非常小的p值，不要报告为“0.0000”。p值不能是0（也不会是1）。某些软件可能会由于四舍五入而输出这样的值，这意味着p小于某个值，通常是 0.001 或0.0001，就能表示诸如为“P< 0.001”。

“table 1”的P值

论文的“table 1”通常是显示不同研究人群的人口统计学和临床特征，我们也常能看到一些论文会放上p值，但这里的P值作用很小。在随机对照试验的情况下，p值可以证明随机化的“有效”，但由于是对多个变量进行比较，可能会偶然出现P<0.05的情况。但这改变了这是一项随机试验的本质，这些值也不应改变预先制定的分析计划，因此只需忽略p值。

在观察性研究中，比p值更重要的是组间差异的大小，或者作者对于预测因子临床重要性的看法。在table 1中给出p值会导致作者倾向于让这些p值来指导分析方法，例如，使用p值作为构建回归模型的筛选策略，但这不是正确的方法。

统计方法的表述问题

缺乏关于高级或新统计方法的细节

当使用一种新的医疗技术（例如新药或新手术）时，作者需要详细描述；对于非常常见的技术，不需要这样做。统计方法也是如此。通常，使用相对较新或不常见的统计方法时，作者可以引用使用了该方法的论文，引用描述该方法的论文要更好。此外，不要引用无法访问、不正确或反对使用该方法的论文。

对所用软件的描述不明确

就像作者应该告诉读者所使用的药物是哪家公司生产的一样，也应该告诉读者使用了什么统计软件，而且要足够详细，以便大家可以去找到。不要简单写“R”，而应该是“R V.3.12”。另外，不要把前端和软件混为一谈，例如，RStudio是编辑器，而R是统计软件。此外，除了所使用的基础软件包外，还需要引用用户贡献的或专门用于特定统计方法的附加软件包。

缺乏有关如何处理缺失数据的详细信息

缺失数据随处可见，例如研究对象拒绝回答问题，或者退出，或者数据丢失，或者其他什么原因，要告诉读者你是如何处理这个问题的。常见的方法是多重插补，这种方法尚未得到充分利用，但在现代统计软件中越来越简单易用。