本文参考自《Am J Gastroenterol》(影响因子:9.566)上的一篇文章《Ten common statistical errors and how to avoid them》[1]。第一期和第二期分别推送了“论文中研究方法和结论的常见问题”以及“统计分析数据时的几大常见错误”,今天,我们再来看看P值运用的常见问题。
1、P>0.05不等于“两组相同”
组间比较通常会有三种结果:两组可能相同、两组可能不同、缺少证据来证明两组相同或者不同。大多数的假设检验以零假设开始,如果证据充足,可以拒绝零假设并发现差异;然而,如果没能发现差异,可能依旧无法得知两组是相同,还是由于缺乏证据而无法证明它们有差异。
【建议】当P>0.05时,要避免得出“两组是相同的”这一结论,而应该是:“没有证据显示两组有差异”。如果研究目的是为了得出“两组一样”的结论,那需要进行等效性检验,或者是计算置信区间。与假设检验相比,置信区间能提供更为清楚的结果。
在非劣效性研究中,并不是以“两组相同”(例如不良反应发生率相等)作为零假设,而是以“治疗组的不良反应发生率比对照组高5%”作为零假设,若拒绝零假设,则认为治疗组与对照组的不良反应发生率的差值不超过5%。
2、仅报告P值,缺乏其他重要信息
“与安慰剂组相比,治疗组更容易发生不良反应(P=0.04)”。在该例子中,P值的含义是什么?针对哪一种不良反应?是将所有不良反应作为整体进行了比较?还是分别对每一种不良反应进行了比较?作者是对不良反应的数量、中位数还是不良反应的构成比进行了比较?
类似上述这种P值,由于不明确用了什么假设以及使用的数据类型,因此并不具备实际意义。
确认删除