通过一个简单例子，通俗讲下协方差分析

2019-08-29 来源：小白学统计”微信公众号

内容来自：“小白学统计”微信公众号，感谢作者授权。

临床中经常碰到这种设计：研究对象分为两组，接受不同治疗（如治疗组和安慰组），每组分别在治疗前和治疗后测量观察指标（如血压值）。目的是比较两种治疗方式是否有差异。这种情况你会怎么处理呢？

我看过不少国内的文章，他们的做法有这么几种：（1）直接比较治疗后的两组指标，如血压值，用t检验比较；（2）先比较治疗前两组的差异，证明无统计学意义，然后再比较治疗后两组的差异；（3）先比较试验组治疗前和治疗后差异，再比较对照组治疗前和治疗后差异，如果试验组治疗后和治疗前差异更大，说明试验组更有效。

第一种做法是肯定有问题的，因为它根本不考虑两组在疗前的差异。为什么有问题呢？比方说，下面这个简单的例子：

有甲乙丙3个学生，期末考试成绩分别为90、85、80，如果让你判断，你觉得哪个学生更优秀一些（只考虑成绩）？当然了，你可以毫不犹豫地说，甲最优秀，因为成绩最高。但确实如此吗？

再给你一组数据，甲乙丙3个人的刚入学时的成绩，分别是95、85、60。这时候再让你说，谁更优秀呢？我想，你可能要犹豫一下了。虽然甲的期末成绩最高，但是相比入学成绩而言，他是下降了。丙的期末成绩最低，可是相对入学成绩而言，他上升了很多。作为一个老师，也许他不会说，甲最优秀，而会说，丙最优秀。因为成绩上升很快。

所以，很明显，我们是不应该只看治疗后两组差异的，这说明不了什么问题。

第二种做法，相对好一些，起码通过统计学方法说明两组治疗前无统计学差异。但是，统计学差异有时未必可靠，跟例数有关的，如果例数少的话，即使两组治疗前差别较大，也是无统计学差异。所以，也不是很好。

第三种做法，听起来似乎也有理，但仔细想想。试验组的治疗后和治疗前差异比对照组的大，是反映了一种真实情况吗？还是需要有统计学来证实的。比如，试验组的血压值治疗后与治疗前相比，降低了2mmHg，对照组降低了1.8mmHg，仅从数字来看，试验组降低更多，但有意义吗？很难说。