随机分组就不用考虑混杂了吗？

2019-06-03 来源：“小白学统计”公众号

文章来源于“小白学统计”公众号，感谢作者授权

我听到过不少流行病学家说过类似的话：“这些都是随机对照试验，哪里来的混杂？”、“随机分组，怎么可能会有混杂”，等等。其实我个人一直很疑惑，随机分组真的就没有混杂了吗？

当然这个疑惑我无论问谁，可能都没有明确答案。事实上，有的人也会呛你一句：就算随机分组仍存在混杂，你能找到一个比随机分组更好的方式吗？然而我想，不能因为可能目前没有比随机分组更好的方式，就非得默认随机分组就是最好的方式。俗话说，没有最好，只有更好。只有不断探讨、怀疑当前的方法，才有可能不断发展，否则就故步自封了。所以我就自己来验证一下，供大家讨论，如有不合理之处，请各位专家不吝指出。

随机，这是当年统计学鼻祖Fisher首次提出，现在已经是作为试验设计的金字塔顶端。我们都相信，随机分组可以均衡已知的或未知的混杂，理论上，随机分组应该是可以得到比较可靠的结果。

然而，我始终还是想搞清楚：随机分组后，真的不存在混杂了吗？既然没有人给出答案，我还是自己通过统计模拟来解答自己的问题吧。（我想，这种模拟应该别人也做过，不过我比较懒，没有查文献，就自己直接做统计模拟了。如果有朋友知道，可以顺便提醒我一下。谢谢）

下面是我自己做的一个统计模拟。思路如下：

（1）产生一个10000人的总体，其中包含一个x变量，一个y变量。x均值为3，y均值为4（其实均值多少无所谓）。x作为协变量，y是结局变量。

（2）从总体中随机抽取一定例数的样本（我分别设置了200人、500人、1000人、2000人）。

（3）以200人为例，将抽取的200例样本随机分组，每组各100例。重复1000次。

（4）计算分组后两组的x差别大小。理论上，x在两组间应该差异很小（因为随机分组）。