文章来源于“小白学统计”公众号,感谢作者授权
我听到过不少流行病学家说过类似的话:“这些都是随机对照试验,哪里来的混杂?”、“随机分组,怎么可能会有混杂”,等等。其实我个人一直很疑惑,随机分组真的就没有混杂了吗?
当然这个疑惑我无论问谁,可能都没有明确答案。事实上,有的人也会呛你一句:就算随机分组仍存在混杂,你能找到一个比随机分组更好的方式吗?然而我想,不能因为可能目前没有比随机分组更好的方式,就非得默认随机分组就是最好的方式。俗话说,没有最好,只有更好。只有不断探讨、怀疑当前的方法,才有可能不断发展,否则就故步自封了。所以我就自己来验证一下,供大家讨论,如有不合理之处,请各位专家不吝指出。
随机,这是当年统计学鼻祖Fisher首次提出,现在已经是作为试验设计的金字塔顶端。我们都相信,随机分组可以均衡已知的或未知的混杂,理论上,随机分组应该是可以得到比较可靠的结果。
然而,我始终还是想搞清楚:随机分组后,真的不存在混杂了吗?既然没有人给出答案,我还是自己通过统计模拟来解答自己的问题吧。(我想,这种模拟应该别人也做过,不过我比较懒,没有查文献,就自己直接做统计模拟了。如果有朋友知道,可以顺便提醒我一下。谢谢)
下面是我自己做的一个统计模拟。思路如下:
(1)产生一个10000人的总体,其中包含一个x变量,一个y变量。x均值为3,y均值为4(其实均值多少无所谓)。x作为协变量,y是结局变量。
(2)从总体中随机抽取一定例数的样本(我分别设置了200人、500人、1000人、2000人)。
(3)以200人为例,将抽取的200例样本随机分组,每组各100例。重复1000次。
(4)计算分组后两组的x差别大小。理论上,x在两组间应该差异很小(因为随机分组)。
确认删除