一、为什么合适样本量很重要
一位研究者在学术会议上报告了一项用于绵羊的药物研究,他说道:“用药后,三分之一的绵羊状态有了显著改善,三分之一没有任何变化,另外三分之一跑掉了。” 其他研究者问他一共使用了几只绵羊,他回答道:三只……
如故事中那样,样本量会影响到结果的可信度,也是大多数研究者在开展研究前无法回避的问题。本文将会和大家分享如何估算样本量。
首先我们看一个例子。假如我们有两瓶玻璃球,每瓶100粒,玻璃球有黑色和红色(图1)。假设瓶不透明,我们无法看到瓶中玻璃球的颜色,现在我们想知道两个瓶中玻璃球红色和黑色的比例是否不同,该如何实现呢?
图1. 两个不透明玻璃瓶,各装100个玻璃球,红色和黑色混合
为了解决这个问题,我们从A、B两个瓶子里各随机抽取10个玻璃球作为样本。我们将基于样本中颜色的分布来推断两个瓶子中玻璃球的颜色分布情况。
假设A瓶中抽出的10个玻璃球中有9个红色,1个黑色,从B瓶中抽出2个红色8个黑色(图2)。我们可以基于以上事实推论出A瓶中90%玻璃球为红色,10%为黑色吗?很显然不能。因为有可能A瓶中有90个黑玻璃球,10个红玻璃球,而抽取的10个玻璃球中恰好有9个红色,1个黑色。这种情况是有可能发生的,但是概率非常小。对于B瓶也是同样道理。
图2. 两瓶中各个10粒玻璃球
我们看另外一种情形(图3)。我们依然从两个瓶子中各抽取10个玻璃球,且均为7个红色,3个黑色。基于现在的样本,我们能否认为两个瓶子中红黑球比例相同?显然有这个可能。基于现在的样本,是否有可能A瓶中有90个黑色球10个红色球,而B瓶中有90个红色球10个黑色球?有可能,但可能性也非常小。
确认删除