T检验是我们医学科研工作中使用频率非常高的一种进行均值比较的统计方法。但是对于T检验的适用条件却似乎存在着争议。
有人说,应用T检验的前提是数据来自于正态分布的总体,因此在进行T检验前均需进行正态性检验,也有人说,在样本量比较大时,可不必在意数据是否来源于正态分布总体,因为中心极限定理告诉我们样本均数在样本量较大时可以近似为正态分布。
那么到底哪种说法正确呢?样本量较大时是否还要求数据服从正态分布呢?其实这个问题在统计学专业的教材中有非常明确的数学证明,数据不满足正态分布时,也是可以使用T检验的,但不完全是因为中心极限定理。(本文附录将介绍统计学教材中对该问题的数学证明,建议先看文末的附录再看结论)
1. 原始数据为非正态数据时使用T检验的条件
从文末附录的证明过程我们不难看出,样本量较大时,任意分布的随机样本均数比较,可以使用T检验,但足够大的样本量是关键条件。那么多大的样本量才算是足够大呢?实际上并没有唯一答案,这取决于原始分布本身偏离正态分布的程度,以及我们对近似性标准要求到底有多高。
经验来看,若只是稍稍偏离正态分布,可能大于30的样本量就够了(相信大家对这个说法有所耳闻),但若偏离比较大,则会需要更多,比如50以上,甚至100以上。这种近似是可以接受的,因为即便是我们通过正态性检验发现不拒绝正态性假设时才进行T检验,也无法保证原始数据一定就是完美的正态分布,正态性检验本身也是个近似。
2. 选择T检验还是非参数检验?
通常我们获得的建议是,如果通过正态性检验发现不拒绝正态性假设就用T检验,如果拒绝了就用非参数检验,例如对于两样本,通常是wilcoxon rank-sum检验。那么T检验与非参数检验之间该如何选择呢?
确认删除