数据不满足正态分布,到底能不能用t检验?

大仙儿

大仙儿

某药企统计师

擅长:药物临床试验、生存分析
已关注
关注
2019-07-25 来源:医咖会

T检验是我们医学科研工作中使用频率非常高的一种进行均值比较的统计方法。但是对于T检验的适用条件却似乎存在着争议。

有人说,应用T检验的前提是数据来自于正态分布的总体,因此在进行T检验前均需进行正态性检验,也有人说,在样本量比较大时,可不必在意数据是否来源于正态分布总体,因为中心极限定理告诉我们样本均数在样本量较大时可以近似为正态分布。

那么到底哪种说法正确呢?样本量较大时是否还要求数据服从正态分布呢?其实这个问题在统计学专业的教材中有非常明确的数学证明,数据不满足正态分布时,也是可以使用T检验的,但不完全是因为中心极限定理。(本文附录将介绍统计学教材中对该问题的数学证明,建议先看文末的附录再看结论)

1. 原始数据为非正态数据时使用T检验的条件

从文末附录的证明过程我们不难看出,样本量较大时,任意分布的随机样本均数比较,可以使用T检验,但足够大的样本量是关键条件。那么多大的样本量才算是足够大呢?实际上并没有唯一答案,这取决于原始分布本身偏离正态分布的程度,以及我们对近似性标准要求到底有多高

经验来看,若只是稍稍偏离正态分布,可能大于30的样本量就够了(相信大家对这个说法有所耳闻),但若偏离比较大,则会需要更多,比如50以上,甚至100以上。这种近似是可以接受的,因为即便是我们通过正态性检验发现不拒绝正态性假设时才进行T检验,也无法保证原始数据一定就是完美的正态分布,正态性检验本身也是个近似。

2. 选择T检验还是非参数检验?

通常我们获得的建议是,如果通过正态性检验发现不拒绝正态性假设就用T检验,如果拒绝了就用非参数检验,例如对于两样本,通常是wilcoxon rank-sum检验。那么T检验与非参数检验之间该如何选择呢?

评论
请先登录后再发表评论
发表评论
卡拉米叭叭
请问两组样本均值的比较选用何种统计方法,到底是根据样本本身的数据分布决定的,还是根据推测该样本来源总体的分布来决定的?样本量较大时(n>100),都认为是正态分布都采用t检验吗?
2023-03-16 12:39:38 回复
0
良良良
应该是根据样本所来自的总体是否是正态分布。
2023-09-10 18:08:07 回复
0
yaobiye419
请问这里的样本量较大,是指大于50吗?
2021-01-07 21:39:11 回复
1
李侗桐
一般说样本量较大,是n>100
2021-03-04 16:30:44 回复
0
卡拉米叭叭
回复 李侗桐 : 老师,关于n>100指样本量较大,有没有文献、教科书或其他依据?
2023-03-16 12:40:46 回复
0
使用课程券需先认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈