医学统计中流传的“似乎正确”的错误,你听说过几个?

2019-08-06 来源:“小白学统计”微信公众号

内容来自:“小白学统计”微信公众号,感谢作者授权。

这个题目听起来似乎有点别扭,什么意思呢?就是说,有些话在医学统计中流传了很多年,不少医学生甚至有的流行病学、卫生统计学的老师或学生也这么说,但实际上,却偏偏是错误的说法。本文主要列举几个:

1、分类资料又称计数资料

其实他们的区别很容易,分类资料(categorical data)是类似于像性别、职业、血型等名义型,它们的值都是无实际意义的,只是个标识而已。例如性别的男和女分别用1和2标识,这里你绝不能说2大于1。也就是说,在分类资料中,数值无所谓大小,只是个标志,你可以用1和2标识,也可以用5和98标识,只不过实际分析中没必要搞得那么复杂,所以都尽量简单地用1和2标识。

什么是计数资料(count data),顾名思义是可以清点计数的。比较典型的如咳嗽次数、疼痛次数、转移部位的个数等等。它们的值是有实际意义的,比如疼痛次数可能是1、2、3等,这里就可以说2大于1,4大于3等,因为3次就是大于2次,没什么可说的。这里的数值大小是起作用的。

如果从统计学角度来说,分类资料通常服从二项分布或多项分布,而计数资料通常服从Poisson分布或负二项分布。

现在还有不少文章在统计学方法中都提到“计数资料的比较采用卡方检验”,个人认为,严谨来说,应该是“分类资料的比较采用卡方检验”。

目前国内教材尚未严格区分这两个概念。我也查了很多文献和资料,很少有人清楚地阐述过这个问题,国内没有,国外也很少,但有的国外论坛中能看出大家对这两种资料的态度,肯定不是一回事,分析方法也不一样。维基百科(英文)对categorical data和count data是分别定义的,不是一回事。大家感兴趣的可以搜一下看看。

评论
请先登录后再发表评论
发表评论
使用课程券需先认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈