医学统计中流传的“似乎正确”的错误，你听说过几个？

2019-08-06 来源：“小白学统计”微信公众号

内容来自：“小白学统计”微信公众号，感谢作者授权。

这个题目听起来似乎有点别扭，什么意思呢？就是说，有些话在医学统计中流传了很多年，不少医学生甚至有的流行病学、卫生统计学的老师或学生也这么说，但实际上，却偏偏是错误的说法。本文主要列举几个：

1、分类资料又称计数资料

其实他们的区别很容易，分类资料（categorical data）是类似于像性别、职业、血型等名义型，它们的值都是无实际意义的，只是个标识而已。例如性别的男和女分别用1和2标识，这里你绝不能说2大于1。也就是说，在分类资料中，数值无所谓大小，只是个标志，你可以用1和2标识，也可以用5和98标识，只不过实际分析中没必要搞得那么复杂，所以都尽量简单地用1和2标识。

什么是计数资料（count data），顾名思义是可以清点计数的。比较典型的如咳嗽次数、疼痛次数、转移部位的个数等等。它们的值是有实际意义的，比如疼痛次数可能是1、2、3等，这里就可以说2大于1，4大于3等，因为3次就是大于2次，没什么可说的。这里的数值大小是起作用的。

如果从统计学角度来说，分类资料通常服从二项分布或多项分布，而计数资料通常服从Poisson分布或负二项分布。

现在还有不少文章在统计学方法中都提到“计数资料的比较采用卡方检验”，个人认为，严谨来说，应该是“分类资料的比较采用卡方检验”。

目前国内教材尚未严格区分这两个概念。我也查了很多文献和资料，很少有人清楚地阐述过这个问题，国内没有，国外也很少，但有的国外论坛中能看出大家对这两种资料的态度，肯定不是一回事，分析方法也不一样。维基百科（英文）对categorical data和count data是分别定义的，不是一回事。大家感兴趣的可以搜一下看看。