一、问题与数据
某医生拟探讨吸烟与阿尔兹海默症之间的关联性,该医生招募了150名研究对象,按照吸烟状态分为三组,其中持续吸烟者52人,曾经吸烟者51人,从不吸烟者47人,对他们进行长期随访,收集研究对象发生阿尔兹海默症的终点事件信息。部分数据图1。
图1 部分数据
二、对问题分析
研究者想判断不同吸烟状态(>2种)的研究对象阿尔兹海默症的发生情况是否不同。针对这种情况,可以使用卡方检验(2×C),但需要先满足4项假设:
假设1:观测变量是二分类变量,如本研究中阿尔兹海默症是二分类变量。
假设2:存在多个分组(>2个),如本研究有3种不同的吸烟状态。
假设3:具有相互独立的观测值,如本研究中各位研究对象的信息都是独立的,不存在相互干扰作用。
假设4:样本量足够大,最小的样本量要求为分析中的任一单元格期望频数大于5。
经分析,本研究数据符合假设1-3,那么应该如何检验假设4,并进行卡方检验(2×C)呢?
确认删除