一、问题与数据
某研究者拟探讨性别和体育锻炼与心脏疾病患病的关系。该研究者现招募了152位受试者,并搜集受试者参加体育锻炼exercise (yes vs. no)、性别gender (males vs. females)和心脏病的罹患情况disease (yes vs. no)等相关变量,按照分类汇总整理后,部分数据如下:
二、对问题分析
若研究者拟分析多个分类变量之间的相关关系,如本研究中拟判断受试者性别、体育锻炼与患病情况的关系,我们可以使用对数线性模型(loglinear分析),但需要先满足4项假设:
假设1:变量均为分类变量,如本研究中受试者的性别、参与体育锻炼和心脏病罹患情况都是分类变量。
假设2:任意预测频数大于1,且80%的预测频数大于5。
假设3:不存在显著异常值。
假设4:残差接近正态分布。
经分析,本研究数据符合假设1,那么应该如何检验假设2-4,并进行loglinear分析呢?
三、SPSS操作

四、结果解释

五、撰写结论
本研究采用loglinear分析判断性别、参加体育锻炼和心脏病罹患情况的关系。根据后退剔除法,最终模型包含gender、exercise、disease三个主变量和gender*exercise、 exercise*disease两个交互项。似然比检验结果显示χ2(2) = 0.748, P = 0.688,说明模型拟合程度较好。系数结果提示性别与参加体育锻炼存在相关关系,而参加体育锻炼与心脏病罹患情况也存在相关关系(表1)。
Table 1 Parameter Estimates for the Hierarchical Model (Gender*Exercise, Exercise*Disease)
六、延伸阅读
可能有人会问,为啥不用Logistic回归来进行分析呢?对数线性模型与Logistic回归两种方法之间存在非常密切的关系,对数线性模型中Logit过程提供的Logit模型可分析因变量和自变量之间的因果关系,模型中将自动引入自变量与因变量的交互项。在拟合结果上,Logit模型实际上和Logistic模型等价。
当多个分类变量之间分不出哪个是原因哪个是结果,或者说,研究者对变量之间的因果关系并不感兴趣,仅仅要分析变量之间的相互作用,就通常用对数线性模型,而较少用Logistic回归了[1]。
值得注意的是,当考虑的变量太多时,对数线性模型将变得过于复杂。
参考文献
[1] 张文彤主编. SPSS统计分析高级教程.
七、更多阅读
