二分类Logistic回归 (详细版)

SPSS教程回归分析
问答

点击绿色“提问”按钮

  • 针对本文提问
  • 查看历史问答

长按鼠标选中正文某句话

  • 对选中的内容进行针对性提问
一、问题与数据

研究者想根据年龄、体重、性别和最大摄氧量(VO2max,一项身体健康指标)预测是否患心脏病。为此,研究者招募100名研究对象完成最大摄氧量试验,登记年龄、体重和性别,并评估研究对象目前是否患有心脏病。然后利用Logistic模型判断年龄(age)、体重(weight)、性别(gender)和最大摄氧量(VO2max)能否预测心脏病患病(heart_disease)情况。

 

部分数据如下图,变量caseno为每个研究对象的唯一编码。

二、对问题分析

使用Logistic模型前,研究者需判断是否满足以下七个研究假设: 

  • 假设1:因变量即结局是二分类变量。

  • 假设2:有至少1个自变量,自变量可以是连续变量,也可以是分类变量。

  • 假设3:每条观测间相互独立。分类变量(包括因变量和自变量)的分类必须全面且每一个分类间互斥。

  • 假设4:最小样本量要求为自变量数目的15倍,也有一些研究者认为样本量应达到自变量数目的50倍

  • 假设5:连续的自变量与因变量的logit转换值之间存在线性关系。

  • 假设6:自变量间不存在共线性。

  • 假设7:没有明显的离群点、杠杆点和强影响点。

三、假设判断
请先登录
这么重要的内容,赶快登录查看吧!
四、SPSS操作
请先登录
这么重要的内容,赶快登录查看吧!
五、结果解释
请先登录
这么重要的内容,赶快登录查看吧!
六、撰写结论

1. 简要汇报

 

本研究采用二分类Logistic回归评估年龄、体重、性别和最大摄氧量对研究对象患心脏病的影响。最终,得到的Logistic模型具有统计学意义,χ2(4)=27.402,P<0.0005。该模型解释了患心脏病与否的33.0%变异(Nagelkerke R2)并能够正确分类71.5%的研究对象。模型的敏感度为45.7%,特异度为84.6%,阳性预测值为61.5%,阴性预测值为74.3%。

 

模型纳入的五个自变量(或预测因素)中年龄、性别和最大摄氧量这三个变量有统计学意义(见表1)。男性患心脏病的风险是女性的7.03倍。年龄每增加一岁,患心脏病的风险增加9%;最大摄氧量每增加一个单位,患心脏病的风险降低9%。

 

 

2. 详细汇报

 

本研究采用二分类Logistic回归评估年龄、体重、性别和最大摄氧量对研究对象患心脏病的影响。

 

使用Box-Tidwell方法检验连续自变量与因变量logit转换值间是否为线性,线性检验结果得到所有连续自变量与因变量logit转换值间存在线性关系。一个观测的学生化残差为标准差的3.349倍,但保留在分析中。

 

最终,得到的Logistic模型具有统计学意义,χ2(4)=27.402,P <0.0005。该模型解释了患心脏病与否的33.0%变异(Nagelkerke R2)并能够正确分类71.5%的研究对象。模型的敏感度为45.7%,特异度为84.6%,阳性预测值为61.5%,阴性预测值为74.3%。

 

模型纳入的五个自变量(或预测因素)中年龄、性别和最大摄氧量这三个变量有统计学意义(见表1)。男性患心脏病的风险是女性的7.02倍。年龄每增加一个岁,患心脏病的风险增加9%;最大摄氧量每增加一个单位,患心脏病的风险降低9%。

请先登录
这么重要的内容,赶快登录查看吧!
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
Next
Previous
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
    提交问题