一、问题与数据
某呼吸内科医生拟通过性别、年龄、BMI、COPD病史和是否吸烟等因素预测受试者的肺癌患病情况。他招募了85名肺癌患者,259名非肺癌患者,并通过查阅病历、问卷调查的方式收集了上述信息。变量的赋值和部分原始数据见表1和表2。如果该医生依据这几项因素预测受试者是否患肺癌,那么应如何预测,准确性又如何呢?
表1 肺癌危险因素分析研究的变量与赋值
表2 部分原始数据
从本质上讲,该研究也是结局变量为二分类的诊断试验。但是该诊断试验的测量指标很多,应该如何预测每一位受试者是否患肺癌呢?
我们可以通过二分类Logistic回归模型,用性别、年龄、BMI、COPD病史和是否吸烟等因素,计算受试者患肺癌的预测概率。
确认删除