2023年2月1日,哈佛大学公共卫生学院Wang Xuan博士在《JAMA Cardiology》(IF=30.170)上发表了一篇综述[1],这篇论文以心血管事件发生时间预测模型为例,使用平均绝对差异(mean absolute difference,MAD)评价Time-to-event结局类型预测模型(例如COX比例风险模型)的准确性。MAD相比于常用的C统计量(C Statistic或C-Index)更容易量化和解释模型的预测准确性。
背景介绍
针对感兴趣的临床结局建立可靠且有效的预测模型,有助于开展个性化或分层医学研究。在不影响模型预测性能的前提下,开发具有较少预测因子的更简约的模型,有利于推广和应用。
通常,我们纳入患者个体的基线特征变量或者生物标志物,构建各种预测模型,然后评估模型的优缺点。当感兴趣的临床结局是心血管事件的发生时间时,也就是Time-to-event类型的结局变量,我们通常采用C统计量(C统计量是对二分类模型中AUC指标的拓展,AUC是C统计量的一种特殊情况)来评估模型的预测效果。C统计量衡量的是模型将较早发生事件的个体与较晚发生事件的或者根本没有发生事件的个体区分开来的能力(即区分度,discrimination),但是没有衡量模型预测结果与实际观察结果的匹配程度(即预测准确性,prediction accuracy)。因此,需要提供临床可解释的指标来量化预测模型的准确性。
MAD的提出
C统计量衡量的是模型风险评分与实际事件发生时间之间的一致性,即模型对结局事件的风险评分越高(低),结局事件的实际发生时间越早(晚),模型区分度越好,区分度指标比较粗略,无法量化模型的预测准确性。而在校准度指标中,综合Brier评分(Integrated Brier Score是对二分类模型中Brier Score的拓展)计算了经验累积无事件曲线(empirical cumulative event-free curve)与每个患者曲线之间差异平方的均值,能够评价模型的预测准确性。但是综合Brier评分采用平方项,在临床上不够直观。所以,更简洁更直观的指标就是模型预测的事件发生时间与研究人群实际发生时间之间距离/差异的平均值。
以2型糖尿病患者心血管事件预测研究为例[2]:该研究纳入了5509例参加ALTITUDE(Aliskiren in Type 2 Diabetes Using Cardiorenal Endpoints)试验项目(项目注册号:NCT00549757)的2型糖尿病患者,随访中位时间2.6年,发生心血管事件768例。由于删失问题,超过1530天(大约50个月)后,心血管事件很少。该研究的主要目的是分析NT-proBNP是否能够改善对2型糖尿病患者心血管事件发生时间的预测效果。
在研究原文中,共建立了3个COX比例风险模型(表1),分别纳入21(log NT-proBNP+20个基线变量)、20(20个基线变量)和1个变量(log NT-proBNP),通过比较3个模型的C统计量,证明了NT-proBNP的预测价值。
表1. 3个COX比例风险模型的变量回归系数
确认删除