如何去评价一个疾病预测模型的好坏?

以心血管疾病风险预测模型为例:

一、模型的开发

(1)人群:用于模型研发的数据集是否包含足够数量的人群和事件(即样本量是否足够大)?用于模型训练的样本中,个体的特征是否与风险评估目标人群的特征足够一致(例如年龄范围、既往疾病状况)?

(2)风险因素:是否纳入了相关风险因素?至少应包括主要的生活方式风险因素(如吸烟、血压、BMI或胆固醇)。训练样本中是否有足够数量的风险因素得到准确测量?例如,使用连续血压,比根据间断测量值或自我报告病史对高血压进行分类更准确。能否对所有风险因素进行可行的测量,在资源有限的情况下是否有其他形式的测量方法?例如,在某些情况下,使用不需要实验室测量的风险因素进行风险评分可能更加可行。

(3)终点:风险评分是否能预测相关终点(如总体心血管疾病、卒中、冠心病)?训练样本的终点收集是否系统且经过充分验证?

(4)随访:训练样本的随访时间是否足以对相关时间段内(通常为10 年)的风险进行估计?

(5)统计模型:是否针对风险估计使用了合适的统计模型?是否检验了相关假设(如Cox回归的比例风险假设)?

(6)内部验证:区分度--模型能否预测个体间心血管疾病事件的发生顺序?校准度--预测的发病率与观察到的发病率(绝对风险)是否具有良好一致性?是否对模型进行了过拟合和性能乐观度检查?过度拟合与样本量较小相关,可通过交叉验证或收缩(shrinkage)进行检查。重分类--与其他风险模型相比,个体在相关风险类别中是否有适当的移动?

二、外部验证

(1)可转移性:该模型是否已被证明可应用于使用该评分的目标人群?例如,当模型应用于模型开发时未使用过的数据源的新目标人群时,模型是否具有良好的预测性能(如区分度和校准度)?

(2)重新校准:是否已对模型进行了合适的重新校准,以便在目标人群中使用?

(3)重新校准数据:用于重新校准的数据是否合适?例如,重新校准的数据是否与目标人群具有相同的特征?

(4)重新校准方法:是否制定了方法学框架,以便今后根据时间变化以及不同地区和人群的心血管疾病发病率差异进行重新校准?例如,是否为重新校准提供了指南或统计代码?重新校准的难易程度如何?是否需要大量额外资源?重新校准是否需要额外数据?

三、易用性

格式:格式是否适合应用模型的人群使用(如在线风险计算器、彩色图表)?

四、实施

(1)指南:是否有相关指南建议使用该模型?可以是国家、地区或全球指南。

(2)健康收益:将该风险评分用于评估心血管疾病风险和指导高危人群的干预措施(如他汀类药物)时,是否对健康收益进行过评估?风险评分的使用是否带来了显著的健康收益?

(3)成本效益:风险预测模型的使用是否具有成本效益?

参考来源:Risk estimation for the primary prevention of cardiovascular disease: considerations for appropriate risk prediction model selection.

DOI: https://doi.org/10.1016/S2214-109X(24)00210-9