1、理论基础
1.1 预测模型研究的效应指标简介
预测模型准确度包含区分度和校准度两个方面。一个好的预测模型,不仅要有很好的区分度,同时还应具备良好的校准度。所谓区分度,指模型能够把未来发病风险高低不同的人群正确的区分开来,通过设置一定风险界值,高于界值则判断为发病,低于界值则判断为不发病,从而正确区分个体是否会发生某结局事件。
评价预测模型区分能力的指标,最常用的就是大家非常熟悉的ROC曲线下面积(Area under Receiver Operating Characteristics curve, AUC),也叫C统计量(C-statistics)。AUC越大,说明预测模型的判别区分能力越好。一般AUC<0.60认为区分度较差,0.60~0.75认为模型有一定区分能力,>0.75认为区分能力较好。
校准度则是定量评价一个疾病风险模型预测未来某个个体发生结局事件概率精确性的重要指标,反映了模型预测风险与实际发生风险的一致程度。校准度好,提示预测模型的精确性高;校准度差,则模型有可能高估或低估疾病的发生风险。
通常用拟合优度检验(Hosmer-Lemeshow good of fit test)、 Brier评分、校准图来进行判断。此外,还可从其他方面如基于确定的cut-off值来评价各模型的灵敏度、特异度、阴性预测值、阳性预测值、净重新分类指数(net reclassification improvement, NRI)和综合判别改善指数(integrated discrimination improvement, IDI)等。
因此,在预测模型的NMA中,效应指标通常为区分度指标如AUC,也可为校准度指标或其他指标如NRI等指标。本研究以不同预测模型间的AUC差值即△AUC作为效应指标,进行后续基础理论的介绍和案例解读。本文以下所提及的预测模型准确度默认为AUC。
1.2 预测模型NMA的证据结构
在经典干预性研究NMA中,我们通常按照纳入的每个随机对照试验(randomized controlled trial, RCT)的干预措施来进行分组,进而绘制网状证据图,以明确整个NMA中不同干预措施之间是否有直接比较,从而判断某两种干预措施之间的疗效比较是间接或混合比较的结果。而预测模型的外部验证研究多为基于某个队列人群来验证一个或多个已有预测模型的准确度,并没有传统意义上的干预措施。
因此,在预测模型NMA中,我们将每个原始队列研究(本文中均指预测模型的外部验证研究)验证比较的预测模型暂定为NMA中的“干预措施”,将预测模型准确度(如AUC)作为合并的效应指标,只纳入验证比较的预测模型数目≥2个的队列研究(即类似于传统NMA纳入的两臂研究或多臂研究),最终所有队列研究中验证比较的预测模型的并集即为该NMA中所有的“干预措施”,进而根据各队列研究中验证比较的模型组合分为不同的组别,每个组别内的预测模型之间即认为存在直接比较,并可在此基础上进一步绘制网状证据图。
1.3 两阶段Meta回归模型
Haile等学者对经典的NMA进行了扩展,在Lu(2011)等的基础上提出了采用两阶段Meta回归模型对预测模型NMA进行统计分析。该方法根据每一个原始队列研究中验证比较的模型分为不同的组别,各组之间选择同一个模型作为共同参照,采用“两阶段”策略进行分析。
具体理论基础如下:
设预测模型NMA证据网络中共纳入N (i=1,2,......N) 个队列研究,M (j=1,2,3,......M) 种预测模型(M通常≥3),N个队列研究根据验证模型组合的不同可分为G (g=12,......G) 个组别。
令Mg表示第Gg个组别中预测模型(即“干预措施”)的数目,Ng表示第Gg个组别中纳入的队列研究的个数,则以只包含X、Y和Z三种预测模型共计44个队列研究的NMA为例,可整理为如下表1,即该NMA中N=44,M=3,G=3,其中N1=20,N2=16,N3=8,M1=M2=2,M3=3。
确认删除