比较两个疾病模型的预测能力,AUC和NRI了解一下?

专题合集更多教程

在上一期内容中,我们介绍了当考察一个疾病预测模型好坏的时候,常常会关注到2个维度,一个是预测模型的区分度(Discrimination),它反映了该模型是否能够将患者和非患者区分开来的能力;另一个维度是预测模型的校准度(Calibration),它反映了该模型预测结果与实际情况的符合程度。

 

(点击查看:你的预测模型靠谱吗?详解区分度和校准度的SPSS操作!)

 

那么对于两个疾病风险预测模型,应该选用哪一个模型更靠谱呢,应该如何比较两个疾病模型的预测能力呢?本期内容小咖就来向大家介绍一个老朋友AUC和一个新朋友NRI

 

ROC曲线及其AUC

 

首先我们来复习一下ROC曲线,在诊断试验中,通常根据检验指标的判断结果和金标准诊断结果,整理成一个2×2的表格,如下表所示,并以此来计算诊断试验中两个比较重要的指标,即灵敏度和特异度。(戳链接:灵敏度和特异度,你搞清楚含义了吗?

 

 

灵敏度=A/(A+C),即真阳性率,反映了将实际有病的人正确地判定为阳性的比例。

 

特异度=D/(B+D),即真阴性率,反映了将实际无病的人正确地判定为阴性的比例。

 

如果检验指标为连续性变量,我们可以将该检验指标划分为不同的切点,切点以上判断为阳性,切点以下判断为阴性,每个切点下都对应一个灵敏度和特异度,然后以灵敏度为纵坐标,1-特异度为横坐标绘制图形,即可得到我们熟悉的受试者工作特征曲线(Receiver Operating Characteristic curve,ROC曲线)。

 

从ROC曲线可以看出,随着灵敏度的上升,1-特异度增加,即特异度下降,反之亦然,当满足灵敏度和特异度相对最优时,可以把位于ROC曲线左上角的切点,作为适宜的诊断界值,即下图中的y点。同时,为了评价该检验指标的诊断能力,可以进一步计算曲线下面积(Area Under the Curve,AUC),AUC越大,提示指标的诊断能力越好。

 

 

除了应用在经典的诊断试验中,通常在构建好一个疾病预测模型后,ROC曲线及其AUC也可以延伸到用来对疾病预测模型的预测能力进行评估和判断。

 

当两个不同预测模型之间进行比较时,AUC越大,则提示模型对疾病发生概率的预测能力越好(戳链接:咋评价疾病预测模型?又见到熟悉的ROC曲线)。两个模型之间的AUC比较采用Z检验,统计量Z近似服从正态分布,计算公式如下:

 

 

其中SE1和SE2分别为AUC1和AUC2的标准误。

 

虽然ROC曲线及其对应的AUC已经在疾病预测模型的评价中得到了广泛的应用,但是由于计算AUC时综合了ROC曲线上所有点作为界值时的情况,而在实际的临床应用中,我们通常只会选取一个适宜的诊断切点,关心在这个切点下的诊断能力,而非所有点组成的曲线下面积。

 

同时,当我们在比较两个模型的预测能力时,特别是想要比较在模型中引入新的指标后,模型的预测能力是否有所提高,此时新加入的指标有时很难显著改善AUC,AUC的增量并不明显,其意义也不容易理解。在这种情况下,我们就需要用到另一个比较两个模型预测能力的指标——净重新分类指数(Net Reclassification Index,NRI)

 

净重新分类指数NRI

 

相对于ROC曲线及其AUC,NRI更关注在某个设定的切点处,两个模型把研究对象进行正确分类的数量上的变化,常用来比较两个模型预测能力的准确性。

 

简单的说,首先旧模型会把研究对象分类为患者和非患者,然后在旧模型的基础上引入新的指标构成新模型,新模型会把研究对象再重新分类成患者和非患者。

 

此时比较新、旧模型对于研究人群的分类变化,就会发现有一部分研究对象,原本在旧模型中被错分,但在新模型中得到了纠正,分入了正确的分组,同样也有一部分研究对象,原本在旧模型中分类正确,但在新模型中却被错分,因此研究对象的分类在新、旧模型中会发生一定的变化,我们利用这种重新分类的现象,来计算净重新分类指数NRI。

 

那么如何计算NRI值呢,方法其实也很简单。首先我们将研究对象按照真实的患病情况分为两组,即患者组和非患者组,然后分别在这两个分组下,根据新、旧模型的预测分类结果,整理成两个2×2的表格,如下表所示。

 

 

我们主要关注被重新分类的研究对象,从表中可以看出,在患者组(总数为N1),新模型分类正确而旧模型分类错误的有B1个人,新模型分类错误而旧模型分类正确的有C1个人,那么新模型相对于旧模型来说,正确分类提高的比例为(B1-C1) / N1,即对角线以上的比例-对角线以下的比例。

 

同理,在非患者组(总数为N2),新模型分类正确而旧模型分类错误的有C2个人,新模型分类错误而旧模型分类正确的有B2个人,那么新模型相对于旧模型正确分类提高的比例为(C2-B2) / N2,即对角线以下的比例-对角线以上的比例。

 

最后,综合患者组和非患者组的结果,新模型与旧模型相比,净重新分类指数NRI= (B1-C1) / N1+(C2-B2) / N2

 

若NRI>0,则为正改善,说明新模型比旧模型的预测能力有所改善;若NRI<0,则为负改善,新模型预测能力下降;若NRI=0,则认为新模型没有改善。我们可以通过计算Z统计量,来判断NRI与0相比是否具有统计学显著性,统计量Z近似服从正态分布,公式如下:

 

 

进一步将NRI的公式推导可以得出:

 

NRI =(灵敏度new - 灵敏度old)+(特异度new - 特异度old)=(灵敏度new + 特异度new)-(灵敏度old + 特异度old)

 

问题就转化为我们熟悉的灵敏度和特异度这两个指标了。我们在前期推送的文章中《如何比较两种方法的灵敏度和特异度?来看实例教程!》,讨论过这种复杂的情况:

 

如果灵敏度new >灵敏度old,特异度new >特异度old,此时可认为新模型优于旧模型,相当于这里的NRI >0;

 

如果灵敏度new < 灵敏度old,特异度new < 特异度old,此时可认为新模型劣于旧模型,相当于这里的NRI <0;

 

如果新模型和旧模型的灵敏度和特异度具有差异,但方向不一致时,就需要用到约登指数(灵敏度+特异度-1)来进行判断,而此时NRI就相当于新模型和旧模型的约登指数的差值,因此NRI在比较两个模型预测能力时更具有综合性。

 

研究实例1

 

如果还是不明觉厉,没关系,我们通过模拟一个研究实例,来向大家介绍如何在实际的研究中计算NRI。假设某研究纳入的样本中有患者180例,非患者415例,研究者拟评价,在旧模型的基础上加入新的生物标志物后,新模型预测能力的改善情况。

 

在本研究180例患者组中,旧模型预测阳性148人中有8人被新模型错分到阴性,旧模型预测阴性32人中有30人被新模型重新正确分到阳性组。而在415例非患者中,旧模型预测阴性360人中有15人被新模型错分到阳性,旧模型预测阳性55人中有32人被新模型重新正确分到阴性组,数据整理为如下表格。

 

 

根据上述NRI公式计算如下:

 

NRI= (B1-C1) / N1+(C2-B2) / N2=(30-8)/180+(32-15)/415=16.3%

 

Z=4.292,P<0.001,具有统计学显著性,提示在加入了新的生物标志物后,新模型的预测能力有所改善,正确分类的比例提高了16.3%。

 

研究实例2

 

在第一个例子中,我们设定的结局变量为是否患病的二分类变量,但在有些情况下,直接根据预测模型判断是否患病显得过于绝对,预测模型给出的是未来患病的概率值,研究人员可能更关注的是患病风险的大小,例如将研究对象根据预测的风险概率划分为高、中、低三组,由此可以采取不同的干预措施。

 

针对此时结局变量是3分类或者更多分类时,ROC曲线呈现出一个球面的形状,绘制起来比较困难,更无法直观的去比较两个预测模型的AUC了,而NRI却可以很好的解决这个问题,这也是我们在实际分析中最常用到NRI的地方。

 

我们结合一篇2008年发表在Stat Med杂志上的文章为例,《Evaluating the added predictive ability of a new marker: from area under the ROC curve to reclassification and beyond》,研究者以著名的Framingham Heart Study为基础,比较了在经典的模型中加入HDL-C指标后,新模型对于研究对象未来10年冠心病发病风险预测能力的改善情况。

 

研究人员首先比较了新、旧模型的ROC曲线,结果显示新、旧模型AUC分别为0.774和0.762,加入HDL-C后新预测模型AUC增加了0.012,差异无统计学显著性(P=0.092),提示新模型并无显著改善。

 

 

随后,研究人员又进一步将研究对象未来10年发生冠心病事件的风险概率,按照<6%,6-20%,>20%分为低、中、高三组,并计算了NRI,数据格式如下:

 

 

根据上述NRI公式,我们可以计算出:

 

NRI=[(15+0+14)-(4+0+3)]/183+[(148+1+25)-(142+0+31)]/3081=12.1%

 

Z=3.616,P<0.001,具有统计学显著性,提示在加入了新的生物标志物后,新模型的预测能力有所改善,正确分类的比例提高了12.1%。

 

由此可以看出,当两个模型的AUC差异比较无统计学显著性时,提示模型的区分能力(Discrimination)相近,但是进一步计算NRI后就会发现,新模型正确再分的能力(Reclassification)有显著提高,因此需要我们将AUC和NRI综合起来进行判断。

 

我们做了一个excel模板,大家把四格表的数据填进去,可以直接算NRI、Z和P,有需要的伙伴,请点击页面右上方的“下载资料”进行下载。

医咖会提供的所有模板,仅供大家科研工作所用,请勿做商业用途。

 

参考文献:

[1] Stat Med. 2008 Jan 30;27(2):157-72.

描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
我要提问
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
    提交问题