如何比较两种方法的灵敏度和特异度？来看实例教程！

李延龙

上海盛迪医药有限公司

擅长：研究设计和统计分析

关注

个人主页

2018-11-26 来源：医咖会

在诊断试验或者筛查试验中，一般通过某方法与金标准的比较，计算相应灵敏度、特异度、阳性预测值以及阴性预测值等指标，从而评价这种方法的诊断或筛查价值。

今天聊聊另外一个经常遇到却总是难倒大家的问题——两种诊断方法的灵敏度和特异度比较（这里也是详细回复小伙伴提出的问题~~~）。

临床上，我们会经常遇到这样一种情况，两种检查方法都可以用于诊断疾病，但都不是金标准，于是乎就想比较一下哪种方法更好。举个栗子，200人参加了某项临床研究，分别进行了CT和超声两种检查，计算CT和超声相对于金标准的灵敏度和特异度（详见表1和表2），然后问题就来了，你怎么衡量两种方法的好坏。

有的小伙伴可能要说，直接用配对资料的卡方检验（或Kappa一致性检验）比较一下CT和超声，不就搞定了吗？但是，这里要解决的是CT和超声相对于金标准的好坏，问题并没有解决。有的小伙伴会想，比较两种方法ROC曲线下面积呀。问题是这里并没有涉及到多个诊断切点，也就不会有ROC曲线下面积的概念。办法总比问题多，我们来换个思路解决这个问题——直接比较两种方法的灵敏度和特异度[1]。

由表1和表2可以得到，超声的灵敏度明显高于CT（72%>58%），而特异度却略低于CT（87%<90%）。这么看好像超声要比CT好，但是不要忘了还有抽样误差，还需要进一步的统计学检验。

我们关注的是两种方法灵敏度和特异度的差别，但无论是灵敏度还是特异度，都是在金标准诊断下的病人或者非病人中计算得到的，那么比较超声和CT的灵敏度，就可以在病人当中进行配对卡方检验，特异度同理。数据可以重新整理为表3和表4。通过配对卡方检验，CT和超声的灵敏度和特异度差异均无统计学意义（P>0.05）。