文章来源:“小白学统计”公众号。感谢作者授权。
几乎所有的生存分析中,有两个结果几乎是必报道的,一个是生存曲线,一个是中位生存时间。本文直观地介绍一下生存曲线怎么来的,中位生存时间怎么算的。然后顺便说一下中位随访时间怎么算的。因为最近有几个朋友恰好都问过这个问题,中位生存时间知道怎么回事,但是中位随访时间就不知道怎么计算了。所以本文一并说一下。
(1)先说生存曲线
生存曲线的样子大家肯定都见过,就像下面这个图。
生存曲线相当于把不同时间点计算的生存率用阶梯形状连接起来。所以生存曲线的纵坐标写的是survival probability。不过这里关键的一点也就是如何计算生存率。
理论上,如果没有失访,结局只有死亡和生存两类,这种情况下,计算生存率很简单,根据不同时间点的死亡人数计算即可。然而对于生存数据来说,困难的一点在于:有失访存在。而失访的人,你是没有办法判断他是死亡还是生存的。
比如下面10个数据(带+号的数据表示失访,单位为月),表示第3个月死亡1例,第4个月失访1例,第5.7个月失访1例,……
用图形展示如下:
如果要计算第3个月的生存率,很简单,总共10人,死亡1例,生存率就是90%。但如果计算第6个月生存率就比较棘手,4月和5月失访的2个人,到底算是生存还是死亡呢?如果是生存,那生存率就是90%,如果是死亡,那生存率就是70%。而问题就在于:没有人知道他们是否生存。
所以常规的计算方式在这里不大好使。所以生存分析中就采用了一种叫做Kaplan-Meier的估计方法(也叫product-limit法)来估计生存率。它的思路其实很简单,就是:如果要计算第6个月的生存率,首先用于计算的这些人应该活过第5个月。这种计算也叫做条件概率,因为第6个月的计算,依赖于第5个月的条件。
确认删除