众所周知,随机对照试验(RCT)能提供高等级的证据。然而,并不是所有的问题都能通过RCT来解决。例如要探讨大学教育会不会影响收入,你不能找一群考上大学的高三毕业生随机分成两组,一组上大学,一组不上大学,待四年之后前瞻性观察两组的收入吧?(要是我考上清华北大,却被分到不上大学那组,多不人道啊!)因此有些研究问题不得不使用观察性研究方法。
但是,观察性研究不可避免的会存在选择偏倚,例如上大学的人在某些方面(例如学习能力)和没上大学的人存在差异,这些差异对研究终点(收入)又可能产生影响。为解决这一窘境,倾向值分析(匹配是其中的一种)应运而生,并最早应用于社会学研究,后来又进一步应用于医学领域。
倾向值指的是被研究个体在控制可观察到的混杂变量的情况下,接受某种干预(治疗)的条件概率。PSM的精髓在于将众多可观察到的混杂变量整合成一个变量——倾向值,由于具有相同或相近倾向值的个体的其他变量在分布上具有相同的特征,故将处理组和对照组的个体根据倾向值进行匹配,从而平衡两组样本的基线数据(想一想,这不就达到类似随机分组的效果了吗?)。由于混杂变量在倾向值匹配的过程中被控制起来,两组结局上的差异就只能归因于干预措施的有无了。
下面我们以2006年发表在European Heart Journal上的一篇文章来简要介绍下1:1 PSM的原理和步骤。
研究背景及目的:长期使用利尿剂对慢性心衰患者预后的影响
非保钾利尿剂由于有激活神经内分泌系统的作用,对慢性心衰患者的预后可能有害,该研究旨在探究长期使用利尿剂对慢性心衰患者预后的影响。
研究方法
研究人群:Digoxin Investigation Group (DIG)研究队列,共6067名患者入选(排除使用螺内酯和其他保钾利尿药者),应用PSM进行1:1配对,最后共纳入2782名患者进行分析,包括1391名利尿剂使用患者和1391名未使用利尿剂患者。
确认删除