识别和控制混杂因素的统计分析方法

2023-10-08 来源:临床研究与循证医学

本文转载自“临床研究与循证医学”公众号,感谢授权。

(一)控制混杂的必要性和原理

混杂是一种由于暴露因素对某疾病的作用与其他病因对同一疾病的作用在同一个研究里交织在一起所引起的在暴露效应估计上的误差。混杂是一种偏倚,一种在暴露与结局关系上的偏倚,混杂因素必须同时具备以下三个条件(图1):

一、是疾病确定的病因或危险因素,即图1里性别必须是肺癌的真正病因或危险因素;

二、不是暴露和疾病关系之间的中间因素,如性别不可能是吸烟和肺癌之间的中间因素;

三、在目前的研究中与暴露因素有关,即可疑的混杂因素在暴露组和非暴露组存在差异或叫不可比,如吸烟人群中男性占比高于不吸烟人群。结果是,在研究吸烟与肺癌关系的研究中,如果性别是混杂因素,性别将会扭曲吸烟与肺癌的关系,低估或高估吸烟对肺癌危险的作用。

图片

图1 流行病学研究中暴露因素、结局事件和混杂因素

在观察性研究里,混杂是普遍的。因此,观察性研究对混杂的控制是必要的,需控制的因素必须首先符合前两个条件,控制的原理是切断第三个条件,即去除可疑危险因素在暴露组和非暴露组之间的区别或迫使它们可比。

对于前两个条件的判断,必须基于现有最好的、来自其他研究的发现或证据,而不是根据目前研究中的结果。如果控制了不符合前两个条件的因素,可能会引起不必要的偏倚。切断第三个条件,指在目前研究中切断第三个条件,从研究设计上有三种方法:限制、匹配和随机分组;在数据分析阶段也有三个方法:直接标化法、分层分析和多元回归

随机分组(random allocation)使随机对照试验中比较组之间所有可能的已知和未知的混杂因素得到平衡和可比,从而同时切断了所有可能的混杂因素的第三个条件,是所有控制混杂的方法中最简单、最有效的方法,因此随机对照试验无需在数据分析阶段采取混杂控制措施。但是,随机分组只能用于干预性研究,不能用于病因研究。其他控制混杂的方法主要适用于非随机分组的对照试验和观察性研究。

在男性里研究吸烟和肺癌的关系,不会受到性别的混杂影响,因为吸烟组和非吸烟组都是男性,在性别上完全可比,这是限制(restriction)控制混杂的原理。再以性别为例,匹配就是在暴露组和非暴露组纳入同样比例的男性和女性,使两组在性别上可比,从而消除了性别可能引起的混杂,这是匹配(matching)控制混杂的原理。

尽管观察性研究可以使用限制和匹配控制混杂,但是它们在病例对照研究里只能提高统计分析的效率,不能起到控制混杂的作用,反而有可能引入偏倚。在前瞻性研究里,二者都可以有效地控制混杂,但是由于操作上的复杂性,以及由此增加的费用和信息的损失,限制和匹配都不是队列研究(尤其是大型的、需要控制很多混杂因素的研究)用来控制混杂的可行方法。另外,匹配和限制后将不能再分析匹配和限制的因素与结局的关系,尤其在早期探索研究中,二者均会降低研究的效率,也是少用的原因。

因此,绝大多数队列研究和病例对照研究只能在数据分析阶段依靠统计学方法控制混杂。主要方法包括直接标化法、分层分析和回归分析。标化法和分层分析简单、直观、明了,容易理解和解释,是初步认识和控制混杂的最常用的方法。但是它们仅仅适用于一两个因素的控制,同时控制多个混杂因素,只有回归分析是可行、有效的方法。因此多元回归分析是观察性研究识别和控制混杂最重要的方法。

(二)识别和控制混杂的统计分析方法

如前所述,只有真正的病因和危险因素才能成为混杂因素,才需要在具体的研究中进行控制。控制混杂主要依赖分析阶段的措施,而控制混杂之前需识别混杂的存在。识别混杂的关键在于对混杂的第三个条件的认识,即对“混杂因素在目前的研究中与暴露因素有关”的理解。它的确切意思是,在目前的研究中,而不是在任何其他研究中,可疑的混杂因素在暴露组和非暴露组存在差异,存在不可比性。

因此,一个常用的识别混杂方法是,检查真正病因和危险因素在具体研究中暴露组和非暴露组之间的差别。只有组间存在差别的因素,才会引起混杂,才需要进行控制。非真正的病因和危险因素,以及暴露和结局之间的中间因素,即使组间存在差别也不需要控制。这就是各种研究基线比较的目的所在。

但是,在识别混杂是否存在及其大小时,不能根据组间差别的显著性进行判断,组间没有显著性差异不是没有混杂或混杂很小的保证,没有显著性的差异同样可能引起明显的混杂,因为组间差异的显著性还取决于组间差别的大小和样本量的大小,但混杂的大小还取决于混杂因素和疾病之间关系的强弱。比如,每组3人,暴露组男性2人,非暴露组男性1人,组间男性比例的差别没有统计学显著性,显然这不能排除性别可能引起的混杂,而且混杂是明显的。

正确的判断方法是,组间有差异,就有混杂。可见,这种方法仅仅用于识别混杂,而且是间接的、定性的方法,无法确定混杂作用的大小,也无法用来控制混杂。直接标化法、分层分析和回归分析是可以同时用于识别和控制混杂的定量的方法(框1)。

框1 观察性研究分析阶段控制混杂的方法

评论
请先登录后再发表评论
发表评论
使用课程券需先认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈