统计分析前，要做哪些数据准备工作？

张耀文

医咖会

擅长：研究设计、统计分析、循证医学、样本量计算、随机化方案、数据管理

关注

个人主页

龚志忠

首都医科大学附属北京中医医院

擅长：临床研究数据统计分析、流行病学方法设计、临床预测模型建模与评价

关注

个人主页

2022-04-24 来源：医咖会

到数据分析，首先会想到的可能是t检验、回归分析等各种具体的分析方法，但对于经历过完整数据分析的同学来说，最复杂、最耗费时间的步骤往往是数据的清理，也就是将数据整理成为能够进行上述统计分析的格式。因此，本节内容我们将对数据的准备进行简要介绍，重点介绍数据审核，其次会用少量篇幅简单介绍数据在进行分析时的适用性。

在数据审核方面，主要考虑的是数据的完整性和合理性，也就是对缺失数据和离群值进行识别和处理。

对缺失值的处理

在很多情况下，研究中所收集的数据会出现缺失情况，缺失的类型大致可以分为以下三种：

① 完全随机缺失（Missing completely at random，MCAR），数据缺失随机发生，与自身及其他变量均无关，任何变量的每一条记录发生缺失的概率相同。例如由于设备故障、样品运输丢失等导致的数据缺失，可视为MCAR[1]。这是最理想的情况，但在许多领域中这种情况并不合理；

② 随机缺失（Missing at random，MAR），是一种较为合理的情况。缺失值与自身变量无关，但与其他研究变量相关。假设老师的职称越高，提供其工资信息的可能性越低，那么每个职称分组中可认为老师工资信息缺失是随机发生的，可以通过加权的方法进行解决；

③ 非随机缺失（Missing not at random，MNAR），即缺失值与自身变量有关。例如一项研究中对受教育程度情况进行了调查，受教育程度较低的个体可能存在该变量的缺失，这就是非随机缺失。

对缺失值最好的处理方法是预防缺失的发生，即通过合理的研究设计、预试验的开展、调查员培训等方法尽量保证数据的完整性。但当缺失值不可避免时，就需要通过一些统计学方法对其进行处理：

① 缺失值删除

(a) 删除缺失数据行，适用于MCAR数据的处理，在大样本量且缺失较少的情况下很有效。该方法不会影响结果估计的准确性，但样本量会因此减小，从而影响结果的精确性；

(b) 删除缺失变量，适用于存在另一个无缺失的变量能够代替有缺失变量的情况，通常不建议采用这种方法，因为“保留数据总比删除数据好”；

② 缺失值填补

(a) 均值、中位数和众数填补：根据数据分布，选择使用样本均值、中位数或众数对缺失值进行填补，没有考虑时序特征及变量间关系。该方法较为简单，但有明显缺陷，例如降低了数据方差；

(b) 多重填补：基于贝叶斯方法，创建多个填补数据集，即根据现有观测数据为每个缺失数据生成若干个可供填补的数值，结合填补后不同的结果，得出平均估计结果并考察缺失数据的不确定性[2]；

(d) 虚拟变量设置：将是否缺失设置为虚拟变量，这是处理分类变量缺失较为简单的一种方法，但估计精度会下降；

(e) 线性内插法[3]：若缺失值与未缺失值间存在线性关系，根据缺失值的前一个和后一个观测值对缺失值进行计算；

(f) 临床试验中常用方法[4]：末次观察前推法（Last observation carried forward，LOCF），前次观察值后推法（Next observation carried backward，NOCB），基线值后推法（Baseline observation carried forward，BOCF），最差观测值推进法（Worst observation carried forward，WOCF）和将缺失值视为治疗失败法（Missing value treated as failure，MVTF）等。