统计分析前,要做哪些数据准备工作?

张耀文

张耀文

医咖会

擅长:研究设计、统计分析、循证医学、样本量计算、随机化方案、数据管理
已关注
关注
龚志忠

龚志忠

首都医科大学附属北京中医医院

擅长:临床研究数据统计分析、流行病学方法设计、临床预测模型建模与评价
已关注
关注
2022-04-24 来源:医咖会

到数据分析,首先会想到的可能是t检验、回归分析等各种具体的分析方法,但对于经历过完整数据分析的同学来说,最复杂、最耗费时间的步骤往往是数据的清理,也就是将数据整理成为能够进行上述统计分析的格式因此,本节内容我们将对数据的准备进行简要介绍,重点介绍数据审核,其次会用少量篇幅简单介绍数据在进行分析时的适用性。

在数据审核方面,主要考虑的是数据的完整性和合理性,也就是对缺失数据和离群值进行识别和处理。

对缺失值的处理

在很多情况下,研究中所收集的数据会出现缺失情况,缺失的类型大致可以分为以下三种:

① 完全随机缺失(Missing completely at random,MCAR),数据缺失随机发生,与自身及其他变量均无关,任何变量的每一条记录发生缺失的概率相同。例如由于设备故障、样品运输丢失等导致的数据缺失,可视为MCAR[1]。这是最理想的情况,但在许多领域中这种情况并不合理;

② 随机缺失(Missing at random,MAR),是一种较为合理的情况。缺失值与自身变量无关,但与其他研究变量相关。假设老师的职称越高,提供其工资信息的可能性越低,那么每个职称分组中可认为老师工资信息缺失是随机发生的,可以通过加权的方法进行解决;

③ 非随机缺失(Missing not at random,MNAR),即缺失值与自身变量有关。例如一项研究中对受教育程度情况进行了调查,受教育程度较低的个体可能存在该变量的缺失,这就是非随机缺失。

对缺失值最好的处理方法是预防缺失的发生,即通过合理的研究设计、预试验的开展、调查员培训等方法尽量保证数据的完整性。但当缺失值不可避免时,就需要通过一些统计学方法对其进行处理:

 缺失值删除

(a) 删除缺失数据行,适用于MCAR数据的处理,在大样本量且缺失较少的情况下很有效。该方法不会影响结果估计的准确性,但样本量会因此减小,从而影响结果的精确性;

(b) 删除缺失变量,适用于存在另一个无缺失的变量能够代替有缺失变量的情况,通常不建议采用这种方法,因为“保留数据总比删除数据好”;

(c) 选择性删除,在研究不同组合变量的相关关系时,可选择该组合内所有可用的数据进行估计,但由于模型不同部分的样本量可能不同,会导致研究结果的解释存在一定困难。

② 缺失值填补

(a) 均值、中位数和众数填补:根据数据分布,选择使用样本均值、中位数或众数对缺失值进行填补,没有考虑时序特征及变量间关系。该方法较为简单,但有明显缺陷,例如降低了数据方差;

(b) 多重填补:基于贝叶斯方法,创建多个填补数据集,即根据现有观测数据为每个缺失数据生成若干个可供填补的数值,结合填补后不同的结果,得出平均估计结果并考察缺失数据的不确定性[2];

(c) 回归填补:包括线性回归和Logistic回归。首先识别缺失变量的预测变量,其次使用无缺失记录生成预测方程,对缺失值进行预测:

(d) 虚拟变量设置:将是否缺失设置为虚拟变量,这是处理分类变量缺失较为简单的一种方法,但估计精度会下降;

(e) 线性内插法[3]:若缺失值与未缺失值间存在线性关系,根据缺失值的前一个和后一个观测值对缺失值进行计算;

(f) 临床试验中常用方法[4]:末次观察前推法(Last observation carried forward,LOCF),前次观察值后推法(Next observation carried backward,NOCB),基线值后推法(Baseline observation carried forward,BOCF),最差观测值推进法(Worst observation carried forward,WOCF)和将缺失值视为治疗失败法(Missing value treated as failure,MVTF)等。

评论
请先登录后再发表评论
发表评论
使用课程券需先认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈