有缺失值怎么办?介绍5种处理缺失值的方法

2019-09-29 来源:“小白学统计”微信公众号

文章来源:“小白学统计”微信公众号

如果你调查的数据发现有缺失(这几乎是不可避免的),首先建议先做一些分析,比如这些缺失数据和全部数据在性别、年龄等一些指标上有无差异(但愿是没有差异的)。

如果差别不大,那还勉强说的过去,如果差别较大,那就麻烦了。审稿人肯定会说,为什么全部数据中男性占50%,而缺失数据中男性占70%?这是不是说明缺失的主要是男性,那会不会影响你的主要研究结局?等等之类的。当然,理论上,你需要证明在所有的因素中差别都不大,但这一点很难,实际中,很多人都是大概看看在一些主要的基线资料中差别不大就算是心里安慰了。

先说一个原则性问题,处理缺失值最好的方式是什么?答案是:没有最好的方式。或者说,最好的方式只有一个,预防缺失,尽量不要缺失。

听起来像开玩笑,但这是真理。任何的填补技术都是有问题的,就像有人说的,所有的统计方法都是错误的,任何的统计方法都是有条件的,在适当条件下,结论可能比较可信,否则就是错误的。

缺失值的处理有很多种方式,本文先说一些比较简单的。

直接删除法

这种方法简单粗暴,是非专业人士很喜欢用的方式。可能你会说,这算是什么方法?事实上,在有些时候,这种方法也是有效的。在缺失数很少的时候,这种方法无可厚非,而且效率很高。如调查了1000人,只有30人缺失,可以考虑删除,通常影响不会太大。

但这么理想的情况不多见,更多的是缺失率较高的情形。如每个变量缺失30个,这时尽管每个变量缺失都不多,但如果缺失没有重合,只要有一个变量缺失,就要删除整条观测。因此如果直接删除的话,如果有10个变量缺失,就要删除300条,那就不一样了。

一般情况下,很少有恰好所有变量都在相同的观测缺失,所以,当有缺失数据的变量很多的时候,直接删除会导致样本量减少很多。即使你不在乎分析精度,起码也得考虑一下前期花费的精力吧,相当于你花了100%的精力却只拿到了70%或60%的回报。

评论
请先登录后再发表评论
发表评论
满城风絮
如果你调查的数据发现有缺失(这几乎是不可避免的),首先建议先做一些分析,比如这些缺失数据和全部数据在性别、年龄等一些指标上有无差异(但愿是没有差异的)------您好,请问下:这里的“做一些分析”是指什么分析呢?类似于两样本的检验吗?
2022-03-02 23:50:18 回复
0
阿鲁
我认为可以简单地看一下有缺失值的该变量是否有一定特点,比如说该变量与其他自变量相关性(年龄性别收入文化程度等),以及与结局变量的相关性。
2022-03-05 15:35:28 回复
0
阿鲁
可以统计一下题项的频数分析与条形图,看一下u而是情况,再与其他变量做相关性分析?
2022-03-05 15:44:47 回复
0
使用课程券需先认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈