在处理缺失值前,你得先搞清楚是哪种缺失

2018-09-05 来源:小白学统计

来源:“小白学统计”微信公众号;作者:冯国双 

缺失值是一个几乎在任何研究中都存在的问题,你进行任何的调查、测量,总是不可能保证所有数据都齐全。目前关于缺失值的研究已经发展出一个专门的领域,处理缺失值的方法也很多,本文主要先介绍一下缺失值的几种情况。

有的人说,有缺失值,我假装看不见,直接把数据扔到统计软件中,让软件自己给我处理吧。那么统计软件是如何处理你这种态度呢?

在统计软件中,如果你忽略缺失值,直接把缺失和非缺失的数值都一股脑扔到软件里,(当你做多因素分析时)它会自动把缺失的观测删除,不管这个观测是有1个变量缺失还是10个变量缺失。设想一下,你有10个变量,100个数值,假设每个变量缺失9个,而且每个变量缺失的都不重复,那就麻烦了,那软件就会认为你一共缺失了90例,最后给你用在分析上的,只有10例了。

所以,如果你想假装看不见是不行的,必须采取一定的措施。不过本文暂不介绍如何处理缺失值,先了解几个与缺失有关的概念。

缺失值主要可分为三种情形:

(1)完全随机缺失(MissingCompletely at Random,MCAR)

完全随机缺失的意思是,缺失的数据与自身和其它任何变量都没有关系。

这句话很多人都不好理解,什么叫跟自身无关?

举个例子,某研究调查了收入、教育程度等变量,如果收入有缺失,而且这种缺失与收入本身无关,与其它变量也无关。这就是完全随机缺失。

这里先说一下,什么叫跟自身无关,意思是不管收入高的人还是收入低的人,都有同样的缺失率;如果跟本身有关,意思是,可能收入高的人缺失更多(也许是怕露富,也许是收入来源难以启齿,等等各种原因,所以不想填),而收入低的人缺失较少。

评论
请先登录后再发表评论
发表评论
使用课程券需先认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈