来源:“小白学统计”微信公众号;作者:冯国双。
上一篇文章通过一个例子说明,不少人经常用到“先做单因素分析,然后把单因素分析中有统计学意义的变量纳入多因素分析”,这种思路在有些情况下未必可靠。
其实这里关键的问题就是:到底有没有必要做单因素分析?如果做单因素分析,是不是只把单因素分析中有意义的变量纳入多因素分析,而没有统计学意义的变量就不用纳入多因素分析了?
这个问题其实没有完全统一的答案,不同的统计学家也有自己的想法和观点,所以本文所提到的观点,仅是个人见解,有不同意本文观点的,纯属正常。
我们先把上一篇文章留下的疑问解释一下,其实这个问题也有不少人问过我,说:有没有可能单因素分析没有统计学意义,而多因素分析变得有统计学意义了。我的回答是:有可能。上一篇文章就是这种情况。
那么,为什么会出现这种情况?我们来仔细分析一下。
正常情况下,lx变量在单因素和多因素分析中结果差别这么大,通常都是跟其它变量的影响有关系。所以,我们从4个自变量的相关性入手来看。
如果看一下4个自变量的相关性,你会发现,其实a、b、c这3个变量对lx的影响都不大,相关系数都为-0.1左右(这算不上很大的相关)。然而如果仔细观察,你会发现另一个有意思的现象:a、b、c这3个变量与lx变量的相关都是负的,相关系数都为负数。
这就能说明一定问题了。尽管a、b、c三个变量每一个对lx变量的影响都不大,然而3个都一起影响,那就有可能产生一定的作用了。
说的通俗一点,由于a、b、c这3个变量对lx变量的影响都是负的,而a、b、c与y的关系又都是正的,这就是说,单因素分析中,当分析lx与y的关系的时候,其实a、b、c这3个变量都扯了二者关系的后腿。
确认删除