来源:“小白学统计”微信公众号;作者:冯国双。
“相关”这个词很常用,或者说,很通俗,只要是想说明两个或多个变量的关系,似乎就可以考虑相关分析。但是要注意,“相关分析”并不等于我们平时在文章中所说的Pearson相关。
通常,我们在文章中,都会说相关系数等于0.72之类的内容,这里的相关系数绝大多数都是指Pearson相关。但事实上,还有很多其它相关,而且,有时你用的Pearson相关也未必正确。本文主要说一下相关分析中的一些注意事项。
问题1:相关与回归,我该选择哪个?
相关与回归都是分析变量间关系的方法,但不少人搞不清楚,我到底什么时候用相关,什么时候用回归。这个其实主要从研究目的来定,这两种方法侧重的研究目的不同。
相关(correlation)从字面意思就可以看出它描绘的是变量间的“相互”关系,即两个或多个变量不区分主次关系,重在解释变量间的关联。
而回归分析中的变量地位不同,有主次之分,注意力集中在其中的一个或几个自变量对因变量的影响,而不是因变量对自变量的影响。
在有的结构很清楚的软件中,如JMP软件,是将相关置于“多元分析”的菜单下,为什么呢?因为相关分析中,所有变量都是结果,没有原因,就是看这些变量之间的相互关系。
而回归分析则不是,只有一个结果,其它都是原因(注意这里的原因不是从时间上或因果关系上所谓的那个原因,只是为了说明问题,不是很严谨)。比如分析高血压的影响因素,高血压可以看做结果,而性别、年龄等因素可以看做原因。因为你想看的是性别、年龄等对高血压的影响,而不想反过来看高血压对年龄的影响。这就是回归分析。
问题2:没有线性相关就说明没有关系?
一般而言,我们所说的相关都是指线性相关,但这只是一般情况,而不是所有情况。比如,Pearson相关系数(主要用于正态分布数据之间的相关)和Spearman相关系数(主要用于非正态分布的数据之间的相关),这两个相关系数主要是用于线性相关的关联性度量,但是如果相关系数=0.1,并不代表说就没有相关。此时结论只能说无“线性相关”,但不能说没有“相关性”。
确认删除