三因素方差分析

SPSS教程方差分析
问答

点击绿色“提问”按钮

  • 针对本文提问
  • 查看历史问答

长按鼠标选中正文某句话

  • 对选中的内容进行针对性提问
一、问题与数据

某研究者想研究某类新药降低胆固醇水平的效果。由于该类新药特殊的分子机制,该研究者假设该类新药对男女的影响不同,也对心脏病风险不同的人影响不同。该类新药有3种药物(药物A、药物B、药物C),该研究者不确定哪种药物更有效。

 

因此,该研究者招募72位受试者,包括36位男性和36位女性。每种性别中,受试者按心脏病风险分为低风险和高风险亚组。每一亚组均继续分为3组,分别接受A、B、C三种药物中的一种,用药一个月后,收集患者的胆固醇水平。

 

最终,研究者收集了受试者胆固醇水平(cholesterol)、性别(gender)、心脏病风险(risk)和所用药物(drug)的变量信息,部分数据如下:

 

 

 

对于gender、risk和drug各值对应的含义如下表所示:

 

 
二、对问题分析

研究者已知两个自变量对因变量存在交互作用,想判断第三个自变量对这一交互作用是否存在影响。针对这种情况,我们可以使用三因素方差分析(Three-way ANOVA),但需要先满足6项假设:

 

  • 假设1:因变量唯一,且是连续变量

     

  • 假设2:存在三个自变量,且都是分类变量

     

  • 假设3:具有相互独立的观测值

     

  • 假设4:自变量的任一分类中因变量不存在显著异常值

     

  • 假设5:自变量的任一分类中因变量需近似正态分布

     

  • 假设6:自变量的任一分类中因变量都具有等方差性

三、假设判断

那么,用Three-way Anova分析时,如何考虑和处理这6个假设呢?

 

由于假设1-3都是对研究设计的假设,需要研究者根据研究设计进行判断。本例中因变量只有研究对象的胆固醇水平,是连续变量,符合假设1:因变量唯一,且为连续变量;

 

共有3个自变量:性别(gender)、心脏病风险(risk)和所用药物(drug),都是分类变量,符合假设2:存在三个自变量,且都是分类变量;

 

至于假设3,我们之前的章节(如简单线性回归分析)中介绍过使用Durbin-Watson检验判断观测值是否相互独立的方法,这里不再赘述。同时,我们也认为观测值是否相互独立主要与研究设计有关,也需根据实际情况判断。

 

下面我们主要对数据的假设4-6进行判断。

 

(一) 检验假设4、5的操作

 

在检验假设4和假设5之前,我们还需要先拆分数据(即将数据根gender、risk和drug拆分成12类),运行检验操作,再合并数据。

 

1. 拆分数据

 

(1) 点击Data→Split File

 

  

出现下图:

 

 

(2) 点击Compare groups

 

 

(3) 将gender、risk和drug放入Groups Based on栏

 

 

(4) 点击OK

 

2. 针对每一分类,检验异常值(假设4)和正态性(假设5)

 

(1) 点击Analyze→Descriptive Statistics→Explore

 

 

出现下图:

 

 

 

(2) 将cholesterol放入Dependent List栏

 

 

(3) 点击Plots,弹出下图:

 

 

(4) 去掉点选Descriptive栏中的Stem-and-leaf,点选Normality plots with tests

 

 

(5) 点击Continue,回到Explore窗口

 

(6) 在Display栏中点击Plots

 

 

(7) 点击OK

 

(二) 检验假设4:自变量的任一分类中因变量不存在显著异常值

 

1. 异常值分析结果

 

与其他方差分析一样,三因素方差分析对异常值非常敏感。这些数据不仅会扭曲各分类之间的差异,还会影响结果的外推性。因此,我们必须充分重视分析中的异常值。

 

经上述SPSS操作,软件会自动输出本研究中每一分类的箱式图,共12个。以下面两个举例:

 

 

左侧是男性、心脏病风险为“low”、使用“drug C”组的箱式图,未提示存在离群值。右侧是女性、心脏病风险为“high”、使用“drug A”组的箱式图,下方的“*”提示异常值。

 

在SPSS中,将距离箱子边缘超过1.5倍箱身长度的数据点定义为异常值,用“圆圈”表示,右上标为异常值在数据表中所对应的行数,以圆点表示;将距离箱子边缘超过3倍箱身长度的数据点定义为极端值(极端异常值),用“*”表示,右上标代表异常值在数据表中所对应的行数。

 

本例中,一位心脏病风险为“high”、使用“drug A”的女性,在本组中与其他人比较时,有异常低的胆固醇浓度。

 

2. 异常值的处理

 

(1) 导致数据中存在异常值的原因有3种:

 

1) 数据录入错误:首先应该考虑异常值是否由于数据录入错误所致。如果是,用正确值进行替换并重新进行检验;

 

2) 测量误差:如果不是由于数据录入错误,接下来考虑是否因为测量误差导致(如仪器故障或超过量程),测量误差往往不能修正,需要把测量错误的数据删除;

 

3) 真实存在的异常值:如果以上两种原因都不是,那最有可能是一种真实的异常数据。这种异常值不好处理,但也没有理由将其当作无效值看待。目前它的处理方法比较有争议,尚没有一种特别推荐的方法。

 

需要注意的是,如果存在多个异常值,应先把最极端的异常值去掉后,重新检查异常值情况。这是因为有时最极端异常值去掉后,其他异常值可能会回归正常。

 

(2) 异常值的处理方法分为2种:

 

1) 保留异常值:

 

① 进行更稳健的三因素方差分析,由于SPSS没有办法做更稳健的三因素方差分析,除非有其他程序包时才选此操作;

 

② 将异常值替换成其他非异常值(如,用第二最大的值替代);

 

③ 因变量转换成其他形式;

 

④ 将异常值纳入分析,并坚信其对结果不会产生实质影响。

 

2) 剔除异常值:

 

直接删除异常值很简单,但却是没有办法的办法。当我们需要删掉异常值时,应报告异常值大小及其对结果的影响,最好分别报告删除异常值前后的结果。而且,应该考虑有异常值的个体是否符合研究的纳入标准。如果其不属于合格的研究对象,应将其剔除,否则会影响结果的推论。

 

本研究选择将异常值纳入分析,并坚信其对结果不会产生实质影响。

 

(三) 检验假设5:自变量的任一分类中因变量近似正态分布

 

1. 正态分布分析结果

 

本研究采用Shapiro-Wilk检验数据正态性。看过其他章节(如多重线性回归)后,大家应该知道检验数据正态性的方法有很多种。本研究采用Shapiro-Wilk检验的原因在于每一组中的样本量较小,而Shapiro-Wilk检验主要适用于这种小样本的正态性检验(样本量<50)。

 

SPSS输出Shapiro-Wilk检验结果如下:

 

 

一般来说,如果Shapiro-Wilk检验的P值小于0.05,我们就认为数据不符合正态分布。从上表第二个标黄的位置可知,对于心脏病风险为“high”、使用“drug A”的女性组,其胆固醇水平不正态,除了该组,其他组的P值均大于0.05。 

 

2. 如果数据不服从正态分布,可以有如下4种方法进行处理:

 

(1) 数据转换:对转换后呈正态分布的数据进行三因素方差分析。当各组因变量的分布形状相同时,正态转换才有可能成功。对于一些常见的分布,有特定的转换形式,但是对于转换后数据的结果解释可能比较复杂。

 

(2) 直接进行分析:由于方差分析对于偏离正态分布比较稳健,尽管没有专门针对三因素方差分析的验证。实际上,如果样本量不是很小,对于稍微偏态的分布,只要各组偏态分布相似,都不会认为用方差分析有问题。然而,对于偏态程度多大是可以接受的,目前没有一致的意见。因此,如果直接进行检验,需要在结果中对正态分布的偏离的程度进行报告。

 

(3) 检验模型结果:因为没有可以替代三因素方差分析的非参数检验方法,将转换后和未转换的原始数据分别进行三因素方差分析,如果二者结论相同,则采用未转换的原始数据分析的结果即可。

 

(4) 选择更稳健的三因素方差模型。

 

本研究选择直接进行分析。

 

(四) 合并数据

 

在在进行三因素方差分析的操作之前之前,我们先来把数据合并,具体操作如下:

 

(1) 在主菜单点击Data→Split File

 

 

 出现下图:

 

 

(2) 点击Analyze all cases, do not create groups

 

 

 (3) 点击OK

 
四、SPSS操作
请先登录
这么重要的内容,赶快登录查看吧!
五、结果解释
请先登录
这么重要的内容,赶快登录查看吧!
六、撰写结论

采用三因素方差分析gender、risk和drug对胆固醇水平影响。通过箱式图判断,本研究数据存在一个超过3倍箱式长度的异常值,经Shapiro-Wilk检验,除了一个组(女性、risk为high、使用drugA,P=0.009)之外,其他组的胆固醇水平均服从正态分布; Levene方差齐性检验结果显示方差齐(P=0.994)。

 

在本研究中,gender、risk和drug对胆固醇水平的影响上存在三因素交互作用,F(2, 60) = 7.406,P=0.001。

 

简单两因素交互分析作用结果显示,在男性中,drug和risk的简单两因素交互作用存在,F(2, 60) = 5.252,P=0.008;在女性中,drug和risk的简单两因素交互作用不存在,F(2, 60) = 2.868,P=0.065。

 

简单单独效应分析结果显示,在男性、具有心脏病风险为高的研究对象中,drug对胆固醇水平的简单单独效应存在,F(2, 60) = 14.766,P<0.001;但在男性、具有心脏病风险为低的研究对象中,drug对胆固醇水平的简单单独效应不存在,F(2, 60) = 0.660,P=0.521。

 

除非特殊说明,本研究均使用均数±标准差反映数据情况。采用成对比较分析男性、risk为high组中drug的简单两两比较结果,并用Bonferroni法进行校正。

 

在该组中,使用Drug A、Drug B和Drug C的研究对象的胆固醇浓度分别为6.13 ± 0.36 mmol/L,5.44 ± 0.33 mmol/L和5.26 ± 0.27 mmol/L。

 

Drug A与Drug B组中研究对象的胆固醇浓度差值为0.687 (95% CI, 0.274~1.100) mmol/L,P<0.001,差异具有统计学意义;Drug A与Drug C组中研究对象的胆固醇浓度差值为0.863 (95% CI, 0.449~1.276) mmol/L, P<0.001,差异具有统计学意义;而Drug B与Drug C组中研究对象的胆固醇浓度差值为0.176 (95% CI, -0.237~0.589) mmol/L, P=0.897,差异不具有统计学意义。

请先登录
这么重要的内容,赶快登录查看吧!
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
Next
Previous
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
    提交问题