简单线性回归

SPSS教程回归分析
问答

点击绿色“提问”按钮

  • 针对本文提问
  • 查看历史问答

长按鼠标选中正文某句话

  • 对选中的内容进行针对性提问
一、问题与数据

研究表明,运动有助于预防心脏病。一般来说,运动越多,心脏病的患病风险越小。其原因之一在于,运动可以降低血胆固醇浓度。近期研究显示,一项久坐的生活指标—看电视时间,可能是罹患心脏病的预测因素。即看电视时间越长,心脏病的患病风险越大。

 

研究者拟在45-65岁健康男性人群中分析胆固醇浓度与看电视时间的关系。他们猜测可能存在正向相关,即看电视时间越长,胆固醇浓度越高。同时,他们也希望预测胆固醇浓度,并计算看电视时间对胆固醇浓度的解释能力。

 

研究者收集了受试者每天看电视时间(time_tv)和胆固醇浓度(cholesterol)等变量信息,部分数据如下:

 

二、对问题分析

研究者想判断两个变量之间的关系,同时用其中一个变量(看电视时间)预测另一个变量(胆固醇浓度),并计算其中一个变量(看电视时间)对另一个变量(胆固醇浓度)变异的解释程度。针对这种情况,我们可以使用简单线性回归分析,但需要先满足7项假设:

 

假设1:因变量是连续变量

 

假设2:自变量可以被定义为连续变量

 

假设3:因变量和自变量之间存在线性关系

 

假设4:具有相互独立的观测值 

 

假设5:不存在显著的异常值

 

假设6:等方差性

 

假设7:回归残差近似正态分布

 

那么,进行简单线性回归分析时,如何考虑和处理这7项假设呢?

思维导图

三、SPSS操作
请先登录
这么重要的内容,赶快登录查看吧!
四、结果解释
请先登录
这么重要的内容,赶快登录查看吧!
五、撰写结论

5.1 简洁汇报

 

简单线性回归结果提示,看电视时间与胆固醇浓度之间存在线性关系F(1,97) = 14.395(P<0.001);看电视时间可以解释胆固醇浓度变异的12.9%。回归方程如下:

 

胆固醇浓度= -0.944+(0.037×看电视时间)

 

5.2 统计结果报告

 

采用简单线性回归模型分析看电视时间对胆固醇浓度的影响。通过绘制散点图,直观判断两者之间存在线性关系,并通过绘制标准化残差散点图和带正态曲线的柱状图或P-P图,验证数据具有等方差性和残差正态性。同时为了保证数据的代表性,我们剔除了一项异常值(胆固醇浓度为7.98 mmol/L)。回归方程如下:

 

胆固醇浓度= -0.944+(0.037×看电视时间)

 

看电视时间对胆固醇浓度的影响有统计学意义,F(1,97)=14.395(P <0.001);看电视时间可以解释胆固醇浓度变异的12.9%,影响程度中等(调整R2= 12.0%)。每增加1分钟/天看电视时间,胆固醇浓度增加0.037 (95% CI:0.018-0.056)mmol/L。此外,看电视时间为160分钟/天、170分钟/天和180分钟/天的胆固醇浓度预测值分别为4.98 (95% CI:4.73-5.23)mmol/L、5.35 (95% CI:5.24-5.45)mmol/L和5.72 (95% CI:5.53-5.90)mmol/L。

 

5.3 散点图

 

根据4.2的讲解,我们已经可以绘制出基本的散点图,如下:

 

 

但是在汇报结果时,我们仍需要增加最佳拟合线、置信区间和预测区间等指标。具体操作方法如下:

 

(1) 双击散点图,激活Chart Editor

 

 

(2) 点击Element→ Fit Line at Total

 

 

出现下图:

 

 

同时,Properties对话框也会自动弹出

 

 

提示:如果只想做出最佳拟合线,到这一步就可以关闭Properties和Chart Editor窗口,Output Viewer窗口会自动出现下图,完成操作。

 

 

如果需要绘制置信区间和预测区间,请继续第(3)步的操作。

 

(3) 在Properties对话框中,点击Confidence Intervals中的Mean

 

 

(4) 点击Apply,出现下图

 

 

(5) 在Properties对话框中,点击Confidence Intervals中的Individual

 

 

(6) 点击Apply,出现下图

 

 

(7) 关闭Properties和Chart Editor窗口,Output Viewer窗口会弹出带有置信区间和预测区间的散点图

 

 

(8) 但是,一般学术报告都要求去除背景和边框颜色,这应该怎么做呢?双击散点图,激活properties窗口,在Fill & Border窗口内修改背景颜色

 

 

(9) 点击Fill,选择颜色框

 

(10) 点击Apply,背景颜色从灰色变为无色

 

 

(11) 点击Border,选择颜色框

 

(12) 点击Apply,边框颜色从黑色变为无色,图中上方和后侧的边框线消失

 

 

(13) 关闭Properties窗口

 

(14) 如果想改变坐标轴数字的保留位数,应如何做呢?双击纵坐标轴上的任意数字(如6.00),激活纵坐标轴的Properties窗口 

 

 

(15) 点击Properties窗口内的Number Format

 

 

(16) 将Decimal Places框内的“2”改成“1”

 

 

(17) 点击Apply,纵坐标数据由保留两位小数变为保留一位小数。但实际上,在本研究中胆固醇浓度保留两位小数比较合理,所以我们仍保留两位小数

 

 

(18) 点击Close,关闭Properties窗口

 

(19) 再进一步调整线型后,我们就可以得到学术出版要求的散点图,如下

 

六、延伸阅读

简单线性回归异常值的处理


数据异常值主要有以下三类:

 

(1) 数据录入错误

 

当出现异常值时,首先应考虑是否存在录入错误。这是最简单的异常值类型,我们只需要查到原数据,重新录入即可。

 

(2) 数据测量错误

 

如果不存在录入错误,我们就需要检查异常值是不是由测量错误导致的。比如,用量程为0-100°C的测试仪器测量温度,结果发现有些数据超过100°C,那么我们就推测这些数据是由于测量错误导致的。

 

在大多数情况下,测量错误都无法弥补,我们一般建议直接剔除这些数据。但如果我们知道这些异常值的方向,如上述的例子中,存在大于100°C的数据,我们可以录入为上限值100°C。虽然这样会造成偏倚,但对数据的影响仍小于直接剔除异常值。

 

(3) 自然的数据异常值

 

如果异常值既不是录入错误,也不是测量错误,是数据中自然存在的,那么我们就不能仅仅因为这些异常值影响了线性回归的基本假设就直接剔除。针对这类异常值,既往研究没有统一的处理意见,建议研究者按照自己的喜好处理。

 

处理异常值后需要重新进行检验和分析。同时,值得注意的是,如果数据中存在多于一个异常值,我们可以先处理其中比较严重的,并重新检验,可能其他潜在异常值就不再是异常值了。

 

发现异常值后,我们如何做呢?

 

6.1 保留异常值

 

如果不希望或者不能剔除异常值,我们可以采取以下措施:

 

(1) 对因变量进行数据转换

    

数据转换可以改变数据的分布比例,从而影响异常值的检验结果。但由于数据转换,回归系数会比较难解释,增加了数据分析的难度。同时,我们也必须确定转换后的数据满足等方差性和残差正态性,重新检验回归假设。

 

(2) 分别运行纳入和不纳入异常值的回归模型,若结果没有差异,保留异常值

 

剔除或者处理异常值的目的是为了减小异常值对回归结果的影响。如果能证明数据中的异常值对回归结果(如回归系数和置信区间)没有明显影响,我们就可以保留异常值。即分别运行纳入和不纳入异常值的回归对比结果,分析异常值对回归结果的影响程度,从而判断异常值的去留。

 

(3) 选择更稳健的回归模型

 

我们也可以通过调整标准误,运行更稳健的回归模型,但是SPSS现在还没有这项操作。

 

6.2 剔除异常值

 

我们可以直接剔除异常值,但这往往是我们迫不得已的做法。因为我们进行数据分析是为了根据样本结果推论总体,但直接剔除异常值就相当于不再考虑这部分人的信息,忽略了他们在总体人群中的作用。

 

如果一定要剔除异常值,我们就应该在报告中描述被剔除者的信息(数据以及对研究结果的影响)。这样读者就可以清楚地了解到我们剔除异常值的原因以及这些异常值可能存在的影响,消除大家对研究结果的质疑。

 

举例来说,本研究中异常值的胆固醇浓度为7.98 mmol/L,远高于普通人群的胆固醇浓度,提示存在心脏病风险。尽管我们希望了解人群胆固醇浓度的基本情况,但是我们并不想纳入存在临床指征或心脏病高危风险的患者。胆固醇浓度这么高的人不是我们的目标人群,所以本研究直接剔除该异常值。

请先登录
这么重要的内容,赶快登录查看吧!
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
Next
Previous
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
    提交问题