统计方法是数据分析的基石,其研究结果是改变临床医学实践和决策的基础。为了更清晰地表达分析结果,研究人员往往将数学语言转化成直观易懂、易于理解的简单语言。
例如,说明两个变量之间的相关性“非常强”,或报告两个评价者之间的一致性“差”,对大多数读者来说,比简单的数字结果更容易让人理解。相反,当缺乏这种简单易懂的解释时,论文的读者可能会需要一定的参考值,以帮助他们理解报告的数值。
然而,仍然需要强调的是,这种通俗易懂的解释只能作为数值结果的一种补充说明,而非完全替代。
对此,荷兰阿姆斯特丹大学医学院麻醉科Patrick Schober教授发表了一篇论文《Statistics From A (Agreement) to Z (z Score): A Guide to Interpreting Common Measures of Association, Agreement, Diagnostic Accuracy, Effect Size, Heterogeneity, and Reliability in Medical Research》,对各种常见的统计指标的界值进行了介绍说明,并对医学研究中的一些常用统计指标进行简单易懂的解释。小咖将分几期内容来进行一一介绍。
总则
虽然作者旨在就如何对统计结果进行解释提供一定的指导,但这并不意味着,这些结果应如本文所建议的那样进行普遍的解释。相反,作者更强调经验法则的解释应该需要明智地使用。使用界值或阈值对连续变量进行分类本身就存在着问题。
例如,刚好高于阈值的值与刚好低于阈值的值的解释是不同的,而在其他条件相同的情况下,它们的解释本质上应该是非常相似的。因此,将连续变量数值转换为离散变量会丢失很多信息,这就解释了为什么统计人员不愿意在分析中对数据进行离散化处理。
所有界值在文献中的应用是不一致的,通常取决于特定的临床或科学研究背景。此外,测量的绝对值及其解释通常取决于几个必须考虑的因素,例如,评估值的范围(例如相关性分析)、等级量表中的项目数(例如Cronbach’s α),类别的数量和评分属性的一致性(例如kappa系数)。
在解释统计方法的结果时,研究人员还应评估各自统计方法选择是否恰当,确认该方法所依据的关键假设已得到满足,并考虑偏倚来源。当收集和/或分析数据的基本过程不恰当时,任何通俗易懂的解释都可能会产生误导。
即使数据收集和分析是适当的,但需要引起重视的是,统计量是基于给定样本的总体参数的估计值。样本总是受到抽样误差的影响,在样本中观察到的所谓的点估计值(例如,观察到的相关系数)可能与感兴趣的实际总体参数(例如,潜在总体人群中的真实相关性)并不一致。
为了解释这种不确定性,统计指标的解释不应只关注点估计值,作者还应该考虑报告置信区间(CI)的整个范围,它提供了总体参数的合理值的最佳估计。
相关性Correlation
相关系数测量的是两个变量之间的关联强度。在一般医学研究论文中普遍都会报道相关系数。
Pearson相关系数描述了线性关系的强度,需假设两个变量都是连续变量,且呈近似正态分布。Spearman秩相关系数没有对数据分布做出任何假设,只是要求数据可以以一种有意义的方式进行排序。它描述了单调关系的关联强度,即一个变量的值随着另一个变量的值的增加而不断增加或减少,但不一定以线性方式增加或减少。
相关系数范围一般为-1至+1。正值表示一个变量的值随着另一个变量的值的增加而增加,而负值表示相反的关系。绝对值越来越接近1,表示关系越来越密切。
Pearson相关系数平方(或R2,决定系数)也经常在文献中报道。它的解释为一个变量被另一个变量解释的方差的比例(或百分比)。例如,表1中的Pearson相关系数对应的可解释的方差分别<1%、1%-15%、16%-48%、49%-80%和≥81%,相应的可解释的方差比例为“可忽略”、“较低”、“中等”、“较高”和“非常高”。
Cronbach’α系数
Cronbach’α系数是评价多条目评分量表的可靠性,即内部一致性的指标。评分量表广泛应用于心理学和社会科学,以解决所谓的无法直接测量的潜在结构,如自尊、焦虑、抑郁、躯体化等。
一个最为常见的例子就是李克特式(Likert)评分量表,在该量表中,评估者或受访者对每个问卷测量条目使用“非常同意”、“同意”、“中立”、“不同意”或“非常不同意”等描述词,来对观察结果、看法、态度、认知、表现等进行分类。
在医学研究中,心理测量评分量表应用越来越多,越来越强调不能直接测量的有关患者幸福感方面的问题,包括患者满意度、恢复质量或与健康相关的生活质量等等。
在开发、修订或评估评分量表的研究中,尽管存在一些局限性,但Cronbach’α仍然是最常用的评估内部一致性的指标。Cronbach’α的主要假设是所有的量表条目都是连续的,且呈正态分布,所有的量表条目都具有相同的潜在结构,每个条目对量表总得分的贡献是相等的(称为tau等效)。
当所有量表条目反映相同的结构时,整个量表条目的不同子集应产生一致的结果。
Cronbach’α反映了量表条目之间的相关程度或相互关系,它的值通常在0到1之间,值越接近于1表示内部一致性越强。然而,Cronbach’α值对量表条目的数量较为敏感,条目越多,Cronbach’α值越高,过高的值说明量表条目的冗余度较高。
虽然在文献中对Cronbach’α通俗易懂的解释差异较大,但Cronbach’α≥0.7通常被认为是“可接受的”。值得注意的是,这种情况主要适用于量表用于研究目的的情况(例如,比较两组患者之间的患者满意度)。
当量表用于临床评估时,通常需要更高的值(≥0.9)。因此,当量表用于患者治疗的临床决策时,“可接受”甚至“良好”的可靠性,可能并不够好。
确认删除