统计图是统计描述的重要工具,也是辅助作者和读者沟通的有效工具,它在视觉上比统计表更简洁、明了,但是面对多种多样的统计图,你真的会用吗?英国医学杂志刊出的一篇综述《Graphics and statistics for cardiology: comparing categorical and continuous variables》中[1],作者对如何根据数据特点选择合适的统计图进行了详细的讲解。
上一期,我们介绍了第一部分:“单个变量的数据”,本期接着讲涉及两个及多个变量的设计图。
一、比较两个变量的图表
其实我们介绍过的描述单变量的统计图,如点状图(dot chart)、小提琴图(Violin Plot)、堆栈式条形图(Stacked bar chart),同样适用于描述两个变量,通常表现为因变量/结局变量随自变量/协变量的分布。同样的,根据变量不同的类型来决定选用哪种统计图。
1. 连续变量VS分类变量
当结局变量为连续变量,协变量为分类变量时,建议使用多重点状图(Multiple dot charts)、多重堆栈式点图(Multiple stacked dot plots)和多重小提琴图(Multiple violin plots),见图5。
由于使用同一个Y轴,不同组可以直接进行比较。在多重堆栈式点图和多重小提琴图中,图形的宽度可以表示样本量大小。如果分组变量是有序的,那么统计图的分组也要按顺序排列。
不建议将组间比较的检验结果标在图上,如*代表P<0.05,**代表P<0.01,因为这可能会将读者把注意力放在检验的P值是否显著上,而不是原始数据的差异上(如均值差异等)。P<0.05只是一个人为的阈值判断,不应该成为结果的全部。并且当同时进行多组间比较的时候,星号标记会比较混乱。
确认删除