统计图是统计描述的重要工具,也是辅助作者和读者沟通的有效工具,它在视觉上比统计表更简洁明了,但是面对多种多样的统计图,你真的会用吗?在《Heart》杂志刊出的一篇综述《Graphics and statistics for cardiology: comparing categorical and continuous variables》中[1],作者对如何根据数据特点选择合适的统计图进行了详细的讲解。
假如一张统计图只需要展示一个变量,比如一组病人的某个体检指标,这属于单个变量的数据。变量又可以分为连续变量和分类变量。对于连续变量来说,统计图可以展示出数据的范围、分布,以及一些统计量,如均数、中位数、样本量等。
单个连续变量的数据
对于小样本量数据(如n<30),建议使用点图(Dot chart),点图可以绘制出沿着一个轴分布的观测值,假如这些点都不重合的话,采用点图可以清楚地看到每个值的分布,如图1(A)。
当出现许多相同的观测值时,可以使用堆栈式点图(Stacked dot chart),通过将相同的观测值竖直堆砌,可以清楚地看出观测值的重复性,如图1(B)。
对于50<n<200的中等样本量数据来说,普通点图可能不再合适,因为重叠的数据点会连成一片,见图2(A),或者因为太小而看不清,见图2(B),此时可将数据分区,用每个区间的中点(如中位数)代替这个区间内的所有数据。区间间距的大小可根据研究需要来选择,如图2例子中,间距可以是10mmHg、5mmHg。这样会减少呈现的数据点,使数据看上去更简洁清晰,图2(B)合并后的效果如图2(C)。
总的来说,对于小样本或中等样本量的数据,点图比箱式图(Boxplot)更合适。
确认删除