医学研究中的统计图形规范
头像
阳光明媚
2023-05-19 07:34:02
统计分析与图表

本文内容来自中华流行病学杂志的《医学研究中的统计图形规范》。

一、医学权威期刊对统计图形的要求

以新英格兰医学杂志(The New England Journal of Medicine,NEJM)、柳叶刀(Lancet)、美国医学会杂志(The Journal of the American Medical Association,JAMA)、英国医学期刊(The British Medical Journal,The BMJ)这四本医学领域国际权威期刊为例,可归纳为对制图的技术参数要求和图形设计要求。

1. 技术参数要求:医学权威期刊对统计图形的制图参数要求大同小异,可分为:文件类型、分辨率、字体字号、坐标轴、标注和图例六类要求。见表 1。

https://dr2pp.oss.ns-svc.cn/DO/DOfF/DOfFXSqSdtlEpZuPt9oU.jpg

2. 图形设计要求:各医学期刊都有自己独特的图形设计要求。以用色举例,Lancet期刊要求森林图(forest plot)为黑白色调,而其他期刊对此并没有严格要求;在常见颜色组合的选择中,JAMA期刊采用了橙-浅蓝配色,这是一对互补色,视觉效果较好。四大权威期刊的配色方案见图 1。不同期刊会有一些特殊要求。如JAMA期刊不接受饼图或堆积条形图,而是要求使用能传达同等含义的其他图形;又如,JAMA和Lancet期刊对三维图形均持不同程度的拒绝态度。中文期刊对图形的选择一般没有明文要求,可以参考其他权威期刊综合考虑。

https://dr2pp.oss.ns-svc.cn/Qt/QtWq/QtWq7jLKnpikb3gZI07G.jpg

二、常见统计图形的适用范围和注意事项

统计图形的样式繁多,可以根据形状或功能将其分类。一类统计图形可以应用于多种分析目的,某一分析目的也可以引用多种统计图形来展现。目的与功能的分类,是多对多的关系,这使得统计图形的选择变得稍有困难。图形的选择,应充分考虑可视化或统计分析的目的。本文将常见统计图形的可视化分为:10类数据可视化(以展示数据为主,见表 2)图形和8类统计可视化(以展示统计分析结果为主,见表 3)图形,并逐一说明其常见衍生图种和相应的注意事项。

https://dr2pp.oss.ns-svc.cn/ZD/ZDcp/ZDcpUdryTZRRiKrBMMef.jpg


https://dr2pp.oss.ns-svc.cn/8U/8U1u/8U1uqoGW4QXmv8sEWDh5.jpg

三、统计图形设计要点

1. 结构设计:统计图形设计,要简约而不简单,需清晰体现设计者的逻辑结构。尽量少用复杂的、难以解读的元素。非必要的纹理、无潜在信息的渐变色、花哨的配色等冗余的设计元素,被统计图形先驱Tufte称为“图形垃圾(chatjunk)。法国图形语言理论学者(graphic language theorist)Jacques Bertin为图形结构设计制定了一个理论框架,即考虑:形状、方向、颜色、纹理、体积、大小。统计图形专家Cleveland认为,图形中的“准确性”并非指从图形中读出精确的数值,而是通过调整设计框架,来凸显应该被关注的重点。从神经生理学角度考虑,图形中需强调的元素应当与其他元素有着显著不同的视觉特征。

2. 布局考虑:绘图和撰文一样,需要清晰体现设计者的逻辑思路,在用图形“叙述”一件事情时,既要考虑整体连贯,又要考虑局部内聚,而不是零散地展示一些信息。有些通用的设计可以考虑三点原则:①适当留白。留白契合视觉心理学经典原则——格式塔原则(Gestalt Principles),留白的空间是另一种组织内容的机制,能合并成更规则的区域,并进一步描述设计者所定义的分组。②视觉完形。视觉完形是指读者总是先看到整体,然后去关注局部,人脑的视觉系统总是在不断地试图在感官上将图形进行闭合。③文字引导。按照某种既定逻辑顺序,使用一致的符号、编码、文字,以协助读者快速理解图形之含义。

3. 用色考究:颜色是信息重要性的重要影响因素之一。用好颜色,可将用户的注意力快速吸引到重点上,若颜色误用则会导致读者对信息理解偏差。一般来说,分类数据可以使用颜色传达起分类信息(用色原则:显著对比)。而定量数据,亦可用色阶反映数据的大小(用色原则:渐变进阶)。

挑选合适的颜色时可以借助色轮工具。通过旋转色轮或调整饱和度滑块来获得一组易于区分的颜色。另外,仅选择了合适的颜色也是不够的,需要根据图形中元素背后信息的重要性和视觉效果进行适当调整。R中的RImagePalette包和Adobe Photoshop等专业图像工具可以从画作中提取色相和色阶信息

4. 善用元素:

(1)箭头:是图形中常用的重点元素,因其能显著增进图形的可读性,而被运用在超过一半的图形中。箭头有多种含义,一般为指示变化、移动轨迹或因果关系。箭头应少而精。在生物医学研究中,部分箭头类型有特殊含义(例如,带有直角线段的箭头通常表示一个分子负向调节另一个分子),故应避开此类符号。标签指向线段,不建议带有箭头。Wong建议使用实心箭头,同时避免箭头过大。

(2)坐标轴和网格线:坐标轴用来准确衡量比例和尺度,辅助网格线用来衬托数据间细微差异。多张图形共同展示时,应尽量采用相同的坐标轴尺度,以便比较。格式塔原则中提到,非主体部分不应占用过多笔墨,因此在使用网格线时,其密度不应过大,颜色宜浅,设置足够的透明度(建议在15%~45%之间)更好,否则将增加阅读难度

(3)标签:使用标签要遵循两个原则:一致和对齐。标签需按一定的原则统一命名,可以将一组标签的公共文本部分删除以简化,但也不能因为过于简略而造成歧义。标签的位置应与对应的指代物对齐。在连接图形与标签时,连接线应尽可能水平或垂直,且彼此间平行。另外,不要给标签添加任何例如爆炸、气泡等视觉背景特效,这样会分散读者的注意力。图形的多样性应由数据和结果来表现,而非无实际意义的格式。

(4)具有专业意义的符号:在绘制散点时,形状的选择对图形视觉效果的影响最为直观。众多形状中,空心圆是一个较常用的选择。如果数据组别之间有明确而简单的区别,则可以使用组别名称首字母作为绘图符号[例如,ATCG表示4种碱基型所绘制的转录因子结合域图(transcription factor binding motif)]。若含有多种符号,它们的大小、透明度等参数应尽量一致。如果图形中的类别过多,应考虑用分图展示。

5. 慎用三维:三维图形,在视觉上似乎比二维平面图形更有吸引力。然而,科学研究媒介上通常为静态图像,是通过二维透视图来模拟三维效果,图形中元素的高度和长度不可避免地会因遮挡或透视而扭曲,进而导致信息传递出现偏差。需要通过旋转图形,选择合适的展示角度,而尽可能的降低遮挡或透视扭曲所造成的影响。正因此,JAMA、Lancet等期刊对三维图形持谨慎态度

事实上,三维图形可用二维可视化手段来替代,如散点图矩阵和平行坐标图。散点图矩阵,是散点图的高维拓展,将多个变量的两两散点图以矩阵的形式排列,在一定程度上克服了平面展示高位数据的困难。平行坐标图,跳出了笛卡尔坐标系(Cartesian coordinates)的思维局限,将相互垂直的坐标轴改为平行的坐标轴,平面上可容纳多条平行线,因此可展示多维数据。上述两方法的区别在于在二维平面上展示多维数据特征的方式不同,可在同一个研究中综合使用,从而更全面地展示高维数据。

参考文献:林云志, 张隆垚, 陈峰, 魏永越. 医学研究中的统计图形规范[J]. 中华流行病学杂志, 2022, 43(10): 1666-1670