研究显示:大型语言模型(LLM)在回答医学问题方面表现不及临床医生
当你在Google中输入“冠状动脉疾病是由什么引起”时,搜索引擎会提供几种答案:动脉粥样硬化、吸烟和炎症等。
大型语言模型(LLM),如OpenAI 的ChatGPT或Google的PaLM,通过数十亿条信息训练的模型,来预测并给出答案。
因此,LLM有可能承担医学领域的任务,例如通过起草答复或回答患者的问题来简化行政工作。然而,将它们的功能集成到临床工作流程中仍然是一个挑战。最近发表在《Nature》上的一篇文章指出,尽管Google的医学专用LLM(Med-PaLM)为医学问题提供了高度准确的答案,但没有达到临床医生的回复水平。在这些模型应用于临床之前,必须克服许多限制,例如有关患者隐私和安全的问题。
链接:https://www.nature.com/articles/s41586-023-06291-2
尽管存在这些关键问题,但该领域正在迅速发展。加州大学一位教授Atul Butte在一次采访中说,在这篇《Nature》文章的94篇参考文献中,半数以上是预印本,侧面证实了该领域发展的迅速。在今年5月,也就是这篇文章发表的前几个月,另一篇发布于arXiv的预印本报告,Med-PaLM 2(Med-PaLM的升级版本)在美国医疗执照考试(USMLE)中的表现,相比Med-PaLM 提升了19%以上。
Med-PaLM表现更接近临床医生
《Nature》的这篇文章引入一组称为MultiMedQA的题目,来评估LLM的医学知识。MultiMedQA由6个开放数据集组成,其中包括USMLE的试题和印度医学院入学考试中的多项选择题。研究人员还引入了一个新的数据集,称为HealthSearchQA,由3173个来自搜索引擎的提问者、并且需要长篇回答的医疗问题组成。
研究结果表明,Med-PaLM及其前身Flan-PaLM准确地回答了多项选择题和长格式医学问题。
Flan-PaLM在多项选择题上的成功显而易见,该模型回答USMLE问题的正确率约为68%。
《Nature》文章一位作者Alan Karthikesalingam表示,以自由格式回答临床问题更加困难。研究人员必须确定一些关键因素,比如答案是否正确或者遗漏了一些关键信息,以及它如何与当前的科学和医学思维保持一致。
为了评估模型在自由格式回答中的表现,Karthikesalingam的团队寻求了来自印度、英国和美国临床医生的帮助,将他们分为2组。其中一组针对140个需要长篇答案的问题给出自己的专家答案。另一个小组由9名具有儿科、外科、内科和初级保健等领域专业知识的临床医生组成,对他们同行的答案以及模型生成的答案进行了评分。
专家组对Flan-PaLM长篇回答的评分低于临床医生组,研究人员为该模型提供了高质量答案的示例,从而创建了Med-PaLM。Med-PaLM的长篇回答得分高于Flan-PaLM,并且在许多指标上与临床医生的表现相匹配。
临床医生小组判断Med-PaLM的回答中,5.9%会导致潜在的有害结果,而临床医生的回答中该占比为5.7%。对于这两组答案,专家组认为这些危害主要是轻度至中度的。相比之下,临床医生将29.7%的Flan-PaLM答案评为潜在有害。
麻省理工学院(MIT)一位教授David Sontag(未参与此项研究)在一次采访中说,准确回答这些临床问题的能力可能并不是Google模型所独有的。“你会从ChatGPT-4等大型语言模型中得到基本相同的结果。”
Med-PaLM的不足
Med-PaLM的回答在一些重要领域表现不佳。临床医生的回答只包含1.4%不适当或不正确的信息,而Med-PaLM和Flan-PaLM这一比例分别为18.7%和16.1%。
与临床医生的答案相比,Med-PaLM的答案更频繁地显示检索错误和推理错误。此外,提问者认为91.1%的临床医生的答案有帮助,而Med-PaLM的答案只有80.3%。
Sontag说:“仅仅报告一个整体准确率数字是一回事,了解错误发生的时间、严重程度,以及理解其含义是另一回事。”
这些发现有助于确定未来研究方向,以缩小LLM和临床医生之间的差距。该研究的作者写道,促使这些模型在答案中引用资料来源,并传达他们对回答的不确定性,是研究人员减少错误回答的两种途径。
计算机+人类
越来越多的研究表明,ChatGPT在很多医学问题中表现良好,从通过USMLE,到生成高质量、富有同理心的回答,再到在自由格式临床推理考试中超过医学生。
尽管Sontag认为这项技术将成为人工智能(AI)系统的一部分,从而完善医疗保健系统,但他不相信自动生成答案(特别是那些通过简单搜索快速得出的答案),将会改变医疗实践或改善患者生活。许多考察LLM回答问题效果的研究,并没有说明当临床医生使用LLM时,患者护理质量是否或如何发生变化。
“这不是计算机和人类的较量,”斯坦福大学的Chen指出。更重要的问题是,“现在你已经有了LLM,那么计算机加上人类呢?”
Sontag说,临床专家如何使用AI来实现最佳的联合决策,这是未来的研究应该解决的问题。
未来愿景
许多LLM(包括Med-PaLM)由于自身局限性,尚未准备好被广泛整合到临床工作流程中,当然也没有人来验证他们的工作。Karthikesalingam说:“安全使用的门槛必须非常高,因为医学和人类健康是安全的关键领域。”
此外,问题还围绕着如何监管临床环境中使用的模型,以及如何保护患者隐私和人类自主权。国际团体正在研究这些问题。
然而,专家们表示,该技术可能很快会被用来简化非临床管理和运营工作。Karthikesalingam和Sontag指出,医学领域的信息包括非结构化的,包括冗长而复杂的临床指南、病人记录、以及医疗记录。
临床医生可以利用LLM来浏览这些信息。这些模型可以从指南中提取具体答案,从临床记录中提取计费信息,或者创建一个可编辑的医疗病史记录。既往研究表明,此类管理任务会导致临床医生职业倦怠。Sontag指出,LLM可以通过节省医疗人员的时间,从而减轻职业倦怠。
实际操作方法
专家指出,在快速发展的医学领域,临床医生最好的方法是主动与模型合作,弄清楚它们如何运作,并了解它们的不足。“医疗领域需要完全解决是否、何时以及如何使用这项技术的问题。”
Butte说:“医生们能越快发现安全有效使用这些模型的方法,并接受这些模型时刻都在变化,我们的医疗环境就越好。”
文献整理自:https://jamanetwork.com/journals/jama/fullarticle/2808297