RSNA最新研究：ChatGPT通过了放射学考试，展示了大语言模型在医学领域的巨大应用潜力-duidaima 堆代码

RSNA最新研究：ChatGPT通过了放射学考试，展示了大语言模型在医学领域的巨大应用潜力

发布于 2个月前
 1120 热度

 0 评论

捂风挽笑
0 粉丝 24 篇博客

5月17日，北美放射学会（RSNA）在权威放射学期刊Radiology公布了一项研究，ChatGPT通过了放射学考试，展示了大语言模型在医学领域的巨大应用潜力。（论文地址：https://pubs.rsna.org/doi/full/10.1148/radiol.230582）

本次考试，RSNA模仿了加拿大皇家学院和美国放射学委员会考试的风格和难度。一共150道选择题，ChatGPT回答对了104个，正确率69%达到及格。GPT-4（ChatGPT plus）基于同样考试题目，回答对了121个，正确率81%高于及格线，这说明在高级推理方面GPT-4性能更好。

RSNA表示，ChatGPT在没有经过专业放射学数据训练的情况下，依然通过了难度较高的放射学考试，给人留下了深刻的印象。ChatGPT出色的信息总结能力、推理能力、分析能力，在医学领域有着巨大的应用潜力。例如，放射学教学、诊断分析、查询医学资料、疾病分类、简化复杂医学概念等。

但是，由于ChatGPT的很多原始预训练数据是 “黑盒数据”，很容易让其输出虚假、非法、歧视信息。例如，在本次考试中，ChatGPT在回答错误的考题中，依然自信满满地说“自己的回答是100%正确的”。所以，医学领域如果想应用ChatGPT等大语言模型，需要专业的医学数据进行预训练和微调，才能获得更好的应用效果。

主要发现

1.在150 个没有图像的放射学选择题考试中，ChatGPT正确回答了其中的69%（104）。在需要低阶推理和理解的问题 (84%) 上，比在需要高阶思维 (60%) 的问题上表现更好。

2.ChatGP与临床管理 (89%) 相关的高阶问题上表现良好，在涉及影像学发现描述 (61%)、计算和分类 (25%) 以及概念应用 (30%) 的问题上表现不佳。

3.在150 个没有图像的放射学选择题考试中，GPT-4正确回答了其中的81%（121）。在影像学发现描述（85%）、和概念的应用（90%）的表现有着巨大提升。
4.即便是回答错误了，ChatGPT也会100%地说“自己回答正确了”。

本次研究是在2023年2月25日—3月3进行，一共150道多选题，分为理解、应用、分析、物理、临床管理、计算和分类、疾病关联等，考题内容不涉及病人隐私数据。

为了评估ChatGPT的推理、拟人化能力，考题风格和难度匹配了，美国放射学委员会核心认证考试和加拿大皇家学院放射学考试，整体接近真实考试难度。

总体而言，ChatGPT在低阶推理和理解问题的表现非常出色，但是在高阶推理方面不如GPT-4。例如，一名64岁的男子因持续性肺炎在医院接受胸部CT扫描。偶然发现一个3厘米的肾上腺结节，随后需要进行肾上腺冲洗研究。

在非对比度成像系列中，结节的感兴趣区域（）测量值为27 HU。在随后的对比度增强系列中，该测量值上升至88 HU。15分钟后通过肾上腺的延迟图像显示读数为45 HU。该病变的绝对冲洗度是多少？

在这道高级推理考题中，ChatGPT的回答是A，实际上正确答案是D。

本次研究主要作者Rajesh Bhayana博士表示，像 ChatGPT这样的大型语言模型的应用正呈现出爆炸式增长趋势。我们的研究深度揭示了ChatGPT在放射学方面的表现，突出了大型语言模型的巨大医学应用潜力，以及当前面临的一些局限性。

关于RSNA
北美放射学会（RSNA），成立于1915年，是一个专注于放射学领域的非营利性专业组织。RSNA是放射学领域具有重要影响力的学术组织，通过期刊出版和年会活动等方式，为全球放射学专业人士提供了一个交流和学习的平台。

 用户评论

AI大模型
 106 成员 |  699 话题
+我要提问 +随便写写

可能感兴趣的话题

Perplexity新增AI购物功能并集成PayPal结账服务

Anthropic重磅研究：只需250个文档，就能给任意大模型投毒

苹果推出SimpleFold通用预测模型，直接对标AlphaFold2

Coinbase强制员工用AI写代码，结果安全漏洞暴增1000%