开发和验证用于肿瘤学临床决策的自主人工智能代理

收到：2024 年 8 月 13 日
接受： 2025 年 4 月 29 日
在线发布： 2025 年 6 月 6 日

摘要

Dyke Ferber $^{1, 2}$ 、Omar S. M. El Nahhas $^{2}$ 、Georg Wölflein $^{3}$ 、Isabella C.Wiest $^{2, 4}$ , Jan Clusmann $^{2, 5}$ , Marie-Elisabeth Leßmann $^{2, 6}$ , Sebastian Foersch $^{7}$ , Jacqueline Lammert $^{8, 9, 10, 11}$ , Maximilian Tschochohei $^{12}$ , Dirk Jäger © $^{1}$ , Manuel Salto-Tellez $^{13}$ , Nikolaus Schultz (10) $^{14}$ , Daniel Truhn (1) $^{15}$ & Jakob Nikolas Kather © $^{1, 2} ⊠$

肿瘤学的临床决策非常复杂，需要整合多模态数据和多领域专业知识。
我们开发并评估了一种自主临床人工智能（AI）代理，利用 GPT-4 和多模式精准肿瘤学工具支持个性化临床决策。
该系统集成了用于检测微卫星不稳定性以及组织病理切片中 $K R A S$ 和 $B R A F$ 突变的视觉转换器、用于放射图像分割的 MedSAM 以及基于网络的搜索工具（如 OncoKB、PubMed 和 Google）。在对 20 个真实的多模态患者病例进行评估后发现，人工智能代理自主使用适当工具的准确率为@2%，在@3%的病例中得出了正确的临床结论，并在@4%的情况下准确引用了相关肿瘤指南。与单独使用 GPT-4 相比，集成的人工智能代理大幅提高了决策准确性，从 $30.3 %$ 提高到 $87.2 %$ 。这些研究结果表明，将语言模型与精准肿瘤学和搜索工具相结合可大幅提高临床准确性，为部署人工智能驱动的个性化肿瘤学支持系统奠定了坚实的基础。

近年来，大型语言模型（LLMs）

^{1}

领域取得了显著进步。GPT-4（参考文献 2）等模型所展示的能力近似于人类的推理和解决问题的能力，并展示了各专业学科的知识。
例如，在医学领域，GPT-4 在美国医学执业资格考试中取得了及格分数，并能对其回答做出详细解释

^{3}

。在临床决策日益复杂的肿瘤学领域，LLM 可以作为快速可靠的参考工具，例如，提供来自官方医疗指南的医疗建议

^{4}

。这种功能不仅可以帮助日常决策过程，还可以教育肿瘤学家了解最新的治疗建议。

然而，与医生依赖语音、书面文字和影像信息的医疗领域本身类似，医疗人工智能（AI）的未来也是多模态的

^{5}

。最近，已经推出了几个这样的人工智能系统

^{6}

。例如，结合临床数据分析放射图像的模型

^{7}

，或将组织病理学信息与基因组

^{8}

或基于文本的信息整合在一起的模型

^{9}

。这些进步推动了人们对通用多模态人工智能系统

^{10, 11}

的期待，其特点是能够同时分析和推理任何维度的医疗信息。

然而，这种通用的多用途人工智能模型是否适合医疗应用还有待研究。人类疾病的分布广泛而复杂，这并非

图 1：LLM 代理框架的高层概览。我们的 LLM 代理管道示意图。我们系统的核心是访问由医学文档、临床指南和评分工具组成的知识数据库。
该数据库通过基于关键字的搜索，从更广泛的收集中提炼出来，并对所选文件进行文本嵌入，以实现高效存储和检索 (1)。
该框架通过一套医疗工具得到进一步增强，包括通过谷歌、PubMed 等平台的专业网络搜索功能，以及对 OncoKB API 的访问。
通过集成专为生成 CT 和 MRI 扫描详细报告而定制的视觉模型，以及最先进的医学影像分割模型 MedSAM 和简易计算器，该代理的功能得到了进一步扩展。

此外，该系统还使用了专为预测 MSI 与 MSS 以及检测微小肿瘤样本中的 KRAS 和 BRAF 突变而开发的视觉转换器 (2)。
给定一个模拟病例，所有工具都由代理自主选择（3），每次调用最多十种工具，既可并行使用，也可连续使用（4）。
这样，代理就能按需生成相关的病人信息，并利用这些知识查询其数据库中的相关文档 (4)。
这使它能够生成高度具体的、以患者为中心的响应，将最初的临床数据与新获得的洞察力相结合，同时以权威的医疗文件为依据 (5)。
在当前的性能基准中，这些模型主要是在单个特定任务上进行评估。
相比之下，现实世界中的临床决策往往需要多步推理、规划和与数据的反复交互，以发现新的见解，从而做出明智的个性化决策。

尽管 Med-PaLM M

^{11}

或 MedGemini

^{12}

等模型取得了进展，但要开发出真正能与精准医疗工具相媲美的通用基础 LLM，其复杂性仍然是一个巨大的挑战。
此外，目前美国和欧盟的监管政策限制了对通用多用途人工智能模型的批准，因为医疗设备应满足单一目的

^{13}

。

以往的工作表明，通过使用特定领域的信息来丰富 LLM，可以部分克服上述限制。这可以通过微调

^{14}

或检索增强生成（RAG）

^{15}

来实现，RAG 是一种临时增强 LLM 知识的过程，它将权威来源的相关文本摘录纳入模型，如医疗指南

^{16}

或教科书。然而，这种专注于增强模型知识库的策略将 LLM 定位为单纯的信息提取工具，而不是真正的临床助手。
理想情况下，这样的系统可以对病人记录进行推理、制定策略和执行操作，并检索或综合新信息，从而做出个性化决策。
在医学领域之外，也有人提出了几种这样的自主人工智能系统，也称为代理。事实证明，在需要多步骤推理和规划的任务中，为 LLM 配备计算器或网络搜索等成套工具更具优势

^{17, 18}

。同样，在生物医学研究中，Arasteh 等人利用 LLM 的集成数据分析工具分析科学数据，取得了与人类研究人员相当的成果

^{19}

。这种方法
这将为访问目前存在于医院系统中的信息库提供便利，从而实现真正的病人综合护理模式

^{20}

。

在本研究中，我们构建并评估了一个人工智能代理，该代理专为通过肿瘤学工具与多模态患者数据进行交互并从中得出结论而量身定制。
与包罗万象的多模态全科基础模型的理念不同，我们认为专业的单模态深度学习模型为精准医学

^{21}

带来的成就是一种可行的模板，甚至在未来，通过为 LLM（特别是 GPT-4）配备额外的功能和资源，也是一种可行的模板。这些可能是精准肿瘤深度学习模型，也可能是进行网络搜索的能力，在此均称为工具。
具体来说，这项研究包括视觉模型应用编程接口（API），专门用于从磁共振成像（MRI）和计算机断层扫描（CT）扫描结果中生成放射学报告、用于医学图像分割的 MedSAM

^{22}

和内部开发的视觉转换器模型，这些模型经过训练，可直接从常规组织病理学切片中检测是否存在基因改变

^{23}

，特别是区分微卫星不稳定性（MSI）和微卫星稳定性（MSS）肿瘤

^{24}

，以及检测是否存在

K R A S

和

B R A F

突变。此外，该系统还包括一个基本计算器、通过谷歌和 PubMed 进行网络搜索的功能，以及访问精准肿瘤学数据库 OncoKB

^{25}

的功能。为了让模型的推理建立在医学证据的基础上，我们从六个不同的官方来源收集整理了大约 6,800 份医学文件和临床评分，专门为肿瘤学量身定制。

为了定量测试我们提出的系统的性能，我们在现实的模拟病人病例旅程中设计了一种基准策略。现有的生物医学基准和评估数据集包括

图 2 工具使用和 RAG 可提高 LLM 性能。
为了证明我们的方法与标准 LLM 相比的优越性，我们重点介绍了三个案例，在这三个案例中，GPT-4 在不使用工具的情况下，要么无法检测到特定患者的疾病现状，要么只能提供非常一般的反应。
与此形成鲜明对比的是，工具访问和检索使模型能够提供详细的
信息，如测量肿瘤表面和做出适当决策。0#，性能比较显示，在我们的完整性基准中，使用工具和 RAG 的制剂与仅使用 GPT-4 的制剂相比，被评估为完整的反应比例更高。
0# ，而且仅限于封闭式问答格式。最近，Zakka 等人推出的新数据集

^{16}

和 LongHealth

^{27}

取得了进展。1# 和 LongHealth

^{27}

推出了新的数据集，分别以增强开放式回答和关注患者相关内容为目标。然而，这些数据集仅限于文本，无法捕捉多模态数据，例如 CT 或 MRI 图像与显微镜和基因数据的结合，以及文本报告。
因此，在本研究中，我们使用一个由 20 个真实的多维病人病例组成的数据集开发并评估了我们的代理。对于每个病例，代理都要经过两个阶段。
在收到临床案例和相应的问题后，它会自主选择和应用相关工具，以获得有关患者病情的补充见解，然后进行文件检索步骤，以确凿的医学证据为基础做出答复，并适当引用相关来源。
为了评估结果，我们设计了一个由四位人类专家进行的盲法人工评估，重点关注三个方面：代理对工具的使用、文本输出的质量和完整性以及提供相关引文的准确性。
为了有效地应用工具，代理必须首先认识到工具的效用，理解必要的输入，然后从提供的患者信息中提取这些输入。我们在图 1 中概述了我们的整个流程。
《方法》中详细介绍了我们的方法。

成果

工具的使用和检索改善了当地语言学习者的反应

为了首先证明将医疗工具和检索与 LLM 相结合的优越性，我们将我们的代理与 GPT-4 单独进行了比较。图
在 2a 中，我们强调了三个例子，在这些例子中，工具和检索使 LLM 能够准确地解决病例，而如果没有这些增强功能，GPT-4 要么表示无法解决患者病例并提供假设性答案，要么得出错误的结论，例如错误地假设 "疾病进展 "或 "无疾病证据"（红色部分）。
与此相反，代理人通过使用工具，正确识别了治疗反应和疾病的存在。
进展（绿色）。
为了量化这一点，我们评估了该模型为每位患者制定综合治疗方案的能力，在识别疾病进展、反应或稳定性、突变情况和所有其他相关信息的基础上指定适当的疗法，就像肿瘤学家一样。
因此，我们为 20 个不同的患者病例汇编了 109 条陈述（完整性）。我们发现，单靠 GPT-4 只能提供

30.3 %

的预期答案。然而，我们代理的回复成功率高达 87.2%，只有 14 个案例未涵盖在内（图 2b）。
总之，我们的研究结果表明，利用工具增强 LLM 可大大提高它们为复杂、真实的医疗病例生成精确解决方案的能力，而不是以开箱即用的方式使用 LLM 时只能提供一般甚至错误的响应。

GPT-4 处理复杂的工具使用链

接下来，我们在一组基准中更深入地研究了代理的整体能力和局限性。
为了提供更好的指导，我们提供了一个完整的模拟患者病例，并在图 3 中详细介绍了从输入到工具使用再到模型最终输出的每一个步骤。模型的所有任务和所有答案见补充说明 1。

首先，我们评估了代理识别和成功使用工具的能力（图 4）。在完全解决所有给定病人病例所需的 64 次工具调用中，代理正确使用了 56 次，总体成功率为

87.5 %

，所需工具无一失误。剩下的

12.5 %

个工具是需要的，但模型漏用了。有两次，模型在没有必要数据的情况下试图调用多余的工具，结果导致失败（图 4，"工具使用"）。
我们在补充表 1 中提供了每个工具的调用状态概览。以图中的病人为例进行说明。
3、GPT-4 利用其工具评估患者的病情，首先从患者数据中确定肿瘤定位，并利用 MedSAM 生成分割掩膜。
它通过测量分割区域的生长情况来计算肿瘤进展情况，并参考 OncoKB 数据库以获取突变信息。然后，该模型进行文献检索和组织学建模，以选择

(W) 检查更新