这是用户在 2025-7-27 19:52 为 https://app.immersivetranslate.com/pdf-pro/9933198f-d18a-48c3-80bc-7503f011fbb7/ 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?

一个用于罕见病诊断的可追溯推理智能系统

赵伟 1 , 2 , 1 , 2 , ^(1,2,**){ }^{1,2, *} , 吴超毅 1 , 2 , 1 , 2 , ^(1,2,**){ }^{1,2, *} , 范延杰 3 , 3 , ^(3,**){ }^{3, *} , 张晓曼 4 4 ^(4){ }^{4} , 邱鹏程 1 , 2 1 , 2 ^(1,2){ }^{1,2} , 孙宇泽 1 1 ^(1){ }^{1} , 周晓 2 2 ^(2){ }^{2} , 王延锋 1 , 2 1 , 2 ^(1,2){ }^{1,2} , 张亚 1 , 2 , 1 , 2 , ^(1,2,†){ }^{1,2, \dagger} , 王永国 Yu 3 , Yu 3 , Yu^(3,†)\mathrm{Yu}^{3, \dagger} , 孙坤 3 , 3 , ^(3,†){ }^{3, \dagger} 和 谢巍迪 1 , 2 , 1 , 2 , ^(1,2,†){ }^{1,2, \dagger} 1 1 ^(1){ }^{1} 上海交通大学,中国上海 2 2 ^(2){ }^{2} 上海人工智能实验室,中国上海 3 3 ^(3){ }^{3} 上海交通大学医学院附属新华医院,中国上海 4 4 ^(4){ }^{4} 哈佛医学院生物医学信息学系,美国马萨诸塞州波士顿,MA*同等贡献 quad^(†)\quad{ }^{\dagger} 通讯作者张亚:ya_zhang@sjtu.edu.cn;余永国:yuyongguo@shsmu.edu.cn;昆孙: sunkun@xinhuamed.com.cn; 谢位迪: weidi@sjtu.edu.cn

  摘要

罕见病共同影响全球超过 3 亿人,但及时准确的诊断仍然是一个普遍的挑战。这主要是因为其临床异质性、低个体患病率,以及大多数临床医生对罕见病了解有限。在此,我们介绍 DeepRare,这是首个由大型语言模型(LLM)驱动的罕见病诊断智能系统,能够处理异构临床输入:自由文本临床描述、结构化人类表型本体(HPO)术语以及变异数据格式(VCF)的基因检测结果。该系统为罕见病生成排序的诊断假设,每个假设都附有透明的推理链,将中间分析步骤与可验证的医学证据相连接。这种可解释性对于临床应用至关重要,支持人机协作的诊疗流程。 DeepRare 由三个关键组件构成:一个具有长期记忆模块的中心主机;以及负责特定领域分析任务(例如表型提取、变异优先级排序)的专业代理服务器。这些服务器集成了 40 多种专业工具和最新的网络规模医学知识库,确保获取最前沿的临床信息。这种模块化和可扩展的设计能够实现复杂的诊断推理,同时保持可追溯性和适应性。我们在来自亚洲、北美和欧洲的文献、病例报告和临床中心的八个数据集上评估了 DeepRare,涵盖 14 个医学专业,包括神经病学、心脏病学、免疫学和遗传学。该系统在 2,919 种疾病中展现出卓越的诊断性能,对 1,013 种疾病实现了 100 % 100 % 100%100 \% 的准确率。在基于 HPO 的评估中,DeepRare 显著优于其他 15 种方法,包括传统生物信息学诊断工具、大型语言模型和其他代理系统,平均 Recall@1 得分为 57.18 % 57.18 % 57.18%57.18 \% ,比第二好的方法(Reasoning LLM)高出 23.79 个百分点。 在多模态输入场景中,DeepRare 在 109 个案例中 Recall@1 上达到了 70.60 % 70.60 % 70.60%70.60 \% ,而 Exomiser 为 53.20%。临床专家对推理链的手动验证达到了 95.40 % 95.40 % 95.40%95.40 \% 的共识,证实了系统中间推理步骤既具有医学有效性,又可追溯至权威来源,增强了其在罕见病诊断中作为可信决策支持工具的潜力。此外,DeepRare 系统已作为一个用户友好的网络应用程序实现,网址为 http://raredx.cn/doctor。

  1 引言

罕见病——指影响不到 2000 分之 1 的人群的疾病——共同影响着全球超过 3 亿人,目前已确认超过 7000 种不同的疾病,其中大约 80 % 80 % 80%80 \% 种是遗传性的 [ 1 , 2 , 3 , 4 ] [ 1 , 2 , 3 , 4 ] [1,2,3,4][1,2,3,4] 。尽管其累积负担沉重,但由于临床异质性、低个体患病率和医务人员熟悉度有限,罕见病仍然难以诊断 [ 1 , 2 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12 , 13 ] [ 1 , 2 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12 , 13 ] [1,2,5,6,7,8,9,10,11,12,13][1,2,5,6,7,8,9,10,11,12,13] 。患者往往经历一个平均超过五年的漫长“诊断之旅”,期间伴随着反复转诊、误诊和不必要的干预,所有这些都导致治疗延迟和不良后果[5, 14]。这些挑战凸显了紧迫性
需要可扩展、准确且可解释的诊断工具,而多智能体系统的最新进展在这一领域提供了变革的潜力。
为罕见病诊断开发人工智能(AI)系统存在若干固有挑战,(i) 多学科性:罕见病通常表现为复杂、异质和多系统症状,要求诊断模型具备多学科医学知识和解读不同患者表型的能力[15, 16];(ii) 案例有限:单个罕见病的病例稀缺限制了训练数据的可用性,使得开发稳健模型变得困难,并增加了过拟合和灾难性遗忘的风险;(iii) 动态知识更新:根据国际罕见病研究联盟(IRDiRC)的数据[17],罕见病知识领域正快速演变,每年新增约 260 至 280 种新疾病。这种动态特性要求 AI 系统不仅可更新,还需能高效整合新知识;(iv) 透明度和可追溯性:临床部署要求可解释性:诊断建议必须伴随透明、可追溯的推理过程,以支持临床医生信任和责任认定。
近期,自主式大型语言模型(LLM)系统的进步为罕见病诊断开辟了新途径 [ 18 , 19 , 6 , 20 , 21 , 22 , 23 , 24 ] [ 18 , 19 , 6 , 20 , 21 , 22 , 23 , 24 ] [18,19,6,20,21,22,23,24][18,19,6,20,21,22,23,24] ,该系统协调多种专业工具和子代理 [18, 19],实现了外部知识库、案例库和多模态分析组件的无缝集成 [25,23]。与传统的监督学习方法不同,这些系统通常无需训练,并在少样本和零样本场景中表现出色——这是罕见病应用中标注数据稀缺情况下的关键能力。其模块化和可解释的架构进一步促进了透明、可审计的临床可操作诊断工作流程。
这里,我们介绍 DeepRare,一个基于 LLM 的自主系统,专门用于罕见病诊断。DeepRare 能够处理异构的患者输入,包括自由文本的临床描述、结构化的人类表型本体(HPO)术语以及基因组检测结果。根据输入,该系统生成一个候选诊断的排名列表,每个诊断都由一个透明的推理链支持,该推理链直接引用可验证的医疗证据。这种设计增强了可解释性,并支持临床医生对 AI 辅助诊断决策的信任。
具体而言,我们提出的系统受模型上下文协议(MCP)[25]启发,由三个分层级别组成。其核心是一个由内存库支持并由最先进的 LLM 驱动的中央主机,负责协调诊断过程并保留上下文信息。围绕这个主机是多个代理服务器,每个服务器专门用于执行特定的分析任务,例如表型提取器、疾病标准化、知识检索、案例匹配、表型分析和基因型分析。最外层级别由经过筛选和具有网络规模的 外部数据源组成,确保能够获取最新的临床证据。为了进一步提高诊断的准确性和鲁棒性,DeepRare 实现了一个自我反思的诊断循环,提示中央主机通过收集额外证据来迭代重新评估中间假设。这降低了过度诊断的风险,并减轻了 LLM 的幻觉现象。
我们在 6,401 例临床病例上评估了 DeepRare,这些病例来自七个公开数据集和一个内部数据集,涵盖了亚洲、北美和欧洲的多样化人群。其中,我们构建了一个包含 975 例患者病例的内部数据集,这些病例能代表中国罕见病人群,其中包括 109 例有全外显子组测序结果的病例。据我们所知,这是唯一一个包含原始基因检测数据的罕见病诊断基准。该队列中的所有诊断都经过严格的基因检测验证,为评估诊断性能提供了高质量的标准。DeepRare 在涵盖 14 个医学专业的 2,919 种罕见病的所有 8 个数据集上,始终保持着优异的诊断准确率。
值得注意的是,在评估的 2919 种罕见疾病中,DeepRare 对 1013 种疾病达到了 100%的准确率。在基于 HPO 的评估中,与其他 15 种方法(如传统生物信息学工具、大型语言模型和代理系统)相比,DeepRare 在 Recall@1 和 Recall@3 上分别达到了 57.18 % , 65.25 % 57.18 % , 65.25 % 57.18%,65.25%57.18 \%, 65.25 \% 的平均得分,大幅超越了第二好的方法(Reasoning LLM) 23.79 % 23.79 % 23.79%23.79 \% 18.65 % 18.65 % 18.65%18.65 \% 。在多模态输入场景中,DeepRare 的 Recall@1 达到了 70.6%,优于 Exomiser 在 109 个全外显子案例中的 53.2 % 53.2 % 53.2%53.2 \% 。此外,我们邀请了 10 位罕见病医生手动验证系统在 180 个案例中生成的可追溯推理链。DeepRare 在证据真实性方面表现出高可靠性,与临床专家达到了 95.4 % 95.4 % 95.4%95.4 \% 的共识,从而证实了其中间
a

  输出
  Top-K 罕见疾病
  1.   埃勒斯-当洛斯综合征
  2.   马凡综合征
  3.   囊性纤维化
  4.   威尔逊病
  5.   高歇病

    \checkmark

    b
  参考来源:
- ……在线知识库
- (1) 最新论文
  相似临床案例
心,   生物信息学工具
  参考文献:
[1] Nature: https://www.nature.com/xx
[2] Omim: https://omim.org/entry/xxx
[3] OrphaNet: https://www.orpha.net/xxx
Reference Sources: - ..... Online Knowledge banks - (1) Latest Papers Similar Clinical Cases 心, Bioinformatical Tools 心 References: [1] Nature: https://www.nature.com/xx [2] Omim: https://omim.org/entry/xxx [3] OrphaNet: https://www.orpha.net/xxx| | Reference Sources: | | :--- | :--- | | | - ..... Online Knowledge banks | | | - (1) Latest Papers | | | Similar Clinical Cases | | 心, | Bioinformatical Tools | | 心 | References: | | | [1] Nature: https://www.nature.com/xx | | | [2] Omim: https://omim.org/entry/xxx | | | [3] OrphaNet: https://www.orpha.net/xxx |

c
RareBench (MME) RareBench (HMS) RareBench (LIRICAL) RareBench (RAMEDIS) MyGene2 DDD MIMIC-IVRare   新华社医院
  病例 40 88 370 624 146 2283 1875 975
  平均信息内容 52.7 103.7 59.5 46.1 29.4 70.9 50.1 16.4
  平均 HPO ID 12.2 19.4 14.3 10.1 7.9 18.0 10.1 4.0
  罕见疾病 17 39 252 74 58 2150 355 314
  来源   文献 临床中心(德国)   文献   科学家上传   患者上传   文献   临床中心(美国)   临床中心(中国)
  公共 \checkmark \checkmark \checkmark \checkmark \checkmark \checkmark \checkmark × × xx\times
  基因 \bigcirc \bigcirc \bigcirc \bigcirc (1) (1) \bigcirc ^(∙){ }^{\bullet}
RareBench (MME) RareBench (HMS) RareBench (LIRICAL) RareBench (RAMEDIS) MyGene2 DDD MIMIC-IVRare Xinhua Hosp. Cases 40 88 370 624 146 2283 1875 975 Avg Info Content 52.7 103.7 59.5 46.1 29.4 70.9 50.1 16.4 Avg HPO Ids 12.2 19.4 14.3 10.1 7.9 18.0 10.1 4.0 Rare Diseases 17 39 252 74 58 2150 355 314 Source Literature Clinical Center (Germany) Literature Scientist Uploaded Patients Uploaded Literature Clinical Center (USA) Clinical Center (China) Public ✓ ✓ ✓ ✓ ✓ ✓ ✓ xx Gene ◯ ◯ ◯ ◯ (1) (1) ◯ ^(∙)| | RareBench (MME) | RareBench (HMS) | RareBench (LIRICAL) | RareBench (RAMEDIS) | MyGene2 | DDD | MIMIC-IVRare | Xinhua Hosp. | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | Cases | 40 | 88 | 370 | 624 | 146 | 2283 | 1875 | 975 | | Avg Info Content | 52.7 | 103.7 | 59.5 | 46.1 | 29.4 | 70.9 | 50.1 | 16.4 | | Avg HPO Ids | 12.2 | 19.4 | 14.3 | 10.1 | 7.9 | 18.0 | 10.1 | 4.0 | | Rare Diseases | 17 | 39 | 252 | 74 | 58 | 2150 | 355 | 314 | | Source | Literature | Clinical Center (Germany) | Literature | Scientist Uploaded | Patients Uploaded | Literature | Clinical Center (USA) | Clinical Center (China) | | Public | $\checkmark$ | $\checkmark$ | $\checkmark$ | $\checkmark$ | $\checkmark$ | $\checkmark$ | $\checkmark$ | $\times$ | | Gene | $\bigcirc$ | $\bigcirc$ | $\bigcirc$ | $\bigcirc$ | (1) | (1) | $\bigcirc$ | ${ }^{\bullet}$ |
图 1 | DeepRare:一种用于罕见病优先排序的智能代理框架。(a)系统工作流程:多模态患者数据(HPO 术语、基因组变异)通过受分层 MCP 启发式架构进行处理,生成具有证据支持推理链的 Top-K 诊断列表。(b)知识架构:太阳 burst 可视化展示了 DeepRare 中诊断工具和生物医学知识源的层次集成。(c)多中心基准特征:病例分布、表型复杂性(HPO 指标)、疾病谱、来源、遗传注释状态(实心:已确认致病性变异;半实心:提取的候选变异;空心:无遗传数据)。(d)性能基准测试:跨诊断 API、通用 LLMs、推理增强 LLMs、医学调优 LLMs 和智能代理系统的比较评估。