MedRAX

GitHub
1.1k 198 较难 1 次阅读 昨天Apache-2.0开发框架Agent
AI 解读 由 AI 自动生成,仅供参考

MedRAX 是一款专为胸部 X 光片(CXR)解读设计的医疗推理智能体,旨在解决现有 AI 模型功能单一、难以应对复杂临床查询的痛点。它并非单一模型,而是一个能够动态调度多种顶尖专用工具的统一框架。通过集成视觉问答、病灶分割、定位、疾病分类及报告生成等能力,MedRAX 无需额外训练即可协同处理从病灶检测到综合诊断的多步骤复杂任务。

该项目基于 LangChain 和 LangGraph 构建,以具备视觉能力的 GPT-4o 为核心大脑,采用模块化设计,支持本地或云端部署,并提供了基于 Gradio 的即用型交互界面。为了验证其性能,团队还发布了包含 2500 个复杂病例的 ChestAgentBench 基准测试集,涵盖检测、定位、关系推断等七大维度。实验表明,MedRAX 在多项指标上超越了现有的开源及专有模型。

MedRAX 非常适合医疗 AI 研究人员、开发者以及需要辅助诊断参考的临床医生使用。对于研究者,其开放的架构便于集成新工具或评估算法;对于开发者,清晰的代码库和基准数据有助于快速构建应用;对于临床端,它能提供比传统单任务模型更全面、逻辑更严密的影像分析支持,是推动自动化胸片解读系统落地的重要一步。

使用场景

在繁忙的三甲医院放射科,主治医师需要在短时间内对大量胸部 X 光片进行精准判读并生成结构化报告,以支持急诊患者的快速分流。

没有 MedRAX 时

  • 工具割裂效率低:医生需分别在疾病分类模型、分割软件和报告生成系统中切换操作,无法在一个界面完成从“发现病灶”到“出具结论”的全流程。
  • 复杂推理能力弱:面对需要对比历史影像或分析多病灶关联的复杂病例,单一模型往往只能提供碎片化信息,缺乏连贯的逻辑推导。
  • 定位与描述脱节:自动生成的报告常出现“文不对图”的情况,即文字描述了肺炎,但未能在图像上精确圈出具体感染区域,增加复核负担。
  • 人工复核成本高:由于缺乏统一的智能代理辅助,资深医生必须花费大量时间手动整合各工具输出结果,极易因疲劳导致漏诊。

使用 MedRAX 后

  • 一站式智能闭环:MedRAX 将视觉问答、解剖结构分割及报告生成等工具无缝集成,医生上传影像后即可自动获得包含定位、分类及完整建议的综合分析。
  • 动态多步推理:依托 GPT-4o 强大的逻辑能力,MedRAX 能自主调用不同专家模型,像人类专家一样逐步分析病灶间的因果关系及演变趋势。
  • 图文精准对齐:通过内置的接地(Grounding)技术,MedRAX 生成的报告中每一处诊断结论都能直接在原图上高亮显示对应区域,实现“所见即所得”。
  • 无需训练即刻部署:医院无需针对特定病种重新训练模型,MedRAX 即可利用现有开源工具链动态解决各类罕见或复杂查询,显著降低落地门槛。

MedRAX 通过构建统一的医疗推理代理,将分散的 AI 能力转化为临床可信赖的决策伙伴,大幅提升了胸部 X 光判读的准确性与工作效率。

运行环境要求

操作系统
  • 未说明
GPU
  • 推荐 NVIDIA GPU (CUDA),支持 8-bit/4-bit 量化以降低显存需求
  • 部分工具(如 LLaVA-Med, Grounding)资源消耗较大
内存

未说明

依赖
notes核心大语言模型默认使用 GPT-4o(需配置 OpenAI API Key),但也支持通过环境变量配置本地 LLM(如 Ollama)或兼容 API(如阿里云 DashScope/Qwen)。多个医疗专用模型(如 CheXagent, MedSAM, RoentGen 等)会在首次运行时自动从 Hugging Face 下载权重,需确保网络连接畅通;其中 RoentGen 模型需手动联系作者获取权重。可通过选择性初始化工具来优化资源占用。
python3.8+
LangChain
LangGraph
Gradio
torch
transformers
accelerate
MedRAX hero image

快速开始

🤖 MedRAX:用于胸部X光片的医学推理代理

arXiv GitHub HuggingFace Dataset


摘要

胸部X光片(CXR)在疾病管理和患者护理中的关键决策中发挥着不可或缺的作用。尽管近年来涌现出针对各种CXO解读任务的专用模型,但这些解决方案往往彼此孤立,限制了其在临床实践中的实际效用。我们提出了MedRAX,这是首个将最先进的CXO分析工具和多模态大型语言模型无缝集成到统一框架中的多功能AI代理。MedRAX能够动态地利用这些模型来解决复杂的医疗问题,而无需额外的训练。为了严格评估其能力,我们推出了ChestAgentBench,一个包含7个不同类别共2,500个复杂医疗问题的综合基准测试。实验结果表明,与开源和专有模型相比,MedRAX达到了最先进的性能,这标志着自动化CXO解读系统向实际部署迈出了重要一步。

MedRAX

MedRAX建立在坚实的技术基础上:

  • 核心架构:基于LangChain和LangGraph框架构建
  • 语言模型:以具备视觉能力的GPT-4o作为骨干LLM
  • 部署方式:支持本地和云端部署
  • 界面:使用Gradio构建的生产就绪界面
  • 模块化设计:工具无关的架构,便于集成新功能

集成工具

  • 视觉问答:采用CheXagent和LLaVA-Med进行复杂的视觉理解和医学推理
  • 分割:使用MedSAM和基于ChestX-Det数据集训练的PSPNet模型,实现精确的解剖结构识别
  • 定位:借助Maira-2在医学图像中精确定位特定发现
  • 报告生成:实施基于CheXpert Plus数据集训练的SwinV2 Transformer,用于生成详细的医学报告
  • 疾病分类:利用TorchXRayVision中的DenseNet-121检测18种病理类型
  • X光片生成:使用RoentGen进行合成CXO生成
  • 实用工具:包括DICOM处理、可视化工具以及自定义绘图功能



ChestAgentBench

我们推出了ChestAgentBench,这是一个包含7个类别共2,500个复杂医疗问题的综合评估框架,基于675例专家精选的临床病例构建而成。该基准测试通过以下方面评估CXO解读中的复杂多步推理:

  • 检测
  • 分类
  • 定位
  • 比较
  • 关系
  • 诊断
  • 特征描述

下载基准测试:ChestAgentBench on Hugging Face

huggingface-cli download wanglab/chestagentbench --repo-type dataset --local-dir chestagentbench

将Eurorad图片解压到本地MedMAX目录。

unzip chestagentbench/figures.zip

若使用GPT-4o进行评估,请设置您的OpenAI API密钥并运行快速入门脚本。

export OPENAI_API_KEY="<your-openai-api-key>"
python quickstart.py \
    --model chatgpt-4o-latest \
    --temperature 0.2 \
    --max-cases 2 \
    --log-prefix chatgpt-4o-latest \
    --use-urls

安装

前置条件

  • Python 3.8及以上版本
  • 为获得最佳性能,建议使用CUDA/GPU

安装步骤

# 克隆仓库
git clone https://github.com/bowang-lab/MedRAX.git
cd MedRAX

# 安装包
pip install -e .

开始使用

# 启动Gradio界面
python main.py

或者如果遇到权限问题

sudo -E env "PATH=$PATH" python main.py

您需要在main.py中设置model_dir,指向您希望下载或已有的上述工具的Hugging Face权重目录。 请注释掉您无法访问的工具。 务必在.env文件中设置您的OpenAI API密钥!


工具选择与初始化

MedRAX支持选择性工具初始化,允许您仅使用所需的工具。工具可以在初始化代理时指定(参见main.py):

selected_tools = [
    "ImageVisualizerTool",
    "ChestXRayClassifierTool",
    "ChestXRaySegmentationTool",
    # 根据需要添加或移除工具
]

agent, tools_dict = initialize_agent(
    "medrax/docs/system_prompts.txt",
    tools_to_use=selected_tools,
    model_dir="/model-weights"
)



自动下载的模型

以下工具在初始化时会自动下载其模型权重:

分类工具

ChestXRayClassifierTool(device=device)

分割工具

ChestXRaySegmentationTool(device=device)

定位工具

XRayPhraseGroundingTool(
    cache_dir=model_dir, 
    temp_dir=temp_dir, 
    load_in_8bit=True, 
    device=device
)
  • Maira-2权重会下载到指定的cache_dir
  • 提供8位和4位量化选项,以减少内存占用

LLaVA-Med工具

LlavaMedTool(
    cache_dir=model_dir, 
    device=device, 
    load_in_8bit=True
)
  • 自动下载权重至cache_dir
  • 提供8位和4位量化选项,以减少内存占用

报告生成工具

ChestXRayReportGeneratorTool(
    cache_dir=model_dir, 
    device=device
)

视觉问答工具

XRayVQATool(
    cache_dir=model_dir, 
    device=device
)
  • CheXagent权重会自动下载

MedSAM工具

MedSAM分割功能将在未来的更新中加入。

实用工具

无需额外的模型权重:

ImageVisualizerTool()
DicomProcessorTool(temp_dir=temp_dir)

需要手动设置的工具

图像生成工具

ChestXRayGeneratorTool(
    model_path=f"{model_dir}/roentgen", 
    temp_dir=temp_dir, 
    device=device
)

配置注意事项

必需参数

  • model_dircache_dir:Hugging Face使用的模型权重基础目录
  • temp_dir:临时文件目录
  • device:“cuda”表示使用GPU,“cpu”表示仅使用CPU

内存管理

  • 针对资源限制,考虑选择性地初始化工具
  • 在可用的情况下使用8位量化
  • 某些工具(LLaVA-Med、Grounding)对资源的需求较高

本地大模型

如果您正在使用如OllamaLM Studio等框架运行本地大模型,则需要相应地配置环境变量。例如:

export OPENAI_BASE_URL="http://localhost:11434/v1"
export OPENAI_API_KEY="ollama"

可选:兼容OpenAI的提供商

MedRAX支持兼容OpenAI的API,允许区域或本地的大模型提供商作为替代后端。

例如,要通过阿里云DashScope使用Qwen3-VL,请设置以下环境变量:

export OPENAI_BASE_URL="https://dashscope.aliyuncs.com/compatible-mode/v1"
export OPENAI_API_KEY="<您的DashScope API密钥>"
export OPENAI_MODEL="qwen3-vl-235b-a22b-instruct"

星标历史

星标历史图表


作者

¹ 多伦多大学计算机科学系,加拿大多伦多市
² Vector Institute,加拿大多伦多市
³ 多伦多大学健康网络,加拿大多伦多市
⁴ Cohere,加拿大多伦多市
⁵ Cohere Labs,加拿大多伦多市
⁶ 多伦多大学检验医学与病理生物学系,加拿大多伦多市


* 共同贡献

引用

如果您觉得这项工作有用,请引用我们的论文:

@misc{fallahpour2025medraxmedicalreasoningagent,
      title={MedRAX:用于胸部X光片的医学推理代理}, 
      author={Adibvafa Fallahpour、Jun Ma、Alif Munim、Hongwei Lyu和Bo Wang},
      year={2025},
      eprint={2502.02673},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2502.02673}, 
}

由多伦多大学、Vector Institute和多伦多大学健康网络倾情打造

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

159.6k|★★☆☆☆|今天
开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信

144.3k|★☆☆☆☆|昨天
Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|1周前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|1周前
插件Agent图像