DeepAgent

1k 132 简单 1 次阅读今天MITAgent

AI 解读由 AI 自动生成，仅供参考

DeepAgent 是一款由中国人民大学与小红书联合研发的通用推理智能体，旨在让 AI 像人类专家一样自主思考并灵活调用工具解决复杂问题。传统 AI 往往依赖预设流程或有限的固定工具，难以应对多变场景；而 DeepAgent 突破了这一局限，它能在端到端的推理过程中，自动从超过 16,000 个 RapidAPIs 中搜索、发现并匹配最合适的工具，无论是处理通用网络任务、执行具身智能操作（如导航与交互），还是进行深度研究（如代码执行、视觉问答），都能游刃有余。

该项目的核心亮点在于其“可扩展工具集”架构，支持开发者无缝接入自定义工具，并结合 QwQ、Qwen3 等先进推理模型，实现了从“被动执行指令”到“主动规划决策”的跨越。这不仅解决了现有智能体在工具泛化能力和长程推理上的短板，还大幅降低了构建高性能 AI 助手的门槛。

DeepAgent 非常适合 AI 研究人员探索新一代智能体架构，也适用于开发者快速搭建具备强大实操能力的垂直应用。对于希望深入理解大模型如何与现实世界交互的技术爱好者而言，它同样是一个极具价值的开源范本。目前项目已获 WWW 2026 收录，代码与数据集均已开放，欢迎社区共同体验与贡献。

使用场景

某跨境电商数据分析师需要在 2 小时内完成一份关于“东南亚新兴美妆品牌”的深度竞品报告，涉及多源数据检索、API 调用及图表生成。

没有 DeepAgent 时

工具切换繁琐：分析师需手动在搜索引擎、各类数据 API 平台和 Excel 之间反复跳转，无法在一个界面完成闭环操作。
推理链条断裂：面对复杂任务（如“先找品牌再查销量最后对比趋势”），传统脚本无法自主拆解步骤，必须人工编写每一步的代码逻辑。
扩展性差：若需引入新的数据源（如新增一个社交媒体 API），往往需要重构整个工作流代码，耗时且易出错。
信息整合低效：从不同渠道获取的碎片化数据难以自动关联，人工清洗和汇总占据了 80% 的时间，导致深度分析时间被压缩。

使用 DeepAgent 后

端到端自主执行：DeepAgent 直接在单一推理过程中自主规划，自动搜索并调用 16,000+ RapidAPIs 中的合适接口，一键完成从数据获取到报告生成的全流程。
动态推理决策：遇到未知问题时，DeepAgent 能像人类专家一样进行多步思考，自动拆解“查找 - 验证 - 分析”的子任务，无需人工干预逻辑细节。
工具集弹性伸缩：得益于可扩展的工具集架构，分析师可随时插入新的专用工具（如特定的视觉问答或文件处理插件），DeepAgent 即刻识别并无缝集成。
深度研究增强：内置的专项研究工具链自动完成网页浏览、代码执行和数据可视化，将原本数小时的数据整理工作缩短至分钟级，让分析师专注于策略洞察。

DeepAgent 通过将分散的工具调用与深度推理融合，把分析师从繁琐的“数据搬运工”角色解放为真正的“决策制定者”。

运行环境要求

操作系统

未说明

GPU

必需（用于运行 vLLM 服务推理模型），具体型号和显存取决于所选模型大小（如 4B 至 235B 参数），未明确指定 CUDA 版本

内存

未说明（取决于运行的模型大小，大模型如 235B 需要大量内存）

依赖

notes1. 必须使用 vLLM 部署主推理模型（推荐 Qwen3 或 QwQ 系列）和辅助模型。 2. 需配置多个外部 API 密钥（如 RapidAPI, Google Serper, Jina, TMDB, Spotify 等）才能运行特定任务。 3. ToolBench 数据集过大，需从官方仓库单独下载，其他预处理数据位于 ./data/ 目录。 4. 建议使用 conda 创建名为 deepagent 的虚拟环境进行安装。

python3.10+

vllm

requirements.txt 中定义的依赖包

快速开始

一种具有可扩展工具集的通用推理智能体

如果您喜欢我们的项目，请在 GitHub 上为我们点亮一颗星 ⭐，以获取最新更新。

📣 最新消息

[2026年1月14日]：🎉 DeepAgent 已被 WWW 2026 接收！
[2025年10月28日]：🔥 我们很荣幸成为 Hugging Face 每日论文 #1 的亮点。
[2025年10月27日]：📄 我们的论文现已发布在 arXiv 和 Hugging Face 上。
[2025年10月27日]：🚀 我们的代码库已发布。现在您可以使用像 QwQ、Qwen3 这样的推理模型以及您自己的工具集来部署 DeepAgent。

🎬 演示

1. 带有16,000多种RapidAPIs的通用智能体任务

DeepAgent 是一种具有可扩展工具集的推理智能体，能够在端到端的智能体推理过程中，从超过16,000个RapidAPI中搜索并使用合适的工具来完成通用任务。(注：由于ToolBench中的部分API无法使用，本演示中API响应由LLM模拟，以展示系统的正常功能。)

2. ALFWorld环境中的具身AI智能体任务

DeepAgent 还擅长导航类任务（如网页浏览、操作系统交互和具身AI），它使用一系列多功能的可插拔动作，例如移动、观察和拾取。

3. 带有专用工具的深度研究任务

DeepAgent 也可以作为强大的科研助手，配备用于网络搜索、浏览、代码执行、视觉问答和文件处理的专用工具。

💡 概述

DeepAgent 是一种端到端的深度推理智能体，它在一个连贯的推理过程中完成自主思考、工具发现和动作执行。这种范式摆脱了传统的预定义工作流程（如ReAct的“思考-行动-观察”循环），使智能体能够保持对整个任务的全局视角，并根据需要动态发现工具。

为了应对长期交互并防止陷入错误的探索路径，我们引入了 自主记忆折叠 机制。这使得DeepAgent可以通过将交互历史压缩成一种结构化的、受大脑启发的记忆模式来“喘口气”，从而重新考虑其策略并高效推进。

此外，我们提出了 ToolPO，这是一种专为通用工具使用设计的端到端强化学习训练方法，可以提升智能体掌握这些复杂机制的能力。

📊 总体性能

我们在广泛的基准测试上进行了大量实验：

(1) 通用工具使用任务： 我们在ToolBench、API-Bank、TMDB、Spotify和ToolHop上评估了DeepAgent，这些基准涵盖了从几十种到一万多种不同工具的工具集。
(2) 下游应用： 我们测试了它在ALFWorld、WebShop、GAIA和人类终极考试（HLE）中的表现，这些任务需要使用特定领域的工具集。图中的总体结果显示，DeepAgent在所有场景中都表现出色。

✨ DeepAgent框架

关键特性：

统一的智能体推理： DeepAgent摒弃了僵化的预定义工作流程。它在一个单一的思想流中运行，自主地对任务进行推理、动态地发现所需的工具并执行动作。这使得LRM能够保持全局视角，并充分发挥其自主潜力。
自主记忆折叠与受大脑启发的记忆： 面对复杂问题时，DeepAgent可以自主触发记忆折叠。这一过程将交互历史整合为一种结构化的记忆，使智能体能够以精简但全面的理解重新开始推理。该记忆架构受大脑启发，包括：
- 情景记忆： 对关键事件、决策和子任务完成情况的高层次记录。
- 工作记忆： 包含最近的信息，包括当前的子目标和近期计划。
- 工具记忆： 整合与工具相关的交互，使智能体能够从经验中学习并优化其策略。
基于ToolPO的端到端强化学习训练： 为了有效训练智能体，我们引入了ToolPO，这是一种策略优化方法，具有以下特点：
- 基于LLM的工具模拟器，可模拟真实世界的API，确保训练稳定高效。
- 工具调用优势归因，可为正确的工具调用标记分配细粒度的奖励，从而提供更精确的学习信号。

🔧 安装

环境设置


# 创建 conda 环境
conda create -n deepagent python=3.10
conda activate deepagent

# 安装依赖
cd DeepAgent-main
pip install -r requirements.txt

📊 基准测试

我们使用的基准测试可分为几类：

通用工具使用基准：
- ToolBench：包含 16,000 多个需要多步、多工具推理的真实 RapidAPI。
- API-Bank：通过 314 个由人类标注的对话，评估规划、检索和调用 73 个 API 的能力。
- RestBench：模拟 REST API 应用程序，场景包括 TMDB（54 个工具）和 Spotify（40 个工具）。
- ToolHop：测试跨 3,912 个本地可执行工具的多跳推理，需进行 3–7 次连续调用。
具身智能体基准：
- ALFWorld：基于文本的具身 AI 环境，智能体通过 9 种基本动作完成家务任务。
网页导航基准：
- WebShop：在线购物模拟，要求智能体搜索和导航商品以满足用户需求。
深度研究基准：
- GAIA：复杂的资讯检索任务，涉及网络搜索、浏览、VQA、代码执行和文件处理。
- 人类终极考试 (HLE)：极具挑战性的推理问题，测试代码、搜索和 VQA 工具等高级能力。为高效测试，我们从包含 2,500 道题的完整数据集中抽取了 500 道题。

所有预处理好的数据都位于 ./data/ 目录中，除了 ToolBench 数据需要从 ToolBench 官方仓库下载，因为其体积过大，无法放入我们的仓库。

🤖 模型服务

在运行 DeepAgent 之前，请确保您的推理模型和辅助模型已使用 vLLM 提供服务。DeepAgent 旨在与强大的推理模型作为主代理协同工作，并可利用辅助模型执行记忆生成和工具选择等任务。更多详情请参阅 [vLLM](https://github.com/vllm-project/vllm)。

对于主推理模型，我们推荐以下几种模型。性能从上到下逐渐提升，但计算成本也随之增加。您可以根据自身需求选择性价比合适的模型：

模型	参数量	类型	链接
Qwen3-4B-Thinking	40亿	思考型	🤗 HuggingFace
Qwen3-8B	80亿	混合型	🤗 HuggingFace
Qwen3-30B-A3B-Thinking	300亿	思考型	🤗 HuggingFace
QwQ-32B	320亿	思考型	🤗 HuggingFace
DeepAgent-QwQ-32B	320亿	思考型	🤗 HuggingFace
Qwen3-235B-A22B-Thinking	2350亿	思考型	🤗 HuggingFace

对于辅助模型，我们建议使用与主推理模型参数相近的 Qwen2.5-Instruct 或 Qwen3-Instruct 系列模型，但无需思考能力，以加快推理速度。

⚙️ 配置

所有配置均位于 ./config/base_config.yaml 文件中，包括 API 密钥、服务 URL 和路径。您需要将其修改为实际配置：

1. API 配置

根据您的任务选择并配置相应的 API：

ToolBench (RapidAPI)：
- toolbench_api：用于 ToolBench 的 RapidAPI 密钥。您可以从 ToolBench 官方仓库获取。
- toolbench_service_url：ToolBench 服务 URL。保持默认即可使用 ToolBench 的官方服务。
深度研究：
- google_serper_api：用于网络搜索的 Google Serper API 密钥。您可在此申请：serper.dev。
- use_jina：是否使用 Jina Reader 来稳定地获取 URL 内容。
- jina_api_key：Jina API 密钥。您可在此申请：jina.ai/api-dashboard/reader。
RestBench (TMDB 和 Spotify)：
- tmdb_access_token：TMDB 访问令牌。您可在此获取 TMDB API 密钥：developer.themoviedb.org/docs/getting-started。
- spotify_client_id：Spotify 客户端 ID。您可在此获取 Spotify API 密钥：developer.spotify.com/documentation/web-api。
- spotify_client_secret：Spotify 客户端密钥。
- spotify_redirect_uri：Spotify 重定向 URI。
WebShop：
- webshop_service_url：WebShop 服务 URL。您可根据 WebShop 官方仓库中的说明创建新环境并在本地提供服务。

2. 模型配置

在配置文件中设置您的模型端点：

主推理 LLM：
- model_name：您部署的推理模型名称（如 QwQ-32B）。
- base_url：推理模型服务的 API 端点（如 http://0.0.0.0:8080/v1）。
- api_key：访问推理模型服务的 API 密钥。如果您使用 vLLM，则设为 empty。
- tokenizer_path：推理模型分词器文件的本地路径。
辅助 LLM：
- aux_model_name：您部署的辅助模型名称（如 Qwen2.5-32B-Instruct）。
- aux_base_url：辅助模型服务的 API 端点。
- aux_api_key：辅助模型的 API 密钥。如果您使用 vLLM，则设为 empty。
- aux_tokenizer_path：辅助模型分词器文件的本地路径。
VQA 模型（用于 GAIA 和 HLE 中的图像输入）：
- vqa_model_name：您部署的视觉语言模型名称（如 Qwen2.5-VL-32B-Instruct）。模型服务方法见 [模型服务]。
- vqa_base_url：VQA 模型服务的 API 端点。
- vqa_api_key：VQA 模型的 API 密钥。如果您使用 vLLM，则设为 empty。
工具检索器：
- tool_retriever_model_path：工具检索器模型的本地路径（例如 ./models/bge-large-en-v1.5）。
- tool_retriever_api_base：工具检索器服务的 API 端点。预先部署可以避免每次运行系统时都重新加载检索器模型。你可以使用以下命令进行部署：
```
python src/run_tool_search_server.py \
    --base_config_path ./config/base_config.yaml \
    --datasets toolbench,toolhop,tmdb,spotify,api_bank \
    --host 0.0.0.0 \
    --port 8001
```

3. 数据路径配置

所有基准数据集都存储在 ./data/ 目录下。如有需要，你可以修改这些路径。

🚀 运行 DeepAgent

要在启用工具搜索的情况下对某个基准数据集进行运行，可使用以下命令：

python src/run_deep_agent.py \
    --config_path ./config/base_config.yaml \
    --dataset_name toolbench \
    --enable_tool_search \
    --eval

若要在闭集模式下对某个基准数据集进行运行，则使用以下命令：

python src/run_deep_agent.py \
    --config_path ./config/base_config.yaml \
    --dataset_name gaia \
    --eval

参数说明：

--config_path：主配置文件的路径。
--dataset_name：要使用的数据集名称（例如 toolbench、api_bank、tmdb、spotify、toolhop、gaia、hle、alfworld、webshop）。
--subset_num：从数据集中运行的样本数量。
--concurrent_limit：最大并发请求数。默认值为 32。
--enable_tool_search：允许智能体搜索工具。如果禁用，则仅使用任务提供的工具（闭集模式）。
--enable_thought_folding：允许智能体使用思维折叠机制。
--max_action_limit：每道题目的最大动作数（包括工具搜索和工具调用）。
--max_fold_limit：每道题目的最大思维折叠次数。
--top_k：返回的搜索工具的最大数量。
--eval：生成结果后对结果进行评估。

多工具失败问题排查

如果 DeepAgent 在运行 ToolBench 或其他多工具基准测试时出现卡住、不断选择奇怪工具或忽略工具输出的情况，请参阅 docs/multi_tool_agent_failure_modes.md 中的逐步检查清单。

评估

我们的模型推理脚本可以自动保存模型的输入和输出以便进行评估。要运行评估，在执行 ./src/run_deep_agent.py 时添加 --eval 标志即可。各数据集的评估脚本位于 ./src/evaluate/ 目录下。

🔥 深度研究智能体家族

欢迎试用我们的深度研究智能体系列：

DeepAgent：具有可扩展工具集的通用推理智能体（WWW 2026）
简述： 一个端到端的深度推理智能体，通过受大脑启发的记忆折叠机制，实现自主思考、工具发现和动作执行。

代理式熵平衡策略优化（WWW 2026）
简述： 一种代理式的强化学习算法，旨在在回放和策略更新阶段平衡熵。

代理式强化策略优化（ICLR 2026）
简述： 一种代理式的强化学习算法，鼓励策略模型在高熵的工具调用回合中自适应地进行分支采样，

解耦规划与执行：面向深度搜索的层次化推理框架
简述： 该框架通过专门的智能体，将深度搜索分层解耦为战略规划和领域特定的执行。

Tool-Star：通过强化学习赋能大模型脑的多工具推理器
简述： 一个端到端的TIR后训练框架，通过自我批评强化学习设计，使大模型能够自主地与多工具环境交互。

WebThinker：赋予大型推理模型深度研究能力（NeurIPS 2025）
简述： 一个深度研究智能体，赋予大型推理模型自主搜索、网页浏览和撰写研究报告的能力。

Search-o1：代理式搜索增强型大型推理模型（EMNLP 2025）
简述： 一个代理式搜索增强框架，通过代理式RAG和文档内推理模块，将自主知识检索与大型推理模型相结合。

📄 引用

如果您觉得这项工作对您有帮助，请引用我们的论文：

@misc{deepagent,
      title={DeepAgent: 一个具有可扩展工具集的通用推理智能体}, 
      author={李晓溪、焦文翔、金嘉睿、董冠廷、金家杰、王一诺、王浩、朱宇涛、文继荣、陆元、窦志成},
      year={2025},
      eprint={2510.21618},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2510.21618}, 
}

📄 许可证

本项目采用 MIT 许可证开源。

📞 联系方式

如有任何问题或反馈，请通过 xiaoxi_li@ruc.edu.cn 与我们联系。

星标历史

DeepAgent 快速上手指南

DeepAgent 是一个具备可扩展工具集的通用推理智能体（General Reasoning Agent）。它能够在端到端的推理过程中自主思考、动态发现工具并执行动作，适用于通用工具调用、具身智能（Embodied AI）及深度研究等多种场景。

1. 环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统: Linux 或 macOS (Windows 用户建议使用 WSL2)
Python 版本: 3.9 或更高 (推荐 3.10)
包管理器: Conda (推荐) 或 pip
模型服务: 需部署 vLLM 服务以运行推理模型和辅助模型

前置依赖

您需要预先准备好以下 API Key（根据具体任务选择配置）：

通用工具任务: RapidAPI Key (ToolBench)
深度研究任务: Google Serper API Key, Jina API Key
特定基准测试: TMDB Token, Spotify Client ID/Secret 等

2. 安装步骤

2.1 创建虚拟环境

推荐使用 Conda 创建独立的 Python 环境：

conda create -n deepagent python=3.10
conda activate deepagent

2.2 克隆代码与安装依赖

下载项目代码并安装所需依赖包：

git clone https://github.com/your-repo/DeepAgent.git
cd DeepAgent-main
pip install -r requirements.txt

提示: 国内用户若下载依赖较慢，可添加清华源加速： pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 基本使用

3.1 启动模型服务

DeepAgent 依赖 vLLM 部署主推理模型（Reasoning Model）和辅助模型（Auxiliary Model）。

推荐模型组合：

主模型: QwQ-32B, Qwen3-30B-A3B-Thinking 或微调版 DeepAgent-QwQ-32B
辅助模型: Qwen2.5-Instruct 或 Qwen3-Instruct (同参数量级，无思考模式以加速推理)

请使用 vLLM 启动服务（示例）：

python -m vllm.entrypoints.api_server --model Qwen/QwQ-32B --port 8000

3.2 配置文件修改

编辑 ./config/base_config.yaml 文件，填入您的 API Key 和服务地址。

关键配置项示例：

# ToolBench 任务配置
toolbench_api: "YOUR_RAPIDAPI_KEY"
toolbench_service_url: "http://default-toolbench-service"

# 深度研究任务配置
google_serper_api: "YOUR_SERPER_API_KEY"
use_jina: true
jina_api_key: "YOUR_JINA_API_KEY"

# 模型服务地址
reasoning_model_url: "http://localhost:8000/v1"
auxiliary_model_url: "http://localhost:8001/v1"

3.3 运行智能体

配置完成后，即可运行 DeepAgent 执行任务。以下是一个通用的运行命令示例（具体脚本名称请参考项目 scripts 目录）：

python run_agent.py \
    --config ./config/base_config.yaml \
    --task_type "general_tool_use" \
    --query "帮我查找北京明天的天气并推荐附近的餐厅"

运行说明：

--task_type: 指定任务类型，如 general_tool_use (通用工具), embodied_ai (具身智能), deep_research (深度研究)。
--query: 输入您的自然语言指令。
系统将自动进行“自主记忆折叠”（Autonomous Memory Folding），动态调用工具并输出最终结果。

更多详细基准测试数据集请查看 ./data/ 目录，或访问 HuggingFace 数据集页面获取。

常见问题

应用上下文折叠（Context Folding）后，奖励分数和损失是如何计算的？之前的轨迹会被如何处理？

DeepAgent-32B-Base 模型是经过 SFT 训练的模型还是仅通过提示词引导的基础模型？

在 ToolPO 方法中，如何定义工具调用是“正确”的？

论文中提到的“无工具模拟（w/o Tool Simulation）”消融实验具体是如何设置的？

在哪里可以找到用于辅助 LLM 模拟工具调用奖励的提示词（Prompt）？

当发生内存折叠时，最终任务的成功优势（Task Success Advantage）是否会传播到折叠前的历史 token？

多工具代理（Multi-tool Agent）常见的失败模式有哪些？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 143.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|昨天

开发框架图像Agent