AgentDock

1.6k 109 简单 1 次阅读 2天前MIT语言模型开发框架Agent

AI 解读由 AI 自动生成，仅供参考

AgentDock 是一个专为构建复杂 AI 智能体（AI Agents）而设计的开源框架，旨在帮助开发者打造能够可靠执行高难度任务的自动化系统。它主要解决了当前 AI 应用在落地过程中常见的“不可控”和“难以预测”痛点，通过独特的“可配置确定性”机制，让智能体的行为更加稳定、逻辑更加清晰，从而在极少人工干预的情况下也能精准运行。

这款工具特别适合后端开发者、AI 工程师以及希望将大模型能力集成到生产环境的研究人员使用。AgentDock 由核心框架和参考客户端两部分组成：核心部分采用与具体模型供应商无关的设计，赋予用户完全的掌控权；客户端则基于 Next.js 构建，提供了直观的演示与交互界面。其技术亮点在于强调简洁性与可扩展性，支持灵活编排如深度搜索、多步推理、自我反思等复杂工作流。官方提供的"House 医生”诊断助手和“认知推理引擎”等案例，生动展示了其在处理专业领域复杂问题时的强大潜力。无论是想探索智能体架构的开发者，还是寻求构建企业级自动化解决方案的团队，AgentDock 都提供了一个坚实且灵活的技术底座。

使用场景

某医疗科技公司的研发小组正致力于构建一个能辅助医生进行复杂病例诊断的 AI 系统，需要整合多方医学数据并保证推理过程的严谨性。

没有 AgentDock 时

流程不可控：传统大模型回答具有随机性，难以确保每次诊断都严格遵循“搜索文献 - 深度分析 - 验证结论”的标准医疗流程。
工具集成困难：手动串联 PubMed 数据库检索、通用搜索和内部病历库需要编写大量胶水代码，且不同 AI 提供商的接口差异导致维护成本极高。
调试黑盒化：当 AI 给出错误诊断建议时，开发者无法追溯具体是哪个推理环节出错，缺乏类似"Dr. Gregory House"案例中的多阶段可视化监控。
架构绑定风险：现有方案往往深度绑定特定框架或云厂商，一旦需要更换底层模型或部署环境，整个系统需推倒重来。

使用 AgentDock 后

可配置的确定性：利用 AgentDock 的核心特性，团队定义了强制性的多阶段工作流，确保每个病例都经过标准化的调查步骤，输出结果稳定可靠。
敏捷工具编排：通过框架无关的后端设计，轻松将 search、deep_research 和 pubmed 等专用工具编排进同一代理，无需关心底层提供商差异。
透明化推理链路：借助其参考客户端，开发人员能清晰看到 AI 如何像专家一样逐步拆解病例，快速定位并修正逻辑偏差。
自主可控部署：基于 TypeScript 构建的开放架构让团队完全掌握代码所有权，可灵活部署在私有服务器或云端，避免厂商锁定。

AgentDock 通过提供可配置的确定性和灵活的编排能力，将不可预测的大模型转化为符合医疗级标准的可靠诊断助手。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notes该项目是基于 TypeScript 的 AI Agent 框架，非 Python 项目。运行必须安装 Node.js (>=20.11.0) 和 pnpm (>=9.15.0)。需要配置 LLM 提供商（如 Anthropic, OpenAI 等）的 API 密钥。客户端部分基于 Next.js 构建。

python未说明

Node.js >= 20.11.0 (LTS)

pnpm >= 9.15.0

TypeScript

快速开始

AgentDock Logo

用 AI 代理构建任何东西

AgentDock 是一个用于构建复杂 AI 代理的框架，能够以可配置的确定性完成复杂任务。它由两个主要组件组成：

AgentDock Core：一个开源、后端优先的框架，用于构建和部署 AI 代理。它设计为与框架无关且与供应商无关，使您能够完全控制代理的实现。
开源客户端：一个完整的 Next.js 应用程序，作为 AgentDock Core 框架的参考实现和消费者。您可以在 https://hub.agentdock.ai 上查看其实际运行效果。

AgentDock 使用 TypeScript 构建，强调简单性、可扩展性和可配置的确定性，使其成为构建可靠且可预测的 AI 系统的理想选择，这些系统可以在最少监督的情况下运行。

🌐 AgentDock Pro 即将推出：通过我们全面的云平台体验 AI 自动化的未来，该平台配备可视化工作流构建器、高级编排功能和企业级基础设施。请在 AgentDock.ai 注册，以获得抢先体验资格，并在我们上线时赢取免费平台积分。

📖 AI 代理书籍：通过我们的综合指南，掌握构建生产级 AI 代理的完整方法论——从基础知识到企业级部署模式，尽在 AI 代理书籍。

🎯 全面的提示库：我们正在构建最广泛的提示库，涵盖日常自动化需求和高度专业化的垂直领域要求。从通用生产力工具到行业特定的工作流，我们精心挑选的提示集合可为任何场景下的代理提供经过实战检验的提示。

演示

格雷戈里·豪斯医生： 一个诊断推理引擎，可在多阶段工作流中协调使用**search、deep_research** 和 pubmed 工具，运用与专家诊断医师相媲美的严谨调查技术来解决复杂的医疗病例。

https://github.com/user-attachments/assets/50c766dc-fc65-481c-aad2-9a71169c7b28

认知推理器： 一个多阶段推理引擎，可在可配置的工作流中协调七种专门的认知工具（search、think、reflect、compare、critique、brainstorm、debate），以类似人类的推理模式系统地分解并解决复杂问题。

https://github.com/user-attachments/assets/279a4e48-a980-4f83-becb-5e039fe10c56

历史导师： 一个沉浸式教育代理，结合向量化的历史知识与**search** 功能以及动态的 Mermaid 图表渲染，可按需创建真实的 learning 体验，直观展示复杂的历史关系和时间线。

https://github.com/user-attachments/assets/56e80a15-eac3-452b-aa8b-efe7b7f3360c

卡路里视觉： 一个基于视觉的营养分析系统，结合计算机视觉与结构化数据提取技术，可以从食物图像中精确分析宏量和微量营养素的构成，如同一位营养师般无需手动输入即可即时量化餐食成分。

https://github.com/user-attachments/assets/6b4e71cf-accc-4c18-bb42-7bc5ad2f37e4

🌐 README 翻译

Français • 日本語 • 한국어 • 中文 • Español • Deutsch • Italiano • Nederlands • Polski • Türkçe • Українська • Ελληνικά • Русский • العربية

🧠 设计原则

AgentDock 基于以下核心原则构建：

简单至上：只需最少的代码即可创建功能性代理
节点式架构：所有能力均以节点形式实现
工具即专用节点：工具扩展了节点系统，以支持代理的能力
可配置的确定性：控制代理行为的可预测性
类型安全：全程采用全面的 TypeScript 类型定义

可配置的确定性

可配置的确定性 是 AgentDock 设计理念的核心，它使您能够在创意型 AI 能力与可预测的系统行为之间取得平衡：

AgentNode 本身具有非确定性，因为 LLM 每次都可能生成不同的响应。
通过定义工具执行路径，可以使工作流更具确定性。
开发者可以通过配置系统中哪些部分使用 LLM 推理来控制确定性的程度。
即使包含 LLM 组件，通过结构化的工具交互，整个系统的运行行为仍然保持可预测性。
这种平衡的方法使您的 AI 应用既具备创造力，又拥有可靠性。

确定性工作流

AgentDock 完全支持您在典型工作流构建器中熟悉的确定性工作流。无论是否使用 LLM 推理，您所期望的可预测执行路径和可靠结果都能实现：

flowchart LR
  Input[输入] --> Process[处理]
  Process --> Database[(数据库)]
  Process --> Output[输出]
  
  style Input fill:#f9f9f9,stroke:#333,stroke-width:1px
  style Output fill:#f9f9f9,stroke:#333,stroke-width:1px
  style Process fill:#d4f1f9,stroke:#333,stroke-width:1px
  style Database fill:#e8e8e8,stroke:#333,stroke-width:1px

非确定性代理行为

借助 AgentDock，当您需要更高的适应性时，也可以利用带有 LLM 的 AgentNode。根据需求，其创造性输出可能会有所不同，同时仍能保持结构化的交互模式：

flowchart TD
  Input[用户查询] --> Agent[AgentNode]
  Agent -->|"LLM 推理（非确定性）"| ToolChoice{工具选择}
  ToolChoice -->|"选项 A"| ToolA[深度研究工具]
  ToolChoice -->|"选项 B"| ToolB[数据分析工具]
  ToolChoice -->|"选项 C"| ToolC[直接响应]
  ToolA --> Response[最终响应]
  ToolB --> Response
  ToolC --> Response
  
  style Input fill:#f9f9f9,stroke:#333,stroke-width:1px
  style Agent fill:#ffdfba,stroke:#333,stroke-width:1px
  style ToolChoice fill:#ffdfba,stroke:#333,stroke-width:1px
  style ToolA fill:#d4f1f9,stroke:#333,stroke-width:1px
  style ToolB fill:#d4f1f9,stroke:#333,stroke-width:1px
  style ToolC fill:#d4f1f9,stroke:#333,stroke-width:1px
  style Response fill:#f9f9f9,stroke:#333,stroke-width:1px

具有确定性子工作流的非确定性代理

AgentDock 通过将非确定性代理智能与确定性工作流执行相结合，为您提供两全其美的解决方案：

flowchart TD
  Input[用户查询] --> Agent[AgentNode]
  Agent -->|"LLM 推理（非确定性）"| FlowChoice{子工作流选择}
  FlowChoice -->|"决策 A"| Flow1[确定性工作流 1]
  FlowChoice -->|"决策 B"| Flow2[确定性工作流 2]
  FlowChoice -->|"决策 C"| DirectResponse[生成响应]
  
  Flow1 --> |"步骤 1 → 2 → 3 → ... → 200"| Flow1Result[工作流 1 结果]
  Flow2 --> |"步骤 1 → 2 → 3 → ... → 100"| Flow2Result[工作流 2 结果]
  
  Flow1Result --> Response[最终响应]
  Flow2Result --> Response
  DirectResponse --> Response
  
  style Input fill:#f9f9f9,stroke:#333,stroke-width:1px
  style Agent fill:#ffdfba,stroke:#333,stroke-width:1px
  style FlowChoice fill:#ffdfba,stroke:#333,stroke-width:1px
  style Flow1 fill:#c9e4ca,stroke:#333,stroke-width:1px
  style Flow2 fill:#c9e4ca,stroke:#333,stroke-width:1px
  style Flow1Result fill:#c9e4ca,stroke:#333,stroke-width:1px
  style Flow2Result fill:#c9e4ca,stroke:#333,stroke-width:1px
  style DirectResponse fill:#ffdfba,stroke:#333,stroke-width:1px
  style Response fill:#f9f9f9,stroke:#333,stroke-width:1px

这种方法允许由智能代理决策调用复杂的多步骤工作流（可能涉及数百个在工具中实现或作为连接节点序列的确定性步骤）。尽管这些工作流是由非确定性代理推理触发的，但它们的执行过程仍然是可预测的。

对于更高级的 AI 代理工作流和多阶段处理管道，我们正在构建 AgentDock Pro——一个功能强大的平台，用于创建、可视化和运行复杂的代理系统。

可配置确定性的简要说明

可以把它想象成开车：有时你需要 AI 的创造力（比如在城市街道上导航——非确定性），而有时则需要可靠、循序渐进的流程（比如按照高速公路指示牌行驶——确定性）。AgentDock 让你能够构建同时运用这两种方式的系统，在任务的每个环节选择合适的方法。这样，你既能获得 AI 的智慧，又能在需要时得到可预测的结果。

🏗️ 核心架构

该框架基于一个功能强大、模块化的节点系统构建，作为所有代理功能的基础。这种架构使用不同的节点类型作为构建块：

BaseNode：基础类，为所有节点建立核心接口和能力。
AgentNode：一种专门的核心节点，负责编排 LLM 交互、工具使用和代理逻辑。
工具与自定义节点：开发者可通过扩展 BaseNode 的节点来实现代理能力和自定义逻辑。

这些节点通过受管注册表进行交互，并可通过核心架构的端口及潜在的消息总线相互连接，从而实现复杂、可配置且可能具有确定性的代理行为和工作流。

有关节点系统组件和功能的详细说明，请参阅节点系统文档。

🚀 开始使用

有关全面指南，请参阅入门指南。

需求

Node.js ≥ 20.11.0 (LTS)
pnpm ≥ 9.15.0（必需）
LLM 提供商的 API 密钥（Anthropic、OpenAI 等）

安装

克隆仓库：

git clone https://github.com/AgentDock/AgentDock.git
cd AgentDock

安装 pnpm：

corepack enable
corepack prepare pnpm@latest --activate

安装依赖项：
```
pnpm install
```
如果需要从头开始重新安装：
```
pnpm run clean-install
```
此脚本会移除所有 node_modules 和锁文件，并正确地重新安装依赖项。
配置环境：

基于 .env.example 创建环境文件（.env 或 .env.local）：
```
# 选项 1：创建 .env.local
cp .env.example .env.local

# 选项 2：创建 .env
cp .env.example .env
```
然后将您的 API 密钥添加到环境文件中。
启动开发服务器：
```
pnpm dev
```

部署开源客户端

点击上方按钮，即可将 AgentDock 开源客户端直接部署到您的 Vercel 账户。

高级功能

功能	描述	文档
会话管理	对话的隔离且高效的会话状态管理	会话文档
编排框架	根据上下文控制智能体行为和工具可用性	编排文档
存储抽象层	具有可插拔提供者的灵活存储系统，支持键值存储、向量存储和安全存储	存储文档
评估框架	使用多样化的评估器系统地衡量并提升智能体质量	评估文档

目前，存储系统正在演进中，已支持键值存储（包括内存、Redis 和 Vercel KV 提供者）以及客户端安全存储；同时，向量存储和其他后端也在开发中。

📕 文档

AgentDock 框架的文档可在 hub.agentdock.ai/docs 以及本仓库的 /docs/ 目录下找到。文档内容包括：

入门指南
API 参考
节点创建教程
集成示例

如需更全面的生态文档和指南，请访问 agentdock.ai/docs。

📂 仓库结构

本仓库包含以下内容：

AgentDock 核心库：位于 agentdock-core/ 目录下的核心框架。
开源客户端：基于 Next.js 构建的完整参考实现，作为 AgentDock 核心框架的消费者。
示例智能体：位于 agents/ 目录中的即用型智能体配置。
AI 智能体手册：位于 content/ai-agents-book/ 目录下的综合指南内容。

您可以独立在自己的应用中使用 AgentDock 核心库，也可以将本仓库作为起点来构建您自己的智能体驱动的应用程序。

📝 智能体模板

AgentDock 包含多个预配置的智能体模板。您可以在 agents/ 目录中探索这些模板，或阅读智能体模板文档，以了解详细的配置信息。

🔧 示例实现

示例实现展示了特定的使用场景和高级功能：

实现	描述	状态
编排型智能体	利用编排机制根据上下文调整行为的示例智能体	已可用
认知推理器	使用结构化推理和认知工具解决复杂问题	已可用
智能体规划器	专门用于设计和实现其他 AI 智能体的智能体	已可用
代码游乐场	具有丰富可视化能力的沙箱式代码生成与执行环境	计划中

🔐 环境配置详情

AgentDock 开源客户端需要 LLM 提供商的 API 密钥才能正常运行。这些密钥需在环境文件（.env 或 .env.local）中进行配置，您可以基于提供的 .env.example 文件创建该文件。

LLM 提供商 API 密钥

请添加您的 LLM 提供商 API 密钥（至少需要一个）：

# LLM 提供商 API 密钥 - 至少需要一个
ANTHROPIC_API_KEY=sk-ant-xxxxxxx  # Anthropic API 密钥
OPENAI_API_KEY=sk-xxxxxxx         # OpenAI API 密钥
GEMINI_API_KEY=xxxxxxx            # Google Gemini API 密钥
DEEPSEEK_API_KEY=xxxxxxx          # DeepSeek API 密钥
GROQ_API_KEY=xxxxxxx              # Groq API 密钥

API 密钥解析顺序

AgentDock 开源客户端在解析使用哪个 API 密钥时，遵循以下优先级顺序：

每个智能体自定义的 API 密钥（通过 UI 中的智能体设置进行配置）
全局设置中的 API 密钥（通过 UI 中的设置页面进行配置）
环境变量（来自 .env.local 文件或部署平台）

工具专用 API 密钥

部分工具也需要各自的 API 密钥：

# 工具专用 API 密钥
SERPER_API_KEY=                  # 搜索功能所需
FIRECRAWL_API_KEY=               # 更深层网页搜索所需

有关环境配置的更多详细信息，请参阅 src/types/env.ts 中的实现。

使用您自己的 API 密钥 (BYOK)

AgentDock 采用 BYOK（自带密钥）模式：

在应用程序的设置页面中添加您的 API 密钥。
或者，您也可以通过请求头直接传递密钥以供 API 使用。
密钥将使用内置加密系统安全存储。
我们不会共享或存储任何 API 密钥。

📦 包管理工具

该项目要求使用 pnpm 进行一致的依赖管理。npm 和 yarn 不受支持。

💡 您可以构建的内容

AI 驱动的应用程序
- 自定义聊天机器人，搭配任意前端
- 命令行 AI 助手
- 自动化数据处理流水线
- 后端服务集成
集成能力
- 支持任何 AI 提供商（OpenAI、Anthropic 等）
- 适用于任何前端框架
- 可对接任何后端服务
- 自定义数据源和 API
自动化系统
- 数据处理工作流
- 文档分析流水线
- 自动化报告系统
- 任务自动化智能体

核心特性

特性	描述
🔌 框架无关（Node.js 后端）	核心库可与 Node.js 后端栈集成。
🧩 模块化设计	由简单节点构建复杂系统
🛠️ 可扩展	可为任何功能创建自定义节点
🔒 安全	内置 API 密钥和数据的安全特性
🔑 BYOK	使用您自己的 API 密钥调用 LLM 提供商
📦 自包含	核心框架依赖项极少
⚙️ 多步工具调用	支持复杂推理链
📊 结构化日志记录	提供对代理执行的详细洞察
🛡️ 健壮的错误处理	行为可预测，调试更简化
📝 TypeScript 优先	类型安全，提升开发者体验
🌐 开源客户端	包含完整的 Next.js 参考实现
🔄 编排	基于上下文对代理行为进行动态控制
💾 会话管理	并发对话之间的隔离状态
🎮 可配置的确定性	通过节点逻辑/工作流平衡 AI 的创造性和可预测性
📊 评估框架	强大的工具用于定义、运行和分析代理性能评估

🧰 组件

AgentDock 的模块化架构基于以下关键组件：

BaseNode: 系统中所有节点的基础
AgentNode: 代理功能的主要抽象
工具与自定义节点: 以节点形式实现的可调用能力和自定义逻辑。
节点注册表: 管理所有节点类型的注册与检索
工具注册表: 管理代理可用的工具
CoreLLM: 与 LLM 提供商交互的统一接口
提供商注册表: 管理 LLM 提供商的配置
评估框架: 代理评估的核心组件
错误处理: 用于处理错误并确保行为可预测的系统
日志记录: 用于监控和调试的结构化日志系统
编排: 根据对话上下文控制工具的可用性和行为
会话: 管理并发对话之间的状态隔离

有关这些组件的详细技术文档，请参阅架构概述。

🗺️ 路线图

以下是 AgentDock 的开发路线图。此处列出的大多数改进都与核心 AgentDock 框架 (agentdock-core) 相关，该框架目前在本地开发中，待达到稳定版本后将作为版本化的 NPM 包发布。部分路线图项目也可能涉及对开源客户端实现的增强。

功能	描述	类别
存储抽象层	具有可插拔提供者的灵活存储系统	进行中
高级记忆系统	长期上下文管理	进行中
向量存储集成	基于嵌入的文档和记忆检索	进行中
AI 代理评估	全面的测试和评估框架	进行中
平台集成	支持 Telegram、WhatsApp 等消息平台	计划中
多代理协作	使代理能够协同工作	计划中
模型上下文协议 (MCP) 集成	支持通过 MCP 发现和使用外部工具	计划中
语音 AI 代理	通过 AgentNode 使用语音界面和电话号码的 AI 代理	计划中
遥测与可追溯性	高级日志记录和性能跟踪	计划中
工作流运行时与节点	复杂自动化的核心运行时、节点类型和编排逻辑	计划中
AgentDock Pro	用于扩展 AI 代理和工作流的全面企业云平台	云
自然语言 AI 代理构建器	可视化构建器 + 自然语言代理和工作流构建	云
代理市场	可盈利的代理模板	云

👥 贡献

我们欢迎对 AgentDock 的贡献！请参阅 CONTRIBUTING.md 获取详细的贡献指南。

📜 许可证

AgentDock 采用 MIT 许可证发布。

✨ 构建任何东西！

AgentDock 提供了构建您所能想象的几乎任何 AI 驱动的应用程序或自动化的基础。我们鼓励您探索该框架，构建创新的代理，并为社区做出贡献。让我们共同构建 AI 交互的未来吧！

AgentDock 快速上手指南

AgentDock 是一个用于构建复杂 AI 智能体（AI Agents）的开源框架，主打可配置的确定性。它允许开发者在利用大模型创造力的同时，通过结构化工作流确保系统行为的可预测性。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Windows, macOS 或 Linux
Node.js: 版本 ≥ 20.11.0 (推荐使用 LTS 版本)
包管理器: pnpm ≥ 9.15.0 (必须)
API 密钥: 准备好大模型提供商的 API Key（如 OpenAI, Anthropic 等）

提示：国内开发者若遇到 npm/pnpm 源连接缓慢的问题，建议配置国内镜像源（如腾讯云或阿里云镜像）以加速依赖下载。

安装步骤

1. 克隆项目仓库

git clone https://github.com/AgentDock/AgentDock.git
cd AgentDock

2. 安装并激活 pnpm

AgentDock 强制要求使用 pnpm。如果您尚未安装，请使用以下命令启用 Corepack 并激活最新版的 pnpm：

corepack enable
corepack prepare pnpm@latest --activate

3. 安装项目依赖

在项目根目录下运行：

pnpm install

4. 配置环境变量

复制示例环境变量文件并根据需要修改（填入您的 LLM API Key）：

cp .env.example .env

编辑 .env 文件，填入您的密钥，例如：

OPENAI_API_KEY=your_openai_api_key
ANTHROPIC_API_KEY=your_anthropic_api_key

基本使用

AgentDock 的核心架构基于**节点（Node）**系统。所有功能（包括工具和工作流）都被实现为节点。

核心概念

BaseNode: 所有节点的基础类。
AgentNode: 专门用于编排 LLM 交互、工具调用和智能体逻辑的核心节点。
Tools: 作为特殊节点扩展，赋予智能体具体能力（如搜索、计算、数据库查询）。

运行示例智能体

项目内置了多个演示智能体，您可以直接运行它们来体验框架功能。

示例：运行 "Dr. Gregory House" (医疗诊断推理智能体)

该智能体展示了如何编排 search、deep_research 和 pubmed 工具来处理复杂的医疗案例。

pnpm run agent:dr-house

示例：运行 "Cognitive Reasoner" (认知推理引擎)

该智能体展示了多阶段推理，协调 think、reflect、critique 等七个专用认知工具。

pnpm run agent:cognitive-reasoner

开发自定义智能体

要构建自己的智能体，您需要创建继承自 BaseNode 的新节点，并在主程序中通过 AgentNode 进行编排。

在 agents 目录下创建新文件夹。
定义您的工具节点（实现特定逻辑）。
配置 AgentNode 的工作流，决定何时调用 LLM（非确定性）以及何时执行固定脚本（确定性）。

更多详细开发文档请参考官方文档：https://hub.agentdock.ai/docs

常见问题

如何在本地开发环境中实现会话状态和消息历史的持久化存储？

遇到 'State update failed' 或 Redis 'fetch failed' 错误该如何解决？

文档侧边栏出现双重滚动条（嵌套滚动）的视觉问题如何修复？

AgentDock 是否提供了评估 Agent 响应质量的框架？

如何为 AgentDock 的核心节点系统（Node System）编写单元测试？

在哪里可以找到 Agent 评估框架的详细产品需求文档（PRD）？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160.8k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|3天前

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像