Hephaestus
Hephaestus 是一款半结构化智能体框架,旨在让 AI 工作流能够根据实际探索过程动态生成任务指令,而非依赖开发者预先设定的固定流程。传统框架通常要求为每个可能的分支提前编写详细规则,难以应对开发中突发的新发现(如潜在的安全漏洞或更优的架构模式)。Hephaestus 通过定义“分析、实施、验证”等逻辑阶段类型,赋予智能体自由跨阶段创建新任务的能力。当某个智能体在工作中发现值得深入的问题时,可自动 spawn 新的调查或优化任务,使工作流像一棵不断生长的树,随实际需求自然扩展。
这一特性特别适合需要处理复杂、非确定性任务的软件开发者和研究人员,尤其是那些希望构建能自主适应变化、具备高度灵活性的多智能体系统的团队。其独特亮点在于打破了“预设即限制”的传统范式,实现了真正的动态协作与自我演进。目前项目已提供包括从需求文档生成软件、自动修复漏洞、代码库索引等多个生产级示例工作流,便于快速上手实践。
使用场景
某初创团队需要在三天内根据一份模糊的产品需求文档(PRD),快速构建一个包含 OAuth 认证、速率限制及完整测试用例的 Web 应用后端。
没有 Hephaestus 时
- 流程僵化:开发者必须预先编写所有可能的分支逻辑,一旦遇到未预料的架构问题,自动化流程即刻中断。
- 错失优化:测试代理发现潜在的性能瓶颈或安全漏洞时,因缺乏预设指令,无法自动触发新的分析任务,只能人工介入。
- 重复劳动:每当需求变更或发现新依赖,工程师需手动重写工作流脚本,导致大量时间浪费在维护流程而非解决业务问题上。
- 视野受限:传统框架仅能执行“计划→执行→测试”的线性指令,无法像资深工程师那样在执行中动态调整策略。
使用 Hephaestus 后
- 动态自愈:验证代理在测试中意外发现缓存模式可提升 40% 性能,立即自主创建一个新的“分析阶段”任务,无需人工干预。
- 自主分支:系统根据代理的实际发现自动生成任务树,原本线性的工作流瞬间扩展为并行的多路探索,覆盖未预见的场景。
- 智能协作:新生成的分析任务被其他空闲代理自动认领并深入调研,最终将优化方案反馈回实施阶段,形成闭环。
- 灵活适应:面对 PRD 中的模糊地带,代理能自主决定是继续编码还是先进行架构调研,真正模拟了人类专家的决策过程。
Hephaestus 的核心价值在于让 AI 工作流不再受限于预设剧本,而是像真实开发团队一样,在执行中自主发现需求并动态构建解决路径。
运行环境要求
- macOS
未说明
未说明

快速开始
🔥 赫菲斯托斯:一种半结构化的智能体框架
🎥 观看赫菲斯托斯的实际运行
https://github.com/user-attachments/assets/7b021611-2c09-494b-9da1-2ce05176dc51
观看赫菲斯托斯如何协调多个AI智能体、监控它们的执行轨迹,并动态构建工作流
新功能:Hephaestus Dev
准备好将赫菲斯托斯用作开发工具了吗? 我们打造了 Hephaestus Dev——一个预配置的环境,内含5个可用于软件开发的生产级工作流:
| 工作流 | 功能描述 |
|---|---|
| 从PRD到软件构建 | 根据产品需求文档构建完整的软件 |
| Bug修复 | 系统性地分析、修复并验证Bug |
| 索引代码库 | 扫描并索引代码库,构建内存中的知识库 |
| 功能开发 | 按照既定模式为现有代码库添加新功能 |
| 文档生成 | 为现有代码库生成全面的文档 |
python run_hephaestus_dev.py --path /path/to/project
我一直遇到的问题
我试图构建一个系统,让AI智能体能够处理复杂的软件项目。比如:“帮我构建一个包含OAuth、JWT、限流机制和全面测试的认证系统。”
传统的智能体框架可以进行分支和循环,但有一个局限性:每个分支都需要预先定义好的指令。 你必须提前为每一个可能的情景写好任务描述。
可是,那些未曾预料到的新发现又该怎么办呢?当测试智能体发现优化机会、安全问题,或者更好的架构模式时?
于是,我尝试了一种新的方法:定义解决问题所需的逻辑阶段类型——例如“规划→实现→测试”——并让智能体根据自己的发现,在任何阶段创建任务。
实际发生的情况:一棵自我生长的分支树
我没有采用僵化的顺序,而是设置了以下阶段类型:
- 阶段1(分析):理解、规划、调查
- 阶段2(实现):构建、修复、优化
- 阶段3(验证):测试、验证、质量检查
关键的洞察是:智能体可以在任意阶段创建任务。
例如,一个正在测试你的认证系统的验证智能体,可能会发现一种优雅的缓存模式。它不会被卡住(也不会受限于你事先编写的分支逻辑),而是:
- 创建一个阶段1的调查任务:“分析认证缓存模式——可能适用于其他12条API路由,使性能提升40%”
- 继续执行其验证任务
- 另一个智能体接收到这个调查任务并展开探索
就这样,工作流自动进行了分支。这并不是因为你预测到了“如果发现优化点,就创建调查任务”,而是因为智能体发现了值得探索的内容,并且有自由去为此创建新的任务。
这种方式形成了一棵基于实际发现而非预设场景而不断生长的任务分支树。
让我通过一个例子来展示它的实际运作:
示例:从PRD构建应用
我给赫菲斯托斯提供了一份产品需求文档:“构建一个带有认证、REST API和React前端的Web应用。”
阶段1的智能体读取了PRD,识别出5个主要组件:
- 认证系统
- REST API层
- React前端
- 数据库模式
- 后台任务处理器
它随即创建了5个阶段2的任务——每个组件对应一个任务。现在,我有5个智能体在并行工作,各自专注于一个部分。
其中一个阶段2的智能体完成了REST API的构建,并创建了一个阶段3的验证任务:“测试REST API端点。”
阶段3的智能体开始测试。一切顺利通过。然而,它注意到一件事:
“认证端点使用了一种缓存模式,能将数据库查询次数减少60%。这有可能显著提升所有API路由的性能。”
有趣的地方就在这里。
阶段3的智能体并没有仅仅记录下这一观察结果就继续前进,也没有因为工作流计划中没有“调查优化方案”而陷入僵局。
相反,它创建了一个新的阶段1的调查任务:“分析认证缓存模式——可能适用于其他API路由,带来巨大的性能提升。”
实时视图:2个智能体跨越3个阶段协同工作,守护者以90%的一致性进行监控
一个新的阶段1智能体诞生,对缓存模式进行了深入研究,确认其可行性后,又创建了一个阶段2的实施任务:“将缓存模式应用到所有API路由上。”
另一个智能体负责实施,随后再由另一个智能体进行验证。
工作流就这样自动分支了。 这一优化方案并非事先规划好的,而是由智能体在测试过程中发现,并主动创建了新的任务来进一步探索。
与此同时,另一个阶段3的智能体正在测试认证组件。测试却失败了。于是,它创建了一个阶段2的Bug修复任务:“修复认证令牌过期验证——当前实现允许过期的令牌通过。”
修复智能体完成了修改,并创建了阶段3的复测任务:“验证认证修复是否成功。”
刚才发生了什么?
让我们看看最终生成的结果:
graph TB
P1[阶段1:分析PRD<br/>创建5个任务] --> P2A[阶段2:构建认证]
P1 --> P2B[阶段2:构建API]
P1 --> P2C[阶段2:构建前端]
P2B --> P3B[阶段3:测试API]
P3B -->|发现优化| P1New[阶段1:调研缓存<br/>新分支]
P3B -->|测试继续| P3Done[API验证通过]
P1New --> P2New[阶段2:实现缓存]
P2New --> P3New[阶段3:验证优化]
P2A --> P3A[阶段3:测试认证]
P3A -->|测试失败| P2Fix[阶段2:修复认证缺陷]
P2Fix --> P3Retest[阶段3:重新测试认证]
style P3B fill:#fff3e0
style P1New fill:#e1f5fe
style P2Fix fill:#ffebee
这个工作流是自动生成的:
- 从1个分析任务开始
- 分支出5个并行的实现任务
- 其中一个测试阶段发现了优化需求,于是衍生出一个包含3个阶段的调研分支
- 另一个测试阶段发现了缺陷,触发了修复和重新测试的循环
- 所有这些步骤都通过看板任务卡进行协调,并设置了阻塞关系。
由智能体自动构建的看板:待办 → 开发中 → 测试中 → 完成
依赖关系图展示了哪些任务会阻塞其他任务——这是赫菲斯托斯发现的工作流结构
为什么这将改变一切
传统工作流: 需要提前预测所有场景,制定严格的计划,但一旦实际情况与预期不符,计划就会失效。
赫菲斯托斯方法: 定义工作类型,由智能体自主发现,工作流能够实时自适应。
工作流会根据智能体实际发现的内容实时调整,而不是基于我们事先的预测。
半结构化的最佳平衡点
以下是为什么这种方法被称为“半结构化”以及它的重要性:
完全结构化的工作流(传统框架):
- ❌ 需要为每种情况都预先定义好提示
- ❌ 虽然可以分支或循环,但每条路径都需要固定的指令
- ❌ 必须在一开始就预见所有可能的发现
完全非结构化的智能体(混乱状态):
- ❌ 缺乏协调
- ❌ 工作重复
- ❌ 变更相互矛盾
- ❌ 没有明确的成功标准
半结构化(赫菲斯托斯):
- ✅ 阶段定义提供了工作类型和指导方针的结构
- ✅ 智能体根据发现动态编写任务描述
- ✅ 看板任务卡通过阻塞关系协调工作
- ✅ 守护者监控确保智能体始终符合阶段目标
- ✅ 工作流会根据智能体的实际发现进行调整,而非你预想的内容
这样既能在关键环节提供结构:
- 阶段类型定义了正在进行的工作类型
- 完成标准设定了清晰的完成条件
- 守护者会验证是否符合阶段要求
- 任务卡追踪依赖关系,防止混乱
又能在需要灵活的地方保持灵活性:
- 智能体可以即时创建详细的任务描述
- 无需预先定义所有可能的分支
- 发现会实时推动工作流扩展
- 新的工作类型会在智能体探索过程中自然产生
🚀 快速入门
前置条件
- Python 3.10及以上
- tmux - 用于隔离智能体的终端多路复用器
- Git - 你的项目必须是一个Git仓库
- Docker - 用于运行Qdrant向量数据库
- Node.js 和 npm - 用于前端UI
- Claude Code、OpenCode、Droid 或 Codex - 智能体运行的CLI AI工具
- API密钥:OpenAI、OpenRouter、Anthropic(也支持:Azure OpenAI、Google AI Studio - 详见 LLM配置)
验证你的环境(macOS)
在开始之前,请先验证所有工具和配置是否正确安装:
python check_setup_macos.py
该脚本会检查:
- ✅ 所有必需的CLI工具(tmux、git、docker、node、npm、Claude Code)
- ✅
.env文件中的API密钥 - ✅ MCP服务器是否已配置
- ✅ 配置文件和工作目录
- ✅ 是否正在运行的服务(Docker、Qdrant)
- ✅ Python和前端依赖项
脚本会以彩色报告的形式显示哪些部分已经设置好,哪些还需要注意。
10分钟内上手
构建你的第一个自适应工作流:
👉 快速入门指南
该指南将引导你完成以下步骤:
- 设置API密钥和LLM配置
- 配置MCP服务器(赫菲斯托斯 + Qdrant)
- 设置工作目录
- 定义阶段并实现动态任务生成
- 运行一个能够实时自适应的工作流
- 观察智能体如何协调工作,并自动发现新的任务
实时可观测性:观看智能体在独立的Claude Code会话中工作,它们会自主发现并构建工作流
想了解更多? 请查看完整文档,内容包括:
- 完整的架构和技术细节
- API参考和SDK指南
- 示例工作流和模板
- 最佳实践和高级功能
🤝 获取帮助
版本历史
release-0.0.12025/11/23常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
opencode
OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。