opendream

1.7k 73 中等 1 次阅读 4天前MIT图像Agent开发框架

AI 解读由 AI 自动生成，仅供参考

Opendream 是一款专为 Stable Diffusion 打造的开源 Web 界面，旨在让图像生成工作流像使用 Photoshop 一样直观高效。它解决了当前主流 AI 绘图工具（如 Automatic1111 或 Midjourney）普遍存在的“破坏性编辑”痛点：传统工具中每次修改都会覆盖原图，难以回溯或基于历史版本进行多实验探索。

Opendream 引入了图层管理和非破坏性编辑机制，用户可以在保留原始数据的基础上，通过叠加图层、蒙版等方式自由调整，随时删除或重放任意步骤，极大提升了创作的可控性与灵活性。此外，它支持将完整的工作流保存为便携式 JSON 文件，方便日后复用或与团队协作分享。

对于开发者而言，Opendream 的扩展系统极为友好——只需编写简单的 Python 函数即可集成新功能（如 ControlNet、Segment Anything 等），无需复杂配置。这使得研究人员能快速验证新算法，设计师能灵活定制工作流，而普通用户也能享受更平滑的创作体验。

无论是希望精细控制生成过程的艺术家，还是想要轻松集成新模型的研究者，Opendream 都提供了一个开放、可扩展且易于上手的平台，让 AI 绘画真正服务于每个人的创意表达。

使用场景

一位独立游戏开发者正在为角色设计多套装备方案，需要基于同一张基础人物线稿快速生成不同风格的着色效果并进行细节微调。

没有 opendream 时

每次调整提示词或重绘局部都会直接覆盖原图，无法保留之前的尝试，导致满意的中间版本一旦失误就彻底丢失。
想要对比“赛博朋克”与“奇幻风格”两种上色方案时，必须手动保存多张图片并在外部软件中拼贴，流程割裂且低效。
若需引入 ControlNet 控制姿势或 Segment Anything 进行精细遮罩，往往面临插件安装复杂、配置冲突甚至环境崩溃的风险。
团队协作时，难以复现特定的生成步骤，同事无法精确还原你的创作路径，只能靠口头描述或截图猜测参数。

使用 opendream 后

依托非破坏性编辑与图层机制，所有生成步骤均作为独立图层存在，随时可回溯、隐藏或删除某一步而不影响其他成果。
在同一画布上并行构建多个分支实验，通过图层叠加直观对比不同风格效果，像使用 Photoshop 一样自由组合创意。
通过简单的 Python 函数即可集成 ControlNet 或 SAM 等新功能，无需繁琐配置，几分钟内就能将前沿算法融入工作流。
将整个创作过程保存为轻量级 JSON 文件，团队成员一键加载即可完全复现包含所有图层与参数的完整工作流。

opendream 将原本碎片化、不可逆的 AI 绘图过程转变为可层层迭代、易于协作的专业创作流。

运行环境要求

操作系统

未说明 (需支持 Node.js 和 Shell 脚本的系统)

GPU

未说明 (后端运行 Stable Diffusion/ControlNet 等模型通常建议 NVIDIA GPU，但 README 允许通过扩展调用云端 API 如 DALL-E 或 Replicate 从而规避本地 GPU 需求)

内存

未说明

依赖

notes1. 必须安装 Node.js 才能运行启动脚本 (run_opendream.sh)。 2. 核心功能基于 Stable Diffusion，若本地运行需自行配置相关深度学习环境；若使用提供的云端扩展（如 DALL-E, Serverless SD），则对本地硬件无特殊要求。 3. 项目通过 Shell 脚本同时启动前端和后端服务。

python未说明 (扩展开发需使用 Python)

Node.js

Python (用于扩展)

快速开始

Opendream: 适合所有人的 Web 界面 💭 🎨

Opendream 为你的 Stable Diffusion 工作流带来了急需且熟悉的特性，例如图层管理、非破坏性编辑、可移植性以及易于编写的扩展插件。请观看我们的演示视频。

hero

开始使用

先决条件: 确保已安装 Node.js。你可以从这里下载。
克隆本仓库。
在终端中进入该项目目录，并运行 sh ./run_opendream.sh。大约 30 秒后，Opendream 系统的前端和后端都将启动并运行。

功能特性

扩散模型已成为图像生成与处理领域中功能强大的工具。尽管它们带来了显著的优势，但由于其内在的复杂性，这些模型通常被视为“黑箱”。当前的扩散图像生成生态系统主要由一些工具组成，这些工具通过一次性的操作来控制模型，例如文本到图像生成、局部修复、pix2pix 等。

例如，流行的界面如 Automatic1111、Midjourney 和 Stability.AI 的 DreamStudio 仅支持破坏性编辑：每次编辑都会“消耗”前一张图片。这意味着用户无法轻松地基于之前的图像继续创作，也无法对同一张图片进行多次实验，从而限制了他们的创作探索空间。

图层与非破坏性编辑

非破坏性编辑是一种图像处理方法，它能够保留原始图像数据，同时允许用户在不覆盖之前工作成果的情况下进行调整和修改。这种方法通过使用图层和蒙版，促进了实验性创作，并提供了对编辑过程更精细的控制。当你删除某个图层时，该图层之后的所有图层也会被一并删除。这确保了画布上当前的所有图层都是由其他现有图层生成的。此外，这也使得用户可以确定性地“重放”整个工作流程。

与 Photoshop 类似，Opendream 开箱即用就支持非破坏性编辑。更多关于 Photoshop 中非破坏性编辑原理的信息，请参阅此处。

layers

保存与分享工作流程

用户还可以将当前的工作流程保存为一种可移植的文件格式，以便日后打开或与合作者共享。在此上下文中，“状态”只是一个 JSON 文件，用于描述当前的所有图层及其创建方式。

workflow

支持简单编写、易于安装的扩展插件

随着围绕这些模型和工具的开源生态蓬勃发展，可扩展性也成为了重要议题。虽然 Automatic1111 确实提供了扩展插件，但它们往往难以编程、使用和安装。与 Adobe Photoshop 等应用相比，其功能远不够完善。

随着 Stable Diffusion 的新功能（如 ControlNet）不断推出，用户应当能够以最小的负担和时间成本，将其无缝集成到自己的艺术创作流程中。

Opendream 让编写和使用新的扩散功能变得如同编写一个 Python 函数般简单。继续阅读以了解具体方法。

扩展插件

从一开始，Opendream 就内置了两个核心原语操作：dream 和 mask_and_inpaint。在本仓库中，我们还提供了 instruct_pix2pix、controlnet_canny、controlnet_openpose 以及 sam（Segment Anything）等扩展插件。

任何图像处理逻辑都可以轻松地作为扩展插件实现。借助扩展插件，你还可以自定义某些操作的具体行为。例如，你可以覆盖 dream 操作，使其改用 OpenAI 的 DALL-E，或者调用 AWS 或 Replicate 等服务上的无服务器端点。这里有一个使用 Baseten 的示例。

加载现有扩展插件

加载扩展插件有两种方式：

通过 Web UI 安装预先编写好的扩展。
(手动) 下载有效的扩展文件（或自行编写！），并将其放入 opendream/extensions 文件夹中。下方提供了编写自定义扩展的说明。

以下是目前支持的部分扩展插件示例。你可以通过 Web UI 使用这些链接安装任意扩展。

扩展名称	链接
OpenAI 的 DALL-E	文件
无服务器 Stable Diffusion	文件
Instruct Pix2Pix	文件
ControlNet Canny	文件
ControlNet Openpose	文件
Segment Anything	文件
PhotoshopGPT	Gist

请注意，不同的扩展可能有各自的依赖项，你需要将这些依赖添加到 requirements.txt 文件中。例如，如果你想使用 DALL-E 扩展，就需要添加 openai 依赖。

如果你开发了一个有用的扩展插件，欢迎提交 Pull Request！

编写自定义扩展

用户可以按照以下步骤编写自己的扩展：

在 opendream/extensions 文件夹中创建一个新的 Python 文件。
编写一个带有类型提示和 @opendream.define_op 装饰器的方法。该装饰器会将此方法注册到 Opendream 后端。

该方法需满足以下要求：

参数必须带有类型提示。这些类型提示使后端能够为输入生成 Schema，进而在前端解析为表单组件。有效类型包括：str、int、float、Layer、MaskLayer 或 ImageLayer。
唯一有效的返回值类型是 Layer 或 Layer 对象的列表。

贡献与许可

Opendream 由 Varun Shenoy、Eric Lou、Shashank Rammoorthy 和 Rahul Shiv 在斯坦福大学的 CS 348K 课程中开发。

欢迎您提供任何您认为必要或有用的贡献。本项目采用 MIT 许可证授权。

Opendream 快速上手指南

Opendream 是一款专为 Stable Diffusion 设计的 Web UI，引入了类似 Photoshop 的图层管理和非破坏性编辑功能。它允许用户保存和分享完整的工作流，并支持通过简单的 Python 函数轻松扩展新功能（如 ControlNet、Segment Anything 等）。

环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统：支持 Linux 或 macOS（Windows 用户建议使用 WSL2）。
前置依赖：必须安装 Node.js。
- 下载地址：https://nodejs.org/en/download
- 国内加速推荐：若下载缓慢，可使用淘宝镜像 https://npmmirror.com/mirrors/node/ 下载安装包。
硬件建议：由于涉及 Stable Diffusion 模型推理，建议配备 NVIDIA GPU 以获得最佳性能。

安装步骤

克隆项目仓库 在终端中执行以下命令获取源代码：
```
git clone https://github.com/varunshenoy/opendream.git
```
进入项目目录
```
cd opendream
```
启动服务 运行提供的启动脚本。该脚本将自动安装后端依赖并启动前端与后端服务（首次运行可能需要约 30 秒）：
```
sh ./run_opendream.sh
```
访问界面 脚本运行成功后，终端会显示访问地址（通常为 http://localhost:3000 或类似端口），在浏览器中打开即可使用。

基本使用

Opendream 的核心优势在于其非破坏性的图层工作流。以下是基础操作流程：

1. 创建初始图像 (Dream)

在界面中选择内置的 dream 操作。
输入提示词（Prompt）并设置参数。
点击执行，系统将生成一个新的图像图层。

2. 非破坏性编辑

叠加编辑：基于现有图层，再次调用 dream 或其他扩展（如 instruct_pix2pix）进行修改。新操作会生成一个新图层，原图层保持不变。
图层管理：您可以像使用 Photoshop 一样隐藏、删除或调整图层顺序。
- 注意：删除某个图层时，其之后依赖该图层生成的所有后续图层也会被自动删除，以确保工作流的逻辑一致性。

3. 保存与分享工作流

完成创作后，点击保存按钮。
系统会将当前所有图层及其生成参数导出为一个 JSON 文件。
您可以随时重新加载该文件，精确复现之前的编辑过程，或将其分享给协作者。

4. 使用扩展 (Extensions)

Opendream 支持动态加载扩展以增强功能（如 ControlNet Canny, SAM 等）：

方式一（推荐）：在 Web UI 的扩展管理界面中，直接粘贴扩展文件的 URL 进行安装。
方式二（手动）：下载 .py 扩展文件，将其放入项目根目录下的 opendream/extensions 文件夹，然后重启服务。

提示：部分扩展（如 DALL-E）可能需要在项目的 requirements.txt 中添加额外的 Python 依赖包（例如 openai），安装后需重启服务生效。

常见问题

如何在 AWS EC2 实例上部署并运行 OpenDream？

如何快速安装和启动项目？

遇到 SAM 报错 'input must be BCHW with long side 1024' 该如何解决？

目前支持哪些图像生成工作流？

如何在 UI 中下载生成的特定图片？

如何在 UI 中删除不需要的图层？

SAM 掩码（Masking）功能目前的实现状态如何？

表单提交前是否进行了验证？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2周前

Agent开发框架图像

n8n

n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。

★ 184.7k|★★☆☆☆|昨天

数据工具开发框架Agent

AutoGPT

AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台，核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点，让用户只需设定目标，AI 即可自主规划步骤、调用工具并持续运行直至完成任务。无论是开发者、研究人员，还是希望提升工作效率的普通用户，都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体；研究人员能基于开源架构探索多智能体协作机制；而非技术背景用户也可直接选用预置的智能体模板，立即投入实际工作场景。 AutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑，每个块负责单一动作，灵活且易于调试。同时，平台支持本地自托管与云端部署两种模式，兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本，即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛，让人人都能成为 AI 的创造者与受益者。

★ 183.6k|★★★☆☆|今天

Agent语言模型插件

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 161.7k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|4天前

Agent插件