dalle-mini

14.8k 1.2k 简单 1 次阅读昨天Apache-2.0图像

AI 解读由 AI 自动生成，仅供参考

DALL·E Mini 是一款开源的人工智能模型，能够根据用户输入的文字描述自动生成相应的图像。它主要解决了将抽象文本概念转化为直观视觉内容的难题，让没有绘画基础的人也能轻松实现创意可视化。

这款工具非常适合多类人群使用：普通用户可以通过其在线演示平台 Craiyon 免费体验“文生图”的乐趣；设计师和创作者可将其作为灵感激发助手；而开发者和研究人员则能利用其开源代码和预训练模型，进行二次开发、算法研究或集成到自己的应用中。

DALL·E Mini 的技术亮点在于其轻量化的架构设计，它结合了 VQGAN 进行图像编码与解码，并利用 Transformer 模型理解文本提示，从而在消费级硬件或云端环境中也能高效运行。作为早期开源的文生图项目之一，它不仅提供了完整的训练和推理流程，还拥有一个活跃的社区生态，支持通过 Hugging Face 直接获取模型，甚至允许用户在 Google Colab 上一步步复现生成过程。无论是想快速生成趣味图片，还是深入探索多模态人工智能技术，DALL·E Mini 都是一个友好且强大的入门选择。

使用场景

一位独立游戏开发者正在为一款复古风格的冒险游戏快速生成大量概念草图，以验证美术风格并填充早期原型素材。

没有 dalle-mini 时

开发者必须手动绘制每张草图或花费高昂费用聘请画师，导致迭代周期长达数天甚至数周。
面对“鳄梨形状的扶手椅”这类超现实或抽象的创意描述，传统素材库完全无法提供匹配资源。
尝试不同视觉风格需要反复修改设计文档并重新沟通，试错成本极高，严重拖慢原型验证进度。
非美术背景的策划人员难以将脑海中的画面准确传达给艺术团队，造成严重的理解偏差。

使用 dalle-mini 后

开发者只需输入文本提示词，dalle-mini 即可在几秒钟内生成多张候选图像，将创意可视化时间缩短至分钟级。
针对各种奇思妙想的提示词，dalle-mini 能直接输出具象化的图像结果，瞬间填补了特定创意场景的素材空白。
通过调整提示词即可实时探索多种艺术风格，团队能以极低成本快速筛选出最佳视觉方向。
策划与开发团队可直接利用 dalle-mini 生成的图像作为沟通基准，大幅降低了跨职能协作的理解门槛。

dalle-mini 通过将文本即时转化为视觉创意，彻底打破了内容创作的技术壁垒，让小型团队也能实现高频、低成本的视觉迭代。

运行环境要求

操作系统

未说明

GPU

未明确说明（基于 FLAX/JAX 框架，通常支持 TPU 或 GPU
README 提及 Google TPU Research Cloud 资源）

内存

未说明

依赖

notes该工具主要基于 FLAX/JAX 框架开发，而非 PyTorch。推理可通过 'pip install dalle-mini' 安装。训练脚本依赖 Weights & Biases (wandb) 进行超参数搜索。模型托管在 Hugging Face Model Hub。官方提供了 Colab 笔记本以便在线体验，暗示对云端环境的良好支持。

python未说明

flax

jax

transformers

wandb

dalle-mini

快速开始

DALL·E Mini

如何使用？

您可以在 🖍️ craiyon 上使用该模型。

它是如何工作的？

请参阅我们的报告：

开发

依赖安装

仅用于推理时，使用 pip install dalle-mini。

开发时，请克隆仓库并使用 pip install -e ".[dev]"。

在提交 PR 之前，请使用 make style 检查代码风格。

您可以通过我们的 inference pipeline notebook 逐步体验整个流程。

DALL·E mini 的训练

使用 tools/train/train.py。

如果您需要进行超参数搜索，也可以调整 sweep 配置文件。

常见问题解答

最新模型在哪里可以找到？

训练好的模型位于 🤗 Model Hub：

VQGAN-f16-16384 用于图像的编码和解码
DALL·E mini 或 DALL·E mega 用于根据文本提示生成图像

Logo 来自哪里？

“牛油果形状的扶手椅”是由 OpenAI 在发布 DALL·E 时用来展示模型能力的。在这个提示上取得成功的预测对我们来说是一个重要的里程碑。

贡献

加入 LAION Discord 社区：LAION Discord。无论您是报告问题、提出修复或改进建议，还是用有趣的提示测试模型，我们都欢迎您的参与！

您也可以使用社区中的这些优秀项目：

使用 DALL-E Playground 仓库自行搭建应用（感谢 Sahar）
尝试 DALL·E Flow 项目，在人机协作的工作流中进行生成、扩散和超分辨率处理（感谢 Han Xiao）
在 Replicate 上运行，或者直接在浏览器中使用，亦可通过 API 调用

致谢

🤗 Hugging Face 组织了 FLAX/JAX 社区周
Google TPU Research Cloud (TRC) 计划提供了计算资源
Weights & Biases 提供了实验跟踪和模型管理的基础设施

作者与贡献者

DALL·E mini 最初由以下人员开发：

非常感谢那些帮助改进它的人：

DALLE-Pytorch 和 EleutherAI 社区的成员们，他们进行了测试并分享了许多有趣的想法
Rohan Anil 添加了分布式 Shampoo 优化器，并始终提供宝贵的建议
Phil Wang 提供了许多优秀的 Transformer 变体实现，并通过 x-transformers 分享了有趣的见解
Katherine Crowson 的超级条件化
Gradio 团队为我们的应用打造了出色的用户界面

引用 DALL·E mini

如果您在研究中发现 DALL·E mini 有用，或希望引用它，请使用以下 BibTeX 条目。

@misc{Dayma_DALL·E_Mini_2021,
      author = {Dayma, Boris and Patil, Suraj and Cuenca, Pedro and Saifullah, Khalid and Abraham, Tanishq and Lê Khắc, Phúc and Melas, Luke and Ghosh, Ritobrata},
      doi = {10.5281/zenodo.5146400},
      month = {7},
      title = {DALL·E Mini},
      url = {https://github.com/borisdayma/dalle-mini},
      year = {2021}
}

参考文献

原始的 DALL·E 来自论文 “零样本文本到图像生成” ，其中图像量化部分参考了 “从自然语言监督中学习可迁移的视觉模型” 。

图像编码器来自 “驯服 Transformer 以实现高分辨率图像合成” 。

序列到序列模型基于 “BART: 用于自然语言生成、翻译和理解的去噪序列到序列预训练” ，并实现了几种变体：

主优化器（分布式 Shampoo）来自 “深度学习的可扩展二阶优化”。

引用文献

@misc{
  title={零样本文本到图像生成}, 
  author={阿迪提亚·拉梅什和米哈伊尔·帕夫洛夫和加布里埃尔·戈和斯科特·格雷和切尔西·沃斯和亚历克·拉德福德和马克·陈和伊利亚·苏茨克维尔},
  year={2021},
  eprint={2102.12092},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}

@misc{
  title={从自然语言监督中学习可迁移的视觉模型}, 
  author={亚历克·拉德福德和钟宇·金和克里斯·霍拉西和阿迪提亚·拉梅什和加布里埃尔·戈和桑迪尼·阿加瓦尔和吉里什·萨斯特里和阿曼达·阿斯克尔和帕梅拉·米什金和杰克·克拉克和格雷琴·克鲁格和伊利亚·苏茨克维尔},
  year={2021},
  eprint={2103.00020},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}

@misc{
  title={驯服Transformer以实现高分辨率图像合成}, 
  author={帕特里克·埃瑟和罗宾·伦巴赫和比约恩·奥默},
  year={2021},
  eprint={2012.09841},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}

@misc{
  title={BART：用于自然语言生成、翻译和理解的去噪序列到序列预训练}, 
  author={迈克·刘易斯和尹汉·刘和纳曼·戈亚尔和马尔扬·加兹维内贾德和阿卜杜勒拉赫曼·穆罕默德和奥默·列维和韦斯·斯托亚诺夫和卢克·泽特勒莫耶},
  year={2019},
  eprint={1910.13461},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}

@misc{
  title={深度学习中的可扩展二阶优化},
  author={罗翰·阿尼尔和维尼特·古普塔和托默·科伦和凯文·里根和约拉姆·辛格},
  year={2021},
  eprint={2002.09018},
  archivePrefix={arXiv},
  primaryClass={cs.LG}
}

@misc{
  title={GLU变体改进Transformer},
  author={诺姆·沙泽尔},
  year={2020},
  url={https://arxiv.org/abs/2002.05202}    
}

 @misc{
  title={DeepNet：将Transformer扩展至1,000层},
  author={王洪宇和马书明和董立和黄绍涵和张东东和魏福儒},
  year={2022},
  eprint={2203.00555},
  archivePrefix={arXiv},
  primaryClass={cs.LG}
}

@misc{
  title={NormFormer：通过额外归一化改进Transformer预训练},
  author={萨姆·施莱弗和杰森·韦斯顿和迈尔·奥特},
  year={2021},
  eprint={2110.09456},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}

@inproceedings{
  title={Swin Transformer V2：扩大容量和分辨率}, 
  author={齐刘和韩胡和林宇彤和姚祝良和谢振达和魏义轩和宁嘉和曹岳和张正和董立和魏福儒和郭百宁},
  booktitle={计算机视觉与模式识别国际会议（CVPR）},
  year={2022}
}

@misc{
  title = {CogView：通过Transformer掌握文本到图像生成},
  author = {丁明和杨卓毅和洪文义和郑文迪和周昌和殷达和林俊阳和邹旭和邵洲和杨红霞和唐杰},
  year = {2021},
  eprint = {2105.13290},
  archivePrefix = {arXiv},
  primaryClass = {cs.CV}
}

@misc{
  title = {均方根层归一化},
  author = {张彪和里科·森尼希},
  year = {2019},
  eprint = {1910.07467},
  archivePrefix = {arXiv},
  primaryClass = {cs.LG}
}

@misc{
  title = {Sinkformer：具有双随机注意力机制的Transformer},
  url = {https://arxiv.org/abs/2110.11773},
  author = {桑德·迈克尔·E.和阿布林·皮埃尔和布隆德尔·马蒂厄和佩雷·加布里埃尔},
  publisher = {arXiv},
  year = {2021},
}

@misc{
  title = {深度网络中的平滑激活函数与可重复性},
  url = {https://arxiv.org/abs/2010.09931},
  author = {沙米尔·吉尔·I.和董林和科维洛·洛伦佐},
  publisher = {arXiv},
  year = {2020},
}

@misc{
  title = {基础Transformer},
  url = {https://arxiv.org/abs/2210.06423},
  author = {王洪宇和马书明和黄绍涵和董立和王文辉和彭志亮和吴宇和巴贾杰·派娅尔和辛格哈尔·萨克沙姆和本海姆·阿隆和帕特拉·巴伦和刘准和乔杜里·维什拉夫和宋夏和魏福儒},
  publisher = {arXiv},
  year = {2022},
}

DALL·E Mini 快速上手指南

DALL·E Mini 是一个开源的文本生成图像模型，能够根据任意文本提示生成对应的图片。本指南将帮助开发者快速在本地环境中部署并使用该模型。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux 或 macOS（Windows 用户建议使用 WSL2 或 Docker）
Python 版本：Python 3.8 或更高版本
硬件建议：虽然支持 CPU 推理，但为了获得更快的生成速度，强烈建议使用配备 GPU 的环境（支持 CUDA）。
前置依赖：确保已安装 pip 包管理工具。

提示：国内开发者若遇到网络连接问题，建议在安装前配置 PyPI 国内镜像源（如清华源或阿里源），以加速依赖下载。
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

安装步骤

根据您的使用需求，选择以下其中一种安装方式：

1. 仅用于推理（推荐）

如果您只需要使用模型进行图片生成，无需修改源码，请直接运行以下命令：

pip install dalle-mini

2. 用于开发与贡献

如果您需要克隆代码库进行修改、调试或参与贡献，请执行以下步骤：

# 克隆仓库
git clone https://github.com/borisdayma/dalle-mini.git
cd dalle-mini

# 以可编辑模式安装开发依赖
pip install -e ".[dev]"

基本使用

安装完成后，您可以通过 Python 代码调用模型。最便捷的方式是参考官方提供的推理流程 Notebook，它展示了从加载模型到生成图像的完整步骤。

方式一：使用 Colab 在线体验（无需本地配置）

您可以直接在 Google Colab 中运行官方提供的演示脚本，这是验证环境最快的方法：

方式二：本地 Python 脚本示例

在本地环境中，您可以编写如下简单的 Python 脚本来生成图像。模型会自动从 Hugging Face Model Hub 下载预训练权重（首次运行需联网）。

from dalle_mini import inference
import jax.numpy as jnp
from PIL import Image

# 加载模型 (首次运行会自动下载 VQGAN 和 DALL·E mini 权重)
model, params = inference.load_model()

# 定义文本提示
prompt = "an armchair in the shape of an avocado"

# 生成图像
images = inference.generate_inferences(prompt, model=model, params=params, top_k=None)

# 显示或保存结果
for image in images:
    image.show()
    # image.save("output.png")

注意：该模型基于 JAX/Flax 框架，首次运行时可能会花费一些时间编译和优化计算图，属正常现象。生成的图像通常为低分辨率缩略图，如需更高质量输出，可结合社区提供的超分工具（如 DALL·E Flow）使用。

版本历史

v0.1.12022/06/22

v0.1.02022/06/07

v0.0.62022/04/21

v0.1-alpha2021/07/29

常见问题

加载 VQModel 时出现形状不兼容错误（checkpoint shape incompatible with model shape）怎么办？

安装 dalle-mini 开发版时遇到 pip 依赖冲突错误（optax 与 jaxlib 版本冲突）如何解决？

构建 Docker 镜像时出现 jaxlib 版本找不到或匹配失败的错误怎么办？

如何在本地机器上调试 DALL-E mini 代码或运行最小化设置？

模型生成的默认参数是否合理？如何配置更好的默认值？

项目目前有哪些可用的数据集资源？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2周前

Agent开发框架图像

n8n

n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。

★ 184.7k|★★☆☆☆|今天

数据工具开发框架Agent

AutoGPT

AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台，核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点，让用户只需设定目标，AI 即可自主规划步骤、调用工具并持续运行直至完成任务。无论是开发者、研究人员，还是希望提升工作效率的普通用户，都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体；研究人员能基于开源架构探索多智能体协作机制；而非技术背景用户也可直接选用预置的智能体模板，立即投入实际工作场景。 AutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑，每个块负责单一动作，灵活且易于调试。同时，平台支持本地自托管与云端部署两种模式，兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本，即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛，让人人都能成为 AI 的创造者与受益者。

★ 183.6k|★★★☆☆|今天

Agent语言模型插件

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|2天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像