dalle-mini
DALL·E Mini 是一款开源的人工智能模型,能够根据用户输入的文字描述自动生成相应的图像。它主要解决了将抽象文本概念转化为直观视觉内容的难题,让没有绘画基础的人也能轻松实现创意可视化。
这款工具非常适合多类人群使用:普通用户可以通过其在线演示平台 Craiyon 免费体验“文生图”的乐趣;设计师和创作者可将其作为灵感激发助手;而开发者和研究人员则能利用其开源代码和预训练模型,进行二次开发、算法研究或集成到自己的应用中。
DALL·E Mini 的技术亮点在于其轻量化的架构设计,它结合了 VQGAN 进行图像编码与解码,并利用 Transformer 模型理解文本提示,从而在消费级硬件或云端环境中也能高效运行。作为早期开源的文生图项目之一,它不仅提供了完整的训练和推理流程,还拥有一个活跃的社区生态,支持通过 Hugging Face 直接获取模型,甚至允许用户在 Google Colab 上一步步复现生成过程。无论是想快速生成趣味图片,还是深入探索多模态人工智能技术,DALL·E Mini 都是一个友好且强大的入门选择。
使用场景
一位独立游戏开发者正在为一款复古风格的冒险游戏快速生成大量概念草图,以验证美术风格并填充早期原型素材。
没有 dalle-mini 时
- 开发者必须手动绘制每张草图或花费高昂费用聘请画师,导致迭代周期长达数天甚至数周。
- 面对“鳄梨形状的扶手椅”这类超现实或抽象的创意描述,传统素材库完全无法提供匹配资源。
- 尝试不同视觉风格需要反复修改设计文档并重新沟通,试错成本极高,严重拖慢原型验证进度。
- 非美术背景的策划人员难以将脑海中的画面准确传达给艺术团队,造成严重的理解偏差。
使用 dalle-mini 后
- 开发者只需输入文本提示词,dalle-mini 即可在几秒钟内生成多张候选图像,将创意可视化时间缩短至分钟级。
- 针对各种奇思妙想的提示词,dalle-mini 能直接输出具象化的图像结果,瞬间填补了特定创意场景的素材空白。
- 通过调整提示词即可实时探索多种艺术风格,团队能以极低成本快速筛选出最佳视觉方向。
- 策划与开发团队可直接利用 dalle-mini 生成的图像作为沟通基准,大幅降低了跨职能协作的理解门槛。
dalle-mini 通过将文本即时转化为视觉创意,彻底打破了内容创作的技术壁垒,让小型团队也能实现高频、低成本的视觉迭代。
运行环境要求
- 未说明
- 未明确说明(基于 FLAX/JAX 框架,通常支持 TPU 或 GPU
- README 提及 Google TPU Research Cloud 资源)
未说明

快速开始
DALL·E Mini
如何使用?
您可以在 🖍️ craiyon 上使用该模型。
它是如何工作的?
请参阅我们的报告:
开发
依赖安装
仅用于推理时,使用 pip install dalle-mini。
开发时,请克隆仓库并使用 pip install -e ".[dev]"。
在提交 PR 之前,请使用 make style 检查代码风格。
您可以通过我们的 inference pipeline notebook 逐步体验整个流程。
DALL·E mini 的训练
如果您需要进行超参数搜索,也可以调整 sweep 配置文件。
常见问题解答
最新模型在哪里可以找到?
训练好的模型位于 🤗 Model Hub:
- VQGAN-f16-16384 用于图像的编码和解码
- DALL·E mini 或 DALL·E mega 用于根据文本提示生成图像
Logo 来自哪里?
“牛油果形状的扶手椅”是由 OpenAI 在发布 DALL·E 时用来展示模型能力的。在这个提示上取得成功的预测对我们来说是一个重要的里程碑。
贡献
加入 LAION Discord 社区:LAION Discord。 无论您是报告问题、提出修复或改进建议,还是用有趣的提示测试模型,我们都欢迎您的参与!
您也可以使用社区中的这些优秀项目:
使用 DALL-E Playground 仓库 自行搭建应用(感谢 Sahar)
尝试 DALL·E Flow 项目,在人机协作的工作流中进行生成、扩散和超分辨率处理(感谢 Han Xiao)
在 Replicate 上运行,或者直接在浏览器中使用,亦可通过 API 调用
致谢
- 🤗 Hugging Face 组织了 FLAX/JAX 社区周
- Google TPU Research Cloud (TRC) 计划 提供了计算资源
- Weights & Biases 提供了实验跟踪和模型管理的基础设施
作者与贡献者
DALL·E mini 最初由以下人员开发:
- Boris Dayma
- Suraj Patil
- Pedro Cuenca
- Khalid Saifullah
- Tanishq Abraham
- Phúc Lê Khắc
- Luke Melas
- Ritobrata Ghosh
非常感谢那些帮助改进它的人:
- DALLE-Pytorch 和 EleutherAI 社区的成员们,他们进行了测试并分享了许多有趣的想法
- Rohan Anil 添加了分布式 Shampoo 优化器,并始终提供宝贵的建议
- Phil Wang 提供了许多优秀的 Transformer 变体实现,并通过 x-transformers 分享了有趣的见解
- Katherine Crowson 的 超级条件化
- Gradio 团队 为我们的应用打造了出色的用户界面
引用 DALL·E mini
如果您在研究中发现 DALL·E mini 有用,或希望引用它,请使用以下 BibTeX 条目。
@misc{Dayma_DALL·E_Mini_2021,
author = {Dayma, Boris and Patil, Suraj and Cuenca, Pedro and Saifullah, Khalid and Abraham, Tanishq and Lê Khắc, Phúc and Melas, Luke and Ghosh, Ritobrata},
doi = {10.5281/zenodo.5146400},
month = {7},
title = {DALL·E Mini},
url = {https://github.com/borisdayma/dalle-mini},
year = {2021}
}
参考文献
原始的 DALL·E 来自论文 “零样本文本到图像生成” ,其中图像量化部分参考了 “从自然语言监督中学习可迁移的视觉模型” 。
图像编码器来自 “驯服 Transformer 以实现高分辨率图像合成” 。
序列到序列模型基于 “BART: 用于自然语言生成、翻译和理解的去噪序列到序列预训练” ,并实现了几种变体:
- “GLU 变体改进 Transformer”
- “Deepnet: 将 Transformer 扩展到 1,000 层”
- “NormFormer: 通过额外的归一化改进 Transformer 预训练”
- “Swin Transformer: 使用移位窗口的分层视觉 Transformer”
- “CogView: 通过 Transformer 掌握文本到图像生成”
- “均方根层归一化”
- “Sinkformers: 具有双重随机注意力机制的 Transformer”
- “基础 Transformer”
主优化器(分布式 Shampoo)来自 “深度学习的可扩展二阶优化”。
引用文献
@misc{
title={零样本文本到图像生成},
author={阿迪提亚·拉梅什和米哈伊尔·帕夫洛夫和加布里埃尔·戈和斯科特·格雷和切尔西·沃斯和亚历克·拉德福德和马克·陈和伊利亚·苏茨克维尔},
year={2021},
eprint={2102.12092},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
@misc{
title={从自然语言监督中学习可迁移的视觉模型},
author={亚历克·拉德福德和钟宇·金和克里斯·霍拉西和阿迪提亚·拉梅什和加布里埃尔·戈和桑迪尼·阿加瓦尔和吉里什·萨斯特里和阿曼达·阿斯克尔和帕梅拉·米什金和杰克·克拉克和格雷琴·克鲁格和伊利亚·苏茨克维尔},
year={2021},
eprint={2103.00020},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
@misc{
title={驯服Transformer以实现高分辨率图像合成},
author={帕特里克·埃瑟和罗宾·伦巴赫和比约恩·奥默},
year={2021},
eprint={2012.09841},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
@misc{
title={BART:用于自然语言生成、翻译和理解的去噪序列到序列预训练},
author={迈克·刘易斯和尹汉·刘和纳曼·戈亚尔和马尔扬·加兹维内贾德和阿卜杜勒拉赫曼·穆罕默德和奥默·列维和韦斯·斯托亚诺夫和卢克·泽特勒莫耶},
year={2019},
eprint={1910.13461},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@misc{
title={深度学习中的可扩展二阶优化},
author={罗翰·阿尼尔和维尼特·古普塔和托默·科伦和凯文·里根和约拉姆·辛格},
year={2021},
eprint={2002.09018},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
@misc{
title={GLU变体改进Transformer},
author={诺姆·沙泽尔},
year={2020},
url={https://arxiv.org/abs/2002.05202}
}
@misc{
title={DeepNet:将Transformer扩展至1,000层},
author={王洪宇和马书明和董立和黄绍涵和张东东和魏福儒},
year={2022},
eprint={2203.00555},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
@misc{
title={NormFormer:通过额外归一化改进Transformer预训练},
author={萨姆·施莱弗和杰森·韦斯顿和迈尔·奥特},
year={2021},
eprint={2110.09456},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@inproceedings{
title={Swin Transformer V2:扩大容量和分辨率},
author={齐刘和韩胡和林宇彤和姚祝良和谢振达和魏义轩和宁嘉和曹岳和张正和董立和魏福儒和郭百宁},
booktitle={计算机视觉与模式识别国际会议(CVPR)},
year={2022}
}
@misc{
title = {CogView:通过Transformer掌握文本到图像生成},
author = {丁明和杨卓毅和洪文义和郑文迪和周昌和殷达和林俊阳和邹旭和邵洲和杨红霞和唐杰},
year = {2021},
eprint = {2105.13290},
archivePrefix = {arXiv},
primaryClass = {cs.CV}
}
@misc{
title = {均方根层归一化},
author = {张彪和里科·森尼希},
year = {2019},
eprint = {1910.07467},
archivePrefix = {arXiv},
primaryClass = {cs.LG}
}
@misc{
title = {Sinkformer:具有双随机注意力机制的Transformer},
url = {https://arxiv.org/abs/2110.11773},
author = {桑德·迈克尔·E.和阿布林·皮埃尔和布隆德尔·马蒂厄和佩雷·加布里埃尔},
publisher = {arXiv},
year = {2021},
}
@misc{
title = {深度网络中的平滑激活函数与可重复性},
url = {https://arxiv.org/abs/2010.09931},
author = {沙米尔·吉尔·I.和董林和科维洛·洛伦佐},
publisher = {arXiv},
year = {2020},
}
@misc{
title = {基础Transformer},
url = {https://arxiv.org/abs/2210.06423},
author = {王洪宇和马书明和黄绍涵和董立和王文辉和彭志亮和吴宇和巴贾杰·派娅尔和辛格哈尔·萨克沙姆和本海姆·阿隆和帕特拉·巴伦和刘准和乔杜里·维什拉夫和宋夏和魏福儒},
publisher = {arXiv},
year = {2022},
}
版本历史
v0.1.12022/06/22v0.1.02022/06/07v0.0.62022/04/21v0.1-alpha2021/07/29常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
n8n
n8n 是一款面向技术团队的公平代码(fair-code)工作流自动化平台,旨在让用户在享受低代码快速构建便利的同时,保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点,帮助用户轻松连接 400 多种应用与服务,实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”:既可以通过直观的可视化界面拖拽节点搭建流程,也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外,n8n 原生集成了基于 LangChain 的 AI 能力,支持用户利用自有数据和模型构建智能体工作流。在部署方面,n8n 提供极高的自由度,支持完全自托管以保障数据隐私和控制权,也提供云端服务选项。凭借活跃的社区生态和数百个现成模板,n8n 让构建强大且可控的自动化系统变得简单高效。
AutoGPT
AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台,核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点,让用户只需设定目标,AI 即可自主规划步骤、调用工具并持续运行直至完成任务。 无论是开发者、研究人员,还是希望提升工作效率的普通用户,都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体;研究人员能基于开源架构探索多智能体协作机制;而非技术背景用户也可直接选用预置的智能体模板,立即投入实际工作场景。 AutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑,每个块负责单一动作,灵活且易于调试。同时,平台支持本地自托管与云端部署两种模式,兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本,即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛,让人人都能成为 AI 的创造者与受益者。
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
