[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-borisdayma--dalle-mini":3,"tool-borisdayma--dalle-mini":61},[4,18,28,37,45,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},9989,"n8n","n8n-io\u002Fn8n","n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。\n\nn8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。",184740,2,"2026-04-19T23:22:26",[16,14,13,15,27],"插件",{"id":29,"name":30,"github_repo":31,"description_zh":32,"stars":33,"difficulty_score":10,"last_commit_at":34,"category_tags":35,"status":17},10095,"AutoGPT","Significant-Gravitas\u002FAutoGPT","AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台，核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点，让用户只需设定目标，AI 即可自主规划步骤、调用工具并持续运行直至完成任务。\n\n无论是开发者、研究人员，还是希望提升工作效率的普通用户，都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体；研究人员能基于开源架构探索多智能体协作机制；而非技术背景用户也可直接选用预置的智能体模板，立即投入实际工作场景。\n\nAutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑，每个块负责单一动作，灵活且易于调试。同时，平台支持本地自托管与云端部署两种模式，兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本，即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛，让人人都能成为 AI 的创造者与受益者。",183572,"2026-04-20T04:47:55",[13,36,27,14,15],"语言模型",{"id":38,"name":39,"github_repo":40,"description_zh":41,"stars":42,"difficulty_score":10,"last_commit_at":43,"category_tags":44,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":46,"name":47,"github_repo":48,"description_zh":49,"stars":50,"difficulty_score":24,"last_commit_at":51,"category_tags":52,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":24,"last_commit_at":59,"category_tags":60,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[27,13,15,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":72,"owner_website":76,"owner_url":77,"languages":78,"stars":98,"forks":99,"last_commit_at":100,"license":101,"difficulty_score":24,"env_os":102,"env_gpu":103,"env_ram":102,"env_deps":104,"category_tags":111,"github_topics":76,"view_count":24,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":112,"updated_at":113,"faqs":114,"releases":144},10048,"borisdayma\u002Fdalle-mini","dalle-mini","DALL·E Mini - Generate images from a text prompt","DALL·E Mini 是一款开源的人工智能模型，能够根据用户输入的文字描述自动生成相应的图像。它主要解决了将抽象文本概念转化为直观视觉内容的难题，让没有绘画基础的人也能轻松实现创意可视化。\n\n这款工具非常适合多类人群使用：普通用户可以通过其在线演示平台 Craiyon 免费体验“文生图”的乐趣；设计师和创作者可将其作为灵感激发助手；而开发者和研究人员则能利用其开源代码和预训练模型，进行二次开发、算法研究或集成到自己的应用中。\n\nDALL·E Mini 的技术亮点在于其轻量化的架构设计，它结合了 VQGAN 进行图像编码与解码，并利用 Transformer 模型理解文本提示，从而在消费级硬件或云端环境中也能高效运行。作为早期开源的文生图项目之一，它不仅提供了完整的训练和推理流程，还拥有一个活跃的社区生态，支持通过 Hugging Face 直接获取模型，甚至允许用户在 Google Colab 上一步步复现生成过程。无论是想快速生成趣味图片，还是深入探索多模态人工智能技术，DALL·E Mini 都是一个友好且强大的入门选择。","# DALL·E Mini\n\n\u003Ca href=\"https:\u002F\u002Fwww.craiyon.com\u002F\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fborisdayma_dalle-mini_readme_80ca07c02176.png\" width=\"300\">\u003C\u002Fa>\n\n## How to use it?\n\nYou can use the model on [🖍️ craiyon](https:\u002F\u002Fwww.craiyon.com\u002F)\n\n## How does it work?\n\nRefer to our reports:\n\n* [DALL·E mini - Generate Images from Any Text Prompt](https:\u002F\u002Fwandb.ai\u002Fdalle-mini\u002Fdalle-mini\u002Freports\u002FDALL-E-mini-Generate-images-from-any-text-prompt--VmlldzoyMDE4NDAy)\n* [DALL·E mini - Explained](https:\u002F\u002Fwandb.ai\u002Fdalle-mini\u002Fdalle-mini\u002Freports\u002FDALL-E-Mini-Explained-with-Demo--Vmlldzo4NjIxODA)\n* [DALL·E mega - Training Journal](https:\u002F\u002Fwandb.ai\u002Fdalle-mini\u002Fdalle-mini\u002Freports\u002FDALL-E-Mega-Training-Journal--VmlldzoxODMxMDI2)\n\n## Development\n\n### Dependencies Installation\n\nFor inference only, use `pip install dalle-mini`.\n\nFor development, clone the repo and use `pip install -e \".[dev]\"`.\nBefore making a PR, check style with `make style`.\n\nYou can experiment with the pipeline step by step through our [`inference pipeline notebook`](tools\u002Finference\u002Finference_pipeline.ipynb)\n\n[![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fborisdayma\u002Fdalle-mini\u002Fblob\u002Fmain\u002Ftools\u002Finference\u002Finference_pipeline.ipynb)\n\n### Training of DALL·E mini\n\nUse [`tools\u002Ftrain\u002Ftrain.py`](tools\u002Ftrain\u002Ftrain.py).\n\nYou can also adjust the [sweep configuration file](https:\u002F\u002Fdocs.wandb.ai\u002Fguides\u002Fsweeps) if you need to perform a hyperparameter search.\n\n## FAQ\n\n### Where to find the latest models?\n\nTrained models are on 🤗 Model Hub:\n\n* [VQGAN-f16-16384](https:\u002F\u002Fhuggingface.co\u002Fdalle-mini\u002Fvqgan_imagenet_f16_16384) for encoding\u002Fdecoding images\n* [DALL·E mini](https:\u002F\u002Fhuggingface.co\u002Fdalle-mini\u002Fdalle-mini) or [DALL·E mega](https:\u002F\u002Fhuggingface.co\u002Fdalle-mini\u002Fdalle-mega) for generating images from a text prompt\n\n### Where does the logo come from?\n\nThe \"armchair in the shape of an avocado\" was used by OpenAI when releasing DALL·E to illustrate the model's capabilities. Having successful predictions on this prompt represents a big milestone for us.\n\n## Contributing\n\nJoin the community on the [LAION Discord](https:\u002F\u002Fdiscord.gg\u002FxBPBXfcFHd).\nAny contribution is welcome, from reporting issues to proposing fixes\u002Fimprovements or testing the model with cool prompts!\n\nYou can also use these great projects from the community:\n\n* spin off your own app with [DALL-E Playground repository](https:\u002F\u002Fgithub.com\u002Fsaharmor\u002Fdalle-playground) (thanks [Sahar](https:\u002F\u002Ftwitter.com\u002Ftheaievangelist))\n\n* try [DALL·E Flow](https:\u002F\u002Fgithub.com\u002Fjina-ai\u002Fdalle-flow) project for generating, diffusion, and upscaling in a Human-in-the-Loop workflow (thanks [Han Xiao](https:\u002F\u002Fgithub.com\u002Fhanxiao))\n\n  [![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fjina-ai\u002Fdalle-flow\u002Fblob\u002Fmain\u002Fclient.ipynb)\n\n* run on [Replicate](https:\u002F\u002Freplicate.com\u002Fborisdayma\u002Fdalle-mini), in the browser or via API\n\n## Acknowledgements\n\n* 🤗 Hugging Face for organizing [the FLAX\u002FJAX community week](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers\u002Ftree\u002Fmaster\u002Fexamples\u002Fresearch_projects\u002Fjax-projects)\n* Google [TPU Research Cloud (TRC) program](https:\u002F\u002Fsites.research.google\u002Ftrc\u002F) for providing computing resources\n* [Weights & Biases](https:\u002F\u002Fwandb.com\u002F) for providing the infrastructure for experiment tracking and model management\n\n## Authors & Contributors\n\nDALL·E mini was initially developed by:\n\n* [Boris Dayma](https:\u002F\u002Fgithub.com\u002Fborisdayma)\n* [Suraj Patil](https:\u002F\u002Fgithub.com\u002Fpatil-suraj)\n* [Pedro Cuenca](https:\u002F\u002Fgithub.com\u002Fpcuenca)\n* [Khalid Saifullah](https:\u002F\u002Fgithub.com\u002Fkhalidsaifullaah)\n* [Tanishq Abraham](https:\u002F\u002Fgithub.com\u002Ftmabraham)\n* [Phúc Lê Khắc](https:\u002F\u002Fgithub.com\u002Flkhphuc)\n* [Luke Melas](https:\u002F\u002Fgithub.com\u002Flukemelas)\n* [Ritobrata Ghosh](https:\u002F\u002Fgithub.com\u002Fghosh-r)\n\nMany thanks to the people who helped make it better:\n\n* the [DALLE-Pytorch](https:\u002F\u002Fdiscord.gg\u002FxBPBXfcFHd) and [EleutherAI](https:\u002F\u002Fwww.eleuther.ai\u002F) communities for testing and exchanging cool ideas\n* [Rohan Anil](https:\u002F\u002Fgithub.com\u002Frohan-anil) for adding Distributed Shampoo optimizer and always giving great suggestions\n* [Phil Wang](https:\u002F\u002Fgithub.com\u002Flucidrains) has provided a lot of cool implementations of transformer variants and gives interesting insights with [x-transformers](https:\u002F\u002Fgithub.com\u002Flucidrains\u002Fx-transformers)\n* [Katherine Crowson](https:\u002F\u002Fgithub.com\u002Fcrowsonkb) for [super conditioning](https:\u002F\u002Ftwitter.com\u002FRiversHaveWings\u002Fstatus\u002F1478093658716966912)\n* the [Gradio team](https:\u002F\u002Fgradio.app\u002F) made an amazing UI for our app\n\n## Citing DALL·E mini\n\nIf you find DALL·E mini useful in your research or wish to refer, please use the following BibTeX entry.\n\n```text\n@misc{Dayma_DALL·E_Mini_2021,\n      author = {Dayma, Boris and Patil, Suraj and Cuenca, Pedro and Saifullah, Khalid and Abraham, Tanishq and Lê Khắc, Phúc and Melas, Luke and Ghosh, Ritobrata},\n      doi = {10.5281\u002Fzenodo.5146400},\n      month = {7},\n      title = {DALL·E Mini},\n      url = {https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini},\n      year = {2021}\n}\n```\n\n## References\n\nOriginal DALL·E from \"[Zero-Shot Text-to-Image Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2102.12092)\" with image quantization from \"[Learning Transferable Visual Models From Natural Language Supervision](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.00020)\".\n\nImage encoder from \"[Taming Transformers for High-Resolution Image Synthesis](https:\u002F\u002Farxiv.org\u002Fabs\u002F2012.09841v2)\".\n\nSequence to sequence model based on \"[BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.13461v1)\" with implementation of a few variants:\n\n* \"[GLU Variants Improve Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.05202)\"\n* \"[Deepnet: Scaling Transformers to 1,000 Layers](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.00555)\"\n* \"[NormFormer: Improved Transformer Pretraining with Extra Normalization](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.09456)\"\n* \"[Swin Transformer: Hierarchical Vision Transformer using Shifted Windows](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.14030)\"\n* \"[CogView: Mastering Text-to-Image Generation via Transformers](https:\u002F\u002Farxiv.org\u002Fabs\u002F2105.13290v2)\"\n* \"[Root Mean Square Layer Normalization](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.07467)\"\n* \"[Sinkformers: Transformers with Doubly Stochastic Attention](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.11773)\"\n* \"[Foundation Transformers](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.06423)\n\nMain optimizer (Distributed Shampoo) from \"[Scalable Second Order Optimization for Deep Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.09018)\".\n\n### Citations\n\n```text\n@misc{\n  title={Zero-Shot Text-to-Image Generation}, \n  author={Aditya Ramesh and Mikhail Pavlov and Gabriel Goh and Scott Gray and Chelsea Voss and Alec Radford and Mark Chen and Ilya Sutskever},\n  year={2021},\n  eprint={2102.12092},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n```\n\n```text\n@misc{\n  title={Learning Transferable Visual Models From Natural Language Supervision}, \n  author={Alec Radford and Jong Wook Kim and Chris Hallacy and Aditya Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},\n  year={2021},\n  eprint={2103.00020},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n```\n\n```text\n@misc{\n  title={Taming Transformers for High-Resolution Image Synthesis}, \n  author={Patrick Esser and Robin Rombach and Björn Ommer},\n  year={2021},\n  eprint={2012.09841},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n```\n\n```text\n@misc{\n  title={BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension}, \n  author={Mike Lewis and Yinhan Liu and Naman Goyal and Marjan Ghazvininejad and Abdelrahman Mohamed and Omer Levy and Ves Stoyanov and Luke Zettlemoyer},\n  year={2019},\n  eprint={1910.13461},\n  archivePrefix={arXiv},\n  primaryClass={cs.CL}\n}\n```\n\n```text\n@misc{\n  title={Scalable Second Order Optimization for Deep Learning},\n  author={Rohan Anil and Vineet Gupta and Tomer Koren and Kevin Regan and Yoram Singer},\n  year={2021},\n  eprint={2002.09018},\n  archivePrefix={arXiv},\n  primaryClass={cs.LG}\n}\n```\n\n```text\n@misc{\n  title={GLU Variants Improve Transformer},\n  author={Noam Shazeer},\n  year={2020},\n  url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.05202}    \n}\n```\n\n```text\n @misc{\n  title={DeepNet: Scaling transformers to 1,000 layers},\n  author={Wang, Hongyu and Ma, Shuming and Dong, Li and Huang, Shaohan and Zhang, Dongdong and Wei, Furu},\n  year={2022},\n  eprint={2203.00555}\n  archivePrefix={arXiv},\n  primaryClass={cs.LG}\n} \n```\n\n```text\n@misc{\n  title={NormFormer: Improved Transformer Pretraining with Extra Normalization},\n  author={Sam Shleifer and Jason Weston and Myle Ott},\n  year={2021},\n  eprint={2110.09456},\n  archivePrefix={arXiv},\n  primaryClass={cs.CL}\n}\n```\n\n```text\n@inproceedings{\n  title={Swin Transformer V2: Scaling Up Capacity and Resolution}, \n  author={Ze Liu and Han Hu and Yutong Lin and Zhuliang Yao and Zhenda Xie and Yixuan Wei and Jia Ning and Yue Cao and Zheng Zhang and Li Dong and Furu Wei and Baining Guo},\n  booktitle={International Conference on Computer Vision and Pattern Recognition (CVPR)},\n  year={2022}\n}\n```\n\n```text\n@misc{\n  title = {CogView: Mastering Text-to-Image Generation via Transformers},\n  author = {Ming Ding and Zhuoyi Yang and Wenyi Hong and Wendi Zheng and Chang Zhou and Da Yin and Junyang Lin and Xu Zou and Zhou Shao and Hongxia Yang and Jie Tang},\n  year = {2021},\n  eprint = {2105.13290},\n  archivePrefix = {arXiv},\n  primaryClass = {cs.CV}\n}\n```\n\n```text\n@misc{\n  title = {Root Mean Square Layer Normalization},\n  author = {Biao Zhang and Rico Sennrich},\n  year = {2019},\n  eprint = {1910.07467},\n  archivePrefix = {arXiv},\n  primaryClass = {cs.LG}\n}\n```\n\n```text\n@misc{\n  title = {Sinkformers: Transformers with Doubly Stochastic Attention},\n  url = {https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.11773},\n  author = {Sander, Michael E. and Ablin, Pierre and Blondel, Mathieu and Peyré, Gabriel},\n  publisher = {arXiv},\n  year = {2021},\n}\n```\n\n```text\n@misc{\n  title = {Smooth activations and reproducibility in deep networks},\n  url = {https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.09931},\n  author = {Shamir, Gil I. and Lin, Dong and Coviello, Lorenzo},\n  publisher = {arXiv},\n  year = {2020},\n}\n```\n\n```text\n@misc{\n  title = {Foundation Transformers},\n  url = {https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.06423},\n  author = {Wang, Hongyu and Ma, Shuming and Huang, Shaohan and Dong, Li and Wang, Wenhui and Peng, Zhiliang and Wu, Yu and Bajaj, Payal and Singhal, Saksham and Benhaim, Alon and Patra, Barun and Liu, Zhun and Chaudhary, Vishrav and Song, Xia and Wei, Furu},\n  publisher = {arXiv},\n  year = {2022},\n}\n```\n","# DALL·E Mini\n\n\u003Ca href=\"https:\u002F\u002Fwww.craiyon.com\u002F\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fborisdayma_dalle-mini_readme_80ca07c02176.png\" width=\"300\">\u003C\u002Fa>\n\n## 如何使用？\n\n您可以在 [🖍️ craiyon](https:\u002F\u002Fwww.craiyon.com\u002F) 上使用该模型。\n\n## 它是如何工作的？\n\n请参阅我们的报告：\n\n* [DALL·E mini - 从任意文本提示生成图像](https:\u002F\u002Fwandb.ai\u002Fdalle-mini\u002Fdalle-mini\u002Freports\u002FDALL-E-mini-Generate-images-from-any-text-prompt--VmlldzoyMDE4NDAy)\n* [DALL·E mini - 解释](https:\u002F\u002Fwandb.ai\u002Fdalle-mini\u002Fdalle-mini\u002Freports\u002FDALL-E-Mini-Explained-with-Demo--Vmlldzo4NjIxODA)\n* [DALL·E mega - 训练日志](https:\u002F\u002Fwandb.ai\u002Fdalle-mini\u002Fdalle-mini\u002Freports\u002FDALL-E-Mega-Training-Journal--VmlldzoxODMxMDI2)\n\n## 开发\n\n### 依赖安装\n\n仅用于推理时，使用 `pip install dalle-mini`。\n\n开发时，请克隆仓库并使用 `pip install -e \".[dev]\"`。\n\n在提交 PR 之前，请使用 `make style` 检查代码风格。\n\n您可以通过我们的 [`inference pipeline notebook`](tools\u002Finference\u002Finference_pipeline.ipynb) 逐步体验整个流程。\n\n[![在 Colab 中打开](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fborisdayma\u002Fdalle-mini\u002Fblob\u002Fmain\u002Ftools\u002Finference\u002Finference_pipeline.ipynb)\n\n### DALL·E mini 的训练\n\n使用 [`tools\u002Ftrain\u002Ftrain.py`](tools\u002Ftrain\u002Ftrain.py)。\n\n如果您需要进行超参数搜索，也可以调整 [sweep 配置文件](https:\u002F\u002Fdocs.wandb.ai\u002Fguides\u002Fsweeps)。\n\n## 常见问题解答\n\n### 最新模型在哪里可以找到？\n\n训练好的模型位于 🤗 Model Hub：\n\n* [VQGAN-f16-16384](https:\u002F\u002Fhuggingface.co\u002Fdalle-mini\u002Fvqgan_imagenet_f16_16384) 用于图像的编码和解码\n* [DALL·E mini](https:\u002F\u002Fhuggingface.co\u002Fdalle-mini\u002Fdalle-mini) 或 [DALL·E mega](https:\u002F\u002Fhuggingface.co\u002Fdalle-mini\u002Fdalle-mega) 用于根据文本提示生成图像\n\n### Logo 来自哪里？\n\n“牛油果形状的扶手椅”是由 OpenAI 在发布 DALL·E 时用来展示模型能力的。在这个提示上取得成功的预测对我们来说是一个重要的里程碑。\n\n## 贡献\n\n加入 LAION Discord 社区：[LAION Discord](https:\u002F\u002Fdiscord.gg\u002FxBPBXfcFHd)。\n无论您是报告问题、提出修复或改进建议，还是用有趣的提示测试模型，我们都欢迎您的参与！\n\n您也可以使用社区中的这些优秀项目：\n\n* 使用 [DALL-E Playground 仓库](https:\u002F\u002Fgithub.com\u002Fsaharmor\u002Fdalle-playground) 自行搭建应用（感谢 [Sahar](https:\u002F\u002Ftwitter.com\u002Ftheaievangelist)）\n\n* 尝试 [DALL·E Flow](https:\u002F\u002Fgithub.com\u002Fjina-ai\u002Fdalle-flow) 项目，在人机协作的工作流中进行生成、扩散和超分辨率处理（感谢 [Han Xiao](https:\u002F\u002Fgithub.com\u002Fhanxiao)）\n\n  [![在 Colab 中打开](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fjina-ai\u002Fdalle-flow\u002Fblob\u002Fmain\u002Fclient.ipynb)\n\n* 在 [Replicate](https:\u002F\u002Freplicate.com\u002Fborisdayma\u002Fdalle-mini) 上运行，或者直接在浏览器中使用，亦可通过 API 调用\n\n## 致谢\n\n* 🤗 Hugging Face 组织了 [FLAX\u002FJAX 社区周](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers\u002Ftree\u002Fmaster\u002Fexamples\u002Fresearch_projects\u002Fjax-projects)\n* Google [TPU Research Cloud (TRC) 计划](https:\u002F\u002Fsites.research.google\u002Ftrc\u002F) 提供了计算资源\n* [Weights & Biases](https:\u002F\u002Fwandb.com\u002F) 提供了实验跟踪和模型管理的基础设施\n\n## 作者与贡献者\n\nDALL·E mini 最初由以下人员开发：\n\n* [Boris Dayma](https:\u002F\u002Fgithub.com\u002Fborisdayma)\n* [Suraj Patil](https:\u002F\u002Fgithub.com\u002Fpatil-suraj)\n* [Pedro Cuenca](https:\u002F\u002Fgithub.com\u002Fpcuenca)\n* [Khalid Saifullah](https:\u002F\u002Fgithub.com\u002Fkhalidsaifullaah)\n* [Tanishq Abraham](https:\u002F\u002Fgithub.com\u002Ftmabraham)\n* [Phúc Lê Khắc](https:\u002F\u002Fgithub.com\u002Flkhphuc)\n* [Luke Melas](https:\u002F\u002Fgithub.com\u002Flukemelas)\n* [Ritobrata Ghosh](https:\u002F\u002Fgithub.com\u002Fghosh-r)\n\n非常感谢那些帮助改进它的人：\n\n* [DALLE-Pytorch](https:\u002F\u002Fdiscord.gg\u002FxBPBXfcFHd) 和 [EleutherAI](https:\u002F\u002Fwww.eleuther.ai\u002F) 社区的成员们，他们进行了测试并分享了许多有趣的想法\n* [Rohan Anil](https:\u002F\u002Fgithub.com\u002Frohan-anil) 添加了分布式 Shampoo 优化器，并始终提供宝贵的建议\n* [Phil Wang](https:\u002F\u002Fgithub.com\u002Flucidrains) 提供了许多优秀的 Transformer 变体实现，并通过 [x-transformers](https:\u002F\u002Fgithub.com\u002Flucidrains\u002Fx-transformers) 分享了有趣的见解\n* [Katherine Crowson](https:\u002F\u002Fgithub.com\u002Fcrowsonkb) 的 [超级条件化](https:\u002F\u002Ftwitter.com\u002FRiversHaveWings\u002Fstatus\u002F1478093658716966912)\n* [Gradio 团队](https:\u002F\u002Fgradio.app\u002F) 为我们的应用打造了出色的用户界面\n\n## 引用 DALL·E mini\n\n如果您在研究中发现 DALL·E mini 有用，或希望引用它，请使用以下 BibTeX 条目。\n\n```text\n@misc{Dayma_DALL·E_Mini_2021,\n      author = {Dayma, Boris and Patil, Suraj and Cuenca, Pedro and Saifullah, Khalid and Abraham, Tanishq and Lê Khắc, Phúc and Melas, Luke and Ghosh, Ritobrata},\n      doi = {10.5281\u002Fzenodo.5146400},\n      month = {7},\n      title = {DALL·E Mini},\n      url = {https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini},\n      year = {2021}\n}\n```\n\n## 参考文献\n\n原始的 DALL·E 来自论文 “[零样本文本到图像生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2102.12092)” ，其中图像量化部分参考了 “[从自然语言监督中学习可迁移的视觉模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.00020)” 。\n\n图像编码器来自 “[驯服 Transformer 以实现高分辨率图像合成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2012.09841v2)” 。\n\n序列到序列模型基于 “[BART: 用于自然语言生成、翻译和理解的去噪序列到序列预训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.13461v1)” ，并实现了几种变体：\n\n* “[GLU 变体改进 Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.05202)”\n* “[Deepnet: 将 Transformer 扩展到 1,000 层](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.00555)”\n* “[NormFormer: 通过额外的归一化改进 Transformer 预训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.09456)”\n* “[Swin Transformer: 使用移位窗口的分层视觉 Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.14030)”\n* “[CogView: 通过 Transformer 掌握文本到图像生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2105.13290v2)”\n* “[均方根层归一化](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.07467)”\n* “[Sinkformers: 具有双重随机注意力机制的 Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.11773)”\n* “[基础 Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.06423)”\n\n主优化器（分布式 Shampoo）来自 “[深度学习的可扩展二阶优化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.09018)”。\n\n### 引用文献\n\n```text\n@misc{\n  title={零样本文本到图像生成}, \n  author={阿迪提亚·拉梅什和米哈伊尔·帕夫洛夫和加布里埃尔·戈和斯科特·格雷和切尔西·沃斯和亚历克·拉德福德和马克·陈和伊利亚·苏茨克维尔},\n  year={2021},\n  eprint={2102.12092},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n```\n\n```text\n@misc{\n  title={从自然语言监督中学习可迁移的视觉模型}, \n  author={亚历克·拉德福德和钟宇·金和克里斯·霍拉西和阿迪提亚·拉梅什和加布里埃尔·戈和桑迪尼·阿加瓦尔和吉里什·萨斯特里和阿曼达·阿斯克尔和帕梅拉·米什金和杰克·克拉克和格雷琴·克鲁格和伊利亚·苏茨克维尔},\n  year={2021},\n  eprint={2103.00020},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n```\n\n```text\n@misc{\n  title={驯服Transformer以实现高分辨率图像合成}, \n  author={帕特里克·埃瑟和罗宾·伦巴赫和比约恩·奥默},\n  year={2021},\n  eprint={2012.09841},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n```\n\n```text\n@misc{\n  title={BART：用于自然语言生成、翻译和理解的去噪序列到序列预训练}, \n  author={迈克·刘易斯和尹汉·刘和纳曼·戈亚尔和马尔扬·加兹维内贾德和阿卜杜勒拉赫曼·穆罕默德和奥默·列维和韦斯·斯托亚诺夫和卢克·泽特勒莫耶},\n  year={2019},\n  eprint={1910.13461},\n  archivePrefix={arXiv},\n  primaryClass={cs.CL}\n}\n```\n\n```text\n@misc{\n  title={深度学习中的可扩展二阶优化},\n  author={罗翰·阿尼尔和维尼特·古普塔和托默·科伦和凯文·里根和约拉姆·辛格},\n  year={2021},\n  eprint={2002.09018},\n  archivePrefix={arXiv},\n  primaryClass={cs.LG}\n}\n```\n\n```text\n@misc{\n  title={GLU变体改进Transformer},\n  author={诺姆·沙泽尔},\n  year={2020},\n  url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.05202}    \n}\n```\n\n```text\n @misc{\n  title={DeepNet：将Transformer扩展至1,000层},\n  author={王洪宇和马书明和董立和黄绍涵和张东东和魏福儒},\n  year={2022},\n  eprint={2203.00555},\n  archivePrefix={arXiv},\n  primaryClass={cs.LG}\n} \n```\n\n```text\n@misc{\n  title={NormFormer：通过额外归一化改进Transformer预训练},\n  author={萨姆·施莱弗和杰森·韦斯顿和迈尔·奥特},\n  year={2021},\n  eprint={2110.09456},\n  archivePrefix={arXiv},\n  primaryClass={cs.CL}\n}\n```\n\n```text\n@inproceedings{\n  title={Swin Transformer V2：扩大容量和分辨率}, \n  author={齐刘和韩胡和林宇彤和姚祝良和谢振达和魏义轩和宁嘉和曹岳和张正和董立和魏福儒和郭百宁},\n  booktitle={计算机视觉与模式识别国际会议（CVPR）},\n  year={2022}\n}\n```\n\n```text\n@misc{\n  title = {CogView：通过Transformer掌握文本到图像生成},\n  author = {丁明和杨卓毅和洪文义和郑文迪和周昌和殷达和林俊阳和邹旭和邵洲和杨红霞和唐杰},\n  year = {2021},\n  eprint = {2105.13290},\n  archivePrefix = {arXiv},\n  primaryClass = {cs.CV}\n}\n```\n\n```text\n@misc{\n  title = {均方根层归一化},\n  author = {张彪和里科·森尼希},\n  year = {2019},\n  eprint = {1910.07467},\n  archivePrefix = {arXiv},\n  primaryClass = {cs.LG}\n}\n```\n\n```text\n@misc{\n  title = {Sinkformer：具有双随机注意力机制的Transformer},\n  url = {https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.11773},\n  author = {桑德·迈克尔·E.和阿布林·皮埃尔和布隆德尔·马蒂厄和佩雷·加布里埃尔},\n  publisher = {arXiv},\n  year = {2021},\n}\n```\n\n```text\n@misc{\n  title = {深度网络中的平滑激活函数与可重复性},\n  url = {https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.09931},\n  author = {沙米尔·吉尔·I.和董林和科维洛·洛伦佐},\n  publisher = {arXiv},\n  year = {2020},\n}\n```\n\n```text\n@misc{\n  title = {基础Transformer},\n  url = {https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.06423},\n  author = {王洪宇和马书明和黄绍涵和董立和王文辉和彭志亮和吴宇和巴贾杰·派娅尔和辛格哈尔·萨克沙姆和本海姆·阿隆和帕特拉·巴伦和刘准和乔杜里·维什拉夫和宋夏和魏福儒},\n  publisher = {arXiv},\n  year = {2022},\n}\n```","# DALL·E Mini 快速上手指南\n\nDALL·E Mini 是一个开源的文本生成图像模型，能够根据任意文本提示生成对应的图片。本指南将帮助开发者快速在本地环境中部署并使用该模型。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：Linux 或 macOS（Windows 用户建议使用 WSL2 或 Docker）\n*   **Python 版本**：Python 3.8 或更高版本\n*   **硬件建议**：虽然支持 CPU 推理，但为了获得更快的生成速度，强烈建议使用配备 GPU 的环境（支持 CUDA）。\n*   **前置依赖**：确保已安装 `pip` 包管理工具。\n\n> **提示**：国内开发者若遇到网络连接问题，建议在安装前配置 PyPI 国内镜像源（如清华源或阿里源），以加速依赖下载。\n> ```bash\n> pip config set global.index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n## 安装步骤\n\n根据您的使用需求，选择以下其中一种安装方式：\n\n### 1. 仅用于推理（推荐）\n如果您只需要使用模型进行图片生成，无需修改源码，请直接运行以下命令：\n\n```bash\npip install dalle-mini\n```\n\n### 2. 用于开发与贡献\n如果您需要克隆代码库进行修改、调试或参与贡献，请执行以下步骤：\n\n```bash\n# 克隆仓库\ngit clone https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini.git\ncd dalle-mini\n\n# 以可编辑模式安装开发依赖\npip install -e \".[dev]\"\n```\n\n## 基本使用\n\n安装完成后，您可以通过 Python 代码调用模型。最便捷的方式是参考官方提供的推理流程 Notebook，它展示了从加载模型到生成图像的完整步骤。\n\n### 方式一：使用 Colab 在线体验（无需本地配置）\n您可以直接在 Google Colab 中运行官方提供的演示脚本，这是验证环境最快的方法：\n\n[![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fborisdayma\u002Fdalle-mini\u002Fblob\u002Fmain\u002Ftools\u002Finference\u002Finference_pipeline.ipynb)\n\n### 方式二：本地 Python 脚本示例\n在本地环境中，您可以编写如下简单的 Python 脚本来生成图像。模型会自动从 Hugging Face Model Hub 下载预训练权重（首次运行需联网）。\n\n```python\nfrom dalle_mini import inference\nimport jax.numpy as jnp\nfrom PIL import Image\n\n# 加载模型 (首次运行会自动下载 VQGAN 和 DALL·E mini 权重)\nmodel, params = inference.load_model()\n\n# 定义文本提示\nprompt = \"an armchair in the shape of an avocado\"\n\n# 生成图像\nimages = inference.generate_inferences(prompt, model=model, params=params, top_k=None)\n\n# 显示或保存结果\nfor image in images:\n    image.show()\n    # image.save(\"output.png\")\n```\n\n> **注意**：该模型基于 JAX\u002FFlax 框架，首次运行时可能会花费一些时间编译和优化计算图，属正常现象。生成的图像通常为低分辨率缩略图，如需更高质量输出，可结合社区提供的超分工具（如 DALL·E Flow）使用。","一位独立游戏开发者正在为一款复古风格的冒险游戏快速生成大量概念草图，以验证美术风格并填充早期原型素材。\n\n### 没有 dalle-mini 时\n- 开发者必须手动绘制每张草图或花费高昂费用聘请画师，导致迭代周期长达数天甚至数周。\n- 面对“鳄梨形状的扶手椅”这类超现实或抽象的创意描述，传统素材库完全无法提供匹配资源。\n- 尝试不同视觉风格需要反复修改设计文档并重新沟通，试错成本极高，严重拖慢原型验证进度。\n- 非美术背景的策划人员难以将脑海中的画面准确传达给艺术团队，造成严重的理解偏差。\n\n### 使用 dalle-mini 后\n- 开发者只需输入文本提示词，dalle-mini 即可在几秒钟内生成多张候选图像，将创意可视化时间缩短至分钟级。\n- 针对各种奇思妙想的提示词，dalle-mini 能直接输出具象化的图像结果，瞬间填补了特定创意场景的素材空白。\n- 通过调整提示词即可实时探索多种艺术风格，团队能以极低成本快速筛选出最佳视觉方向。\n- 策划与开发团队可直接利用 dalle-mini 生成的图像作为沟通基准，大幅降低了跨职能协作的理解门槛。\n\ndalle-mini 通过将文本即时转化为视觉创意，彻底打破了内容创作的技术壁垒，让小型团队也能实现高频、低成本的视觉迭代。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fborisdayma_dalle-mini_80ca07c0.png","borisdayma","Boris Dayma","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fborisdayma_f14cd54c.jpg","Building free AI tools 🎉 ",null,"https:\u002F\u002Fgithub.com\u002Fborisdayma",[79,83,87,91,94],{"name":80,"color":81,"percentage":82},"Python","#3572A5",82.3,{"name":84,"color":85,"percentage":86},"Jupyter Notebook","#DA5B0B",17.5,{"name":88,"color":89,"percentage":90},"Dockerfile","#384d54",0.1,{"name":92,"color":93,"percentage":90},"Shell","#89e051",{"name":95,"color":96,"percentage":97},"Makefile","#427819",0,14770,1219,"2026-04-19T05:32:07","Apache-2.0","未说明","未明确说明（基于 FLAX\u002FJAX 框架，通常支持 TPU 或 GPU；README 提及 Google TPU Research Cloud 资源）",{"notes":105,"python":102,"dependencies":106},"该工具主要基于 FLAX\u002FJAX 框架开发，而非 PyTorch。推理可通过 'pip install dalle-mini' 安装。训练脚本依赖 Weights & Biases (wandb) 进行超参数搜索。模型托管在 Hugging Face Model Hub。官方提供了 Colab 笔记本以便在线体验，暗示对云端环境的良好支持。",[107,108,109,110,64],"flax","jax","transformers","wandb",[15],"2026-03-27T02:49:30.150509","2026-04-20T17:01:49.640216",[115,120,125,130,134,139],{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},45135,"加载 VQModel 时出现形状不兼容错误（checkpoint shape incompatible with model shape）怎么办？","该问题已修复。请使用更新后的检查点 `dalle-mini\u002Fvqgan_imagenet_f16_16384` 替代旧的 `flax-community\u002Fvqgan_f16_16384`。旧检查点是在其他图像上微调过的，与新模型版本不兼容。维护者计划更新推理笔记本以使用此新检查点。","https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fissues\u002F99",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},45136,"安装 dalle-mini 开发版时遇到 pip 依赖冲突错误（optax 与 jaxlib 版本冲突）如何解决？","如果您只是想使用模型进行推理而不需要开发功能，无需安装 `[dev]` 依赖包，直接参考推理笔记本即可。如果必须解决依赖问题，可以尝试在容器内运行，或手动升级 JAX：`pip install --upgrade \"jax[cuda]\" -f https:\u002F\u002Fstorage.googleapis.com\u002Fjax-releases\u002Fjax_cuda_releases.html`。","https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fissues\u002F268",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},45137,"构建 Docker 镜像时出现 jaxlib 版本找不到或匹配失败的错误怎么办？","这是因为 JAX 团队将发布文件分开了，Dockerfile 中的默认 URL 可能不正确。请修改 Dockerfile 中的安装命令，根据您的需求替换为具体的 whl 文件链接：\n1. CPU 版本：`RUN pip install https:\u002F\u002Fstorage.googleapis.com\u002Fjax-releases\u002Fnocuda\u002Fjaxlib-0.3.10-cp38-none-manylinux2014_x86_64.whl`\n2. GPU 版本：`RUN pip install --upgrade https:\u002F\u002Fstorage.googleapis.com\u002Fjax-releases\u002Fcuda11\u002Fjaxlib-0.3.10+cuda11.cudnn82-cp38-none-manylinux2014_x86_64.whl`\n同时确保使用正确的源地址：`https:\u002F\u002Fstorage.googleapis.com\u002Fjax-releases\u002Fjax_cuda_releases.html`。","https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fissues\u002F260",{"id":131,"question_zh":132,"answer_zh":133,"source_url":124},45138,"如何在本地机器上调试 DALL-E mini 代码或运行最小化设置？","如果您不需要完整训练，只需调试代码，建议使用最小的数据集（如 100 个图像 - 文本对）和能放入显存的最小模型。对于本地运行和调试，推荐先在 Docker 容器中运行推理脚本。如果仅为了使用模型，可以直接从推理笔记本开始，无需安装完整的开发依赖。",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},45139,"模型生成的默认参数是否合理？如何配置更好的默认值？","早期版本默认使用了 Bart 摘要模型的参数，这可能不是最佳选择。维护者已确认该问题已修复，好的默认参数现已直接设置在模型配置文件中，用户无需手动调整即可获得更好的生成效果。","https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fissues\u002F57",{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},45140,"项目目前有哪些可用的数据集资源？","社区已经通过 CRAWLING@HOME 项目利用 CLIP 过滤了大量高质量的图像 - 文本对（来自 Common Crawl），并进行了去重处理。目前已有足够的数据配合 LAION 使用，具体数据进展和预览曾通过社区画廊和进度条展示，更多细节可参考相关的 Discord 频道或已关闭的数据集讨论帖。","https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fissues\u002F6",[145,150,155,160],{"id":146,"version":147,"summary_zh":148,"released_at":149},360009,"v0.1.1","## 变更内容\n* 功能：@mallorbc 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F218 中进行了改进，优化了 Docker 的使用及 notebook 的推理功能。\n* 使 build_docker.sh 脚本可执行：@AetherUnbound 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F221 中完成。\n* 默认的 docker run 命令中添加 --rm 标志：@AetherUnbound 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F222 中实现。\n* 修正“PWD”的注释：@patrickpiccini 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F226 中完成。\n* 再次设置容器名称：@patrickpiccini 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F237 中完成。\n* 添加 W&B Tables：@ayulockin 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F259 中实现。\n* Colab 功能：允许自定义项目名称：@borisdayma 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F264 中完成。\n* 文档（README）：修复错别字：@SkiingIsFun123 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F230 中完成。\n* 更新 README.md：@Muhtasham 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F274 中完成。\n* 修复 DalleBartProcessor.__call__ 的类型签名：@jon-edward 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F271 中完成。\n* 为 Docker 文件夹创建 README：@mallorbc 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F266 中完成。\n* 在提交时运行：@igor-makarov 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F232 中完成。\n\n## 新贡献者\n* @mallorbc 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F218 中完成了首次贡献。\n* @AetherUnbound 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F221 中完成了首次贡献。\n* @patrickpiccini 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F226 中完成了首次贡献。\n* @ayulockin 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F259 中完成了首次贡献。\n* @SkiingIsFun123 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F230 中完成了首次贡献。\n* @Muhtasham 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F274 中完成了首次贡献。\n* @jon-edward 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F271 中完成了首次贡献。\n* @igor-makarov 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F232 中完成了首次贡献。\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fcompare\u002Fv0.1.0...v0.1.1","2022-06-22T04:33:11",{"id":151,"version":152,"summary_zh":153,"released_at":154},360010,"v0.1.0","## 变更内容\n* 移除对先前训练运行的引用。由 @pcuenca 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F173 中完成。\n* 功能：支持学习率偏移。由 @borisdayma 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F174 中完成。\n* 文档：在 README 中添加 DALL-E 流程项目。由 @hanxiao 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F182 中完成。\n* 功能（应用）：将演示迁移到 Gradio。由 @AK391 和 @borisdayma 共同在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F179 中完成。\n* 禁用 DALL-E Mini 演示中的队列。由 @AK391 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F188 中完成。\n* 功能（训练）：以 FP32 精度进行评估。由 @borisdayma 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F190 中完成。\n* 功能：Dockerfile。由 @batrlatom 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F191 中完成。\n* 功能：支持多个验证数据集。由 @borisdayma 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F192 中完成。\n* 文档：提高 `.py` 文件的可读性。由 @ryanrussell 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F209 中完成。\n\n## 新贡献者\n* @hanxiao 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F182 中完成了首次贡献。\n* @AK391 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F188 中完成了首次贡献。\n* @batrlatom 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F191 中完成了首次贡献。\n* @ryanrussell 在 https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fpull\u002F209 中完成了首次贡献。\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fborisdayma\u002Fdalle-mini\u002Fcompare\u002Fv0.0.6...v0.1.0","2022-06-07T05:05:56",{"id":156,"version":157,"summary_zh":158,"released_at":159},360011,"v0.0.6","首次发布","2022-04-21T16:31:49",{"id":161,"version":162,"summary_zh":163,"released_at":164},360012,"v0.1-alpha","测试发布系统","2021-07-29T18:05:56"]