[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-ByteDance-Seed--Bagel":3,"tool-ByteDance-Seed--Bagel":64},[4,17,27,35,44,52],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":10,"last_commit_at":41,"category_tags":42,"status":16},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[13,14,15,43],"视频",{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":23,"last_commit_at":50,"category_tags":51,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":53,"name":54,"github_repo":55,"description_zh":56,"stars":57,"difficulty_score":23,"last_commit_at":58,"category_tags":59,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,60,43,61,15,62,26,13,63],"数据工具","插件","其他","音频",{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":75,"owner_avatar_url":76,"owner_bio":77,"owner_company":78,"owner_location":78,"owner_email":79,"owner_twitter":78,"owner_website":80,"owner_url":81,"languages":82,"stars":95,"forks":96,"last_commit_at":97,"license":98,"difficulty_score":10,"env_os":99,"env_gpu":100,"env_ram":101,"env_deps":102,"category_tags":108,"github_topics":78,"view_count":23,"oss_zip_url":78,"oss_zip_packed_at":78,"status":16,"created_at":109,"updated_at":110,"faqs":111,"releases":141},4230,"ByteDance-Seed\u002FBagel","Bagel","Open-source unified multimodal model","Bagel 是一款由字节跳动开源的统一多模态基础模型，旨在打破传统人工智能在“理解”与“生成”任务之间的界限。它不仅能像顶尖视觉语言模型一样精准解读图像和视频内容，还能生成媲美专业绘图工具（如 SD3）的高质量图片，甚至胜任自由形式的图像编辑、多视角合成及虚拟世界导航等复杂任务。\n\n过去，用户往往需要分别部署不同的模型来处理图文理解和图像生成，流程繁琐且难以协同。Bagel 通过一个模型即可同时解决这两类问题，极大地简化了工作流，并实现了从被动识别到主动操控视觉内容的跨越。\n\n这款工具特别适合 AI 研究人员探索多模态融合的前沿技术，也适合开发者构建集分析与创作为一体的智能应用，同时能为设计师提供强大的辅助创作能力。其核心亮点在于采用了创新的“混合 Transformer 专家”（MoT）架构，并配备双编码器分别捕捉图像的像素细节与语义特征。基于万亿级多模态数据训练，Bagel 在保持 70 亿活跃参数高效运行的同时，展现出了卓越的上下文学习与逻辑推理能力，让机器真正具备了初步的“世界模型”认知。","\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FByteDance-Seed_Bagel_readme_ea99c1a82555.png\" alt=\"BAGEL\" width=\"480\"\u002F>\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fbagel-ai.org\u002F\">\n    \u003Cimg\n      src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FBAGEL-Website-0A66C2?logo=safari&logoColor=white\"\n      alt=\"BAGEL Website\"\n    \u002F>\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.14683\">\n    \u003Cimg\n      src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FBAGEL-Paper-red?logo=arxiv&logoColor=red\"\n      alt=\"BAGEL Paper on arXiv\"\n    \u002F>\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FByteDance-Seed\u002FBAGEL-7B-MoT\">\n    \u003Cimg \n        src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FBAGEL-Model-yellow?logo=huggingface&logoColor=yellow\" \n        alt=\"BAGEL Model\"\n    \u002F>\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fdemo.bagel-ai.org\u002F\">\n    \u003Cimg\n      src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FBAGEL-Demo-blue?logo=googleplay&logoColor=blue\"\n      alt=\"BAGEL Demo\"\n    \u002F>\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FByteDance-Seed\u002FBAGEL\">\n    \u003Cimg \n        src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FBAGEL-Space-orange?logo=huggingface&logoColor=yellow\" \n        alt=\"BAGEL Model\"\n    \u002F>\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FeXQNFhWe\">\n    \u003Cimg\n      src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FBAGEL-Discord-5865F2?logo=discord&logoColor=purple\"\n      alt=\"BAGEL Discord\"\n    \u002F>\n  \u003C\u002Fa>\n  \u003Ca href=\"mailto:bagel@bytedance.com\">\n    \u003Cimg\n      src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FBAGEL-Email-D14836?logo=gmail&logoColor=red\"\n      alt=\"BAGEL Email\"\n    \u002F>\n  \u003C\u002Fa>\n\u003C\u002Fp>\n\n# Unified Model for Multimodal Understanding and Generation\n> [Chaorui Deng*](https:\u002F\u002Fscholar.google.com\u002Fcitations?hl=en&user=k0TWfBoAAAAJ), [Deyao Zhu*](https:\u002F\u002Ftsutikgiau.github.io\u002F), [Kunchang Li*](https:\u002F\u002Fandy1621.github.io\u002F), [Chenhui Gou*](https:\u002F\u002Fwww.linkedin.com\u002Fin\u002Fchenhui-gou-9201081a1\u002F?originalSubdomain=au), [Feng Li*](https:\u002F\u002Ffengli-ust.github.io\u002F), [Zeyu Wang](https:\u002F\u002Fzw615.github.io\u002F), Shu Zhong, [Weihao Yu](https:\u002F\u002Fwhyu.me\u002F), [Xiaonan Nie](https:\u002F\u002Fcodecaution.github.io\u002F), [Ziang Song](https:\u002F\u002Fwww.linkedin.com\u002Fin\u002Fziang-song-43b0ab8a\u002F), Guang Shi :email: , [Haoqi Fan* :tophat: ](https:\u002F\u002Fhaoqifan.github.io\u002F)\n>\n> contact: shiguang.sg@bytedance.com\n> \n> We present **BAGEL**, an open‑source multimodal foundation model with 7B active parameters (14B total) trained on large‑scale interleaved multimodal data. BAGEL outperforms the current top‑tier open‑source VLMs like Qwen2.5-VL and InternVL-2.5 on standard multimodal understanding leaderboards, and delivers text‑to‑image quality that is competitive with strong specialist generators such as SD3.\nMoreover, BAGEL demonstrates superior qualitative results in classical image‑editing scenarios than the leading open-source models. More importantly, it extends to free-form visual manipulation, multiview synthesis, and world navigation, capabilities that constitute \"world-modeling\" tasks beyond the scope of previous image-editing models.\nThe figure below showcases BAGEL's qualitative performance.\n\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FByteDance-Seed_Bagel_readme_f7be028129e1.webp\" width=\"95%\">\u003C\u002Fp>\n\n\n\u003C!-- ## 🧠 Method\nBAGEL adopts a Mixture-of-Transformer-Experts (MoT) architecture to maximize the model’s capacity to learn from richly diverse multimodal information. Following the same principle of capacity maximization, it utilizes two separate encoders to capture pixel-level and semantic-level features of an image. The overall framework follows a Next Group of Token Prediction paradigm, where the model is trained to predict the next group of language or visual tokens as a compression target.\n\nBAGEL scales MoT’s capacity through Pre-training, Continued Training, and Supervised Finetuning on trillions of interleaved multimodal tokens spanning language, image, video, and web data. It surpasses open models on standard understanding and generation benchmarks and demonstrates advanced in-context multimodal abilities like free-form image editing, future frame prediction, 3D manipulation, world navigation, and sequential reasoning.\n\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FByteDance-Seed_Bagel_readme_6b265f2fccc0.png\" width=\"95%\">\u003C\u002Fp>\n\n\n## 🌱 Emerging Properties\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FByteDance-Seed_Bagel_readme_e71121a177d2.png\" width=\"95%\">\u003C\u002Fp>\n\nAs we scale up BAGEL’s pretraining with more multimodal tokens, we observe consistent performance gains across understanding, generation, and editing tasks. Different capabilities emerge at distinct training stages—multimodal understanding and generation appear early, followed by basic editing, while complex, intelligent editing emerges later. This staged progression suggests an emergent pattern, where advanced multimodal reasoning builds on well-formed foundational skills. Ablation studies further show that combining VAE and ViT features significantly improves intelligent editing, underscoring the importance of visual-semantic context in enabling complex multimodal reasoning and further supporting its role in the emergence of advanced capabilities. -->\n\n## 📢 News\n\nWe sincerely thank all contributors from the open community for their valuable support.\n\n- **June 15, 2025:** We have updated and fixed the evaluation results for [KRIS-Bench](https:\u002F\u002Fgithub.com\u002Fmercurystraw\u002FKris_Bench) and [RISEBench](https:\u002F\u002Fgithub.com\u002FPhoenixZ810\u002FRISEBench). **Our model, BAGEL, demonstrates performance comparable to Gemini 2.0 on these reasoning benchmarks.** We have also released the evaluation code for both KRIS-Bench and RISEBench, along with [ImgEdit-Bench](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FImgEdit). For further details, please refer to [EVAL](.\u002FEVAL.md).\n- **Jun 5, 2025:** Thanks to [@davideuler](https:\u002F\u002Fgithub.com\u002Fdavideuler) for contributing the [Dockerfile with prebuilt flash_attn](https:\u002F\u002Fgithub.com\u002FByteDance-Seed\u002FBagel\u002Fissues\u002F125).\n- **May 30, 2025:** Many thanks to [@prartio](https:\u002F\u002Fgithub.com\u002Fprartio) for contributing the [Windows 11 installation guideline](https:\u002F\u002Fgithub.com\u002FByteDance-Seed\u002FBagel\u002Fissues\u002F92), and to [@gluttony-10](https:\u002F\u002Fgithub.com\u002Fgluttony-10) for his work on the [inference of quantization](https:\u002F\u002Fgithub.com\u002FByteDance-Seed\u002FBagel\u002Fpull\u002F88).\n- **May 29, 2025:** Special thanks to [@jnc-nj](https:\u002F\u002Fgithub.com\u002Fjnc-nj) for contributing the [Dockerfile](https:\u002F\u002Fgithub.com\u002FByteDance-Seed\u002FBagel\u002Fissues\u002F75).\n- **May 26, 2025:** Thanks to [@neverbiasu](https:\u002F\u002Fgithub.com\u002Fneverbiasu) for contributing [ComfyUI](https:\u002F\u002Fgithub.com\u002Fneverbiasu\u002FComfyUI-BAGEL).\n- **May 25, 2025:** Special thanks to [@LeanModels](https:\u002F\u002Fgithub.com\u002FLeanModels) for providing the [DF11-compressed version](https:\u002F\u002Fhuggingface.co\u002FDFloat11\u002FBAGEL-7B-MoT-DF11), and to [@Gapeleon](https:\u002F\u002Fhuggingface.co\u002FGapeleon) for the [INT8-compressed version](https:\u002F\u002Fhuggingface.co\u002FGapeleon\u002Fbytedance_BAGEL-7B-MoT-INT8). We also appreciate [@gluttony-10](https:\u002F\u002Fgithub.com\u002Fgluttony-10) for contributions to the [Windows package](https:\u002F\u002Fgithub.com\u002FByteDance-Seed\u002FBagel\u002Fissues\u002F51).\n- **May 24, 2025:** Together with [@wangwei1237](https:\u002F\u002Fgithub.com\u002Fwangwei1237), [@gluttony-10](https:\u002F\u002Fgithub.com\u002Fgluttony-10), and [@KingNish24](https:\u002F\u002Fgithub.com\u002FKingNish24), we built a Gradio [app](app.py) and launched a [Hugging Face Space](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FByteDance-Seed\u002FBAGEL).\n- **May 23, 2025:** We have provided a training guideline in [TRAIN](.\u002FTRAIN.md).\n- **May 20, 2025:** We released the official [website](https:\u002F\u002Fbagel-ai.org\u002F), [demo](https:\u002F\u002Fdemo.bagel-ai.org\u002F), [model](https:\u002F\u002Fhuggingface.co\u002FByteDance-Seed\u002FBAGEL-7B-MoT), and [report](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.14683) for BAGEL.\n\n\n## 📮 Notice\n**Call for Bad Cases:** If you have encountered any cases where the model performs poorly, we would greatly appreciate it if you could share them in the [issue#11](https:\u002F\u002Fgithub.com\u002FByteDance-Seed\u002FBagel\u002Fissues\u002F11) or [Discord](https:\u002F\u002Fdiscord.gg\u002FZ836xxzy).\n\n**About Inference Hyperparameters:**\n- **`cfg_text_scale`:** Controls how strongly the model follows the text prompt. `1.0` disables text guidance. Typical range: `4.0–8.0`.\n- **`cfg_image_scale`:** Controls how much the model preserves input image details. `1.0` disables image guidance. Typical range: `1.0–2.0`.\n- **`cfg_interval`:** Fraction of denoising steps where CFG is applied. Later steps can skip CFG to reduce computation. Typical: `[0.4, 1.0]`.\n- **`timestep_shift`:** Shifts the distribution of denoising steps. Higher values allocate more steps at the start (affects layout); lower values allocate more at the end (improves details).\n- **`num_timesteps`:** Total denoising steps. Typical: `50`.\n- **`cfg_renorm_min`:** Minimum value for CFG-Renorm. `1.0` disables renorm. Typical: `0`.\n- **`cfg_renorm_type`:** CFG-Renorm method:  \n  - `global`: Normalize over all tokens and channels (default for T2I).\n  - `channel`: Normalize across channels for each token.\n  - `text_channel`: Like `channel`, but only applies to text condition (good for editing, may cause blur).\n- **If edited images appear blurry, try `global` CFG-Renorm, decrease `cfg_renorm_min` or decrease `cfg_scale`.**\n\n\n## 🔥 Quick Start\n\n1️⃣  Set up environment\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fbytedance-seed\u002FBAGEL.git\ncd BAGEL\nconda create -n bagel python=3.10 -y\nconda activate bagel\npip install -r requirements.txt\npip install flash_attn==2.5.8 --no-build-isolation\n```\n\n2️⃣  Download pretrained checkpoint\n```python\nfrom huggingface_hub import snapshot_download\n\nsave_dir = \"models\u002FBAGEL-7B-MoT\"\nrepo_id = \"ByteDance-Seed\u002FBAGEL-7B-MoT\"\ncache_dir = save_dir + \"\u002Fcache\"\n\nsnapshot_download(cache_dir=cache_dir,\n  local_dir=save_dir,\n  repo_id=repo_id,\n  local_dir_use_symlinks=False,\n  resume_download=True,\n  allow_patterns=[\"*.json\", \"*.safetensors\", \"*.bin\", \"*.py\", \"*.md\", \"*.txt\"],\n)\n\n```\n\n3️⃣ Use Gradio WebUI to start playing with BAGEL!\n```bash\n# For 32GB+ VRAM GPU or multi GPUs.\npython app.py\n```\n\n```bash\n# For 12~32GB VRAM GPU, recommend using NF4 quantization. And use Chinese interface.\npython app.py --mode 2 --zh\n```\n\n```bash\n# For 22~32GB VRAM GPU, not recommended to use INT8 quantization.\npython app.py  --mode 3\n```\n\n## 🔥 Train & Eval\n\n### Train\n\n```bash\nbash scripts\u002Ftrain.sh\n```\n\nYou can replace the variables in the script with your own before running. \nSee [TRAIN](TRAIN.md) for more details.\n\n### Eval\nWe provide the scripts for evaluating VLM, T2I and Editing benchmarks. \nPlease See [EVAL](EVAL.md) for more details.\n\n\n## 📊 Benchmarks\n\n### 1. Visual Understanding\n\n| Model | MME | MMBench |   MMMU | MM-Vet | MathVista |\n| ------------------- | ----------: | ----------: | -------: | -------: | ----------: |\n| Janus-Pro-7B        | -  |     79.2 |     41.0 |     50.0 |           – |\n| Qwen2.5-VL-7B      | 2347    |   83.5 | **58.6** |     67.1 |           68.2 |\n| **BAGEL**    | **2388**  |  **85.0** |     55.3 | **67.2** |    **73.1** |\n\n### 2. Text-to-Image Generation\n\n| Model        | GenEval | WISE |\n| ------------ | --------- | --------- |\n| Janus-Pro-7B | 0.80      | 0.35 | \n| SD3-Medium   | 0.74      | - |\n| FLUX-1-dev   | 0.82      | 0.50 |\n| **BAGEL**    | 0.82  | 0.52  |\n| **BAGEL + Rewritter\u002FCoT**    | **0.88**  | **0.70** |\n\n### 3. Image Editing\n\n| Model         | GEdit-Bench-EN (SC) | GEdit-Bench-EN (PQ) | GEdit-Bench-EN (O) | IntelligentBench | KISE-Bench | RISEBench |\n| ------------- | ---------------------: | ---------------------: | -------------------: | ------------------: | ------------: | ------------: | \n| Step1X-Edit   | 🥉7.09                | 🥉6.76                | 🥈6.70            | 14.9               |  43.29   |  1.9  |\n| Gemini 2.0    | 6.73                  | 6.61                  | 6.32                | 🥈57.6             | 🥈62.41   |  🥈13.3  |\n| GPT-4o        | 🥇7.85              | 🥇7.62              | 🥇7.53            | 🥇78.9           | 🥇80.09   |  🥇28.9  |\n| **BAGEL**     | 🥈7.36                | 🥈6.83                | 🥉6.52                | 44.0               |  56.21   |  6.1 |\n| **BAGEL+CoT** | –                     | –                     | –                   | 🥉55.3             |  🥉60.18   |  🥉11.9 |\n\n\n\n\n## ✍️ Citation\n\n```bibtex\n@article{deng2025bagel,\n  title   = {Emerging Properties in Unified Multimodal Pretraining},\n  author  = {Deng, Chaorui and Zhu, Deyao and Li, Kunchang and Gou, Chenhui and Li, Feng and Wang, Zeyu and Zhong, Shu and Yu, Weihao and Nie, Xiaonan and Song, Ziang and Shi, Guang and Fan, Haoqi},\n  journal = {arXiv preprint arXiv:2505.14683},\n  year    = {2025}\n}\n```\n\n\n## 📜 License\nBAGEL is licensed under the Apache 2.0.\n","\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FByteDance-Seed_Bagel_readme_ea99c1a82555.png\" alt=\"BAGEL\" width=\"480\"\u002F>\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fbagel-ai.org\u002F\">\n    \u003Cimg\n      src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FBAGEL-Website-0A66C2?logo=safari&logoColor=white\"\n      alt=\"BAGEL Website\"\n    \u002F>\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.14683\">\n    \u003Cimg\n      src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FBAGEL-Paper-red?logo=arxiv&logoColor=red\"\n      alt=\"BAGEL 论文在 arXiv 上\"\n    \u002F>\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FByteDance-Seed\u002FBAGEL-7B-MoT\">\n    \u003Cimg \n        src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FBAGEL-Model-yellow?logo=huggingface&logoColor=yellow\" \n        alt=\"BAGEL 模型\"\n    \u002F>\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fdemo.bagel-ai.org\u002F\">\n    \u003Cimg\n      src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FBAGEL-Demo-blue?logo=googleplay&logoColor=blue\"\n      alt=\"BAGEL 演示\"\n    \u002F>\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FByteDance-Seed\u002FBAGEL\">\n    \u003Cimg \n        src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FBAGEL-Space-orange?logo=huggingface&logoColor=yellow\" \n        alt=\"BAGEL 空间\"\n    \u002F>\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FeXQNFhWe\">\n    \u003Cimg\n      src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FBAGEL-Discord-5865F2?logo=discord&logoColor=purple\"\n      alt=\"BAGEL Discord\"\n    \u002F>\n  \u003C\u002Fa>\n  \u003Ca href=\"mailto:bagel@bytedance.com\">\n    \u003Cimg\n      src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FBAGEL-Email-D14836?logo=gmail&logoColor=red\"\n      alt=\"BAGEL 邮箱\"\n    \u002F>\n  \u003C\u002Fa>\n\u003C\u002Fp>\n\n# 多模态理解与生成的统一模型\n> [Chaorui Deng*](https:\u002F\u002Fscholar.google.com\u002Fcitations?hl=en&user=k0TWfBoAAAAJ), [Deyao Zhu*](https:\u002F\u002Ftsutikgiau.github.io\u002F), [Kunchang Li*](https:\u002F\u002Fandy1621.github.io\u002F), [Chenhui Gou*](https:\u002F\u002Fwww.linkedin.com\u002Fin\u002Fchenhui-gou-9201081a1\u002F?originalSubdomain=au), [Feng Li*](https:\u002F\u002Ffengli-ust.github.io\u002F), [Zeyu Wang](https:\u002F\u002Fzw615.github.io\u002F), Shu Zhong, [Weihao Yu](https:\u002F\u002Fwhyu.me\u002F), [Xiaonan Nie](https:\u002F\u002Fcodecaution.github.io\u002F), [Ziang Song](https:\u002F\u002Fwww.linkedin.com\u002Fin\u002Fziang-song-43b0ab8a\u002F), Guang Shi :email: , [Haoqi Fan* :tophat: ](https:\u002F\u002Fhaoqifan.github.io\u002F)\n>\n> 联系方式：shiguang.sg@bytedance.com\n> \n> 我们提出了 **BAGEL**，一个拥有 70 亿活跃参数（总参数量 140 亿）的开源多模态基础模型，该模型基于大规模交错的多模态数据进行训练。BAGEL 在标准多模态理解排行榜上超越了当前顶尖的开源 VLM，如 Qwen2.5-VL 和 InternVL-2.5，并且其文本到图像生成质量可与 SD3 等强大的专用生成模型相媲美。此外，BAGEL 在经典的图像编辑场景中表现出优于主流开源模型的定性效果。更重要的是，它还扩展到了自由形式的视觉操控、多视角合成以及世界导航等能力，这些能力属于“世界建模”任务范畴，超出了以往图像编辑模型的范围。\n下图展示了 BAGEL 的定性性能。\n\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FByteDance-Seed_Bagel_readme_f7be028129e1.webp\" width=\"95%\">\u003C\u002Fp>\n\n\n\u003C!-- ## 🧠 方法\nBAGEL 采用混合专家 Transformer 架构（MoT），以最大化模型从丰富多样的多模态信息中学习的能力。遵循同样的容量最大化原则，它使用两个独立的编码器来分别捕捉图像的像素级和语义级特征。整体框架遵循“下一组标记预测”的范式，即模型被训练为将下一组语言或视觉标记作为压缩目标进行预测。\n\nBAGEL 通过预训练、持续训练以及在涵盖语言、图像、视频和网络数据的数万亿个交错多模态标记上的监督微调，进一步提升了 MoT 的能力。它在标准的理解和生成基准测试中超越了现有开源模型，并展现出先进的上下文多模态能力，例如自由形式的图像编辑、未来帧预测、3D 操控、世界导航以及序列推理。\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FByteDance-Seed_Bagel_readme_6b265f2fccc0.png\" width=\"95%\">\u003C\u002Fp>\n\n\n## 🌱 新兴特性\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FByteDance-Seed_Bagel_readme_e71121a177d2.png\" width=\"95%\">\u003C\u002Fp>\n\n随着我们用更多多模态标记对 BAGEL 进行更大规模的预训练，我们在理解、生成和编辑任务中都观察到了一致的性能提升。不同的能力会在不同的训练阶段逐渐显现——多模态理解和生成较早出现，随后是基础编辑，而复杂、智能的编辑则在后期才出现。这种阶段性的发展趋势表明了一种涌现模式：高级多模态推理建立在扎实的基础技能之上。消融实验进一步表明，结合 VAE 和 ViT 特征可以显著提升智能编辑能力，这凸显了视觉—语义上下文在实现复杂多模态推理中的重要性，并进一步支持其在高级能力涌现中的作用。 -->\n\n## 📢 新闻\n\n我们衷心感谢开源社区的所有贡献者提供的宝贵支持。\n\n- **2025年6月15日：** 我们更新并修复了 [KRIS-Bench](https:\u002F\u002Fgithub.com\u002Fmercurystraw\u002FKris_Bench) 和 [RISEBench](https:\u002F\u002Fgithub.com\u002FPhoenixZ810\u002FRISEBench) 的评估结果。**我们的模型 BAGEL 在这些推理基准测试中表现出与 Gemini 2.0 相当的性能。** 我们还发布了 KRIS-Bench、RISEBench 以及 [ImgEdit-Bench](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FImgEdit) 的评估代码。更多详情请参阅 [EVAL](.\u002FEVAL.md)。\n- **2025年6月5日：** 感谢 [@davideuler](https:\u002F\u002Fgithub.com\u002Fdavideuler) 贡献了包含预构建 flash_attn 的 [Dockerfile](https:\u002F\u002Fgithub.com\u002FByteDance-Seed\u002FBagel\u002Fissues\u002F125)。\n- **2025年5月30日：** 非常感谢 [@prartio](https:\u002F\u002Fgithub.com\u002Fprartio) 贡献了 [Windows 11 安装指南](https:\u002F\u002Fgithub.com\u002FByteDance-Seed\u002FBagel\u002Fissues\u002F92)，以及 [@gluttony-10](https:\u002F\u002Fgithub.com\u002Fgluttony-10) 在 [量化推理](https:\u002F\u002Fgithub.com\u002FByteDance-Seed\u002FBagel\u002Fpull\u002F88) 方面的工作。\n- **2025年5月29日：** 特别感谢 [@jnc-nj](https:\u002F\u002Fgithub.com\u002Fjnc-nj) 贡献了 [Dockerfile](https:\u002F\u002Fgithub.com\u002FByteDance-Seed\u002FBagel\u002Fissues\u002F75)。\n- **2025年5月26日：** 感谢 [@neverbiasu](https:\u002F\u002Fgithub.com\u002Fneverbiasu) 贡献了 [ComfyUI](https:\u002F\u002Fgithub.com\u002Fneverbiasu\u002FComfyUI-BAGEL)。\n- **2025年5月25日：** 特别感谢 [@LeanModels](https:\u002F\u002Fgithub.com\u002FLeanModels) 提供了 [DF11 压缩版本](https:\u002F\u002Fhuggingface.co\u002FDFloat11\u002FBAGEL-7B-MoT-DF11)，以及 [@Gapeleon](https:\u002F\u002Fhuggingface.co\u002FGapeleon) 提供的 [INT8 压缩版本](https:\u002F\u002Fhuggingface.co\u002FGapeleon\u002Fbytedance_BAGEL-7B-MoT-INT8)。我们也感谢 [@gluttony-10](https:\u002F\u002Fgithub.com\u002Fgluttony-10) 对 [Windows 安装包](https:\u002F\u002Fgithub.com\u002FByteDance-Seed\u002FBagel\u002Fissues\u002F51) 的贡献。\n- **2025年5月24日：** 我们与 [@wangwei1237](https:\u002F\u002Fgithub.com\u002Fwangwei1237)、[@gluttony-10](https:\u002F\u002Fgithub.com\u002Fgluttony-10) 和 [@KingNish24](https:\u002F\u002Fgithub.com\u002FKingNish24) 一起构建了一个 Gradio [应用](app.py)，并在 Hugging Face Space 上发布了 [BAGEL](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FByteDance-Seed\u002FBAGEL)。\n- **2025年5月23日：** 我们在 [TRAIN](.\u002FTRAIN.md) 中提供了训练指南。\n- **2025年5月20日：** 我们正式发布了 BAGEL 的 [官网](https:\u002F\u002Fbagel-ai.org\u002F)、[演示](https:\u002F\u002Fdemo.bagel-ai.org\u002F)、[模型](https:\u002F\u002Fhuggingface.co\u002FByteDance-Seed\u002FBAGEL-7B-MoT) 和 [报告](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.14683)。\n\n\n## 📮 公告\n**征集不良案例：** 如果您遇到模型表现不佳的情况，欢迎您在 [issue#11](https:\u002F\u002Fgithub.com\u002FByteDance-Seed\u002FBagel\u002Fissues\u002F11) 或 [Discord](https:\u002F\u002Fdiscord.gg\u002FZ836xxzy) 中分享。\n\n**关于推理超参数：**\n- **`cfg_text_scale`：** 控制模型对文本提示的遵循程度。`1.0` 表示禁用文本引导。典型范围为 `4.0–8.0`。\n- **`cfg_image_scale`：** 控制模型保留输入图像细节的程度。`1.0` 表示禁用图像引导。典型范围为 `1.0–2.0`。\n- **`cfg_interval`：** 应用 CFG 的去噪步骤比例。后期步骤可以跳过 CFG 以减少计算量。典型值为 `[0.4, 1.0]`。\n- **`timestep_shift`：** 调整去噪步骤的分布。较高值会将更多步骤分配到开始阶段（影响布局）；较低值则将更多步骤分配到结束阶段（提升细节）。\n- **`num_timesteps`：** 总共的去噪步骤数。典型值为 `50`。\n- **`cfg_renorm_min`：** CFG-Renorm 的最小值。`1.0` 表示禁用 renorm。典型值为 `0`。\n- **`cfg_renorm_type`：** CFG-Renorm 方法：\n  - `global`：对所有 token 和通道进行归一化（T2I 的默认设置）。\n  - `channel`：对每个 token 的通道进行归一化。\n  - `text_channel`：类似于 `channel`，但仅应用于文本条件（适合编辑，可能导致模糊）。\n- **如果编辑后的图像显得模糊，请尝试使用 `global` CFG-Renorm，降低 `cfg_renorm_min` 或减小 `cfg_scale`。**\n\n\n## 🔥 快速入门\n\n1️⃣  环境搭建\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fbytedance-seed\u002FBAGEL.git\ncd BAGEL\nconda create -n bagel python=3.10 -y\nconda activate bagel\npip install -r requirements.txt\npip install flash_attn==2.5.8 --no-build-isolation\n```\n\n2️⃣  下载预训练检查点\n```python\nfrom huggingface_hub import snapshot_download\n\nsave_dir = \"models\u002FBAGEL-7B-MoT\"\nrepo_id = \"ByteDance-Seed\u002FBAGEL-7B-MoT\"\ncache_dir = save_dir + \"\u002Fcache\"\n\nsnapshot_download(cache_dir=cache_dir,\n  local_dir=save_dir,\n  repo_id=repo_id,\n  local_dir_use_symlinks=False,\n  resume_download=True,\n  allow_patterns=[\"*.json\", \"*.safetensors\", \"*.bin\", \"*.py\", \"*.md\", \"*.txt\"],\n)\n```\n\n3️⃣  使用 Gradio WebUI 开始体验 BAGEL！\n```bash\n# 适用于 32GB 及以上显存的 GPU 或多 GPU。\npython app.py\n```\n\n```bash\n# 适用于 12~32GB 显存的 GPU，建议使用 NF4 量化，并使用中文界面。\npython app.py --mode 2 --zh\n```\n\n```bash\n# 适用于 22~32GB 显存的 GPU，不推荐使用 INT8 量化。\npython app.py  --mode 3\n```\n\n## 🔥 训练与评估\n\n### 训练\n\n```bash\nbash scripts\u002Ftrain.sh\n```\n\n您可以在运行前根据自己的需求替换脚本中的变量。更多详情请参阅 [TRAIN](TRAIN.md)。\n\n### 评估\n我们提供了用于评估 VLM、T2I 和编辑基准测试的脚本。更多详情请参阅 [EVAL](EVAL.md)。\n\n\n## 📊 基准测试\n\n### 1. 视觉理解\n\n| 模型 | MME | MMBench |   MMMU | MM-Vet | MathVista |\n| ------------------- | ----------: | ----------: | -------: | -------: | ----------: |\n| Janus-Pro-7B        | -  |     79.2 |     41.0 |     50.0 |           – |\n| Qwen2.5-VL-7B      | 2347    |   83.5 | **58.6** |     67.1 |           68.2 |\n| **BAGEL**    | **2388**  |  **85.0** |     55.3 | **67.2** |    **73.1** |\n\n### 2. 文本到图像生成\n\n| 模型        | GenEval | WISE |\n| ------------ | --------- | --------- |\n| Janus-Pro-7B | 0.80      | 0.35 | \n| SD3-Medium   | 0.74      | - |\n| FLUX-1-dev   | 0.82      | 0.50 |\n| **BAGEL**    | 0.82  | 0.52  |\n| **BAGEL + Rewritter\u002FCoT**    | **0.88**  | **0.70** |\n\n### 3. 图像编辑\n\n| 模型         | GEdit-Bench-EN (SC) | GEdit-Bench-EN (PQ) | GEdit-Bench-EN (O) | IntelligentBench | KISE-Bench | RISEBench |\n| ------------- | ---------------------: | ---------------------: | -------------------: | ------------------: | ------------: | ------------: | \n| Step1X-Edit   | 🥉7.09                | 🥉6.76                | 🥈6.70            | 14.9               |  43.29   |  1.9  |\n| Gemini 2.0    | 6.73                  | 6.61                  | 6.32                | 🥈57.6             | 🥈62.41   |  🥈13.3  |\n| GPT-4o        | 🥇7.85              | 🥇7.62              | 🥇7.53            | 🥇78.9           | 🥇80.09   |  🥇28.9  |\n| **BAGEL**     | 🥈7.36                | 🥈6.83                | 🥉6.52                | 44.0               |  56.21   |  6.1 |\n| **BAGEL+CoT** | –                     | –                     | –                   | 🥉55.3             |  🥉60.18   |  🥉11.9 |\n\n## ✍️ 引用\n\n```bibtex\n@article{deng2025bagel,\n  title   = {统一多模态预训练中的涌现特性},\n  author  = {邓超睿、朱德尧、李坤昌、苟晨辉、李峰、王泽宇、钟舒、于伟浩、聂晓楠、宋子昂、史广、范浩奇},\n  journal = {arXiv 预印本 arXiv:2505.14683},\n  year    = {2025}\n}\n```\n\n\n## 📜 许可证\nBAGEL 采用 Apache 2.0 许可证。","# Bagel 快速上手指南\n\nBagel 是由字节跳动开源的统一多模态基础模型（7B 激活参数，总计 14B），具备强大的多模态理解、文生图及图像编辑能力。本指南将帮助开发者快速在本地部署并体验 Bagel。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐) 或 Windows 11 (需参考社区贡献的安装指南)\n*   **Python 版本**: 3.10\n*   **GPU 显存要求**:\n    *   **完整体验 (32GB+)**: 支持多卡或单卡 32GB 以上显存，可运行全精度模式。\n    *   **量化体验 (12GB - 32GB)**: 推荐使用 NF4 量化模式 (`--mode 2`) 以在较低显存下运行。\n    *   **注意**: 22-32GB 显存用户不建议使用 INT8 量化模式。\n*   **依赖项**: `git`, `conda`, `pip`\n\n## 安装步骤\n\n### 1. 克隆代码库并配置环境\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fbytedance-seed\u002FBAGEL.git\ncd BAGEL\n\n# 创建并激活 conda 环境\nconda create -n bagel python=3.10 -y\nconda activate bagel\n\n# 安装基础依赖\npip install -r requirements.txt\n\n# 安装 flash_attn (关键依赖，需指定版本)\npip install flash_attn==2.5.8 --no-build-isolation\n```\n\n> **提示**: 如果国内网络下载依赖较慢，建议在 `pip install` 命令后添加 `-i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple` 使用清华镜像源。\n\n### 2. 下载预训练模型权重\n\n使用提供的 Python 脚本从 Hugging Face 下载模型权重。\n\n```python\nfrom huggingface_hub import snapshot_download\n\nsave_dir = \"models\u002FBAGEL-7B-MoT\"\nrepo_id = \"ByteDance-Seed\u002FBAGEL-7B-MoT\"\ncache_dir = save_dir + \"\u002Fcache\"\n\nsnapshot_download(cache_dir=cache_dir,\n  local_dir=save_dir,\n  repo_id=repo_id,\n  local_dir_use_symlinks=False,\n  resume_download=True,\n  allow_patterns=[\"*.json\", \"*.safetensors\", \"*.bin\", \"*.py\", \"*.md\", \"*.txt\"],\n)\n```\n\n> **注意**: 如果无法直接访问 Hugging Face，请确保已配置代理或使用国内镜像加速工具。\n\n## 基本使用\n\n安装完成后，可以通过启动 Gradio WebUI 来交互式体验 Bagel 的多模态理解、生成和编辑功能。请根据您的显卡显存大小选择合适的启动命令。\n\n### 场景 A：高性能模式 (32GB+ 显存或多卡)\n适用于拥有大显存 GPU 的用户，运行全精度模型。\n\n```bash\npython app.py\n```\n\n### 场景 B：量化兼容模式 (12GB ~ 32GB 显存)\n**推荐方案**。使用 NF4 量化技术降低显存占用，同时开启中文界面。\n\n```bash\npython app.py --mode 2 --zh\n```\n\n### 场景 C：特定量化模式 (22GB ~ 32GB 显存)\n仅建议在特定显存区间尝试，不推荐常规使用 INT8 量化。\n\n```bash\npython app.py --mode 3\n```\n\n启动成功后，终端将显示本地访问地址（通常为 `http:\u002F\u002F127.0.0.1:7860`），在浏览器中打开即可开始使用。\n\n### 进阶参数调整 (可选)\n如果在图像编辑过程中发现结果模糊，可在代码或调用时调整以下推理超参数：\n*   尝试将 `cfg_renorm_type` 设置为 `global`。\n*   减小 `cfg_renorm_min` 或 `cfg_scale` 的值。\n*   `cfg_text_scale`: 控制文本遵循程度 (推荐范围 4.0–8.0)。\n*   `cfg_image_scale`: 控制原图细节保留程度 (推荐范围 1.0–2.0)。","某电商平台的运营团队需要快速为新款运动鞋生成多角度的营销素材，并根据用户反馈实时调整图片细节。\n\n### 没有 Bagel 时\n- **工具链割裂**：团队需分别使用专用模型进行图像理解（分析卖点）、文生图（生成底图）和图像编辑（修改细节），数据在不同工具间流转耗时且易丢失上下文。\n- **编辑自由度低**：传统编辑模型仅支持固定指令（如“换背景”），无法处理“让鞋子看起来像是在雨中奔跑”这类复杂的自由形式视觉操控需求。\n- **多视角合成难**：若要展示鞋子的侧面或 3D 效果，必须重新拍摄或依赖昂贵的 3D 建模师，无法通过单一模型直接推理生成多视图。\n- **一致性难以保证**：由于理解与生成由不同模型负责，生成的图片往往偏离原始产品的语义特征，导致反复人工修图。\n\n### 使用 Bagel 后\n- **统一工作流**：Bagel 作为统一的七亿参数多模态模型，单次调用即可同时完成产品图分析、新场景生成及细节精修，大幅缩短素材生产周期。\n- **自由形式操控**：利用其强大的世界建模能力，运营人员可直接输入自然语言指令，实现“雨中奔跑”等复杂场景的自由编辑，无需预设模板。\n- **原生多视图生成**：基于对三维空间的理解，Bagel 能直接从单张参考图推导出鞋子的侧面、背面等多视角图像，无需额外建模成本。\n- **语义高度一致**：得益于混合 Transformer 专家架构（MoT）对像素级与语义级特征的双重捕捉，生成内容在保持创意变化的同时，精准锁定产品核心特征。\n\nBagel 通过打破理解与生成的界限，将原本繁琐的多工具协作转化为流畅的单模型交互，彻底重构了多模态内容的生产效率。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FByteDance-Seed_Bagel_ea99c1a8.png","ByteDance-Seed","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FByteDance-Seed_8c020fee.png","",null,"seed.feedback@bytedance.com","https:\u002F\u002Fseed.bytedance.com\u002F","https:\u002F\u002Fgithub.com\u002FByteDance-Seed",[83,87,91],{"name":84,"color":85,"percentage":86},"Python","#3572A5",97.2,{"name":88,"color":89,"percentage":90},"Jupyter Notebook","#DA5B0B",1.5,{"name":92,"color":93,"percentage":94},"Shell","#89e051",1.3,5790,512,"2026-04-05T22:29:11","Apache-2.0","Linux, Windows","必需 NVIDIA GPU。推荐显存：32GB+ (全精度); 12-32GB (需开启 NF4 量化); 22-32GB (可尝试 INT8 量化但不推荐)。需支持 flash_attn==2.5.8。","未说明",{"notes":103,"python":104,"dependencies":105},"官方提供了 Windows 11 安装指南和预构建 flash_attn 的 Dockerfile。对于显存较小的显卡（12-32GB），启动 Gradio 界面时建议使用 '--mode 2' 参数开启 NF4 量化。模型文件需从 Hugging Face 下载。","3.10",[106,107],"flash_attn==2.5.8","requirements.txt 中列出的依赖",[26,14,43,62],"2026-03-27T02:49:30.150509","2026-04-06T14:04:02.446991",[112,117,122,127,132,137],{"id":113,"question_zh":114,"answer_zh":115,"source_url":116},19265,"训练 Edit 任务时 Loss 异常低且模型输出几乎为原图，如何解决？","这通常是因为 EMA（指数移动平均）设置过大导致的。建议关闭 EMA 后再尝试训练。可以通过在启动命令中添加 `--ema 0` 参数来关闭，如果该参数无效，可能需要直接修改代码以禁用 EMA。关闭 EMA 后通常可以正常生成 Mask 或编辑结果。","https:\u002F\u002Fgithub.com\u002FByteDance-Seed\u002FBagel\u002Fissues\u002F140",{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},19266,"微调步数较少时，生成的 ema.safetensors 权重文件效果不佳怎么办？","当训练步数较少且 EMA decay 较大时，EMA 权重可能尚未收敛，导致效果等同于未微调。建议在这种情况下不要测试 `ema.safetensors`，而是直接使用 `model.safetensors` 进行推理和评估。","https:\u002F\u002Fgithub.com\u002FByteDance-Seed\u002FBagel\u002Fissues\u002F218",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},19267,"仅训练 T2I（文生图）部分时，为什么检查点文件只有 3.7G 且 CE Loss 始终为 0？","这是预期行为。当设置 `visual_und=False` 时，模型仅训练图像生成部分，不计算语言模型的交叉熵损失（CE Loss），因此 Train Loss ce 会显示为 0.0000。生成的 3.7G 模型文件是有效的，可以用于推理。","https:\u002F\u002Fgithub.com\u002FByteDance-Seed\u002FBagel\u002Fissues\u002F110",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},19268,"使用 BAGEL 模型生成图片出现模糊问题该如何解决？","生成图片模糊通常是由于参数设置不当引起的。建议仔细阅读项目 README 中的指南（guideline），大部分用户在参考官方推荐的参数配置后解决了模糊问题。请确保采样步数、引导尺度等关键参数符合官方建议。","https:\u002F\u002Fgithub.com\u002FByteDance-Seed\u002FBagel\u002Fissues\u002F63",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},19269,"加载检查点时报错提示 missing_keys 和 unexpected_keys（如 MoT 相关权重不匹配），如何处理？","此类错误通常是因为加载的预训练权重架构与当前代码中定义的模型架构（如 `Qwen2MoTDecoderLayer`）不一致。请确认 `--model_path` 指向的权重文件版本是否与代码分支匹配，或者检查是否需要转换权重格式以适配当前的 MoT（Mixture of Transformers）结构。","https:\u002F\u002Fgithub.com\u002FByteDance-Seed\u002FBagel\u002Fissues\u002F43",{"id":138,"question_zh":139,"answer_zh":140,"source_url":116},19270,"如何在训练脚本中正确配置多卡分布式训练及断点续训？","使用 `torchrun` 启动训练，指定 `--nproc_per_node` 为显卡数量。若需断点续训，请设置 `--auto_resume True` 和 `--resume-model-only True`，并通过 `--resume-from` 指定模型路径。对于微调，还需设置 `--finetune_from_hf True` 和 `--finetune-from-ema True`（视情况而定）。示例命令包含 `CUDA_VISIBLE_DEVICES` 设置及具体的 yaml 配置文件路径。",[]]