[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tool-FireRedTeam--FireRed-Image-Edit":3,"similar-FireRedTeam--FireRed-Image-Edit":59},{"id":4,"github_repo":5,"name":6,"description_en":7,"description_zh":8,"ai_summary_zh":8,"readme_en":9,"readme_zh":10,"quickstart_zh":11,"use_case_zh":12,"hero_image_url":13,"owner_login":14,"owner_name":14,"owner_avatar_url":15,"owner_bio":16,"owner_company":17,"owner_location":17,"owner_email":17,"owner_twitter":17,"owner_website":17,"owner_url":18,"languages":19,"stars":28,"forks":29,"last_commit_at":30,"license":31,"difficulty_score":32,"env_os":33,"env_gpu":34,"env_ram":33,"env_deps":35,"category_tags":43,"github_topics":46,"view_count":53,"oss_zip_url":17,"oss_zip_packed_at":17,"status":54,"created_at":55,"updated_at":56,"faqs":57,"releases":58},9146,"FireRedTeam\u002FFireRed-Image-Edit","FireRed-Image-Edit","FireRed-Image-Edit is a powerful image editing foundation model achieving open-source state-of-the-art performance with precise instruction following, high-fidelity generation, superior identity consistency, and seamless multi-element fusion.","FireRed-Image-Edit 是一款强大的开源图像编辑基础模型，旨在通过简单的文字指令实现高质量、高精度的图片修改。它主要解决了传统 AI 绘图工具在编辑过程中常见的痛点：难以精准理解复杂指令、修改后画质下降、人物面部特征不一致（“换脸”感强），以及多个元素融合时显得生硬不自然的问题。\n\n无论是需要批量处理素材的设计师、探索多模态技术的研究人员，还是希望轻松修图的开发者，都能从中受益。普通用户也可通过其在线演示版，无需编写代码即可体验专业级的编辑效果。\n\n该模型的技术亮点在于其卓越的“指令遵循”能力与“身份一致性”保持。最新版本 FireRed-Image-Edit-1.1 特别优化了人像编辑场景，不仅能完美保留人物原本的面部特征，还能自然地进行妆容调整、风格化文字参考及多元素无缝融合。作为目前开源领域表现领先的模型之一，它提供了从 1.0 到 1.1 的多个版本及丰富的 LoRA 扩展资源，支持在 Hugging Face 和 ModelScope 等平台免费获取与部署，为社区提供了透明、高效且可信赖的图像编辑解决方案。","\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFireRedTeam_FireRed-Image-Edit_readme_dc530ad440cc.png\" width=\"400\"\u002F>\n\u003Cp> \n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\" target=\"_blank\">\u003Cimg alt=\"Hugging Face\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-FireRedTeam-ffc107?color=ffc107&logoColor=white\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\" target=\"_blank\">\u003Cimg alt=\"Hugging Face Model\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-FireRed--Image--Edit--1.1-red\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0\" target=\"_blank\">\u003Cimg alt=\"Hugging Face Model\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-FireRed--Image--Edit--1.0-red\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-LoRA-Zoo\" target=\"_blank\">\u003Cimg alt=\"Hugging Face Model\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-FireRed--Image--Edit--LoRA--Zoo-red\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\" target=\"_blank\">\u003Cimg alt=\"HF Demo\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HF%20Demo-FireRed--Image--Edit--1.1-red\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FFireRedTeam\u002FREDEdit-Bench\" target=\"_blank\">\u003Cimg alt=\"Hugging Face Dataset\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-REDEdit--Bench-ffc107?color=ffc107&logoColor=white\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Faigc\u002FmodelTraining\" target=\"_blank\">\u003Cimg alt=\"ModelScope Model\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%96%20ModelScope-FireRed--Image--Edit--1.1--Lora--Training-624aff\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\" target=\"_blank\">\u003Cimg alt=\"ModelScope Model\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%96%20ModelScope-FireRed--Image--Edit--1.1-624aff\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0\" target=\"_blank\">\u003Cimg alt=\"ModelScope Model\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%96%20ModelScope-FireRed--Image--Edit--1.0-624aff\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\" target=\"_blank\">\u003Cimg alt=\"MS Demo\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%96%20MS%20Demo-FireRed--Image--Edit--1.1-624aff\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href='https:\u002F\u002Fgithub.com\u002FFireRedTeam\u002FFireRed-Image-Edit'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FGitHub-Code-black'>\u003C\u002Fa>\n  \u003Ca href='https:\u002F\u002Fwww.apache.org\u002Flicenses\u002FLICENSE-2.0'>\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-Apache%202.0-blue\" alt=\"License\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.13344\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FReport-b5212f.svg?logo=arxiv\">\u003C\u002Fa>\n\u003C\u002Fp> \n\n\u003Cp align=\"center\">\n    🤗 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\">HuggingFace\u003C\u002Fa> |\n    🤖 \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\">ModelScope\u003C\u002Fa> |\n    🖥️ \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\">Demo\u003C\u002Fa> |\n    📄 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.13344\">Technical Report\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFireRedTeam_FireRed-Image-Edit_readme_f128ce3659bb.png\" width=\"800\"\u002F>\n\u003Cp> \n\n\n## 🔥 FireRed-Image-Edit\n**FireRed-Image-Edit-1.1** Based on the FireRed-Image-Edit-1.0 foundation model, it optimizes portrait consistency, multi-element fusion, stylized text reference, and portrait makeup effects.\n\n**FireRed-Image-Edit-1.0** is a general-purpose image editing model that delivers high-fidelity and consistent editing across a wide range of scenarios. FireRed-Image-Edit delivers leading open-source results with accurate instruction following, high image quality, and consistent visual coherence.\n\n## ✨ Key Features\n#### Strong Editing Performance \n- 🆔 **State-of-the-Art Identity Consistency**: Open-source SOTA in character identity preservation, ensuring subjects remain recognizable across complex edits.\n- 🧩 **Multi-Element Fusion**: Freely combine 10+ elements with Agent-powered automatic cropping and stitching—no more struggles with short prompts.\n- 💄 **Comprehensive Portrait Makeup**: Dozens of styles from professional beauty retouching and yellow\u002Folive skin tone brightening to Halloween witch makeup and creative looks.\n- 📝 **Text Style Reference**: Maintains high-fidelity typography and stylized text comparable to closed-source solutions.\n- 🖼️ **Professional Photo Restoration**: High-quality old photo repair and enhancement with superior detail recovery.\n\n#### Ultimate Engineering Optimization\n- 🔧 **Open LoRA Training Ecosystem:** Full training code released for custom style creation, optimized samplers maximize GPU efficiency for identical tasks, sizes, and input counts.\n- ⚡ **Extreme Speed Optimization**: Complete acceleration suite featuring distillation, quantization, and static compilation—delivering 4.5s end-to-end generation with just 30GB VRAM\n- 🤖 **Intelligent Agent Workflow**: Automatic multi-image processing handles complex compositions like virtual try-on without requiring lengthy prompt engineering\n- 🔌 **Universal Deployment**: Native ComfyUI node support and GGUF lightweight format compatibility for seamless production integration\n- 🏋️  **Efficient Training Methodology**: Offline feature pre-extraction completely decouples VLM inference from training workflow, eliminating generation overhead for maximum convergence speed.\n\n#### Native Editing Capability from T2I Backbone \n- 🏗️ **Backbone-Agnostic Architecture**: Editing capabilities injected through full Pretrain → SFT → RL pipeline, transferable to any T2I foundation model.\n\n## 📰 News\n- 2026.03.25: [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Faigc\u002FmodelTraining) now supports LoRA training for FireRed-image-edit.\n- 2026.03.09: We have released **REDEdit-Bench**, a new image editing benchmark. REDEdit-Bench covers more diverse scenarios and editing instructions that better align with human language, providing a more comprehensive and realistic evaluation for image editing tasks.\n- 2026.03.03: We release FireRed-Image-Edit-1.1, which, based on the FireRed-Image-Edit-1.0 foundation model, optimizes portrait consistency, multi-element fusion, stylized text reference, and portrait makeup effects.\n- 2026.03.01: We offer a lightweight inference script (including distilled [Lora](https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0-ComfyUI\u002Fblob\u002Fmain\u002FFireRed-Image-Edit-1.0-Lightning-8steps-v1.0.safetensors), quantization, db_cache, and static compilation), now requiring only **30GB VRAM** and **~4.5s\u002Fsample**. 🚀 Try it by simply running `python inference.py --optimized True`.\n- 2026.02.28: We released the [Train](https:\u002F\u002Fgithub.com\u002FFireRedTeam\u002FFireRed-Image-Edit\u002Ftree\u002Fmain\u002Ftrain), supporting HSDP\u002FFSDP, Disaggregated Training, and Multi-Condition Aware Bucket Sampler.\n- 2026.02.27: We released the [ Agent](#-agent) module for instruction rewriting, multi-image preprocessing, supporting automatic ROI detection, image stitching for editing with more than 3 images.\n- 2026.02.27: We provided FireRed-Image-Edit-1.0-**ComfyUI** workflow. Check more details on [Huggingface](https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0-ComfyUI)\n- 2026.02.14: We released FireRed-Image-Edit-1.0 model weights. Check more details on [Huggingface](https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0) and [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0).\n- 2026.02.10: We released the [Technical Report](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.13344) of FireRed-Image-Edit-1.0. \n\n## 🏆 Evaluation Results\nFireRed-Image-Edit establishes a new state-of-the-art among open-source models on Imgedit, Gedit, and RedEdit, while surpassing our closed-source competitors in specific dimensions—a distinction further corroborated by human evaluations highlighting its superior prompt following and visual consistency. Detailed information can be found [here](docs\u002Fbenchmark.md).\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFireRedTeam_FireRed-Image-Edit_readme_1cc0a2a611d6.png\" width=\"800\"\u002F>\n\u003Cp>\n\n\n## 🎨 Showcase\nSome real outputs produced by FireRed-Image-Edit across general editing.\n\n### Portrait([More Cases](docs\u002Fportrait_en.md) | [更多结果](docs\u002Fportrait_cn.md))\n\u003Cp align=\"center\">\n    \u003Ca href=\".\u002Fassets\u002Fshowcase_portrait.png\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFireRedTeam_FireRed-Image-Edit_readme_877943b7646c.jpg\" width=\"800\"\u002F>\n    \u003C\u002Fa>\n\u003Cp>\n\n### Multi-image-fusion([More Cases](docs\u002Fmulti_image.md))\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFireRedTeam_FireRed-Image-Edit_readme_8009196241cc.png\" width=\"800\"\u002F>\n\u003Cp> \n\n> case1: 将图2的男人，穿着图2的黑色\"New York Bears\"棒球夹克和迷彩裤子和蓝黑配色的AJ1高帮球鞋，在图1的空旷的橄榄球场上。球场阳光明媚，他带着图2黑色的帽子，帽檐是红色，夹克上的白色条纹在暗光中格外醒目。他的左肩随意地挎着图3那只复古棕色皮质旅行包，包口微微敞开，露出里面图3那个磨损的棕色橄榄球。右手则轻松地拖着图3的白色滑板，板底那威武的黑色狮子图腾在草地映衬下如同猛兽。图3那只壮实的深棕色斗牛犬安静地蹲坐在他脚边的阴影里，忠诚地望向主人。男人脖子上挂着图2那副黑色Beats耳机，地上放着图3那座复古的青铜奖杯，在阳光下下泛着胜利的光芒。整个场景融合了街头潮流与竞技体育的质感，空旷球场、皮革装备的温润光泽、以及滑板带来的街头气息，共同构成了一个关于青春、热爱与赛后孤独的静谧时刻。\n\n\n### Makeup([Lora](https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-LoRA-Zoo\u002Fblob\u002Fmain\u002FFireRed-Image-Edit-Makeup.safetensors))\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFireRedTeam_FireRed-Image-Edit_readme_87714c7822b4.jpg\" width=\"800\"\u002F>\n\u003Cp> \n\n> case1: 为人物添加欧美Y2K妆：使用冷白皮哑光粉底均匀肤色，描绘粗平的深棕色挑眉，眼部涂抹亮片银灰眼影并晕染至眉骨，画上黑色上扬眼线，粘贴浓密假睫毛，用浅金色高光提亮卧蚕，在苹果肌扫上蜜桃色腮红，唇部涂抹镜面玻璃唇釉，并在颧骨处轻扫修容粉。\n\n> case2: 为人物添加缎光底妆：使用自然色缎光粉底均匀肤色，描绘自然眉形并填充浅棕色眉粉，眼部涂抹深棕色眼影并晕染眼尾，画自然内眼线，刷上浓密睫毛膏，在卧蚕处提亮，涂抹水润感红色豆沙色口红并勾勒唇形，在苹果肌扫上粉色腮红，在鼻梁、颧骨处轻扫银色高光。\n\n\n### Text Style Reference([Lora](https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-LoRA-Zoo\u002Fblob\u002Fmain\u002FFireRed-Image-Edit-Covercraft.safetensors))([More Cases](docs\u002Ftext.md))\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFireRedTeam_FireRed-Image-Edit_readme_0bc875317b69.png\" width=\"800\"\u002F>\n\u003Cp> \n\n## 🗂️ Model Zoo\n\n\u003Cdiv style=\"overflow-x: auto; margin-bottom: 16px;\">\n  \u003Ctable style=\"border-collapse: collapse; width: 100%;\">\n    \u003Cthead>\n      \u003Ctr>\n        \u003Cth style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de; background-color: #f6f8fa;\">Models\u003C\u002Fth>\n        \u003Cth style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de; background-color: #f6f8fa;\">Task\u003C\u002Fth>\n        \u003Cth style=\"padding: 8px; border: 1px solid #d0d7de; background-color: #f6f8fa;\">Description\u003C\u002Fth>\n        \u003Cth style=\"padding: 8px; border: 1px solid #d0d7de; background-color: #f6f8fa;\">Download Link\u003C\u002Fth>\n      \u003C\u002Ftr>\n    \u003C\u002Fthead>\n    \u003Ctbody>\n      \u003Ctr>\n        \u003Ctd style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de;\">FireRed-Image-Edit-1.0\u003C\u002Ftd>\n        \u003Ctd style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de;\">Image-Editing\u003C\u002Ftd>\n        \u003Ctd style=\"padding: 8px; border: 1px solid #d0d7de;\">General-purpose image editing model\u003C\u002Ftd>\n        \u003Ctd style=\"padding: 8px; border: 1px solid #d0d7de;\">\n          \u003Cspan style=\"white-space: nowrap;\">🤗&nbsp;\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0\">HuggingFace\u003C\u002Fa>\u003C\u002Fspan>\n          \u003Cspan style=\"white-space: nowrap;\">🤖&nbsp;\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0\">ModelScope\u003C\u002Fa>\u003C\u002Fspan>\n        \u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de;\">FireRed-Image-Edit-1.0-Distilled\u003C\u002Ftd>\n        \u003Ctd style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de;\">Image-Editing\u003C\u002Ftd>\n        \u003Ctd style=\"padding: 8px; border: 1px solid #d0d7de;\">Distilled version of FireRed-Image-Edit-1.0 for faster inference\u003C\u002Ftd>\n        \u003Ctd style=\"padding: 8px; border: 1px solid #d0d7de;\">\n          \u003Cspan style=\"white-space: nowrap;\">🤗&nbsp;\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0-Lightning\">HuggingFace\u003C\u002Fa>\u003C\u002Fspan>\n          \u003Cspan style=\"white-space: nowrap;\">🤖&nbsp;\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0-Lightning\">ModelScope\u003C\u002Fa>\u003C\u002Fspan>\n        \u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de;\">FireRed-Image-Edit-1.1\u003C\u002Ftd>\n        \u003Ctd style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de;\">Image-Editing\u003C\u002Ftd>\n        \u003Ctd style=\"padding: 8px; border: 1px solid #d0d7de;\">Based on the FireRed-Image-Edit-1.0, it optimizes portrait consistency, multi-element fusion, stylized text reference, and portrait makeup effects.\u003C\u002Ftd>\n        \u003Ctd style=\"padding: 8px; border: 1px solid #d0d7de;\">\n          \u003Cspan style=\"white-space: nowrap;\">🤗&nbsp;\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\">HuggingFace\u003C\u002Fa>\u003C\u002Fspan>\n          \u003Cspan style=\"white-space: nowrap;\">🤖&nbsp;\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\">ModelScope\u003C\u002Fa>\u003C\u002Fspan>\n        \u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de;\">FireRed-Image\u003C\u002Ftd>\n        \u003Ctd style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de;\">Text-to-Image\u003C\u002Ftd>\n        \u003Ctd style=\"padding: 8px; border: 1px solid #d0d7de;\">High-quality text-to-image generation model\u003C\u002Ftd>\n        \u003Ctd style=\"padding: 8px; border: 1px solid #d0d7de;\">\n          \u003Cspan style=\"white-space: nowrap;\">To be released\u003C\u002Fspan>\n        \u003C\u002Ftd>\n      \u003C\u002Ftr>\n    \u003C\u002Ftbody>\n  \u003C\u002Ftable>\n\u003C\u002Fdiv>\n\n## 🏗️ Model Architecture\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFireRedTeam_FireRed-Image-Edit_readme_3216f227a0e9.png\" width=\"800\"\u002F>\n\u003Cp> \n\n## ⚡️ Quick Start\n\n1. Install dependencies\n```bash\npip install -r requirements.txt\n```\n\n2. Use the following code snippets to generate or edit images.\n```\npython inference.py \\\n    --input_image .\u002Fexamples\u002Fedit_example.png \\\n    --prompt \"在书本封面Python的下方，添加一行英文文字2nd Edition\" \\\n    --output_image output_edit.png \\\n    --seed 43\n```\n\n## 🤖 Agent\n\nThe Agent module provides **Recaption & Multi-Image Preprocessing** capabilities.\n\nFireRed-Image-Edit natively supports **1–3** input images. When users need to edit with **more than 3 images**, the built-in **Agent** module automatically:\n\n1. **ROI Detection** – Sends all images + the user instruction to a Gemini function-calling model that returns a bounding-box for the most relevant region in each image.\n2. **Crop & Stitch** – Crops each image to its ROI, then partitions and stitches them into **2–3 composite images** (≈1024×1024 each) while minimising whitespace and preserving content at maximum resolution.\n3. **Recaption** – Rewrites the user instruction so that image references (图1\u002F图2\u002Fimage N …) correctly point to the new composite images, and expands the prompt to ~512 words\u002Fcharacters for richer editing context. The user's original language is preserved.\n\n\n**(Optional)** To enable the **Recaption** feature (rewriting instructions via an LLM for better editing results), set up one of the supported LLM providers:\n\n**Option 1: Gemini (default)**\n\n```bash\nexport GEMINI_API_KEY=\"your-gemini-api-key\"\n```\n\n**Option 2: MiniMax**\n\n```bash\nexport RECAPTION_PROVIDER=\"minimax\"\nexport MINIMAX_API_KEY=\"your-minimax-api-key\"\n```\n\nUses the [MiniMax](https:\u002F\u002Fwww.minimax.io\u002F) OpenAI-compatible API with the `MiniMax-M2.7` model by default. You can also use `MiniMax-M2.7-highspeed` for faster responses.\n\n**Option 3: Any OpenAI-compatible API**\n\n```bash\nexport RECAPTION_PROVIDER=\"openai_compatible\"\nexport OPENAI_COMPATIBLE_API_KEY=\"your-api-key\"\nexport OPENAI_COMPATIBLE_BASE_URL=\"https:\u002F\u002Fyour-api.example.com\u002Fv1\"\nexport OPENAI_COMPATIBLE_MODEL=\"your-model-name\"\n```\n\n> **Note:** The LLM API is **not required** for basic usage. Without it, the Agent will still perform ROI detection and image stitching normally, but will skip the instruction rewriting step. Setting an LLM API key is recommended for best results. The ROI detection step always uses Gemini (multimodal required).\n\n\n\n## 🏋️ How to Train\nTraining is a **two-step** process:\n\n1. **Extract VLM embeddings** — Run offline extraction on your image–text JSONL.\n2. **SFT training** — Train on the extracted embeddings (HSDP\u002FFSDP, multi-node supported).\n\n→ Full details: [train\u002FREADME.md](train\u002FREADME.md) (data format, environment, commands).\n\n## 📊 Benchmark\nTo better validate the capabilities of our model, we propose a benchmark called REDEdit-Bench. Our main goal is to build more diverse scenarios and editing instructions that better align with human language, enabling a more comprehensive evaluation of current editing models. We collected over 3,000 images from the internet, and after careful expert-designed selection, we constructed 1,673 bilingual (Chinese–English) editing pairs across 15 categories.\n\n### Inference and Evaluation Code\nWe provide the inference and evaluation code for REDEdit-Bench. Please refer to the [redbench_infer.py](.\u002Ftools\u002Fredbench_infer.py) and [redbench_eval.py](.\u002Ftools\u002Fredbench_eval.py) scripts in the `tools` directory for more details.\n\n### Benchmark Distribution\nThe REDEdit-Bench dataset will be available soon.\n\n\n\n\u003Ctable style=\"border-collapse: collapse; width: 100%; font-family: system-ui, -apple-system, Segoe UI, Roboto, Arial, sans-serif; font-size: 14px;\">\n \u003Cthead>\n   \u003Ctr>\n     \u003Cth style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; background-color: #f6f8fa; white-space: nowrap;\">Model\u003C\u002Fth>\n     \u003Cth style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center; background-color: #f6f8fa; white-space: nowrap;\">ImgEdit_O ↑\u003C\u002Fth>\n     \u003Cth style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center; background-color: #f6f8fa; white-space: nowrap;\">GEdit_O ↑ (EN)\u003C\u002Fth>\n     \u003Cth style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center; background-color: #f6f8fa; white-space: nowrap;\">GEdit_O ↑ (CN)\u003C\u002Fth>\n     \u003Cth style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center; background-color: #f6f8fa; white-space: nowrap;\">REDEdit ↑ (EN)\u003C\u002Fth>\n     \u003Cth style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center; background-color: #f6f8fa; white-space: nowrap;\">REDEdit ↑ (CN)\u003C\u002Fth>\n   \u003C\u002Ftr>\n \u003C\u002Fthead>\n \u003Ctbody>\n   \u003C!-- Proprietary Models -->\n   \u003Ctr>\n     \u003Ctd colspan=\"6\" style=\"border: 1px solid #d0d7de; padding: 8px; font-weight: 700; background-color: #f7f7f7; text-align: left;\">\n       🔹 Proprietary Models\n     \u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">Nano-Banana\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.29\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.291\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.399\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.15\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.13\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">Seedream4.0\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.30\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.701\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.692\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.18\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.15\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">Seedream4.5\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>4.32\u003C\u002Fu>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cstrong>7.820\u003C\u002Fstrong>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cstrong>7.800\u003C\u002Fstrong>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>4.20\u003C\u002Fu>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>4.18\u003C\u002Fu>\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">Nano-Banana-Pro\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cstrong>4.37\u003C\u002Fstrong>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>7.738\u003C\u002Fu>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>7.799\u003C\u002Fu>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cstrong>4.42\u003C\u002Fstrong>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cstrong>4.48\u003C\u002Fstrong>\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \n   \u003C!-- Open-source Models -->\n   \u003Ctr>\n     \u003Ctd colspan=\"6\" style=\"border: 1px solid #d0d7de; padding: 8px; font-weight: 700; background-color: #f7f7f7; text-align: left;\">\n       🔹 Open-source Models\n     \u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">Step1X-Edit-v1.2\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">3.95\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.480\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.467\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">—\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">—\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">Qwen-Image-Edit-2509\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.31\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.480\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.467\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">3.99\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.00\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">FLUX.2 [Dev]\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.35\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.413\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.278\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.07\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.05\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">LongCat-Image-Edit\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.45\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.748\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.731\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.12\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.12\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">Qwen-Image-Edit-2511\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>4.51\u003C\u002Fu>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>7.877\u003C\u002Fu>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>7.819\u003C\u002Fu>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>4.23\u003C\u002Fu>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>4.18\u003C\u002Fu>\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">\n       \u003Cstrong>FireRed-Image-Edit\u003C\u002Fstrong>\n     \u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\n       \u003Cstrong>4.56\u003C\u002Fstrong>\n     \u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\n       \u003Cstrong>7.943\u003C\u002Fstrong>\n     \u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\n       \u003Cstrong>7.887\u003C\u002Fstrong>\n     \u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\n       \u003Cstrong>4.26\u003C\u002Fstrong>\n     \u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\n       \u003Cstrong>4.33\u003C\u002Fstrong>\n     \u003C\u002Ftd>\n   \u003C\u002Ftr>\n \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\n\n\n## 📜 License Agreement\n\nThe code and the weights of FireRed-Image-Edit are licensed under Apache 2.0. \n\n\n## 📝 TODO:\n- [x] Release FireRed-Image-Edit-1.0 model.\n- [x] Release FireRed-Image-Edit-1.0-Distilled model, a distilled version of FireRed-Image-Edit-1.0 for few-step generation.\n- [x] FireRed-Image-Edit-1.1 released with improvements to portrait consistency, multi-element fusion, stylized text reference, and portrait makeup effects.\n- [ ] Release of lightweight editing models comparable to zimage\u002FFlux2-klein and other small-parameter variants.\n- [ ] Release REDEdit-Bench, a comprehensive benchmark for image editing evaluation.\n- [ ] Release FireRed-Image model, a text-to-image generative model.\n\n\n## 🖊️ Citation\n\nWe kindly encourage citation of our work if you find it useful.\n\n```bibtex\n@article{firered2026rededit,\n      title={FireRed-Image-Edit-1.0 Technical Report}, \n      author={Super Intelligence Team},\n      year={2026},\n      archivePrefix={arXiv},\n      primaryClass={cs.CV},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.13344}, \n}\n```\n\n## ⚠️ Ethics Statement\nFireRed-Image-Edit  has not been specifically designed or comprehensively evaluated for every possible downstream application. Users should be aware of the potential risks and ethical considerations when using this project, and should use it responsibly and in compliance with all applicable laws and regulations.\n\n- **Prohibited Use**: This project must not be used to generate content that is illegal, defamatory, pornographic, harmful, or that violates the privacy, rights, or interests of individuals or organizations.\n- **User Responsibility**: Users are solely responsible for any content generated using this project. The authors and contributors assume no responsibility or liability for any misuse of the codebase or for any consequences resulting from its use.\n\n\n\n## 🤝 Acknowledgements\n\nWe would like to thank the developers of the amazing open-source projects, especially [Qwen-Image](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen-Image) for providing a powerful text-to-image foundation model, as well as [Diffusers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdiffusers) and [HuggingFace](https:\u002F\u002Fhuggingface.co).\n\n## ☎️ Contact\n\nPlease contact us and join our Xiaohongshu Group if you have any questions.\n\n#### Xiaohongshu Group \n\u003Cimg src=assets\u002Fxhs.png width=\"200px\">\n\n\n## ⭐ Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFireRedTeam_FireRed-Image-Edit_readme_5e149645f47d.png)](https:\u002F\u002Fwww.star-history.com\u002F#FireRedTeam\u002FFireRed-Image-Edit&type=date&legend=top-left)\n\n\n---\n\n\u003Cdiv align=\"center\">\n  \u003Csub>Built by 小红书智能创作基础技术团队 Xiaohongshu Intelligent Creation Core Technology Team\u003C\u002Fsub>\n\u003C\u002Fdiv>\n","\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFireRedTeam_FireRed-Image-Edit_readme_dc530ad440cc.png\" width=\"400\"\u002F>\n\u003Cp> \n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\" target=\"_blank\">\u003Cimg alt=\"Hugging Face\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-FireRedTeam-ffc107?color=ffc107&logoColor=white\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\" target=\"_blank\">\u003Cimg alt=\"Hugging Face Model\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-FireRed--Image--Edit--1.1-red\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0\" target=\"_blank\">\u003Cimg alt=\"Hugging Face Model\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-FireRed--Image--Edit--1.0-red\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-LoRA-Zoo\" target=\"_blank\">\u003Cimg alt=\"Hugging Face Model\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-FireRed--Image--Edit--LoRA--Zoo-red\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\" target=\"_blank\">\u003Cimg alt=\"HF Demo\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HF%20Demo-FireRed--Image--Edit--1.1-red\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FFireRedTeam\u002FREDEdit-Bench\" target=\"_blank\">\u003Cimg alt=\"Hugging Face Dataset\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-REDEdit--Bench-ffc107?color=ffc107&logoColor=white\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Faigc\u002FmodelTraining\" target=\"_blank\">\u003Cimg alt=\"ModelScope Model\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%96%20ModelScope-FireRed--Image--Edit--1.1--Lora--Training-624aff\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\" target=\"_blank\">\u003Cimg alt=\"ModelScope Model\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%96%20ModelScope-FireRed--Image--Edit--1.1-624aff\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0\" target=\"_blank\">\u003Cimg alt=\"ModelScope Model\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%96%20ModelScope-FireRed--Image--Edit--1.0-624aff\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\" target=\"_blank\">\u003Cimg alt=\"MS Demo\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%96%20MS%20Demo-FireRed--Image--Edit--1.1-624aff\" style=\"display: inline-block;\"\u002F>\u003C\u002Fa>\n  \u003Ca href='https:\u002F\u002Fgithub.com\u002FFireRedTeam\u002FFireRed-Image-Edit'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FGitHub-Code-black'>\u003C\u002Fa>\n  \u003Ca href='https:\u002F\u002Fwww.apache.org\u002Flicenses\u002FLICENSE-2.0'>\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-Apache%202.0-blue\" alt=\"License\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.13344\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FReport-b5212f.svg?logo=arxiv\">\u003C\u002Fa>\n\u003C\u002Fp> \n\n\u003Cp align=\"center\">\n    🤗 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\">HuggingFace\u003C\u002Fa> |\n    🤖 \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\">ModelScope\u003C\u002Fa> |\n    🖥️ \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\">Demo\u003C\u002Fa> |\n    📄 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.13344\">Technical Report\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFireRedTeam_FireRed-Image-Edit_readme_f128ce3659bb.png\" width=\"800\"\u002F>\n\u003Cp> \n\n\n## 🔥 FireRed-Image-Edit\n**FireRed-Image-Edit-1.1** 基于 FireRed-Image-Edit-1.0 基础模型，优化了人像一致性、多元素融合、风格化文本参考以及人像妆容效果。\n\n**FireRed-Image-Edit-1.0** 是一款通用图像编辑模型，在多种场景下都能提供高保真且一致的编辑效果。FireRed-Image-Edit 凭借准确的指令遵循、高质量的图像表现和一致的视觉连贯性，实现了领先的开源成果。\n\n## ✨ 核心特性\n#### 强大的编辑性能 \n- 🆔 **最先进的身份一致性**：在人物身份保留方面达到开源领域的最先进水平，确保主体在复杂编辑中仍能被识别。\n- 🧩 **多元素融合**：借助智能代理自动裁剪与拼接，可自由组合10余种元素——不再为简短提示而烦恼。\n- 💄 **全面的人像妆容**：涵盖专业美容修图、黄\u002F橄榄肤色提亮，直至万圣节女巫妆和创意造型等数十种风格。\n- 📝 **文本样式参考**：保持高保真的排版和风格化文本，媲美闭源解决方案。\n- 🖼️ **专业照片修复**：高质量的老照片修复与增强，细节恢复效果卓越。\n\n#### 极致的工程优化\n- 🔧 **开放的LoRA训练生态**：完整训练代码公开，支持自定义风格创作；优化后的采样器可在相同任务、尺寸和输入数量下最大化GPU效率。\n- ⚡ **极致的速度优化**：完整的加速套件包括蒸馏、量化和静态编译，仅需30GB显存即可实现4.5秒的端到端生成。\n- 🤖 **智能代理工作流**：自动多图像处理能够应对虚拟试穿等复杂构图，无需冗长的提示工程。\n- 🔌 **通用部署**：原生支持ComfyUI节点，并兼容GGUF轻量级格式，便于无缝集成生产环境。\n- 🏋️  **高效的训练方法**：通过离线特征预提取，将VLM推理与训练流程完全解耦，消除生成开销，从而实现最快的收敛速度。\n\n#### 基于T2I骨干网络的原生编辑能力\n- 🏗️ **骨干无关架构**：通过完整的Pretrain → SFT → RL流程注入编辑能力，可迁移至任何T2I基础模型。\n\n## 📰 新闻\n- 2026年3月25日：[ModelScope](https:\u002F\u002Fmodelscope.cn\u002Faigc\u002FmodelTraining) 现已支持 FireRed-image-edit 的 LoRA 训练。\n- 2026年3月9日：我们发布了全新的图像编辑基准测试 **REDEdit-Bench**。REDEdit-Bench 涵盖了更加多样化的场景和更贴近人类语言的编辑指令，为图像编辑任务提供了更为全面和真实的评估标准。\n- 2026年3月3日：我们发布了 FireRed-Image-Edit-1.1 版本，该版本基于 FireRed-Image-Edit-1.0 基础模型，在人像一致性、多元素融合、风格化文本参考以及人像妆容效果等方面进行了优化。\n- 2026年3月1日：我们提供了一个轻量级推理脚本（包含蒸馏后的 [Lora](https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0-ComfyUI\u002Fblob\u002Fmain\u002FFireRed-Image-Edit-1.0-Lightning-8steps-v1.0.safetensors)、量化、db_cache 和静态编译），现在仅需 **30GB 显存** 和 **约4.5秒\u002F样本**。🚀 只需运行 `python inference.py --optimized True` 即可体验！\n- 2026年2月28日：我们发布了 [Train](https:\u002F\u002Fgithub.com\u002FFireRedTeam\u002FFireRed-Image-Edit\u002Ftree\u002Fmain\u002Ftrain)，支持 HSDP\u002FFSDP、分离式训练以及多条件感知的 Bucket Sampler。\n- 2026年2月27日：我们推出了用于指令重写和多图像预处理的 [Agent](#-agent) 模块，支持自动 ROI 检测及超过3张图片的拼接编辑。\n- 2026年2月27日：我们提供了 FireRed-Image-Edit-1.0 的 **ComfyUI** 工作流。更多详情请参见 [Huggingface](https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0-ComfyUI)。\n- 2026年2月14日：我们发布了 FireRed-Image-Edit-1.0 的模型权重。更多详情请参见 [Huggingface](https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0) 和 [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0)。\n- 2026年2月10日：我们发布了 FireRed-Image-Edit-1.0 的 [技术报告](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.13344)。\n\n## 🏆 评估结果\nFireRed-Image-Edit 在 Imgedit、Gedit 和 RedEdit 上树立了开源模型的新标杆，并在特定维度上超越了闭源竞争对手——这一点也得到了人工评估的进一步证实，评估结果显示其在指令遵循性和视觉一致性方面表现尤为出色。详细信息请参见 [这里](docs\u002Fbenchmark.md)。\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFireRedTeam_FireRed-Image-Edit_readme_1cc0a2a611d6.png\" width=\"800\"\u002F>\n\u003Cp>\n\n\n## 🎨 展示\nFireRed-Image-Edit 在各类通用编辑任务中生成的一些真实输出。\n\n### 人像（[更多案例](docs\u002Fportrait_en.md) | [更多结果](docs\u002Fportrait_cn.md)）\n\u003Cp align=\"center\">\n    \u003Ca href=\".\u002Fassets\u002Fshowcase_portrait.png\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFireRedTeam_FireRed-Image-Edit_readme_877943b7646c.jpg\" width=\"800\"\u002F>\n    \u003C\u002Fa>\n\u003Cp>\n\n### 多图像融合（[更多案例](docs\u002Fmulti_image.md)）\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFireRedTeam_FireRed-Image-Edit_readme_8009196241cc.png\" width=\"800\"\u002F>\n\u003Cp> \n\n> 案例1：将图2中的男子，穿着图2的黑色“New York Bears”棒球夹克、迷彩裤子和蓝黑配色的AJ1高帮球鞋，置于图1空旷的橄榄球场上。球场阳光明媚，他头戴图2的黑色帽子，帽檐为红色，夹克上的白色条纹在暗光下格外醒目。他的左肩随意地挎着图3那只复古棕色皮质旅行包，包口微微敞开，露出里面图3那个磨损的棕色橄榄球。右手则轻松地拖着图3的白色滑板，板底那威武的黑色狮子图腾在草地映衬下如同猛兽。图3那只壮实的深棕色斗牛犬安静地蹲坐在他脚边的阴影里，忠诚地望向主人。男人脖子上挂着图2那副黑色Beats耳机，地上放着图3那座复古的青铜奖杯，在阳光下泛着胜利的光芒。整个场景融合了街头潮流与竞技体育的质感，空旷球场、皮革装备的温润光泽、以及滑板带来的街头气息，共同构成了一个关于青春、热爱与赛后孤独的静谧时刻。\n\n\n### 妆容（[Lora](https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-LoRA-Zoo\u002Fblob\u002Fmain\u002FFireRed-Image-Edit-Makeup.safetensors)）\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFireRedTeam_FireRed-Image-Edit_readme_87714c7822b4.jpg\" width=\"800\"\u002F>\n\u003Cp> \n\n> 案例1：为人物添加欧美Y2K妆：使用冷白皮哑光粉底均匀肤色，描绘粗平的深棕色挑眉，眼部涂抹亮片银灰眼影并晕染至眉骨，画上黑色上扬眼线，粘贴浓密假睫毛，用浅金色高光提亮卧蚕，在苹果肌扫上蜜桃色腮红，唇部涂抹镜面玻璃唇釉，并在颧骨处轻扫修容粉。\n\n> 案例2：为人物添加缎光底妆：使用自然色缎光粉底均匀肤色，描绘自然眉形并填充浅棕色眉粉，眼部涂抹深棕色眼影并晕染眼尾，画自然内眼线，刷上浓密睫毛膏，在卧蚕处提亮，涂抹水润感红色豆沙色口红并勾勒唇形，在苹果肌扫上粉色腮红，在鼻梁、颧骨处轻扫银色高光。\n\n\n### 文字风格参考（[Lora](https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-LoRA-Zoo\u002Fblob\u002Fmain\u002FFireRed-Image-Edit-Covercraft.safetensors)）（[更多案例](docs\u002Ftext.md)）\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFireRedTeam_FireRed-Image-Edit_readme_0bc875317b69.png\" width=\"800\"\u002F>\n\u003Cp>\n\n## 🗂️ 模型动物园\n\n\u003Cdiv style=\"overflow-x: auto; margin-bottom: 16px;\">\n  \u003Ctable style=\"border-collapse: collapse; width: 100%;\">\n    \u003Cthead>\n      \u003Ctr>\n        \u003Cth style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de; background-color: #f6f8fa;\">模型\u003C\u002Fth>\n        \u003Cth style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de; background-color: #f6f8fa;\">任务\u003C\u002Fth>\n        \u003Cth style=\"padding: 8px; border: 1px solid #d0d7de; background-color: #f6f8fa;\">描述\u003C\u002Fth>\n        \u003Cth style=\"padding: 8px; border: 1px solid #d0d7de; background-color: #f6f8fa;\">下载链接\u003C\u002Fth>\n      \u003C\u002Ftr>\n    \u003C\u002Fthead>\n    \u003Ctbody>\n      \u003Ctr>\n        \u003Ctd style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de;\">FireRed-Image-Edit-1.0\u003C\u002Ftd>\n        \u003Ctd style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de;\">图像编辑\u003C\u002Ftd>\n        \u003Ctd style=\"padding: 8px; border: 1px solid #d0d7de;\">通用图像编辑模型\u003C\u002Ftd>\n        \u003Ctd style=\"padding: 8px; border: 1px solid #d0d7de;\">\n          \u003Cspan style=\"white-space: nowrap;\">🤗&nbsp;\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0\">HuggingFace\u003C\u002Fa>\u003C\u002Fspan>\n          \u003Cspan style=\"white-space: nowrap;\">🤖&nbsp;\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0\">ModelScope\u003C\u002Fa>\u003C\u002Fspan>\n        \u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de;\">FireRed-Image-Edit-1.0-Distilled\u003C\u002Ftd>\n        \u003Ctd style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de;\">图像编辑\u003C\u002Ftd>\n        \u003Ctd style=\"padding: 8px; border: 1px solid #d0d7de;\">FireRed-Image-Edit-1.0的蒸馏版本，用于加速推理\u003C\u002Ftd>\n        \u003Ctd style=\"padding: 8px; border: 1px solid #d0d7de;\">\n          \u003Cspan style=\"white-space: nowrap;\">🤗&nbsp;\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0-Lightning\">HuggingFace\u003C\u002Fa>\u003C\u002Fspan>\n          \u003Cspan style=\"white-space: nowrap;\">🤖&nbsp;\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0-Lightning\">ModelScope\u003C\u002Fa>\u003C\u002Fspan>\n        \u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de;\">FireRed-Image-Edit-1.1\u003C\u002Ftd>\n        \u003Ctd style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de;\">图像编辑\u003C\u002Ftd>\n        \u003Ctd style=\"padding: 8px; border: 1px solid #d0d7de;\">基于FireRed-Image-Edit-1.0，优化了人像一致性、多元素融合、风格化文本参考以及人像妆容效果。\u003C\u002Ftd>\n        \u003Ctd style=\"padding: 8px; border: 1px solid #d0d7de;\">\n          \u003Cspan style=\"white-space: nowrap;\">🤗&nbsp;\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\">HuggingFace\u003C\u002Fa>\u003C\u002Fspan>\n          \u003Cspan style=\"white-space: nowrap;\">🤖&nbsp;\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\">ModelScope\u003C\u002Fa>\u003C\u002Fspan>\n        \u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de;\">FireRed-Image\u003C\u002Ftd>\n        \u003Ctd style=\"white-space: nowrap; padding: 8px; border: 1px solid #d0d7de;\">文本到图像\u003C\u002Ftd>\n        \u003Ctd style=\"padding: 8px; border: 1px solid #d0d7de;\">高质量文本到图像生成模型\u003C\u002Ftd>\n        \u003Ctd style=\"padding: 8px; border: 1px solid #d0d7de;\">\n          \u003Cspan style=\"white-space: nowrap;\">即将发布\u003C\u002Fspan>\n        \u003C\u002Ftd>\n      \u003C\u002Ftr>\n    \u003C\u002Ftbody>\n  \u003C\u002Ftable>\n\u003C\u002Fdiv>\n\n## 🏗️ 模型架构\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFireRedTeam_FireRed-Image-Edit_readme_3216f227a0e9.png\" width=\"800\"\u002F>\n\u003Cp> \n\n## ⚡️ 快速入门\n\n1. 安装依赖\n```bash\npip install -r requirements.txt\n```\n\n2. 使用以下代码片段生成或编辑图像。\n```\npython inference.py \\\n    --input_image .\u002Fexamples\u002Fedit_example.png \\\n    --prompt \"在书本封面Python的下方，添加一行英文文字2nd Edition\" \\\n    --output_image output_edit.png \\\n    --seed 43\n```\n\n## 🤖 代理\n\nAgent模块提供**重写说明与多图像预处理**功能。\n\nFireRed-Image-Edit原生支持**1–3**张输入图像。当用户需要使用**超过3张图像**进行编辑时，内置的**Agent**模块会自动：\n\n1. **ROI检测**——将所有图像及用户指令发送至Gemini函数调用模型，该模型会为每张图像中最相关的区域返回一个边界框。\n2. **裁剪与拼接**——将每张图像裁剪为其ROI，然后将其分割并拼接成**2–3张合成图像**（每张约1024×1024像素），同时尽量减少空白区域，并以最高分辨率保留内容。\n3. **重写说明**——重新编写用户指令，使图像引用（图1\u002F图2\u002F图像N…）正确指向新的合成图像，并将提示扩展至约512个单词\u002F字符，以提供更丰富的编辑上下文。用户的原始语言将被保留。\n\n\n**（可选）** 若要启用**重写说明**功能（通过LLM重写指令以获得更好的编辑效果），请设置其中一个支持的LLM提供商：\n\n**选项1：Gemini（默认）**\n\n```bash\nexport GEMINI_API_KEY=\"your-gemini-api-key\"\n```\n\n**选项2：MiniMax**\n\n```bash\nexport RECAPTION_PROVIDER=\"minimax\"\nexport MINIMAX_API_KEY=\"your-minimax-api-key\"\n```\n\n使用[MiniMax](https:\u002F\u002Fwww.minimax.io\u002F)的OpenAI兼容API，默认采用`MiniMax-M2.7`模型。您也可以使用`MiniMax-M2.7-highspeed`以获得更快的响应。\n\n**选项3：任何OpenAI兼容的API**\n\n```bash\nexport RECAPTION_PROVIDER=\"openai_compatible\"\nexport OPENAI_COMPATIBLE_API_KEY=\"your-api-key\"\nexport OPENAI_COMPATIBLE_BASE_URL=\"https:\u002F\u002Fyour-api.example.com\u002Fv1\"\nexport OPENAI_COMPATIBLE_MODEL=\"your-model-name\"\n```\n\n> **注意：** 基本使用并不需要LLM API。如果没有LLM API，Agent仍会正常执行ROI检测和图像拼接，但会跳过指令重写步骤。为了获得最佳效果，建议设置LLM API密钥。ROI检测步骤始终使用Gemini（需支持多模态）。\n\n\n\n## 🏋️ 如何训练\n训练是一个**两步**过程：\n\n1. **提取VLM嵌入**——对您的图像–文本JSONL文件进行离线提取。\n2. **SFT训练**——基于提取的嵌入进行训练（支持HSDP\u002FFSDP、多节点）。\n\n→ 完整详情：[train\u002FREADME.md](train\u002FREADME.md)（数据格式、环境、命令）。\n\n## 📊 基准测试\n为了更好地验证我们模型的能力，我们提出了名为REDEdit-Bench的基准测试。我们的主要目标是构建更多样化的场景和编辑指令，使其更贴近人类语言，从而对当前的编辑模型进行更全面的评估。我们从互联网上收集了超过3,000张图片，经过专家精心挑选，最终构建了涵盖15个类别的1,673对中英双语编辑样本。\n\n### 推理与评估代码\n我们提供了REDEdit-Bench的推理与评估代码。请参阅`tools`目录下的[redbench_infer.py](.\u002Ftools\u002Fredbench_infer.py)和[redbench_eval.py](.\u002Ftools\u002Fredbench_eval.py)脚本，以获取更多详细信息。\n\n### 基准分布\nREDEdit-Bench 数据集将很快发布。\n\n\u003Ctable style=\"border-collapse: collapse; width: 100%; font-family: system-ui, -apple-system, Segoe UI, Roboto, Arial, sans-serif; font-size: 14px;\">\n \u003Cthead>\n   \u003Ctr>\n     \u003Cth style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; background-color: #f6f8fa; white-space: nowrap;\">模型\u003C\u002Fth>\n     \u003Cth style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center; background-color: #f6f8fa; white-space: nowrap;\">ImgEdit_O ↑\u003C\u002Fth>\n     \u003Cth style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center; background-color: #f6f8fa; white-space: nowrap;\">GEdit_O ↑ (EN)\u003C\u002Fth>\n     \u003Cth style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center; background-color: #f6f8fa; white-space: nowrap;\">GEdit_O ↑ (CN)\u003C\u002Fth>\n     \u003Cth style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center; background-color: #f6f8fa; white-space: nowrap;\">REDEdit ↑ (EN)\u003C\u002Fth>\n     \u003Cth style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center; background-color: #f6f8fa; white-space: nowrap;\">REDEdit ↑ (CN)\u003C\u002Fth>\n   \u003C\u002Ftr>\n \u003C\u002Fthead>\n \u003Ctbody>\n   \u003C!-- 专有模型 -->\n   \u003Ctr>\n     \u003Ctd colspan=\"6\" style=\"border: 1px solid #d0d7de; padding: 8px; font-weight: 700; background-color: #f7f7f7; text-align: left;\">\n       🔹 专有模型\n     \u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">Nano-Banana\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.29\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.291\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.399\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.15\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.13\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">Seedream4.0\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.30\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.701\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.692\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.18\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.15\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">Seedream4.5\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>4.32\u003C\u002Fu>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cstrong>7.820\u003C\u002Fstrong>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cstrong>7.800\u003C\u002Fstrong>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>4.20\u003C\u002Fu>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>4.18\u003C\u002Fu>\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">Nano-Banana-Pro\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cstrong>4.37\u003C\u002Fstrong>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>7.738\u003C\u002Fu>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>7.799\u003C\u002Fu>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cstrong>4.42\u003C\u002Fstrong>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cstrong>4.48\u003C\u002Fstrong>\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \n   \u003C!-- 开源模型 -->\n   \u003Ctr>\n     \u003Ctd colspan=\"6\" style=\"border: 1px solid #d0d7de; padding: 8px; font-weight: 700; background-color: #f7f7f7; text-align: left;\">\n       🔹 开源模型\n     \u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">Step1X-Edit-v1.2\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">3.95\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.480\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.467\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">—\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">—\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">Qwen-Image-Edit-2509\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.31\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.480\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.467\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">3.99\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.00\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">FLUX.2 [Dev]\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.35\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.413\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.278\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.07\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.05\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">LongCat-Image-Edit\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.45\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.748\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">7.731\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.12\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">4.12\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">Qwen-Image-Edit-2511\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>4.51\u003C\u002Fu>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>7.877\u003C\u002Fu>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>7.819\u003C\u002Fu>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>4.23\u003C\u002Fu>\u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\u003Cu>4.18\u003C\u002Fu>\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: left; white-space: nowrap;\">\n       \u003Cstrong>FireRed-Image-Edit\u003C\u002Fstrong>\n     \u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\n       \u003Cstrong>4.56\u003C\u002Fstrong>\n     \u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\n       \u003Cstrong>7.943\u003C\u002Fstrong>\n     \u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center;\">\n       \u003Cstrong>7.887\u003C\u002Fstrong>\n     \u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center.\"\n       \u003Cstrong>4.26\u003C\u002Fstrong>\n     \u003C\u002Ftd>\n     \u003Ctd style=\"border: 1px solid #d0d7de; padding: 8px; text-align: center.\"\n       \u003Cstrong>4.33\u003C\u002Fstrong>\n     \u003C\u002Ftd>\n   \u003C\u002Ftr>\n \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n## 📜 许可协议\n\nFireRed-Image-Edit 的代码和权重采用 Apache 2.0 许可证授权。\n\n\n## 📝 待办事项：\n- [x] 发布 FireRed-Image-Edit-1.0 模型。\n- [x] 发布 FireRed-Image-Edit-1.0-Distilled 模型，这是 FireRed-Image-Edit-1.0 的蒸馏版本，适用于少步生成。\n- [x] FireRed-Image-Edit-1.1 已发布，改进了人像一致性、多元素融合、风格化文本参考以及人像妆容效果。\n- [ ] 发布与 zimage\u002FFlux2-klein 及其他小参数变体相当的轻量级编辑模型。\n- [ ] 发布 REDEdit-Bench，一个用于图像编辑评估的全面基准测试。\n- [ ] 发布 FireRed-Image 模型，一个文生图生成模型。\n\n\n## 🖊️ 引用\n如果您觉得我们的工作有用，我们诚挚地鼓励您引用我们的研究成果。\n\n```bibtex\n@article{firered2026rededit,\n      title={FireRed-Image-Edit-1.0 技术报告}, \n      author={超级智能团队},\n      year={2026},\n      archivePrefix={arXiv},\n      primaryClass={cs.CV},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.13344}, \n}\n```\n\n## ⚠️ 伦理声明\nFireRed-Image-Edit 并非专门为每一种可能的下游应用而设计，也未进行全面评估。用户在使用本项目时，应充分意识到潜在的风险及伦理考量，并应以负责任的态度遵守所有适用的法律法规。\n\n- **禁止用途**：本项目不得用于生成任何非法、诽谤、色情、有害的内容，或侵犯个人或组织隐私、权利及利益的内容。\n- **用户责任**：用户对使用本项目生成的任何内容负全部责任。作者及贡献者对代码库的任何滥用行为，以及因使用该代码库而导致的任何后果，均不承担任何责任。\n\n\n\n## 🤝 致谢\n我们衷心感谢那些杰出开源项目的开发者，尤其是 [Qwen-Image](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen-Image)，它提供了一个强大的文生图基础模型；同时也要感谢 [Diffusers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdiffusers) 和 [HuggingFace](https:\u002F\u002Fhuggingface.co)。\n\n## ☎️ 联系方式\n如有任何问题，请联系我们并加入我们的小红书小组。\n\n#### 小红书小组\n\u003Cimg src=assets\u002Fxhs.png width=\"200px\">\n\n\n## ⭐ 星标历史\n\n[![星标历史图表](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFireRedTeam_FireRed-Image-Edit_readme_5e149645f47d.png)](https:\u002F\u002Fwww.star-history.com\u002F#FireRedTeam\u002FFireRed-Image-Edit&type=date&legend=top-left)\n\n\n---\n\n\u003Cdiv align=\"center\">\n  \u003Csub>由小红书智能创作基础技术团队构建\u003C\u002Fsub>\n\u003C\u002Fdiv>","# FireRed-Image-Edit 快速上手指南\n\nFireRed-Image-Edit 是一款开源的通用图像编辑模型，支持高保真的人像一致性保持、多元素融合、风格化文字参考及专业人像美妆等功能。最新版本 1.1 在 1.0 基础上进一步优化了人像一致性和多元素融合效果。\n\n## 环境准备\n\n### 系统要求\n- **操作系统**: Linux (推荐 Ubuntu 20.04+) 或 Windows (WSL2 推荐)\n- **GPU**: NVIDIA GPU，显存建议 **30GB** 以上（开启优化模式后最低需求）\n- **CUDA**: 11.8 或 12.x\n- **Python**: 3.10 - 3.12\n\n### 前置依赖\n确保已安装以下基础工具：\n- Git\n- Conda 或 Miniconda (推荐用于环境管理)\n- FFmpeg (可选，用于视频相关处理)\n\n## 安装步骤\n\n### 1. 克隆代码仓库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FFireRedTeam\u002FFireRed-Image-Edit.git\ncd FireRed-Image-Edit\n```\n\n### 2. 创建并激活虚拟环境\n```bash\nconda create -n firered python=3.10 -y\nconda activate firered\n```\n\n### 3. 安装依赖\n推荐使用国内镜像源加速安装（如清华源）：\n```bash\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n> **注意**：如果需要使用 ComfyUI 工作流，请额外安装 ComfyUI 及相关自定义节点。\n\n### 4. 下载模型权重\n您可以从 Hugging Face 或 ModelScope（国内推荐）下载模型。\n\n**方式一：使用 ModelScope 下载（国内速度快）**\n```bash\n# 需先安装 modelscope\npip install modelscope -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n\n# 下载 FireRed-Image-Edit-1.1 模型\npython -c \"from modelscope import snapshot_download; snapshot_download('FireRedTeam\u002FFireRed-Image-Edit-1.1', cache_dir='.\u002Fmodels')\"\n```\n\n**方式二：手动下载**\n访问 [ModelScope 模型页](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1) 或 [HuggingFace 模型页](https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1) 下载权重文件至 `.\u002Fmodels` 目录。\n\n## 基本使用\n\n### 极速推理模式（推荐）\nFireRed-Image-Edit 提供了经过蒸馏、量化和静态编译优化的推理脚本，仅需 30GB 显存即可在约 4.5 秒内完成单张图像生成。\n\n准备一张输入图片（例如 `input.jpg`）和编辑指令，运行以下命令：\n\n```bash\npython inference.py \\\n    --input_image .\u002Fassets\u002Fexample_input.jpg \\\n    --prompt \"为人物添加欧美 Y2K 妆：使用冷白皮哑光粉底均匀肤色，描绘粗平的深棕色挑眉...\" \\\n    --output_dir .\u002Foutputs \\\n    --optimized True \\\n    --model_path .\u002Fmodels\u002FFireRedTeam\u002FFireRed-Image-Edit-1.1\n```\n\n**参数说明：**\n- `--input_image`: 原始图片路径。\n- `--prompt`: 自然语言编辑指令（支持中文）。\n- `--optimized True`: **关键参数**，启用极速优化模式（包含蒸馏 LoRA、量化等）。\n- `--model_path`: 本地模型权重路径。\n\n### 多图像融合示例\n该模型支持自动多图处理（Agent 模式），无需复杂提示词工程即可实现多元素融合。\n\n```bash\npython inference.py \\\n    --input_image \".\u002Fassets\u002Fimg1.jpg\" \".\u002Fassets\u002Fimg2.jpg\" \".\u002Fassets\u002Fimg3.jpg\" \\\n    --prompt \"将图 2 的男人穿着图 2 的夹克，站在图 1 的球场上，手里拿着图 3 的滑板，脚边放着图 3 的奖杯。\" \\\n    --output_dir .\u002Foutputs_multi \\\n    --optimized True \\\n    --agent_mode True\n```\n\n### 使用 ComfyUI (可视化工作流)\n如果您偏好图形化界面，可以导入官方提供的 ComfyUI 工作流：\n1. 下载工作流文件：[FireRed-Image-Edit-1.0-ComfyUI](https:\u002F\u002Fhuggingface.co\u002FFireRedTeam\u002FFireRed-Image-Edit-1.0-ComfyUI)\n2. 启动 ComfyUI 并加载 JSON 工作流文件。\n3. 上传参考图片并输入提示词即可运行。\n\n---\n*更多高级功能（如 LoRA 训练、特定风格微调）请参考项目仓库中的 `train` 目录及详细文档。*","某电商视觉设计师需要在促销大促前，快速为数百款商品生成带有特定模特形象且融合复杂背景的宣传海报。\n\n### 没有 FireRed-Image-Edit 时\n- **人物一致性难维持**：更换背景或调整姿势时，模特的面部特征极易发生扭曲或“换脸”，导致品牌识别度下降。\n- **多元素融合生硬**：将商品、模特与促销文字合成时，光影和边缘处理不自然，常需手动在 Photoshop 中花费数小时修图。\n- **指令遵循度低**：输入复杂的修改指令（如“给模特加上节日妆容并手持特定商品”）时，传统模型往往忽略部分细节或产生幻觉。\n- **迭代成本高昂**：为了得到一张可用图片，通常需要反复生成数十次并人工筛选，严重拖慢上线节奏。\n\n### 使用 FireRed-Image-Edit 后\n- **身份高度一致**：凭借卓越的 Identity Consistency 能力，无论背景如何切换或动作如何调整，模特的五官和神态始终保持稳定。\n- **无缝多元素融合**：利用其强大的多元素融合技术，商品、人物与新增的 stylized text（风格化文字）能自动匹配光影，实现电影级合成效果。\n- **精准指令执行**：模型能精确理解长段落编辑指令，一次性完成“添加节日妆容”、“改变手持物”及“调整环境光”等多个复杂任务。\n- **工作流大幅提速**：高保真生成能力减少了后期修图需求，设计师可将单张海报的制作时间从小时级缩短至分钟级。\n\nFireRed-Image-Edit 通过解决人物一致性与复杂指令跟随的核心痛点，将电商素材生产从繁琐的手工修图转变为高效的自动化生成流程。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFireRedTeam_FireRed-Image-Edit_877943b7.jpg","FireRedTeam","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FFireRedTeam_5699dc7e.png","小红书Super Intelligence部门下属基础算法实验室， Xiaohongshu Super Intelligence fundamental technology lab",null,"https:\u002F\u002Fgithub.com\u002FFireRedTeam",[20,24],{"name":21,"color":22,"percentage":23},"Python","#3572A5",98.3,{"name":25,"color":26,"percentage":27},"Shell","#89e051",1.7,1162,67,"2026-04-17T13:18:20","Apache-2.0",3,"未说明","需要 NVIDIA GPU，优化后推理仅需 30GB 显存 (VRAM)，支持蒸馏、量化和静态编译加速",{"notes":36,"python":33,"dependencies":37},"1. 提供轻量化推理脚本，开启优化模式 (--optimized True) 可实现约 4.5 秒\u002F张的生成速度。2. 原生支持 ComfyUI 节点和 GGUF 轻量格式。3. 支持 LoRA 训练生态，包含完整的训练代码。4. 包含智能 Agent 工作流，可自动处理多图像拼接和区域检测。5. 模型权重可在 HuggingFace 和 ModelScope 下载。",[38,39,40,41,42],"torch","transformers","accelerate","diffusers","ComfyUI (原生支持)",[44,45],"图像","开发框架",[47,48,49,50,51,52],"aigc","deep-learning","diffusion-models","image-generation","image2image","pytorch",2,"ready","2026-03-27T02:49:30.150509","2026-04-18T22:33:42.827721",[],[],[60,70,78,87,95,104],{"id":61,"name":62,"github_repo":63,"description_zh":64,"stars":65,"difficulty_score":32,"last_commit_at":66,"category_tags":67,"status":54},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,"2026-04-06T06:32:30",[68,45,44,69],"Agent","数据工具",{"id":71,"name":72,"github_repo":73,"description_zh":74,"stars":75,"difficulty_score":32,"last_commit_at":76,"category_tags":77,"status":54},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[45,44,68],{"id":79,"name":80,"github_repo":81,"description_zh":82,"stars":83,"difficulty_score":53,"last_commit_at":84,"category_tags":85,"status":54},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",160015,"2026-04-18T11:30:52",[45,68,86],"语言模型",{"id":88,"name":89,"github_repo":90,"description_zh":91,"stars":92,"difficulty_score":53,"last_commit_at":93,"category_tags":94,"status":54},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[45,44,68],{"id":96,"name":97,"github_repo":98,"description_zh":99,"stars":100,"difficulty_score":53,"last_commit_at":101,"category_tags":102,"status":54},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[103,68,44,45],"插件",{"id":105,"name":106,"github_repo":107,"description_zh":108,"stars":109,"difficulty_score":53,"last_commit_at":110,"category_tags":111,"status":54},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[103,45]]