[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-bytedance--InfiniteYou":3,"tool-bytedance--InfiniteYou":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",149489,2,"2026-04-10T11:32:46",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":77,"owner_website":78,"owner_url":79,"languages":80,"stars":85,"forks":86,"last_commit_at":87,"license":88,"difficulty_score":10,"env_os":89,"env_gpu":90,"env_ram":91,"env_deps":92,"category_tags":97,"github_topics":100,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":115,"updated_at":116,"faqs":117,"releases":148},6347,"bytedance\u002FInfiniteYou","InfiniteYou","🔥 [ICCV 2025 Highlight] InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity","InfiniteYou 是一款由字节跳动智能创作团队推出的开源 AI 图像重绘工具，旨在让用户在灵活编辑照片的同时，完美保留人物原本的身份特征。针对当前基于扩散变换器（DiT，如 FLUX）的生成模型常出现的人脸相似度低、图文对齐差以及画面质感不足等痛点，InfiniteYou 提供了高效的解决方案。\n\n该工具的核心亮点在于其独特的\"InfuseNet\"模块，它通过残差连接将身份特征注入基础模型，既确保了“长得像”，又维持了高水平的生成质量与美学效果。此外，项目采用多阶段训练策略，利用合成数据有效避免了生硬的“人脸复制粘贴”现象，显著提升了自然度。作为 ICCV 2025 的高亮论文成果，InfiniteYou 采用了即插即用的设计理念，不仅性能超越现有基准，还能轻松兼容多种现有方法。\n\n无论是希望快速体验换装、换背景功能的普通用户和设计师，还是致力于研究身份保持生成技术的开发者与科研人员，都能从中受益。项目已开放模型权重、ComfyUI 节点及在线演示，并提供了量化选项以降低显存需求，让高性能的个性化图像创作变得更加触手可及。","\u003Cdiv align=\"center\">\n\n## InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity\n\n[**Liming Jiang**](https:\u002F\u002Fliming-jiang.com\u002F)&nbsp;&nbsp;&nbsp;&nbsp;\n[**Qing Yan**](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=0TIYjPAAAAAJ)&nbsp;&nbsp;&nbsp;&nbsp;\n[**Yumin Jia**](https:\u002F\u002Fwww.linkedin.com\u002Fin\u002Fyuminjia\u002F)&nbsp;&nbsp;&nbsp;&nbsp;\n[**Zichuan Liu**](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=-H18WY8AAAAJ)&nbsp;&nbsp;&nbsp;&nbsp;\n[**Hao Kang**](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=VeTCSyEAAAAJ)&nbsp;&nbsp;&nbsp;&nbsp;\n[**Xin Lu**](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=mFC0wp8AAAAJ)\u003Cbr \u002F>\nByteDance Intelligent Creation\u003Cbr \u002F>\n**ICCV 2025 (\u003Cspan style=\"color:#F44336\">Highlight\u003C\u002Fspan>)**\n\n\u003Ca href=\"https:\u002F\u002Fbytedance.github.io\u002FInfiniteYou\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=Project&message=Page&color=blue&logo=github-pages\">\u003C\u002Fa> &ensp;\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.16418\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=ArXiv&message=Paper&color=darkred&logo=arxiv\">\u003C\u002Fa> &ensp;\n\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FInfiniteYou\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=%F0%9F%A4%96%20Released&message=Models&color=green\">\u003C\u002Fa> &ensp;\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fbytedance\u002FComfyUI_InfiniteYou\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=%E2%9A%99%EF%B8%8F%20ComfyUI&message=Node&color=purple\">\u003C\u002Fa> &ensp;\n\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FByteDance\u002FInfiniteYou-FLUX\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=%F0%9F%A4%97%20Hugging%20Face&message=Demo&color=orange\">\u003C\u002Fa> &ensp;\n\n\u003C\u002Fdiv>\n\n![teaser](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbytedance_InfiniteYou_readme_c6b5f4962295.jpg)\n\n> **Abstract:** *Achieving flexible and high-fidelity identity-preserved image generation remains formidable, particularly with advanced Diffusion Transformers (DiTs) like FLUX. We introduce **InfiniteYou (InfU)**, one of the earliest robust frameworks leveraging DiTs for this task. InfU addresses significant issues of existing methods, such as insufficient identity similarity, poor text-image alignment, and low generation quality and aesthetics. Central to InfU is InfuseNet, a component that injects identity features into the DiT base model via residual connections, enhancing identity similarity while maintaining generation capabilities. A multi-stage training strategy, including pretraining and supervised fine-tuning (SFT) with synthetic single-person-multiple-sample (SPMS) data, further improves text-image alignment, ameliorates image quality, and alleviates face copy-pasting. Extensive experiments demonstrate that InfU achieves state-of-the-art performance, surpassing existing baselines. In addition, the plug-and-play design of InfU ensures compatibility with various existing methods, offering a valuable contribution to the broader community.*\n\n\n## 🔥 News\n\n- [07\u002F2025] 🔥 The [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.16418) of InfiniteYou is selected as ICCV 2025 (\u003Cspan style=\"color:#F44336\">**Highlight**\u003C\u002Fspan>).\n\n- [06\u002F2025] 🔥 The [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.16418) of InfiniteYou is accepted to ICCV 2025.\n\n- [04\u002F2025] 🔥 The official [ComfyUI node](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FComfyUI_InfiniteYou) is released. Unofficial [ComfyUI contributions](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FInfiniteYou#comfyui-nodes) are appreciated.\n\n- [04\u002F2025] 🔥 Quantization and offloading [options](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FInfiniteYou#memory-requirements) are provided to reduce the memory requirements for InfiniteYou-FLUX v1.0.\n\n- [03\u002F2025] 🔥 The [code](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FInfiniteYou), [model](https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FInfiniteYou), and [demo](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FByteDance\u002FInfiniteYou-FLUX) of InfiniteYou-FLUX v1.0 are released.\n\n- [03\u002F2025] 🔥 The [project page](https:\u002F\u002Fbytedance.github.io\u002FInfiniteYou) of InfiniteYou is created.\n\n- [03\u002F2025] 🔥 The [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.16418) of InfiniteYou is released on arXiv.\n\n\n## 💡 Important Usage Tips\n\n- We released two model variants of InfiniteYou-FLUX v1.0: [aes_stage2](https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FInfiniteYou\u002Ftree\u002Fmain\u002Finfu_flux_v1.0\u002Faes_stage2) and [sim_stage1](https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FInfiniteYou\u002Ftree\u002Fmain\u002Finfu_flux_v1.0\u002Fsim_stage1). The `aes_stage2` is our model after SFT, which is used by default for better text-image alignment and aesthetics. For higher ID similarity, please try `sim_stage1` (using `--model_version` to switch). More details can be found in our [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.16418).\n\n- To better fit specific personal needs, we find that two arguments are highly useful to adjust: \u003Cbr \u002F>`--infusenet_conditioning_scale` (default: `1.0`) and `--infusenet_guidance_start` (default: `0.0`). Usually, you may NOT need to adjust them. If necessary, start by trying a slightly larger `--infusenet_guidance_start` (*e.g.*, `0.1`) only (especially helpful for `sim_stage1`). If still not satisfactory, then try a slightly smaller `--infusenet_conditioning_scale` (*e.g.*, `0.9`).\n\n- We also provided two LoRAs ([Realism](https:\u002F\u002Fcivitai.com\u002Fmodels\u002F631986?modelVersionId=706528) and [Anti-blur](https:\u002F\u002Fcivitai.com\u002Fmodels\u002F675581\u002Fanti-blur-flux-lora)) to enable additional usage flexibility. If needed, try `Realism` only first.  They are *entirely optional*, which are examples to try but are NOT used in our paper.\n\n- If the generated gender does not align with your preferences, try adding specific words in the text prompt, such as 'a man', 'a woman', *etc*. We encourage users to use inclusive and respectful language.\n\n\n## :european_castle: Model Zoo\n\n| InfiniteYou Version | Model Version | Base Model Trained with | Description |  \n| :---: | :---: | :---: | :---: |\n| [InfiniteYou-FLUX v1.0](https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FInfiniteYou) | [aes_stage2](https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FInfiniteYou\u002Ftree\u002Fmain\u002Finfu_flux_v1.0\u002Faes_stage2) | [FLUX.1-dev](https:\u002F\u002Fhuggingface.co\u002Fblack-forest-labs\u002FFLUX.1-dev) | Stage-2 model after SFT. Better text-image alignment and aesthetics. |\n| [InfiniteYou-FLUX v1.0](https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FInfiniteYou) | [sim_stage1](https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FInfiniteYou\u002Ftree\u002Fmain\u002Finfu_flux_v1.0\u002Fsim_stage1) | [FLUX.1-dev](https:\u002F\u002Fhuggingface.co\u002Fblack-forest-labs\u002FFLUX.1-dev) | Stage-1 model before SFT. Higher identity similarity. |\n\n\n## 🔧 Requirements and Installation\n\n### Dependencies\n\nSimply run this one-line command to install (feel free to create a `python3` virtual environment before you run):\n\n```bash\npip install -r requirements.txt\n```\n\n### Memory Requirements \n\n- **Full-performance**: The original `bf16` model inference requires a **peak VRAM** of around **43GB**.\n\n- **Fast CPU offloading**: By specifying only `--cpu_offload` in [test.py](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FInfiniteYou\u002Fblob\u002Fmain\u002Ftest.py#L44), the **peak VRAM** is reduced to around **30GB** with **NO** performance degradation.\n\n- **8-bit quantization**: By specifying only `--quantize_8bit` in [test.py](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FInfiniteYou\u002Fblob\u002Fmain\u002Ftest.py#L44), the **peak VRAM** is reduced to around **24GB** with performance remaining very similar.\n\n- **Combining fast CPU offloading and 8-bit quantization**: By specifying both `--cpu_offload` and \u003Cbr \u002F>`--quantize_8bit`, the **peak VRAM** is further reduced to around **16GB** with performance remaining very similar.\n\nIf you want to use our models but only have a GPU with even less VRAM, please further refer to [Diffusers memory reduction tips](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Fdiffusers\u002Fen\u002Foptimization\u002Fmemory), where some more aggressive strategies may be helpful. Community contributions are also welcome.\n\n\n## ⚡️ Quick Inference\n\n### Local Inference Script\n\n```bash\npython test.py --id_image .\u002Fassets\u002Fexamples\u002Fman.jpg --prompt \"A man, portrait, cinematic\" --out_results_dir .\u002Fresults\n```\n\n\u003Cdetails>\n\u003Csummary style='font-size:20px'>\u003Cb>\u003Ci>Explanation of all the arguments (click to expand!)\u003C\u002Fi>\u003C\u002Fb>\u003C\u002Fsummary>\n\n- Input and output:\n  - `--id_image (str)`: The path to the input identity (ID) image. Default: `.\u002Fassets\u002Fexamples\u002Fman.jpg`.\n  - `--prompt (str)`: The text prompt for image generation. Default: `A man, portrait, cinematic`.\n  - `--out_results_dir (str)`: The path to the output directory to save the generated results. Default: `.\u002Fresults`.\n  - `--control_image (str or None)`: The path to the control image \\[*optional*\\] to extract five facical keypoints to control the generation. Default: `None`.\n  - `--base_model_path (str)`: The huggingface or local path to the base model. Default: `black-forest-labs\u002FFLUX.1-dev`.\n  - `--model_dir (str)`: The path to the InfiniteYou model directory. Default: `ByteDance\u002FInfiniteYou`.\n- Version control:\n  - `--infu_flux_version (str)`: InfiniteYou-FLUX version: currently only `v1.0` is supported. Default: `v1.0`.\n  - `--model_version (str)`: The model variant to use: `aes_stage2` | `sim_stage1`. Default: `aes_stage2`.\n- General inference arguments:\n  - `--cuda_device (int)`: The cuda device ID to use. Default: `0`.\n  - `--seed (int)`: The seed for reproducibility (0 for random). Default: `0`.\n  - `--guideance_scale (float)`: The guidance scale for the diffusion process. Default: `3.5`.\n  - `--num_steps (int)`: The number of inference steps. Default: `30`.\n- InfiniteYou-specific arguments:\n  - `--infusenet_conditioning_scale (float)`: The scale for the InfuseNet conditioning. Default: `1.0`.\n  - `--infusenet_guidance_start (float)`: The start point for the InfuseNet guidance injection. Default: `0.0`.\n  - `--infusenet_guidance_end (float)`: The end point for the InfuseNet guidance injection. Default: `1.0`.\n- Optional LoRAs:\n  - `--enable_realism_lora (store_true)`: Whether to enable the Realism LoRA. Default: `False`.\n  - `--enable_anti_blur_lora (store_true)`: Whether to enable the Anti-blur LoRA. Default: `False`.\n- Memory reduction options:\n  - `--quantize_8bit (store_true)`: Whether to quantize the model to the 8-bit format. Default: `False`.\n  - `--cpu_offload (store_true)`: Whether to use fast CPU offloading. Default: `False`.\n\n\u003C\u002Fdetails>\n\n\n### Local Gradio Demo\n\n```bash\npython app.py\n```\n\n### Online Hugging Face Demo\n\nWe appreciate the GPU grant from the Hugging Face team. \nYou can also try our [InfiniteYou-FLUX Hugging Face demo](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FByteDance\u002FInfiniteYou-FLUX) online.\n\n### ComfyUI Nodes\n\n- **Official ComfyUI native node implementation**\n  - [bytedance\u002FComfyUI_InfiniteYou](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FComfyUI_InfiniteYou)\n\n- **Unofficial contributions**\n  - [ZenAI-Vietnam\u002FComfyUI_InfiniteYou](https:\u002F\u002Fgithub.com\u002FZenAI-Vietnam\u002FComfyUI_InfiniteYou)\n  - [katalist-ai\u002FComfyUI-InfiniteYou](https:\u002F\u002Fgithub.com\u002Fkatalist-ai\u002FComfyUI-InfiniteYou)\n  - [niknah\u002FComfyUI-InfiniteYou](https:\u002F\u002Fgithub.com\u002Fniknah\u002FComfyUI-InfiniteYou)\n  - [game4d\u002FComfyUI-BDsInfiniteYou](https:\u002F\u002Fgithub.com\u002Fgame4d\u002FComfyUI-BDsInfiniteYou)\n  - [GGUF version](https:\u002F\u002Fcivitai.com\u002Fmodels\u002F1424364?modelVersionId=1617144) (16GB VRAM) and [Christmas Toy LoRA](https:\u002F\u002Fcivitai.com\u002Fmodels\u002F1466015?modelVersionId=1658038) by [@MegaCocos](https:\u002F\u002Fgithub.com\u002FMegaCocos)\n\n\n## 🆚 Comparison with State-of-the-Art Relevant Methods\n\n![comparative_results](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbytedance_InfiniteYou_readme_407e4a7e6bb3.jpg)\n\nQualitative comparison results of InfU with the state-of-the-art baselines, FLUX.1-dev IP-Adapter and PuLID-FLUX. The identity similarity and text-image alignment of the results generated by FLUX.1-dev IP-Adapter (IPA) are inadequate. PuLID-FLUX generates images with decent identity similarity. However, it suffers from poor text-image alignment (Columns 1, 2, 4), and the image quality (e.g., bad hands in Column 5) and aesthetic appeal are degraded. In addition, the face copy-paste issue of PuLID-FLUX is evident (Column 5). In comparison, the proposed InfU outperforms the baselines across all dimensions.\n\n\n## ⚙️ Plug-and-Play Property with Off-the-Shelf Popular Approaches\n\n![plug_and_play](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbytedance_InfiniteYou_readme_6473a52ab97b.jpg)\n\nInfU features a desirable plug-and-play design, compatible with many existing methods. It naturally supports base model replacement with any variants of FLUX.1-dev, such as FLUX.1-schnell for more efficient generation (e.g., in 4 steps). The compatibility with ControlNets and LoRAs provides more controllability and flexibility for customized tasks. Notably, the compatibility with OminiControl extends our potential for multi-concept personalization, such as interacted identity (ID) and object personalized generation. InfU is also compatible with IP-Adapter (IPA) for stylization of personalized images, producing decent results when injecting style references via IPA. Our plug-and-play feature may extend to even more approaches, providing valuable contributions to the broader community.\n\n\n## 📜 Disclaimer and Licenses\n\nThe images used in this repository and related demos are sourced from consented subjects or generated by the models. These pictures are intended solely to showcase the capabilities of our research. If you have any concerns, please feel free to contact us, and we will promptly remove any inappropriate content.\n\nThe use of the released code, model, and demo must strictly adhere to the respective licenses. Our code is released under the [Apache License 2.0](.\u002FLICENSE), and our model is released under the [Creative Commons Attribution-NonCommercial 4.0 International Public License](https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FInfiniteYou\u002Fblob\u002Fmain\u002FLICENSE) for academic research purposes only. Any manual or automatic downloading of the face models from [InsightFace](https:\u002F\u002Fgithub.com\u002Fdeepinsight\u002Finsightface), the [FLUX.1-dev](https:\u002F\u002Fhuggingface.co\u002Fblack-forest-labs\u002FFLUX.1-dev) base model, LoRAs ([Realism](https:\u002F\u002Fcivitai.com\u002Fmodels\u002F631986?modelVersionId=706528) and [Anti-blur](https:\u002F\u002Fcivitai.com\u002Fmodels\u002F675581\u002Fanti-blur-flux-lora)), *etc.*, must follow their original licenses and be used only for academic research purposes.\n\nThis research aims to positively impact the field of Generative AI. Any usage of this method must be responsible and comply with local laws. The developers do not assume any responsibility for any potential misuse.\n\n\n## 🤗 Acknowledgments\n\nWe sincerely acknowledge the insightful discussions from Stathi Fotiadis, Min Jin Chong, Xiao Yang, Tiancheng Zhi, Jing Liu, and Xiaohui Shen. We genuinely appreciate the help from Jincheng Liang and Lu Guo with our user study and qualitative evaluation.\n\n\n## 📖 Citation\n\nIf you find InfiniteYou useful for your research or applications, please cite our paper:\n\n```bibtex\n@inproceedings{jiang2025infiniteyou,\n  title={{InfiniteYou}: Flexible Photo Recrafting While Preserving Your Identity},\n  author={Jiang, Liming and Yan, Qing and Jia, Yumin and Liu, Zichuan and Kang, Hao and Lu, Xin},\n  booktitle={ICCV},\n  year={2025}\n}\n```\n\nWe also appreciate it if you could give a star :star: to this repository. Thanks a lot!\n","\u003Cdiv align=\"center\">\n\n## InfiniteYou: 灵活的照片重塑，同时保留您的身份特征\n\n[**Liming Jiang**](https:\u002F\u002Fliming-jiang.com\u002F)&nbsp;&nbsp;&nbsp;&nbsp;\n[**Qing Yan**](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=0TIYjPAAAAAJ)&nbsp;&nbsp;&nbsp;&nbsp;\n[**Yumin Jia**](https:\u002F\u002Fwww.linkedin.com\u002Fin\u002Fyuminjia\u002F)&nbsp;&nbsp;&nbsp;&nbsp;\n[**Zichuan Liu**](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=-H18WY8AAAAJ)&nbsp;&nbsp;&nbsp;&nbsp;\n[**Hao Kang**](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=VeTCSyEAAAAJ)&nbsp;&nbsp;&nbsp;&nbsp;\n[**Xin Lu**](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=mFC0wp8AAAAJ)\u003Cbr \u002F>\n字节跳动智能创作\u003Cbr \u002F>\n**ICCV 2025 (\u003Cspan style=\"color:#F44336\">亮点\u003C\u002Fspan>)**\n\n\u003Ca href=\"https:\u002F\u002Fbytedance.github.io\u002FInfiniteYou\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=Project&message=Page&color=blue&logo=github-pages\">\u003C\u002Fa> &ensp;\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.16418\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=ArXiv&message=Paper&color=darkred&logo=arxiv\">\u003C\u002Fa> &ensp;\n\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FInfiniteYou\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=%F0%9F%A4%96%20Released&message=Models&color=green\">\u003C\u002Fa> &ensp;\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fbytedance\u002FComfyUI_InfiniteYou\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=%E2%9A%99%EF%B8%8F%20ComfyUI&message=Node&color=purple\">\u003C\u002Fa> &ensp;\n\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FByteDance\u002FInfiniteYou-FLUX\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=%F0%9F%A4%97%20Hugging%20 Face&message=Demo&color=orange\">\u003C\u002Fa> &ensp;\n\n\u003C\u002Fdiv>\n\n![teaser](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbytedance_InfiniteYou_readme_c6b5f4962295.jpg)\n\n> **摘要:** *实现灵活且高保真度的身份保留图像生成仍然极具挑战性，尤其是在使用像FLUX这样的先进扩散Transformer (DiT)时。我们提出了**InfiniteYou (InfU)**，这是最早利用DiT完成这一任务的稳健框架之一。InfU解决了现有方法中的诸多问题，例如身份相似度不足、文本与图像对齐不佳以及生成质量和美学较低等。InfU的核心是InfuseNet组件，它通过残差连接将身份特征注入到DiT基础模型中，在提升身份相似度的同时保持生成能力。此外，多阶段训练策略，包括预训练和基于合成单人多样本（SPMS）数据的监督微调（SFT），进一步提升了文本与图像的对齐效果，改善了图像质量，并缓解了人脸复制粘贴的问题。大量实验表明，InfU达到了最先进的性能，超越了现有的基线方法。此外，InfU的即插即用设计确保了其与各种现有方法的兼容性，为更广泛的社区提供了宝贵的贡献。*\n\n\n## 🔥 新闻\n\n- [07\u002F2025] 🔥 InfiniteYou的[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.16418)被选为ICCV 2025的(\u003Cspan style=\"color:#F44336\">**亮点**\u003C\u002Fspan>)。\n\n- [06\u002F2025] 🔥 InfiniteYou的[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.16418)被ICCV 2025接收。\n\n- [04\u002F2025] 🔥 官方[ComfyUI节点](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FComfyUI_InfiniteYou)发布。非官方的[ComfyUI贡献](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FInfiniteYou#comfyui-nodes)也备受赞赏。\n\n- [04\u002F2025] 🔥 提供了量化和卸载[选项](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FInfiniteYou#memory-requirements)，以降低InfiniteYou-FLUX v1.0的内存需求。\n\n- [03\u002F2025] 🔥 InfiniteYou-FLUX v1.0的[代码](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FInfiniteYou)、[模型](https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FInfiniteYou)和[演示](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FByteDance\u002FInfiniteYou-FLUX)发布。\n\n- [03\u002F2025] 🔥 InfiniteYou的[项目页面](https:\u002F\u002Fbytedance.github.io\u002FInfiniteYou)创建。\n\n- [03\u002F2025] 🔥 InfiniteYou的[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.16418)在arXiv上发布。\n\n\n## 💡 重要使用提示\n\n- 我们发布了InfiniteYou-FLUX v1.0的两个模型变体：[aes_stage2](https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FInfiniteYou\u002Ftree\u002Fmain\u002Finfu_flux_v1.0\u002Faes_stage2)和[sim_stage1](https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FInfiniteYou\u002Ftree\u002Fmain\u002Finfu_flux_v1.0\u002Fsim_stage1)。`aes_stage2`是我们经过SFT后的模型，默认情况下用于获得更好的文本与图像对齐及美学效果。若需更高的ID相似度，请尝试`sim_stage1`（使用`--model_version`进行切换）。更多细节请参阅我们的[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.16418)。\n\n- 为了更好地适应个人需求，我们发现有两个参数非常有用，可以用来调整： \u003Cbr \u002F>`--infusenet_conditioning_scale`（默认值：`1.0`）和`--infusenet_guidance_start`（默认值：`0.0`）。通常情况下，您可能不需要调整它们。如果确实需要，可以先尝试稍微增大`--infusenet_guidance_start`的值（例如`0.1`），这尤其适用于`sim_stage1`。如果仍不满意，则可以尝试稍微减小`--infusenet_conditioning_scale`的值（例如`0.9`）。\n\n- 我们还提供了两个LoRA模型（[Realism](https:\u002F\u002Fcivitai.com\u002Fmodels\u002F631986?modelVersionId=706528)和[Anti-blur](https:\u002F\u002Fcivitai.com\u002Fmodels\u002F675581\u002Fanti-blur-flux-lora)），以提供更多的使用灵活性。如有需要，可先尝试仅使用`Realism`。这些LoRA模型是*完全可选的*，仅供参考，并未在我们的论文中使用。\n\n- 如果生成的性别与您的偏好不符，可以尝试在文本提示中加入特定词汇，如“一个男人”、“一个女人”等。我们鼓励用户使用包容性和尊重他人的语言。\n\n\n## :european_castle: 模型库\n\n| InfiniteYou版本 | 模型版本 | 训练的基础模型 | 描述 |\n| :---: | :---: | :---: | :---: |\n| [InfiniteYou-FLUX v1.0](https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FInfiniteYou) | [aes_stage2](https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FInfiniteYou\u002Ftree\u002Fmain\u002Finfu_flux_v1.0\u002Faes_stage2) | [FLUX.1-dev](https:\u002F\u002Fhuggingface.co\u002Fblack-forest-labs\u002FFLUX.1-dev) | SFT后的第二阶段模型。文本与图像对齐更好，美学效果更佳。 |\n| [InfiniteYou-FLUX v1.0](https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FInfiniteYou) | [sim_stage1](https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FInfiniteYou\u002Ftree\u002Fmain\u002Finfu_flux_v1.0\u002Fsim_stage1) | [FLUX.1-dev](https:\u002F\u002Fhuggingface.co\u002Fblack-forest-labs\u002FFLUX.1-dev) | SFT前的第一阶段模型。身份相似度更高。 |\n\n\n## 🔧 要求与安装\n\n### 依赖项\n\n只需运行以下一行命令即可安装（建议在运行前先创建一个`python3`虚拟环境）：\n\n```bash\npip install -r requirements.txt\n```\n\n### 内存需求\n\n- **全性能模式**：原始的 `bf16` 模型推理需要约 **43GB** 的 **峰值显存**。\n\n- **快速 CPU 交换**：只需在 [test.py](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FInfiniteYou\u002Fblob\u002Fmain\u002Ftest.py#L44) 中指定 `--cpu_offload`，即可将 **峰值显存** 降低至约 **30GB**，且性能 **无** 任何下降。\n\n- **8 位量化**：只需在 [test.py](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FInfiniteYou\u002Fblob\u002Fmain\u002Ftest.py#L44) 中指定 `--quantize_8bit`，即可将 **峰值显存** 降至约 **24GB**，同时保持与原模型几乎一致的性能。\n\n- **结合快速 CPU 交换和 8 位量化**：同时指定 `--cpu_offload` 和 `--quantize_8bit` 后，**峰值显存** 进一步降低至约 **16GB**，且性能依然非常接近原模型。\n\n如果您希望使用我们的模型，但 GPU 显存更少，请参阅 [Diffusers 内存优化技巧](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Fdiffusers\u002Fen\u002Foptimization\u002Fmemory)，其中可能提供一些更为激进的策略。我们也欢迎社区贡献。\n\n\n## ⚡️ 快速推理\n\n### 本地推理脚本\n\n```bash\npython test.py --id_image .\u002Fassets\u002Fexamples\u002Fman.jpg --prompt \"A man, portrait, cinematic\" --out_results_dir .\u002Fresults\n```\n\n\u003Cdetails>\n\u003Csummary style='font-size:20px'>\u003Cb>\u003Ci>所有参数说明（点击展开！）\u003C\u002Fi>\u003C\u002Fb>\u003C\u002Fsummary>\n\n- 输入输出：\n  - `--id_image (str)`：输入身份（ID）图像的路径。默认值：`.\u002Fassets\u002Fexamples\u002Fman.jpg`。\n  - `--prompt (str)`：用于图像生成的文本提示。默认值：`A man, portrait, cinematic`。\n  - `--out_results_dir (str)`：保存生成结果的输出目录路径。默认值：`.\u002Fresults`。\n  - `--control_image (str 或 None)`：控制图像的路径 \\[*可选*\\]，用于提取五个面部关键点以控制生成过程。默认值：`None`。\n  - `--base_model_path (str)`：基础模型的 Hugging Face 路径或本地路径。默认值：`black-forest-labs\u002FFLUX.1-dev`。\n  - `--model_dir (str)`：InfiniteYou 模型目录的路径。默认值：`ByteDance\u002FInfiniteYou`。\n- 版本控制：\n  - `--infu_flux_version (str)`：InfiniteYou-FLUX 版本：目前仅支持 `v1.0`。默认值：`v1.0`。\n  - `--model_version (str)`：使用的模型变体：`aes_stage2` | `sim_stage1`。默认值：`aes_stage2`。\n- 通用推理参数：\n  - `--cuda_device (int)`：使用的 CUDA 设备 ID。默认值：`0`。\n  - `--seed (int)`：用于复现性的随机种子（0 表示随机）。默认值：`0`。\n  - `--guideance_scale (float)`：扩散过程中的引导尺度。默认值：`3.5`。\n  - `--num_steps (int)`：推理步骤数。默认值：`30`。\n- InfiniteYou 特定参数：\n  - `--infusenet_conditioning_scale (float)`：InfuseNet 条件调节的尺度。默认值：`1.0`。\n  - `--infusenet_guidance_start (float)`：InfuseNet 引导注入的起始点。默认值：`0.0`。\n  - `--infusenet_guidance_end (float)`：InfuseNet 引导注入的结束点。默认值：`1.0`。\n- 可选 LoRA：\n  - `--enable_realism_lora (store_true)`：是否启用 Realism LoRA。默认值：`False`。\n  - `--enable_anti_blur_lora (store_true)`：是否启用 Anti-blur LoRA。默认值：`False`。\n- 内存优化选项：\n  - `--quantize_8bit (store_true)`：是否将模型量化为 8 位格式。默认值：`False`。\n  - `--cpu_offload (store_true)`：是否使用快速 CPU 交换。默认值：`False`。\n\n\u003C\u002Fdetails>\n\n\n### 本地 Gradio 演示\n\n```bash\npython app.py\n```\n\n### 在线 Hugging Face 演示\n\n我们感谢 Hugging Face 团队提供的 GPU 支持。您也可以在线试用我们的 [InfiniteYou-FLUX Hugging Face 演示](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FByteDance\u002FInfiniteYou-FLUX)。\n\n### ComfyUI 节点\n\n- **官方 ComfyUI 原生节点实现**\n  - [bytedance\u002FComfyUI_InfiniteYou](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FComfyUI_InfiniteYou)\n\n- **非官方贡献**\n  - [ZenAI-Vietnam\u002FComfyUI_InfiniteYou](https:\u002F\u002Fgithub.com\u002FZenAI-Vietnam\u002FComfyUI_InfiniteYou)\n  - [katalist-ai\u002FComfyUI-InfiniteYou](https:\u002F\u002Fgithub.com\u002Fkatalist-ai\u002FComfyUI-InfiniteYou)\n  - [niknah\u002FComfyUI-InfiniteYou](https:\u002F\u002Fgithub.com\u002Fniknah\u002FComfyUI-InfiniteYou)\n  - [game4d\u002FComfyUI-BDsInfiniteYou](https:\u002F\u002Fgithub.com\u002Fgame4d\u002FComfyUI-BDsInfiniteYou)\n  - [GGUF 版本](https:\u002F\u002Fcivitai.com\u002Fmodels\u002F1424364?modelVersionId=1617144)（16GB 显存）以及由 [@MegaCocos](https:\u002F\u002Fgithub.com\u002FMegaCocos) 提供的 [Christmas Toy LoRA](https:\u002F\u002Fcivitai.com\u002Fmodels\u002F1466015?modelVersionId=1658038)\n\n\n## 🆚 与当前最先进相关方法的对比\n\n![comparative_results](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbytedance_InfiniteYou_readme_407e4a7e6bb3.jpg)\n\nInfU 与当前最先进的基线 FLUX.1-dev IP-Adapter 和 PuLID-FLUX 的定性比较结果。FLUX.1-dev IP-Adapter（IPA）生成的结果在身份相似性和文本与图像的对齐方面表现不足。PuLID-FLUX 虽能生成具有一定身份相似性的图像，但其文本与图像的对齐较差（第 1、2、4 列），且图像质量和审美效果也有所下降（例如第 5 列中手部处理不佳）。此外，PuLID-FLUX 还存在明显的面部复制粘贴问题（第 5 列）。相比之下，我们提出的 InfU 在所有维度上均优于这些基线方法。\n\n\n## ⚙️ 与现有流行方法的即插即用特性\n\n![plug_and_play](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbytedance_InfiniteYou_readme_6473a52ab97b.jpg)\n\nInfU 具有理想的即插即用设计，可与多种现有方法兼容。它自然支持用 FLUX.1-dev 的任何变体替换基础模型，例如使用 FLUX.1-schnell 实现更高效的生成（例如仅需 4 步）。与 ControlNets 和 LoRAs 的兼容性则为定制化任务提供了更高的可控性和灵活性。值得注意的是，与 OminiControl 的兼容性进一步扩展了我们在多概念个性化方面的潜力，例如交互式身份（ID）和对象的个性化生成。此外，InfU 还可与 IP-Adapter（IPA）配合使用，为个性化图像添加风格化效果，并通过 IPA 注入风格参考时也能获得不错的效果。我们的即插即用特性有望扩展到更多方法，为更广泛的社区带来宝贵贡献。\n\n## 📜 免责声明与许可\n\n本仓库及相关演示中使用的图像均来自获得同意的拍摄对象，或由模型生成。这些图片仅用于展示我们研究的能力。如果您有任何疑虑，请随时与我们联系，我们将立即移除任何不当内容。\n\n所发布的代码、模型和演示的使用必须严格遵守各自的许可协议。我们的代码采用 [Apache License 2.0](.\u002FLICENSE) 许可，而我们的模型则采用 [Creative Commons Attribution-NonCommercial 4.0 International Public License](https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FInfiniteYou\u002Fblob\u002Fmain\u002FLICENSE)，仅供学术研究使用。从 [InsightFace](https:\u002F\u002Fgithub.com\u002Fdeepinsight\u002Finsightface)、[FLUX.1-dev](https:\u002F\u002Fhuggingface.co\u002Fblack-forest-labs\u002FFLUX.1-dev) 基础模型、LoRA（如 [Realism](https:\u002F\u002Fcivitai.com\u002Fmodels\u002F631986?modelVersionId=706528) 和 [Anti-blur](https:\u002F\u002Fcivitai.com\u002Fmodels\u002F675581\u002Fanti-blur-flux-lora)）等处手动或自动下载的人脸模型，均需遵循其原始许可，并仅限于学术研究用途。\n\n本研究旨在对生成式人工智能领域产生积极影响。任何对该方法的使用都应负责任，并遵守当地法律法规。开发者对任何潜在的滥用行为不承担任何责任。\n\n\n## 🤗 致谢\n\n我们衷心感谢 Stathi Fotiadis、Min Jin Chong、Xiao Yang、Tiancheng Zhi、Jing Liu 和 Xiaohui Shen 提供的富有洞见的讨论。同时，我们也真诚地感谢 Jincheng Liang 和 Lu Guo 在用户研究和定性评估方面给予的帮助。\n\n\n## 📖 引用\n\n如果您在研究或应用中发现 InfiniteYou 有所帮助，请引用我们的论文：\n\n```bibtex\n@inproceedings{jiang2025infiniteyou,\n  title={{InfiniteYou}: Flexible Photo Recrafting While Preserving Your Identity},\n  author={Jiang, Liming and Yan, Qing and Jia, Yumin and Liu, Zichuan and Kang, Hao and Lu, Xin},\n  booktitle={ICCV},\n  year={2025}\n}\n```\n\n此外，如果您能为本仓库点亮一颗星 :star:，我们将不胜感激！非常感谢！","# InfiniteYou 快速上手指南\n\nInfiniteYou 是由字节跳动智能创作团队推出的开源项目，基于先进的 Diffusion Transformers (DiT\u002FFLUX) 架构，旨在实现高保真的人脸身份保持图像重绘。该工具在保持人物身份特征的同时，能生成高质量且符合文本描述的图像，并有效避免“换脸”般的生硬感。\n\n## 环境准备\n\n### 系统要求\n- **操作系统**: Linux 或 Windows (推荐 Linux)\n- **Python**: 3.8 或更高版本\n- **GPU**: NVIDIA 显卡，支持 CUDA\n- **显存要求**:\n  - **全性能模式 (bf16)**: 约需 **43GB** 显存。\n  - **推荐优化模式**: 通过开启 8-bit 量化和 CPU 卸载，最低仅需 **16GB** 显存即可运行，且性能损失极小。\n\n### 前置依赖\n建议先创建一个独立的 Python 虚拟环境：\n```bash\npython3 -m venv infu_env\nsource infu_env\u002Fbin\u002Factivate  # Windows 用户请使用: infu_env\\Scripts\\activate\n```\n\n## 安装步骤\n\n1. **克隆项目代码**\n   ```bash\n   git clone https:\u002F\u002Fgithub.com\u002Fbytedance\u002FInfiniteYou.git\n   cd InfiniteYou\n   ```\n\n2. **安装依赖包**\n   国内用户建议使用清华源或阿里源加速安装：\n   ```bash\n   pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n   ```\n\n3. **模型准备**\n   项目默认会自动从 Hugging Face 下载模型。如果网络受限，可手动下载模型至本地：\n   - 主模型仓库：[ByteDance\u002FInfiniteYou](https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FInfiniteYou)\n   - 基础模型：[FLUX.1-dev](https:\u002F\u002Fhuggingface.co\u002Fblack-forest-labs\u002FFLUX.1-dev)\n   \n   *注：默认使用 `aes_stage2` 版本以获得更好的美学效果和图文对齐能力；若需极高的人脸相似度，可选择 `sim_stage1` 版本。*\n\n## 基本使用\n\n### 命令行快速推理\n\n以下命令将使用默认配置（自动启用优化策略以适应显存），根据指定的人脸图片生成新图像。\n\n```bash\npython test.py --id_image .\u002Fassets\u002Fexamples\u002Fman.jpg --prompt \"A man, portrait, cinematic\" --out_results_dir .\u002Fresults --quantize_8bit --cpu_offload\n```\n\n**参数说明：**\n- `--id_image`: 输入的人物身份参考图路径。\n- `--prompt`: 生成图像的文本描述提示词。\n- `--out_results_dir`: 生成结果的保存目录。\n- `--quantize_8bit`: **重要**，启用 8-bit 量化，显著降低显存占用（降至约 24GB）。\n- `--cpu_offload`: **重要**，启用 CPU 卸载，进一步降低显存占用（组合使用后仅需约 16GB）。\n- `--model_version`: (可选) 指定模型版本，默认为 `aes_stage2`，如需更高相似度可设为 `sim_stage1`。\n\n### 启动本地 Web 界面 (Gradio)\n\n如果你更喜欢图形化操作界面，可以运行以下命令启动本地 Demo：\n\n```bash\npython app.py\n```\n启动后，请在浏览器访问终端显示的本地地址（通常为 `http:\u002F\u002F127.0.0.1:7860`）进行操作。\n\n### ComfyUI 用户\n\n如果你习惯使用 ComfyUI，官方已发布原生节点插件：\n- 仓库地址：[bytedance\u002FComfyUI_InfiniteYou](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FComfyUI_InfiniteYou)\n- 安装后直接在 ComfyUI 中加载对应节点即可使用。","一位独立游戏开发者需要为角色生成多套不同风格（如赛博朋克、奇幻、写实）的定妆照，同时必须确保所有图片中角色的面部特征完全一致，以维持品牌辨识度。\n\n### 没有 InfiniteYou 时\n- **身份一致性差**：使用传统换脸或微调方法时，生成的角色在不同风格下五官容易发生漂移，导致玩家无法识别是同一人。\n- **提示词对齐困难**：为了强行保留人脸，往往牺牲了背景氛围和服装细节，导致画面与“赛博朋克街道”等复杂提示词严重脱节。\n- **画质与美感不足**：现有方案在融合人脸时容易产生模糊、伪影或“粘贴感”，破坏了 FLUX 模型原本的高清质感。\n- **工作流繁琐**：开发者需反复调整蒙版、重绘幅度甚至手动修图，耗费数小时才能产出一张可用素材。\n\n### 使用 InfiniteYou 后\n- **高保真身份锁定**：借助 InfuseNet 模块，无论风格如何剧烈变化，角色的核心面部特征都能被精准注入并保持高度相似。\n- **完美的文图对齐**：在保留身份的同时，能完美响应复杂的场景描述，让角色自然融入各种光影和服饰设计中。\n- **原生级生成质量**：彻底消除了生硬的“换脸”痕迹，输出图像具备电影级的审美水准和细腻的纹理细节。\n- **即插即用高效流**：通过 ComfyUI 节点一键接入，开发者仅需提供一张参考照和提示词，即可批量生成系列素材，效率提升十倍。\n\nInfiniteYou 让创作者在享受扩散模型无限创意的同时，不再为“丢失角色灵魂”而妥协，真正实现了身份保持与自由创作的完美统一。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbytedance_InfiniteYou_c6b5f496.jpg","bytedance","Bytedance Inc.","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fbytedance_7fee2b15.png","",null,"ByteDanceOSS","https:\u002F\u002Fopensource.bytedance.com","https:\u002F\u002Fgithub.com\u002Fbytedance",[81],{"name":82,"color":83,"percentage":84},"Python","#3572A5",100,2676,287,"2026-04-10T03:56:42","Apache-2.0","未说明","需要 NVIDIA GPU。完整性能需约 43GB 显存；开启 CPU offload 需约 30GB；开启 8-bit 量化需约 24GB；同时开启两者需约 16GB。基于 FLUX.1-dev，隐含需要支持 bf16 的较新架构显卡。","未说明（建议系统内存充足以配合 CPU offload）",{"notes":93,"python":94,"dependencies":95},"该工具基于 FLUX.1-dev 模型。默认模式峰值显存约 43GB，但可通过添加 '--cpu_offload'（降至 30GB）、'--quantize_8bit'（降至 24GB）或同时使用两者（降至 16GB）的参数来显著降低显存需求且性能损失极小。提供两种模型变体：'aes_stage2'（默认，文本对齐和美学更好）和 'sim_stage1'（身份相似度更高）。支持 ComfyUI 节点和本地 Gradio 演示。","未说明（文中提及创建 python3 虚拟环境）",[96],"requirements.txt 中定义的依赖（具体列表未在文中展开，隐含包含 torch, diffusers, transformers 等）",[14,98,35,15,99],"其他","视频",[101,102,103,104,105,106,107,108,109,110,111,112,113,114],"face","flux","identity-preserving","image-editing","image-generation","personalization","text-to-image","diffusion","diffusers","pytorch","research","iccv2025","diffusion-transformer","dit","2026-03-27T02:49:30.150509","2026-04-11T03:24:41.583483",[118,123,128,133,138,143],{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},28739,"运行代码时遇到 'FluxTransformer2DModel' object has no attribute 'load_lora_adapter' 错误怎么办？","这通常是由于环境依赖冲突或版本不一致导致的。解决方案是重新创建一个干净的 Conda 虚拟环境并重新安装所有依赖。用户反馈重建环境后问题得到解决，并成功加载了自定义 LoRA 模型。","https:\u002F\u002Fgithub.com\u002Fbytedance\u002FInfiniteYou\u002Fissues\u002F15",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},28740,"安装 requirements.txt 时遇到 filterpy 的 AttributeError 错误如何解决？","如果在 ComfyUI 嵌入式 Python 环境中直接安装失败，可以尝试以下变通方法：\n1. 创建一个新的虚拟环境（建议使用 Python 3.10），在其中成功安装所有 requirements。\n2. 将新环境中生成的 `filterpy` 文件夹复制到 ComfyUI 的 `python_embeded` 目录中。\n注意：ComfyUI 默认使用 Python 3.11 可能是导致直接安装失败的原因之一。","https:\u002F\u002Fgithub.com\u002Fbytedance\u002FInfiniteYou\u002Fissues\u002F23",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},28741,"运行时报错 TypeError: 'float' object is not iterable (涉及 controlnet_conditioning_scale) 是什么原因？","该错误通常由 `diffusers` 库版本不兼容引起。请确保安装指定版本：\npip install diffusers==0.31.0\n此外，请检查是否错误地将 `pipe.controlnet` 用作 `FluxMultiControlNetModel`，当前发布的管道暂不支持将 InfU 与其他 ControlNet 直接混合使用。","https:\u002F\u002Fgithub.com\u002Fbytedance\u002FInfiniteYou\u002Fissues\u002F13",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},28742,"如何获得更高的人脸相似度（ID Similarity）？","如果需要更高的人脸相似度，建议尝试使用 `sim_stage1` 模型而不是 `aes_stage2`。虽然 Redux 更像是一种图像变异工具，但当前模型旨在利用 FLUX 同时实现人脸相似度、文本对齐和美学效果。","https:\u002F\u002Fgithub.com\u002Fbytedance\u002FInfiniteYou\u002Fissues\u002F26",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},28743,"如何将 OmniControl 与 InfiniteYou 集成？是否需要重新训练模型或使用单独的提示词？","集成时通常不需要重新训练 OmniControl 模型，可能只需要调整一些超参数来平衡两者。关于提示词（Prompt），可以使用一个统一的提示词来描述完整场景，无需为两个模型分别提供单独的提示词（尽管分别尝试也可能值得探索）。","https:\u002F\u002Fgithub.com\u002Fbytedance\u002FInfiniteYou\u002Fissues\u002F27",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},28744,"是否有适用于低显存（如 ComfyUI）的 FP8 版本 ControlNet 模型？","目前官方仓库主要提供原始模型。不过社区用户已经制作了适用于 ComfyUI 的节点项目，可以查看 HuggingFace 上的 `ComfyUI_InfiniteYou` 仓库以获取相关集成支持和可能的优化版本。","https:\u002F\u002Fgithub.com\u002Fbytedance\u002FInfiniteYou\u002Fissues\u002F14",[]]