InfiniteYou

GitHub
2.7k 287 中等 1 次阅读 今天Apache-2.0开发框架其他语言模型图像视频
AI 解读 由 AI 自动生成,仅供参考

InfiniteYou 是一款由字节跳动智能创作团队推出的开源 AI 图像重绘工具,旨在让用户在灵活编辑照片的同时,完美保留人物原本的身份特征。针对当前基于扩散变换器(DiT,如 FLUX)的生成模型常出现的人脸相似度低、图文对齐差以及画面质感不足等痛点,InfiniteYou 提供了高效的解决方案。

该工具的核心亮点在于其独特的"InfuseNet"模块,它通过残差连接将身份特征注入基础模型,既确保了“长得像”,又维持了高水平的生成质量与美学效果。此外,项目采用多阶段训练策略,利用合成数据有效避免了生硬的“人脸复制粘贴”现象,显著提升了自然度。作为 ICCV 2025 的高亮论文成果,InfiniteYou 采用了即插即用的设计理念,不仅性能超越现有基准,还能轻松兼容多种现有方法。

无论是希望快速体验换装、换背景功能的普通用户和设计师,还是致力于研究身份保持生成技术的开发者与科研人员,都能从中受益。项目已开放模型权重、ComfyUI 节点及在线演示,并提供了量化选项以降低显存需求,让高性能的个性化图像创作变得更加触手可及。

使用场景

一位独立游戏开发者需要为角色生成多套不同风格(如赛博朋克、奇幻、写实)的定妆照,同时必须确保所有图片中角色的面部特征完全一致,以维持品牌辨识度。

没有 InfiniteYou 时

  • 身份一致性差:使用传统换脸或微调方法时,生成的角色在不同风格下五官容易发生漂移,导致玩家无法识别是同一人。
  • 提示词对齐困难:为了强行保留人脸,往往牺牲了背景氛围和服装细节,导致画面与“赛博朋克街道”等复杂提示词严重脱节。
  • 画质与美感不足:现有方案在融合人脸时容易产生模糊、伪影或“粘贴感”,破坏了 FLUX 模型原本的高清质感。
  • 工作流繁琐:开发者需反复调整蒙版、重绘幅度甚至手动修图,耗费数小时才能产出一张可用素材。

使用 InfiniteYou 后

  • 高保真身份锁定:借助 InfuseNet 模块,无论风格如何剧烈变化,角色的核心面部特征都能被精准注入并保持高度相似。
  • 完美的文图对齐:在保留身份的同时,能完美响应复杂的场景描述,让角色自然融入各种光影和服饰设计中。
  • 原生级生成质量:彻底消除了生硬的“换脸”痕迹,输出图像具备电影级的审美水准和细腻的纹理细节。
  • 即插即用高效流:通过 ComfyUI 节点一键接入,开发者仅需提供一张参考照和提示词,即可批量生成系列素材,效率提升十倍。

InfiniteYou 让创作者在享受扩散模型无限创意的同时,不再为“丢失角色灵魂”而妥协,真正实现了身份保持与自由创作的完美统一。

运行环境要求

操作系统
  • 未说明
GPU
  • 需要 NVIDIA GPU
  • 完整性能需约 43GB 显存
  • 开启 CPU offload 需约 30GB
  • 开启 8-bit 量化需约 24GB
  • 同时开启两者需约 16GB
  • 基于 FLUX.1-dev,隐含需要支持 bf16 的较新架构显卡
内存

未说明(建议系统内存充足以配合 CPU offload)

依赖
notes该工具基于 FLUX.1-dev 模型。默认模式峰值显存约 43GB,但可通过添加 '--cpu_offload'(降至 30GB)、'--quantize_8bit'(降至 24GB)或同时使用两者(降至 16GB)的参数来显著降低显存需求且性能损失极小。提供两种模型变体:'aes_stage2'(默认,文本对齐和美学更好)和 'sim_stage1'(身份相似度更高)。支持 ComfyUI 节点和本地 Gradio 演示。
python未说明(文中提及创建 python3 虚拟环境)
requirements.txt 中定义的依赖(具体列表未在文中展开,隐含包含 torch, diffusers, transformers 等)
InfiniteYou hero image

快速开始

InfiniteYou: 灵活的照片重塑,同时保留您的身份特征

Liming Jiang     Qing Yan     Yumin Jia     Zichuan Liu     Hao Kang     Xin Lu
字节跳动智能创作
ICCV 2025 (亮点)

teaser

摘要: 实现灵活且高保真度的身份保留图像生成仍然极具挑战性,尤其是在使用像FLUX这样的先进扩散Transformer (DiT)时。我们提出了InfiniteYou (InfU),这是最早利用DiT完成这一任务的稳健框架之一。InfU解决了现有方法中的诸多问题,例如身份相似度不足、文本与图像对齐不佳以及生成质量和美学较低等。InfU的核心是InfuseNet组件,它通过残差连接将身份特征注入到DiT基础模型中,在提升身份相似度的同时保持生成能力。此外,多阶段训练策略,包括预训练和基于合成单人多样本(SPMS)数据的监督微调(SFT),进一步提升了文本与图像的对齐效果,改善了图像质量,并缓解了人脸复制粘贴的问题。大量实验表明,InfU达到了最先进的性能,超越了现有的基线方法。此外,InfU的即插即用设计确保了其与各种现有方法的兼容性,为更广泛的社区提供了宝贵的贡献。

🔥 新闻

  • [07/2025] 🔥 InfiniteYou的论文被选为ICCV 2025的(亮点)。

  • [06/2025] 🔥 InfiniteYou的论文被ICCV 2025接收。

  • [04/2025] 🔥 官方ComfyUI节点发布。非官方的ComfyUI贡献也备受赞赏。

  • [04/2025] 🔥 提供了量化和卸载选项,以降低InfiniteYou-FLUX v1.0的内存需求。

  • [03/2025] 🔥 InfiniteYou-FLUX v1.0的代码模型演示发布。

  • [03/2025] 🔥 InfiniteYou的项目页面创建。

  • [03/2025] 🔥 InfiniteYou的论文在arXiv上发布。

💡 重要使用提示

  • 我们发布了InfiniteYou-FLUX v1.0的两个模型变体:aes_stage2sim_stage1aes_stage2是我们经过SFT后的模型,默认情况下用于获得更好的文本与图像对齐及美学效果。若需更高的ID相似度,请尝试sim_stage1(使用--model_version进行切换)。更多细节请参阅我们的论文

  • 为了更好地适应个人需求,我们发现有两个参数非常有用,可以用来调整:
    --infusenet_conditioning_scale(默认值:1.0)和--infusenet_guidance_start(默认值:0.0)。通常情况下,您可能不需要调整它们。如果确实需要,可以先尝试稍微增大--infusenet_guidance_start的值(例如0.1),这尤其适用于sim_stage1。如果仍不满意,则可以尝试稍微减小--infusenet_conditioning_scale的值(例如0.9)。

  • 我们还提供了两个LoRA模型(RealismAnti-blur),以提供更多的使用灵活性。如有需要,可先尝试仅使用Realism。这些LoRA模型是完全可选的,仅供参考,并未在我们的论文中使用。

  • 如果生成的性别与您的偏好不符,可以尝试在文本提示中加入特定词汇,如“一个男人”、“一个女人”等。我们鼓励用户使用包容性和尊重他人的语言。

:european_castle: 模型库

InfiniteYou版本 模型版本 训练的基础模型 描述
InfiniteYou-FLUX v1.0 aes_stage2 FLUX.1-dev SFT后的第二阶段模型。文本与图像对齐更好,美学效果更佳。
InfiniteYou-FLUX v1.0 sim_stage1 FLUX.1-dev SFT前的第一阶段模型。身份相似度更高。

🔧 要求与安装

依赖项

只需运行以下一行命令即可安装(建议在运行前先创建一个python3虚拟环境):

pip install -r requirements.txt

内存需求

  • 全性能模式:原始的 bf16 模型推理需要约 43GB峰值显存

  • 快速 CPU 交换:只需在 test.py 中指定 --cpu_offload,即可将 峰值显存 降低至约 30GB,且性能 任何下降。

  • 8 位量化:只需在 test.py 中指定 --quantize_8bit,即可将 峰值显存 降至约 24GB,同时保持与原模型几乎一致的性能。

  • 结合快速 CPU 交换和 8 位量化:同时指定 --cpu_offload--quantize_8bit 后,峰值显存 进一步降低至约 16GB,且性能依然非常接近原模型。

如果您希望使用我们的模型,但 GPU 显存更少,请参阅 Diffusers 内存优化技巧,其中可能提供一些更为激进的策略。我们也欢迎社区贡献。

⚡️ 快速推理

本地推理脚本

python test.py --id_image ./assets/examples/man.jpg --prompt "A man, portrait, cinematic" --out_results_dir ./results
所有参数说明(点击展开!)
  • 输入输出:
    • --id_image (str):输入身份(ID)图像的路径。默认值:./assets/examples/man.jpg
    • --prompt (str):用于图像生成的文本提示。默认值:A man, portrait, cinematic
    • --out_results_dir (str):保存生成结果的输出目录路径。默认值:./results
    • --control_image (str 或 None):控制图像的路径 [可选],用于提取五个面部关键点以控制生成过程。默认值:None
    • --base_model_path (str):基础模型的 Hugging Face 路径或本地路径。默认值:black-forest-labs/FLUX.1-dev
    • --model_dir (str):InfiniteYou 模型目录的路径。默认值:ByteDance/InfiniteYou
  • 版本控制:
    • --infu_flux_version (str):InfiniteYou-FLUX 版本:目前仅支持 v1.0。默认值:v1.0
    • --model_version (str):使用的模型变体:aes_stage2 | sim_stage1。默认值:aes_stage2
  • 通用推理参数:
    • --cuda_device (int):使用的 CUDA 设备 ID。默认值:0
    • --seed (int):用于复现性的随机种子(0 表示随机)。默认值:0
    • --guideance_scale (float):扩散过程中的引导尺度。默认值:3.5
    • --num_steps (int):推理步骤数。默认值:30
  • InfiniteYou 特定参数:
    • --infusenet_conditioning_scale (float):InfuseNet 条件调节的尺度。默认值:1.0
    • --infusenet_guidance_start (float):InfuseNet 引导注入的起始点。默认值:0.0
    • --infusenet_guidance_end (float):InfuseNet 引导注入的结束点。默认值:1.0
  • 可选 LoRA:
    • --enable_realism_lora (store_true):是否启用 Realism LoRA。默认值:False
    • --enable_anti_blur_lora (store_true):是否启用 Anti-blur LoRA。默认值:False
  • 内存优化选项:
    • --quantize_8bit (store_true):是否将模型量化为 8 位格式。默认值:False
    • --cpu_offload (store_true):是否使用快速 CPU 交换。默认值:False

本地 Gradio 演示

python app.py

在线 Hugging Face 演示

我们感谢 Hugging Face 团队提供的 GPU 支持。您也可以在线试用我们的 InfiniteYou-FLUX Hugging Face 演示

ComfyUI 节点

🆚 与当前最先进相关方法的对比

comparative_results

InfU 与当前最先进的基线 FLUX.1-dev IP-Adapter 和 PuLID-FLUX 的定性比较结果。FLUX.1-dev IP-Adapter(IPA)生成的结果在身份相似性和文本与图像的对齐方面表现不足。PuLID-FLUX 虽能生成具有一定身份相似性的图像,但其文本与图像的对齐较差(第 1、2、4 列),且图像质量和审美效果也有所下降(例如第 5 列中手部处理不佳)。此外,PuLID-FLUX 还存在明显的面部复制粘贴问题(第 5 列)。相比之下,我们提出的 InfU 在所有维度上均优于这些基线方法。

⚙️ 与现有流行方法的即插即用特性

plug_and_play

InfU 具有理想的即插即用设计,可与多种现有方法兼容。它自然支持用 FLUX.1-dev 的任何变体替换基础模型,例如使用 FLUX.1-schnell 实现更高效的生成(例如仅需 4 步)。与 ControlNets 和 LoRAs 的兼容性则为定制化任务提供了更高的可控性和灵活性。值得注意的是,与 OminiControl 的兼容性进一步扩展了我们在多概念个性化方面的潜力,例如交互式身份(ID)和对象的个性化生成。此外,InfU 还可与 IP-Adapter(IPA)配合使用,为个性化图像添加风格化效果,并通过 IPA 注入风格参考时也能获得不错的效果。我们的即插即用特性有望扩展到更多方法,为更广泛的社区带来宝贵贡献。

📜 免责声明与许可

本仓库及相关演示中使用的图像均来自获得同意的拍摄对象,或由模型生成。这些图片仅用于展示我们研究的能力。如果您有任何疑虑,请随时与我们联系,我们将立即移除任何不当内容。

所发布的代码、模型和演示的使用必须严格遵守各自的许可协议。我们的代码采用 Apache License 2.0 许可,而我们的模型则采用 Creative Commons Attribution-NonCommercial 4.0 International Public License,仅供学术研究使用。从 InsightFaceFLUX.1-dev 基础模型、LoRA(如 RealismAnti-blur)等处手动或自动下载的人脸模型,均需遵循其原始许可,并仅限于学术研究用途。

本研究旨在对生成式人工智能领域产生积极影响。任何对该方法的使用都应负责任,并遵守当地法律法规。开发者对任何潜在的滥用行为不承担任何责任。

🤗 致谢

我们衷心感谢 Stathi Fotiadis、Min Jin Chong、Xiao Yang、Tiancheng Zhi、Jing Liu 和 Xiaohui Shen 提供的富有洞见的讨论。同时,我们也真诚地感谢 Jincheng Liang 和 Lu Guo 在用户研究和定性评估方面给予的帮助。

📖 引用

如果您在研究或应用中发现 InfiniteYou 有所帮助,请引用我们的论文:

@inproceedings{jiang2025infiniteyou,
  title={{InfiniteYou}: Flexible Photo Recrafting While Preserving Your Identity},
  author={Jiang, Liming and Yan, Qing and Jia, Yumin and Liu, Zichuan and Kang, Hao and Lu, Xin},
  booktitle={ICCV},
  year={2025}
}

此外,如果您能为本仓库点亮一颗星 :star:,我们将不胜感激!非常感谢!

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|4天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|5天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

149.5k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|今天
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|昨天
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|4天前
插件开发框架