GANsNRoses
GANsNRoses 是一款基于 PyTorch 的开源项目,专注于将真人自拍照片或视频转换为风格多样的动漫形象。它主要解决了现有图像转换工具风格单一、缺乏多样性以及难以处理视频序列的问题。无论是静态图片还是动态视频,用户只需输入一张人脸照片,就能生成大量不同画风的动漫结果,且无需专门使用视频数据进行训练即可实现流畅的视频转视频效果。
这款工具非常适合开发者、人工智能研究人员以及希望尝试创意视觉转换的设计师使用。对于普通用户,项目也提供了 Colab 笔记本和 Gradio 网页演示,降低了体验门槛。其核心技术亮点在于独特地定义了“内容码”与“风格码”,通过对抗损失机制确保生成结果既稳定可控,又具备极高的多样性。这意味着同一张输入照片可以衍生出无数种截然不同的动漫风格,准确捕捉了动漫艺术中复杂的风格变化。目前模型在女性人脸转换上表现最佳,是探索多模态图像生成和视频风格迁移的优秀参考实现。
使用场景
一位独立动画创作者希望将自己拍摄的真人短视频快速转化为多种不同画风的动漫片段,以丰富视频内容的视觉表现力。
没有 GANsNRoses 时
- 风格单一僵化:传统的图像转换工具通常只能生成一种固定风格的动漫效果,无法根据同一张人脸生成多样化的角色形象。
- 视频处理困难:大多数模型仅支持单张图片转换,处理视频时需要逐帧手动操作且难以保证帧间连贯性,导致画面闪烁严重。
- 训练成本高昂:若想定制特定画风,往往需要收集大量配对数据集并从头训练模型,对算力和时间要求极高。
- 男性角色支持缺失:现有开源方案在缺乏针对性数据时,难以有效处理非女性角色的特征转换,适用范围受限。
使用 GANsNRoses 后
- 风格高度多样:利用其独特的内容与风格代码分离机制,输入同一段真人视频即可随机生成数十种截然不同的动漫画风,极大拓展创作空间。
- 原生视频支持:无需专门针对视频数据进行训练,GANsNRoses 能直接实现流畅的“视频到视频”转换,自动保持时间维度上的稳定性。
- 零样本快速推理:创作者可直接使用预训练模型进行推理,无需重新训练即可在 Colab 或本地快速获得高质量结果,大幅降低技术门槛。
- 概率分布准确:生成的动漫形象不仅多样,还能准确反映输入人脸的条件概率分布,确保角色特征在转换中不丢失且自然合理。
GANsNRoses 通过解耦内容与风格,让单人创作者也能低成本地实现高质量、多风格的真人转动漫视频创作。
运行环境要求
- Linux
- macOS
- Windows
需要 NVIDIA GPU(用于安装 cudatoolkit),具体型号和显存大小未说明,需根据 CUDA 版本匹配驱动
未说明

快速开始
GANs N' Roses Pytorch

这是 GANs N’ Roses: 稳定、可控、多样化的图像到图像翻译(也适用于视频!) 的 PyTorch 实现。
摘要:
我们展示了如何学习一个映射,该映射将从人脸图像中提取的内容编码与随机选择的风格编码结合,生成动漫图像。我们基于简单而有效的风格和内容定义,推导出对抗损失。这种对抗损失保证了映射的多样性——仅用一个内容编码就能生成非常广泛的动漫风格。在合理假设下,该映射不仅具有多样性,还能正确地表示给定输入人脸条件下的动漫概率分布。相比之下,当前的多模态生成方法无法捕捉动漫中复杂的风格特征。大量的定量实验支持这一观点,而丰富的定性结果则表明,该方法能够生成比现有最先进方法更加多样化风格的图像。最后,我们证明了对内容和风格的严格形式化定义使我们能够在未进行视频训练的情况下实现视频到视频的转换。
最新动态
6月20日 现在您可以在 Colab 中轻松上传自己的图片。
依赖项
conda install --yes -c pytorch pytorch=1.7.1 torchvision cudatoolkit=<CUDA_VERSION>
pip install tqdm gdown kornia scipy opencv-python dlib moviepy lpips aubio ninja
数据集
我们用于训练的数据集是来自 UGATIT 的 selfie2anime 数据集。您也可以使用以下格式的自定义数据集。
└── YOUR_DATASET_NAME
├── trainA
├── xxx.jpg (名称、格式不限)
├── yyy.png
└── ...
├── trainB
├── zzz.jpg
├── www.png
└── ...
├── testA
├── aaa.jpg
├── bbb.png
└── ...
└── testB
├── ccc.jpg
├── ddd.png
└── ...
训练
为了使用自定义的 CUDA 内核代码进行训练,您可以切换到 train 分支。否则,程序将使用 PyTorch 原生实现。
python train.py --name EXP_NAME --d_path YOUR_DATASET_NAME --batch BATCH_SIZE
如果您希望用于微调等目的,完整的模型检查点请见 这里。
推理
我们的 Notebook 提供了全面的图像和视频翻译演示。预训练模型会自动下载。目前只有女性风格的翻译效果较好,因为数据集中仅包含女性样本。要实现男性风格的翻译,还需要更全面的数据集。
引用
如果您使用了本代码或论文中的相关思想,请引用我们的论文:
@misc{chong2021gans,
title={GANs N' Roses: 稳定、可控、多样化的图像到图像翻译(也适用于视频!)},
author={Min Jin Chong 和 David Forsyth},
year={2021},
eprint={2106.06561},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
致谢
本代码大量借鉴了 rosinality 的 StyleGAN2,并部分参考了 UGATIT。
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。

