[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-mchong6--GANsNRoses":3,"tool-mchong6--GANsNRoses":62},[4,18,26,35,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,2,"2026-04-10T11:39:34",[14,15,13],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":32,"last_commit_at":41,"category_tags":42,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[43,13,15,14],"插件",{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[52,15,13,14],"语言模型",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,61],"视频",{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":77,"owner_email":77,"owner_twitter":77,"owner_website":78,"owner_url":79,"languages":80,"stars":89,"forks":90,"last_commit_at":91,"license":92,"difficulty_score":10,"env_os":93,"env_gpu":94,"env_ram":95,"env_deps":96,"category_tags":110,"github_topics":77,"view_count":32,"oss_zip_url":77,"oss_zip_packed_at":77,"status":17,"created_at":111,"updated_at":112,"faqs":113,"releases":163},7402,"mchong6\u002FGANsNRoses","GANsNRoses","Official PyTorch repo for GAN's N' Roses. Diverse im2im and vid2vid selfie to anime translation.","GANsNRoses 是一款基于 PyTorch 的开源项目，专注于将真人自拍照片或视频转换为风格多样的动漫形象。它主要解决了现有图像转换工具风格单一、缺乏多样性以及难以处理视频序列的问题。无论是静态图片还是动态视频，用户只需输入一张人脸照片，就能生成大量不同画风的动漫结果，且无需专门使用视频数据进行训练即可实现流畅的视频转视频效果。\n\n这款工具非常适合开发者、人工智能研究人员以及希望尝试创意视觉转换的设计师使用。对于普通用户，项目也提供了 Colab 笔记本和 Gradio 网页演示，降低了体验门槛。其核心技术亮点在于独特地定义了“内容码”与“风格码”，通过对抗损失机制确保生成结果既稳定可控，又具备极高的多样性。这意味着同一张输入照片可以衍生出无数种截然不同的动漫风格，准确捕捉了动漫艺术中复杂的风格变化。目前模型在女性人脸转换上表现最佳，是探索多模态图像生成和视频风格迁移的优秀参考实现。","# GANs N' Roses Pytorch\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmchong6_GANsNRoses_readme_0e85581d58e9.gif)\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmchong6_GANsNRoses_readme_3654e4cd16aa.png)\n\n[![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fmchong6\u002FGANsNRoses\u002Fblob\u002Fmain\u002Finference_colab.ipynb)\nThis is the PyTorch implementation of [GANs N’ Roses: Stable, Controllable, Diverse Image to Image Translation (works for videos too!)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.06561).\n\n>**Abstract:**\u003Cbr>\n>We show how to learn a map that takes a content code, derived from a face image, and a randomly chosen style code to an anime image. We derive an adversarial loss from our simple and effective definitions of style and content. This adversarial loss guarantees the map is diverse -- a very wide range of anime can be produced from a single content code. Under plausible assumptions, the map is not just diverse, but also correctly represents the probability of an anime, conditioned on an input face. In contrast, current multimodal generation procedures cannot capture the complex styles that appear in anime.  Extensive quantitative experiments support the idea the map is correct. Extensive qualitative results show that the method can generate a much more diverse range of styles than SOTA comparisons. Finally, we show that our formalization of content and style allows us to perform video to video translation without ever training on videos.\n\n[Demo and Docker image on Replicate](https:\u002F\u002Freplicate.com\u002Fmchong6\u002Fgans-n-roses)\n\u003Ca href=\"https:\u002F\u002Freplicate.com\u002Fmchong6\u002Fgans-n-roses\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmchong6_GANsNRoses_readme_7dacf1cc5d87.png\">\u003C\u002Fa>\n\n\n[Gradio Web Demo](https:\u002F\u002Fgradio.app\u002Fhub\u002FAK391\u002FGANsNRoses)\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmchong6_GANsNRoses_readme_2145e307c5b0.png)\n\n## What's New\n**6\u002F20** You can now easily upload your own images on colab.\n\n## Dependency\n```bash\nconda install --yes -c pytorch pytorch=1.7.1 torchvision cudatoolkit=\u003CCUDA_VERSION>\npip install tqdm gdown kornia scipy opencv-python dlib moviepy lpips aubio ninja\n```\n\n## Dataset\nThe dataset we use for training is the [selfie2anime](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1xOWj1UVgp6NKMT3HbPhBbtq2A4EDkghF\u002Fview?usp=sharing) dataset from UGATIT. You can also use your own dataset in the following format.\n```\n└── YOUR_DATASET_NAME\n   ├── trainA\n       ├── xxx.jpg (name, format doesn't matter)\n       ├── yyy.png\n       └── ...\n   ├── trainB\n       ├── zzz.jpg\n       ├── www.png\n       └── ...\n   ├── testA\n       ├── aaa.jpg \n       ├── bbb.png\n       └── ...\n   └── testB\n       ├── ccc.jpg \n       ├── ddd.png\n       └── ...\n```\n\n## Training\nFor training you might want to switch to train branch in order to use custom cuda kernel codes. Otherwise, it will use the Pytorch native implementation.\n```bash\npython train.py --name EXP_NAME --d_path YOUR_DATASET_NAME --batch BATCH_SIZE\n```\n\nThe full model checkpoint is [here](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1xdjoTp0oRAXZpixYQmmQ-5rlXV36bSq-\u002Fview?usp=sharing) if you wish to you it for finetuning etc.\n\n## Inference\nOur notebook provides a comprehensive demo of both image and video translation. Pretrained model is automatically downloaded. As of now only female translation works well since the dataset only contains females. A more comprehensive dataset is needed to enable male translation too.\n\n\n## Citation\nIf you use this code or ideas from our paper, please cite our paper:\n```\n@misc{chong2021gans,\n      title={GANs N' Roses: Stable, Controllable, Diverse Image to Image Translation (works for videos too!)}, \n      author={Min Jin Chong and David Forsyth},\n      year={2021},\n      eprint={2106.06561},\n      archivePrefix={arXiv},\n      primaryClass={cs.CV}\n}\n```\n\n## Acknowledgments\nThis code borrows heavily from [StyleGAN2 by rosalinity](https:\u002F\u002Fgithub.com\u002Frosinality\u002Fstylegan2-pytorch) and partly from [UGATIT](https:\u002F\u002Fgithub.com\u002Fznxlwm\u002FUGATIT-pytorch).\n","# GANs N' Roses Pytorch\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmchong6_GANsNRoses_readme_0e85581d58e9.gif)\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmchong6_GANsNRoses_readme_3654e4cd16aa.png)\n\n[![在 Colab 中打开](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fmchong6\u002FGANsNRoses\u002Fblob\u002Fmain\u002Finference_colab.ipynb)\n这是 [GANs N’ Roses: 稳定、可控、多样化的图像到图像翻译（也适用于视频！）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.06561) 的 PyTorch 实现。\n\n>**摘要:**\u003Cbr>\n我们展示了如何学习一个映射，该映射将从人脸图像中提取的内容编码与随机选择的风格编码结合，生成动漫图像。我们基于简单而有效的风格和内容定义，推导出对抗损失。这种对抗损失保证了映射的多样性——仅用一个内容编码就能生成非常广泛的动漫风格。在合理假设下，该映射不仅具有多样性，还能正确地表示给定输入人脸条件下的动漫概率分布。相比之下，当前的多模态生成方法无法捕捉动漫中复杂的风格特征。大量的定量实验支持这一观点，而丰富的定性结果则表明，该方法能够生成比现有最先进方法更加多样化风格的图像。最后，我们证明了对内容和风格的严格形式化定义使我们能够在未进行视频训练的情况下实现视频到视频的转换。\n\n[Replicate 上的演示及 Docker 镜像](https:\u002F\u002Freplicate.com\u002Fmchong6\u002Fgans-n-roses)\n\u003Ca href=\"https:\u002F\u002Freplicate.com\u002Fmchong6\u002Fgans-n-roses\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmchong6_GANsNRoses_readme_7dacf1cc5d87.png\">\u003C\u002Fa>\n\n\n[Gradio 在线演示](https:\u002F\u002Fgradio.app\u002Fhub\u002FAK391\u002FGANsNRoses)\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmchong6_GANsNRoses_readme_2145e307c5b0.png)\n\n## 最新动态\n**6月20日** 现在您可以在 Colab 中轻松上传自己的图片。\n\n## 依赖项\n```bash\nconda install --yes -c pytorch pytorch=1.7.1 torchvision cudatoolkit=\u003CCUDA_VERSION>\npip install tqdm gdown kornia scipy opencv-python dlib moviepy lpips aubio ninja\n```\n\n## 数据集\n我们用于训练的数据集是来自 UGATIT 的 [selfie2anime](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1xOWj1UVgp6NKMT3HbPhBbtq2A4EDkghF\u002Fview?usp=sharing) 数据集。您也可以使用以下格式的自定义数据集。\n```\n└── YOUR_DATASET_NAME\n   ├── trainA\n       ├── xxx.jpg (名称、格式不限)\n       ├── yyy.png\n       └── ...\n   ├── trainB\n       ├── zzz.jpg\n       ├── www.png\n       └── ...\n   ├── testA\n       ├── aaa.jpg \n       ├── bbb.png\n       └── ...\n   └── testB\n       ├── ccc.jpg \n       ├── ddd.png\n       └── ...\n```\n\n## 训练\n为了使用自定义的 CUDA 内核代码进行训练，您可以切换到 `train` 分支。否则，程序将使用 PyTorch 原生实现。\n```bash\npython train.py --name EXP_NAME --d_path YOUR_DATASET_NAME --batch BATCH_SIZE\n```\n\n如果您希望用于微调等目的，完整的模型检查点请见 [这里](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1xdjoTp0oRAXZpixYQmmQ-5rlXV36bSq-\u002Fview?usp=sharing)。\n\n## 推理\n我们的 Notebook 提供了全面的图像和视频翻译演示。预训练模型会自动下载。目前只有女性风格的翻译效果较好，因为数据集中仅包含女性样本。要实现男性风格的翻译，还需要更全面的数据集。\n\n## 引用\n如果您使用了本代码或论文中的相关思想，请引用我们的论文：\n```\n@misc{chong2021gans,\n      title={GANs N' Roses: 稳定、可控、多样化的图像到图像翻译（也适用于视频！）}, \n      author={Min Jin Chong 和 David Forsyth},\n      year={2021},\n      eprint={2106.06561},\n      archivePrefix={arXiv},\n      primaryClass={cs.CV}\n}\n```\n\n## 致谢\n本代码大量借鉴了 [rosinality 的 StyleGAN2](https:\u002F\u002Fgithub.com\u002Frosinality\u002Fstylegan2-pytorch)，并部分参考了 [UGATIT](https:\u002F\u002Fgithub.com\u002Fznxlwm\u002FUGATIT-pytorch)。","# GANsNRoses 快速上手指南\n\nGANsNRoses 是一个基于 PyTorch 的图像到图像翻译工具，能够将人脸照片稳定、可控且多样化地转换为动漫风格（支持视频转换）。本项目特别擅长生成风格多样的动漫形象。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n- **操作系统**: Linux (推荐) 或 macOS\n- **Python**: 3.6+\n- **GPU**: 支持 CUDA 的 NVIDIA 显卡（用于加速训练和推理）\n- **CUDA**: 根据您的显卡驱动版本安装对应的 Toolkit\n\n### 前置依赖安装\n\n推荐使用 `conda` 创建独立环境并安装核心深度学习库：\n\n```bash\nconda install --yes -c pytorch pytorch=1.7.1 torchvision cudatoolkit=\u003CCUDA_VERSION>\n```\n*注：请将 `\u003CCUDA_VERSION>` 替换为您实际的 CUDA 版本号（如 10.2, 11.0 等）。*\n\n接着安装其他必要的 Python 包：\n\n```bash\npip install tqdm gdown kornia scipy opencv-python dlib moviepy lpips aubio ninja\n```\n\n> **国内加速建议**：如果下载速度较慢，可使用清华或阿里镜像源加速 pip 安装：\n> `pip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple tqdm gdown kornia scipy opencv-python dlib moviepy lpips aubio ninja`\n\n## 安装步骤\n\n1. **克隆项目代码**\n   ```bash\n   git clone https:\u002F\u002Fgithub.com\u002Fmchong6\u002FGANsNRoses.git\n   cd GANsNRoses\n   ```\n\n2. **准备数据集**\n   项目默认使用 `selfie2anime` 数据集。您可以从 [UGATIT selfie2anime](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1xOWj1UVgp6NKMT3HbPhBbtq2A4EDkghF\u002Fview?usp=sharing) 下载，或按照以下结构整理自己的数据集：\n   ```text\n   └── YOUR_DATASET_NAME\n      ├── trainA       # 源域图片（如真人照片）\n      ├── trainB       # 目标域图片（如动漫图）\n      ├── testA        # 测试用源域图片\n      └── testB        # 测试用目标域图片\n   ```\n   *注意：文件名和格式不限，但需放入对应文件夹。目前预训练模型主要针对女性人脸优化。*\n\n## 基本使用\n\n### 方式一：在线体验（无需安装）\n如果您只想快速测试效果，可以直接使用 Google Colab 或 Gradio 演示：\n- **Colab Notebook**: [点击打开](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fmchong6\u002FGANsNRoses\u002Fblob\u002Fmain\u002Finference_colab.ipynb) (支持上传自定义图片)\n- **Gradio Web Demo**: [访问链接](https:\u002F\u002Fgradio.app\u002Fhub\u002FAK391\u002FGANsNRoses)\n\n### 方式二：本地推理 (Inference)\n项目提供了完整的 Jupyter Notebook 用于图片和视频转换演示，预训练模型会自动下载。\n\n1. 启动 Jupyter Notebook：\n   ```bash\n   jupyter notebook inference_colab.ipynb\n   ```\n2. 在 Notebook 中按顺序运行单元格，即可将 `testA` 文件夹中的人脸图片转换为动漫风格。\n\n### 方式三：本地训练 (Training)\n如果您需要使用自定义数据集进行训练，建议切换到 `train` 分支以启用自定义 CUDA 内核加速（否则将使用 PyTorch 原生实现）。\n\n```bash\n# 切换分支（可选，用于高性能训练）\ngit checkout train\n\n# 开始训练\npython train.py --name EXP_NAME --d_path YOUR_DATASET_NAME --batch BATCH_SIZE\n```\n- `EXP_NAME`: 实验名称\n- `YOUR_DATASET_NAME`: 数据集根目录路径\n- `BATCH_SIZE`: 批处理大小（根据显存调整）\n\n训练完成后，生成的模型可用于进一步的微调或推理。","一位独立动画创作者希望将自己拍摄的真人短视频快速转化为多种不同画风的动漫片段，以丰富视频内容的视觉表现力。\n\n### 没有 GANsNRoses 时\n- **风格单一僵化**：传统的图像转换工具通常只能生成一种固定风格的动漫效果，无法根据同一张人脸生成多样化的角色形象。\n- **视频处理困难**：大多数模型仅支持单张图片转换，处理视频时需要逐帧手动操作且难以保证帧间连贯性，导致画面闪烁严重。\n- **训练成本高昂**：若想定制特定画风，往往需要收集大量配对数据集并从头训练模型，对算力和时间要求极高。\n- **男性角色支持缺失**：现有开源方案在缺乏针对性数据时，难以有效处理非女性角色的特征转换，适用范围受限。\n\n### 使用 GANsNRoses 后\n- **风格高度多样**：利用其独特的内容与风格代码分离机制，输入同一段真人视频即可随机生成数十种截然不同的动漫画风，极大拓展创作空间。\n- **原生视频支持**：无需专门针对视频数据进行训练，GANsNRoses 能直接实现流畅的“视频到视频”转换，自动保持时间维度上的稳定性。\n- **零样本快速推理**：创作者可直接使用预训练模型进行推理，无需重新训练即可在 Colab 或本地快速获得高质量结果，大幅降低技术门槛。\n- **概率分布准确**：生成的动漫形象不仅多样，还能准确反映输入人脸的条件概率分布，确保角色特征在转换中不丢失且自然合理。\n\nGANsNRoses 通过解耦内容与风格，让单人创作者也能低成本地实现高质量、多风格的真人转动漫视频创作。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmchong6_GANsNRoses_0e85581d.gif","mchong6","Min Jin Chong","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmchong6_8a5a9b65.png","PhD at UIUC",null,"https:\u002F\u002Fmchong6.github.io\u002F","https:\u002F\u002Fgithub.com\u002Fmchong6",[81,85],{"name":82,"color":83,"percentage":84},"Jupyter Notebook","#DA5B0B",99.2,{"name":86,"color":87,"percentage":88},"Python","#3572A5",0.8,1153,150,"2026-04-06T05:41:21","MIT","Linux, macOS, Windows","需要 NVIDIA GPU（用于安装 cudatoolkit），具体型号和显存大小未说明，需根据 CUDA 版本匹配驱动","未说明",{"notes":97,"python":98,"dependencies":99},"1. 建议使用 conda 管理环境，CUDA 版本需手动替换为本地实际版本（\u003CCUDA_VERSION>）。2. 训练时若需使用自定义 CUDA 内核代码，需切换到 train 分支，否则使用 PyTorch 原生实现。3. 预训练模型仅针对女性人脸到动漫的转换效果较好，因训练数据集仅包含女性。4. 支持视频转视频功能，且无需在视频数据上进行训练。5. 推理时可自动下载预训练模型。","未说明 (依赖 Conda 环境)",[100,101,102,103,104,105,106,107,108,109],"pytorch=1.7.1","torchvision","tqdm","gdown","kornia","scipy","opencv-python","dlib","moviepy","lpips",[15,61],"2026-03-27T02:49:30.150509","2026-04-14T15:42:19.241708",[114,119,124,128,133,138,143,148,153,158],{"id":115,"question_zh":116,"answer_zh":117,"source_url":118},33216,"如何在 Google Colab 中将生成的 Torch 张量转换回 PIL 图像？","由于模型输出通常经过归一化处理（均值和标准差为 0.5），在转换前需要先将张量还原到 [0, 1] 范围。具体代码如下：\nstd=(0.5, 0.5, 0.5)\nmean=(0.5, 0.5, 0.5)\nz = fake_A2B * torch.tensor(std).view(3, 1, 1)\nz = z + torch.tensor(mean).view(3, 1, 1)\ntensor_to_pil = transforms.ToPILImage(mode='RGB')(z.squeeze())","https:\u002F\u002Fgithub.com\u002Fmchong6\u002FGANsNRoses\u002Fissues\u002F2",{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},33217,"为什么训练代码中要对原始图像批次进行随机洗牌（shuffle）操作？","这是为了数据增强策略。对于批次 A（或 B），代码实际上是选取单张原始图像，将其复制多次形成一个批次，然后对批次中的每张副本分别进行不同的增强处理。这样可以模拟同一内容的多种变化形式。","https:\u002F\u002Fgithub.com\u002Fmchong6\u002FGANsNRoses\u002Fissues\u002F24",{"id":125,"question_zh":126,"answer_zh":127,"source_url":123},33218,"风格代码的洗牌（shuffle style）是否会导致内容不匹配或循环一致性损失无法满足？","不会。因为在同一个批次中，所有 A2B_style 理论上应该是相同的（风格代码对增强具有不变性）。因此可以自由打乱顺序，这实际上是一种正则化手段，旨在强制批次内的所有风格代码完全一致。",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},33219,"为什么潜在维度（latent dimension）设置为 8 而不是 StyleGAN 常用的 512？","该设置遵循了 MUNIT 论文的配置。如果潜在维度过高，风格代码可能会编码“过多信息”，导致内容代码被忽略，从而影响生成效果。","https:\u002F\u002Fgithub.com\u002Fmchong6\u002FGANsNRoses\u002Fissues\u002F23",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},33220,"测试类代码中为何只在 i % 2 == 0 时生成随机风格变量？","这是为了确保每两张输出图像共享同一个风格。当 i=0 时定义风格，当 i=1 时跳过定义步骤从而复用上一轮的风格变量。这样生成的图像对将具有不同的内容但相同的风格。","https:\u002F\u002Fgithub.com\u002Fmchong6\u002FGANsNRoses\u002Fissues\u002F16",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},33221,"训练函数中为什么没有显式地将判别器（如 D_L, D_A, D_B）设置为 train 模式？","判别器在初始化时默认处于 train 模式。在评估（eval）阶段只有生成器会被切换到 eval 模式，因此在训练函数开始时，只需将生成器设回 train 模式，判别器会自动保持或在之前的逻辑中已处于正确的 train 状态，无需手动重复设置。","https:\u002F\u002Fgithub.com\u002Fmchong6\u002FGANsNRoses\u002Fissues\u002F14",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},33222,"该模型是否支持男性图像的动漫化转换？","目前不支持。该模型是使用 UGATIT 的 selfie2anime 数据集训练的，该数据集仅包含女性图像。若要支持男性图像，需要使用包含男性数据的数据集重新训练或进行更好的微调。","https:\u002F\u002Fgithub.com\u002Fmchong6\u002FGANsNRoses\u002Fissues\u002F8",{"id":149,"question_zh":150,"answer_zh":151,"source_url":152},33223,"训练时遇到 CUDA 内存不足（OOM）错误，显存需求太大怎么办？","该网络确实非常消耗显存（约需 17GB）。如果遇到 OOM，可以尝试减少模型中卷积层的通道数量（参考 model.py 第 16 行附近），或者修改网络架构以降低显存占用。","https:\u002F\u002Fgithub.com\u002Fmchong6\u002FGANsNRoses\u002Fissues\u002F20",{"id":154,"question_zh":155,"answer_zh":156,"source_url":157},33224,"是否有用于迁移学习或微调的完整预训练检查点（checkpoint）？","是的，维护者已确认提供完整预训练检查点用于微调和迁移学习，避免从头训练耗时数周。具体下载链接已添加至项目的 README 文件中。","https:\u002F\u002Fgithub.com\u002Fmchong6\u002FGANsNRoses\u002Fissues\u002F6",{"id":159,"question_zh":160,"answer_zh":161,"source_url":162},33225,"为了提高数据效率，有哪些推荐的训练策略或相关技术？","建议结合以下策略：1. 使用“不同数据增强”（Differentiable Augmentation）技术，可提升 5-10 倍的数据效率；2. 参考\"DON'T LET YOUR DISCRIMINATOR BE FOOLED\"论文以平滑损失并提高泛化能力；3. 先在大型艺术家数据集上预训练，再在特定艺术家作品上微调。注意微调通常需要至少 1000 张特定风格的图像。","https:\u002F\u002Fgithub.com\u002Fmchong6\u002FGANsNRoses\u002Fissues\u002F5",[]]