[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-onion-liu--BlendGAN":3,"tool-onion-liu--BlendGAN":62},[4,18,26,35,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,2,"2026-04-18T11:18:24",[14,15,13],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":32,"last_commit_at":41,"category_tags":42,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[43,13,15,14],"插件",{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[52,15,13,14],"语言模型",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,61],"视频",{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":68,"readme_en":69,"readme_zh":70,"quickstart_zh":71,"use_case_zh":72,"hero_image_url":73,"owner_login":74,"owner_name":75,"owner_avatar_url":76,"owner_bio":77,"owner_company":78,"owner_location":79,"owner_email":80,"owner_twitter":80,"owner_website":81,"owner_url":82,"languages":83,"stars":99,"forks":100,"last_commit_at":101,"license":102,"difficulty_score":10,"env_os":103,"env_gpu":104,"env_ram":105,"env_deps":106,"category_tags":114,"github_topics":115,"view_count":32,"oss_zip_url":80,"oss_zip_packed_at":80,"status":17,"created_at":120,"updated_at":121,"faqs":122,"releases":158},9123,"onion-liu\u002FBlendGAN","BlendGAN","Official PyTorch implementation of \"BlendGAN: Implicitly GAN Blending for Arbitrary Stylized Face Generation\" (NeurIPS 2021)","BlendGAN 是一款基于 PyTorch 开源的 AI 图像生成工具，专注于实现任意风格的人脸艺术化创作。它源自 NeurIPS 2021 的研究成果，旨在解决传统人脸风格化方法灵活性不足的痛点：以往的技术往往需要为每种特定风格单独训练模型，且依赖大量风格一致的训练图片，难以适应多样化的艺术需求。\n\nBlendGAN 通过引入一种灵活的隐式混合策略，成功在一个统一模型中实现了对任意艺术风格的适配。其核心技术亮点在于利用自监督学习训练的风格编码器，能够从通用艺术数据集中提取任意风格的特征表示；配合独创的加权混合模块（WBM），巧妙地将人脸特征与风格特征进行隐式融合，从而精准控制生成效果。此外，项目还发布了配套的大规模艺术人脸数据集 AAHQ，进一步提升了模型的泛化能力。\n\n这款工具非常适合计算机视觉研究人员、AI 开发者以及数字艺术家使用。研究人员可借此探索生成对抗网络的新机制；开发者能利用提供的预训练模型和推理代码快速集成风格迁移功能；设计师则可以通过简单的命令行操作或 Web 演示，将普通人脸照片转化为油画、素描等多种艺术风格，无需繁琐的个案准备。无论是用于学术实验还是创意创作，","BlendGAN 是一款基于 PyTorch 开源的 AI 图像生成工具，专注于实现任意风格的人脸艺术化创作。它源自 NeurIPS 2021 的研究成果，旨在解决传统人脸风格化方法灵活性不足的痛点：以往的技术往往需要为每种特定风格单独训练模型，且依赖大量风格一致的训练图片，难以适应多样化的艺术需求。\n\nBlendGAN 通过引入一种灵活的隐式混合策略，成功在一个统一模型中实现了对任意艺术风格的适配。其核心技术亮点在于利用自监督学习训练的风格编码器，能够从通用艺术数据集中提取任意风格的特征表示；配合独创的加权混合模块（WBM），巧妙地将人脸特征与风格特征进行隐式融合，从而精准控制生成效果。此外，项目还发布了配套的大规模艺术人脸数据集 AAHQ，进一步提升了模型的泛化能力。\n\n这款工具非常适合计算机视觉研究人员、AI 开发者以及数字艺术家使用。研究人员可借此探索生成对抗网络的新机制；开发者能利用提供的预训练模型和推理代码快速集成风格迁移功能；设计师则可以通过简单的命令行操作或 Web 演示，将普通人脸照片转化为油画、素描等多种艺术风格，无需繁琐的个案准备。无论是用于学术实验还是创意创作，BlendGAN 都能在保证高画质的同时，提供丰富多样的风格选择。","# BlendGAN: Implicitly GAN Blending for Arbitrary Stylized Face Generation \u003Cbr>\u003Csub>Official PyTorch implementation of the NeurIPS 2021 paper\u003C\u002Fsub>\n\n![teaser](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fonion-liu_BlendGAN_readme_330a9d40e7b6.jpg)\n\n[Mingcong Liu](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=IYx0IbgAAAAJ), [Qiang Li](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=GGPvOP4AAAAJ), [Zekui Qin](https:\u002F\u002Fgithub.com\u002FZekuiQin), [Guoxin Zhang](), [Pengfei Wan](), [Wen Zheng](https:\u002F\u002Fsites.google.com\u002Fview\u002Fzhengwen-kwai)\n\nY-tech, Kuaishou Technology\n\n\n### [Project page](https:\u002F\u002Fonion-liu.github.io\u002FBlendGAN) |   [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.11728)\n\nAbstract: *Generative Adversarial Networks (GANs) have made a dramatic leap in high-fidelity image synthesis and stylized face generation. Recently, a layer-swapping mechanism has been developed to improve the stylization performance. However, this method is incapable of fitting arbitrary styles in a single model and requires hundreds of style-consistent training images for each style. To address the above issues, we propose BlendGAN for arbitrary stylized face generation by leveraging a flexible blending strategy and a generic artistic dataset. Specifically, we first train a self-supervised style encoder on the generic artistic dataset to extract the representations of arbitrary styles. In addition, a weighted blending module (WBM) is proposed to blend face and style representations implicitly and control the arbitrary stylization effect. By doing so, BlendGAN can gracefully fit arbitrary styles in a unified model while avoiding case-by-case preparation of style-consistent training images. To this end, we also present a novel large-scale artistic face dataset AAHQ. Extensive experiments demonstrate that BlendGAN outperforms state-of-the-art methods in terms of visual quality and style diversity for both latent-guided and reference-guided stylized face synthesis.*\n\n### Updates\n\n:heavy_check_mark: (2021-12-03) The [AAHQ](https:\u002F\u002Fgithub.com\u002Fonion-liu\u002Faahq-dataset) dataset has been released!\n\n:heavy_check_mark: (2021-11-22) add an interactive [demo](#Demo) based on Jupyter notebook\n\n:heavy_check_mark: (2021-11-19) a web demo is integrated to [Huggingface Spaces](https:\u002F\u002Fhuggingface.co\u002Fspaces) with [Gradio](https:\u002F\u002Fgithub.com\u002Fgradio-app\u002Fgradio). See demo: [![Hugging Face Spaces](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fakhaliq\u002FBlendGAN)\n\n:heavy_check_mark: (2021-11-19) Inference code and pretrained models have been released! \n\n![000041](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fonion-liu_BlendGAN_readme_6c1cb6a0af30.gif)\n![000021](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fonion-liu_BlendGAN_readme_32ea53a36f27.gif)\n\n## Pre-trained Models\n\nYou can download the following pretrained models to .\u002Fpretrained_models:\n\n|  Model  | Discription  |\n|  ----  | ----  |\n| [blendgan](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1eF04jKMLAb9DvzI72m8Akn5ykWf3EafE\u002Fview?usp=sharing)  | BlendGAN model (together with style_encoder) |\n| [psp_encoder](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F14nevG94hNkkwaoK5eJLF1iv78cv5O8fN\u002Fview?usp=sharing) | PSP Encoder model |\n| [style_encoder](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1EaM0ZYsAMdPkbRz0smLNIlJ1rxVAhbEz\u002Fview?usp=sharing) | Individual Style Encoder model (optional) |\n\n## Inference\n\n*Note: If you dislike the deformation in the generated images, `add_weight_index=7` may be a better choice.*\n\n### 1. Generate image pairs with random face codes\n\n- for latent-guided generation, run:\n\n```bash\npython generate_image_pairs.py --size 1024 --pics N_PICS --ckpt .\u002Fpretrained_models\u002Fblendgan.pt --outdir results\u002Fgenerated_pairs\u002Flatent_guided\u002F\n```\n\n- for reference-guided generation, run:\n\n```bash\npython generate_image_pairs.py --size 1024 --pics N_PICS --ckpt .\u002Fpretrained_models\u002Fblendgan.pt --style_img .\u002Ftest_imgs\u002Fstyle_imgs\u002F100036.png --outdir results\u002Fgenerated_pairs\u002Freference_guided\u002F\n```\n\n### 2. Style tranfer with given face images\n\n```bash\npython style_transfer_folder.py --size 1024 --ckpt .\u002Fpretrained_models\u002Fblendgan.pt --psp_encoder_ckpt .\u002Fpretrained_models\u002Fpsp_encoder.pt --style_img_path .\u002Ftest_imgs\u002Fstyle_imgs\u002F --input_img_path .\u002Ftest_imgs\u002Fface_imgs\u002F --outdir results\u002Fstyle_transfer\u002F\n```\n\n### 3. Generate interpolation videos\n\n```bash\npython gen_video.py --size 1024 --ckpt .\u002Fpretrained_models\u002Fblendgan.pt --psp_encoder_ckpt .\u002Fpretrained_models\u002Fpsp_encoder.pt --style_img_path .\u002Ftest_imgs\u002Fstyle_imgs\u002F --input_img_path .\u002Ftest_imgs\u002Fface_imgs\u002F --outdir results\u002Finter_videos\u002F\n```\n\n## Demo\n\n```bash\njupyter notebook --notebook-dir=.\u002F\n```\n\n![demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fonion-liu_BlendGAN_readme_27e74b778a9b.jpg)\n\n## Bibtex\nIf you use this code for your research, please cite our paper:\n```\n@inproceedings{liu2021blendgan,\n    title = {BlendGAN: Implicitly GAN Blending for Arbitrary Stylized Face Generation},\n    author = {Liu, Mingcong and Li, Qiang and Qin, Zekui and Zhang, Guoxin and Wan, Pengfei and Zheng, Wen},\n    booktitle = {Advances in Neural Information Processing Systems},\n    year = {2021}\n}\n```\n\n## Credits\n**StyleGAN2 model and implementation:**  \nhttps:\u002F\u002Fgithub.com\u002Frosinality\u002Fstylegan2-pytorch  \nCopyright (c) 2019 Kim Seonghyeon  \nLicense (MIT) https:\u002F\u002Fgithub.com\u002Frosinality\u002Fstylegan2-pytorch\u002Fblob\u002Fmaster\u002FLICENSE  \n\n**IR-SE50 model and implementations:**  \nhttps:\u002F\u002Fgithub.com\u002FTreB1eN\u002FInsightFace_Pytorch  \nCopyright (c) 2018 TreB1eN  \nLicense (MIT) https:\u002F\u002Fgithub.com\u002FTreB1eN\u002FInsightFace_Pytorch\u002Fblob\u002Fmaster\u002FLICENSE\n\n**pSp model and implementation:**   \nhttps:\u002F\u002Fgithub.com\u002Feladrich\u002Fpixel2style2pixel  \nCopyright (c) 2020 Elad Richardson, Yuval Alaluf  \nLicense (MIT) https:\u002F\u002Fgithub.com\u002Feladrich\u002Fpixel2style2pixel\u002Fblob\u002Fmaster\u002FLICENSE\n\n**Please Note**:\n\n- The CUDA files under the [StyleGAN2 ops directory](.\u002Fop) are made available under the [Nvidia Source Code License-NC](https:\u002F\u002Fnvlabs.github.io\u002Fstylegan2\u002Flicense.html)\n- The face images under the [test_imgs](.\u002Ftest_imgs\u002Fface_imgs) directory are selected from the [FFHQ](https:\u002F\u002Fgithub.com\u002FNVlabs\u002Fffhq-dataset) dataset, which is made available under [Creative Commons BY-NC-SA 4.0](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F) license by NVIDIA Corporation.\n- The artistic images under the [test_imgs](.\u002Ftest_imgs\u002Fstyle_imgs) directory are collected from [Artstation](https:\u002F\u002Fwww.artstation.com), and the copyright remains with the original owners.\n\n\n## Acknowledgements\n\nWe sincerely thank all the reviewers for their comments. We also thank Zhenyu Guo for help in preparing the comparison to StarGANv2.\nThis code borrows heavily from the pytorch re-implementation of StyleGAN2 by [rosinality](https:\u002F\u002Fgithub.com\u002Frosinality\u002Fstylegan2-pytorch).\n\n","# BlendGAN：用于任意风格化人脸生成的隐式 GAN 融合 \u003Cbr>\u003Csub>NeurIPS 2021 论文的官方 PyTorch 实现\u003C\u002Fsub>\n\n![teaser](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fonion-liu_BlendGAN_readme_330a9d40e7b6.jpg)\n\n[刘明聪](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=IYx0IbgAAAAJ)、[李强](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=GGPvOP4AAAAJ)、[秦泽奎](https:\u002F\u002Fgithub.com\u002FZekuiQin)、[张国鑫]()、[万鹏飞]()、[郑文](https:\u002F\u002Fsites.google.com\u002Fview\u002Fzhengwen-kwai)\n\nY-tech，快手科技\n\n\n### [项目页面](https:\u002F\u002Fonion-liu.github.io\u002FBlendGAN) |   [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.11728)\n\n摘要：*生成对抗网络（GAN）在高保真图像合成和风格化人脸生成方面取得了巨大进展。最近，一种层交换机制被开发出来以提升风格化效果。然而，这种方法无法在一个模型中适配任意风格，并且每种风格都需要数百张风格一致的训练图像。为了解决上述问题，我们提出了 BlendGAN，通过灵活的融合策略和通用的艺术数据集，实现任意风格化人脸生成。具体来说，我们首先在通用艺术数据集中训练一个自监督风格编码器，以提取任意风格的表征。此外，我们还提出了一种加权融合模块（WBM），用于隐式地融合人脸和风格表征，并控制任意风格化效果。通过这种方式，BlendGAN能够在统一的模型中优雅地适配任意风格，同时避免了为每种风格单独准备风格一致的训练图像。为此，我们还发布了一个全新的大规模艺术人脸数据集 AAHQ。大量实验表明，无论是潜在引导还是参考引导的风格化人脸合成，BlendGAN 在视觉质量和风格多样性方面均优于当前最先进的方法。*\n\n### 更新\n\n:heavy_check_mark: (2021-12-03) [AAHQ](https:\u002F\u002Fgithub.com\u002Fonion-liu\u002Faahq-dataset) 数据集已发布！\n\n:heavy_check_mark: (2021-11-22) 添加基于 Jupyter Notebook 的交互式 [演示](#Demo)\n\n:heavy_check_mark: (2021-11-19) 已将网页演示集成到 [Huggingface Spaces](https:\u002F\u002Fhuggingface.co\u002Fspaces)，使用 [Gradio](https:\u002F\u002Fgithub.com\u002Fgradio-app\u002Fgradio)。查看演示：[![Hugging Face Spaces](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fakhaliq\u002FBlendGAN)\n\n:heavy_check_mark: (2021-11-19) 推理代码和预训练模型已发布！ \n\n![000041](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fonion-liu_BlendGAN_readme_6c1cb6a0af30.gif)\n![000021](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fonion-liu_BlendGAN_readme_32ea53a36f27.gif)\n\n## 预训练模型\n\n您可以将以下预训练模型下载到 .\u002Fpretrained_models 目录下：\n\n| 模型  | 描述  |\n|  ----  | ----  |\n| [blendgan](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1eF04jKMLAb9DvzI72m8Akn5ykWf3EafE\u002Fview?usp=sharing)  | BlendGAN 模型（连同 style_encoder） |\n| [psp_encoder](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F14nevG94hNkkwaoK5eJLF1iv78cv5O8fN\u002Fview?usp=sharing) | PSP 编码器模型 |\n| [style_encoder](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1EaM0ZYsAMdPkbRz0smLNIlJ1rxVAhbEz\u002Fview?usp=sharing) | 个体风格编码器模型（可选） |\n\n## 推理\n\n*注意：如果您不喜欢生成图像中的变形，`add_weight_index=7` 可能是更好的选择。*\n\n### 1. 使用随机人脸编码生成图像对\n\n- 对于潜在引导生成，运行：\n\n```bash\npython generate_image_pairs.py --size 1024 --pics N_PICS --ckpt .\u002Fpretrained_models\u002Fblendgan.pt --outdir results\u002Fgenerated_pairs\u002Flatent_guided\u002F\n```\n\n- 对于参考引导生成，运行：\n\n```bash\npython generate_image_pairs.py --size 1024 --pics N_PICS --ckpt .\u002Fpretrained_models\u002Fblendgan.pt --style_img .\u002Ftest_imgs\u002Fstyle_imgs\u002F100036.png --outdir results\u002Fgenerated_pairs\u002Freference_guided\u002F\n```\n\n### 2. 使用给定的人脸图像进行风格迁移\n\n```bash\npython style_transfer_folder.py --size 1024 --ckpt .\u002Fpretrained_models\u002Fblendgan.pt --psp_encoder_ckpt .\u002Fpretrained_models\u002Fpsp_encoder.pt --style_img_path .\u002Ftest_imgs\u002Fstyle_imgs\u002F --input_img_path .\u002Ftest_imgs\u002Fface_imgs\u002F --outdir results\u002Fstyle_transfer\u002F\n```\n\n### 3. 生成插值视频\n\n```bash\npython gen_video.py --size 1024 --ckpt .\u002Fpretrained_models\u002Fblendgan.pt --psp_encoder_ckpt .\u002Fpretrained_models\u002Fpsp_encoder.pt --style_img_path .\u002Ftest_imgs\u002Fstyle_imgs\u002F --input_img_path .\u002Ftest_imgs\u002Fface_imgs\u002F --outdir results\u002Finter_videos\u002F\n```\n\n## 演示\n\n```bash\njupyter notebook --notebook-dir=.\u002F\n```\n\n![demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fonion-liu_BlendGAN_readme_27e74b778a9b.jpg)\n\n## Bibtex\n如果您在研究中使用此代码，请引用我们的论文：\n```\n@inproceedings{liu2021blendgan,\n    title = {BlendGAN: Implicitly GAN Blending for Arbitrary Stylized Face Generation},\n    author = {Liu, Mingcong and Li, Qiang and Qin, Zekui and Zhang, Guoxin and Wan, Pengfei and Zheng, Wen},\n    booktitle = {Advances in Neural Information Processing Systems},\n    year = {2021}\n}\n```\n\n## 致谢\n**StyleGAN2 模型及其实现：**  \nhttps:\u002F\u002Fgithub.com\u002Frosinality\u002Fstylegan2-pytorch  \n版权所有 (c) 2019 Kim Seonghyeon  \n许可证 (MIT) https:\u002F\u002Fgithub.com\u002Frosinality\u002Fstylegan2-pytorch\u002Fblob\u002Fmaster\u002FLICENSE  \n\n**IR-SE50 模型及其实现：**  \nhttps:\u002F\u002Fgithub.com\u002FTreB1eN\u002FInsightFace_Pytorch  \n版权所有 (c) 2018 TreB1eN  \n许可证 (MIT) https:\u002F\u002Fgithub.com\u002FTreB1eN\u002FInsightFace_Pytorch\u002Fblob\u002Fmaster\u002FLICENSE\n\n**pSp 模型及其实现：**   \nhttps:\u002F\u002Fgithub.com\u002Feladrich\u002Fpixel2style2pixel  \n版权所有 (c) 2020 Elad Richardson, Yuval Alaluf  \n许可证 (MIT) https:\u002F\u002Fgithub.com\u002Feladrich\u002Fpixel2style2pixel\u002Fblob\u002Fmaster\u002FLICENSE\n\n**请注意**：\n\n- [StyleGAN2 ops 目录](.\u002Fop) 下的 CUDA 文件根据 [Nvidia 源代码许可-NC](https:\u002F\u002Fnvlabs.github.io\u002Fstylegan2\u002Flicense.html) 提供。\n- [test_imgs](.\u002Ftest_imgs\u002Fface_imgs) 目录下的人脸图像选自 [FFHQ](https:\u002F\u002Fgithub.com\u002FNVlabs\u002Fffhq-dataset) 数据集，该数据集由 NVIDIA 公司根据 [Creative Commons BY-NC-SA 4.0](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F) 许可提供。\n- [test_imgs](.\u002Ftest_imgs\u002Fstyle_imgs) 目录下的艺术图像收集自 [Artstation](https:\u002F\u002Fwww.artstation.com)，版权仍归原作者所有。\n\n\n## 致谢\n\n我们衷心感谢所有审稿人的宝贵意见。同时，我们也感谢郭振宇在准备与 StarGANv2 对比方面的帮助。本代码大量借鉴了 [rosinality](https:\u002F\u002Fgithub.com\u002Frosinality\u002Fstylegan2-pytorch) 对 StyleGAN2 的 PyTorch 重实现。","# BlendGAN 快速上手指南\n\nBlendGAN 是一个用于任意风格化人脸生成的 AI 模型，支持基于潜在代码（latent-guided）和参考图像（reference-guided）的风格迁移。本指南将帮助你快速在本地部署并运行该工具。\n\n## 环境准备\n\n在开始之前，请确保你的系统满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 18.04+) 或 macOS\n*   **Python**: 3.6 或更高版本\n*   **GPU**: 支持 CUDA 的 NVIDIA 显卡（推荐显存 8GB 以上）\n*   **CUDA**: 已安装与 PyTorch 版本匹配的 CUDA 驱动\n\n**前置依赖安装：**\n\n建议使用 `pip` 安装核心依赖。国内用户推荐使用清华源或阿里源加速下载。\n\n```bash\n# 安装 PyTorch (请根据实际 CUDA 版本调整，此处以 CUDA 11.1 为例)\npip install torch torchvision torchaudio -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n\n# 安装其他依赖\npip install ninja opencv-python-headless scipy pillow tqdm -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n> **注意**：本项目基于 StyleGAN2 的 PyTorch 实现，部分算子需要即时编译（JIT）。首次运行时可能需要几分钟编译 CUDA 扩展，请确保已安装 `nvcc` (CUDA Toolkit)。\n\n## 安装步骤\n\n1.  **克隆仓库**\n\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fonion-liu\u002FBlendGAN.git\n    cd BlendGAN\n    ```\n\n2.  **下载预训练模型**\n\n    将以下模型文件下载到项目根目录下的 `.\u002Fpretrained_models` 文件夹中。如果该文件夹不存在，请先创建它。\n\n    *   [blendgan.pt](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1eF04jKMLAb9DvzI72m8Akn5ykWf3EafE\u002Fview?usp=sharing) (主模型)\n    *   [psp_encoder.pt](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F14nevG94hNkkwaoK5eJLF1iv78cv5O8fN\u002Fview?usp=sharing) (PSP 编码器，用于真实图片反转)\n    *   [style_encoder.pt](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1EaM0ZYsAMdPkbRz0smLNIlJ1rxVAhbEz\u002Fview?usp=sharing) (独立风格编码器，可选)\n\n    **目录结构示例：**\n    ```text\n    BlendGAN\u002F\n    ├── pretrained_models\u002F\n    │   ├── blendgan.pt\n    │   ├── psp_encoder.pt\n    │   └── style_encoder.pt\n    ├── generate_image_pairs.py\n    └── ...\n    ```\n\n## 基本使用\n\n以下是三个最常用的功能示例。运行前请确保已在 `pretrained_models` 目录放置好对应的 `.pt` 文件。\n\n### 1. 生成随机风格化人脸对 (Latent-guided)\n\n此命令将随机生成人脸，并应用随机艺术风格。\n\n```bash\npython generate_image_pairs.py --size 1024 --pics 5 --ckpt .\u002Fpretrained_models\u002Fblendgan.pt --outdir results\u002Fgenerated_pairs\u002Flatent_guided\u002F\n```\n*   `--pics`: 生成图片的数量。\n*   结果将保存在 `results\u002Fgenerated_pairs\u002Flatent_guided\u002F` 目录。\n\n### 2. 指定风格图进行风格迁移 (Reference-guided)\n\n使用特定的艺术风格图片对随机生成的人脸进行风格化。\n\n```bash\npython generate_image_pairs.py --size 1024 --pics 5 --ckpt .\u002Fpretrained_models\u002Fblendgan.pt --style_img .\u002Ftest_imgs\u002Fstyle_imgs\u002F100036.png --outdir results\u002Fgenerated_pairs\u002Freference_guided\u002F\n```\n*   `--style_img`: 指定作为风格参考的图片路径。\n\n### 3. 真实人脸风格迁移 (Style Transfer)\n\n将上传的真实人脸照片转换为特定艺术风格。这是最实用的功能。\n\n```bash\npython style_transfer_folder.py --size 1024 --ckpt .\u002Fpretrained_models\u002Fblendgan.pt --psp_encoder_ckpt .\u002Fpretrained_models\u002Fpsp_encoder.pt --style_img_path .\u002Ftest_imgs\u002Fstyle_imgs\u002F --input_img_path .\u002Ftest_imgs\u002Fface_imgs\u002F --outdir results\u002Fstyle_transfer\u002F\n```\n*   `--input_img_path`: 存放待处理真实人脸图片的文件夹。\n*   `--style_img_path`: 存放风格参考图片的文件夹。\n*   **提示**: 如果生成的人脸变形严重，可在代码或相关参数中尝试调整权重索引（原文建议 `add_weight_index=7` 可能效果更好，具体需视代码内部实现微调）。\n\n### 4. 交互式演示 (Demo)\n\n如果你更喜欢在浏览器中交互式地调整参数和查看结果，可以启动 Jupyter Notebook：\n\n```bash\njupyter notebook --notebook-dir=.\u002F\n```\n然后在浏览器中打开 `demo.ipynb` (如果有) 或直接查看仓库提供的 Demo 逻辑进行实验。","某数字娱乐公司的特效团队需要为一款古风 RPG 游戏快速生成大量具有不同水墨、油画等艺术风格的 NPC 头像，以丰富游戏视觉表现。\n\n### 没有 BlendGAN 时\n- **训练成本极高**：每引入一种新画风（如“青绿山水”或“浮世绘”），都需要收集数百张风格一致的图片并重新训练模型，耗时数天。\n- **模型管理混乱**：为了支持多种风格，团队需维护几十个独立的模型文件，导致存储占用大且部署切换繁琐。\n- **风格泛化能力差**：现有方案难以处理未见过的艺术风格，一旦美术提出新的创意需求，技术落地周期漫长。\n- **人脸特征丢失**：传统的风格迁移容易过度扭曲人物五官，导致生成的 NPC 失去原有身份特征，无法用于连续剧情。\n\n### 使用 BlendGAN 后\n- **零样本风格适配**：利用 BlendGAN 的自监督风格编码器，仅需一张参考图即可提取任意艺术风格，无需针对新风格重新训练。\n- **统一模型部署**：所有风格生成整合在一个通用模型中，大幅简化了工程架构，实现了“单模型、多风格”的灵活调用。\n- **创作自由度提升**：美术团队可随意提供小众画作作为风格指引，BlendGAN 能即时生成对应效果，极大缩短了从创意到成品的验证周期。\n- **身份特征保持**：通过加权混合模块（WBM），在施加强烈艺术笔触的同时，精准保留了人物的面部结构和身份辨识度。\n\nBlendGAN 通过将风格解耦与隐式混合策略结合，彻底打破了定制化训练的限制，让高保真、多样化的艺术风格人脸生成变得像搭积木一样简单高效。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fonion-liu_BlendGAN_330a9d40.jpg","onion-liu","onion","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fonion-liu_e3859d61.jpg","AIGC, GAN, Style Transfer, Image Enhancement, Infrared Image, HDR","ByteDance","Beijing",null,"onion-liu.github.io","https:\u002F\u002Fgithub.com\u002Fonion-liu",[84,88,92,95],{"name":85,"color":86,"percentage":87},"Python","#3572A5",80.7,{"name":89,"color":90,"percentage":91},"Cuda","#3A4E3A",15.9,{"name":93,"color":94,"percentage":32},"C++","#f34b7d",{"name":96,"color":97,"percentage":98},"Jupyter Notebook","#DA5B0B",1.5,504,54,"2026-04-12T17:09:39","MIT","Linux","必需 NVIDIA GPU（因包含 CUDA 自定义算子），具体型号和显存未说明，需支持 CUDA","未说明",{"notes":107,"python":105,"dependencies":108},"1. 项目基于 StyleGAN2 的 PyTorch 复现版本，`.\u002Fop` 目录下包含需要编译的 CUDA 扩展文件，因此必须在 Linux 环境下且安装了对应版本的 CUDA 工具包才能运行。\n2. 依赖多个外部项目代码（StyleGAN2, pSp, InsightFace），需确保这些依赖库正确安装。\n3. 首次运行前需手动下载预训练模型（blendgan.pt, psp_encoder.pt 等）至 .\u002Fpretrained_models 目录。\n4. 提供了 Jupyter Notebook 交互式演示和基于 Gradio 的 Hugging Face Spaces Web 演示。",[109,110,111,112,96,113],"PyTorch","StyleGAN2-pytorch (rosinality)","InsightFace_Pytorch","pixel2style2pixel (pSp)","Gradio (用于 Web Demo)",[15],[116,117,118,119],"generative-adversarial-network","gan","image-generation","style-transfer","2026-03-27T02:49:30.150509","2026-04-18T22:34:11.111777",[123,128,133,138,143,148,153],{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},40947,"运行项目需要哪些依赖包及版本？","作者测试过的环境配置如下：\nnumpy==1.15.4\nopencv-python==4.0.0.21\ntorch==1.3.1\ntorchvision==0.4.2\ntqdm==4.28.1\n较新的版本通常也可以正常工作。","https:\u002F\u002Fgithub.com\u002Fonion-liu\u002FBlendGAN\u002Fissues\u002F6",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},40948,"找不到 blendgan.pt 或 psp_encoder.pt 预训练模型文件怎么办？","这些文件未直接包含在代码库中，请前往项目的 README 文档中的“预训练模型（Pre-trained Models）”章节下载，地址为：https:\u002F\u002Fgithub.com\u002Fonion-liu\u002FBlendGAN#pre-trained-models","https:\u002F\u002Fgithub.com\u002Fonion-liu\u002FBlendGAN\u002Fissues\u002F5",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},40949,"生成视频时出现内存溢出（RAM Overflow）如何解决？","由于生成的视频分辨率很大（3072*1024），容易导致内存溢出。解决方案包括：\n1. 更新代码：作者已更新 gen_video.py 以降低内存占用（见提交记录：https:\u002F\u002Fgithub.com\u002Fonion-liu\u002FBlendGAN\u002Fcommit\u002F39368a8f37a6e990b64a1edc787ad88edfff7f86）。\n2. 手动修改代码：在 gen_video.py 第 115 行后添加代码将帧调整为更小的分辨率。\n3. 改变保存策略：先将每一帧图片保存到磁盘，所有帧生成完毕后再合并成视频。","https:\u002F\u002Fgithub.com\u002Fonion-liu\u002FBlendGAN\u002Fissues\u002F3",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},40950,"WBM 模块的代码在哪里？是否有独立实现？","WBM 模块没有被实现为独立的模块，而是直接集成到了生成器（Generator）中。具体代码实现可以参考 model.py 文件的第 560 至 567 行：https:\u002F\u002Fgithub.com\u002Fonion-liu\u002FBlendGAN\u002Fblob\u002Fmain\u002Fmodel.py#L560-L567","https:\u002F\u002Fgithub.com\u002Fonion-liu\u002FBlendGAN\u002Fissues\u002F13",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},40951,"AAHQ 数据集是否已经发布？在哪里可以下载？","AAHQ 数据集已经发布，可以通过以下 GitHub 仓库获取：https:\u002F\u002Fgithub.com\u002Fonion-liu\u002Faahq-dataset","https:\u002F\u002Fgithub.com\u002Fonion-liu\u002FBlendGAN\u002Fissues\u002F7",{"id":149,"question_zh":150,"answer_zh":151,"source_url":152},40952,"是否有 Google Colab 笔记本可以直接运行演示？","社区用户提供了一个非官方的 Colab 笔记本：https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002F3dsf\u002FBlendGAN\u002Fblob\u002Fmain\u002FBlendGAN_3dsf.ipynb（注意：该版本运行完成后会下载结果，且视频示例可能因内存问题无法显示）。此外，官方已在仓库中添加了基于 Jupyter Notebook 的交互式演示，可参考：https:\u002F\u002Fgithub.com\u002Fonion-liu\u002FBlendGAN#demo","https:\u002F\u002Fgithub.com\u002Fonion-liu\u002FBlendGAN\u002Fissues\u002F4",{"id":154,"question_zh":155,"answer_zh":156,"source_url":157},40953,"如何请求添加 Weights & Biases (W&B) 图像日志功能？","维护者欢迎此类贡献。如果您希望添加 W&B 图像日志功能（用于在模型评估或推理期间可视化生成的图像，例如使用 W&B Tables 保存源图像、参考图像和生成图像），可以直接提交 Pull Request (PR)。维护者表示会审查并合并此类 PR。","https:\u002F\u002Fgithub.com\u002Fonion-liu\u002FBlendGAN\u002Fissues\u002F10",[]]