MobileStyleGAN.pytorch

697 87 中等 1 次阅读 3周前Apache-2.0开发框架图像

AI 解读由 AI 自动生成，仅供参考

MobileStyleGAN.pytorch 是一个基于 PyTorch 实现的轻量级图像生成工具，旨在让高保真的人脸合成也能在资源受限的设备上流畅运行。它主要解决了传统 StyleGAN2 模型体积大、计算量高，难以部署到手机或边缘设备上的痛点。通过引入高效的卷积神经网络架构，它在大幅降低参数量和计算成本的同时，依然能生成细节丰富、逼真度极高的图像。

这款工具非常适合希望在移动端、嵌入式设备或 Web 端部署生成式 AI 的开发者与研究人员，同时也为需要快速验证轻量化模型效果的设计师提供了便利。其技术亮点在于不仅支持从主流 StyleGAN2 检查点无缝转换，还原生提供了导出为 ONNX、CoreML 以及 OpenVINO 格式的功能，极大地简化了跨平台部署流程。此外，项目内置了预训练模型和自动化下载功能，用户只需简单命令即可开始生成图像或进行性能评估，是探索高效图像合成技术的理想起点。

使用场景

某初创团队正在开发一款面向大众用户的移动端虚拟形象生成 App，需要在用户手机上实时合成高保真的人脸图像。

没有 MobileStyleGAN.pytorch 时

部署门槛极高：传统的 StyleGAN2 模型参数量巨大，无法直接嵌入手机应用，必须依赖昂贵的云端 GPU 服务器进行推理，导致运营成本居高不下。
响应延迟严重：由于需要通过网络将用户请求发送至云端再返回结果，网络波动常造成图片生成延迟超过 2 秒，严重影响用户体验的流畅度。
端侧适配困难：尝试将现有大模型强行压缩或量化到移动端时，往往缺乏官方支持的工具链（如 CoreML 或 ONNX 导出），导致图像质量断崖式下跌或出现伪影。
开发周期漫长：团队需自行研究如何修改网络架构以适配移动芯片，缺乏现成的轻量级卷积神经网络参考，耗费大量人力在底层优化上。

使用 MobileStyleGAN.pytorch 后

原生端侧运行：利用其内置的 CoreML 和 ONNX 导出功能，团队轻松将模型转换为移动端格式，直接在用户手机 NPU 上运行，彻底消除了云端服务器成本。
毫秒级实时生成：得益于专为移动端设计的轻量级架构，图像合成速度提升至毫秒级，用户滑动滑块时能即时看到高清人脸变化，交互丝滑流畅。
画质与性能平衡：在显著减少计算量的同时，仍保持了 FID 7.75 的高保真合成效果，解决了以往小模型生成图像模糊或失真的痛点。
快速落地验证：借助官方提供的预训练模型和 OpenVINO 部署示例，团队在一周内就完成了从模型训练到边缘设备部署的全流程，大幅缩短上市时间。

MobileStyleGAN.pytorch 通过提供工业级的轻量化方案，成功将原本只能运行在高端工作站上的高质量图像生成能力，无缝迁移到了普通的移动设备之上。

运行环境要求

操作系统

未说明

GPU

必需，1-8 张高端 NVIDIA GPU（测试环境为 4x RTX 2080 Ti），单卡显存至少 12GB

内存

未说明

依赖

notes该工具包含自定义 CUDA 内核，需确保安装与显卡匹配的 CUDA 驱动。支持将模型转换为 ONNX、CoreML 格式，或使用 OpenVINO 在边缘设备部署。框架支持自动下载预训练模型。

python3.8+

torch

pytorch-fid (modified version)

快速开始

MobileStyleGAN：用于高保真图像合成的轻量级卷积神经网络

官方 PyTorch 实现

配套视频可在 YouTube 上找到。更多详情请参阅论文。

环境要求

Python 3.8+
1–8 张高端 NVIDIA GPU，每张显存至少 12 GB。我们所有的测试和开发均在配备 4 块 2080 Ti 显卡的深度学习工作站上完成。

训练

pip install -r requirements.txt
python train.py --cfg configs/mobile_stylegan_ffhq.json --gpus <n_gpus>

从 rosinality/stylegan2-pytorch 转换检查点

我们的框架支持来自 rosinality/stylegan2-pytorch 的 StyleGAN2 检查点格式。要将您自己的 StyleGAN2 检查点转换为我们的框架：

python convert_rosinality_ckpt.py --ckpt <rosinality_stylegan2_ckpt路径> --ckpt-mnet <输出映射网络检查点路径> --ckpt-snet <输出合成网络检查点路径> --cfg-path <输出配置文件JSON路径>

检查转换后的检查点

要确认您的检查点已正确转换，只需运行演示可视化：

python demo.py --cfg <输出配置文件JSON路径> --ckpt "" --generator teacher

使用 MobileStyleGAN 生成图像

python generate.py --cfg configs/mobile_stylegan_ffhq.json --device cuda --ckpt <检查点路径> --output-path <保存图像路径> --batch-size <批量大小> --n-batches <批次数量>

评估 FID 分数

我们使用 pytorch-fid 库的修改版本来评估 FID 分数：

python evaluate_fid.py <参考数据集路径> <生成图像路径>

演示

使用 MobileStyleGAN 运行演示可视化：

python demo.py --cfg configs/mobile_stylegan_ffhq.json --ckpt <检查点路径>

使用 StyleGAN2 和 MobileStyleGAN 进行视觉对比：

python compare.py --cfg configs/mobile_stylegan_ffhq.json --ckpt <检查点路径>

转换为 ONNX

python train.py --cfg configs/mobile_stylegan_ffhq.json --ckpt <检查点路径> --export-model onnx --export-dir <输出目录>

转换为 CoreML

python train.py --cfg configs/mobile_stylegan_ffhq.json --ckpt <检查点路径> --export-model coreml --export-dir <输出目录>

使用 OpenVINO 部署

我们提供外部库 random_face，作为使用 OpenVINO 框架在边缘设备上部署我们模型的示例。

预训练模型

名称	FID
mobilestylegan_ffhq.ckpt	7.75

(*) 我们的框架支持自动下载预训练模型，只需使用 --ckpt <预训练模型名称> 即可。

旧版许可证

代码	来源	许可证
自定义 CUDA 内核	https://github.com/NVlabs/stylegan2	Nvidia 许可证
StyleGAN2 块	https://github.com/rosinality/stylegan2-pytorch	MIT

致谢

我们感谢为本项目做出贡献的人们：

Tero Karras、Samuli Laine、Miika Aittala、Janne Hellsten、Jaakko Lehtinen、Timo Aila，感谢他们在基于风格的生成模型方面的研究。
Kim Seonghyeon，感谢他在 PyTorch 中实现 StyleGAN2。
Fergal Cotter，感谢他在 PyTorch 中实现离散小波变换及逆离散小波变换。
Cyril Diagne，感谢他出色的 MobileStyleGAN 直接在网页浏览器中运行的演示。

引用

如果您使用了本项目的成果和代码，请按以下方式引用：

@misc{belousov2021mobilestylegan,
      title={MobileStyleGAN：用于高保真图像合成的轻量级卷积神经网络},
      author={Sergei Belousov},
      year={2021},
      eprint={2104.04767},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

@article{BELOUSOV2021100115,
      title = {MobileStyleGAN.pytorch：基于 PyTorch 的 StyleGAN2 模型压缩工具},
      journal = {Software Impacts},
      year = {2021},
      issn = {2665-9638},
      doi = {https://doi.org/10.1016/j.simpa.2021.100115},
      url = {https://www.sciencedirect.com/science/article/pii/S2665963821000452},
      author = {Sergei Belousov},
}

MobileStyleGAN.pytorch 快速上手指南

MobileStyleGAN 是一个轻量级的卷积神经网络，旨在实现高保真度的图像合成，特别适合在移动端或边缘设备部署。本指南将帮助你快速搭建环境并生成图像。

环境准备

在开始之前，请确保你的开发环境满足以下要求：

操作系统: Linux (推荐) 或 macOS
Python: 3.8 或更高版本
GPU: 1–8 张高端 NVIDIA 显卡（显存至少 12 GB）。官方测试环境为 4x RTX 2080 Ti。
依赖库: 需要安装 PyTorch 及相关深度学习库。

提示：国内用户建议使用清华源或阿里源加速 Python 包的安装。

安装步骤

克隆项目代码

git clone https://github.com/bes-dev/MobileStyleGAN.pytorch.git
cd MobileStyleGAN.pytorch

安装依赖 使用 pip 安装所需依赖包。国内用户可添加 -i 参数指定镜像源以提升下载速度：
```
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
```

基本使用

1. 下载预训练模型

本项目支持自动下载预训练模型。你可以直接使用模型名称作为 --ckpt 参数，或者手动下载 mobilestylegan_ffhq.ckpt 并放置于项目目录。

2. 生成图像

使用以下命令即可基于预训练模型生成高质量人脸图像：

python generate.py --cfg configs/mobile_stylegan_ffhq.json --device cuda --ckpt mobilestylegan_ffhq.ckpt --output-path ./generated_images --batch-size 4 --n-batches 10

--cfg: 配置文件路径。
--device: 运行设备（cuda 或 cpu）。
--ckpt: 检查点路径（可直接填模型名自动下载，或填本地路径）。
--output-path: 生成图像的保存目录。
--batch-size 和 --n-batches: 控制生成的图片数量。

3. 交互式演示 (可选)

如果你想直观地查看生成效果或对比 StyleGAN2 与 MobileStyleGAN 的差异，可以运行演示脚本：

# 运行 MobileStyleGAN 可视化演示
python demo.py --cfg configs/mobile_stylegan_ffhq.json --ckpt mobilestylegan_ffhq.ckpt

# 对比 StyleGAN2 与 MobileStyleGAN
python compare.py --cfg configs/mobile_stylegan_ffhq.json --ckpt mobilestylegan_ffhq.ckpt

4. 模型导出 (可选)

若需部署到移动端或边缘设备，可将模型导出为 ONNX 或 CoreML 格式：

# 导出为 ONNX
python train.py --cfg configs/mobile_stylegan_ffhq.json --ckpt mobilestylegan_ffhq.ckpt --export-model onnx --export-dir ./onnx_model

# 导出为 CoreML
python train.py --cfg configs/mobile_stylegan_ffhq.json --ckpt mobilestylegan_ffhq.ckpt --export-model coreml --export-dir ./coreml_model

版本历史

2021.04.10.02021/04/14

常见问题

如何在 iPhone 上实现实时运行？性能表现如何？

使用 compute_mean_style 方法生成的图像为什么是全灰色的？

为什么通过 CoreML 转换后的模型生成的图像是全黑的？

如何将 StyleGAN2 的 .pt checkpoint 文件转换为该项目需要的 .ckpt 格式？

能否将 MobileStyleGAN 集成到 GFP-GAN 中使用？

运行 convert_rosinality_ckpt.py 时出现 "TypeError: cannot unpack non-iterable NoneType object" 错误怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 142.7k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|今天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent