really-awesome-gan

3.8k 706 困难 1 次阅读昨天图像其他

AI 解读由 AI 自动生成，仅供参考

really-awesome-gan 是一个专注于生成对抗网络（GAN）领域的精选资源库，由 Holger Caesar 维护。它并非一个可执行的软件程序，而是一份详尽的文献与学习指南，旨在帮助从业者系统性地掌握 GAN 技术。

在 GAN 技术从前沿探索走向主流应用的过程中，相关论文数量呈爆炸式增长，研究者往往难以快速筛选出高质量的核心资料。really-awesome-gan 通过人工整理，解决了信息过载与检索困难的问题。它将资源科学分类为理论综述、计算机视觉应用、跨领域应用甚至趣味项目，并特别推荐了如 CycleGAN 等里程碑式的研究成果。此外，该库还汇集了来自 NIPS 等顶级会议的教程、博客文章、视频讲解以及开源代码链接，构建了从理论基础到生产实践完整的学习路径。

这份资源非常适合人工智能研究人员、深度学习开发者以及对生成式模型感兴趣的学生使用。对于希望深入理解 GAN 原理、追踪最新学术动态或寻找项目灵感的专业人士而言，really-awesome-gan 提供了极高的参考价值。尽管维护者于 2017 年停止了更新，但其收录的经典文献和结构化知识体系至今仍是进入 GAN 领域不可或缺的入门基石，同时也鼓励社区在此基础上继续拓展和完善。

使用场景

某计算机视觉初创团队正致力于研发一款虚拟试衣应用，急需寻找能够根据人体姿态生成逼真服装图像的生成对抗网络（GAN）前沿方案。

没有 really-awesome-gan 时

研究人员需在 Google Scholar 和 arXiv 上盲目搜索海量论文，难以区分哪些是真正具有落地价值的核心成果，哪些仅是理论探索。
面对 GAN 训练不稳定、模式崩溃等经典难题，团队缺乏系统性的调试指南和“避坑”技巧，导致大量时间浪费在反复试错上。
难以快速定位到与“姿态引导图像生成”直接相关的开源代码库，往往找到的是只有理论公式而无实现细节的论文。
团队内部缺乏统一的学习路径，新成员需要花费数周时间自行整理教程、视频和博客，严重拖慢项目启动进度。

使用 really-awesome-gan 后

团队直接通过分类列表锁定了《Pose Guided Person Image Generation》等关键论文，迅速明确了技术选型方向，节省了数周的文献调研时间。
利用收录的"How to Train a GAN?"等实战博客和 NIPS 教程，工程师快速掌握了稳定训练的技巧，显著减少了模型调优周期。
通过"Code"板块直接获取了经过验证的开源实现参考，将原本需要从头编写的核心算法模块缩短为几天的集成工作。
借助汇总的视频教程和研讨会资源，团队成员在短时间内建立了从理论基础到生产部署的完整知识体系，实现了高效协作。

really-awesome-gan 通过将分散的 GAN 学术资源结构化，帮助开发者从茫茫论文海中精准导航，极大加速了从理论研究到工程落地的转化过程。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库（really-awesome-gan）并非一个可执行的 AI 工具或代码库，而是一个关于生成对抗网络（GAN）的论文、教程、博客和视频的资源列表（Awesome List）。README 中明确提到维护者自 2017 年 11 月起已停止更新此列表。因此，该项目本身没有运行环境、依赖库或硬件需求。列表中提到的个别代码示例（如 PyTorch 实现）需参考其各自链接的独立仓库获取具体环境要求。

python未说明

快速开始

非常棒的GAN

生成对抗（神经）网络相关的论文及其他资源列表。本网站由霍尔格·凯撒维护。如需补充或更正，请通过 holger-at-it-caesar.com 与我联系，或访问 it-caesar.com。同时也可以查看非常棒的语义分割以及我们的 COCO-Stuff 数据集。

注意： 尽管本站备受关注（每月约3000名访客），但我将自2017年11月起不再添加新论文。我认为GAN已从一个冷门话题发展为当前主流研究方向，因此再试图列出所有GAN相关论文既不现实也不必要。不过，我欢迎其他人继续这项工作，并自由使用我的这份列表。

教程、讲习班与博客

哥伦比亚高级机器学习研讨会
- GAN理论与实践的新进展 [博客]
- 隐式生成模型——你打算用GAN做什么？[博客]
如何训练GAN？让GAN奏效的技巧与窍门 [博客]
NIPS 2016教程：生成对抗网络 [arXiv]
NIPS 2016关于对抗训练的研讨会 [网页] [博客]
关于深度学习与GAN背后的直觉——迈向根本理解 [博客]
OpenAI - 生成模型 [博客]
SimGANs——无监督学习、自动驾驶等领域中的变革者 [博客]
深入探讨GAN：从理论到生产（EuroScipy 2018） [GitHub]

书籍

GAN实战：使用生成对抗网络进行深度学习 [书籍]

视频

伊恩·古德费洛讲解生成对抗网络 [视频]
马克·张讲解生成对抗网络教程 [视频]
米歇莱·德西莫尼和保罗·加莱奥内讲解的深入GAN课程：从理论到生产（EuroSciPy 2018） [视频]

代码

Cleverhans：用于评估对抗样本脆弱性的库 [代码] [博客]
50行代码实现GAN（PyTorch） [博客] [代码]
生成模型：包含GAN、VAE等生成模型的集合，支持PyTorch和TensorFlow [代码]
MNIST数据集上GAN论文的复现，仅用100行PyTorch代码 [博客] [代码]
条件生成对抗网络论文结果的复现，同样采用100行PyTorch代码 [代码]
改进GAN训练技术论文结果的复现，100行PyTorch代码 [代码]
LSGAN论文结果的复现，100行PyTorch代码 [代码]
WGAN论文结果的复现，100行PyTorch代码 [代码]
pix2pix论文结果的复现，100行PyTorch代码 [代码]

论文

概述

生成对抗网络：综述 [arXiv]

理论与机器学习

基于分类视角的GAN分布 [arXiv]
生成对抗网络、逆强化学习与基于能量模型之间的联系 [arXiv]
面向可扩展对抗分类的一般性再训练框架 [Paper]
激活最大化生成对抗网络 [arXiv]
AdaGAN：提升生成模型性能 [arXiv]
对抗自编码器 [arXiv]
对抗判别域适应 [arXiv]
对抗生成-编码网络 [arXiv]
对抗特征学习 [arXiv] [Code]
对抗式学习推理 [arXiv] [Code]
AE-GAN：利用GAN进行对抗性消除 [arXiv]
用于结构化输出神经网络半监督训练的对抗正则化 [arXiv]
APE-GAN：利用GAN进行对抗扰动消除 [arXiv]
关联式对抗网络 [arXiv]
使用学习到的相似性度量超越像素的自编码 [arXiv]
贝叶斯条件生成对抗网络 [arXiv]
贝叶斯GAN [arXiv]
BEGAN：边界均衡生成对抗网络 [Paper] [arXiv] [Code]
用于图像检索的二值生成对抗网络 [arXiv]
寻求边界的生成对抗网络 [arXiv] [Code]
CausalGAN：通过对抗训练学习因果隐式生成模型 [arXiv]
类别分裂生成对抗网络 [arXiv]
最大似然与基于GAN的Real NVPs训练比较 [arXiv]
用于属性引导人脸图像生成的条件循环GAN [arXiv]
条件生成对抗网络 [arXiv] [Code]
将生成对抗网络与演员-评论家方法连接起来 [Paper]
生成对抗网络中的持续学习 [arXiv]
C-RNN-GAN：具有对抗训练的连续循环神经网络 [arXiv]
CM-GANs：用于共同表示学习的跨模态生成对抗网络 [arXiv]
描述符与生成器网络的协同训练 [arXiv]
耦合生成对抗网络 [arXiv] [Code]
双重GAN [arXiv]
深层与分层隐式模型 [arXiv]
基于能量的生成对抗网络 [arXiv] [Code]
利用MMD神经架构搜索、PMish激活函数和自适应秩分解增强GAN [Paper] [Code] [Website] [YouTube] [Demo]
通过神经架构搜索和张量分解提升GAN性能 [Paper] [PDF] [Code]
解释与利用对抗样本 [arXiv]
Flow-GAN：在生成模型中弥合隐式与显式学习 [arXiv]
f-GAN：使用变分散度最小化训练生成式神经采样器 [arXiv] [Code]
GAN团伙：采用最大间隔排序的生成对抗网络 [arXiv]
生成对抗网络（GAN）中的泛化与均衡 [arXiv]
利用递归对抗网络生成图像 [arXiv]
生成对抗网络 [arXiv] [Code] [Code]
生成对抗网络作为基于能量模型的变分训练 [arXiv]
具有逆变换单元的生成对抗网络 [arXiv]
生成对抗并行化 [arXiv] [Code]
用于一次学习的生成对抗残差成对网络 [arXiv]
生成对抗结构化网络 [Paper]
用于图像生成和数据增强的生成合作网络 [arXiv]
生成矩匹配网络 [arXiv] [Code]
利用对比GAN进行生成语义操纵 [arXiv]
几何GAN [arXiv]
优秀的半监督学习需要一个糟糕的GAN [arXiv]
梯度下降优化的GAN在局部是稳定的 [arXiv]
如何训练你的DRAGAN [arXiv]
图像质量评估技术表明自编码器生成对抗网络的训练和评估有所改善 [arXiv]
利用流形不变性，通过GAN改进半监督学习 [arXiv]
改进GAN训练的技术 [arXiv] [Code]
改进Wasserstein GAN的训练 [arXiv] [Code]
InfoGAN：通过信息最大化生成对抗网络实现可解释的表征学习 [arXiv] [Code]
逆转生成对抗网络的生成器 [Paper]
只需两人：对抗生成-编码网络 [arXiv]
KGAN：如何破解GAN中的极小极大博弈 [arXiv]
隐式生成模型中的学习 [Paper]
用于条件对抗网络知识蒸馏的学习损失 [arXiv]
学习使用生成对抗网络发现跨领域关系 [arXiv] [Code]
利用周期性空间GAN学习纹理流形 [arXiv]
最小二乘生成对抗网络 [arXiv] [Code]
将生成对抗学习与二分类联系起来 [arXiv]
对Lipschitz密度敏感的损失生成对抗网络 [arXiv]
LR-GAN：用于图像生成的分层递归生成对抗网络 [arXiv]
MAGAN：面向生成对抗网络的边缘适应 [arXiv] [Code]
最大似然增强的离散生成对抗网络 [arXiv]
McGan：均值和协方差特征匹配GAN [arXiv]
消息传递多智能体GAN [arXiv]
MMD GAN：迈向对矩匹配网络更深入的理解 [arXiv]
模式正则化的生成对抗网络 [arXiv] [Code]
多智能体多样化生成对抗网络 [arXiv]
多生成器生成对抗网络 [arXiv]
目标强化生成对抗网络（ORGAN）用于序列生成模型 [arXiv]
关于GAN的收敛性和稳定性 [arXiv]
批量归一化和权重归一化在生成对抗网络中的影响 [arXiv]
关于基于解码器的生成模型的定量分析 [arXiv]
优化生成网络的潜在空间 [arXiv]
用GAN参数化CNN的滤波器 [arXiv]
PixelGAN自编码器 [arXiv]
逐步增长GAN以提高质量、稳定性和多样性 [arXiv] [Code]
SegAN：具有多尺度L1损失的医学图像分割对抗网络 [arXiv]
SeqGAN：带有策略梯度的序列生成对抗网络 [arXiv]
针对深度网络的简单黑盒对抗扰动 [Paper]
Softmax GAN [arXiv]
通过正则化稳定生成对抗网络的训练 [arXiv]
堆叠式生成对抗网络 [arXiv]
深度生成图像的统计特性 [arXiv]
结构化生成对抗网络 [arXiv]
生成对抗网络的张量化 [arXiv]
Cramer距离作为解决Wasserstein梯度偏斜问题的方法 [arXiv]
朝着理解用于联合分布匹配的对抗学习方向前进 [arXiv]
通过最大均值差异优化训练生成式神经网络 [arXiv]
三重生成对抗网络 [arXiv]
展开式生成对抗网络 [arXiv]
无监督表示学习与深度卷积生成对抗网络 [arXiv] [Code] [Code] [Code] [Code] [Code]
Wasserstein GAN [arXiv] [Code] [Code]

应用视觉

基于对抗学习的单深度视图3D物体重建 [arXiv]
从多物体2D视图中推断3D形状 [arXiv]
使用GAN迈向程序化地形生成 [arXiv] [代码]
利用生成对抗网络进行视频异常事件检测 [arXiv]
针对车牌识别的对抗性训练样本生成 [arXiv]
结合感知损失的文本到图像合成对抗网络 [arXiv]
基于RGB的光谱图像空间上下文感知重建对抗网络 [arXiv]
用于侵袭性前列腺癌检测的对抗网络 [arXiv]
对抗PoseNet：一种结构感知的人体姿态估计卷积网络 [arXiv]
基于对抗训练的草图检索 [arXiv]
基于对抗学习的美学驱动图像增强 [arXiv]
基于条件对抗自编码器的年龄增长/退化模拟 [arXiv]
AlignGAN：利用条件生成对抗网络学习跨域图像对齐 [arXiv]
用于图像超分辨率的折衷MAP推理 [arXiv]
借助增强型感知超分辨率网络分析感知与失真之间的权衡 [arXiv] [代码]
基于GAN的艺术化文本可视化新方法 [arXiv]
反化妆：学习一种双层对抗网络以实现不受化妆影响的人脸验证 [arXiv]
任意面部属性编辑：只更改你想要的部分 [arXiv] [代码]
ARIGAN：使用生成对抗网络合成拟南芥植物 [arXiv]
ArtGAN：基于条件分类GAN的艺术作品合成 [arXiv]
为提升图像分类而人工生成大数据：基于SAR数据的生成对抗网络方法 [arXiv]
自编码器引导的GAN用于中国书法合成 [arXiv]
自动画家：利用条件生成对抗网络从草图生成卡通图像 [arXiv]
基于对抗图像到图像网络的自动肝脏分割 [arXiv]
超越人脸旋转：全局与局部感知GAN，用于逼真且保持身份特征的正面视图合成 [arXiv]
CAN：通过学习风格并偏离风格规范来生成“艺术”的创意对抗网络 [arXiv]
CompoNet：通过部件合成与组合学习生成未见之物 [arXiv] [代码]
在生成对抗网络中使用循环损失进行压缩感知MRI重建 [arXiv]
用于脑肿瘤语义分割的条件对抗网络 [arXiv]
用于卷积人脸生成的条件生成对抗网络 [论文]
带辅助分类器GAN的条件图像合成 [论文] [arXiv] [代码]
用于抽象推理图生成的上下文RNN-GAN [arXiv]
可控生成对抗网络 [arXiv]
创意主义：一位能够创作专业作品的深度学习摄影师 [arXiv]
网络交叉：将GAN和VAE结合，共享潜在空间用于手部姿态估计 [arXiv]
CVAE-GAN：通过非对称训练进行细粒度图像生成 [arXiv]
使用GAN进行分类中的数据增强 [arXiv]
深度生成对抗网络去除压缩伪影 [arXiv]
用于压缩感知的深度生成对抗网络（GANCS）可自动化MRI扫描 [arXiv]
用于逼真前列腺病灶MRI合成的深度生成对抗神经网络 [arXiv]
基于对抗网络拉普拉斯金字塔的深度生成图像模型 [arXiv] [代码] [博客]
超越均方误差的深度多尺度视频预测 [arXiv] [代码]
用于遥感图像的深度无监督表征学习 [arXiv]
DeLiGAN：针对多样且有限数据的生成对抗网络 [arXiv]
保留深度结构的场景图像生成 [arXiv]
DualGAN：用于图像到图像转换的无监督双向学习 [arXiv] [代码]
用于未来流嵌入式视频预测的双运动GAN [arXiv]
使用注意力GAN高效实现大规模图像超分辨率 [arXiv] [论文] [新闻]
ExprGAN：可控表情强度的脸部表情编辑 [arXiv]
使用条件生成对抗网络进行人脸老化 [arXiv]
使用生成对抗网络进行人脸迁移 [arXiv]
多光谱条件生成对抗网络在卫星影像上进行云层去除 [arXiv]
基于空间条件生成对抗网络的徒手超声图像仿真 [arXiv]
从源域到目标域再返回：对称双向自适应GAN [arXiv]
基于循环神经网络的全分辨率图像压缩 [arXiv]
用于生物图像合成的GAN [arXiv]
GeneGAN：从非配对数据中学习对象变形和属性子空间 [arXiv] [代码]
使用生成对抗网络生成保持身份特征的人脸 [arXiv]
生成以适应：利用生成对抗网络对齐领域 [arXiv]
用于人体动作合成的生成对抗图卷积网络 [arXiv] [代码]
用于监控中人物属性识别的生成对抗模型 [arXiv]
基于ResNet的条件图像恢复生成对抗网络 [arXiv]
基于生成对抗网络的偏振热像可见面合成 [arXiv]
用于视频超链接中多模态表征学习的生成对抗网络 [arXiv]
生成对抗文本到图像合成 [arXiv] [代码]
自然图像流形上的生成式视觉操纵 [项目] [YouTube] [论文] [代码]
3D形状的全局到局部生成模型 [项目][代码]
GP-GAN：基于地标合成人脸的性别保持GAN [arXiv]
GP-GAN：迈向逼真高分辨率图像融合 [arXiv]
半监督指导InfoGAN [arXiv]
如何用生成对抗网络欺骗放射科医生？肺癌诊断的视觉图灵测试 [arXiv]
基于3D生成对抗网络的分层细节增强网格状形状生成 [arXiv]
使用条件生成对抗网络进行高质量人脸图像超分辨率 [arXiv]
使用多对抗网络进行高质量人脸照片到素描合成 [arXiv]
使用条件生成对抗网络进行图像去雨处理 [arXiv]
使用变分信息生成对抗网络进行图像生成和编辑 [arXiv]
使用条件生成对抗网络进行图像到图像转换 [arXiv] [代码]
改进用于3D物体生成和重建的对抗系统 [arXiv] [代码]
使用条件生成对抗网络改善异构人脸识别 [arXiv]
通过人类交互改进图像生成模型 [arXiv]
使用生成对抗网络模仿驾驶员行为 [arXiv]
使用生成对抗网络进行交互式3D建模 [arXiv]
使用条件生成对抗网络集合构建术中器官运动模型 [arXiv]
可逆条件GAN用于图像编辑 [arXiv] [论文]
用于行人重识别的联合判别与生成学习 [项目] [论文] [YouTube] [哔哩哔哩] [海报] [代码]
用于人脸图像逆向光照的标签去噪对抗网络（LDAN）[arXiv]
学习驾驶模拟器 [arXiv]
学习用于高分辨率艺术品合成的生成对抗网络 [arXiv]
通过3D生成对抗建模学习对象形状的概率潜在空间 [arXiv]
通过对抗训练从模拟和无监督图像中学习 [arXiv]
使用生成对抗网络学习发现跨域关系 [arXiv]
学习使用生成对抗网络生成椅子 [arXiv]
学习使用多阶段动态生成对抗网络生成延时视频 [arXiv]
使用带有Wasserstein距离和感知损失的生成对抗网络进行低剂量CT图像去噪 [arXiv]
MARTA GAN：用于遥感图像分类的无监督表征学习 [arXiv]
使用生成对抗网络创建百万像素尺寸图像 [arXiv]
基于对抗神经网络的显微镜细胞分割 [arXiv]
MoCoGAN：分解运动与内容以生成视频 [arXiv]
多视角生成对抗网络 [论文]
带有内省对抗网络的神经照片编辑 [论文] [arXiv]
使用GAN进行组织病理学图像的染色风格迁移学习 [arXiv]
通过串联对抗网络进行轮廓着色 [arXiv]
用于图像到图像转换的感知对抗网络 [arXiv]
用于小目标检测的感知生成对抗网络 [arXiv]
使用生成对抗网络实现逼真单张图像超分辨率 [arXiv]
姿势引导的人物图像生成 [arXiv]
使用马尔可夫生成对抗网络预计算实时纹理合成 [arXiv]
用于视觉段落生成的递归主题转换GAN [arXiv]
RenderGAN：生成逼真的标注数据 [arXiv]
3D点云的表征学习和对抗性生成 [arXiv]
使用局部显著性图和用于图像超分辨率的生成对抗网络进行视网膜血管分割 [arXiv]
使用生成对抗网络在眼底图像中进行视网膜血管分割 [arXiv]
SAD-GAN：利用生成对抗网络进行自动驾驶模拟 [arXiv]
SalGAN：利用生成对抗网络进行视觉显著性预测 [arXiv]
SegAN：具有多尺度L1损失的医学图像分割对抗网络 [arXiv]
SeGAN：分割并生成不可见的内容 [arXiv]
基于深度生成模型的语义图像修复 [arXiv]
EdgeConnect：利用对抗边缘学习进行生成式图像修复 [arXiv] [代码]
基于对抗学习的语义图像合成 [arXiv]
使用对抗网络进行语义分割 [arXiv]
对生成对抗网络的潜在空间进行语义分解 [arXiv]
半潜伏GAN：学习从属性生成和修改人脸图像 [arXiv]
基于上下文条件生成对抗网络的半监督学习 [arXiv]
基于条件生成对抗网络的锐度感知低剂量CT去噪 [arXiv]
同时进行彩色和深度超分辨率的条件生成对抗网络 [arXiv]
SingleGAN：通过单一生成器网络结合多种生成对抗学习实现图像到图像转换 [arXiv] [代码]
基于原始深度输入的生成对抗模仿学习实现社会合规导航 [arXiv]
StackGAN：利用堆叠生成对抗网络实现文本到逼真图像的合成 [arXiv]
StackGAN++：利用堆叠生成对抗网络实现逼真图像合成 [arXiv]
使用增强型残差U-net和辅助分类器GAN对素描进行风格迁移 [arXiv]
用于图像显著性检测的监督对抗网络 [arXiv]
利用多通道生成对抗网络（GANs）合成正电子发射断层扫描（PET）图像 [arXiv]
使用GAN合成丝状结构图像 [arXiv]
使用iDCGAN进行合成虹膜演示攻击 [arXiv]
由双重生成对抗网络合成的医疗图像 [arXiv]
TAC-GAN：文本条件辅助分类器生成对抗网络 [arXiv]
带有奇异值截断的时序生成对抗网络 [arXiv]
TextureGAN：利用纹理贴片控制深度图像合成 [arXiv]
基于空间生成对抗网络的纹理合成 [arXiv] [代码]
文本适应性生成对抗网络：用自然语言操纵图像 [arXiv] [代码]
条件类比GAN：在人物图像上交换时尚单品 [arXiv]
TopoAL：一种面向拓扑的道路分割对抗学习方法 [论文]
TopoGAN：一种面向拓扑的生成对抗网络 [论文]
朝着对抗性视网膜图像合成迈进 [arXiv] [代码] [演示]
通过条件GAN迈向多样且自然的图像描述 [arXiv]
朝着利用生成对抗网络自动创作动漫角色迈进 [arXiv]
UGAN：利用生成对抗网络增强水下图像 [arXiv]
由GAN生成的未标记样本可在体外提升行人重识别基线 [arXiv] [代码]
使用循环一致对抗网络进行非配对图像到图像转换 [arXiv]
基于分类生成对抗网络的无监督和半监督学习 [arXiv]
无监督生成对抗网络辅助标记物发现以进行异常检测 [arXiv]
无监督跨域图像生成 [arXiv]
无监督多样化色彩化通过生成对抗网络实现 [arXiv]
无监督基于生成对抗网络的像素级领域适应 [arXiv]
无监督通过可重构生成对抗网络进行视觉属性转移 [arXiv]
VIGAN：利用生成对抗网络填补缺失视图 [arXiv]
WaterGAN：无监督生成网络使单目水下图像实现实时色彩校正 [arXiv]
用于3D重建的弱监督生成对抗网络 [arXiv]
[TomoGAN：基于生成对抗网络的低剂量X射线断层扫描] [学者] [arXiv]

应用其他

自然语言的对抗生成 [arXiv]
面向语言生成的对抗排序 [arXiv]
用于半监督文本分类的对抗训练方法 [arXiv] [论文]
体绘制的生成模型 [[arXiv]](A Generative Model for Volume Rendering)
ChemGAN药物发现挑战：AI能否再现天然化学多样性？[arXiv]
基于GAN生成针对黑盒攻击的对抗性恶意软件样本 [arXiv]
使用生成对抗网络生成多标签离散电子健康记录 [arXiv]
无需预训练的循环生成对抗网络语言生成 [arXiv]
学习通过对抗神经密码学保护通信 [arXiv] [博客]
借助泄露信息的对抗训练生成长文本 [arXiv]
MidiNet：基于一维和二维条件的符号域音乐生成卷积生成对抗网络 [arXiv]
MuseGAN：使用多轨序列生成对抗网络进行符号域音乐生成与伴奏 [arXiv]
利用生成对抗神经网络重建三维多孔介质 [arXiv] [代码]
SEGAN：语音增强生成对抗网络 [arXiv]
基于深度网络的紧凑文档表示的半监督学习 [论文]
SSGAN：基于生成对抗网络的安全隐写术 [arXiv]
隐写生成对抗网络 [arXiv]
朝着将概念空间嵌入神经表征的方向发展 [arXiv]

幽默

阻止GAN暴力：生成非对抗性网络 [arXiv]

really-awesome-gan 快速上手指南

重要说明：really-awesome-gan 并非一个可直接安装运行的软件库或框架，而是一个生成对抗网络（GAN）领域的论文、教程、代码实现及资源汇总清单。因此，本指南将指导你如何利用该列表中的资源，快速搭建环境并运行其中推荐的经典 GAN 代码示例。

环境准备

在开始之前，请确保你的开发环境满足以下要求：

操作系统：Linux (推荐), macOS, 或 Windows (需配置 WSL2)
Python 版本：Python 3.6 或更高版本
深度学习框架：推荐使用 PyTorch 或 TensorFlow（列表中大多数现代示例基于 PyTorch）
硬件加速：建议配备 NVIDIA GPU 并安装对应的 CUDA 驱动，以加速模型训练

前置依赖安装

建议使用 conda 或 pip 创建虚拟环境。以下以 PyTorch 为例（使用国内清华源加速）：

# 创建虚拟环境
conda create -n gan_env python=3.8
conda activate gan_env

# 安装 PyTorch (使用清华大学镜像源)
pip install torch torchvision torchaudio --index-url https://pypi.tuna.tsinghua.edu.cn/simple

# 安装其他常用依赖
pip install numpy matplotlib scipy tqdm --index-url https://pypi.tuna.tsinghua.edu.cn/simple

获取资源与代码

由于本项目是资源列表，你需要从列表中选择一个具体的代码仓库进行克隆。列表中推荐了几个适合新手入门的极简实现（"100 行代码系列"）。

以下以复现经典 GAN (MNIST) 为例：

# 克隆包含多个经典 GAN 复现的代码库
git clone https://github.com/MaximeVandegar/Papers-in-100-Lines-of-Code.git
cd Papers-in-100-Lines-of-Code/Generative_Adversarial_Networks

注：如果 GitHub 连接缓慢，可尝试使用国内镜像站下载或使用代理加速。

基本使用

进入目录后，你可以直接运行提供的 Python 脚本来训练模型并生成图像。

1. 运行训练脚本

在项目根目录下执行：

python main.py

该脚本将自动下载 MNIST 数据集。
开始训练生成器（Generator）和判别器（Discriminator）。
训练过程中会实时打印 Loss 信息。

2. 查看结果

训练完成后（或训练过程中），脚本通常会在当前目录下生成输出文件夹（如 results/ 或 images/），里面包含生成的假图片。

你可以使用以下命令快速预览生成的图像（如果项目中未包含查看脚本，可使用 Python 直接查看）：

# 使用 Python 和 matplotlib 查看最新生成的图像
python -c "import matplotlib.pyplot as plt; import os; files = sorted(os.listdir('results')); img = plt.imread(f'results/{files[-1]}'); plt.imshow(img); plt.show()"

进阶探索

really-awesome-gan 列表中还包含了更多高级应用的代码链接，你可以按照相同步骤克隆并运行：

DCGAN: 更深层次的卷积生成网络
CycleGAN: 无配对图像转换（如马变斑马）
Pix2Pix: 有配对图像转换（如素描变照片）
WGAN: 改进训练稳定性的 Wasserstein GAN

只需替换上述 git clone 的地址为列表中对应的子目录路径即可。例如：

cd ../Cycle_Consistent_Adversarial_Nets
python main.py

建议阅读原仓库中的 README.md 以获取特定模型的详细参数调整说明。

常见问题

如何向该列表提交新的 GAN 论文或代码？

列表中的论文是否会标注发表年份？

Step-Up GAN 的完整论文标题是什么？

是否有计划将 GAN 的元结构转化为可热插拔生成器和判别器的 Python 类？

AttGAN（任意面部属性编辑）的论文和代码在哪里可以找到？

哪里可以找到使用生成对抗网络重建三维多孔介质的代码？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

tesseract

Tesseract 是一款历史悠久且备受推崇的开源光学字符识别（OCR）引擎，最初由惠普实验室开发，后由 Google 维护，目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据，有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题，是数字化归档和信息自动化的重要基础工具。在技术层面，Tesseract 展现了强大的适应能力。从版本 4 开始，它引入了基于长短期记忆网络（LSTM）的神经网络 OCR 引擎，显著提升了行识别的准确率；同时，为了兼顾旧有需求，它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码，开箱即用即可识别超过 100 种语言，并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面，它灵活支持纯文本、hOCR、PDF、TSV 等多种格式，方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库（libtesseract），不包含图形用户界面（GUI），因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中

★ 73.3k|★★☆☆☆|3天前

开发框架图像