CycleGAN-TensorFlow

GitHub
1.2k 435 中等 1 次阅读 1周前MIT图像开发框架
AI 解读 由 AI 自动生成,仅供参考

CycleGAN-TensorFlow 是一个基于 TensorFlow 框架实现的开源项目,旨在复现著名的 CycleGAN 图像生成算法。它核心解决了传统图像风格迁移中需要成对训练数据的难题,让计算机能够在没有“苹果 - 橘子”一一对应照片的情况下,学会将一种风格的图像(如苹果)自动转换为另一种风格(如橘子),并保证转换后的图像在循环还原时仍能保持原貌。

该项目特别适合人工智能开发者、深度学习研究人员以及希望探索无监督学习技术的工程师使用。通过简洁的命令行操作,用户可以轻松准备数据集、调整超参数并启动训练,还能利用 TensorBoard 实时可视化监控生成效果与训练进度。其技术亮点在于完整实现了循环一致性损失(Cycle Consistency Loss)机制,并支持 LSGAN 损失函数与实例归一化等关键策略,有效提升了生成图像的稳定性和真实感。虽然项目依赖较早期的 TensorFlow 1.0 环境,但其清晰的代码结构和详尽的参数说明,使其成为理解生成对抗网络原理及进行二次开发的优质教学与实践范本。

使用场景

一家电商初创公司的设计团队急需为秋季促销活动生成大量“苹果变橙子”的创意商品图,但受限于预算无法聘请专业摄影师重新拍摄所有素材。

没有 CycleGAN-TensorFlow 时

  • 高昂的拍摄成本:为了获取不同角度的橙子图片,团队必须租赁场地、购买实物并安排模特重新拍摄,耗时耗力且费用昂贵。
  • 成对的训练数据缺失:传统图像转换模型需要严格一一对应的“苹果 - 橙子”配对照片进行训练,而现实中几乎无法采集到位置、光照完全一致的双份素材。
  • 手动修图效率低下:设计师只能依靠 Photoshop 逐张手动调整颜色和纹理,不仅速度极慢,还难以保证上百张图片的风格统一性。
  • 风格迁移效果生硬:简单的滤镜或色彩替换无法模拟橙子表皮的复杂质感,导致生成的图片看起来虚假,缺乏商业可用性。

使用 CycleGAN-TensorFlow 后

  • 实现无配对训练:利用其核心的循环一致性损失机制,团队直接投喂独立的苹果和橙子数据集即可开始训练,彻底摆脱了对成对数据的依赖。
  • 自动化批量生成:通过配置 train.py 脚本加载本地 TFRecords 数据,模型在数小时内自动学习映射关系,瞬间将库存中的苹果图片批量转换为逼真的橙子图。
  • 保留结构细节:生成的图像完美保留了原图中苹果的枝叶形态和光影角度,仅改变果皮纹理与颜色,视觉效果自然且符合物理规律。
  • 灵活调优迭代:借助 TensorBoard 实时监控训练进度,开发人员可随时调整 lambda1 等超参数优化循环损失,快速迭代出满足营销需求的高质量模型。

CycleGAN-TensorFlow 通过突破性的无监督学习架构,让企业在零额外拍摄成本下实现了跨域图像的高效、高质批量生产。

运行环境要求

操作系统
  • 未说明
GPU

未说明 (基于 TensorFlow 1.0,通常建议配备支持 CUDA 的 NVIDIA GPU,但 README 未明确指定型号或显存)

内存

未说明

依赖
notes该项目处于开发进行中 (work in progress)。数据需先下载并转换为 tfrecords 格式。训练过程中若发现输入图像与生成图像背景对比度异常(如黑变白),需重启训练。支持通过 TensorBoard 监控进度,并可将模型导出为独立的 GraphDef 文件用于推理。
python3.6.0
tensorflow==1.0.0
CycleGAN-TensorFlow hero image

快速开始

CycleGAN-TensorFlow

使用 TensorFlow 实现的 CycleGAN(开发中)。

原始论文:https://arxiv.org/abs/1703.10593

测试数据结果

苹果 → 橙子

输入 输出 输入 输出 输入 输出
apple2orange_1 apple2orange_1 apple2orange_2 apple2orange_2 apple2orange_3 apple2orange_3

橙子 → 苹果

输入 输出 输入 输出 输入 输出
orange2apple_1 orange2apple_1 orange2apple_2 orange2apple_2 orange2apple_3 orange2apple_3

环境

  • TensorFlow 1.0.0
  • Python 3.6.0

数据准备

  • 首先,下载一个数据集,例如 apple2orange:
$ bash download_dataset.sh apple2orange
  • 将数据集写入 tfrecords 文件:
$ python3 build_data.py

更多信息请参阅 $ python3 build_data.py --help

训练

$ python3 train.py

如果需要更改某些默认设置,可以通过命令行传递参数,例如:

$ python3 train.py  \
    --X=data/tfrecords/horse.tfrecords \
    --Y=data/tfrecords/zebra.tfrecords

以下是所有参数列表:

用法: train.py [-h] [--batch_size BATCH_SIZE] [--image_size IMAGE_SIZE]
                [--use_lsgan [USE_LSGAN]] [--nouse_lsgan]
                [--norm NORM] [--lambda1 LAMBDA1] [--lambda2 LAMBDA2]
                [--learning_rate LEARNING_RATE] [--beta1 BETA1]
                [--pool_size POOL_SIZE] [--ngf NGF] [--X X] [--Y Y]
                [--load_model LOAD_MODEL]

可选参数:
  -h, --help            显示此帮助信息并退出
  --batch_size BATCH_SIZE
                        批量大小,默认为 1
  --image_size IMAGE_SIZE
                        图像大小,默认为 256
  --use_lsgan [USE_LSGAN]
                        使用 LSGAN(均方误差)或交叉熵损失,默认为 True
  --nouse_lsgan
  --norm NORM           [instance, batch] 使用实例归一化或批归一化,默认为 instance
  --lambda1 LAMBDA1     正向循环损失(X->Y->X)的权重,默认为 10.0
  --lambda2 LAMBDA2     反向循环损失(Y->X->Y)的权重,默认为 10.0
  --learning_rate LEARNING_RATE
                        Adam 优化器的初始学习率,默认为 0.0002
  --beta1 BETA1         Adam 优化器的动量项,默认为 0.5
  --pool_size POOL_SIZE
                        存储先前生成图像的缓冲区大小,默认为 50
  --ngf NGF             第一层卷积中的生成器滤波器数量,默认为 64
  --X X                 用于训练的 X tfrecords 文件,默认为 data/tfrecords/apple.tfrecords
  --Y Y                 用于训练的 Y tfrecords 文件,默认为 data/tfrecords/orange.tfrecords
  --load_model LOAD_MODEL
                        您希望继续训练的已保存模型文件夹(例如 20170602-1936),默认为 None

使用 TensorBoard 查看训练进度和生成的图像:

$ tensorboard --logdir checkpoints/${datetime}

如果您中断了训练过程并希望继续训练,可以这样设置 load_model 参数:

$ python3 train.py  \
    --load_model 20170602-1936

以下是在训练橙子 → 苹果时从 TensorBoard 截取的一些有趣截图:

train_screenshot

注意事项

  • 如果在输入和生成的图像之间观察到高对比度的背景颜色变化(例如黑色变为白色),则应重新开始训练!
  • 多次训练以获得最佳模型。

导出模型

您可以从检查点导出为独立的 GraphDef 文件,如下所示:

$ python3 export_graph.py --checkpoint_dir checkpoints/${datetime} \
                          --XtoY_model apple2orange.pb \
                          --YtoX_model orange2apple.pb \
                          --image_size 256

推理

导出模型后,您可以将其用于推理。例如:

python3 inference.py --model pretrained/apple2orange.pb \
                     --input input_sample.jpg \
                     --output output_sample.jpg \
                     --image_size 256

预训练模型

我的预训练模型可在 https://github.com/vanhuyz/CycleGAN-TensorFlow/releases 上找到。

贡献

如果您遇到任何问题或发现代码中有错误,请提交一个问题 :)

许可证

本项目采用 MIT 许可证授权 - 详细信息请参阅 LICENSE 文件。

参考文献

版本历史

v0.1-alpha2017/04/21

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

160k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

109.2k|★★☆☆☆|今天
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|1周前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|1周前
插件开发框架