art-DCGAN

GitHub
2k 328 较难 1 次阅读 2周前NOASSERTION图像
AI 解读 由 AI 自动生成,仅供参考

art-DCGAN 是一个专注于生成艺术创作的开源项目,它基于经典的 DCGAN 架构进行了深度改良。该工具旨在解决传统生成模型在图像分辨率和艺术风格多样性上的局限,让用户能够轻松生成高质量的抽象风景、人物肖像及裸体艺术等风格的画作。

相比原始版本,art-DCGAN 将生成图像的分辨率从 64x64 提升至 128x128,显著改善了画面细节。其独特的技术亮点在于支持“断点续训”与数据集切换:用户可以先用一种风格的数据集训练模型,随后切换至另一种数据集继续微调,从而实现类似风格迁移的效果(例如从写实风景平滑过渡到抽象风格)。此外,项目还内置了从 WikiArt 自动抓取并整理训练数据的脚本,以及将 GPU 训练模型转换为 CPU 可用格式的实用工具,并直接提供了多个预训练好的模型权重供快速体验。

这款工具非常适合希望探索 AI 艺术生成的开发者、数字艺术家以及人工智能研究人员使用。对于想要尝试训练自定义艺术风格模型的技术人员,art-DCGAN 提供了灵活的训练策略和便捷的数据处理流程;而对于普通创作者,利用其预训练模型也能快速获得灵感素材。需要注意的是,使用预训练模型生成的作品需遵守作者的署名与非商业使用协议。

使用场景

一位独立游戏开发者正在为一款超现实主义冒险游戏快速生成大量风格统一的背景概念图,以填充早期原型的世界观。

没有 art-DCGAN 时

  • 设计师必须手动绘制数百张油画风格的风景草图,耗时数周且难以保持笔触风格的高度一致。
  • 若尝试从头训练通用的 GAN 模型,不仅需要将图像分辨率限制在低清的 64x64,还缺乏针对艺术数据集的预处理脚本,数据清洗极其痛苦。
  • 训练过程一旦中断就无法恢复,导致无法灵活调整策略(例如先学写实风景再微调为抽象风格),试错成本极高。
  • 缺乏现成的高质量预训练模型,团队只能从零开始收集数据并漫长的等待收敛,严重拖慢开发进度。

使用 art-DCGAN 后

  • 直接加载官方提供的 128x128 高分辨率“风景 GAN"预训练权重,几分钟内即可批量生成细节丰富、风格统一的油画背景素材。
  • 利用内置的 WikiArt 爬虫脚本快速构建自定义数据集,并通过断点续训功能,先将模型训练为写实风景,再短期微调为抽象风格,轻松实现独特的艺术迁移效果。
  • 自动化的检查点管理脚本确保持续训练时磁盘空间不被占满,同时支持将 GPU 训练好的模型无缝转换为 CPU 版本,便于在普通设备上部署推理。
  • 基于成熟的修改版架构,开发者无需纠结网络层级设计,直接将精力集中在游戏玩法迭代而非底层算法调优上。

art-DCGAN 通过提供高分辨率预训练模型和灵活的风格迁移训练机制,将艺术资产的生产周期从数周压缩至数小时,极大降低了创意原型的验证门槛。

运行环境要求

操作系统
  • Linux
  • macOS
GPU

需要 NVIDIA GPU (训练时必需,推理有 CPU 版本),具体型号和显存未说明,需支持 Torch7 CUDA 扩展

内存

未说明

依赖
notes该项目基于 Lua (Torch7) 而非现代 Python PyTorch。核心训练和生成脚本 (.lua) 需在 Torch7 环境下运行。提供将 GPU 模型转换为 CPU 可用的脚本 (gpu2cpu.lua)。预训练模型文件较大 (>100MB),需从 Google Drive 单独下载。图像数据集可通过自带的 Python 3 脚本从 Wikiart 爬取。
python3.x (仅用于图像爬取脚本 utils/genre-scraper.py)
Torch7 (Lua)
torch
cunn
cutorch
image
paths
optim
art-DCGAN hero image

快速开始

联系方式:robbiebarrat (at) gmail (dot) com

art-DCGAN

基于Soumith Chintala的torch实现DCGAN的修改版本,专注于生成艺术作品。

示例 / 预训练网络

由于GitHub的特性以及预训练网络超过100MB的大小,你需要点击链接才能获取这些预训练模型,但绝对值得。以下是一些示例及其生成效果。在使用任何模型输出时,请注明我的贡献。无论是否经过修改,都请勿出售这些预训练模型的输出。如有任何疑问,请在采取任何行动前先与我联系。

抽象风景GAN

抽象风景批次

下载权重!

目前还没有抽象风景的下载链接。请向下滚动至底部,了解如何从常规风景网络中训练出自己的模型(需要在训练后期切换数据集)。

风景GAN

风景批次

下载权重!

生成器 (CPU)
判别器 (CPU)

裸体肖像GAN

裸体肖像批次

下载权重!

生成器 (CPU)
判别器 (CPU)

肖像GAN

肖像批次

下载权重

生成器 (CPU)
判别器 (CPU)

最显著的改动包括:

  • 图像尺寸翻倍——现为128×128,而非之前的64×64(两个网络均增加了一层)

  • 支持从检查点恢复训练(只需传入-netG=[网络路径]和-netD=[网络路径])。这一功能不仅方便,还允许你在训练过程中先用一组图像进行训练,随后再切换到另一组图像继续训练。例如,你可以先训练一个风景网络,然后短暂地切换到抽象风格的数据集以生成抽象风景画(详见“从检查点恢复”部分),这相当于GAN中的风格迁移。

  • 包含了一个简单的Shell脚本,用于保持检查点文件夹的整洁——适合在训练GAN时持续运行。默认情况下,该脚本会为每个实验名称分别保留判别器和生成器最近的5个检查点。

  • 添加了一个Python 3脚本(utils/genre-scraper.py),可轻松从WikiArt网站抓取图片,并将其转换为GAN可用的格式。

  • 增加了一个脚本(utils/gpu2cpu.lua),用于将GPU上训练的检查点转换为可在CPU上使用的模型。

  • 附带了多个预训练的GAN模型(.t7文件),能够生成多种类型的图像,包括128×128分辨率的风景油画、128×128分辨率的裸体油画等,具体见下文。

使用方法:

前置条件:

参阅INSTALL.md

一般使用方法:

使用方式与Soumith的原版相同,唯一的区别在于可以从检查点加载模型,以及本项目自带了一个艺术作品抓取工具。

从WikiArt抓取图像

genre-scraper.py脚本可以根据艺术作品的流派从WikiArt网站抓取相关图像。使用方法非常简单。 在genre-scraper.py中有一个名为genre_to_scrape的变量——只需将其修改为此页面上列出的任意流派名称,或直接使用genre_to_scrape定义后注释中提供的大量选项之一。

使用Python 3运行该程序后,系统会创建一个以你选择的流派命名的文件夹,其中包含一个名为“images/”的子目录,里面存放所有抓取到的jpg格式图片。只需将GAN的DATA_ROOT指向你所选流派的文件夹即可(例如,如果我想训练风景画,只需将genre_to_scrape改为“landscape”,然后运行GAN并将DATA_ROOT设置为“landscape”)。

在一个图像文件夹上训练 GAN

开始训练

DATA_ROOT=myimages dataset=folder ndf=50 ngf=150 th main.lua

你可以自由调整 ndf(判别器第一层的滤波器数量)和 ngf(生成器第一层的滤波器数量),不过建议生成器的滤波器数量是判别器的两倍左右,以防止判别器过于强大而压制生成器,因为生成器的任务要困难得多。

请注意,在训练时还可以传递以下参数:

batchSize=64              -- 批量大小 - 不过超过 128 后效果并不理想...
noise=normal, uniform     -- 只需选择其中一个。看起来正态分布的效果更好。
nz=100                    -- Z 的维度数
nThreads=1                -- 数据加载线程数
gpu=1                     -- 使用的 GPU 编号
name=experiment1          -- 为了避免覆盖已有的成果,可以用这个参数更改检查点文件名

从检查点恢复训练

DATA_ROOT=myimages dataset=folder netD=checkpoints/your_discriminator_net.t7 netG=your_driscriminator_net.t7 th main.lua

在这里,即使你传递 ndf 和 ngf 参数也不会有任何效果——因为网络已经从检查点中加载了。从检查点恢复训练并在不同的数据集上继续训练,可能会产生非常有趣的效果。下面展示了一个在风景图像上训练的 GAN,随后在一个半轮次内转而学习抽象艺术:

difference

使用预训练网络生成图像

net=your_generator_net.t7 th generate.lua

非常简单……希望如此。需要注意的是,在生成图像时也可以传递以下参数:

batchSize=36                      -- 生成多少张图像 - 输出不带边框时,请保持为 6 的倍数。
imsize=1                          -- 图像的大小(单位不是像素!)
noisemode=normal, line, linefull  -- 只需选择其中一个。如果选择 line,则 batchSize 应大于 1,且 imsize 也应设为 1。
name=generation1                  -- 为了避免覆盖已有的成果,可以用这个参数更改文件名

更多可传递的参数请参阅未修改网络的页面——不过我认为这里已经包含了比较重要的选项####

即将推出

  • 预训练网络:花卉绘画、城市景观(如果你有建议,请在公开议题中留言!)
  • 制作穿越潜在空间的动画 GIF
  • 也许会开发一个用于整个项目的图形用户界面……

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|3天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|4天前
开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.1k|★★☆☆☆|昨天
开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|3天前
语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。

88.9k|★★★☆☆|3天前
开发框架图像Agent

opencv

OpenCV 是一个功能强大的开源计算机视觉库,被誉为机器视觉领域的“瑞士军刀”。它主要解决让计算机“看懂”图像和视频的核心难题,提供了从基础的图像读取、色彩转换、边缘检测,到复杂的人脸识别、物体追踪、3D 重建及深度学习模型部署等全方位算法支持。无论是处理静态图片还是分析实时视频流,OpenCV 都能高效完成特征提取与模式识别任务。 这款工具特别适合计算机视觉开发者、人工智能研究人员以及机器人工程师使用。对于希望将视觉感知能力集成到应用中的软件工程师,或是需要快速验证算法原型的学术研究者,OpenCV 都是不可或缺的基础设施。虽然普通用户通常不会直接操作代码,但日常生活中使用的扫码支付、美颜相机和自动驾驶系统,背后往往都有它的身影。 OpenCV 的独特亮点在于其卓越的性能与广泛的兼容性。它采用 C++ 编写以确保高速运算,同时提供 Python、Java 等多种语言接口,极大降低了开发门槛。库中内置了数千种优化算法,并支持跨平台运行,能够无缝对接各类硬件加速器。作为社区驱动的项目,OpenCV 拥有活跃的生态系统和丰富的学习资源,持续推动着视觉技术的前沿发展。

87k|★☆☆☆☆|昨天
开发框架图像