awesome-machine-learning-art
awesome-machine-learning-art 是一份精心策划的开源资源清单,旨在汇聚利用机器学习创作艺术(含音乐)的优质项目、作品、行业先锋人物、深度文章及学习素材。它主要解决了创作者在探索"AI+ 艺术”领域时面临的信息分散痛点,将原本零散的技术演示、学术研究与创意案例整合为系统化的知识导航,帮助用户快速定位高质量内容。
这份清单非常适合开发者、数字艺术家、设计师以及人工智能研究人员使用。对于希望将算法融入创作的程序员,这里提供了如 Fast Style Transfer(浏览器端实时风格迁移)和 art-DCGAN(生成艺术专用模型)等可直接参考的代码库;对于寻求灵感的艺术家,则收录了从神经网路动画到交互式音乐工具等前沿案例。此外,清单还特别列出了 Gene Kogan、Mario Klingemann 等领军人物,方便用户关注行业动态。
其独特亮点在于不仅涵盖视觉艺术,还深入涉及音乐生成与交互设计,并兼顾了从入门教程到硬核研究的多层次需求。无论是想尝试用代码绘画的初学者,还是致力于开发下一代创意工具的专业团队,都能从中找到有价值的指引,轻松开启机器学习的艺术探索之旅。
使用场景
一位独立数字艺术家计划创作一部融合个人手绘风格与实时摄像头互动的生成式动画短片,但在技术选型和资源整合上陷入困境。
没有 awesome-machine-learning-art 时
- 资源分散难检索:需要在 GitHub、Twitter 和个人博客间反复跳转,难以系统性找到如
art-DCGAN或pix2pix等专注于艺术生成的特定项目。 - 专家网络缺失:不了解 Gene Kogan、Mario Klingemann 等领军人物及其开源作品,错失学习“神经绘图”等前沿创作手法的机会。
- 试错成本高昂:缺乏类似 "Learn to see" 或 "Fast Style Transfer" 的成熟案例参考,需从零摸索如何将神经网络应用于实时视频流,导致开发周期延长。
- 理论实践脱节:找不到将机器学习理论与具体艺术创作(如音乐生成、风格迁移)结合的深度文章和教程,创意难以落地。
使用 awesome-machine-learning-art 后
- 一站式资源聚合:直接获取 curated 列表,快速定位到
Fall of the House of Usher等利用神经网络生成逐帧动画的成功案例,明确技术路径。 - 跟随行业先驱:通过 "People to Follow" 板块关注 Tero Parviainen 和 Sofia Crespo 等专家,即时掌握最新创作工具与灵感来源。
- 复用成熟方案:基于列表中提供的浏览器端实时风格迁移示例,迅速搭建起摄像头互动原型,将原本数周的算法调试缩短至几天。
- 深度学习和交流:利用 "Articles and Talks" 及 "Learning Resources" 深入理解数据清洗对艺术生成的影响,避免重蹈 "Dirty Data" 项目的覆辙。
awesome-machine-learning-art 通过整合全球顶尖的 ML 艺术项目与专家网络,将艺术家从繁琐的技术搜寻中解放出来,使其能专注于创意本身的实现与突破。
运行环境要求
未说明
未说明

快速开始
令人惊叹的机器学习艺术 
:robot: :art: :guitar: 一个精心整理的列表,汇集了利用机器学习创作艺术(包括音乐)的优秀项目、作品、人物、文章和资源。
目录
值得关注的人
- Tero Parviainen - 软件开发者、音乐黑客及作家。目前在 creative.ai 致力于打造未来的设计工具。
- Gene Kogan - 一位艺术家兼程序员,ml4a 的发起人。
- 大トロ(hardmaru) - 谷歌大脑东京研究科学家。
- Douglas Eck - 谷歌大脑 Magenta 团队负责人。
- Adam Roberts - 谷歌大脑 Magenta 团队的音乐研究员。
- Kyle McDonald - 一位以代码为媒介的艺术家,同时也是 openFrameworks 的贡献者。
- Mario Klingemann - 艺术家、神经绘图师、程序员、数据收集者、档案管理员,现为谷歌艺术实验室驻地艺术家。
- Memo Akten - 一位以计算作为媒介的艺术家、研究者和博学者,其创作灵感源自科学与灵性的交汇。
- Robbie Barrat - 一位年仅19岁的AI艺术创作者,在斯坦福大学的研究实验室工作。
- Janelle Shane - 光学领域的研究科学家,热衷于玩转神经网络。
- Daniel Shiffman - 对于初学者而言,他是关于创意编程各类主题的最佳学习资源提供者。
- Samim - 现供职于谷歌,设计师兼代码魔术师。专注于机器学习、动植物群、人机交互等领域。
- Luba Elliott - 策展人、研究者,曾组织过多场创意AI相关活动。
- Nao Tokui - 在东京运营创意实验室 Qosmo,并且是“AI DJ”项目的创始人。
- Sofia Crespo - 一位探索植物学、显微镜学以及神经网络的艺术家。
- Anna Ridler - 一位专攻机器学习与绘画的艺术家。
- Rebecca Fiebrink - The Wekinator(一款交互式机器学习工具)的创造者。
- Sofia Crespo - 一位居住在柏林的艺术家。她的作品围绕显微镜学、模因学、植物学和神经网络展开。
项目
视觉
- 学会观看 - :eye: 一个人工神经网络对实时摄像头输入进行预测,试图结合过往经验理解所见内容。它只能看到自己已知的事物,正如我们一样。
- art-DCGAN - :art: 针对生成艺术优化的 DCGAN 改进实现。
- 快速风格迁移 - ⚡ 极其简单的示例,可在浏览器中实现快速实时风格迁移。
- 脏数据 - 😈 当使用“脏”数据时会发生什么?网络能否从中学习到任何东西?如果可以,它会学到什么呢?我们又能从中获得哪些有趣的信息?
- 人人即舞者 - 💃 可以将任何人瞬间转化为专业舞者。
- 厄舍府的倒塌 - 🎥 12分钟的动画。每一帧均由基于艺术家墨水画训练的神经网络(pix2pix)生成。
- 黑暗降临前我所见 - 一个神经网络正在想象一个人。随后,网络中的神经元被逐一关闭……
- 素描方向
- neural-style-pt - 一个基于 PyTorch 的风格迁移实现。安装简便,支持所有操作系统,配有详尽的维基指南、配套脚本及其他神经网络模型。
音乐
- Magenta - 一个开源研究项目,旨在探索机器学习在创作过程中的作用。
- 无限鼓机 - 🥁 数以千计的日常声音,通过机器学习进行分类整理。
- 说唱神经网络 - 🎤 基于坎耶·韦斯特完整唱片目录训练的循环神经网络,用于创作说唱歌曲。
- 节拍搅拌器 - 🥁 利用机器学习混合节拍,以一种有趣的新方式创作音乐。
- 旋律混音器 - 🎶 一种利用机器学习探索音乐的有趣方式。
- 表演 RNN - :musical_keyboard: 浏览器中由循环神经网络(RNN)实时演奏的音乐。
- 神经节拍盒 - 🎤 基于 RNN 的节奏生成 + 音频分类 = 乐趣!
- AI DJ - 💽 一场现场演出,由人工智能DJ与人类DJ共同表演。该项目荣获2018年 Prix Ars Electronica “荣誉提及”奖。
- 排序 - 一款基于音乐机器学习算法的游戏,该算法能够插值不同的旋律。玩家需要聆听音乐来找出正确的顺序,即“排序”这首曲子。
- RUNN - 一款基于音乐机器学习算法的游戏,该算法能够生成旋律。 玩家必须完成这款横版滚动游戏才能听到整首歌曲。
- 爵士 RNN - 欣赏由算法创作的爵士乐。
文本
- 自动生成的食谱
- GPT-3 创意小说 - OpenAI 的 GPT-3 模型创作的创意文学作品,展示了诗歌、对话、双关语、文学戏仿和故事叙述等内容。
互动
- The Wekinator - 它让任何人都能利用机器学习构建新的乐器、手势游戏控制器、计算机视觉或听觉系统等。完全免费且开源。
杂项
- 2019年创意与设计中的机器学习
- 2018年NeurIPS创意与设计机器学习研讨会 - 👨👩👧👦 该研讨会收录了35篇关于机器学习艺术的论文,涵盖了广泛的不同学科。
- Runway - 这是一个为设计和创意平台添加人工智能功能的工具包。
- 自动驾驶陷阱001 - 艺术家使用仪式魔法来“困住”自动驾驶汽车。
- 假新闻生成器 - 该模型可以从任何标题生成几乎有意义的文本。
文章与演讲
- 艺术家的机器学习(即ml4a)(Gene Kogan) - 本文将艺术领域中机器学习的兴起比作2000年代初计算机视觉的发展。
- 艺术家与机器智能 - 谷歌的一个项目,旨在将艺术家和工程师聚集在一起,利用机器智能实现各种创意项目。
- MusicVAE:用机器学习创建乐谱调色板
- 使用TensorFlow生成抽象图案
- BBC Sounds:艺术与人工智能 - 一幅由GAN模型创作的画作在拍卖会上以432,500美元的价格售出(注:原始代码由Robbie Barrat编写,The Verge对此进行了报道)。本次讨论会邀请了Mario Klingemann和Anna Ridler参与。
- 佳士得拍卖的AI艺术并非你想象的那样 - Jason Bailey采访了Obvious团队的Huge和Robbie Barrat,进一步探讨佳士得那场备受争议的拍卖事件。
- 生成音乐的工作原理:一种视角 - 这是一个交互式网站,用于描述生成音乐的概念。
学习资源
初学者
- TensorFlow.js - 智能与学习(The Coding Train)
- 使用TensorFlow、ml5.js和Spell进行机器学习(The Coding Train)
- JavaScript机器学习入门指南(The Coding Train)
中级
- 学习机器 - 由Patrick Hebron于2017年秋季在NYU/ITP教授。
- 面向音乐家和艺术家的机器学习(Rebecca Fiebrink)
- ml4a(艺术家的机器学习)
- ITP-NYU的神经美学课程,2018年秋季 - 由Gene Kogna主讲的一门精彩课程。课程资料完全开放,内容丰富,专注于机器学习艺术。
高级
- 神经风格迁移:使用tf.keras和急切执行模式通过深度学习创作艺术
- TensorFlow深度学习的创意应用(Parag Mital)
- cs231n - 这是斯坦福大学计算机科学课程CS231n(用于视觉识别的卷积神经网络)的配套笔记。
库
- tensorflow.js - :zap: 一个用于在浏览器和Node.js上训练及部署机器学习模型的JavaScript库。
- ml5.js - :robot: 🖌 旨在让广大艺术家、创意程序员和学生更容易接触机器学习。
- p5.js - :art: :guitar: p5.js是一个客户端JS平台,帮助艺术家、设计师、学生以及任何想学习编程并在网络上进行创造性表达的人实现这一目标。
待办事项
- awesome-lint
- 添加本仓库的头像
- 增加“面向非程序员”章节
贡献
欢迎贡献!请先阅读贡献指南。
许可证
本项目的具体内容采用知识共享署名3.0许可协议授权。
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备