vibe-coding
vibe-coding 是一套基于大语言模型的高效开发方法论指南,旨在帮助开发者利用 OpenAI GPT-5.4 等先进模型,通过自然语言交互快速构建游戏或应用程序。它并非传统意义上的软件工具,而是一份详尽的操作手册,指导用户如何结合 Codex CLI 或 VSCode 插件,将创意转化为可运行的代码项目。
该方案核心解决了 AI 辅助编程中常见的“代码失控”难题。许多用户在让 AI 自主规划时,往往得到杂乱无章、难以维护的代码库。vibe-coding 强调“规划至上”,强制要求人类主导设计文档(GDD)和技术栈选型,并通过配置严格的规则文件(如 AGENTS.md),确保 AI 在模块化架构下工作,避免生成单体巨型文件,从而保持代码库的整洁与可扩展性。
这套方法特别适合希望提升开发效率的独立开发者、游戏制作人以及想要尝试"AI 结对编程”的技术爱好者。即使是不具备深厚编码背景的设计师,只要掌握基本的文档编写能力,也能借助此流程将创意落地。其独特亮点在于建立了一套标准化的“记忆银行”机制,强制 AI 在每次生成代码前读取架构文档和设计规范,并在功能完成后自动更新记录,实现了上下文的一致性与项目的长期可维护性,让 AI 真正成为可控的开发伙伴。
使用场景
独立开发者小明想在周末快速构建一款多人在线 3D 塔防游戏,但面临技术栈选型复杂和代码维护困难的挑战。
没有 vibe-coding 时
- 规划缺失导致返工:直接让 AI 写代码,缺乏统一的游戏设计文档(GDD),导致生成的逻辑与预期不符,反复修改耗时耗力。
- 代码结构混乱:AI 倾向于生成单个巨型文件(Monolith),随着功能增加,代码耦合严重,难以调试和扩展。
- 上下文丢失:在多轮对话中,AI 经常忘记之前的架构约定或数据库设计,导致新代码与旧逻辑冲突。
- 测试验证困难:缺乏分步实施计划,每次提交大量代码后无法精准定位错误,排查 bug 如同大海捞针。
使用 vibe-coding 后
- 文档驱动开发:先利用 GPT-5.4 生成标准的
game-design-document.md和tech-stack.md,确保 AI 完全理解游戏愿景与技术边界。 - 强制模块化架构:通过 Codex CLI 的
/init命令加载自定义规则,强制 AI 将代码拆分为多个模块,从源头杜绝“单文件地狱”。 - 记忆银行机制:设置"Always"规则,要求 AI 在每次编码前必读
@architecture.md和@game-design-document.md,确保持续的上下文一致性。 - 步进式精准落地:依据生成的详细实施计划,每一步都包含具体的测试验证指令,实现小步快跑、即时反馈的开发节奏。
vibe-coding 通过将“规划先行”和“规则约束”植入工作流,让开发者从繁琐的代码纠错中解放,专注于核心创意的高效落地。
运行环境要求
- 未说明
未说明
未说明

快速开始
振动编码终极指南 V1.2.2
作者: 尼古拉斯·祖洛,https://x.com/NicolasZu
创建日期: 2025年3月12日
最后更新日期: 2026年3月5日
入门
要开始振动编码,你只需要:
- OpenAI GPT-5.4(高),通过 Codex CLI 或 Codex 应用程序使用(选择 Plus 订阅,每月约 20 美元)
本指南适用于 CLI 版本(在终端中使用)、VSCode 扩展版本或 Codex 应用程序。目前,Codex 应用程序正受到越来越多的关注。
*(注:虽然本指南的早期版本曾使用 Grok 3,但我们随后过渡到了 Gemini 2.5 Pro。而现在我们使用的是 OpenAI GPT-5.4(高))*
(注 2:如果你想使用 Cursor,请查看本指南的 版本 1.1,不过我们认为它不如 Codex CLI 功能强大)
正确设置一切是关键。如果你认真想要创建一个功能齐全且视觉上吸引人的游戏(或应用),请花时间打下坚实的基础。
核心原则: 规划就是一切。 别让 AI 自主规划,否则你的代码库会变得难以管理。
设置一切
0. 初步设置
- 下载 Visual Studio Code (https://code.visualstudio.com/)
- 在你的电脑上创建一个新的文件夹
- 右键点击,选择“用 Code 打开”
- 打开终端
- 安装 Codex CLI:
npm i -g @openai/codex(或者下载 Codex 应用程序)
- 安装 Codex CLI:
1. 游戏设计文档(或应用程序的需求文档)
- 将你的游戏创意交给 OpenAI GPT-5.4(高),让它以 Markdown 格式生成一份简单的 游戏设计文档:
game-design-document.md。 - 审查并完善这份文档,确保它符合你的愿景。即使内容很简单也没关系——目的是给 AI 提供关于游戏结构和意图的背景信息。不要过度工程化,因为我们之后还会迭代。
- 如果你愿意,也可以让 AI 向你提问,并根据这些问题来编写 GDD 或 PRD。
2. 技术栈与 AGENTS.md
- 请 OpenAI GPT-5.4(高) 为你推荐最适合你游戏的技术栈(例如,对于多人 3D 游戏可以使用 Vite + ThreeJS 和 WebSocket)。将这些建议保存为
tech-stack.md。- 挑战它提出 最简单但最健壮的技术栈。
- 在终端中打开 Codex,使用
/init命令。它会使用你之前创建的两个 .md 文件。这将创建一组规则,以便正确引导你的 LLM。 - 至关重要的是,仔细审查生成的规则。 确保它们强调 模块化(多个文件),并避免 单体架构(一个巨大的文件)。你可能需要手动调整或添加规则。同时也要检查这些规则何时会被触发。
重要提示: 有些规则对于保持上下文非常重要,应将其设置为 “始终” 规则。这样可以确保 AI 在生成代码之前 始终 参考这些规则。可以考虑添加如下规则,并将其标记为“始终”:
# 重要: # 在编写任何代码之前,务必阅读 memory-bank/@architecture.md。包含完整的数据库模式。 # 在编写任何代码之前,务必阅读 memory-bank/@game-design-document.md。 # 添加重大功能或完成里程碑后,更新 memory-bank/@architecture.md。示例:确保其他非“始终”的规则能够引导 AI 遵循你所选技术栈的最佳实践(如网络通信、状态管理等)。
这种整体规则设置是必须的,如果你想打造一款尽可能优化、代码尽可能整洁的游戏的话。
3. 实施计划
- 将以下内容提供给 OpenAI GPT-5.4(高):
- 游戏设计文档 (
game-design-document.md) - 技术栈建议 (
tech-stack.md)
- 游戏设计文档 (
- 请它以 Markdown 格式(
.md)创建一份详细的 实施计划,这是一份针对你的 AI 开发者的分步指导说明。- 步骤应该小而具体。
- 每个步骤都必须包含测试,以验证实现是否正确。
- 不涉及代码:只需清晰、具体的指令。
- 重点放在 基础游戏 上,而不是完整功能集(细节稍后再添加)。
4. 内存库
- 为你的项目创建一个新的文件夹,然后在 VSCode 中打开它。
- 在项目文件夹内,创建一个名为
memory-bank的子文件夹。 - 将以下文件添加到
memory-bank:game-design-document.mdtech-stack.mdimplementation-plan.mdprogress.md(创建这个空文件用于跟踪已完成步骤)architecture.md(创建这个空文件用于记录文件用途)
振动编码基础游戏
现在乐趣开始了!
确保一切清晰
- 在 VSCode 扩展中打开 Codex,或者在项目的终端中启动它。
- 提示:请阅读
/memory-bank中的所有文档,确认implementation-plan.md是否清晰?你有哪些问题可以让它对你来说完全清晰? - 它通常会提出 9–10 个问题。回答这些问题,并提示它相应地编辑
implementation-plan.md,使其更加完善。
你的第一个实施提示
- 在 VSCode 扩展中打开 Codex,或者在项目的终端中启动它。
- 提示:请阅读
/memory-bank中的所有文档,并按照实施计划的第 1 步进行操作。我会运行测试。在我验证测试通过之前,请不要开始第 2 步。一旦我验证通过,就打开progress.md,记录你所做的工作,以便未来的开发者参考。然后将任何架构方面的见解添加到architecture.md中,解释每个文件的作用。 - 始终先进行一次规划性执行,当你满意后,再让 AI 按照步骤推进。
- 极致体验: 安装 Superwhisper,用它来与 OpenAI GPT-5.4(高) 轻松对话,而不是打字。
工作流程
- 完成第 1 步后:
- 将你的更改提交到 Git(如果不熟悉,可以请 AI 帮助你)。
- 开始一个新的聊天会话(
/new或/clear)。为什么?LLM 在上下文窗口还有大量空间时,才能产生最佳效果。 - 提示:现在请浏览内存库中的所有文件,阅读 progress.md 了解之前的工作,并继续执行第 2 步。在我验证测试通过之前,请不要开始第 3 步。
- 重复此过程,直到整个
implementation-plan.md完成。
添加细节
恭喜你,你已经构建了基础游戏!它可能还比较粗糙,缺少一些功能,但现在你可以开始实验和改进了。
- 想加入雾效、后期处理、特效或音效吗?想要更精美的飞机、汽车或城堡吗?或者一片绚丽的天空?
- 对于每个主要功能,创建一个新的
feature-implementation.md文件,其中包含简短的步骤和测试。 - 逐步实施并测试。
修复错误与卡顿
- 如果提示失败或导致游戏崩溃:
- 不断优化你的提示,直到它正常工作。你也可以频繁提交到 Git,并在需要时进行重置。
- 针对错误:
- 如果是 JavaScript 错误: 打开浏览器控制台(
F12),复制错误信息,粘贴到 VSCode 中;对于视觉异常,则提供截图。 - 懒人方案: 安装 BrowserTools,省去手动复制和截图的步骤。
- 如果是 JavaScript 错误: 打开浏览器控制台(
- 如果程序卡住:
- 回退到最近一次 Git 提交(
git reset),然后用新的提示重新尝试。
- 回退到最近一次 Git 提交(
- 如果实在无法解决:
- 使用 RepoPrompt 或 uithub 将整个代码库整合到一个文件中,再向 OpenAI GPT-5.4 (high) 寻求帮助。
Codex 使用技巧
- 在终端中运行 Codex: 在 VSCode 的终端内执行,这样可以查看代码差异并传递更多上下文,而无需离开当前工作环境。
- 自定义 Codex 命令或技能: 创建类似
/explain $arguments的辅助命令,触发如下提示:“深入分析这段代码,理解$arguments的作用。等你完全理解后告诉我,我会给出接下来的任务。” 这样模型就能在编辑前获取丰富的上下文信息。 - 清理上下文: 如果仍需保留之前的对话上下文,可使用
/clear或/compact定期清理;建议将/context参数保持在 50% 至 60% 之间,以获得最佳效果。 - 节省时间(自担风险): 使用
codex --yolo启动 Codex,使其进入一种不会要求确认的模式。
其他提示
- 小规模修改: 使用 OpenAI GPT-5.4 (high)。
- 优秀的营销文案撰写: 使用 OpenAI GPT-5.4 (high)。
- 生成高质量 2D 精灵图: 使用 ChatGPT 和 Nano Banana Pro。
- 生成 3D 资源: 使用 Trellis、Tripo 或 Hunyuan。
- 生成音乐: 使用 Suno、ElevenLabs。
- 生成音效: 使用 ElevenLabs。
- 生成视频: 使用 Sora 2、Veo 3。
- 提升提示效果:
- 可加入以下内容:“请尽情思考,直到得出正确结果为止,我不着急。重要的是你必须严格按照我的要求执行,做到完美无缺。如果我的描述不够清晰,请随时提问。”
- 对于 Codex,明确要求其先进行规划性处理、设定更严格的约束条件,并在执行前进行更深入的推理。
常见问题解答
问:有哪些项目是完全按照这种方法由您一人“vibe 编码”完成的?
答: 最近的一些例子包括:
- https://fly.zullo.fun/:一款 3D 第二次世界大战空战竞技场游戏。所有资源和代码均采用本指南中的方法完成。
- https://vibecraft.game/:一款你可以通过提示让任何东西“凭空出现”的 3D 游戏。代码、用户界面及游戏内资源全部采用 vibe 编码。
- https://www.dow-de.com/:一个用于评选《战锤 40K:黎明之怒》最佳玩家的 Web 应用,具备数据统计、录像上传功能,甚至还有高级会员服务。该项目同样完全采用此方法开发。
问:我正在开发应用而非游戏,流程是否相同?
答: 大体流程相似!不过,你可以用 PRD(产品需求文档)代替 GDD(游戏设计文档)。此外,还可以借助 v0、Lovable 或 Bolt.new 等优秀工具快速搭建原型,随后将代码迁移到 GitHub,再克隆到 VSCode 或终端中,继续按照本指南进行开发。
问:您那款空战游戏中的飞机太棒了,但我用一个提示却无法复现!
答: 实际上并非单个提示,而是约 30 个精心设计的提示,由专门的 plane-implementation.md 文件引导完成。请使用清晰具体的指令,例如“在机翼上为副翼留出空间”,而不是笼统的“造一架飞机”。
问:为什么现在 Codex 比 Cursor 更好?
答: 这主要取决于个人偏好。我们强调的是,Codex 更擅长调用 OpenAI GPT-5.4 (high),而 Cursor 则相对较弱。此外,Codex 直接运行在终端中,能够支持更多开发场景,比如从任意 IDE 工作、通过 SSH 登录远程服务器等。它还提供了强大的自定义选项,如自定义命令、子代理和钩子,这些都能长期提升开发质量和效率。最后,如果你使用的是较低级别的 ChatGPT 方案,也足以开始实践。
问:我不知道如何为我的多人游戏搭建服务器。
答: 让你的 AI 来帮你解决吧!
版本历史
1.2.22026/01/151.2.12025/10/07常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器