cookbook
cookbook 是谷歌官方推出的 Gemini API 实战指南库,旨在通过结构化的学习路径,帮助开发者快速掌握 Gemini 系列模型的应用开发。它解决了用户在面对强大但复杂的 AI 接口时,缺乏具体代码示例和场景化指导的痛点,将抽象的文档转化为可运行的 Jupyter Notebook 教程。
无论是刚接触 Gemini 的初学者,还是希望构建复杂应用的专业开发者与研究人员,都能从中找到适合的资源。内容涵盖从基础的“快速入门”到多功能组合的“综合案例”,支持直接在 Google Colab 中运行体验。
cookbook 的独特亮点在于其紧跟技术前沿,及时收录了最新模型的用法,例如支持深度推理的 Gemini 3、具备图像生成能力的 Nano-Banana 2,以及能创作完整歌曲的 Lyria 3 音乐模型。此外,它还详细介绍了如何通过调整推理层级(Inference tiers)来平衡任务的速度、成本与可靠性。如果你希望动手实践,探索多模态 AI 在文本、图像及音频领域的无限可能,cookbook 将是不可或缺的学习伴侣。
使用场景
一家初创公司的技术团队正急于利用 Gemini API 最新的 Nano-Banana 2 图像生成和 Lyria 3 音乐创作功能,为即将上线的多媒体营销活动策划原型。
没有 cookbook 时
- 开发者面对官方文档中零散的新功能介绍(如推理层级、多模态输入),不知从何下手,难以快速构建可运行的代码框架。
- 在尝试组合图像生成与音乐合成时,因缺乏具体的参数配置示例,反复遭遇 API 调用错误,调试过程耗时耗力。
- 团队无法直观了解如何平衡“速度、成本与可靠性”,导致初期测试阶段预算超支且响应延迟严重。
- 缺少端到端的完整案例参考,开发人员只能凭猜测拼接功能,最终产出的 Demo 稳定性差,难以向投资人展示核心价值。
使用 cookbook 后
- 团队直接复用"Quick Starts"中针对 Nano-Banana 2 和 Lyria 3 的 Colab 笔记本,几分钟内即可跑通包含 512px 图像生成与 30 秒音乐合成的基础流程。
- 参照"Examples"分类下的实战案例,轻松掌握将图像作为音乐生成提示词(Image-to-Music)的高级用法,大幅降低集成难度。
- 通过"Inference tiers"指南,迅速学会配置 Priority 和 Flex 层级,在保证演示流畅度的同时有效控制了测试成本。
- 基于成熟的端到端 Demo 架构进行二次开发,快速交付出高质量的原型系统,成功获得项目下一轮融资支持。
cookbook 将抽象的 API 文档转化为即插即用的实战代码,让开发者从“摸索语法”转向“专注创新”,极大缩短了从概念验证到产品落地的周期。
运行环境要求
未说明
未说明

快速开始
欢迎使用 Gemini API 烹饪书
本烹饪书提供了一个系统化的学习路径,帮助您使用 Gemini API,重点在于动手教程和实用示例。
如需全面的 API 文档,请访问 ai.google.dev。
有关 Gemma 的快速入门和示例,请查看 Gemma 烹饪书。
Gemini 3:如需了解我们最新一代模型的最新更新,请参阅 入门
和 思考
指南,其中包含迁移指南。
🍌 Nano-Banana 2:用我们最新的图像生成模型——Nano-Banana 2——尽情发挥您的创意吧!从这里开始
,体验 512px 分辨率、思考模式、搜索功能、图像对齐等特性,以及大量示例!
🎶 Lyria 3:用 Lyria 3 唤醒您内心的作曲家!从这里开始
,体验 30 秒片段与完整歌曲生成、图像转音乐等功能,并获取丰富的示例!
烹饪书导航
本烹饪书分为两大类:
此外,我们还在独立的仓库中提供了演示,以展示 Gemini API 的端到端应用。
最新动态?
以下是 Gemini API 和 Cookbook 的最新添加与更新:
- 推理层级:在 推理层级指南
中了解如何使用优先级和灵活层级,帮助您在速度、成本和可靠性之间取得平衡。 - 🎶 Lyria 3:通过完全掌控音乐结构等功能,将您的想法转化为歌曲
! - 🍌 Nano-Banana 2 & Pro:利用 Gemini 原生图像生成
功能,以高度一致性编辑图像或生成视觉故事。体验高速的 Nano-Banana 2,或拥有 4K 质量的 Nano-Banana Pro——两者现均已支持思维与搜索增强功能! - 文件搜索:在托管的 RAG 系统中,通过 文件搜索快速入门
,了解如何将生成内容基于您自己的数据进行增强。 - Google 地图增强:开始在您的应用中使用 📍 Google 地图中的真实地理数据吧!请参阅 增强指南
中的 Google 地图部分。 - Veo 3.1:通过此 Veo 指南,包括图像转视频和视频扩展功能,开始使用我们的视频生成模型!

- Gemini Robotics-ER 1.5:了解这款专为机器人应用设计的新 Gemini 模型,它具备空间理解和推理能力,详情请参阅 机器人应用指南。

- Lyria 和 TTS:借助 TTS
和 Lyria RealTime
模型,开始制作播客和音乐吧。 - LiveAPI:通过 多模态 Live API
,解锁与 Gemini 的全新交互方式。 - 近期新增指南:
1. 快速入门
快速入门章节 包含逐步教程,帮助您快速上手 Gemini 并了解其各项功能特性。
开始之前,您需要:
- 一个 Google 帐户。
- 一个 API 密钥(可在 Google AI Studio 中创建)。
我们建议从以下内容开始:
随后,您可以探索其他快速入门教程,进一步了解各项功能:
- Live API 入门
:通过全面概述 Live API 的能力,快速上手该接口。 - Veo 入门
:开始体验我们的视频生成能力。 - Imagen 入门
和 原生图像生成
:开始使用我们的图像生成能力。 - 知识增强
:利用 Google 搜索实现有据可依的回答。 - 代码执行
:生成并运行 Python 代码来解决复杂任务,甚至输出图表。 - 以及 更多内容。
2. 示例(实际应用场景)
这些示例展示了如何结合 Gemini API 的多项功能或第三方工具,构建更复杂的应用程序。
- 浏览器作为工具
:使用网页浏览器进行实时及内网交互。 - 书籍插画绘制
:利用 Gemini 为开源书籍创作插画。 - 动画故事生成
:结合 Gemini 的故事生成、Imagen 和音频合成技术,制作动画视频。 - 实时绘图与地图绘制
:将 Live API 与 代码执行 结合,实时解决复杂任务。 - 3D 空间理解
:利用 Gemini 的 3D 空间理解 能力来解析 3D 场景。 - Gradio 与 Live API:使用 Gradio 部署您自己的 Live API 实例。
- 以及 更多示例。
3. 演示(端到端应用)
这些功能完备的端到端应用展示了 Gemini 在真实场景中的强大能力。
- Gemini CLI:一款开源 AI 助手,可将 Gemini 的强大功能直接引入您的终端。
- Gemini API 快速入门:基于 Python Flask 的应用,集成 Google AI Gemini API,旨在帮助您快速开启基于 Gemini 多模态能力的开发。
- 多模态 Live API Web 控制台:基于 React 的入门应用,用于通过 WebSocket 使用多模态 Live API。
- 全栈 LangGraph 快速入门:一款采用 React 前端和基于 LangGraph 的后端代理的全栈应用。
- Google AI Studio 入门小应用:一系列小型应用,演示如何利用 Gemini 打造交互式体验。
官方 SDK
Gemini API 是一种 REST API。您可以直接使用 curl 等工具调用它(参见 REST 示例 或优秀的 Postman 工作区),也可以使用我们的官方 SDK:
获取帮助
在 Google AI 开发者论坛 上提问。
Gemini API 在 Google Cloud Vertex AI 上
对于企业级开发者,Gemini API 也已在 Google Cloud Vertex AI 上提供。有关示例,请参阅 此仓库。
贡献
欢迎贡献!详情请参阅 CONTRIBUTING.md。
感谢您使用 Gemini API 进行开发!我们非常期待看到您的作品。
常见问题
相似工具推荐
opencode
OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
gstack
gstack 是 Y Combinator CEO Garry Tan 亲自开源的一套 AI 工程化配置,旨在将 Claude Code 升级为你的虚拟工程团队。面对单人开发难以兼顾产品战略、架构设计、代码审查及质量测试的挑战,gstack 提供了一套标准化解决方案,帮助开发者实现堪比二十人团队的高效产出。 这套配置特别适合希望提升交付效率的创始人、技术负责人,以及初次尝试 Claude Code 的开发者。gstack 的核心亮点在于内置了 15 个具有明确职责的 AI 角色工具,涵盖 CEO、设计师、工程经理、QA 等职能。用户只需通过简单的斜杠命令(如 `/review` 进行代码审查、`/qa` 执行测试、`/plan-ceo-review` 规划功能),即可自动化处理从需求分析到部署上线的全链路任务。 所有操作基于 Markdown 和斜杠命令,无需复杂配置,完全免费且遵循 MIT 协议。gstack 不仅是一套工具集,更是一种现代化的软件工厂实践,让单人开发者也能拥有严谨的工程流程。
codex
Codex 是 OpenAI 推出的一款轻量级编程智能体,专为在终端环境中高效运行而设计。它允许开发者直接在命令行界面与 AI 交互,完成代码生成、调试、重构及项目维护等任务,无需频繁切换至浏览器或集成开发环境,从而显著提升了编码流程的连贯性与专注度。 这款工具主要解决了传统 AI 辅助编程中上下文割裂的问题。通过将智能体本地化运行,Codex 能够更紧密地结合当前工作目录的文件结构,提供更具针对性的代码建议,同时支持以自然语言指令驱动复杂的开发操作,让“对话即编码”成为现实。 Codex 非常适合习惯使用命令行的软件工程师、全栈开发者以及技术研究人员。对于追求极致效率、偏好键盘操作胜过图形界面的极客用户而言,它更是理想的结对编程伙伴。 其独特亮点在于灵活的部署方式:既可作为全局命令行工具通过 npm 或 Homebrew 一键安装,也能无缝对接现有的 ChatGPT 订阅计划(如 Plus 或 Pro),直接复用账户权益。此外,它还提供了从纯文本终端到桌面应用的多形态体验,并支持基于 API 密钥的深度定制,充分满足不同场景下的开发需求。