cookbook

GitHub
17k 2.6k 非常简单 1 次阅读 今天Apache-2.0插件
AI 解读 由 AI 自动生成,仅供参考

cookbook 是谷歌官方推出的 Gemini API 实战指南库,旨在通过结构化的学习路径,帮助开发者快速掌握 Gemini 系列模型的应用开发。它解决了用户在面对强大但复杂的 AI 接口时,缺乏具体代码示例和场景化指导的痛点,将抽象的文档转化为可运行的 Jupyter Notebook 教程。

无论是刚接触 Gemini 的初学者,还是希望构建复杂应用的专业开发者与研究人员,都能从中找到适合的资源。内容涵盖从基础的“快速入门”到多功能组合的“综合案例”,支持直接在 Google Colab 中运行体验。

cookbook 的独特亮点在于其紧跟技术前沿,及时收录了最新模型的用法,例如支持深度推理的 Gemini 3、具备图像生成能力的 Nano-Banana 2,以及能创作完整歌曲的 Lyria 3 音乐模型。此外,它还详细介绍了如何通过调整推理层级(Inference tiers)来平衡任务的速度、成本与可靠性。如果你希望动手实践,探索多模态 AI 在文本、图像及音频领域的无限可能,cookbook 将是不可或缺的学习伴侣。

使用场景

一家初创公司的技术团队正急于利用 Gemini API 最新的 Nano-Banana 2 图像生成和 Lyria 3 音乐创作功能,为即将上线的多媒体营销活动策划原型。

没有 cookbook 时

  • 开发者面对官方文档中零散的新功能介绍(如推理层级、多模态输入),不知从何下手,难以快速构建可运行的代码框架。
  • 在尝试组合图像生成与音乐合成时,因缺乏具体的参数配置示例,反复遭遇 API 调用错误,调试过程耗时耗力。
  • 团队无法直观了解如何平衡“速度、成本与可靠性”,导致初期测试阶段预算超支且响应延迟严重。
  • 缺少端到端的完整案例参考,开发人员只能凭猜测拼接功能,最终产出的 Demo 稳定性差,难以向投资人展示核心价值。

使用 cookbook 后

  • 团队直接复用"Quick Starts"中针对 Nano-Banana 2 和 Lyria 3 的 Colab 笔记本,几分钟内即可跑通包含 512px 图像生成与 30 秒音乐合成的基础流程。
  • 参照"Examples"分类下的实战案例,轻松掌握将图像作为音乐生成提示词(Image-to-Music)的高级用法,大幅降低集成难度。
  • 通过"Inference tiers"指南,迅速学会配置 Priority 和 Flex 层级,在保证演示流畅度的同时有效控制了测试成本。
  • 基于成熟的端到端 Demo 架构进行二次开发,快速交付出高质量的原型系统,成功获得项目下一轮融资支持。

cookbook 将抽象的 API 文档转化为即插即用的实战代码,让开发者从“摸索语法”转向“专注创新”,极大缩短了从概念验证到产品落地的周期。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该工具并非本地运行的开源模型代码库,而是 Google Gemini API 的教程和示例集合(Cookbook)。所有示例均以 Jupyter Notebook (.ipynb) 形式提供,并设计为在 Google Colab 云端环境中直接运行。用户无需配置本地 GPU、内存或安装特定依赖库,仅需拥有 Google 账号并在 Google AI Studio 获取 API Key 即可使用。
python未说明
cookbook hero image

快速开始

欢迎使用 Gemini API 烹饪书

本烹饪书提供了一个系统化的学习路径,帮助您使用 Gemini API,重点在于动手教程和实用示例。

如需全面的 API 文档,请访问 ai.google.dev

有关 Gemma 的快速入门和示例,请查看 Gemma 烹饪书


Gemini 3:如需了解我们最新一代模型的最新更新,请参阅 入门 Colab思考 Colab 指南,其中包含迁移指南

🍌 Nano-Banana 2:用我们最新的图像生成模型——Nano-Banana 2——尽情发挥您的创意吧!从这里开始 Colab,体验 512px 分辨率、思考模式、搜索功能、图像对齐等特性,以及大量示例!

🎶 Lyria 3:用 Lyria 3 唤醒您内心的作曲家!从这里开始 Colab,体验 30 秒片段与完整歌曲生成、图像转音乐等功能,并获取丰富的示例!


烹饪书导航

本烹饪书分为两大类:

  1. 快速入门 分步指南,涵盖入门主题(“入门 Colab”)以及特定的 API 功能。
  2. 示例 实际应用场景,展示如何组合使用多种功能。

此外,我们还在独立的仓库中提供了演示,以展示 Gemini API 的端到端应用。

最新动态?

以下是 Gemini API 和 Cookbook 的最新添加与更新:

  • 推理层级:在 推理层级指南 Colab 中了解如何使用优先级和灵活层级,帮助您在速度、成本和可靠性之间取得平衡。
  • 🎶 Lyria 3:通过完全掌控音乐结构等功能,将您的想法转化为歌曲 Colab
  • 🍌 Nano-Banana 2 & Pro:利用 Gemini 原生图像生成 Colab 功能,以高度一致性编辑图像或生成视觉故事。体验高速的 Nano-Banana 2,或拥有 4K 质量的 Nano-Banana Pro——两者现均已支持思维与搜索增强功能!
  • 文件搜索:在托管的 RAG 系统中,通过 文件搜索快速入门 Colab,了解如何将生成内容基于您自己的数据进行增强。
  • Google 地图增强:开始在您的应用中使用 📍 Google 地图中的真实地理数据吧!请参阅 增强指南 Colab 中的 Google 地图部分。
  • Veo 3.1:通过此 Veo 指南,包括图像转视频和视频扩展功能,开始使用我们的视频生成模型!Colab
  • Gemini Robotics-ER 1.5:了解这款专为机器人应用设计的新 Gemini 模型,它具备空间理解和推理能力,详情请参阅 机器人应用指南Colab
  • Lyria 和 TTS:借助 TTS ColabLyria RealTime Colab 模型,开始制作播客和音乐吧。
  • LiveAPI:通过 多模态 Live API Colab,解锁与 Gemini 的全新交互方式。
  • 近期新增指南
    • 增强 Colab:探索使用不同工具(从 Google 搜索到 YouTube、URL,以及全新的 地图增强 工具)来增强 Gemini 回答的不同方法。
    • 批量 API Colab:使用批量 API 向模型发送大量非实时敏感请求,并享受高达 90% 的折扣。
    • 日志与数据集 Colab:利用批量 API 处理并评估您收集的日志。



1. 快速入门

快速入门章节 包含逐步教程,帮助您快速上手 Gemini 并了解其各项功能特性。

开始之前,您需要:

  1. 一个 Google 帐户。
  2. 一个 API 密钥(可在 Google AI Studio 中创建)。



我们建议从以下内容开始:

  • 身份验证 Colab:设置您的 API 密钥以进行访问。
  • 开始使用 Colab:开始使用 Gemini 模型和 Gemini API,涵盖基础提示工程及多模态输入。



随后,您可以探索其他快速入门教程,进一步了解各项功能:



2. 示例(实际应用场景)

这些示例展示了如何结合 Gemini API 的多项功能或第三方工具,构建更复杂的应用程序。



3. 演示(端到端应用)

这些功能完备的端到端应用展示了 Gemini 在真实场景中的强大能力。



官方 SDK

Gemini API 是一种 REST API。您可以直接使用 curl 等工具调用它(参见 REST 示例 或优秀的 Postman 工作区),也可以使用我们的官方 SDK:



获取帮助

Google AI 开发者论坛 上提问。

Gemini API 在 Google Cloud Vertex AI 上

对于企业级开发者,Gemini API 也已在 Google Cloud Vertex AI 上提供。有关示例,请参阅 此仓库

贡献

欢迎贡献!详情请参阅 CONTRIBUTING.md

感谢您使用 Gemini API 进行开发!我们非常期待看到您的作品。

常见问题

相似工具推荐

opencode

OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信

144.3k|★☆☆☆☆|2天前
Agent插件

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|1周前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|1周前
插件开发框架

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85.3k|★★☆☆☆|今天
图像数据工具视频

gstack

gstack 是 Y Combinator CEO Garry Tan 亲自开源的一套 AI 工程化配置,旨在将 Claude Code 升级为你的虚拟工程团队。面对单人开发难以兼顾产品战略、架构设计、代码审查及质量测试的挑战,gstack 提供了一套标准化解决方案,帮助开发者实现堪比二十人团队的高效产出。 这套配置特别适合希望提升交付效率的创始人、技术负责人,以及初次尝试 Claude Code 的开发者。gstack 的核心亮点在于内置了 15 个具有明确职责的 AI 角色工具,涵盖 CEO、设计师、工程经理、QA 等职能。用户只需通过简单的斜杠命令(如 `/review` 进行代码审查、`/qa` 执行测试、`/plan-ceo-review` 规划功能),即可自动化处理从需求分析到部署上线的全链路任务。 所有操作基于 Markdown 和斜杠命令,无需复杂配置,完全免费且遵循 MIT 协议。gstack 不仅是一套工具集,更是一种现代化的软件工厂实践,让单人开发者也能拥有严谨的工程流程。

75.5k|★★☆☆☆|今天
Agent插件

codex

Codex 是 OpenAI 推出的一款轻量级编程智能体,专为在终端环境中高效运行而设计。它允许开发者直接在命令行界面与 AI 交互,完成代码生成、调试、重构及项目维护等任务,无需频繁切换至浏览器或集成开发环境,从而显著提升了编码流程的连贯性与专注度。 这款工具主要解决了传统 AI 辅助编程中上下文割裂的问题。通过将智能体本地化运行,Codex 能够更紧密地结合当前工作目录的文件结构,提供更具针对性的代码建议,同时支持以自然语言指令驱动复杂的开发操作,让“对话即编码”成为现实。 Codex 非常适合习惯使用命令行的软件工程师、全栈开发者以及技术研究人员。对于追求极致效率、偏好键盘操作胜过图形界面的极客用户而言,它更是理想的结对编程伙伴。 其独特亮点在于灵活的部署方式:既可作为全局命令行工具通过 npm 或 Homebrew 一键安装,也能无缝对接现有的 ChatGPT 订阅计划(如 Plus 或 Pro),直接复用账户权益。此外,它还提供了从纯文本终端到桌面应用的多形态体验,并支持基于 API 密钥的深度定制,充分满足不同场景下的开发需求。

75.2k|★☆☆☆☆|4天前
语言模型Agent插件