cookbook

17k 2.6k 非常简单 1 次阅读今天Apache-2.0插件

AI 解读由 AI 自动生成，仅供参考

cookbook 是谷歌官方推出的 Gemini API 实战指南库，旨在通过结构化的学习路径，帮助开发者快速掌握 Gemini 系列模型的应用开发。它解决了用户在面对强大但复杂的 AI 接口时，缺乏具体代码示例和场景化指导的痛点，将抽象的文档转化为可运行的 Jupyter Notebook 教程。

无论是刚接触 Gemini 的初学者，还是希望构建复杂应用的专业开发者与研究人员，都能从中找到适合的资源。内容涵盖从基础的“快速入门”到多功能组合的“综合案例”，支持直接在 Google Colab 中运行体验。

cookbook 的独特亮点在于其紧跟技术前沿，及时收录了最新模型的用法，例如支持深度推理的 Gemini 3、具备图像生成能力的 Nano-Banana 2，以及能创作完整歌曲的 Lyria 3 音乐模型。此外，它还详细介绍了如何通过调整推理层级（Inference tiers）来平衡任务的速度、成本与可靠性。如果你希望动手实践，探索多模态 AI 在文本、图像及音频领域的无限可能，cookbook 将是不可或缺的学习伴侣。

使用场景

一家初创公司的技术团队正急于利用 Gemini API 最新的 Nano-Banana 2 图像生成和 Lyria 3 音乐创作功能，为即将上线的多媒体营销活动策划原型。

没有 cookbook 时

开发者面对官方文档中零散的新功能介绍（如推理层级、多模态输入），不知从何下手，难以快速构建可运行的代码框架。
在尝试组合图像生成与音乐合成时，因缺乏具体的参数配置示例，反复遭遇 API 调用错误，调试过程耗时耗力。
团队无法直观了解如何平衡“速度、成本与可靠性”，导致初期测试阶段预算超支且响应延迟严重。
缺少端到端的完整案例参考，开发人员只能凭猜测拼接功能，最终产出的 Demo 稳定性差，难以向投资人展示核心价值。

使用 cookbook 后

团队直接复用"Quick Starts"中针对 Nano-Banana 2 和 Lyria 3 的 Colab 笔记本，几分钟内即可跑通包含 512px 图像生成与 30 秒音乐合成的基础流程。
参照"Examples"分类下的实战案例，轻松掌握将图像作为音乐生成提示词（Image-to-Music）的高级用法，大幅降低集成难度。
通过"Inference tiers"指南，迅速学会配置 Priority 和 Flex 层级，在保证演示流畅度的同时有效控制了测试成本。
基于成熟的端到端 Demo 架构进行二次开发，快速交付出高质量的原型系统，成功获得项目下一轮融资支持。

cookbook 将抽象的 API 文档转化为即插即用的实战代码，让开发者从“摸索语法”转向“专注创新”，极大缩短了从概念验证到产品落地的周期。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该工具并非本地运行的开源模型代码库，而是 Google Gemini API 的教程和示例集合（Cookbook）。所有示例均以 Jupyter Notebook (.ipynb) 形式提供，并设计为在 Google Colab 云端环境中直接运行。用户无需配置本地 GPU、内存或安装特定依赖库，仅需拥有 Google 账号并在 Google AI Studio 获取 API Key 即可使用。

python未说明

快速开始

欢迎使用 Gemini API 烹饪书

本烹饪书提供了一个系统化的学习路径，帮助您使用 Gemini API，重点在于动手教程和实用示例。

如需全面的 API 文档，请访问 ai.google.dev。

有关 Gemma 的快速入门和示例，请查看 Gemma 烹饪书。

Gemini 3：如需了解我们最新一代模型的最新更新，请参阅入门和思考指南，其中包含迁移指南。

🍌 Nano-Banana 2：用我们最新的图像生成模型——Nano-Banana 2——尽情发挥您的创意吧！从这里开始，体验 512px 分辨率、思考模式、搜索功能、图像对齐等特性，以及大量示例！

🎶 Lyria 3：用 Lyria 3 唤醒您内心的作曲家！从这里开始，体验 30 秒片段与完整歌曲生成、图像转音乐等功能，并获取丰富的示例！

烹饪书导航

本烹饪书分为两大类：

快速入门： 分步指南，涵盖入门主题（“入门 ”）以及特定的 API 功能。
示例： 实际应用场景，展示如何组合使用多种功能。

此外，我们还在独立的仓库中提供了演示，以展示 Gemini API 的端到端应用。

1. 快速入门

快速入门章节包含逐步教程，帮助您快速上手 Gemini 并了解其各项功能特性。

开始之前，您需要：

一个 Google 帐户。
一个 API 密钥（可在 Google AI Studio 中创建）。

我们建议从以下内容开始：

身份验证：设置您的 API 密钥以进行访问。
开始使用 ：开始使用 Gemini 模型和 Gemini API，涵盖基础提示工程及多模态输入。

随后，您可以探索其他快速入门教程，进一步了解各项功能：

Live API 入门：通过全面概述 Live API 的能力，快速上手该接口。
Veo 入门：开始体验我们的视频生成能力。
Imagen 入门和原生图像生成：开始使用我们的图像生成能力。
知识增强：利用 Google 搜索实现有据可依的回答。
代码执行：生成并运行 Python 代码来解决复杂任务，甚至输出图表。
以及更多内容。

2. 示例（实际应用场景）

这些示例展示了如何结合 Gemini API 的多项功能或第三方工具，构建更复杂的应用程序。

浏览器作为工具：使用网页浏览器进行实时及内网交互。
书籍插画绘制：利用 Gemini 为开源书籍创作插画。
动画故事生成：结合 Gemini 的故事生成、Imagen 和音频合成技术，制作动画视频。
实时绘图与地图绘制：将 Live API 与 代码执行 结合，实时解决复杂任务。
3D 空间理解：利用 Gemini 的 3D 空间理解 能力来解析 3D 场景。
Gradio 与 Live API：使用 Gradio 部署您自己的 Live API 实例。
以及更多示例。

3. 演示（端到端应用）

这些功能完备的端到端应用展示了 Gemini 在真实场景中的强大能力。

Gemini CLI：一款开源 AI 助手，可将 Gemini 的强大功能直接引入您的终端。
Gemini API 快速入门：基于 Python Flask 的应用，集成 Google AI Gemini API，旨在帮助您快速开启基于 Gemini 多模态能力的开发。
多模态 Live API Web 控制台：基于 React 的入门应用，用于通过 WebSocket 使用多模态 Live API。
全栈 LangGraph 快速入门：一款采用 React 前端和基于 LangGraph 的后端代理的全栈应用。
Google AI Studio 入门小应用：一系列小型应用，演示如何利用 Gemini 打造交互式体验。

官方 SDK

Gemini API 是一种 REST API。您可以直接使用 curl 等工具调用它（参见 REST 示例或优秀的 Postman 工作区），也可以使用我们的官方 SDK：

获取帮助

在 Google AI 开发者论坛上提问。

Gemini API 在 Google Cloud Vertex AI 上

对于企业级开发者，Gemini API 也已在 Google Cloud Vertex AI 上提供。有关示例，请参阅此仓库。

贡献

欢迎贡献！详情请参阅 CONTRIBUTING.md。

感谢您使用 Gemini API 进行开发！我们非常期待看到您的作品。

Gemini API Cookbook 快速上手指南

本指南旨在帮助开发者快速开始使用 Google Gemini API，通过结构化的学习路径掌握核心功能与实战案例。

环境准备

在开始之前，请确保满足以下前置条件：

Google 账号：拥有一个有效的 Google 账户。
API Key：
- 访问 Google AI Studio 创建并获取您的 API Key。
运行环境：
- 推荐使用 Google Colab（官方教程均提供 Colab 链接，无需本地配置即可运行）。
- 若需在本地运行，请安装 Python 3.9+ 及以下依赖库：
```
pip install google-generativeai
```

安装步骤

如果您选择在本地环境中开发，请执行以下命令安装官方 SDK：

pip install -U google-generativeai

提示：国内开发者若遇到网络连接问题，建议在代码中配置代理或使用支持中转的服务端环境运行。

基本使用

以下是使用 Gemini API 进行基础对话的最简示例。

1. 初始化客户端

首先导入库并设置您的 API Key：

import google.generativeai as genai

# 替换为您的实际 API Key
genai.configure(api_key="YOUR_API_KEY")

2. 调用模型进行对话

加载模型并发送简单的文本提示：

# 选择模型版本，例如 gemini-1.5-flash 或 gemini-1.5-pro
model = genai.GenerativeModel('gemini-1.5-flash')

# 生成回复
response = model.generate_content("请用中文简要介绍 Gemini API 的主要特点。")

# 输出结果
print(response.text)

3. 进阶探索

完成基础测试后，您可以参考官方 Cookbook 中的详细教程深入探索特定功能：

快速入门 (Quick Starts)：涵盖身份验证、多模态输入（图片/视频）、代码执行、搜索接地（Grounding）等单点功能教程。
- 推荐起点：Get Started
实战案例 (Examples)：展示如何组合多种功能构建复杂应用，如“浏览器作为工具”、“书籍插图生成”、“动画故事视频生成”等。

所有教程均提供可直接运行的 Colab 笔记本链接，点击即可在云端环境中体验最新模型特性（如 Nano-Banana 2 图像生成、Lyria 3 音乐生成、Veo 视频生成等）。

常见问题

如何在启用工具（Tools）的同时使用 JSON 模式（Structured Output）？

模型生成长文本时出现无限重复序列（死循环）怎么办？

使用 Gemini 2.0 Flash 进行结构化输出时，为什么会出现字段缺失或值重复？

Allstar 报告'Branch Protection'安全策略违规是什么意思？

在 Vertex AI 上使用 Gemini 模型进行音频转录时遇到重复输出问题如何解决？

有没有办法在原生的 Google Generative AI SDK 中同时使用工具调用和 JSON 响应格式？

相似工具推荐

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|2天前

Agent插件

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.3k|★★☆☆☆|今天

图像数据工具视频

gstack

gstack 是 Y Combinator CEO Garry Tan 亲自开源的一套 AI 工程化配置，旨在将 Claude Code 升级为你的虚拟工程团队。面对单人开发难以兼顾产品战略、架构设计、代码审查及质量测试的挑战，gstack 提供了一套标准化解决方案，帮助开发者实现堪比二十人团队的高效产出。这套配置特别适合希望提升交付效率的创始人、技术负责人，以及初次尝试 Claude Code 的开发者。gstack 的核心亮点在于内置了 15 个具有明确职责的 AI 角色工具，涵盖 CEO、设计师、工程经理、QA 等职能。用户只需通过简单的斜杠命令（如 `/review` 进行代码审查、`/qa` 执行测试、`/plan-ceo-review` 规划功能），即可自动化处理从需求分析到部署上线的全链路任务。所有操作基于 Markdown 和斜杠命令，无需复杂配置，完全免费且遵循 MIT 协议。gstack 不仅是一套工具集，更是一种现代化的软件工厂实践，让单人开发者也能拥有严谨的工程流程。

★ 75.5k|★★☆☆☆|今天