gemini-skills
gemini-skills 是一套专为 Gemini API、SDK 及智能体交互设计的技能库,旨在弥补大语言模型因训练时间固定而产生的知识滞后问题。在软件开发日新月异、最佳实践快速迭代的背景下,模型往往难以掌握最新的库更新或细微的技术规范(如思维链签名变化)。gemini-skills 通过轻量级的“技能”机制,为开发中的智能体注入实时、准确的上下文信息,使其能生成符合当前标准的代码。
实测数据显示,引入该技能库后,Gemini 3 Flash 和 Gemini 3 Pro 生成正确 API 代码的比例分别提升至 87% 和 96%。库内涵盖了针对通用 Gemini 应用开发、Google Cloud Vertex AI 集成、Gemini Live 实时流媒体交互以及 Gemini Interactions API 等多场景的专项技能,详细指导了从多模态生成到会话管理的各类最佳实践。
这套工具非常适合正在构建 Gemini 驱动应用的开发者使用,尤其是那些希望智能体能自动遵循最新 SDK 用法和行业规范的团队。用户可通过 Vercel 或 Context7 的命令行工具轻松浏览并安装所需技能。需要注意的是,gemini-skills 属于社区开源项目,并非 Google 官方正式支持的产品。
使用场景
一位全栈开发者正利用 Gemini API 构建一个支持实时语音交互和多轮对话的智能客服应用,需要快速集成最新的流媒体处理和函数调用功能。
没有 gemini-skills 时
- 代码过时风险高:模型因训练数据截止,生成的代码常使用已废弃的 SDK 方法或忽略最新的“思维链”最佳实践,导致运行报错。
- 实时流处理复杂:在实现双向音频/视频流时,开发者需手动查阅大量文档来处理 WebSocket 连接、语音活动检测及会话管理,极易出错。
- 多模态功能缺失:模型难以准确组合图像生成、结构化输出与深度研究代理等高级特性,往往只能给出碎片化的伪代码。
- 调试成本高昂:由于缺乏针对特定 API 版本的上下文,开发者需反复人工修正模型生成的逻辑错误,严重拖慢开发进度。
使用 gemini-skills 后
- 自动适配最新规范:通过注入
gemini-api-dev技能,模型直接输出符合当前最佳实践的代码,将正确率提升至 96%(Gemini 3 Pro)。 - 流式开发一键就绪:借助
gemini-live-api-dev技能,模型能精准生成包含原生音频处理和端到端会话管理的完整流媒体架构。 - 高级特性无缝集成:利用
gemini-interactions-api技能,模型可一次性协调文本、图像及函数调用,生成结构严谨的多模态交互逻辑。 - 开发效率显著飞跃:无需反复纠正基础 API 用法,开发者可将精力集中于业务逻辑,大幅缩短从原型到上线的周期。
gemini-skills 通过为 AI 代理注入实时的领域专业知识,彻底消除了大模型静态知识库与快速迭代的软件开发之间的鸿沟。
运行环境要求

快速开始
Gemini API 技能
用于 Gemini API、SDK 和模型交互的一组技能库。
关于
大型语言模型的知识是固定的,它们是在特定时间点进行训练的。而软件开发节奏快、变化频繁,每天都有新的库发布,最佳实践也在迅速演进。
这导致了一个知识缺口,仅靠语言模型自身无法解决。例如,模型在训练时并不了解自身,也未必能意识到最佳实践中的细微变化(如 思维循环)或 SDK 的更新。
技能 是一种轻量级技术,可以为你的智能体添加相关上下文。本仓库包含与构建基于 Gemini API 的应用相关的技能。
性能
我们的评估发现,添加此技能后,智能体生成符合最佳实践的正确 API 代码的能力,在 Gemini 3 Flash 上提升至 87%,而在 Gemini 3 Pro 上则提升至 96%。
本仓库中的技能
| 技能 | 描述 |
|---|---|
gemini-api-dev |
用于开发基于 Gemini 的应用的技能。提供使用 Gemini API 构建应用的最佳实践。 |
vertex-ai-api-dev |
用于在 Google Cloud Vertex AI 上使用 Gen AI SDK 开发基于 Gemini 的应用的技能。涵盖工具、多模态生成、缓存和批量预测等内容。 |
gemini-live-api-dev |
用于构建使用 Gemini Live API 的实时双向流式应用的技能。涵盖基于 WebSocket 的音频/视频/文本流式传输、语音活动检测、原生音频功能、函数调用以及会话管理等内容。 |
gemini-interactions-api |
用于构建使用 Gemini Interactions API 的应用的技能。涵盖文本生成、多轮对话、流式输出、函数调用、结构化输出、图像生成、Deep Research 智能体、已弃用的模型护栏,以及 Python 和 TypeScript SDK。 |
安装
你可以使用 Vercel 技能 CLI 或 Context7 技能 CLI 来浏览并安装技能。
使用 Vercel 技能 CLI
# 交互式浏览并安装技能。
npx skills add google-gemini/gemini-skills --list
# 安装特定技能(例如 gemini-api-dev)。
npx skills add google-gemini/gemini-skills --skill gemini-api-dev --global
使用 Context7 技能 CLI
# 交互式浏览并安装技能。
npx ctx7 skills install /google-gemini/gemini-skills
# 安装特定技能(例如 vertex-ai-api-dev)。
npx ctx7 skills install /google-gemini/gemini-skills vertex-ai-api-dev
免责声明
本项目并非 Google 官方支持的产品。本项目不符合 Google 开源软件漏洞奖励计划 的资格。
常见问题
相似工具推荐
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
openai-cookbook
openai-cookbook 是 OpenAI 官方提供的一套实用代码示例与指南合集,旨在帮助开发者快速上手并掌握 OpenAI API 的核心用法。面对大模型应用中常见的提示词工程、函数调用、数据嵌入及复杂任务编排等挑战,新手往往难以找到标准化的实现路径。openai-cookbook 通过提供经过验证的代码片段和详细教程,有效解决了“如何从零开始构建应用”以及“如何最佳实践特定功能”的痛点。 这套资源主要面向软件开发者和 AI 技术研究人员,同时也适合希望深入理解大模型能力的技术爱好者。虽然示例代码主要以 Python 编写,但其背后的设计思路和技术逻辑具有通用性,可轻松迁移至其他编程语言。其独特亮点在于内容紧跟官方最新特性更新,覆盖了从基础文本生成到高级代理(Agent)构建的全场景需求,且所有示例均支持在本地环境直接运行调试。作为开源项目,它采用宽松的 MIT 许可证,鼓励社区贡献与二次开发,是学习大模型应用开发不可或缺的实战手册。
gstack
gstack 是 Y Combinator CEO Garry Tan 亲自开源的一套 AI 工程化配置,旨在将 Claude Code 升级为你的虚拟工程团队。面对单人开发难以兼顾产品战略、架构设计、代码审查及质量测试的挑战,gstack 提供了一套标准化解决方案,帮助开发者实现堪比二十人团队的高效产出。 这套配置特别适合希望提升交付效率的创始人、技术负责人,以及初次尝试 Claude Code 的开发者。gstack 的核心亮点在于内置了 15 个具有明确职责的 AI 角色工具,涵盖 CEO、设计师、工程经理、QA 等职能。用户只需通过简单的斜杠命令(如 `/review` 进行代码审查、`/qa` 执行测试、`/plan-ceo-review` 规划功能),即可自动化处理从需求分析到部署上线的全链路任务。 所有操作基于 Markdown 和斜杠命令,无需复杂配置,完全免费且遵循 MIT 协议。gstack 不仅是一套工具集,更是一种现代化的软件工厂实践,让单人开发者也能拥有严谨的工程流程。
OpenHands
OpenHands 是一个专注于 AI 驱动开发的开源平台,旨在让智能体(Agent)像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点,通过自动化流程显著提升开发速度。 无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员,还是需要快速原型验证的技术团队,都能从中受益。OpenHands 提供了灵活多样的使用方式:既可以通过命令行(CLI)或本地图形界面在个人电脑上轻松上手,体验类似 Devin 的流畅交互;也能利用其强大的 Python SDK 自定义智能体逻辑,甚至在云端大规模部署上千个智能体并行工作。 其核心技术亮点在于模块化的软件智能体 SDK,这不仅构成了平台的引擎,还支持高度可组合的开发模式。此外,OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩,证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能,支持与 Slack、Jira 等工具集成,并提供细粒度的权限管理,适合从个人开发者到大型企业的各类用户场景。