nano-banana-hackathon-kit
nano-banana-hackathon-kit 是谷歌 DeepMind 为"Nano Banana 48 小时挑战赛”官方推出的开发者启动套件,旨在帮助创作者快速上手并构建基于最新图像模型的应用。它主要解决了开发者在接触前沿 AI 图像技术时面临的配置繁琐、缺乏示例代码和文档指引等痛点,提供了一站式的资源中心。
这套工具特别适合开发者、创意工程师以及对生成式 AI 感兴趣的技术爱好者使用。通过克隆仓库,用户可立即获取 Python 和 JavaScript 的代码示例、详细的 API 密钥获取指南以及进阶的“食谱”教程,从而在极短时间内完成从环境搭建到项目提交的全流程。
其核心亮点在于集成了 Gemini 2.5 Flash Image Preview(代号 Nano Banana)模型的独家访问权限。该模型不仅支持基础的文本生成图像,更擅长动态内容创作,如保持角色一致性的漫画生成、电商场景中的虚拟物品摆放、以及基于自然语言的精准图片编辑。借助 nano-banana-hackathon-kit,创作者能够充分利用模型对世界的独特认知能力,打破传统视觉交互的限制,探索以往难以实现的创意应用。
使用场景
一位独立开发者计划在 48 小时的 Nano Banana 黑客松中,快速构建一个能保持角色一致性的动态漫画生成应用。
没有 nano-banana-hackathon-kit 时
- 环境配置耗时:需手动查阅分散的文档来申请 Gemini API 密钥并调试图像生成接口,浪费宝贵的比赛时间。
- 功能实现困难:缺乏针对“角色一致性”和“图像编辑”的代码参考,难以掌握如何用自然语言精准控制画面细节。
- 工作流断裂:需要自行整合 Fal 或 ElevenLabs 等多方资源,导致原型开发进度缓慢,甚至无法在截止前完成演示。
- 创意受限:因技术门槛过高,被迫放弃复杂的动态叙事构思,只能退而求其次制作简单的图文转换 demo。
使用 nano-banana-hackathon-kit 后
- 极速启动:直接克隆仓库并运行指南脚本,几分钟内即可获取免费 API 密钥并跑通首个 Nano Banana 图像生成案例。
- 核心能力现成:利用
examples目录中成熟的代码片段,轻松实现角色在不同场景下的风格统一与动态编辑。 - 生态无缝集成:内置的资源链接清晰指引如何结合 Fal 和 ElevenLabs 服务,快速搭建出音画同步的完整应用闭环。
- 创意充分释放:借助详细的提示词策略和高级食谱(Cookbooks),将精力集中于打磨“动态讲故事”的独特用户体验。
nano-banana-hackathon-kit 通过将复杂的技术准备转化为标准化的三步流程,让开发者能在极短时间内从“配置环境”转向“创造奇迹”。
运行环境要求
未说明
未说明

快速开始
欢迎各位黑客!本仓库是 Google DeepMind 主办的 纳米香蕉48小时挑战赛 的官方入门工具包与资源中心。你开始、打造精彩项目并提交所需的一切,都在这里。
一起玩转香蕉吧! 从2025年9月6日起的48小时内,我们将开放 Gemini API 的特别48小时免费层级,把我们最先进的图像模型——Gemini 2.5 Flash Image Preview(又名“纳米香蕉”)——交到你手中。同时,我们还联合 Fal 和 ElevenLabs 提供超过40万美元的奖金!我们非常期待在接下来的两天里看到你的作品!
“纳米香蕉”的核心在于动态创作:用文字编辑、融合现实,并利用 Gemini 独特的世界知识。我们诚邀你释放这一强大能力,向我们展示一款能够改变我们与视觉内容交互方式、实现前所未有效果的应用。
快速导航
🚀 三步快速入门
获取免费 API 密钥
- 按照 API 密钥指南 创建你的 API 密钥,以访问 Gemini API 上的“纳米香蕉”。
探索资源
- 克隆此仓库以获取代码示例,并查看外部链接以获得灵感和文档支持。
在 Kaggle 上提交项目
- 准备就绪后,请前往 官方 Kaggle 比赛页面 在截止日期前提交你的项目。
🎯 挑战赛简介
你的任务是构建一个产品、应用或演示,充分展现以下一项或多项核心优势。请跳出简单的文本生成图像的思维模式,思考这些高级功能如何创造出令人惊叹的用户体验?
可以考虑以下应用场景:
- 增强动态叙事(例如连贯角色的漫画创作)。
- 革新电子商务(例如虚拟房间摆放或产品可视化)。
- 自动化创意工作流(例如大规模个性化营销素材)。
- 打造下一代自然语言照片编辑器。
🛠️ 技术资源
- 从这里开始:获取 API 密钥:分步指导你获取免费的 Gemini API 密钥,并使用 Python 生成第一张“纳米香蕉”图像。
- 使用纳米香蕉:学习如何运用“纳米香蕉”生成和编辑图像的不同方法。
examples/:包含独立的代码片段,演示 Gemini API 的特定功能。- 🌐 官方“纳米香蕉”Gemini API 文档:https://ai.google.dev/gemini-api/docs/image-generation
- ✍️ 提示指南与策略:https://ai.google.dev/gemini-api/docs/image-generation#prompt-guide
- 🍳 进阶教程(高级用法):
- Python:图像理解快速入门(Colab)
- JavaScript:图像理解入门(AI Studio)
- ✨ 灵感应用小工具:通过这些互动式演示,了解“纳米香蕉”的无限可能。
合作伙伴资源 🤝
探索我们的合作伙伴提供的工具和平台,以进一步提升你的项目。
ElevenLabs
fal.ai
🏆 提交与评审
你的项目将主要根据视频演示进行评判。用行动证明一切!我们希望看到你的作品带来的震撼效果、实际用途以及背后的技术实力。
提交方式
所有提交必须通过官方比赛页面完成:
提交要求
完整的 Kaggle 提交需包括以下内容:
🎥 视频演示(不超过2分钟)
- 一段生动有趣的视频,展示你的项目成果。视频必须公开发布(如 YouTube 或 X/Twitter),且无需登录即可观看。
🔗 公开项目链接
- 一个指向你正在运行的产品或交互式演示的 URL。如果无法提供实时演示,则需要提供一个带有清晰部署说明的公共代码仓库链接(如 GitHub)。
✍️ Gemini 集成说明(最多200字)
- 简要描述你使用了 Gemini 2.5 Flash Image 的哪些功能,以及这些功能如何成为你应用的核心。
评审标准
- 💡 创新性与震撼力(40%):应用是否具有创造性和新颖性?它是否以一种前所未有的方式利用了 Gemini 2.5 Flash Image?
- ⚙️ 技术实现与功能性(30%):应用是否正常运行?它是否有效地利用了 API 的高级特性(一致性、融合、编辑等)?
- 📈 潜在影响与实用性(20%):应用是否解决了现实世界中的问题(创意、商业或教育方面)?
- 🎬 呈现质量(10%):视频演示的清晰度、叙事能力和吸引力。
对于特别技术奖,将采用相同的评审标准,但会重点关注特定技术(ElevenLabs)如何在实现项目影响力和技术卓越性方面起到关键作用。
🗓️ 时间线与奖项
💰 奖项
争夺总额超过 40万美元的奖金!
综合赛道
- 前50名参赛作品:每份可获得5,000美元的Gemini API积分及1,000美元的Fal积分,此外还有1,100万(约合2,000美元)的ElevenLabs积分。
特别技术奖——ElevenLabs
- 冠军:2,200万ElevenLabs积分(6个月Scale套餐,估值约4,000美元)
⏳ 重要日期
- 比赛开始:2025年9月6日(UTC时间9月5日午夜00:01,太平洋时间下午5:00)
- 最终提交截止:2025年9月7日(UTC时间下午4:59,太平洋时间晚上11:59)
- 评审阶段:2025年9月8日至17日
- 公布获奖名单:2025年9月19日(预计)
评审所需时间取决于参赛作品的数量。除非另有说明,所有截止时间均为对应日期的UTC晚上11:59。主办方保留调整时间安排的权利。
关于API使用须知
请注意,Gemini API设有特别层级(适用于所有API用户),每日每个项目允许 500次请求。
使用付费API密钥的开发者需自行支付全部使用费用。如需享受免费的500次生成额度,请使用免费层级的API密钥。
💬 寻求帮助与讨论
所有问题、组队及讨论均将在Kaggle平台上进行。这里是向主办方、导师及社区寻求帮助的最佳场所。
- 提问:发布您的技术或一般性问题,供社区和主办方解答。
- 寻找队友:发布帖子寻找合作伙伴。
- 分享创意:讨论您的项目构想并获取反馈。
祝您编码愉快!
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。