awesome-nanobananapro-prompts
gemini-nanobanana-pro 是一款基于 Google Gemini 2.5 Flash Image Preview 模型打造的开源 Web 应用,专注于提供高质量的 AI 图像生成与智能编辑服务。它有效解决了用户在创意可视化过程中面临的工具门槛高、操作复杂以及多模型切换不便等痛点,让用户仅需通过自然语言描述或简单的对话指令,即可轻松实现从文字到图像的转化,或对现有图片进行风格迁移、细节增强等精细化修改。
这款工具非常适合设计师寻找灵感、内容创作者快速产出素材,同时也为开发者提供了一个优秀的 Next.js 全栈开发参考范例。其独特亮点在于同时集成了 Google 最新的 Gemini 2.5 Flash 与字节跳动的 Doubao SeedReam 4.0 双模型引擎,用户可根据需求灵活切换;加之现代化的暗色主题界面、流畅的交互动画以及对移动端的良好适配,使得整个创作过程既高效又充满乐趣。无论是希望零代码体验前沿 AI 绘图能力的普通用户,还是意图研究多模态模型集成的技术人员,都能从中获得极佳的使用体验。
使用场景
一位独立游戏开发者正在为即将上线的休闲手游快速制作多套风格统一的宣传素材和图标,但面临时间紧、预算有限且缺乏专业美术支持的困境。
没有 gemini-nanobanana-pro 时
- 工作流割裂低效:需要在多个网页工具间切换,分别处理文生图和图像编辑,无法在一个界面内完成从创意到成品的闭环。
- 修改成本高昂:若需调整图片细节(如“给猫加上彩虹背景”),往往需要重新生成整张图或手动使用 PS 精修,耗时极长。
- 风格难以统一:手动拼接不同来源的素材导致画面风格杂乱,缺乏一致的色调和艺术质感,影响品牌视觉识别。
- 移动端适配缺失:现有工具多为桌面端优化,在手机上预览和调整素材时体验糟糕,无法随时随地响应灵感。
使用 gemini-nanobanana-pro 后
- 一站式高效创作:利用其现代化的 Next.js 界面,开发者可在同一页面流畅切换“文生图”与“对话编辑”模式,几分钟内即可产出多版方案。
- 自然语言精准迭代:直接上传底图并输入“转换为油画风格,增加温暖色调”,基于 Gemini 2.5 Flash 模型的理解能力,瞬间获得符合预期的修改结果。
- 批量生成风格一致:通过选择特定艺术风格并设置批量生成 4 张图片,一次性获得色调、光影高度统一的系列素材,确保视觉连贯性。
- 全终端无缝协作:凭借完美的响应式设计,开发者即使在通勤途中也能用手机查看实时预览效果,并与团队即时确认最终方案。
gemini-nanobanana-pro 将原本繁琐的美术外包流程转化为分钟级的自助创作,让非美术背景的开发者也能低成本实现高质量的视觉落地。
运行环境要求
- Linux
- macOS
- Windows
未说明 (基于云 API,本地无需 GPU)
未说明

快速开始
🍌 Gemini Nano 香蕉 Plus
基于 Google Gemini 2.5 Flash Image Preview 模型打造的精美 AI 图像生成与编辑 Web 应用,使用 Next.js 构建。
✨ 功能特性
🎨 AI 图像生成
- 文生图:通过文字描述生成图像
- 图像编辑:上传图片后通过自然语言对话进行编辑
- 多种风格:增强细节、艺术风格、动漫风格、写实风格
- 批量生成:一次生成 1-4 张图片
🎯 用户体验
- 精美界面:现代化暗色主题,渐变背景搭配流畅动画
- 响应式设计:完美适配桌面端和移动端
- 实时预览:即时反馈和加载动画
- 多模式切换:上传模式和文生图模式自由切换
🔧 技术特性
- Next.js 14:服务端渲染和 API 路由
- TypeScript:类型安全开发
- 多模型支持:
- Gemini 2.5 Flash:Google 最新 AI 图像生成模型
- Doubao SeedReam 4.0:字节跳动高级图像生成模型
- Vercel 部署:优化的一键部署方案
🚀 快速开始
前置要求
- Node.js 18+
- AI 模型 API 密钥:
- Gemini API 密钥:从 Google AI Studio 获取
- Doubao API 密钥:从 火山引擎 获取
安装步骤
克隆仓库
git clone https://github.com/xianyu110/gemini-nanobanana-plus.git cd gemini-nanobanana-plus安装依赖
npm install配置环境变量
cp .env.example .env.local编辑
.env.local并填入你的 API 密钥:GEMINI_API_KEY=你的_gemini_api_key MAYNOR_API_KEY=你的_doubao_api_key MAYNOR_API_URL=https://apipro.maynor1024.live启动开发服务器
npm run dev打开浏览器 访问 http://localhost:3000
🌐 部署到 Vercel
一键部署
点击上方的 Vercel 按钮即可直接部署。
手动部署
Fork 本仓库
导入 Vercel
- 访问 vercel.com
- 点击 "New Project"
- 导入你 Fork 的仓库
配置环境变量 在 Vercel 项目设置中添加:
GEMINI_API_KEY=你的_api_key部署 Vercel 会自动构建并部署你的项目
🎯 使用指南
页面说明
- 主应用:
/nano- 完整功能的 Nano Banana 界面 - 演示版:
/mvp- 简化演示版本 - 首页:
/- 落地页
AI 模型选择
支持两种强大的 AI 模型:
- 🤖 Gemini 2.5 Flash:Google 最新多模态 AI 模型
- 🎨 Doubao SeedReam 4.0:字节跳动高级图像生成模型
文生图
- 选择「文生图模式」
- 选择 AI 模型(Gemini 或 Doubao)
- 输入中文或英文描述
- 选择风格(增强、艺术、动漫、写实)
- 选择生成图片数量(1-4 张)
- 点击「开始生成」
图像编辑
- 选择「通过对话编辑图像」模式
- 选择 AI 模型(Gemini 或 Doubao)
- 上传图片(支持 PNG、JPG、WebP)
- 描述你想要的修改内容
- 选择风格并生成
示例提示词
- "一只可爱的橘猫坐在彩虹桥上,梦幻风格,柔和光线"
- "A cute orange cat sitting on a rainbow bridge, dreamy style, soft lighting"
- "将这张图片转换为油画风格,增加温暖色调"
🛠️ 开发
项目结构
gemini-nano-banana/
├── app/
│ ├── api/
│ │ ├── gemini/ # Gemini API 端点
│ │ ├── generate/ # 备用生成端点
│ │ └── generate-demo/ # 演示端点
│ ├── nano/ # 主应用页面
│ ├── mvp/ # MVP 演示页面
│ └── layout.tsx # 根布局
├── public/ # 静态资源
├── .env.example # 环境变量模板
├── vercel.json # Vercel 部署配置
└── README.md # 项目文档
可用脚本
npm run dev- 启动开发服务器npm run build- 生产环境构建npm run start- 启动生产服务器
API 端点
/api/gemini- Gemini 2.5 Flash 图像生成 API/api/doubao- Doubao SeedReam 4.0 图像生成 API/api/generate- 备用生成端点/api/generate-demo- 演示端点
🔑 环境变量
| 变量 | 说明 | 是否必需 |
|---|---|---|
GEMINI_API_KEY |
Google AI Studio 的 Gemini API 密钥 | ✅ |
MAYNOR_API_KEY |
火山引擎的 Doubao API 密钥 | ✅ |
MAYNOR_API_URL |
Doubao API 基础地址 | ✅ |
🌟 界面特性
🍌 Nano Banana 界面
- 现代暗色主题:护眼的渐变背景设计
- 流畅动画:悬停效果和加载动画
- 响应式布局:桌面端和移动端完美适配
- 交互元素:增强的按钮、输入框和卡片
视觉效果
- 渐变卡片:精美的背景渐变
- 发光效果:微妙的阴影和光晕
- 平滑过渡:全局 0.3s 缓动过渡
- 加载状态:旋转齿轮图标和脉冲动画
📝 许可证
本项目基于 MIT 许可证 开源。
🤝 参与贡献
欢迎贡献!请随时提交 Pull Request。
💡 支持
如果遇到任何问题或有疑问:
- 查看 Issues 页面
- 创建新 Issue 并附上详细信息
- 加入我们的社区讨论
🌟 致谢
- Google Gemini - 强大的 AI 模型
- Next.js - 优秀的框架
- Vercel - 无缝部署平台
使用 Google Gemini 2.5 Flash Image Preview 用心制作 ❤️
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。
PaddleOCR
PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。
