gemini-next-chat

GitHub
1.6k 588 简单 1 次阅读 2天前MIT图像Agent开发框架插件
AI 解读 由 AI 自动生成,仅供参考

Gemini Next Chat 是一款开源的聊天机器人框架,旨在帮助用户轻松搭建私有的 Gemini AI 对话应用。它核心解决了用户希望免费、快速部署专属 AI 助手的需求,无需复杂的服务器配置,只需一键即可在 Vercel 或 Cloudflare 等平台上完成部署。

这款工具非常适合希望拥有独立 AI 服务环境的普通用户、开发者以及技术爱好者使用。对于不想依赖第三方付费服务的个人,它提供了一个低门槛的私有化方案;对于开发者,它则是一个基于 Next.js、Tailwind CSS 和 shadcn/ui 构建的高质量项目模板,便于二次开发。

在技术亮点方面,Gemini Next Chat 全面支持谷歌最新的 Gemini 1.5 Pro、Gemini 1.5 Flash 以及具备视觉识别能力的 Gemini Pro Vision 模型。它不仅提供了流畅的网页端体验,还支持打包为 Windows、macOS 和 Linux 的桌面应用程序,实现跨平台无缝使用。此外,项目还具备函数调用(Function Calling)扩展能力,为未来集成更多自动化任务留下了充足空间。无论是想体验最新多模态模型能力,还是构建团队内部的智能助手,Gemini Next Chat 都是一个高效且灵活的选择。

使用场景

某初创团队希望为内部客服系统集成谷歌最新的 Gemini 1.5 Pro 模型,以处理复杂的长文档问答,但受限于预算和运维能力。

没有 gemini-next-chat 时

  • 部署门槛高:团队需手动配置 Next.js 环境、Tailwind CSS 及 shadcn/ui 组件库,前端开发耗时数天才能搭建出基础聊天界面。
  • 多模态支持难:原生 API 调用需自行编写代码处理图片上传与解析(Gemini Pro Vision),难以快速实现“看图说话”功能。
  • 数据隐私担忧:直接使用第三方封装平台可能导致敏感客户数据外泄,而自建服务又缺乏现成的访问密码保护机制。
  • 维护成本大:模型切换(如在 1.5 Flash 和 Pro 之间调整)需要修改后端代码并重新构建部署,响应业务需求迟缓。

使用 gemini-next-chat 后

  • 一键私有化部署:通过 Vercel 或 Cloudflare 按钮即可在几分钟内上线专属应用,自动集成所有前端依赖,零代码基础设施投入。
  • 原生多模态交互:内置支持 Gemini 1.5 全系列模型,直接拖拽上传图片或 PDF 即可进行深度分析,无需额外开发解析逻辑。
  • 安全可控:自带访问密码(ACCESS_PASSWORD)环境变量配置,确保只有授权客服人员能访问,数据完全留存于自有账户下。
  • 灵活模型调度:在图形化设置中即可随时切换不同版本的 Gemini 模型,根据任务复杂度动态平衡成本与性能,无需重启服务。

gemini-next-chat 让中小团队能以零成本、分钟级的速度,拥有安全且功能完备的私有化 Gemini 多模态对话系统。

运行环境要求

操作系统
  • Linux
  • macOS
  • Windows
GPU

未说明

内存

未说明

依赖
notes该项目为基于 Next.js 的前端应用,主要依赖 Google Gemini API 进行推理,无需本地 GPU 或大型模型文件。支持通过 Vercel、Cloudflare 一键部署,或通过 Docker 部署。提供基于 Tauri 的跨平台桌面客户端(约 4MB)。运行核心需求为有效的 GEMINI_API_KEY。
python未说明
Next.js
Tailwind CSS
shadcn/ui
Tauri (桌面客户端)
gemini-next-chat hero image

快速开始

Gemini Next Chat

GitHub deployments GitHub Release Docker Image Size (tag) Docker Pulls GitHub License

一键免费部署您的私有 Gemini 应用程序,支持 Gemini 1.5 Pro、Gemini 1.5 Flash、Gemini Pro 和 Gemini Pro Vision 模型。

English · 简体中文

Vercel Cloudflare

Gemini Next Tailwind CSS shadcn/ui

Web MacOS Windows Linux

Web App / Desktop App / Issues

分享 GeminiNextChat 仓库

cover

界面简洁,支持图像识别和语音对话

Gemini

支持 Gemini 1.5 和 Gemini 2.0 多模态模型

支持插件

支持插件,内置网页搜索、网页阅读器、Arxiv 搜索、天气等实用插件

多模态直播

支持多模态 Live API,带来流畅的语音和视频体验

托盘应用

一款跨平台的应用客户端,支持常驻菜单栏,让您的工作效率翻倍

注意:如果您在使用本项目时遇到问题,可以查看 FAQ 中的已知问题及解决方案。

目录

功能

  • 在 Vercel 上一键免费部署,不到 1 分钟即可完成
  • 提供体积非常小(约 4MB)的跨平台客户端(Windows/MacOS/Linux),可常驻菜单栏以提升办公效率
  • 支持多模态模型,能够理解图片、视频、音频及部分文本文档
  • 对话模式:允许您直接与 Gemini 交流,支持多模态实时 API
  • 视觉识别功能使 Gemini 能够理解图片内容
  • 助手市场提供数百条精选系统指令
  • 支持插件,内置网页搜索、网页阅读器、Arxiv 搜索、天气等实用插件
  • 对话列表功能,方便您跟踪重要对话或与 Gemini 讨论不同话题
  • 文档支持,让您更优雅地编辑对话内容
  • 完全支持 Markdown:KaTex 公式、代码高亮、Mermaid 图表等
  • 自动压缩上下文聊天记录以节省 Token,同时支持超长对话
  • 注重隐私与安全,所有数据均保存在用户本地浏览器中
  • 支持 PWA,可作为应用程序运行
  • 界面设计精美,响应式布局,支持深色模式
  • 首屏加载速度极快,支持流式响应
  • 静态部署支持在任何支持静态页面的网站服务上部署,如 Github Page、Cloudflare、Vercel 等
  • 多语言支持:英语、简体中文、繁体中文、日语、韩语、西班牙语、德语、法语、葡萄牙语、俄语和阿拉伯语

路线图

  • 重构主题广场并引入提示词列表
  • 使用 Tauri 打包桌面应用
  • 基于 functionCall 插件实现功能
  • 支持对话列表
  • 支持对话导出功能
  • 开启多模态实时 API
  • 支持联网深度研究模式
  • 支持本地知识库

开始使用

  1. 获取 Gemini API 密钥

  2. 一键部署项目,您可以选择部署到 Vercel

    Deploy with Vercel

  3. 开始使用

部署到 Cloudflare

目前该项目支持部署到 Cloudflare,但您需要按照 如何部署到 Cloudflare Pages 的说明进行操作。

更新代码

如果您想即时更新,可以查看 GitHub 文档 了解如何将分叉项目与上游代码同步。

您可以为该项目加星标或关注作者,以便及时获取发布通知。

环境变量

GEMINI_API_KEY(可选)

您的 Gemini API 密钥。如果需要 启用 服务器 API,则此变量为必填项。该变量不会影响前端页面上的 Gemini 密钥值。 支持多个密钥,各密钥之间用逗号分隔,例如 key1,key2,key3

GEMINI_API_BASE_URL(可选)

默认值:https://generativelanguage.googleapis.com

示例:http://your-gemini-proxy.com

覆盖 Gemini API 请求的基础 URL。为避免服务器端代理 URL 泄露,前端页面中的值不会被覆盖或影响。

NEXT_PUBLIC_GEMINI_MODEL_LIST(可选)

自定义模型列表,默认为全部。

NEXT_PUBLIC_UPLOAD_LIMIT(可选)

文件上传大小限制。默认情况下无文件大小限制。

ACCESS_PASSWORD(可选)

访问密码。

HEAD_SCRIPTS(可选)

注入的脚本代码可用于统计或错误追踪。

EXPORT_BASE_PATH(可选)

仅用于在静态部署模式下设置页面基础路径。

访问密码

该项目提供有限的访问控制。请在 Vercel 的环境变量页面添加名为 ACCESS_PASSWORD 的环境变量。

添加或修改此环境变量后,请重新部署项目以使更改生效。

自定义模型列表

该项目支持自定义模型列表。请在 .env 文件或环境变量页面添加名为 NEXT_PUBLIC_GEMINI_MODEL_LIST 的环境变量。

默认模型列表表示为 all,多个模型之间用逗号分隔。 若需添加新模型,可直接写入 all,new-model-name,或使用 + 符号加上模型名称来添加,即 all,+new-model-name。 若要从模型列表中移除某个模型,可在模型名称前加 - 符号,例如 all,-existing-model-name。若要移除默认模型列表,可使用 -all。 若要设置默认模型,可使用 @ 符号加上模型名称来指定,默认模型,即 all,@default-model-name

开发

如果您尚未安装 pnpm:

npm install -g pnpm
# 1. 首先安装 Node.js 和 Yarn
# 2. 配置本地变量,请将 `.env.example` 重命名为 `.env` 或 `.env.local`
# 3. 运行
pnpm install
pnpm dev

要求

NodeJS ≥ 18,Docker ≥ 20

部署

Docker(推荐)

Docker 版本需为 20 或以上,否则会提示无法找到镜像。

⚠️ 注意:通常情况下,Docker 版本会比最新版本落后 1 到 2 天,因此部署后可能会持续出现“存在更新”的提示,这是正常现象。

docker pull xiangfa/talk-with-gemini:latest

docker run -d --name talk-with-gemini -p 5481:3000 xiangfa/talk-with-gemini

您还可以指定其他环境变量:

docker run -d --name talk-with-gemini \
   -p 5481:3000 \
   -e GEMINI_API_KEY=AIzaSy... \
   -e ACCESS_PASSWORD=your-password \
   xiangfa/talk-with-gemini

如需指定其他环境变量,请在上述命令中添加 -e key=value 来设置。

使用 docker-compose.yml 部署:

version: '3.9'
services:
   talk-with-gemini:
      image: xiangfa/talk-with-gemini
      container_name: talk-with-gemini
      environment:
         - GEMINI_API_KEY=AIzaSy...
         - ACCESS_PASSWORD=your-password
      ports:
         - 5481:3000

静态部署

你也可以直接构建一个静态页面版本,然后将 out 目录中的所有文件上传到任何支持静态页面的网站服务上,比如 Github Page、Cloudflare、Vercel 等。

pnpm build:export

如果你将项目部署在子目录中,并且访问时遇到资源加载失败的情况,请在 .env 文件或变量设置页面中添加 EXPORT_BASE_PATH=/path/project

致谢

技术栈

灵感来源

常见问题解答

“API 不支持用户所在地区”的解决方案

  1. 使用 Cloudflare AI Gateway 转发 API。目前,Cloudflare AI Gateway 已经支持 Google Vertex AI 相关的 API。有关如何使用,请参阅 如何使用 Cloudflare AI Gateway。此方案速度快、稳定性高,推荐使用。

  2. 使用 Cloudflare Worker 进行 API 代理转发。详细设置请参考 如何使用 Cloudflare Worker 代理 API。请注意,该方案在某些情况下可能无法正常工作。

为什么使用 Vercel 一键部署后在中国无法访问网站?

几年前,Vercel 部署后生成的域名曾被中国网络屏蔽,但服务器的 IP 地址并未被屏蔽。你可以自定义域名,在中国即可正常访问。由于 Vercel 在中国没有服务器,因此有时会出现网络波动的情况,这属于正常现象。关于如何设置域名,可以参考我在网上找到的解决方案文章 Vercel 绑定自定义域名

为什么无法使用多模态直播功能?

目前,多模态直播 API 仅由 Gemini 2.0 Flash 模型支持,因此你需要使用 Gemini 2.0 Flash 模型才能使用该功能。由于 Gemini 多模态直播 API 在中国无法访问,你可能需要使用 Cloudflare Worker 部署一个代理转发 API。更多信息请参阅 使用 Cloudflare Worker 代理多模态直播 API目前,多模态直播 API 不支持中文语音输出。

参与贡献

欢迎为本项目做出贡献!如果你想参与贡献,请按照以下步骤操作:

  1. 在 GitHub 上 fork 该项目。
  2. 将你的 fork 克隆到本地。
  3. 为你的更改创建一个新的分支。
  4. 进行修改并提交到你的分支。
  5. 将更改推送到你在 GitHub 上的 fork。
  6. 从你的分支向主仓库发起 pull 请求。

请确保你的代码符合项目的编码规范,并在提交 pull 请求前运行所有测试以确保通过。如果你发现任何 bug 或有改进建议,欢迎在 GitHub 上提交 issue。

许可证

本项目采用 MIT 许可证授权。完整的许可证文本请参阅 LICENSE 文件。

星标历史

星标历史图表

版本历史

v1.10.12025/03/18
v1.10.02025/03/17
v1.9.12025/02/21
v1.9.02025/02/21
v1.8.12025/02/15
v1.8.02025/02/10
v1.7.22025/02/06
v1.7.12025/02/06
v1.7.02025/02/04
v1.6.12025/01/31
v1.6.02025/01/26
v1.5.32025/01/21
v1.5.22025/01/20
v1.5.02025/01/20
v1.4.02025/01/13
v1.3.02025/01/03
v1.2.12024/12/31
v1.0.02024/12/09
v0.12.32024/10/15
v0.12.22024/06/26

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

156.8k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|5天前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|5天前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|1周前
插件开发框架