fully-local-pdf-chatbot

1.8k 329 中等 1 次阅读今天MIT语言模型开发框架数据工具

AI 解读由 AI 自动生成，仅供参考

fully-local-pdf-chatbot 是一款专注于隐私保护的开源工具，让你能在完全离线的环境下与 PDF 文档进行智能对话。它解决了传统文档问答应用必须依赖云端服务器、存在数据泄露风险的痛点，确保你的敏感文件始终保留在本地设备中，甚至加载完成后断开网络也能正常使用。

这款工具非常适合注重数据隐私的普通用户、需要在内网环境工作的企业员工，以及对本地大模型技术感兴趣的开发者。其核心亮点在于灵活的运行模式：既可以通过 Ollama 调用本地桌面端的强大模型，也能利用 WebLLM 技术直接在浏览器中运行轻量级模型（如 Phi-3.5），甚至支持体验 Chrome 内置的实验性 Gemini Nano 模型。

在技术架构上，fully-local-pdf-chatbot 基于 Next.js 构建，创新性地集成了 Voy（纯 WASM 向量数据库）和 Transformers.js，实现了从文档解析、分块、向量化存储到检索增强生成（RAG）的全流程客户端化。这意味着所有复杂的 AI 推理和数据处理都在你的浏览器或本地完成，无需上传任何数据至外部服务器，真正做到了“数据不出域”的安全智能交互。

使用场景

某金融合规分析师需要在无外网连接的保密会议室中，快速从数百页的英文监管草案 PDF 里提取关键条款并生成中文摘要。

没有 fully-local-pdf-chatbot 时

数据泄露风险高：必须将敏感文档上传至云端 AI 服务，违反公司“数据不出域”的安全红线。
网络依赖性强：一旦进入屏蔽外部网络的保密室，所有基于云端的文档分析工具立即瘫痪，工作被迫中断。
响应延迟严重：上传大文件及等待云端排队处理耗时漫长，无法在紧急会议中实时回答高管提问。
成本不可控：频繁调用商业 API 处理大量长文档会产生高昂的费用，且难以预估单次任务成本。

使用 fully-local-pdf-chatbot 后

极致数据安全：利用 Ollama 或浏览器内置模型（如 Gemini Nano），所有 PDF 解析、向量化存储及推理过程均在本地完成，断网也能跑，彻底杜绝泄密。
零网络依赖部署：支持通过 WebLLM 直接在浏览器加载模型权重，或在本地运行 Mistral 模型，无需配置复杂服务器，打开网页即可离线工作。
即时交互体验：文档分块与检索增强生成（RAG）全在客户端毫秒级响应，分析师可连续追问细节，像与专家面对面交流般流畅。
零边际成本：完全开源免费，复用本地算力资源，无需为每次查询支付 Token 费用，适合高频次内部使用。

fully-local-pdf-chatbot 通过将完整的 RAG 链路搬至本地，在确保绝对数据隐私的前提下，让离线环境下的深度文档洞察变得像本地记事本一样简单高效。

运行环境要求

操作系统

macOS
Linux
Windows

GPU

非必需
若使用浏览器内运行 (WebLLM/Gemini Nano)，依赖设备支持的 WebGPU
若使用 Ollama 桌面版，取决于所选模型（如 Mistral）的本地硬件要求，README 未指定具体显卡型号或显存大小

内存

未说明（注：浏览器模式首次需下载数 GB 模型权重，建议内存充足以承载 3.8B+ 参数模型推理）

依赖

notes该项目是一个完全在客户端（浏览器或本地 Ollama）运行的 Next.js 应用，无需后端服务器。支持三种运行模式：1. 通过 Ollama 连接本地大模型（需配置环境变量允许跨域）；2. 纯浏览器模式（使用 WebLLM 加载 Phi-3.5 模型，首次启动需下载数 GB 权重，建议保持网络连接）；3. Chrome 内置的实验性 Gemini Nano 模型（需加入早期预览计划）。若使用浏览器内嵌模式，加载后可断开 WiFi 使用。开发时需安装 yarn 依赖，无强制环境变量要求。

python未说明（项目基于 Next.js，主要运行时为 Node.js 和浏览器环境）

Next.js

Voy

Ollama

WebLLM

LangGraph.js

LangChain.js

Transformers.js

Yarn

快速开始

🏠 完全本地化的文档聊天

是的，又是一个基于文档的聊天应用实现……但这一次完全在本地运行！

你可以通过三种不同的方式来运行它：

🦙 通过 Ollama 将端口暴露给你在桌面端运行的本地大模型。
🌐 将模型权重下载到浏览器中，并通过 WebLLM 运行。
♊ 加入 Chrome 实验性内置 Gemini Nano 模型的早期预览计划，直接使用它！

这是一个 Next.js 应用，它会读取上传的 PDF 文件内容，将其分块后存入向量数据库，并在客户端完成 RAG 流程。甚至在网站加载完成后，你也可以关闭 WiFi。

你可以在 https://webml-demo.vercel.app 上查看实时版本。

用户可以选择以下任一选项来进行推理：

🦙 Ollama

你可以使用 Ollama 的桌面应用，在浏览器之外运行更强大、更通用的模型。用户需要下载并设置好环境，然后执行以下命令，以允许该站点访问本地运行的 Mistral 实例：

Mac/Linux

$ OLLAMA_ORIGINS=https://webml-demo.vercel.app OLLAMA_HOST=127.0.0.1:11435 ollama serve

然后，在另一个终端窗口中：

$ OLLAMA_HOST=127.0.0.1:11435 ollama pull mistral

Windows

$ set OLLAMA_ORIGINS=https://webml-demo.vercel.app
set OLLAMA_HOST=127.0.0.1:11435
ollama serve

然后，在另一个终端窗口中：

$ set OLLAMA_HOST=127.0.0.1:11435
ollama pull mistral

🌐 完全在浏览器中运行（WebLLM）

你可以通过 WebLLM 在浏览器中运行整个堆栈。所使用的模型是小型的、具有 38 亿参数的 Phi-3.5。

你无需离开当前页面即可完成设置——只需上传一个 PDF 文件即可开始！

请注意，首次开始聊天时，应用会下载并缓存模型权重。这个下载文件大小可能达到几 GB，因此需要一些时间，请确保你的网络连接良好。

♊ 内置 Gemini Nano

你也可以使用 Chrome 内置的 Gemini Nano 模型的实验性预览版。你需要加入早期预览计划才能使用此模式。按照官方指南中的说明安装 Chrome 后，你就可以开始使用了。

需要注意的是，内置的 Gemini Nano 模型目前仍处于实验阶段，且未针对对话场景进行优化，因此结果可能会有所不同。

⚡ 技术栈

该项目使用了以下技术：

Voy 作为向量数据库，完全在浏览器中以 WASM 运行。
Ollama、WebLLM 或 Chrome 内置 Gemini Nano 来在本地运行大模型，并将其暴露给 Web 应用。
LangGraph.js 和 LangChain.js 用于调用模型、执行检索操作，并协调各个组件的工作。
Transformers.js 用于在浏览器中运行开源的 Nomic 嵌入模型。
- 如果需要更高品质的嵌入，可以在 app/worker.ts 中切换到 "nomic-ai/nomic-embed-text-v1"。

虽然目标是尽可能多地在浏览器中运行应用，但你也可以用 Ollama 嵌入替代 Transformers.js。

🔱 分叉项目

要自行运行或部署该项目，只需分叉本仓库，并使用 yarn 安装所需的依赖项。

该项目没有必需的环境变量，但在本地开发时，你可以选择设置 LangSmith 跟踪，以帮助调试提示词和链路流程。将 .env.example 文件复制为 .env.local 文件：

# 无需任何环境变量！

# 从 Web Worker 启用 LangSmith 跟踪。
# 警告：仅用于开发目的。请勿在上线版本中启用这些变量，
# 因为这会导致你的 LangChain API 密钥泄露。
NEXT_PUBLIC_LANGCHAIN_TRACING_V2="true"
NEXT_PUBLIC_LANGCHAIN_API_KEY=
NEXT_PUBLIC_LANGCHAIN_PROJECT=

请务必不要在生产环境中启用这些设置，否则你的 LangChain API 密钥将会暴露在前端！

📖 更多阅读

如果你想深入了解这个主题，可以阅读我的关于 Ollama 的博客文章或我在 Google Summit 上关于在浏览器中构建 LLM 应用的演讲。

🙏 感谢

特别感谢以下几位：

@dawchihliou，感谢你创造了 Voy。
@jmorgan 和 @mchiang0610，感谢你们创建了 Ollama 并提供了宝贵的反馈。
@charlie_ruan，感谢你为 WebLLM 所做的卓越工作。
@xenovacom，感谢你开发了 Transformers.js。
@jason_mayes 和 @nfcampos，感谢你们的启发以及精彩的交流。

更多内容，请关注我在 Twitter 上的账号 @Hacubu！

fully-local-pdf-chatbot 快速上手指南

fully-local-pdf-chatbot 是一个完全在本地运行的文档问答工具。它基于 Next.js 构建，支持上传 PDF 文件，通过向量化存储和 RAG（检索增强生成）技术，在无需联网（加载完成后）的情况下实现与文档的对话。

环境准备

系统要求

操作系统：macOS, Linux, 或 Windows
浏览器：现代浏览器（推荐 Chrome 以支持内置模型或 WebLLM）
网络：首次运行需联网下载模型权重（数 GB），后续可离线使用

前置依赖

Node.js (推荐 v18+)
Yarn 包管理器
可选后端：若选择 Ollama 模式，需安装 Ollama 桌面应用

注意：本项目主要依赖浏览器端计算（WASM），对本地内存和显卡有一定要求。国内用户若遇到模型下载缓慢，建议配置网络加速工具。

安装步骤

1. 克隆项目与安装依赖

首先 Fork 或克隆仓库，然后安装依赖：

git clone <your-forked-repo-url>
cd fully-local-pdf-chatbot
yarn install

2. 配置环境变量（可选）

项目无需强制配置环境变量即可运行。若需在开发阶段调试 Prompt 和链路，可启用 LangSmith 追踪：

cp .env.example .env.local

编辑 .env.local 填入你的 Key（警告：仅限本地开发，切勿部署到生产环境，否则会导致 API Key 泄露）：

NEXT_PUBLIC_LANGCHAIN_TRACING_V2="true"
NEXT_PUBLIC_LANGCHAIN_API_KEY=your_key_here
NEXT_PUBLIC_LANGCHAIN_PROJECT=your_project_name

3. 启动开发服务器

yarn dev

访问 http://localhost:3000 即可使用。

基本使用

本工具提供三种推理模式，用户可根据需求选择：

模式一：完全浏览器运行 (WebLLM) - 最简单

无需额外配置后端，所有计算在浏览器内完成。

打开网页，直接上传 PDF 文件。
首次使用时，浏览器会自动下载并缓存 Phi-3.5 (3.8B) 模型权重（约几 GB，请保持网络连接）。
下载完成后，即可开始对话。此时断开 WiFi 仍可正常使用。

模式二：连接本地 Ollama - 性能更强

适合需要运行更大、更通用模型的场景。

第一步：启动 Ollama 服务 允许网页访问本地 Ollama 实例。

Mac/Linux:

OLLAMA_ORIGINS=https://webml-demo.vercel.app OLLAMA_HOST=127.0.0.1:11435 ollama serve

(注：若在本地运行，请将 https://webml-demo.vercel.app 替换为你的本地地址 http://localhost:3000)

Windows (CMD):

set OLLAMA_ORIGINS=http://localhost:3000
set OLLAMA_HOST=127.0.0.1:11435
ollama serve

第二步：拉取模型 新开一个终端窗口，下载 Mistral 模型：

Mac/Linux:

OLLAMA_HOST=127.0.0.1:11435 ollama pull mistral

Windows (CMD):

set OLLAMA_HOST=127.0.0.1:11435
ollama pull mistral

第三步：使用 刷新网页，选择 Ollama 模式，上传 PDF 即可调用本地强大的模型进行问答。

模式三：Chrome 内置 Gemini Nano (实验性)

确保你已加入 Chrome 内置 AI 早期预览计划。
按照官方指南安装特定版本的 Chrome。
在网页中选择该模式即可直接使用（注意：该模型未经过专门的聊天微调，效果可能波动）。

技术栈概览

向量数据库: Voy (浏览器端 WASM)
大模型推理: Ollama / WebLLM / Chrome Gemini Nano
编排框架: LangGraph.js & LangChain.js
嵌入模型: Transformers.js (默认运行 Nomic 开源嵌入模型)

常见问题

如何在本地运行该项目？

上传 PDF 文件时出现 'OrtRun(). error code = 6' 或 'out of Bounds' 错误怎么办？

遇到 'Failed to fetch' 错误且确认 Ollama 正在运行，如何解决？

在 Linux 系统上无法拉取模型或连接 Ollama 怎么办？

是否可以使用 Web-LLM 代替 Ollama 服务器？

嵌入 PDF 时一直报错 'Error: failed to call OrtRun(). error code = 6' 如何解决？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|3天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|4天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 147.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.1k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|3天前

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|3天前

语言模型图像Agent