localGPT

22.2k 2.5k 中等 1 次阅读 2天前MIT语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

localGPT 是一款完全私密的本地文档智能平台，让你能在自己的设备上直接与各类文档（如 PDF、Word、TXT 等）进行对话。它彻底解决了用户在使用云端 AI 服务时对数据泄露的担忧，确保所有数据处理均在本地完成，无需联网，实现 100% 隐私安全。

无论是需要快速总结长篇报告、从海量资料中检索关键信息，还是对特定内容进行深度问答，localGPT 都能轻松胜任。它不仅适合注重数据合规的企业用户和研究人员，也面向希望在不依赖外部服务器的情况下探索大模型能力的开发者及普通个人用户。

在技术层面，localGPT 超越了传统的检索增强生成（RAG）方案。它内置混合搜索引擎，巧妙结合了语义相似度、关键词匹配及先进的"Late Chunking"技术，以提升长文本处理的精准度。系统还配备智能路由机制，能自动判断是直接由大模型回答还是调用检索流程，并通过上下文剪枝和独立验证环节进一步保障答案质量。此外，它架构轻量模块化，支持 CPU、GPU 等多种硬件加速，并可灵活接入 Ollama 托管的各类开源模型，部署与维护十分简便。

使用场景

某金融合规专员需要在离线内网环境中，快速从数百份包含敏感客户数据的 PDF 合同与审计报告中提取关键风险条款。

没有 localGPT 时

数据隐私风险极高：将含敏感信息的文档上传至云端 AI 服务违反公司“数据不出域”的合规红线。
检索精度不足：传统关键词搜索无法理解语义，常漏掉表述不同但含义相似的风险描述。
上下文割裂：面对长篇幅合同，人工阅读耗时且容易忽略跨段落的逻辑关联，效率低下。
部署门槛高：现有私有化方案依赖复杂的环境配置和昂贵的专用硬件，难以在普通办公机运行。

使用 localGPT 后

实现 100% 数据本地化：所有文档处理与问答均在本地完成，数据绝不离开设备，完美满足合规要求。
混合搜索提升准确率：利用语义相似度与关键词匹配的混合引擎，精准定位隐蔽的风险条款，不再遗漏。
智能长文处理：通过 Late Chunking 技术与上下文剪枝，自动梳理长篇合同的逻辑脉络，直接生成摘要与洞察。
轻量级灵活部署：基于纯 Python 核心，无需复杂依赖即可在普通 CPU 或现有 GPU 工作站上快速启动。

localGPT 让金融机构能在绝对安全的前提下，将沉睡的本地文档转化为可即时对话的智能知识库。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

非必需
支持 CPU、GPU (CUDA)、Intel Gaudi (HPU) 和 Apple MPS
若使用 GPU，未指定具体型号或显存大小，但建议拥有兼容 CUDA 的 NVIDIA 显卡以获得更好性能

内存

最低 8GB，推荐 16GB+

依赖

notes必须安装并运行 Ollama 服务（需手动拉取 qwen3:0.6b 和 qwen3:8b 模型）。前端需要 Node.js 16+ (测试版本 23.10.0) 和 npm。目前安装流程主要在 macOS 上经过测试，其他系统可能需要额外配置。支持 Docker 部署。

python3.8+ (测试版本 3.11.5)

torch==2.4.1

transformers==4.51.0

lancedb

sentence_transformers

rerankers

docling

rank_bm25

fuzzywuzzy

快速开始

LocalGPT - 私有文档智能平台

🚀 什么是LocalGPT？

LocalGPT是一个完全私密、本地部署的文档智能平台。使用最先进的AI技术，您可以对文件进行提问、总结并挖掘洞察——数据永远不会离开您的设备。

LocalGPT不仅是一款传统的RAG（检索增强生成）工具，还配备了一个混合搜索引擎，结合语义相似度、关键词匹配以及延迟分块技术，以实现长上下文的精准检索。一个智能路由系统会自动为每个查询选择RAG或直接LLM回答的方式，而上下文增强和句子级别的上下文修剪功能则只会呈现最相关的内容。此外，独立的验证环节进一步提升了答案的准确性。

该架构具有模块化和轻量级的特点，您只需启用所需的组件即可。凭借纯Python核心和极少的依赖项，LocalGPT可以在任何基础设施上轻松部署、运行和维护。系统对框架和库的依赖性极低，因此易于部署和维护。RAG系统完全由纯Python编写，无需任何额外的依赖。

▶️ 视频

观看此视频，开始使用LocalGPT吧。

首页	创建索引	聊天

✨ 功能

极致隐私：您的数据始终保留在本地计算机上，确保100%的安全性。
多模型支持：通过Ollama无缝集成多种开源模型。
多样化的嵌入模型：可选择多种开源嵌入模型。
重复利用LLM：下载一次LLM后，无需再次下载即可重复使用。
聊天历史：在会话中记住您之前的对话。
API：LocalGPT提供API，可用于构建RAG应用。
GPU、CPU、HPU及MPS支持：开箱即用，支持多种平台。您可以通过CUDA、CPU、HPU (Intel® Gaudi®)或MPS等硬件与您的数据进行交互！

📖 文档处理

多格式支持：PDF、DOCX、TXT、Markdown等多种格式（目前仅支持PDF）。
上下文增强：借助AI生成的上下文信息，提升文档理解能力，灵感来源于上下文检索。
批量处理：可同时处理多个文档。

🤖 AI驱动的聊天

自然语言查询：可以用日常英语提问。
来源标注：每个答案都会附上文档引用。
智能路由：自动在RAG和直接LLM回答之间切换。
查询分解：将复杂查询拆解为子问题，以获得更佳答案。
语义缓存：基于TTL的缓存机制，结合相似度匹配，加快响应速度。
会话感知历史：在多次交互中保持对话上下文的一致性。
答案验证：独立的验证环节确保答案的准确性。
多种AI模型：使用Ollama进行推理，HuggingFace用于嵌入和重排序。

🛠️ 开发友好

RESTful API：提供完整的API访问权限，便于集成。
实时进度：文档处理过程中提供实时更新。
灵活配置：可自定义模型、分块大小和搜索参数。
可扩展架构：支持插件系统，方便添加自定义组件。

🎨 现代化界面

直观的Web界面：设计简洁、响应迅速。
会话管理：按主题组织对话。
索引管理：轻松管理文档集合。
实时聊天：流式响应，即时反馈。

🚀 快速入门

注意：目前安装仅在macOS上测试过。

前置条件

Python 3.8及以上版本（已测试Python 3.11.5）
Node.js 16及以上版本及npm（已测试Node.js 23.10.0，npm 10.9.2）
Docker（可选，用于容器化部署）
8GB以上内存（建议16GB以上）
Ollama（两种部署方式均需）

注意

在本分支合并到主分支之前，请克隆此分支进行安装：

git clone -b localgpt-v2 https://github.com/PromtEngineer/localGPT.git
cd localGPT

方法一：Docker部署

# 克隆仓库
git clone https://github.com/PromtEngineer/localGPT.git
cd localGPT

# 在本地安装Ollama（即使使用Docker也需安装）
curl -fsSL https://ollama.ai/install.sh | sh
ollama pull qwen3:0.6b
ollama pull qwen3:8b

# 启动Ollama
ollama serve

# 在新终端中启动Docker
./start-docker.sh

# 访问应用
open http://localhost:3000

Docker管理命令：

# 查看容器状态
docker compose ps

# 查看日志
docker compose logs -f

# 停止容器
./start-docker.sh stop

方法二：直接开发（推荐用于开发环境）

# 克隆仓库
git clone https://github.com/PromtEngineer/localGPT.git
cd localGPT

# 安装Python依赖
pip install -r requirements.txt

# 已安装的关键依赖：
# - torch==2.4.1, transformers==4.51.0（AI模型）
# - lancedb（向量数据库）
# - rank_bm25, fuzzywuzzy（搜索算法）

# - sentence_transformers、重排序器（嵌入/重排序）
# - docling（文档处理）
# - colpali-engine（多模态处理——支持即将推出）

# 安装 Node.js 依赖
npm install

# 安装并启动 Ollama
curl -fsSL https://ollama.ai/install.sh | sh
ollama pull qwen3:0.6b
ollama pull qwen3:8b
ollama serve

# 启动系统（在新的终端中）
python run_system.py

# 访问应用
open http://localhost:3000

系统管理：

# 检查系统健康状况（全面诊断）
python system_health_check.py

# 检查服务状态和健康状况
python run_system.py --health

# 以生产模式启动
python run_system.py --mode prod

# 跳过前端（仅后台 + RAG API）
python run_system.py --no-frontend

# 查看聚合日志
python run_system.py --logs-only

# 停止所有服务
python run_system.py --stop
# 或者在运行 python run_system.py 的终端中按 Ctrl+C

服务架构： run_system.py 启动脚本管理四个关键服务：

Ollama 服务器（端口 11434）：AI 模型服务
RAG API 服务器（端口 8001）：文档处理与检索
后端服务器（端口 8000）：会话管理及 API 端点
前端服务器（端口 3000）：React/Next.js Web 界面

选项 3：手动启动各组件

# 终端 1：启动 Ollama
ollama serve

# 终端 2：启动 RAG API
python -m rag_system.api_server

# 终端 3：启动后端
cd backend && python server.py

# 终端 4：启动前端
npm run dev

# 访问地址 http://localhost:3000

详细安装步骤

1. 安装系统依赖

Ubuntu/Debian：

sudo apt update
sudo apt install python3.8 python3-pip nodejs npm docker.io docker-compose

macOS：

brew install python@3.8 node npm docker docker-compose

Windows：

# 安装 Python 3.8+、Node.js 和 Docker Desktop
# 然后使用 PowerShell 或 WSL2

2. 安装 AI 模型

推荐安装 Ollama：

# 安装 Ollama
curl -fsSL https://ollama.ai/install.sh | sh

# 拉取推荐模型
ollama pull qwen3:0.6b          # 快速生成模型
ollama pull qwen3:8b            # 高质量生成模型

3. 配置环境变量

# 复制环境模板
cp .env.example .env

# 编辑配置
nano .env

关键配置选项：

# AI 模型（在 rag_system/main.py 中引用）
OLLAMA_HOST=http://localhost:11434

# 数据库路径（后端和 RAG 系统使用）
DATABASE_PATH=./backend/chat_data.db
VECTOR_DB_PATH=./lancedb

# 服务器设置（run_system.py 使用）
BACKEND_PORT=8000
FRONTEND_PORT=3000
RAG_API_PORT=8001

# 可选：覆盖默认模型
GENERATION_MODEL=qwen3:8b
ENRICHMENT_MODEL=qwen3:0.6b
EMBEDDING_MODEL=Qwen/Qwen3-Embedding-0.6B
RERANKER_MODEL=answerdotai/answerai-colbert-small-v1

4. 初始化系统

# 运行系统健康检查
python system_health_check.py

# 初始化数据库
python -c "from backend.database import ChatDatabase; ChatDatabase().init_database()"

# 测试安装
python -c "from rag_system.main import get_agent; print('✅ 安装成功！')"

# 验证完整设置
python run_system.py --health

🎯 开始使用

1. 创建第一个索引

索引是一组已处理的文档，您可以与之进行对话。

使用 Web 界面：

打开 http://localhost:3000
点击“创建新索引”
上传您的文档（PDF、DOCX、TXT）
配置处理选项
点击“构建索引”

使用脚本：

# 简单脚本方式
./simple_create_index.sh "我的文档" "path/to/document.pdf"

# 交互式脚本
python create_index_script.py

使用 API：

# 创建索引
curl -X POST http://localhost:8000/indexes \
  -H "Content-Type: application/json" \
  -d '{"name": "我的索引", "description": "我的文档"}'

# 上传文档
curl -X POST http://localhost:8000/indexes/INDEX_ID/upload \
  -F "files=@document.pdf"

# 构建索引
curl -X POST http://localhost:8000/indexes/INDEX_ID/build

2. 开始聊天

当您的索引构建完成后：

创建聊天会话：点击“新建聊天”或使用现有会话
选择索引：选择要查询的文档集合
提问：输入关于您文档的自然语言问题
获取答案：接收带有来源引用的 AI 生成回复

3. 高级功能

自定义模型配置

# 为不同任务使用不同模型
curl -X POST http://localhost:8000/sessions \
  -H "Content-Type: application/json" \
  -d '{
    "title": "高质量会话",
    "model": "qwen3:8b",
    "embedding_model": "Qwen/Qwen3-Embedding-4B"
  }'

批量文档处理

# 一次性处理多个文档
python demo_batch_indexing.py --config batch_indexing_config.json

API 集成

import requests

# 通过 API 与您的文档对话
response = requests.post('http://localhost:8000/chat', json={
    'query': '研究论文中的主要发现是什么？',
    'session_id': 'your-session-id',
    'search_type': 'hybrid',
    'retrieval_k': 20
})

print(response.json()['response'])

🔧 配置

模型配置

LocalGPT 支持多个 AI 模型提供商，并采用集中式配置：

Ollama 模型（本地推理）

OLLAMA_CONFIG = {
    "host": "http://localhost:11434",
    "generation_model": "qwen3:8b",        # 主文本生成
    "enrichment_model": "qwen3:0.6b"       # 轻量级路由/增强
}

外部模型（HuggingFace 直接调用）

EXTERNAL_MODELS = {
    "embedding_model": "Qwen/Qwen3-Embedding-0.6B",           # 1024 维度
    "reranker_model": "answerdotai/answerai-colbert-small-v1", # ColBERT 重排序器
    "fallback_reranker": "BAAI/bge-reranker-base"             # 备用重排序器
}

管道配置

LocalGPT 提供两种主要的管道配置：

默认管道（生产就绪）

"default": {
    "description": "具有混合搜索、AI 重排和验证功能的生产就绪管道",
    "storage": {
        "lancedb_uri": "./lancedb",
        "text_table_name": "text_pages_v3",
        "bm25_path": "./index_store/bm25"
    },
    "retrieval": {
        "retriever": "multivector",
        "search_type": "hybrid",
        "late_chunking": {"enabled": True},
        "dense": {"enabled": True, "weight": 0.7},
        "bm25": {"enabled": True}
    },
    "reranker": {
        "enabled": True,
        "type": "ai",
        "strategy": "rerankers-lib",
        "model_name": "answerdotai/answerai-colbert-small-v1",
        "top_k": 10
    },
    "query_decomposition": {"enabled": True, "max_sub_queries": 3},
    "verification": {"enabled": True},
    "retrieval_k": 20,
    "contextual_enricher": {"enabled": True, "window_size": 1}
}

快速管道（速度优化）

"fast": {
    "description": "具有最小开销的速度优化管道",
    "retrieval": {
        "search_type": "vector_only",
        "late_chunking": {"enabled": False}
    },
    "reranker": {"enabled": False},
    "query_decomposition": {"enabled": False},
    "verification": {"enabled": False},
    "retrieval_k": 10,
    "contextual_enricher": {"enabled": False}
}

搜索配置

SEARCH_CONFIG = {
    'hybrid': {
        'dense_weight': 0.7,
        'sparse_weight': 0.3,
        'retrieval_k': 20,
        'reranker_top_k': 10
    }
}

🛠️ 故障排除

常见问题

安装问题

# 检查 Python 版本
python --version  # 应为 3.8+

# 检查依赖项
pip list | grep -E "(torch|transformers|lancedb)"

# 重新安装依赖项
pip install -r requirements.txt --force-reinstall

模型加载问题

# 检查 Ollama 状态
ollama list
curl http://localhost:11434/api/tags

# 拉取缺失的模型
ollama pull qwen3:0.6b

数据库问题

# 检查数据库连接
python -c "from backend.database import ChatDatabase; db = ChatDatabase(); print('✅ 数据库正常')"

# 重置数据库（警告：这将删除所有数据）
rm backend/chat_data.db
python -c "from backend.database import ChatDatabase; ChatDatabase().init_database()"

性能问题

# 检查系统资源
python system_health_check.py

# 监控内存使用情况
htop  # 或 Windows 上的任务管理器

# 针对低内存系统进行优化
export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:512

获取帮助

查看日志：系统会在 logs/ 目录下创建结构化日志：
- logs/system.log：主要系统事件和错误
- logs/ollama.log：Ollama 服务器日志
- logs/rag-api.log：RAG API 处理日志
- logs/backend.log：后端服务器日志
- logs/frontend.log：前端构建和运行时日志

系统健康检查：运行全面诊断：

python system_health_check.py  # 全面系统诊断
python run_system.py --health  # 服务状态检查

健康端点：检查各个服务的健康状况：
- 后端：http://localhost:8000/health
- RAG API：http://localhost:8001/health
- Ollama：http://localhost:11434/api/tags
文档：查阅技术文档
GitHub 问题：报告 bug 并请求功能
社区：加入我们的 Discord/Slack 社区

🔗 API 参考

核心端点

聊天 API

# 基于会话的聊天（推荐）
POST /sessions/{session_id}/chat
Content-Type: application/json

{
  "query": "讨论的主要议题有哪些？",
  "search_type": "hybrid",
  "retrieval_k": 20,
  "ai_rerank": true,
  "context_window_size": 5
}

# 旧版聊天端点
POST /chat
Content-Type: application/json

{
  "query": "讨论的主要议题有哪些？",
  "session_id": "uuid",
  "search_type": "hybrid",
  "retrieval_k": 20
}

索引管理

# 创建索引
POST /indexes
Content-Type: application/json
{
  "name": "我的索引",
  "description": "描述",
  "config": "default"
}

# 获取所有索引
GET /indexes

# 获取特定索引
GET /indexes/{id}

# 将文档上传到索引
POST /indexes/{id}/upload
Content-Type: multipart/form-data
files: [file1.pdf, file2.pdf, ...]

# 构建索引（处理上传的文档）
POST /indexes/{id}/build
Content-Type: application/json
{
  "config_mode": "default",
  "enable_enrich": true,
  "chunk_size": 512
}

# 删除索引
DELETE /indexes/{id}

会话管理

# 创建会话
POST /sessions
Content-Type: application/json
{
  "title": "我的会话",
  "model": "qwen3:0.6b"
}

# 获取所有会话
GET /sessions

# 获取特定会话
GET /sessions/{session_id}

# 获取会话文档
GET /sessions/{session_id}/documents

# 获取会话索引
GET /sessions/{session_id}/indexes

# 将索引关联到会话
POST /sessions/{session_id}/indexes/{index_id}

# 删除会话
DELETE /sessions/{session_id}

# 重命名会话
POST /sessions/{session_id}/rename
Content-Type: application/json
{
  "new_title": "更新后的会话名称"
}

高级功能

查询分解

系统可以将复杂查询拆分为子问题，以获得更好的答案：

POST /sessions/{session_id}/chat
Content-Type: application/json

{
  "query": "比较这些方法论并分析其有效性",
  "query_decompose": true,
  "compose_sub_answers": true
}

答案验证

使用独立的验证模型进行准确性验证：

POST /sessions/{session_id}/chat
Content-Type: application/json

{
  "query": "关键发现是什么？",
  "verify": true
}

上下文增强

在索引构建过程中对文档上下文进行增强，以提高理解能力：

# 在索引构建时启用
POST /indexes/{id}/build
{
  "enable_enrich": true,
  "window_size": 2
}

晚期分块

通过在嵌入后再进行分块来更好地保留上下文：

# 在管道中配置
"late_chunking": {"enabled": true}

流式聊天

POST /chat/stream
Content-Type: application/json

{
  "query": "请解释该方法论",
  "session_id": "uuid",
  "stream": true
}

批量处理

# 使用批量索引脚本
python demo_batch_indexing.py --config batch_indexing_config.json

# 示例批量配置（batch_indexing_config.json）：
{
  "index_name": "示例批量索引",
  "index_description": "示例批量索引配置",
  "documents": [
    "./rag_system/documents/invoice_1039.pdf",
    "./rag_system/documents/invoice_1041.pdf"
  ],
  "processing": {
    "chunk_size": 512,
    "chunk_overlap": 64,
    "enable_enrich": true,
    "enable_latechunk": true,
    "enable_docling": true,
    "embedding_model": "Qwen/Qwen3-Embedding-0.6B",
    "generation_model": "qwen3:0.6b",
    "retrieval_mode": "hybrid",
    "window_size": 2
  }
}

# 批量处理的API端点
POST /batch/index
Content-Type: application/json

{
  "file_paths": ["doc1.pdf", "doc2.pdf"],
  "config": {
    "chunk_size": 512,
    "enable_enrich": true,
    "enable_latechunk": true,
    "enable_docling": true
  }
}

有关完整的API文档，请参阅API_REFERENCE.md。

🏗️ 架构

LocalGPT采用模块化、可扩展的架构：

graph TB
    UI[Web界面] --> API[后端API]
    API --> Agent[RAG代理]
    Agent --> Retrieval[检索管道]
    Agent --> Generation[生成管道]

    Retrieval --> Vector[向量搜索]
    Retrieval --> BM25[BM25搜索]
    Retrieval --> Rerank[重排序]

    Vector --> LanceDB[(LanceDB)]
    BM25 --> BM25DB[(BM25索引)]

    Generation --> Ollama[Ollama模型]
    Generation --> HF[Hugging Face模型]

    API --> SQLite[(SQLite数据库)]

检索代理概述

graph TD
    classDef llmcall fill:#e6f3ff,stroke:#007bff;
    classDef pipeline fill:#e6ffe6,stroke:#28a745;
    classDef cache fill:#fff3e0,stroke:#fd7e14;
    classDef logic fill:#f8f9fa,stroke:#6c757d;
    classDef thread stroke-dasharray: 5 5;

    A(开始：Agent.run) --> B_asyncio.run(_run_async);
    B --> C{_run_async};

    C --> C1[获取聊天历史];
    C1 --> T1[构建分类提示 <br/> 查询 + 文档概览 ];
    T1 --> T2["(asyncio.to_thread)<br/>LLM分类：RAG还是LLM_DIRECT？"]; class T2 llmcall,thread;
    T2 --> T3{决策?};

    T3 -- RAG --> RAG_Path;
    T3 -- LLM_DIRECT --> LLM_Path;

    subgraph RAG Path
        RAG_Path --> R1[格式化查询 + 历史];
        R1 --> R2["(asyncio.to_thread)<br/>生成查询嵌入"]; class R2 pipeline,thread;
        R2 --> R3{{检查语义缓存}}; class R3 cache；
        R3 -- 命中 --> R_Cache_Hit(返回缓存结果);
        R_Cache_Hit --> R_Hist_Update;
        R3 -- 未命中 --> R4{是否启用分解 <br/> 启用？};

        R4 -- 是 --> R5["(asyncio.to_thread)<br/>分解原始查询"]; class R5 llmcall,thread;
        R5 --> R6{{运行子查询 <br/> 并行RAG管道}}；class R6 pipeline,thread；
        R6 --> R7[收集结果和文档];
        R7 --> R8["(asyncio.to_thread)<br/>组合最终答案"]; class R8 llmcall,thread；
        R8 --> V1(RAG答案);

        R4 -- 否 --> R9["(asyncio.to_thread)<br/>运行单个查询 <br/>(RAG管道)"]; class R9 pipeline,thread；
        R9 --> V1;

        V1 --> V2{{验证 <br/> await verify_async}}；class V2 llmcall；
        V2 --> V3(最终RAG结果);
        V3 --> R_Cache_Store{{存储到语义缓存}}；class R_Cache_Store cache；
        R_Cache_Store --> FinalResult；
    end

    subgraph Direct LLM Path
        LLM_Path --> L1[格式化查询 + 历史];
        L1 --> L2["(asyncio.to_thread)<br/>生成直接LLM答案 <br/> (无RAG)"]; class L2 llmcall,thread；
        L2 --> FinalResult(最终直接结果)；
    end

    FinalResult --> R_Hist_Update(更新聊天历史);
    R_Hist_Update --> ZZZ(结束：返回结果);

🤝 贡献

我们欢迎所有技能水平的开发者贡献！LocalGPT是一个开源项目，受益于社区参与。

🚀 贡献者快速入门

# 分支并克隆仓库
git clone https://github.com/PromtEngineer/localGPT.git
cd localGPT

# 设置开发环境
pip install -r requirements.txt
npm install

# 安装Ollama及模型
curl -fsSL https://ollama.ai/install.sh | sh
ollama pull qwen3:0.6b qwen3:8b

# 验证设置
python system_health_check.py
python run_system.py --mode dev

📋 如何贡献

🐛 报告Bug：使用我们的Bug报告模板
💡 请求功能：使用我们的功能请求模板
🔧 提交代码：遵循我们的开发工作流程
📚 改进文档：帮助完善我们的文档

📖 详细指南

关于全面的贡献指南，包括：

开发设置与工作流程
编码标准与最佳实践
测试要求
文档标准
发布流程

👉 请参阅我们的CONTRIBUTING.md指南

📄 许可证

本项目采用MIT许可证——详情请参阅LICENSE文件。对于模型，请查看其各自的许可证。

📞 支持

文档：技术文档
问题：GitHub问题
讨论：GitHub讨论
商业部署与定制：联系我们

星标历史

LocalGPT 快速上手指南

LocalGPT 是一个完全私有、本地运行的文档智能平台。它支持在离线环境下对 PDF、DOCX、TXT 等文档进行问答、摘要和洞察分析，确保数据永不离开您的设备。

1. 环境准备

系统要求

操作系统: macOS (当前主要测试环境), Linux, Windows (需 WSL2)
内存: 最低 8GB，推荐 16GB+
Python: 3.8+ (推荐 3.11.5)
Node.js: 16+ (推荐 23.10.0)
Ollama: 必须安装 (用于运行大模型)
Docker: 可选 (用于容器化部署)

前置依赖安装

macOS (使用 Homebrew):

brew install python@3.11 node npm docker docker-compose

Ubuntu/Debian:

sudo apt update
sudo apt install python3.11 python3-pip nodejs npm docker.io docker-compose

Windows: 请安装 Python 3.8+、Node.js 和 Docker Desktop，建议使用 PowerShell 或 WSL2 进行操作。

安装 Ollama 并拉取模型

无论采用哪种部署方式，都必须先安装 Ollama 并下载模型：

# 安装 Ollama
curl -fsSL https://ollama.ai/install.sh | sh

# 拉取推荐模型 (轻量版与高质量版)
ollama pull qwen3:0.6b
ollama pull qwen3:8b

# 启动 Ollama 服务
ollama serve

提示: 国内用户若下载缓慢，可配置 OLLAMA_HOST 或使用国内镜像源加速模型下载。

2. 安装步骤

⚠️ 注意: 目前请使用 localgpt-v2 分支进行安装。

git clone -b localgpt-v2 https://github.com/PromtEngineer/localGPT.git
cd localGPT

您可以选择以下两种方式之一进行部署：

方式一：Docker 部署 (推荐生产环境)

# 启动 Docker 容器
./start-docker.sh

# 访问应用
open http://localhost:3000

常用管理命令:

docker compose ps          # 查看容器状态
docker compose logs -f     # 查看实时日志
./start-docker.sh stop     # 停止服务

方式二：直接开发部署 (推荐开发者)

# 1. 安装 Python 依赖
pip install -r requirements.txt

# 2. 安装前端依赖
npm install

# 3. 确保 Ollama 已在另一终端运行 (ollama serve)

# 4. 启动系统
python run_system.py

# 5. 访问应用
open http://localhost:3000

高级启动选项:

python run_system.py --health       # 检查系统健康状态
python run_system.py --mode prod    # 生产模式启动
python run_system.py --no-frontend  # 仅启动后端和 RAG API
python run_system.py --stop         # 停止所有服务

3. 基本使用

第一步：创建索引 (Index)

索引是您上传并处理后的文档集合，是与 AI 对话的基础。

通过 Web 界面操作:

浏览器访问 http://localhost:3000
点击 "Create New Index"
上传文档 (支持 PDF, DOCX, TXT 等)
配置处理选项后点击 "Build Index"

通过命令行脚本:

# 简单模式
./simple_create_index.sh "My Documents" "path/to/document.pdf"

# 交互模式
python create_index_script.py

通过 API:

# 创建索引
curl -X POST http://localhost:8000/indexes \
  -H "Content-Type: application/json" \
  -d '{"name": "My Index", "description": "My documents"}'

# 上传文件 (替换 INDEX_ID 为实际返回的 ID)
curl -X POST http://localhost:8000/indexes/INDEX_ID/upload \
  -F "files=@document.pdf"

# 构建索引
curl -X POST http://localhost:8000/indexes/INDEX_ID/build

第二步：开始对话

索引构建完成后：

点击 "New Chat" 创建新会话。
在会话设置中选择刚才创建的 Index。
在对话框输入自然语言问题（例如：“这份文档的主要结论是什么？”）。
系统将自动检索相关片段并生成带来源引用的回答。

第三步：进阶配置 (可选)

您可以在创建会话时指定不同的模型组合：

curl -X POST http://localhost:8000/sessions \
  -H "Content-Type: application/json" \
  -d '{
    "title": "High Quality Session",
    "model": "qwen3:8b",
    "embedding_model": "Qwen/Qwen3-Embedding-4B"
  }'

LocalGPT 架构模块化，支持 GPU (CUDA)、CPU、Intel Gaudi (HPU) 及 Apple Silicon (MPS) 等多种硬件加速方案，可根据实际需求灵活调整 .env 配置文件。

常见问题

模型推理速度非常慢，如何解决？

运行时报错 'Chroma collection contains fewer than X elements' 且只能识别到少量数据怎么办？

遇到 'AssertionError: Torch not compiled with CUDA enabled' 错误，但已安装 CUDA 版本的 PyTorch 怎么办？

如何为 localGPT 添加类似 text-generation-webui 的 Gradio Web 界面？

运行时出现 'pydantic.error_wrappers.ValidationError: none is not an allowed value' 错误是什么原因？

如何在 Windows 上确保 ingest.py 能正确使用 GPU 进行数据摄入？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架