Dot

1.9k 111 简单 1 次阅读 2天前GPL-3.0音频开发框架语言模型

AI 解读由 AI 自动生成，仅供参考

Dot 是一款完全在本地运行的开源应用，旨在让用户无需联网即可轻松与各类文档进行智能对话。它集成了文本转语音（TTS）、检索增强生成（RAG）以及大型语言模型（LLM）功能，默认搭载高效的 Phi-3.5 模型，确保数据隐私安全的同时，提供流畅的交互体验。

Dot 主要解决了用户在使用 AI 处理敏感文档时对云端数据泄露的担忧，同时降低了技术门槛。用户可以直接加载 PDF、Word、PPT、Excel 等多种格式文件，针对内容提问或让"Big Dot"协助处理通用任务，所有计算均在设备本地完成，无需配置复杂的编程环境。

这款工具特别适合注重数据隐私的普通用户、需要快速分析内部资料的非技术人员，以及希望体验本地大模型应用的开发者。其独特之处在于基于 Electron JS 构建，底层融合了 FAISS 向量数据库、LangChain 和 llama.cpp 等先进技术，将复杂的 RAG 流程封装为简洁直观的图形界面。无论是学生整理文献，还是职场人士分析报表，Dot 都能提供一个简单、安全且高效的本地智能助手方案。

使用场景

一位金融分析师需要在完全离线的环境下，快速从数百页的本地 PDF 财报和 Excel 数据表中提取关键指标并生成摘要报告。

没有 Dot 时

数据泄露风险高：处理敏感财务数据时，不得不使用云端大模型，存在核心商业机密外泄的隐患。
操作门槛极高：若要实现本地化分析，需手动配置 Python 环境、安装 LangChain 及向量数据库，非技术人员难以上手。
多格式处理割裂：面对 PDF、DOCX 和 XLSX 等多种格式文件，需要分别打开不同软件查找信息，无法进行跨文档关联问答。
响应速度受限：在网络不稳定或无网环境下，完全无法开展基于 AI 的文档分析工作。

使用 Dot 后

极致安全隐私：Dot 将所有文本转语音（TTS）、检索增强生成（RAG）及大模型推理全部限制在本地运行，确保数据不出本机。
开箱即用体验：无需编写任何代码或配置复杂环境，直接安装即可加载 Phi-3.5 等模型，像使用普通聊天软件一样简单。
全域文档交互：一键导入混合格式的文件夹，Dot 自动建立本地向量索引，支持针对多份财报进行交叉提问和数据汇总。
离线高效作业：无论网络状态如何，均能流畅地进行文档对话与内容生成，大幅提升闭关分析时的效率。

Dot 让非技术背景的职场人士也能在绝对安全的前提下，轻松将本地沉睡的文档库转化为可即时对话的智能知识库。

运行环境要求

操作系统

macOS (Apple Silicon)
Windows

GPU

未说明 (基于 llama.cpp，通常支持 CPU 推理，也可利用 GPU 加速，具体型号和显存要求未在文档中明确)

内存

未说明

依赖

notes该工具默认使用 Phi-3.5 大语言模型。普通用户建议直接访问官网下载 macOS (Apple Silicon) 或 Windows 的预编译安装包。开发者需先安装 Node.js，克隆仓库后在项目根目录及 'aadotllm' 子目录下分别运行 'npm install' 进行安装。目前官方尚未提供 Linux 版本支持（列为未来计划）。

python未说明 (主要运行环境为 Node.js)

Electron JS

FAISS

Langchain

llama.cpp

Huggingface

Node.js

快速开始

Dot 应用横幅

GitHub 发布版本（按日期最新） GitHub 提交次数

访问 Dot 官网

🚀 关于 Dot

Dot 是一款独立的开源应用，旨在通过本地大语言模型和检索增强生成（RAG）技术，实现与文档和文件的无缝交互。它受到 Nvidia 的 Chat with RTX 等解决方案的启发，为没有编程背景的用户提供友好的界面。Dot 默认使用 Phi-3.5 大语言模型，开箱即用，确保易用性和简洁性。

https://github.com/alexpinel/Dot/assets/93524949/28b26128-7bdc-4bf7-99f3-d09bd8431875

📜 它能做什么？

Dot 允许用户将多个文档加载到大语言模型中，并在完全本地化的环境中与之交互。支持的文档类型包括 PDF、DOCX、PPTX、XLSX 等！此外，用户还可以通过 Big Dot 进行与文档无关的咨询，类似于与 ChatGPT 互动。

🔧 它是如何工作的？

该应用基于 Electron JS 构建，使用了 FAISS 等库来创建本地向量存储，Langchain、llama.cpp 和 Huggingface 来搭建对话链，以及其他工具用于文档管理和交互。

📥 安装

对于普通用户：

请访问 Dot 官网下载适用于 Apple Silicon 或 Windows 的应用程序。

对于开发者：

克隆仓库 $ https://github.com/alexpinel/Dot.git
安装 Node.js 后，在项目目录内运行 npm install。如果在此步骤遇到问题，可以尝试运行 npm install --force。完成后，进入 cd aadotllm 再次运行 npm install！

🌟 我希望添加的未来功能

Linux 支持
多种大语言模型选择 - 已完成！
图像文件支持
在内容之外进一步提升对文档的理解能力
简化文件加载方式（可选择单个文件，而不仅仅是整个文件夹）
加强使用本地大语言模型时的安全措施
支持更多文档类型 - 已完成！
高效的文件数据库管理，以便更快地访问文件组

🤝 想要帮忙吗？

非常欢迎各位贡献！作为一位在课余时间维护该项目的学生，任何帮助都将不胜感激。无论是代码编写、文档撰写，还是功能建议，都欢迎积极参与！

星标历史

返回顶部

Dot 快速上手指南

Dot 是一款独立的开源应用程序，旨在利用本地大语言模型（LLM）和检索增强生成（RAG）技术，让用户能够无缝地与文档和文件进行交互。它无需编程背景即可使用，默认搭载 Phi-3.5 模型，支持 PDF、DOCX、PPTX、XLSX 等多种格式。

环境准备

系统要求

操作系统：Windows 或 macOS (Apple Silicon)
- 注：Linux 版本正在开发中，暂不支持。
硬件建议：运行本地 LLM 需要一定的 GPU 或 CPU 性能（具体取决于模型大小）。

前置依赖（仅针对开发者）

如果你打算从源码构建或贡献代码，需要安装以下工具：

Node.js：确保已安装最新 LTS 版本。
Git：用于克隆仓库。

安装步骤

方式一：普通用户（推荐）

直接下载预编译的应用程序，无需配置环境：

访问 Dot 官方网站。
根据你的系统选择 Apple Silicon 或 Windows 版本下载。
安装并运行即可。

方式二：开发者（源码构建）

如果你需要自定义开发或调试，请按照以下步骤操作：

克隆项目仓库：

git clone https://github.com/alexpinel/Dot.git

进入项目根目录并安装主依赖：
```
cd Dot
npm install
```
如果遇到依赖冲突问题，可尝试强制安装：
```
npm install --force
```
进入子模块 aadotllm 并安装其依赖：
```
cd aadotllm
npm install
```

基本使用

启动应用：运行安装好的 Dot 应用程序。
加载文档：
- 将包含知识的文件夹拖入应用，或通过界面选择文件夹。
- 支持格式包括：PDF, DOCX, PPTX, XLSX 等。
- 系统会自动使用 FAISS 创建本地向量存储。
开始对话：
- 文档问答：在聊天框中输入与文档内容相关的问题，Dot 将基于本地 RAG 技术提供答案。
- 通用对话 (Big Dot)：提出与文档无关的通用问题，系统将切换至通用聊天模式（类似 ChatGPT）。
切换模型：在设置中可选择不同的本地 LLM（如果已下载其他模型）。

提示：所有数据处理均在本地完成，无需联网上传文件，确保数据隐私安全。

版本历史

v0.9.32024/12/09

v0.9.22024/05/20

v0.9.12024/04/14

v0.9-beta2024/04/06

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|4天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|5天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 148.6k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.1k|★★☆☆☆|2天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|今天

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|3天前

插件开发框架