Dot
Dot 是一款完全在本地运行的开源应用,旨在让用户无需联网即可轻松与各类文档进行智能对话。它集成了文本转语音(TTS)、检索增强生成(RAG)以及大型语言模型(LLM)功能,默认搭载高效的 Phi-3.5 模型,确保数据隐私安全的同时,提供流畅的交互体验。
Dot 主要解决了用户在使用 AI 处理敏感文档时对云端数据泄露的担忧,同时降低了技术门槛。用户可以直接加载 PDF、Word、PPT、Excel 等多种格式文件,针对内容提问或让"Big Dot"协助处理通用任务,所有计算均在设备本地完成,无需配置复杂的编程环境。
这款工具特别适合注重数据隐私的普通用户、需要快速分析内部资料的非技术人员,以及希望体验本地大模型应用的开发者。其独特之处在于基于 Electron JS 构建,底层融合了 FAISS 向量数据库、LangChain 和 llama.cpp 等先进技术,将复杂的 RAG 流程封装为简洁直观的图形界面。无论是学生整理文献,还是职场人士分析报表,Dot 都能提供一个简单、安全且高效的本地智能助手方案。
使用场景
一位金融分析师需要在完全离线的环境下,快速从数百页的本地 PDF 财报和 Excel 数据表中提取关键指标并生成摘要报告。
没有 Dot 时
- 数据泄露风险高:处理敏感财务数据时,不得不使用云端大模型,存在核心商业机密外泄的隐患。
- 操作门槛极高:若要实现本地化分析,需手动配置 Python 环境、安装 LangChain 及向量数据库,非技术人员难以上手。
- 多格式处理割裂:面对 PDF、DOCX 和 XLSX 等多种格式文件,需要分别打开不同软件查找信息,无法进行跨文档关联问答。
- 响应速度受限:在网络不稳定或无网环境下,完全无法开展基于 AI 的文档分析工作。
使用 Dot 后
- 极致安全隐私:Dot 将所有文本转语音(TTS)、检索增强生成(RAG)及大模型推理全部限制在本地运行,确保数据不出本机。
- 开箱即用体验:无需编写任何代码或配置复杂环境,直接安装即可加载 Phi-3.5 等模型,像使用普通聊天软件一样简单。
- 全域文档交互:一键导入混合格式的文件夹,Dot 自动建立本地向量索引,支持针对多份财报进行交叉提问和数据汇总。
- 离线高效作业:无论网络状态如何,均能流畅地进行文档对话与内容生成,大幅提升闭关分析时的效率。
Dot 让非技术背景的职场人士也能在绝对安全的前提下,轻松将本地沉睡的文档库转化为可即时对话的智能知识库。
运行环境要求
- macOS (Apple Silicon)
- Windows
未说明 (基于 llama.cpp,通常支持 CPU 推理,也可利用 GPU 加速,具体型号和显存要求未在文档中明确)
未说明

快速开始
🚀 关于 Dot
Dot 是一款独立的开源应用,旨在通过本地大语言模型和检索增强生成(RAG)技术,实现与文档和文件的无缝交互。它受到 Nvidia 的 Chat with RTX 等解决方案的启发,为没有编程背景的用户提供友好的界面。Dot 默认使用 Phi-3.5 大语言模型,开箱即用,确保易用性和简洁性。
https://github.com/alexpinel/Dot/assets/93524949/28b26128-7bdc-4bf7-99f3-d09bd8431875
📜 它能做什么?
Dot 允许用户将多个文档加载到大语言模型中,并在完全本地化的环境中与之交互。支持的文档类型包括 PDF、DOCX、PPTX、XLSX 等!此外,用户还可以通过 Big Dot 进行与文档无关的咨询,类似于与 ChatGPT 互动。
🔧 它是如何工作的?
该应用基于 Electron JS 构建,使用了 FAISS 等库来创建本地向量存储,Langchain、llama.cpp 和 Huggingface 来搭建对话链,以及其他工具用于文档管理和交互。
📥 安装
对于普通用户:
- 请访问 Dot 官网 下载适用于 Apple Silicon 或 Windows 的应用程序。
对于开发者:
- 克隆仓库
$ https://github.com/alexpinel/Dot.git - 安装 Node.js 后,在项目目录内运行
npm install。如果在此步骤遇到问题,可以尝试运行npm install --force。完成后,进入cd aadotllm再次运行npm install!
🌟 我希望添加的未来功能
- Linux 支持
- 多种大语言模型选择 - 已完成!
- 图像文件支持
- 在内容之外进一步提升对文档的理解能力
- 简化文件加载方式(可选择单个文件,而不仅仅是整个文件夹)
- 加强使用本地大语言模型时的安全措施
- 支持更多文档类型 - 已完成!
- 高效的文件数据库管理,以便更快地访问文件组
🤝 想要帮忙吗?
非常欢迎各位贡献!作为一位在课余时间维护该项目的学生,任何帮助都将不胜感激。无论是代码编写、文档撰写,还是功能建议,都欢迎积极参与!
星标历史
版本历史
v0.9.32024/12/09v0.9.22024/05/20v0.9.12024/04/14v0.9-beta2024/04/06相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
