handy-ollama

2.3k 294 简单 1 次阅读昨天NOASSERTIONAgent开发框架语言模型

AI 解读由 AI 自动生成，仅供参考

handy-ollama 是一本由 Datawhale 社区打造的开源教程，旨在帮助用户轻松实现大语言模型（LLM）的本地化部署与运行。它核心解决了大模型应用门槛高、依赖昂贵 GPU 资源的痛点，让普通用户仅凭个人电脑的 CPU 即可流畅体验和管理大模型，真正打破了硬件壁垒。

这份教程非常适合希望探索大模型技术但受限于计算资源的开发者、学生及 AI 爱好者。无论你是想在不联网环境下安全地管理模型，还是希望在消费级硬件上开发 RAG（检索增强生成）、Agent 等实际应用，handy-ollama 都能提供从零开始的指导。

其独特亮点在于全面覆盖了 macOS、Windows、Linux 及 Docker 等多平台安装配置，并深入讲解了自定义模型导入、REST API 调用（支持 Python/Java/C++ 等）、LangChain 集成以及可视化界面搭建等进阶内容。作为目前唯一被 Ollama 官方仓库收录的教程，它以清晰的步骤和丰富的实战案例，助力每一位学习者快速上手，让大模型技术普惠大众。

使用场景

某初创团队的数据分析师需要在无 GPU 资源的普通办公笔记本上，快速搭建一个基于本地私有文档的智能问答原型，以验证内部知识库检索的可行性。

没有 handy-ollama 时

硬件门槛高：传统大模型部署强依赖昂贵显卡，普通 CPU 笔记本无法运行，导致团队成员只能租用云端算力，成本高昂且配置环境繁琐。
学习曲线陡峭：缺乏系统化的中文教程，开发者需自行摸索 GGUF 格式转换、量化参数调整及底层推理引擎配置，极易因环境报错而放弃。
应用集成困难：不清楚如何通过 REST API 将模型接入现有 Python 或 LangChain 项目，更难以在本地快速构建可视化的 Web 对话界面进行演示。
数据安全隐患：为测试效果被迫将敏感文档上传至第三方在线模型，存在核心数据泄露风险，无法满足企业级隐私合规要求。

使用 handy-ollama 后

零成本本地运行：跟随教程在 Windows/macOS 上一键安装，直接利用 CPU 即可流畅运行量化后的大模型，无需任何 GPU 资源，彻底打破硬件限制。
全流程指引清晰：从自定义导入 GGUF 模型到编写 Modelfile，步骤详尽的实战文档让新手也能在半小时内完成从安装到首条指令交互的全过程。
开发效率倍增：通过提供的 API 调用示例和 FastAPI/WebUI 部署案例，迅速将模型集成至本地 RAG 应用中，当天即可产出可交互的原型系统。
数据完全可控：所有推理过程均在本地闭环完成，敏感业务数据无需出域，既保障了信息安全，又实现了低延迟的实时响应。

handy-ollama 让每一位开发者都能凭借普通电脑轻松跨越大模型部署的技术鸿沟，真正实现“人人可拥有”的本地化 AI 应用开发。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

非必需（项目核心亮点为支持纯 CPU 部署）
若需加速可配置 GPU（文档提及“自定义在 GPU 中运行”章节，但未指定具体型号、显存或 CUDA 版本要求）

内存

未说明（取决于所部署的大模型大小，消费级硬件即可运行）

依赖

notes本项目核心目标是让用户在无需 GPU 的情况下，仅使用 CPU 和个人 PC 即可部署和运行大模型。支持通过 Docker 容器化部署。教程包含从 GGUF、Pytorch 或 Safetensors 导入模型的指南。部分高级应用（如 RAG、Agent）需额外安装 LangChain 或 LlamaIndex 等库。

python未说明（教程涵盖 Python 调用示例，但未指定解释器版本要求）

Ollama

LangChain

FastAPI

WebUI

LlamaIndex

Dify

快速开始

💻 handy-ollama 🦙 (🧪Beta公测版)

📚 从零开始实现 CPU 玩转大模型部署！

动手学 Ollama，快速实现大模型本地部署

简体中文 | English

[!WARNING] 🧪 Beta 公测版本提示：教程主体已完成，正在优化细节，欢迎大家提 Issue 反馈问题或建议。

🎉官方收录

2025.11.06，本项目被 Ollama 官方仓库收录，且是目前唯一的 Tutorial：https://github.com/ollama/ollama#tutorial

🚀 项目简介

动手学 Ollama 教程，轻松上手实现大模型本地化部署，快速在本地管理以及运行大模型，让 CPU 也可以玩转大模型推理部署！

本教程涵盖从基础入门到进阶使用的全方位内容，并通过实际应用案例深入理解和掌握大模型部署以及应用技术。我们的教程提供清晰的步骤和实用的技巧，无论是刚刚接触大模型部署的小白，还是有一定经验的开发者，都可以从零开始学习 Ollama ，实现本地部署大模型以及相关应用。

本项目主要内容：

Ollama 介绍、安装和配置，包括在 macOS、Windows、Linux 和 Docker 下的安装与配置；
Ollama 自定义导入模型，包括从 GGUF 导入、从 Pytorch 或 Safetensors 导入、由模型直接导入、自定义 Prompt；
Ollama REST API，包括 Ollama API 使用指南、在 Python、Java、JavaScript 和 C++ 等语言中使用 Ollama API；
Ollama 在 LangChain 中的使用，包括在 Python 和 JavaScript 中的集成；
Ollama 可视化界面部署和应用案例，包括使用 FastAPI 和 WebUI 部署可视化对话界面，以及本地 RAG 应用、Agent 应用等。

热忱欢迎感兴趣的同学或者开发者们提出 issue 或者提交 pull request，让我们一起完善这个项目！

我们坚信：每一位对大模型充满热情的学习者，都应该有机会探索和实践。无论你的编程语言背景如何，无论你的计算资源如何，我们都希望能帮助你使用个人 PC 实现大模型部署。让我们携手打破技术壁垒，共同开启 LLM 探索之旅！

目录结构说明：

  docs ---------------------- Markdown 文档文件
  notebook ------------------ Notebook 源代码文件以及部分 Python、Java 和 JavaScript 源文件 
  images -------------------- 图片

📖 在线阅读：https://datawhalechina.github.io/handy-ollama/

💡 立项理由

随着大模型的飞速发展，市面上出现了越来越多的开源大模型，但是许多模型的部署需要利用 GPU 资源，如何让大模型时代的红利普惠到每一个人，让每一个人都可以部署属于自己的大模型。Ollama 是一个开源的大语言部署服务工具，只需 CPU 即可部署大模型。我们希望通过动手学 Ollama 这一开源教程，帮助学习者快速上手 Ollama ，让每一位大模型爱好者、学习者以及开发者都能在本地部署自己的大模型，进而开发一些大模型应用，让大模型赋能千行百业！

🎯 项目受众

希望不受 GPU 资源限制，在本地运行大模型；
希望在消费级硬件上进行大模型有效的推理；
希望在本地部署大模型，开发大模型应用；
希望在本地管理大模型，让本地模型安全可靠。

✨ 项目亮点

本项目旨在使用 CPU 部署本地大模型，虽然目前已经有很多 LLM 相关的教程，但是这些教程中模型基本上都需要 GPU 资源，这对于很多资源受限的学习者不是很友好。因此，本项目通过动手学 Ollama ，帮助学习者快速上手本地 CPU 部署大模型。

📖 内容导航

章节	关键内容	状态
第一章 Ollama 介绍
1.1 Ollama 介绍	基础概念、核心特性	✅
第二章 Ollama 安装与配置		✅
2.1 macOS 安装与配置	macOS 安装、配置	✅
2.2 Windows 安装与配置	Windows 安装、配置	✅
2.3 Linux 安装与配置	Linux 安装、配置	✅
2.4 Docker 安装与配置	Docker 安装、配置	✅
第三章自定义使用 Ollama	个性化使用	✅
3.1 自定义导入模型	外部模型导入	✅
3.2 自定义模型存储位置	存储路径更改	✅
3.3 自定义在 GPU 中运行	GPU 加速配置	✅
第四章 Ollama REST API
4.1 Ollama API 使用指南	调用规则、参数说明	✅
4.2 Python 中使用 Ollama API	Python 调用	✅
4.3 Java 中使用 Ollama API	Java 调用	✅
4.4 JavaScript 中使用 Ollama API	JavaScript 调用	✅
4.5 C++ 中使用 Ollama API	C++ 调用	✅
4.6 Golang 中使用 Ollama API	Golang 调用	✅
C# 中使用 Ollama API	C# 调用（待更）	🚧
Rust 中使用 Ollama API	Rust 调用（待更）	🚧
Ruby 中使用 Ollama API	Ruby 调用（待更）	🚧
R 中使用 Ollama API	R 调用（待更）	🚧
第五章 Ollama 在 LangChain 中的使用
5.1 Python 中的集成	Python + LangChain 集成	✅
5.2 JavaScript 中的集成	JavaScript + LangChain 集成	✅
第六章 Ollama 可视化界面部署
6.1 FastAPI 部署可视化界面	FastAPI 部署	✅
6.2 WebUI 部署可视化界面	WebUI 部署	✅
第七章应用案例
7.1 搭建本地 AI Copilot 编程助手	本地编程助手	✅
7.2 Dify 接入本地模型	Dify 集成本地模型	✅
7.3 LangChain 搭建本地 RAG 应用	LangChain + 本地 RAG	✅
7.4 LlamaIndex 搭建本地 RAG 应用	LlamaIndex + 本地 RAG	✅
7.5 LangChain 实现本地 Agent	LangChain + 本地 Agent	✅
7.6 LlamaIndex 实现本地 Agent	LlamaIndex + 本地 Agent	✅
7.7 DeepSeek R1 + Ollama 本地 RAG	DeepSeek R1 + 本地 RAG	✅
...	...	...

注：所有标记（待更新）的内容，以及其他相关的内容，热忱欢迎感兴趣的开发者们提出 issue 或者提交 pull request，让我们一起完善这个项目！

想要深度参与的同学可以联系我们，我们会将你加入到项目的维护者中。

🙏 致谢

核心贡献者

张友东（Datawhale成员）
林通（Datawhale成员）
柴春阳（内容创作者）
王莹莹（Datawhale成员）
曾鑫民（内容创作者）
娄天奥（Datawhale成员）
杨卓（内容创作者）
姜舒凡（Datawhale成员）
曹越（内容创作者）
王晓亮（Datawhale成员）

特别感谢

Ollama 官方仓库：https://github.com/ollama/ollama
感谢 @Sm1les 对本项目的帮助与支持
感谢所有为本项目做出贡献的开发者们 ❤️

Star History

LICENSE

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。

handy-ollama 快速上手指南

📋 环境准备

系统要求：

操作系统：macOS、Windows 10/11、Linux (Ubuntu/Debian/CentOS 等) 或 Docker 环境
硬件配置：仅需 CPU 即可运行（支持 GPU 加速可选），推荐内存 8GB 以上
网络环境：需能访问 Hugging Face 或 ModelScope（魔搭社区）下载模型

前置依赖：

无需复杂的 Python 环境或 CUDA 驱动（基础运行）
若使用 Docker，请预先安装 Docker Desktop 或 Docker Engine

🚀 安装步骤

根据你的操作系统选择以下一种安装方式：

方案一：macOS / Windows / Linux 原生安装

访问官网或 GitHub Release 页面下载对应系统的安装包：

macOS: 下载 .dmg 文件并拖拽安装
Windows: 下载 .exe 安装包一键安装
Linux: 执行官方一键安装脚本

curl -fsSL https://ollama.com/install.sh | sh

💡 国内加速建议：若下载速度慢，可尝试配置代理或使用国内镜像源拉取模型。

方案二：Docker 部署（推荐跨平台用户）

拉取镜像并启动容器：

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

验证安装是否成功：

docker exec -it ollama ollama -v

🛠️ 基本使用

1. 拉取并运行模型

以最流行的 Llama 3 模型为例，在终端执行以下命令即可自动下载并运行：

ollama run llama3

注：首次运行会自动下载模型文件，后续启动将秒开。

2. 交互式对话

命令执行后进入交互模式，直接输入问题即可：

>>> 你好，请介绍一下你自己
>>> 如何用 Python 实现快速排序？
>>> /bye  (退出对话)

3. 常用管理命令

在另一个终端窗口中，你可以管理本地模型：

# 查看已下载的模型列表
ollama list

# 删除指定模型
ollama rm llama3

# 查看正在运行的模型服务状态
ollama ps

4. 通过 API 调用（开发者必备）

Ollama 默认在 http://localhost:11434 启动服务。使用 curl 测试 API：

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt":"Hello!",
  "stream": false
}'

现在你已经成功在本地 CPU 上部署并运行了大模型！接下来可以探索自定义导入模型、LangChain 集成或搭建 RAG 应用等进阶功能。

常见问题

在 Linux ARM64 系统解压后执行 ollama 命令报错 "cannot execute binary file" 是什么原因？

运行命令时提示模型 "nomic-embed-textO does not exist" 怎么办？

在 Python 中使用 Ollama API 调用 Client 时报错 "ResponseError: status code:503" 如何解决？

Ollama 支持批量处理（Batch Inference）吗？如何实现？

运行 LangChain 代码 `chain.invoke(docs)` 时没有任何输出，也没有报错，是怎么回事？

如何在拥有多块显卡的服务器上，指定特定显卡运行特定的大模型？

在内网环境中，如何单独获取大模型的 Modelfile 文件？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 142.7k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|今天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent