LLMs-local

622 63 简单 1 次阅读 1周前语言模型开发框架Agent其他

AI 解读由 AI 自动生成，仅供参考

LLMs-local 是一个精心整理的开源资源清单，旨在帮助用户在本地设备上运行大型语言模型（LLM）。它汇集了从推理平台、底层引擎到用户界面、模型库及硬件指南的全方位工具，让使用者无需依赖云端服务，即可在个人电脑上安全、离线地部署和使用 AI 能力。

这一资源库有效解决了数据隐私担忧、云端 API 成本高昂以及网络延迟等痛点，让大模型的运行完全掌握在用户手中。无论是希望保护敏感数据的普通用户，还是追求低延迟和高定制化的开发者与研究人员，都能在此找到适合的解决方案。清单中不仅收录了 LM Studio、Ollama 等易于上手的桌面应用，还涵盖了 llama.cpp、vllm 等高性能推理引擎，甚至支持利用日常设备组建家庭 AI 集群的独特方案。

此外，LLMs-local 还提供了关于模型微调、智能体框架、检索增强生成（RAG）以及提示词工程的专业教程与社区链接。无论你是想尝试本地运行代码助手的技术爱好者，还是需要构建复杂 AI 应用的专业团队，这份指南都能为你提供从零开始到进阶优化的完整路径，助力轻松开启本地大模型之旅。

使用场景

某金融科技公司的高级数据分析师需要在完全隔离的内网环境中，对每日更新的敏感财报数据进行自动化摘要与风险提取。

没有 LLMs-local 时

数据泄露风险高：由于缺乏本地部署方案，团队被迫将脱敏不彻底的财报数据上传至公有云 API，时刻面临合规审计压力。
环境配置极其繁琐：尝试自行编译 llama.cpp 或配置 vllm 时，常因显卡驱动版本、CUDA 依赖冲突导致数天无法跑通推理流程。
模型选型盲目低效：面对海量开源模型，缺乏统一的基准测试和分类索引，难以快速找到适合“金融文本理解”且能在现有显存下运行的特定模型。
响应延迟不可控：依赖外部网络调用大模型，一旦网络波动或云端限流，整个自动化分析流水线就会中断，无法保证日报准时产出。

使用 LLMs-local 后

实现极致数据安全：利用列表中推荐的 LM Studio 或 Jan，分析师直接在本地离线运行高性能模型，确保敏感财报数据从未离开公司内网。
一键部署推理环境：参考 curated 清单中的成熟平台，几分钟内即可拉起基于 Ollama 或 LocalAI 的服务，自动适配硬件加速，无需手动解决依赖地狱。
精准匹配业务模型：通过目录中清晰的“通用”、“编码”及“基准测试”分类，迅速锁定并下载针对金融领域微调过的量化模型，最大化利用有限显存。
稳定高效的本地集群：借助 exo 等工具将多台旧电脑组建成本地 AI 集群，不仅消除了网络延迟，还大幅提升了批量处理财报的吞吐量。

LLMs-local 通过提供一站式的本地大模型生态导航，让企业在零数据泄露风险的前提下，以最低门槛实现了高效、可控的私有化 AI 落地。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

非绝对必需（支持 CPU 推理），但推荐 NVIDIA GPU (CUDA)、AMD GPU (ROCm/gfx906)、Intel Arc GPU 或 Apple Silicon (M1/M2/M3)
部分工具支持 NPU (AMD Ryzen AI)
显存需求取决于模型大小，通常建议 8GB+ 以运行中等规模模型

内存

未说明（取决于模型大小，通常建议 16GB+ 以流畅运行本地大模型）

依赖

notes该 README 是一个本地运行大语言模型（LLMs）的工具和资源汇总列表，而非单一软件的具体安装指南。它列出了多种推理平台（如 LM Studio, Jan, LocalAI）、推理引擎（如 ollama, llama.cpp, vllm）和用户界面。硬件需求高度依赖于所选的具体工具和模型大小：Apple 用户可使用 mlx-lm；AMD 和 Intel 用户有特定的分支支持；大多数工具支持 GGUF 格式的量化模型以降低内存和显存需求。建议使用量化工具（如 Unsloth, bartowski 提供的模型）在消费级硬件上运行。

python未说明

llama.cpp

ollama

vllm

mlx-lm (Apple Silicon)

torch

transformers

GGUF format support

快速开始

LLMs-本地

用于在本地运行大型语言模型的优秀平台、工具和资源列表

推理平台

LM Studio - 发现、下载并运行本地大型语言模型
jan - 一款开源的ChatGPT替代品，可在您的电脑上100%离线运行
LocalAI - OpenAI、Claude等服务的免费开源替代方案
ChatBox - 一款用户友好的桌面客户端应用，用于运行AI模型/大型语言模型
lemonade - 一个支持GPU和NPU加速的本地大型语言模型服务器

返回目录

推理引擎

ollama - 快速启动并运行大型语言模型
llama.cpp - 使用C/C++进行大型语言模型推理
vllm - 高吞吐量且内存高效的大型语言模型推理与服务引擎
exo - 使用日常设备在家搭建自己的AI集群
BitNet - 1位大型语言模型的官方推理框架
sglang - 一种用于大型语言模型和视觉语言模型的快速服务框架
Nano-vLLM - 从头开始构建的轻量级vLLM实现
koboldcpp - 轻松运行GGUF模型，并配备KoboldAI界面
gpustack - 在GPU集群上简单、可扩展地部署AI模型
mlx-lm - 使用MLX在Apple芯片上生成文本并微调大型语言模型
distributed-llama - 将家用设备连接成强大的集群，以加速大型语言模型的推理
ik_llama.cpp - llama.cpp的分支，增加了最新的量化技术并提升了性能
FastFlowLM - 在AMD Ryzen™ AI NPU上运行大型语言模型
vllm-gfx906 - 适用于AMD gfx906 GPU（如Radeon VII / MI50 / MI60）的vLLM
llm-scaler - 在Intel Arc™ Pro B60 GPU上运行大型语言模型

返回目录

用户界面

Open WebUI - 友好易用的AI界面（支持Ollama、OpenAI API等）
Lobe Chat - 一个开源、现代设计的AI聊天框架
文本生成Web UI - 具有高级功能、易于部署且支持多种后端的LLM用户界面
SillyTavern - 面向高级用户的LLM前端
Page Assist - 使用您本地运行的AI模型来辅助您的网页浏览

返回目录

大型语言模型

探索工具、基准测试与排行榜

AI模型与API提供商分析 - 帮助您了解AI领域，从而为您的应用场景选择最佳模型和提供商
LLM Explorer - 探索开源LLM模型列表
Dubesor LLM基准测试表 - 小规模手动性能对比基准
oobabooga基准测试 - 按照每个分数的磁盘大小排序的列表

返回目录

模型提供商

Qwen - 由阿里云提供支持
Mistral AI - 一家领先的法国人工智能初创公司
腾讯 - 中国一家跨国科技集团及控股公司的简介
Unsloth AI - 致力于让每个人都能更方便地使用AI（如GGUF等）
bartowski - 提供流行LLM的GGUF版本
北京人工智能研究院 - 一家从事AI研究与开发的非营利性私人机构
Open Thoughts - 一个由研究人员和工程师组成的团队，致力于整理最佳的开放推理数据集

返回目录

具体模型

通用型

Qwen3-Next - 最新一代Qwen LLM系列
Gemma 3 - 来自谷歌的一系列轻量级、最先进的开源模型，基于与Gemini模型相同的科研和技术打造
gpt-oss - OpenAI提供的开放权重模型集合，专为强大的推理能力、智能体任务以及多用途的开发者场景而设计
Ministral 3 - 边缘模型系列，包含基础版、指令版和推理版，共有3种尺寸：3B、8B和14B，均具备视觉能力
GLM-4.5 - 专为智能代理设计的混合推理模型系列
Hunyuan - 腾讯开源的高效LLM系列，专为在各种计算环境中灵活部署而设计
Phi-4-mini-instruct - 基于合成数据和筛选后的公开网站构建的轻量级开放模型
NVIDIA Nemotron v3 - NVIDIA推出的一系列开放模型，拥有开放的权重、训练数据和配方，能够以领先的效率和准确度构建专业化的AI智能体
Llama Nemotron - NVIDIA推出的可用于生产的开放企业级模型系列
OpenReasoning-Nemotron - NVIDIA推出的一系列模型，基于500万条数学、代码和科学相关的推理轨迹进行训练
Granite 4.0 - IBM推出的一系列轻量级、最先进的开源基础模型，原生支持多语言能力、广泛的编码任务（包括中间填充式代码补全）、检索增强生成（RAG）、工具使用以及结构化JSON输出
EXAONE-4.0 - LG AI Research推出的LLM系列，融合了非推理模式和推理模式
ERNIE 4.5 - 百度推出的大规模多模态模型系列
Seed-OSS - 字节跳动Seed团队开发的LLM系列，专为强大的长上下文理解、推理能力、智能体功能以及通用能力而设计，并具备多样的开发者友好特性

返回目录

编码

Qwen3-Coder - Qwen系列迄今为止最具代理能力的代码模型合集
Devstral 2 - 两款用于软件工程任务的代理型LLM，擅长利用工具探索代码库、编辑多个文件，并为SWE智能体提供支持
Mellum-4b-base - 来自JetBrains的LLM，专为代码相关任务优化
OlympicCoder-32B - 在LiveCodeBench和2024年国际信息学奥林匹克竞赛等竞技编程基准测试中表现极为出色的代码模型
NextCoder - 以Qwen2.5-Coder Instruct变体为基础开发的一系列代码编辑LLM

返回目录

多模态

Qwen3-Omni - Qwen原生端到端多语言全模态基础模型合集

返回目录

图像

Qwen-Image - Qwen系列中的图像生成基础模型，在复杂文本渲染和精准图像编辑方面取得了显著进展
Qwen-Image-Edit-2509 - Qwen-Image的图像编辑版本，将基础模型独特的文本渲染能力扩展至图像编辑任务，实现精确的文本编辑
Qwen3-VL - Qwen系列迄今为止最强大的视觉-语言模型合集
GLM-4.5V - 基于智谱AI新一代旗舰文本基础模型GLM-4.5-Air的VLLM
HunyuanImage-2.1 - 高效的扩散模型，用于高分辨率（2K）文生图
FastVLM - 苹果公司高效视觉编码的VLM合集
MiniCPM-V-4_5 - GPT-4o级别的小型MLLM，可在手机上实现单张图片、多张图片及高帧率视频的理解
LFM2-VL - 专为设备端部署设计的视觉-语言模型合集
ClipTagger-12b - 一款专为大规模视频理解设计的视觉-语言模型（VLM）

返回目录

音频

Voxtral-Small-24B-2507 - Mistral Small 3的升级版，融合了最先进的音频输入能力，同时保持一流的文本性能
chatterbox - 首个生产级开源TTS模型
VibeVoice - 微软前沿文本转语音模型合集
canary-1b-v2 - 英伟达的一款多任务语音转录与翻译模型
parakeet-tdt-0.6b-v3 - 英伟达的多语言语音转文字模型
Kitten TTS - 开源逼真文本转语音模型合集，专为轻量级部署和高质量语音合成设计

返回目录

其他

Jan-v1-4B - Jan家族的首个发布版本，专为Jan App中的代理式推理和问题解决而设计
Jan-nano - 一款紧凑的40亿参数语言模型，专门针对深度研究任务进行设计和训练
Jan-nano-128k - Jan-nano的增强版，具备原生128k上下文窗口，可在不降低性能的情况下实现更深入、更全面的研究能力
Arch-Router-1.5B - 最快的LLM路由模型，可根据用户的主观偏好进行匹配
gpt-oss-safeguard - 基于gpt-oss构建的安全推理模型合集
Qwen3Guard - 基于Qwen3构建的安全审核模型合集
HunyuanWorld-1 - 开源3D世界生成模型
Hunyuan-GameCraft-1.0 - 一种用于游戏环境中高动态交互式视频生成的新框架

返回目录

工具

模型

unsloth - LLM的微调与强化学习工具
outlines - LLM的结构化输出工具
heretic - 语言模型的全自动内容审查移除工具
llama-swap - 适用于任何本地OpenAI兼容服务器（如llama.cpp、vllm等）的可靠模型切换工具

返回目录

代理框架

AutoGPT - 一个强大的平台，允许你创建、部署和管理持续运行的AI代理，以自动化复杂的流程
langflow - 一个功能强大的工具，用于构建和部署基于AI的代理及工作流
langchain - 构建上下文感知的推理应用
autogen - 一个用于智能体式AI的编程框架
anything-llm - 一款一体化的桌面及Docker AI应用，内置RAG、AI代理、无代码代理构建器、MCP兼容性等功能
Flowise - 可视化方式构建AI代理
llama_index - 领先的数据驱动LLM代理构建框架
crewAI - 一个用于编排角色扮演型自主AI代理的框架
agno - 一个全栈框架，用于构建具备记忆、知识与推理能力的多智能体系统
sim - 开源平台，用于构建和部署AI代理工作流
openai-agents-python - 一个轻量级但功能强大的多智能体工作流框架
SuperAGI - 一个开源框架，用于构建、管理和运行实用的自主AI代理
camel - 第一个也是最好的多智能体框架
pydantic-ai - 一个Python代理框架，旨在帮助你快速、自信且轻松地构建生产级别的生成式AI应用和工作流
txtai - 一体化开源AI框架，适用于语义搜索、LLM编排及语言模型工作流
agent-framework - 一个用于构建、编排和部署AI代理及多智能体工作流的框架，支持Python和.NET
archgw - 一个高性能代理服务器，负责处理构建代理时的底层工作：例如应用护栏机制、将提示路由到合适的代理、统一LLM访问等
ClaraVerse - 一个以隐私为先、完全本地化的AI工作空间，配备Ollama LLM聊天、工具调用、代理构建器、Stable Diffusion以及嵌入式n8n风格自动化功能
ragbits - 用于快速开发GenAI应用的构建模块

返回目录

模型上下文协议

mindsdb - 用于AI的联邦查询引擎，是你唯一需要的MCP服务器
github-mcp-server - GitHub官方MCP服务器
playwright-mcp - Playwright MCP服务器
chrome-devtools-mcp - Chrome DevTools，用于编写代理程序
n8n-mcp - 一个MCP，专为Claude Desktop / Claude Code / Windsurf / Cursor设计，可为你构建n8n工作流
awslabs/mcp - AWS MCP服务器，无论你在何处使用MCP，都能帮助你最大化AWS的使用价值
mcp-atlassian - Atlassian工具（Confluence、Jira）的MCP服务器

返回目录

检索增强生成

pathway - 用于流处理、实时分析、LLM 流程和 RAG 的 Python ETL 框架
graphrag - 一个模块化的基于图的 RAG 系统
LightRAG - 简单快速的 RAG
haystack - 用于构建可定制、生产就绪的 LLM 应用程序的 AI 编排框架，非常适合构建 RAG、问答系统、语义搜索或对话式智能助手聊天机器人
vanna - 一个开源的 Python RAG 框架，用于 SQL 生成及相关功能
graphiti - 为 AI 代理构建实时知识图谱
onyx - 与贵公司文档、应用程序和人员相连的 AI 平台
claude-context - 将整个代码库作为任何编码代理的上下文
pipeshub-ai - 一个完全可扩展且可解释的企业级搜索与工作流自动化 AI 平台

返回目录

编码代理

zed - 一款面向下一代的代码编辑器，专为与人类和 AI 高效协作而设计
OpenHands - 一个由 AI 驱动的软件开发代理平台
cline - 一款就在你的 IDE 中的自主编码代理，能够在你每一步的许可下创建/编辑文件、执行命令、使用浏览器等
aider - 在你的终端中进行 AI 配对编程
opencode - 一款专为终端打造的 AI 编码代理
tabby - 一个开源的 GitHub Copilot 替代品，允许你搭建自己的 LLM 驱动的代码补全服务器
continue - 使用我们的开源 IDE 扩展和模型、规则、提示、文档等构建块的中心，创建、分享和使用自定义的 AI 代码助手
void - 一个开源的 Cursor 替代品，在你的代码库上使用 AI 代理，检查点并可视化更改，并将任何模型或主机本地化
goose - 一个开源、可扩展的 AI 代理，超越了单纯的代码建议
Roo-Code - 你的代码编辑器中的一整支由 AI 代理组成的开发团队
crush - 一款为你喜爱的终端打造的迷人 AI 编码代理
kilocode - 开源的 AI 编码助手，用于规划、构建和修复代码
humanlayer - 让 AI 编码代理解决复杂代码库中难题的最佳方式
ProxyAI - JetBrains 领先的开源 AI 合作伙伴

返回目录

计算机使用

open-interpreter - 一种用于计算机的自然语言接口
OmniParser - 一个简单的屏幕解析工具，旨在实现纯视觉驱动的 GUI 代理
cua - 用于计算机使用 AI 代理的 Docker 容器
self-operating-computer - 一个使多模态模型能够操作计算机的框架
Agent-S - 一个开放的代理框架，像人类一样使用计算机

返回目录

浏览器自动化

puppeteer - 一个用于 Chrome 和 Firefox 的 JavaScript API
playwright - 一个用于 Web 测试和自动化的框架
browser-use - 让网站对 AI 代理可用
firecrawl - 将整个网站转换为适合 LLM 的 Markdown 或结构化数据
stagehand - AI 浏览器自动化框架
nanobrowser - 开源 Chrome 扩展，用于 AI 驱动的网页自动化

返回目录

内存管理

mem0 - 适用于 AI 代理的通用内存层
letta - 具有记忆、推理和上下文管理功能的状态型代理框架
supermemory - 极其快速且可扩展的内存引擎和应用
cognee - 用 5 行代码实现的 AI 代理内存
LMCache - 使用最快的 KV 缓存层加速你的 LLM
memU - 一个开源的 AI 伴侣内存框架

返回目录

测试、评估与可观测性

langfuse - 一个开源的 LLM 工程平台：LLM 可观测性、指标、评估、提示管理、游乐场、数据集。与 OpenTelemetry、Langchain、OpenAI SDK、LiteLLM 等集成
opik - 使用全面的追踪、自动化评估和生产就绪的仪表板来调试、评估和监控你的 LLM 应用程序、RAG 系统和代理式工作流
openllmetry - 基于 OpenTelemetry 的开源 LLM 应用程序可观测性工具
garak - NVIDIA 提供的 LLM 漏洞扫描器
giskard - 一个开源的 AI 和 LLM 系统评估与测试工具
agenta - 一个开源的 LLMOps 平台：提示游乐场、提示管理、LLM 评估和 LLM 可观测性，全部集中在一个地方

返回目录

研究

Perplexica - 一个开源的 Perplexity AI 替代品，即基于 AI 的搜索引擎
gpt-researcher - 一个基于 LLM 的自主代理，能够针对任何主题进行深入的本地和网络研究，并生成带有引用的长篇报告
SurfSense - 一个开源的 NotebookLM / Perplexity / Glean 替代品
open-notebook - 一个具有更高灵活性和更多功能的 Notebook LM 开源实现
RD-Agent - 自动化工业研发流程中最关键和最有价值的部分
local-deep-researcher - 一个完全本地的网络研究和报告撰写助手
local-deep-research - 一个用于深度迭代研究的 AI 驱动的研究助手
maestro - 一个旨在简化复杂研究任务的 AI 驱动的研究应用

返回目录

训练与微调

OpenRLHF - 一个基于 Ray、vLLM、ZeRO-3 和 HuggingFace Transformers 构建的易用、高性能开源 RLHF 框架，旨在让 RLHF 训练变得简单且易于访问
Kiln - 微调 LLM 模型、生成合成数据以及协作处理数据集的最简单工具
augmentoolkit - 使用新事实训练开源 LLM

返回目录

其他

context7 - 针对 LLM 和 AI 代码编辑器的最新代码文档
cai - 网络安全人工智能（CAI），AI 安全框架
speakr - 一款个人自托管的 Web 应用程序，专为转录音频记录而设计
presenton - 开源 AI 演示文稿生成器及 API
OmniGen2 - 探索高级多模态生成
4o-ghibli-at-home - 一款功能强大、自托管的 AI 照片风格化工具，专为性能和隐私而设计
Observer - 本地开源微型智能体，可观察、记录并作出反应，同时确保您的数据私密且安全
mobile-use - 一款功能强大的开源 AI 助手，可通过自然语言控制您的 Android 或 iOS 设备
gabber - 利用您的屏幕、麦克风和摄像头作为输入，构建能够看、听、说的 AI 应用程序
promptcat - 一个零依赖的提示管理器/目录/库，集成在一个 HTML 文件中

返回目录

硬件

Alex Ziskind - 测试能够运行 LLM 的 PC、笔记本电脑、GPU 等设备
Digital Spaceport - 评测各种专为 LLM 推理设计的硬件配置
JetsonHacks - 关于在 NVIDIA Jetson 开发套件上进行开发的信息
Miyconst - 测试各种能够运行 LLM 的硬件类型
Kolosal - LLM 内存计算器 - 即时估算任何 GGUF 模型所需的 RAM 大小
LLM 推理 VRAM & GPU 要求计算器 - 计算部署 LLM 需要多少块 GPU
ZLUDA - 在非 NVIDIA GPU 上使用 CUDA

返回目录

教程

模型

让我们重现 GPT-2 (124M)
nanochat - 一个全栈式实现的类似 ChatGPT 的 LLM，采用单一、简洁、极简、可 hack 且依赖极少的代码库，专为通过 speedrun.sh 等脚本在单个 8XH100 节点上运行整个流水线而设计
知识蒸馏：LLM 如何相互训练
gguf-docs - GGUF 量化文档（非官方）

返回目录

提示工程

提示工程指南 - 提示工程相关的指南、论文、讲座、笔记本及资源
NirDiamant 的提示工程 - 一套全面的教程和实现，涵盖从基础概念到高级策略的提示工程技术
提示引导入门指南 - Google 提供的有效提示快速入门手册
Google 的提示工程 - Google 的提示工程资料
Anthropic 的提示工程 - Anthropic 的提示工程文档
提示工程互动教程 - Anthropic 提供的提示工程互动教程
现实世界中的提示 - Anthropic 提供的现实世界提示教程
提示评估 - Anthropic 的提示评估课程
system-prompts-and-models-of-ai-tools - 从 AI 工具中提取的系统提示集合
system_prompts_leaks - 从 ChatGPT、Claude 和 Gemini 等热门聊天机器人中提取的系统提示集合
Codex 的提示 - OpenAI Codex 用于引导行为的提示

返回目录

上下文工程

上下文工程 - 受 Karpathy 和 3Blue1Brown 启发的前沿、基于第一性原理的手册，旨在超越提示工程，进入更广泛的上下文设计、编排和优化领域
Awesome-Context-Engineering - 关于上下文工程的全面综述：从提示工程到生产级 AI 系统

返回目录

推理

vLLM 生产栈 - vLLM 针对 K8S 原生集群部署的参考系统，并由社区驱动进行性能优化

返回目录

代理

GenAI 代理 - 各类生成式 AI 代理技术的教程和实现
500 多个 AI 代理项目 - 涵盖各行业的 AI 代理用例精选集
12 因子代理 - 构建可靠 LLM 应用的原则
迈向生产的代理 - 从头到尾、以代码为导向的教程，覆盖生产级生成式 AI 代理的每一层，通过成熟的模式和可重用蓝图，指导您从萌芽阶段走向规模化落地
LLM 代理与生态系统手册 - 一站式手册，包含 60 多种骨架、教程、生态系统指南和评估工具，帮助您构建、部署和理解 LLM 代理
601 个现实世界的生成式 AI 用例 - Google 整理的来自全球领先企业的 601 个现实世界生成式 AI 用例
构建代理的实用指南 - OpenAI 提供的构建代理实用指南

返回目录

检索增强生成

Pathway AI 管道 - 用于 RAG、AI 流水线和企业级实时数据搜索的开箱即用云模板
RAG 技术 - 针对检索增强生成（RAG）系统的各种高级技术
可控 RAG 代理 - 一种用于复杂问答任务的先进检索增强生成解决方案，采用复杂的基于图的算法来处理任务
LangChain RAG 烹饪书 - 一系列模块化的 RAG 技术，使用 LangChain + Python 实现

返回目录

杂项

开箱即用的自托管 AI 编码工具

返回目录

LLMs-local 快速上手指南

LLMs-local 并非单一软件，而是一个精选的本地大语言模型（LLM）生态资源列表。本指南将带你从零开始，利用列表中推荐的工具在本地运行开源大模型。对于中国开发者，我们推荐从 Ollama（推理引擎）配合 Open WebUI（用户界面）或 LM Studio（一体化平台）入手。

环境准备

在开始之前，请确保你的硬件和系统满足以下基本要求：

操作系统：Windows 10/11, macOS (Intel 或 Apple Silicon), 或 Linux (Ubuntu/Debian 推荐)。
内存 (RAM)：
- 运行 7B 参数模型：建议至少 8GB - 16GB。
- 运行更大模型（如 14B+）：建议 32GB 或以上。
显卡 (GPU)（可选但强烈推荐）：
- NVIDIA GPU：显存越大越好（8GB 起步），需安装最新显卡驱动。
- Apple Silicon (M1/M2/M3)：统一内存架构对本地推理非常友好。
- AMD GPU：部分工具（如 vllm-gfx906 或 llm-scaler）提供支持，但配置相对复杂。
前置依赖：
- 已安装 Git。
- 已安装 Python 3.8+ (部分高级工具需要)。
- 网络环境：由于模型权重托管在 Hugging Face，国内访问可能较慢，建议配置代理或使用国内镜像源。

安装步骤

以下提供两种最主流的安装方案：方案 A 适合追求极致简便的用户，方案 B 适合喜欢命令行和轻量级部署的开发者。

方案 A：使用 LM Studio (图形化一体版)

适合不想配置环境，希望“下载即运行”的用户。

下载安装包：访问 LM Studio 官网下载对应系统的安装包。

提示：若官网下载慢，可尝试在国内技术社区搜索离线安装包。
安装并启动：运行安装程序，启动 LM Studio。
搜索并下载模型：
- 在左侧搜索栏输入模型名称（例如 Qwen2.5 或 Gemma）。
- 选择右侧列表中的量化版本（推荐 GGUF 格式，如 Q4_K_M，平衡速度与精度）。
- 点击 "Download"。

方案 B：使用 Ollama + Open WebUI (推荐开发者)

适合需要 API 集成、Docker 部署及更灵活控制的用户。

1. 安装 Ollama (推理后端)

在终端执行以下命令：

macOS / Linux:

curl -fsSL https://ollama.com/install.sh | sh

Windows: 下载 Ollama Setup.exe 并运行。

国内加速提示：若上述脚本执行超时，可使用国内镜像变量安装：
export OLLAMA_HOST="0.0.0.0"
curl -fsSL https://ollama.com/install.sh | sh
# 若下载模型慢，可设置代理：export HTTPS_PROXY=http://127.0.0.1:7890

2. 安装 Open WebUI (图形化前端)

推荐使用 Docker 部署，需先安装 Docker Desktop。

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

安装完成后，浏览器访问 http://localhost:3000 即可使用。

基本使用

1. 运行第一个模型 (以 Qwen2.5 为例)

如果你使用 Ollama： 直接在终端运行以下命令，Ollama 会自动拉取并运行模型：

ollama run qwen2.5

注：qwen2.5 是阿里云通义千问系列的热门开源模型，对中文支持极佳。若需其他模型，替换名称即可，如 llama3, gemma2, mistral。

如果你使用 LM Studio：

点击左侧 "Local Server" 标签页。
在顶部下拉菜单选择已下载的模型。
点击 "Start Server"。
在聊天界面直接对话，或通过 http://localhost:1234/v1 调用 API。

2. 简单的 API 调用示例

本地服务启动后，你可以像使用 OpenAI API 一样调用本地模型。以下是一个 Python 示例：

from openai import OpenAI

# 指向本地 Ollama 或 LM Studio 的服务地址
client = OpenAI(
    base_url="http://localhost:11434/v1", # Ollama 默认端口
    api_key="ollama" # Ollama 不需要真实 key，填任意字符串即可
)

response = client.chat.completions.create(
    model="qwen2.5",
    messages=[
        {"role": "system", "content": "你是一个有用的助手。"},
        {"role": "user", "content": "请用中文简要介绍什么是大语言模型？"}
    ]
)

print(response.choices[0].message.content)

3. 常用管理命令 (Ollama)

查看已下载模型：
```
ollama list
```
删除模型：
```
ollama rm <model_name>
```
后台运行服务：
```
ollama serve
```

通过以上步骤，你已成功搭建起本地的 AI 开发环境。你可以进一步探索 LLMs-local 列表中的高级工具，如 llama.cpp 进行底层优化，或使用 Text generation web UI 体验更多微调功能。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|5天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|6天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 150.7k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|昨天

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|5天前

插件开发框架