🌟 令人惊叹的 LLM 资源
精选的 LLM 资源合集。💡✨
🌐 更新日期:2025年6月22日
“无服务器”托管私有/开源模型
毋庸置疑,这些平台通常还能胜任更多任务,而不仅仅是 LLM 的服务。
🧮 无服务器计算定价与限制——Lambda vs Modal(CPU)
| 平台 |
💵 计算单位 |
📥 每次请求费用 |
🆓 免费 tier |
⏱️ 最大超时 |
🚦 并发限制 |
| AWS Lambda + API GW |
GB-秒 @ $0.000016667 |
$0.20/M Lambda + $1.00/M HTTP API 调用 |
100 万 请求 + 40 万 GB-秒/月(12 个月)+ 100 万 API 调用/月 |
15 分钟 |
每个区域 1,000 个(可申请更多) |
| Modal |
CPU-秒 @ $0.0000131 + GiB-秒 @ $0.00000222 |
❌ 无每次请求费用 |
$30/月 计算积分(Starter 套餐) |
函数:24 小时 ⎮ HTTP:150 秒 → 重定向至 303 页面 |
Starter:100 容器 / 200 请求/秒 ⎮ Team:1,000 容器 |
通过 API 获取现成的开源模型:
本地推理
LLM 服务框架
构建开源大语言模型Web聊天界面
| 工具 |
组织 |
描述 |
开源 |
GitHub |
| Text Generation WebUI |
oobabooga |
一个用于大语言模型的Gradio Web界面。 |
 |
 |
| Jan AI |
Jan HQ |
一个完全在您本地电脑上离线运行的ChatGPT开源替代方案。支持多种引擎(llama.cpp、TensorRT-LLM)。 |
 |
 |
| AnythingLLM |
Mintplex Labs |
一款集成了RAG、AI代理等功能的一体化桌面及Docker AI应用。 |
 |
 |
| Superagent |
Superagent AI |
允许开发者使用LLM和RAG将强大的AI助手集成到他们的应用中。 |
 |
 |
| Bionic-GPT |
Bionic GPT |
一款ChatGPT替代品,提供生成式AI优势的同时,严格保障数据隐私。 |
 |
 |
| Open WebUI |
Open WebUI |
一个用户友好的Web界面,用于与大语言模型(LLMs)交互。 |
 |
 |
| Xyne |
xynehq |
一个简洁、极简的Web聊天界面,用于与大语言模型交互。 |
 |
 |
| Assistant UI |
assistant-ui |
一个开源的类似ChatGPT的界面,设计简洁且响应迅速。 |
 |
 |
| Scira |
zaidmukaddam |
一个基于AI的搜索界面,利用LLM提供智能搜索结果。 |
 |
 |
| Onyx |
onyx-dot-app |
一个可定制且可扩展的Web聊天界面,用于与大语言模型交互。 |
 |
 |
| NextChat |
ChatGPTNextWeb |
一个基于Next.js的开源ChatGPT克隆,用于无缝的Web交互。 |
 |
 |
租用 GPU(微调、部署、训练)
无需代码的 UI 微调工具
微调框架
操作系统代理/AI 工作流
顶级代理框架
代理框架:核心能力
| 框架 |
内存与 RAG |
多模态性 |
多智能体支持 |
可观测性 |
| AgentDock |
内置 RAG 系统;知识库集成 |
🟢 多模态(文本、语音、工具、API) |
视觉化工作流编排与智能体链 |
全面的 LLM 追踪与信用记录跟踪 |
| Agno |
集成内存与向量数据库/RAG |
🟢 原生(文本、图像、音频、视频) |
监督者-工作者角色 |
内置云仪表盘/日志系统 |
| LangGraph |
持久化状态;易于外部集成 |
🔸 主要为文本;可通过节点扩展 |
层次化编排 |
LangSmith 集成与图编辑器 |
| SmolAgents |
内置短期记忆;可自定义长期记忆 |
🔸 通过 VLM 实现视觉智能体 |
模块化多智能体组合 |
较少;依赖外部日志系统 |
| Mastra |
持久化工作流;原生 RAG 流程 |
🟢 通过集成实现多模态 |
原生多智能体工作流 |
内置 OpenTelemetry 仪表盘 |
| Pydantic AI |
基于依赖注入的内存与 RAG 集成 |
🔸 以文本为主;可通过自定义 DI 实现多模态 |
类型安全的手动编排 |
有限;使用 Python 日志/OpenTelemetry |
| Atomic Agents |
每个智能体独立的内存与 RAG(向量数据库) |
🟢 原生多模态 |
显式的工作流串联 |
较少;建议使用外部监控工具 |
| Autogen |
内置短期记忆;可接入外部长期记忆 |
🔸 以文本为主;可扩展 |
自发的、自由形式的合作 |
中等;内部日志,无仪表盘 |
| CrewAI |
带状态的记忆与团队式 RAG |
🟢 多种模态(文本、图像等) |
监督者主导的多团队工作流 |
集成的仪表盘用于日志与监控 |
请参阅此 Google 表格,其中包含更多列。
视觉 AI 代理构建工具
| 工具 |
组织 |
描述 |
开源 |
GitHub |
| Rivet |
Ironclad |
用于设计和部署 AI 代理工作流的可视化构建工具。 |
 |
 |
| PySpur |
PySpur-Dev |
一款无缝构建和可视化 AI 代理的工具。 |
 |
 |
| Flowise |
FlowiseAI |
一个无代码、可视化的平台,用于设计 AI 代理工作流。 |
 |
 |
💬 代理系统模型调用定价(纯文本,2000 tokens 输入,100 tokens 输出,统一费率)
| 模型 |
💵 每次调用价格 |
💯 100 次调用 |
🧮 1,000 次调用 |
🔁 30,000 次调用 |
| Gemini Flash 2.0 |
$0.00000 |
$0.02 |
$0.24 |
$7.20 |
| GPT-4o mini |
$0.00144 |
$0.14 |
$1.44 |
$43.20 |
| GPT-4.1 |
$0.00480 |
$0.48 |
$4.80 |
$144.00 |
| Gemini Pro 2.5 |
$0.00350 |
$0.35 |
$3.50 |
$105.00 |
| Claude Haiku 3.5 |
$0.00200 |
$0.20 |
$2.00 |
$60.00 |
| Claude Sonnet 4 |
$0.00750 |
$0.75 |
$7.50 |
$225.00 |
| GPT-4o |
$0.01200 |
$1.20 |
$12.00 |
$360.00 |
| OpenAI o3 |
$0.02400 |
$2.40 |
$24.00 |
$720.00 |
代理相关工具(用于“构建”)
虚拟大脑
| 工具 |
组织 |
描述 |
开源 |
GitHub |
| Leon |
leon-ai |
一个由人工智能驱动的开源个人助理和自动化平台。 |
 |
 |
| Khoj |
khoj-ai |
一个利用人工智能组织和检索知识的虚拟大脑。 |
 |
 |
AI 代理
长期记忆
| 提供商 |
社区 |
成立时间 |
GitHub |
⭐ 星数 |
开源 |
| Letta |
💬 活跃开发者社区 |
2023年10月 |
 |
1.7万 |
✅ Apache-2.0 |
| Zep |
🤝 中等规模社区 |
2024年8月 |
 |
1.16万 |
⚠️ Graphiti CE (Apache-2.0) |
| MemoRAG |
🧪 小型研究团队 |
2024年9月 |
 |
1,800 |
✅ Apache-2.0 |
| Memary |
🧠 小众社区 |
2024年4月 |
 |
2,300 |
✅ MIT |
| Cognee |
🔄 中等规模 |
2023年8月 |
 |
5,800 |
✅ Apache-2.0 |
| Mem0 |
🚀 快速增长 |
2023年6月 |
 |
3.52万 |
✅ Apache-2.0 |
记忆功能对比
| 提供商 |
基础架构 |
可选知识图谱 |
自我编辑/自主性 |
循环摘要 |
分类标签 |
| Letta |
🧮 向量 |
⚠️ 部分支持 |
✅ 支持 |
⚠️ 部分支持(记忆块) |
✅ 支持 |
| Zep |
🧠 知识图谱 |
- |
✅ 支持 |
✅ 自动聊天摘要 |
✅ 支持 |
| MemoRAG |
🧮 向量 |
❌ 不支持 |
✅ 支持 |
❌ 使用长距离模型 |
❌ 不支持 |
| Memary |
🧠 知识图谱 |
- |
✅ 支持 |
⚠️ 计划推出“回溯”功能 |
✅ 支持 |
| Cognee |
🧠 知识图谱 |
- |
✅ 支持 |
❌ 无自动摘要 |
✅ 支持 |
| Mem0 |
🧮 向量 |
❌ 不支持 |
✅ 支持 |
❌ 未明确说明 |
✅ 支持 |
企业级安全性(云端使用)
| 提供商 |
企业级安全特性 |
| Mem0 |
🔐 托管服务,支持加密、组织和项目角色管理,符合 GDPR 的数据删除机制。采用 Graphlit 技术(未声明 SOC 2)。 |
| Letta |
☁️ 支持自托管或托管服务器。用户身份验证及按 ID 分区的内存。基于 Graphlit 架构。公开 SSO 详情缺失。 |
| Zep |
✅ SOC 2 Type 2 认证。静态与传输中加密、访问控制、JWT 以及删除 API(“被遗忘权”)。 |
| MemoRAG |
🏠 支持自托管 |
| Memary |
🏠 支持自托管 |
| Cognee |
🏠 支持自托管 |
按每月消息量定价
| 提供商 |
1千条消息/月 |
1万条消息/月 |
10万条消息/月 |
100万条消息/月 |
| Mem0 |
🆓 免费 |
🆓 免费–$29 |
💵 $249 |
🏢 企业级(定制) |
| Letta |
🆓 免费 |
💵 $20 |
💵 $750 |
🏢 企业级(定制) |
| Zep |
🆓 免费 |
🆓 免费 |
💵 ~ $112.50 |
💵 ~ $1,237 |
| MemoRAG |
💻 GPU 服务器 (~$150–300/月) |
💻 GPU 服务器 (~$150–300/月) |
💻 多 GPU($500+) |
🖥️ 集群($1K+/月) |
| 自托管 |
🖥️ 小型虚拟机 (~$15/月) |
🖥️ 小型虚拟机 (~$15–20/月) |
🖥️ 中型虚拟机 ($50–$100/月) |
🖥️ 大型虚拟机 ($200+/月) |
评估框架及附加组件
评估框架:核心差异
| 框架 |
Pytest / CLI 运行器 |
预置指标 |
合成数据生成 |
离线评判 |
模型无关 |
安全性 |
红队测试 |
自定义指标(设置速度) |
| DeepEval |
🟢 deepeval test |
40 + |
🟢 deepeval create-dataset |
🟢 |
🟢 |
🟢 |
🟢 |
🟢 G-Eval 构建器 — 几分钟(单个函数) |
| RAGAS |
✖(脚本断言) |
6 核心 RAG + 🔸 |
🟢 基于知识图谱的问答生成 |
🟢 |
🟢 |
🔸 自行搭建 |
✖ |
🟢 AspectCritic 单行代码 — 几分钟 |
| MLflow Evaluate |
✖(mlflow.evaluate) |
3-4 |
✖ 用户自备 |
🔸 可能 |
🔸 |
🟢 |
✖ |
🟢 子类评分器 — 几行代码,约一小时 |
| OpenAI Evals |
🟢 CLI 协调工具 |
~10 个模板 |
🔸 辅助脚本 |
✖ |
🟢 |
✖ |
✖ |
🟢 完整 Python/YAML 评估 — 灵活但较慢 |
飞行员助手
语音 API
开源 TTS 模型
更多 TTS 模型及排名,请查看 TTS 排行榜。
大模型应用框架
| 工具 |
组织 |
描述 |
开源 |
GitHub |
| Eino |
CloudWeGo |
一个轻量级的大模型应用框架,用于构建可扩展的AI解决方案。 |
 |
 |
| 对话知识挖掘解决方案加速器 |
微软 |
一个利用大模型集成对话智能和知识挖掘的解决方案加速器。 |
 |
 |
| Olmocr |
AllenAI |
一个针对与语言模型集成优化的OCR框架。 |
 |
 |
| PDFMathTranslate |
Byaidu |
一个使用大模型将PDF中的数学内容转换并翻译的工具。 |
 |
 |
| Podcastfy |
souzatharsis |
一个利用大模型将书面内容生成播客的工具。 |
 |
 |
| Pandas AI |
sinaptik-ai |
将大模型驱动的分析能力引入pandas数据框中。 |
 |
 |
| Ramalama |
containers |
一个用于容器化部署AI解决方案的大模型应用框架。 |
 |
 |
| Robyn |
facebookexperimental |
来自Facebook Experimental的可扩展大模型应用框架。 |
 |
 |
| ExtractThinker |
enoch3712 |
一个利用大模型从文本数据中提取和综合洞察的工具。 |
 |
 |
操作系统 RAG 框架
如果遇到困难,可以参考 RAG_Techniques(不一定总是需要)。
🔍 向量数据库 – 开源、性能、定价、开发体验
| 向量数据库 |
许可证 |
⚡ 性能 / 吞吐量 |
⏱️ 延迟(实际场景) |
☁️ 云服务定价 / 免费层 |
💻 开发体验 |
| Qdrant |
Apache 2.0 |
🥇 单节点基准测试中 RPS 最高、延迟最低(较上一轮提升 ≥4 倍) |
p95 < 10ms,处理 100 万向量时(单线程) |
始终在线 1GB 免费;按需付费约 $0.014/小时 |
REST + gRPC;7 种语言客户端;支持过滤感知的 HNSW 索引;混合检索支持;Python“嵌入式”模式 |
| Milvus / Zilliz Cloud |
Apache 2.0 |
🚀 索引构建速度最快;但在高维向量场景下,RPS 略逊于 Qdrant |
p95 ≈ 10–20ms,处理 100 万条 768 维数据时(DiskANN,厂商数据) |
5GB 免费;无服务器方案 $0.30/GB-月;专用集群从 $99/月起 |
新 SDK v2(异步、Schema 缓存);支持 Python/Go/Java/Node |
| Weaviate |
BSD-3-Clause |
⚙️ 基准测试性能提升最小,但召回率尚可(95%+)且吞吐量不错 |
宣称“低毫秒级”延迟;用户反馈若配置不当,延迟可达 100–300ms |
起价 $25/月;提供 14 天免费沙盒 |
GraphQL + REST;强大的 SDK(Py/TS/Go/Java);易于实现 RAG 和混合检索模板 |
| pgvector |
MIT |
🔥 在 99% 召回率下,p95 比 Pinecone s1 低 28 倍,QPS 高 16 倍(5000 万条记录) |
p95 < 50ms,处理 5000 万条 768 维数据时(Timescale 测试) |
Neon/Supabase 提供免费 Postgres 数据库,并内置 pgvector(0.5–1GB,约 200 小时 CPU) |
纯 SQL;支持 JOIN 和 ACID 事务;非常适合文本与密集向量的混合查询 |
| Redis 8 Vector |
AGPLv3 / RSAL / SSPL |
🧵 在召回率 ≥0.98 的情况下,QPS 比 Qdrant 高 3.4 倍,比 Milvus 高 4 倍 |
平均亚毫秒级,负载下 <10ms(厂商数据);比 Aurora+pgvector 低 9.7 倍 |
Redis Cloud:30MB 免费,按需付费从 $5/月起;Flex 方案 $0.007/小时 |
Redis Vector Library + RAG 辅助工具;OM 客户端支持 .NET/Py/JS;快速部署 |
💾 向量数据库云服务定价(2000 字分块,约 768 维)
| 分块数量 |
数据大小 |
🟣 Milvus / Zilliz Cloud(无服务器) |
🟢 Qdrant Cloud |
🟡 Weaviate Cloud(“标准”套餐) |
| 1 万 |
~0.07 GB |
🆓 免费——在 5GB 免费层级内 |
🆓 免费——可容纳于 1GB RAM 和 4GB 磁盘中 |
$25 基础费用 + $1.2 按维度收费 ≈ $26 |
| 10 万 |
~0.67 GB |
🆓 仍处于 5GB 以内 |
🆓 通过压缩后可容纳于 4GB 磁盘中 |
$25 + $12.0 按维度收费 ≈ $37 |
| 100 万 |
~6.7 GB |
💵 存储费用约 $2;另加 vCU 费用或选择 $99 的专用集群 |
💵 需要 10GB 集群 → ≈ $20/月 |
$25 + $120.5 按维度收费 ≈ $145 |
| 1000 万 |
~67 GB |
💵 存储费用约 $20;加上计算成本:总计 $100–150 |
💵 需要 64GB 以上 → 估算为 $120–150/月 |
$25 + $1,204 按维度收费 ≈ $1,230 |
🧠 嵌入生成成本——OpenAI(小型模型,按分块大小)
| 分块数量 |
📏 1,000 字 |
📏 2,000 字 |
📏 3,000 字 |
| 1,000 |
$0.01 |
$0.01 |
$0.01 |
| 10,000 |
$0.05 |
$0.10 |
$0.15 |
| 100,000 |
$0.50 |
$1.00 |
$1.50 |
| 1,000,000 |
$5.00 |
$10.00 |
$15.00 |
| 10,000,000 |
$50.00 |
$100.00 |
$150.00 |
AI 工具(用于“使用”)
训练/优化
| 工具 |
组织 |
描述 |
开源 |
GitHub |
| transformerlab-app |
transformerlab |
一款用于训练和优化 Transformer 模型的应用程序。 |
 |
 |
| fluxgym |
cocktailpeanut |
一个用于强化学习训练和优化的 Gym 环境。 |
 |
 |
| AutoGPTQ |
AutoGPTQ |
一款用于自动化 GPT 量化和优化的工具。 |
 |
 |
AI 模型
| 工具 |
组织 |
描述 |
开源 |
GitHub |
| WALDO |
stephansturges |
一个用于视觉推理和目标检测的AI模型。 |
 |
 |
| Janus |
deepseek-ai |
一个用于高级数据处理的多模态AI模型。 |
 |
 |
| ModernBERT |
AnswerDotAI |
BERT 的现代化版本,适用于自然语言处理任务。 |
 |
 |
| Magma |
microsoft |
一个用于大规模数据分析的可扩展AI模型。 |
 |
 |
| Cosmos-Nemotron |
NVlabs |
一个用于高级图像和视频处理的AI模型。 |
 |
 |
| Paints-UNDO |
lllyasviel |
一个用于图像生成和编辑的交互式AI模型。 |
 |
 |
监控
| 工具 |
组织 |
描述 |
开源 |
GitHub |
| helicone |
Helicone |
一个用于监控和分析AI模型性能的平台。 |
 |
 |
| langwatch |
langwatch |
一个用于监控语言模型输出和性能的工具。 |
 |
 |
基础设施
| 工具 |
组织 |
描述 |
开源 |
GitHub |
| gpustack |
gpustack |
一个用于管理AI工作负载GPU基础设施的工具包。 |
 |
 |
| harbor |
av |
一个用于容器化AI基础设施管理的仓库。 |
 |
 |
思维链提示相关研究论文
| 发表日期 |
标题 |
🔗 |
作者 |
机构 |
技术方法 |
| 2022年1月28日 |
思维链提示激发大型语言模型的推理能力 |
🔗 |
Jason Wei 等 |
DeepMind |
思维链提示 |
| 2022年3月21日 |
自洽性提升语言模型的思维链推理能力 |
🔗 |
Xuezhi Wang 等 |
DeepMind |
带自洽性的思维链提示 |
| 2022年5月21日 |
由简入繁提示使大型语言模型具备复杂推理能力 |
🔗 |
Denny Zhou 等 |
DeepMind |
由简入繁提示 |
| 2022年5月21日 |
大型语言模型是零样本推理者 |
🔗 |
Takeshi Kojima 等 |
DeepMind |
零样本思维链提示 |
| 2022年10月6日 |
ReAct:在语言模型中协同推理与行动 |
🔗 |
Shunyu Yao 等 |
普林斯顿大学 |
ReAct |
| 2023年4月1日 |
教导大型语言模型进行自我调试 |
🔗 |
Xiang Lisa Li 等 |
DeepMind、斯坦福大学 |
自我调试 |
| 2023年5月6日 |
计划-求解提示:提升大型语言模型的零样本思维链推理能力 |
🔗 |
Lei Wang 等 |
香港中文大学、商汤科技研究院 |
计划-求解提示 |
| 2023年5月23日 |
让我们逐步验证 |
🔗 |
Anya Goyal 等 |
DeepMind |
思维链验证 |
| 2023年10月3日 |
大型语言模型目前仍无法自我纠正推理错误 |
🔗 |
Qingxiu Dong 等 |
香港中文大学、华为诺亚方舟实验室 |
LLM中的自我纠正 |
| 2023年11月 |
大型语言模型生成的通用自洽性 |
🔗 |
Xinyun Chen、Renat Aksitov、Uri Alon、Jie Ren、Kefan Xiao、Pengcheng Yin、Sushant Prakash、Charles Sutton、Xuezhi Wang、Denny Zhou |
DeepMind |
通用自洽性 |
| 2023年5月17日 |
思维之树:利用大型语言模型进行深思熟虑的问题解决 |
🔗 |
Shunyu Yao 等 |
普林斯顿大学、DeepMind |
思维之树 |
| 2024年2月15日 |
无需提示的思维链推理 |
🔗 |
Xuezhi Wang、Denny Zhou |
DeepMind |
思维链解码 |
| 2024年3月21日 |
ChainLM:通过改进思维链提示赋能大型语言模型 |
🔗 |
Xiaoxue Cheng 等 |
中国人民大学 |
CoTGenius |
| 2024年6月 |
语言智能体树搜索统一了语言模型中的推理、行动和规划 |
🔗 |
Andy Zhou、Kai Yan、Michal Shlapentokh-Rothman、Haohan Wang、Yu-Xiong Wang |
无 |
语言智能体树搜索 (LATS) |
| 2024年5月 |
蒙特卡洛树搜索通过迭代偏好学习提升推理能力 |
🔗 |
Yuxi Xie 等 |
新加坡国立大学、DeepMind |
MCTS |
| 2024年9月18日 |
要思维链还是不要?思维链主要有助于数学和符号推理 |
🔗 |
Zayne Sprague 等 |
德克萨斯大学奥斯汀分校、约翰霍普金斯大学、普林斯顿大学 |
思维链的元分析 |
| 2024年9月25日 |
无思维链?对规划中思维链的分析 |
🔗 |
Kaya Stechly 等 |
亚利桑那州立大学 |
规划中思维链的分析 |
| 2024年10月18日 |
监督式思维链 |
🔗 |
Xiang Zhang、Dujian Ding |
不列颠哥伦比亚大学 |
监督式思维链 |
| 2024年10月24日 |
关于示例:对思维链的理论理解——连贯推理与误差感知示范 |
🔗 |
Zhiqiang Hu 等 |
亚马逊、密歇根州立大学 |
思维链的理论分析 |
思考链实现
思考链微调模型与数据集
模型
| 模型名称 |
作者 |
参数量 |
链接 |
| CoT-T5-3B |
KAIST AI |
30亿 |
🔗 |
| CoT-T5-11B |
KAIST AI |
110亿 |
🔗 |
| Llama-3.2V-11B-cot |
Xkev |
110亿 |
🔗 |
| Llama-3.1-8B-Instruct-Reasoner-1o1_v0.3 |
Lyte |
80亿 |
🔗 |
数据集
| 数据集名称 |
作者 |
数据规模 |
点赞数 |
链接 |
| chain-of-thought-sharegpt |
Isaiah Bjork |
7,140条 |
🌟 8 |
🔗 |
| CoT-Collection |
KAIST AI |
184万条 |
🌟 122 |
🔗 |
| Reasoner-1o1-v0.3-HQ |
Lyte |
370条 |
🌟 7 |
🔗 |
| OpenLongCoT-Pretrain |
qq8933 |
103,000条 |
🌟 86 |
🔗 |
学习资源
Awesome-LLM-Resources-List 快速上手指南
Awesome-LLM-Resources-List 并非单一的可安装软件,而是一个精选的大语言模型(LLM)资源集合,涵盖了模型托管、推理框架、本地运行工具及 API 服务平台。本指南将指导开发者如何根据需求选择并快速启动其中最流行的本地推理工具和服务框架。
环境准备
在开始使用列表中的工具前,请确保满足以下基础环境要求:
- 操作系统: Linux (推荐 Ubuntu 20.04+), macOS, 或 Windows (WSL2)。
- 硬件要求:
- CPU 运行: 至少 8GB 内存(推荐 16GB+),适用于小参数模型量化版本。
- GPU 运行: NVIDIA GPU (显存建议 8GB+),需安装正确的 CUDA 驱动。
- 前置依赖:
- Python 3.8+
- Git
- (可选) Docker & Docker Compose
- (可选) NVIDIA Container Toolkit (用于 GPU 容器化部署)
国内加速建议:
安装步骤
根据您的需求场景,选择以下一种主流工具进行安装:
方案 A:本地快速体验 (推荐新手) - Ollama
最适合在本地笔记本电脑或个人服务器上快速运行开源模型。
# Linux/macOS 一键安装
curl -fsSL https://ollama.com/install.sh | sh
# Windows 用户请下载安装包运行: https://ollama.com/download/windows
# 验证安装
ollama --version
方案 B:高性能服务部署 - vLLM
适合生产环境,提供高吞吐量的模型推理服务。
# 创建虚拟环境 (推荐)
python -m venv vllm-env
source vllm-env/bin/activate # Windows: vllm-env\Scripts\activate
# 安装 vLLM (NVIDIA GPU 环境)
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple vllm
# 或者使用 Docker 运行 (推荐,避免环境冲突)
docker run --gpus all -it --rm \
-p 8000:8000 \
--ipc=host \
vllm/vllm-openai:latest
方案 C:无服务器托管探索 - Modal
适合希望将模型部署到云端且按量付费的开发者。
# 安装 Modal CLI
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple modal
# 认证账号 (按提示操作)
modal token new
# 初始化项目
modal init
基本使用
1. 使用 Ollama 运行模型
最简单的单行命令即可下载并运行模型(例如 Llama 3)。
# 拉取并运行模型
ollama run llama3
# 在交互式命令行中直接对话
>>> Hello, who are you?
后台服务模式 (作为 API 使用):
# 启动服务 (默认端口 11434)
ollama serve
# 另开终端测试 API
curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt": "Hello!"
}'
2. 使用 vLLM 部署 OpenAI 兼容服务
启动一个高性能推理服务器,完全兼容 OpenAI API 格式。
# 启动服务 (自动下载模型)
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Meta-Llama-3-8B-Instruct \
--port 8000
# 调用示例 (使用 curl)
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "meta-llama/Meta-Llama-3-8B-Instruct",
"messages": [{"role": "user", "content": "你好,请介绍一下你自己"}]
}'
3. 使用 Modal 部署无服务器模型
创建一个简单的 main.py 文件,利用 Modal 的云端算力。
# main.py
import modal
app = modal.App("example-llama")
image = modal.Image.debian_slim().pip_install("torch", "transformers")
@app.function(image=image, gpu="A10G")
def generate(prompt: str) -> str:
from transformers import pipeline
generator = pipeline("text-generation", model="TinyLlama/TinyLlama-1.1B-Chat-v1.0")
return generator(prompt)[0]["generated_text"]
if __name__ == "__main__":
# 本地触发云端运行
print(generate.remote("Once upon a time,"))
运行命令:
modal run main.py
4. 访问现成 API (无需部署)
如果您不想自行托管,可直接调用列表中提供的 API 服务(如 Together.ai, Groq 等)。
# 示例:使用 OpenAI 兼容客户端调用第三方服务
from openai import OpenAI
client = OpenAI(
base_url="https://api.together.xyz/v1", # 替换为具体服务商地址
api_key="YOUR_API_KEY"
)
response = client.chat.completions.create(
model="meta-llama/Llama-3-8b-chat-hf",
messages=[{"role": "user", "content": "Hello world"}]
)
print(response.choices[0].message.content)