Awesome-LLM-Resources-List

514 85 非常简单 1 次阅读 3天前语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

Awesome-LLM-Resources-List 是一个专为应用级 AI 工程打造的精选资源库，旨在帮助开发者高效落地大语言模型（LLM）项目。面对市面上繁杂的模型部署方案与云服务选项，它系统地梳理了各类“无服务器”托管平台（如 Modal、Baseten、Hugging Face Endpoints 等），通过直观的对比表格，清晰展示了各工具在冷启动速度、开源模型支持度、开发体验及免费额度等关键维度的差异。

此外，该资源库还深入分析了不同平台在计算定价、请求限制、超时阈值及并发能力上的具体细节，为用户提供了极具参考价值的成本与性能评估数据。这有效解决了技术选型难、环境配置复杂以及成本预估不透明等痛点，让团队能快速找到最适合自身需求的部署方案。

无论是正在探索模型落地的 AI 工程师、需要控制预算的研究人员，还是希望快速构建原型的初创团队，都能从中获益。其独特的亮点在于不仅罗列资源，更提供了横向的技术指标对比和实战指南，将复杂的云基础设施决策过程变得简单透明，是连接大模型技术与实际工程应用的实用桥梁。

使用场景

一家初创公司的后端团队急需将开源大模型（如 Llama 3）以低成本、无服务器的方式部署到生产环境，以支持其智能客服功能。

没有 Awesome-LLM-Resources-List 时

选型迷茫：面对 Baseten、Modal、Replicate 等十几个平台，团队花费数天查阅零散文档，仍无法判断哪个支持“一键部署”或具备真正的免费额度。
成本失控风险：由于缺乏清晰的计费对比（如 GB-sec 单价与并发限制），误选了冷启动慢且按分钟计费的方案，导致低流量时段也在白白烧钱。
开发效率低下：反复尝试不同平台的配置脚本，因缺少官方指引或社区验证的 Helper 脚本，在环境适配和 API 对接上浪费了大量工时。
技术决策盲目：不清楚哪些平台真正支持开源模型私有化部署，容易陷入供应商锁定或遭遇隐性功能限制。

使用 Awesome-LLM-Resources-List 后

快速精准选型：直接通过表格对比"Scale Down"时间和"One-Click"支持情况，迅速锁定 Modal 或 RunPod 等适合突发流量的秒级弹性平台。
成本透明可控：参考详细的"Serverless Compute Pricing"数据，结合免费额度（如 AWS Lambda 的 100 万次请求）制定最优预算，避免资源浪费。
部署极速落地：利用列表中提供的官方指南链接和 GitHub Helper 脚本，将模型部署时间从几天缩短至几小时，甚至实现一键上线。
架构决策有据：清晰识别各平台对开源模型的支持程度及开发者体验评分，确保技术栈既灵活又符合长期维护需求。

Awesome-LLM-Resources-List 将碎片化的部署信息转化为结构化决策依据，让团队从“盲目试错”转向“精准落地”，显著降低大模型工程化的门槛与成本。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库（Awesome-LLM-Resources-List）本身是一个资源列表，而非单一的可执行软件工具，因此没有统一的运行环境需求。它列出了多种不同的平台（如 Baseten, Modal, AWS Lambda）、API 服务（如 Groq, Replicate）和本地推理框架（如 Llama.cpp, Ollama, vLLM）。具体的操作系统、GPU、内存、Python 版本及依赖库要求取决于用户选择使用的具体工具或框架。例如，本地运行 vLLM 通常需要 Linux 环境和 NVIDIA GPU，而使用云端 API 则无本地硬件要求。

python未说明

快速开始

🌟 令人惊叹的 LLM 资源

精选的 LLM 资源合集。💡✨

🌐 更新日期：2025年6月22日

“无服务器”托管私有/开源模型

平台/工具	成立时间	缩放时间	开源 🔓	入门	一键部署	开发体验	免费 tier
Baseten	2019	> 15 分钟	🔴	指南	🟡	👍	$30
Modal	2021	< 1 分钟	🔴	辅助脚本	❌	👍	$30/月
HF Endpoints	2023	> 15 分钟	🔴	无需额外步骤	✅	😓	❌
Replicate	2019	< 1 分钟	🔴	指南	🟡	🤷	❌
Sagemaker (无服务器)	2017	不适用	🔴	不适用	❌	❌	300,000 秒
Lambda w/ EFS (AWS)	2014	< 1 分钟	🔴	指南	❌	❌	✅
RunPod Serverless	2022	> 30 秒	🔴	不适用	❌	🤷	❌
BentoML	2019	> 5 分钟		图库	🟡	👍	🆓 $10

毋庸置疑，这些平台通常还能胜任更多任务，而不仅仅是 LLM 的服务。

🧮 无服务器计算定价与限制——Lambda vs Modal（CPU）

平台	💵 计算单位	📥 每次请求费用	🆓 免费 tier	⏱️ 最大超时	🚦 并发限制
AWS Lambda + API GW	GB-秒 @ $0.000016667	$0.20/M Lambda + $1.00/M HTTP API 调用	100 万请求 + 40 万 GB-秒/月（12 个月）+ 100 万 API 调用/月	15 分钟	每个区域 1,000 个（可申请更多）
Modal	CPU-秒 @ $0.0000131 + GiB-秒 @ $0.00000222	❌ 无每次请求费用	$30/月计算积分（Starter 套餐）	函数：24 小时 ⎮ HTTP：150 秒 → 重定向至 303 页面	Starter：100 容器 / 200 请求/秒 ⎮ Team：1,000 容器

通过 API 获取现成的开源模型：

平台/工具	发布时间	GitHub
Together.ai	未注明	🔴
Fireworks.ai	未注明
Replicate	2019
Groq	未注明
DeepInfra	未注明
Bedrock	未注明
Lepton	未注明
Fal.ai	未注明
VertexAI	未注明

本地推理

框架	浏览器聊天 🖥️	组织	开源
Llama.cpp	❌	ggerganov
Ollama	❌	Ollama
gpt4all	✅	Nomic.ai
LMStudio	✅	LMStudio AI	🔴
OpenLLM	✅	BentoML

LLM 服务框架

框架	开源	GitHub
vLLM
OpenLLM
TGI (文本生成推理)
TensorRT LLM
Ray Serve
LMDeploy
Ollama
MLC-LLM

构建开源大语言模型Web聊天界面

工具	组织	描述
Text Generation WebUI	oobabooga	一个用于大语言模型的Gradio Web界面。
Jan AI	Jan HQ	一个完全在您本地电脑上离线运行的ChatGPT开源替代方案。支持多种引擎（llama.cpp、TensorRT-LLM）。
AnythingLLM	Mintplex Labs	一款集成了RAG、AI代理等功能的一体化桌面及Docker AI应用。
Superagent	Superagent AI	允许开发者使用LLM和RAG将强大的AI助手集成到他们的应用中。
Bionic-GPT	Bionic GPT	一款ChatGPT替代品，提供生成式AI优势的同时，严格保障数据隐私。
Open WebUI	Open WebUI	一个用户友好的Web界面，用于与大语言模型（LLMs）交互。
Xyne	xynehq	一个简洁、极简的Web聊天界面，用于与大语言模型交互。
Assistant UI	assistant-ui	一个开源的类似ChatGPT的界面，设计简洁且响应迅速。
Scira	zaidmukaddam	一个基于AI的搜索界面，利用LLM提供智能搜索结果。
Onyx	onyx-dot-app	一个可定制且可扩展的Web聊天界面，用于与大语言模型交互。
NextChat	ChatGPTNextWeb	一个基于Next.js的开源ChatGPT克隆，用于无缝的Web交互。

租用 GPU（微调、部署、训练）

平台	模板	是否适合初学者
Brev.dev	微调	❌
Modal	微调	❌
Hyperbolic AI	无	❌
RunPod	无	❌
Paperspace	微调	✅
Colab	仅小型模型	✅

无需代码的 UI 微调工具

工具	是否适合初学者	开源	GitHub
Together.ai	✅	❌	N/A
Hugging Face AutoTrain	✅	❌
AutoML	❌	✅
LLaMA-Factory	❌	✅
H2O LLM Studio	✅	✅

微调框架

框架	开源	GitHub
Axolotl
Unsloth

操作系统代理/AI 工作流

框架	初学者友好	发布年份
LangChain	✅	2022
LlamaIndex	❌	2023
Swarms	❌	2023
CrewAI	✅	2023
Autogen	✅	2023
AutoChain	❌	2023
SuperAGI	❌	2023
AILegion	❌	2023
MemGPT (Letta)	❌	2023
uAgents	❌	2023
AGiXT	❌	2023
Dify	✅	2024
TaskingAI	✅	2024
Bee Agent Framework	❌	2024
Swarms	❌	2024
IoA	❌	2024
Upsonic	❌	2024
Parlant	❌	2024
Rig	❌	2024
eliza	✅	2024
TensorZero	❌	2024
AgentDock	✅	2025

顶级代理框架

框架	初学者友好	发布年份
LangGraph	❌	2023
Flowise	✅	2023
Langroid	❌	2023
smolagents	❌	2024
Semantic Kernel	❌	2023
Atomic Agents	❌	2024
Agno	✅	2024
PydanticAI	❌	2024
Mastra	✅	2025

代理框架：核心能力

框架	内存与 RAG	多模态性	多智能体支持	可观测性
AgentDock	内置 RAG 系统；知识库集成	🟢 多模态（文本、语音、工具、API）	视觉化工作流编排与智能体链	全面的 LLM 追踪与信用记录跟踪
Agno	集成内存与向量数据库/RAG	🟢 原生（文本、图像、音频、视频）	监督者-工作者角色	内置云仪表盘/日志系统
LangGraph	持久化状态；易于外部集成	🔸 主要为文本；可通过节点扩展	层次化编排	LangSmith 集成与图编辑器
SmolAgents	内置短期记忆；可自定义长期记忆	🔸 通过 VLM 实现视觉智能体	模块化多智能体组合	较少；依赖外部日志系统
Mastra	持久化工作流；原生 RAG 流程	🟢 通过集成实现多模态	原生多智能体工作流	内置 OpenTelemetry 仪表盘
Pydantic AI	基于依赖注入的内存与 RAG 集成	🔸 以文本为主；可通过自定义 DI 实现多模态	类型安全的手动编排	有限；使用 Python 日志/OpenTelemetry
Atomic Agents	每个智能体独立的内存与 RAG（向量数据库）	🟢 原生多模态	显式的工作流串联	较少；建议使用外部监控工具
Autogen	内置短期记忆；可接入外部长期记忆	🔸 以文本为主；可扩展	自发的、自由形式的合作	中等；内部日志，无仪表盘
CrewAI	带状态的记忆与团队式 RAG	🟢 多种模态（文本、图像等）	监督者主导的多团队工作流	集成的仪表盘用于日志与监控

请参阅此 Google 表格，其中包含更多列。

视觉 AI 代理构建工具

工具	组织	描述
Rivet	Ironclad	用于设计和部署 AI 代理工作流的可视化构建工具。
PySpur	PySpur-Dev	一款无缝构建和可视化 AI 代理的工具。
Flowise	FlowiseAI	一个无代码、可视化的平台，用于设计 AI 代理工作流。

💬 代理系统模型调用定价（纯文本，2000 tokens 输入，100 tokens 输出，统一费率）

模型	💵 每次调用价格	💯 100 次调用	🧮 1,000 次调用	🔁 30,000 次调用
Gemini Flash 2.0	$0.00000	$0.02	$0.24	$7.20
GPT-4o mini	$0.00144	$0.14	$1.44	$43.20
GPT-4.1	$0.00480	$0.48	$4.80	$144.00
Gemini Pro 2.5	$0.00350	$0.35	$3.50	$105.00
Claude Haiku 3.5	$0.00200	$0.20	$2.00	$60.00
Claude Sonnet 4	$0.00750	$0.75	$7.50	$225.00
GPT-4o	$0.01200	$1.20	$12.00	$360.00
OpenAI o3	$0.02400	$2.40	$24.00	$720.00

代理相关工具（用于“构建”）

工具	组织	描述
browser-use	browser-use	将浏览器功能集成到代理工作流中。
code2prompt	mufeedvh	将代码片段转换为可用于开发的可操作提示。
note-gen	codexu	自动从你的代码中生成笔记和文档。
refly	refly-ai	自动化代码重构和提示生成任务。
potpie	potpie-ai	一个用于原型设计和构建 AI 代理流水线的工具包。
AgentStack	AgentOps-AI	一个用于构建和部署 AI 代理的综合栈。
browser	lightpanda-io	一款基于浏览器的工具，专为集成代理功能而设计。
Memary	kingjulio8238	一个用于在代理工作流中保持上下文的记忆模块。
open-canvas	langchain-ai	一个用于使用 LangChain 设计代理工作流的可视化界面。
agent-service-toolkit	JoshuaC215	一个用于构建和部署基于代理的服务的工具包。

虚拟大脑

工具	组织	描述	开源	GitHub
Leon	leon-ai	一个由人工智能驱动的开源个人助理和自动化平台。
Khoj	khoj-ai	一个利用人工智能组织和检索知识的虚拟大脑。

AI 代理

框架	组织	开源	发布时间
GPT Engineer	GPT Engineer Org		2023
XAgent	OpenBMB		2023
Bolt.new	StackBlitz		2023
Goose	Block		2023
AI Hedge Fund	virattt		2023
FinRobot	AI4Finance Foundation		2024
STORM	Stanford OVAL		2024
Multion	MULTI-ON	🔴	无
Minion	Minion AI	🔴	无

长期记忆

提供商	社区	成立时间	⭐ 星数	开源
Letta	💬 活跃开发者社区	2023年10月	1.7万	✅ Apache-2.0
Zep	🤝 中等规模社区	2024年8月	1.16万	⚠️ Graphiti CE (Apache-2.0)
MemoRAG	🧪 小型研究团队	2024年9月	1,800	✅ Apache-2.0
Memary	🧠 小众社区	2024年4月	2,300	✅ MIT
Cognee	🔄 中等规模	2023年8月	5,800	✅ Apache-2.0
Mem0	🚀 快速增长	2023年6月	3.52万	✅ Apache-2.0

记忆功能对比

提供商	基础架构	可选知识图谱	自我编辑/自主性	循环摘要	分类标签
Letta	🧮 向量	⚠️ 部分支持	✅ 支持	⚠️ 部分支持（记忆块）	✅ 支持
Zep	🧠 知识图谱	-	✅ 支持	✅ 自动聊天摘要	✅ 支持
MemoRAG	🧮 向量	❌ 不支持	✅ 支持	❌ 使用长距离模型	❌ 不支持
Memary	🧠 知识图谱	-	✅ 支持	⚠️ 计划推出“回溯”功能	✅ 支持
Cognee	🧠 知识图谱	-	✅ 支持	❌ 无自动摘要	✅ 支持
Mem0	🧮 向量	❌ 不支持	✅ 支持	❌ 未明确说明	✅ 支持

企业级安全性（云端使用）

提供商	企业级安全特性
Mem0	🔐 托管服务，支持加密、组织和项目角色管理，符合 GDPR 的数据删除机制。采用 Graphlit 技术（未声明 SOC 2）。
Letta	☁️ 支持自托管或托管服务器。用户身份验证及按 ID 分区的内存。基于 Graphlit 架构。公开 SSO 详情缺失。
Zep	✅ SOC 2 Type 2 认证。静态与传输中加密、访问控制、JWT 以及删除 API（“被遗忘权”）。
MemoRAG	🏠 支持自托管
Memary	🏠 支持自托管
Cognee	🏠 支持自托管

按每月消息量定价

提供商	1千条消息/月	1万条消息/月	10万条消息/月	100万条消息/月
Mem0	🆓 免费	🆓 免费–$29	💵 $249	🏢 企业级（定制）
Letta	🆓 免费	💵 $20	💵 $750	🏢 企业级（定制）
Zep	🆓 免费	🆓 免费	💵 ~ $112.50	💵 ~ $1,237
MemoRAG	💻 GPU 服务器 (~$150–300/月)	💻 GPU 服务器 (~$150–300/月)	💻 多 GPU（$500+）	🖥️ 集群（$1K+/月）
自托管	🖥️ 小型虚拟机 (~$15/月)	🖥️ 小型虚拟机 (~$15–20/月)	🖥️ 中型虚拟机 ($50–$100/月)	🖥️ 大型虚拟机 ($200+/月)

评估框架及附加组件

框架	初学者友好	发布年份
TruLens	✅	2023
Promptfoo	✅	2023
DeepEval	✅	2024
RAGAS	❌	2023
OpenAI Evals	❌	2023
LangChain OpenEvals	✅	2025
LangChain AgentEvals	❌	2025
LlamaIndex Eval	✅	2023

评估框架：核心差异

框架	Pytest / CLI 运行器	预置指标	合成数据生成	离线评判	模型无关	安全性	红队测试	自定义指标（设置速度）
DeepEval	🟢 `deepeval test`	40 +	🟢 `deepeval create-dataset`	🟢	🟢	🟢	🟢	🟢 G-Eval 构建器 — 几分钟（单个函数）
RAGAS	✖（脚本断言）	6 核心 RAG + 🔸	🟢 基于知识图谱的问答生成	🟢	🟢	🔸 自行搭建	✖	🟢 `AspectCritic` 单行代码 — 几分钟
MLflow Evaluate	✖（`mlflow.evaluate`）	3-4	✖ 用户自备	🔸 可能	🔸	🟢	✖	🟢 子类评分器 — 几行代码，约一小时
OpenAI Evals	🟢 CLI 协调工具	~10 个模板	🔸 辅助脚本	✖	🟢	✖	✖	🟢 完整 Python/YAML 评估 — 灵活但较慢

飞行员助手

框架	开源	GitHub
Aider
Cursor
Continue

语音 API

框架	开源	GitHub
VAPI.ai	🔴
Bland.ai	🔴	无
CallAnnie	🔴	无
RealtimeTTS
RealtimeSTT
Coqui TTS

开源 TTS 模型

模型	许可证	星级/点赞数	过去一个月下载量	仓库
Kokoro-82M	Apache 2.0	⭐ 3.16k (HF)	📥 557,392	Hugging Face
Zonos-v0.1-transformer	Apache 2.0	⭐ 249 (HF)	📥 24,240	Hugging Face
XTTS-v2	非商业用途	❤️ 368 (HF)	📥 2,545,850	Hugging Face
ChatTTS	AGPL-3.0	无	无	GitHub
MeloTTS	MIT	无	无	GitHub

更多 TTS 模型及排名，请查看 TTS 排行榜。

大模型应用框架

工具	组织	描述
Eino	CloudWeGo	一个轻量级的大模型应用框架，用于构建可扩展的AI解决方案。
对话知识挖掘解决方案加速器	微软	一个利用大模型集成对话智能和知识挖掘的解决方案加速器。
Olmocr	AllenAI	一个针对与语言模型集成优化的OCR框架。
PDFMathTranslate	Byaidu	一个使用大模型将PDF中的数学内容转换并翻译的工具。
Podcastfy	souzatharsis	一个利用大模型将书面内容生成播客的工具。
Pandas AI	sinaptik-ai	将大模型驱动的分析能力引入pandas数据框中。
Ramalama	containers	一个用于容器化部署AI解决方案的大模型应用框架。
Robyn	facebookexperimental	来自Facebook Experimental的可扩展大模型应用框架。
ExtractThinker	enoch3712	一个利用大模型从文本数据中提取和综合洞察的工具。

操作系统 RAG 框架

框架	组织	发布年份
Haystack	deepset.ai	2023
RAGflow	Infiniflow	2024
txtai	Neuml	2022
LLM App	Pathway	2023
Cognita	Truefoundry	2024
R2R	SciPhi AI	2024
Raptor	Parth Sarthi	2024
LightRAG	HKUDS	2023
PIKE-RAG	Microsoft	2024
KAG	OpenSPG	2024
MemoRAG	qhjqhj00	2023

如果遇到困难，可以参考 RAG_Techniques（不一定总是需要）。

🔍 向量数据库 – 开源、性能、定价、开发体验

向量数据库	许可证	⚡ 性能 / 吞吐量	⏱️ 延迟（实际场景）	☁️ 云服务定价 / 免费层	💻 开发体验
Qdrant	Apache 2.0	🥇 单节点基准测试中 RPS 最高、延迟最低（较上一轮提升 ≥4 倍）	p95 < 10ms，处理 100 万向量时（单线程）	始终在线 1GB 免费；按需付费约 $0.014/小时	REST + gRPC；7 种语言客户端；支持过滤感知的 HNSW 索引；混合检索支持；Python“嵌入式”模式
Milvus / Zilliz Cloud	Apache 2.0	🚀 索引构建速度最快；但在高维向量场景下，RPS 略逊于 Qdrant	p95 ≈ 10–20ms，处理 100 万条 768 维数据时（DiskANN，厂商数据）	5GB 免费；无服务器方案 $0.30/GB-月；专用集群从 $99/月起	新 SDK v2（异步、Schema 缓存）；支持 Python/Go/Java/Node
Weaviate	BSD-3-Clause	⚙️ 基准测试性能提升最小，但召回率尚可（95%+）且吞吐量不错	宣称“低毫秒级”延迟；用户反馈若配置不当，延迟可达 100–300ms	起价 $25/月；提供 14 天免费沙盒	GraphQL + REST；强大的 SDK（Py/TS/Go/Java）；易于实现 RAG 和混合检索模板
pgvector	MIT	🔥 在 99% 召回率下，p95 比 Pinecone s1 低 28 倍，QPS 高 16 倍（5000 万条记录）	p95 < 50ms，处理 5000 万条 768 维数据时（Timescale 测试）	Neon/Supabase 提供免费 Postgres 数据库，并内置 pgvector（0.5–1GB，约 200 小时 CPU）	纯 SQL；支持 JOIN 和 ACID 事务；非常适合文本与密集向量的混合查询
Redis 8 Vector	AGPLv3 / RSAL / SSPL	🧵 在召回率 ≥0.98 的情况下，QPS 比 Qdrant 高 3.4 倍，比 Milvus 高 4 倍	平均亚毫秒级，负载下 <10ms（厂商数据）；比 Aurora+pgvector 低 9.7 倍	Redis Cloud：30MB 免费，按需付费从 $5/月起；Flex 方案 $0.007/小时	Redis Vector Library + RAG 辅助工具；OM 客户端支持 .NET/Py/JS；快速部署

💾 向量数据库云服务定价（2000 字分块，约 768 维）

分块数量	数据大小	🟣 Milvus / Zilliz Cloud（无服务器）	🟢 Qdrant Cloud	🟡 Weaviate Cloud（“标准”套餐）
1 万	~0.07 GB	🆓 免费——在 5GB 免费层级内	🆓 免费——可容纳于 1GB RAM 和 4GB 磁盘中	$25 基础费用 + $1.2 按维度收费 ≈ $26
10 万	~0.67 GB	🆓 仍处于 5GB 以内	🆓 通过压缩后可容纳于 4GB 磁盘中	$25 + $12.0 按维度收费 ≈ $37
100 万	~6.7 GB	💵 存储费用约 $2；另加 vCU 费用或选择 $99 的专用集群	💵 需要 10GB 集群 → ≈ $20/月	$25 + $120.5 按维度收费 ≈ $145
1000 万	~67 GB	💵 存储费用约 $20；加上计算成本：总计 $100–150	💵 需要 64GB 以上 → 估算为 $120–150/月	$25 + $1,204 按维度收费 ≈ $1,230

🧠 嵌入生成成本——OpenAI（小型模型，按分块大小）

分块数量	📏 1,000 字	📏 2,000 字	📏 3,000 字
1,000	$0.01	$0.01	$0.01
10,000	$0.05	$0.10	$0.15
100,000	$0.50	$1.00	$1.50
1,000,000	$5.00	$10.00	$15.00
10,000,000	$50.00	$100.00	$150.00

AI 工具（用于“使用”）

工具	组织	描述
magic-resume	JOYCEQL	一款基于 AI 的简历生成工具。
VideoCaptioner	WEIFENG2333	一款用于自动生成视频字幕的 AI 工具。
DeepSeekAI	DeepLifeStudio	用于调用 DeepSeek AI 大模型的浏览器扩展。
logocreator	Nutlope	一款利用 AI 创作 logo 的工具。
blinkshot	Nutlope	一款基于 AI 的截图捕捉与增强工具。
pollinations	pollinations	一款利用 AI 生成创意图像和艺术作品的工具。
PromptWizard	microsoft	一款用于生成、管理和优化 AI 模型提示词的工具。
Open-Interface	AmberSahdev	使用 LLM 控制任何计算机。
wut	shobrook	适用于终端的 LLM。

训练/优化

工具	组织	描述
transformerlab-app	transformerlab	一款用于训练和优化 Transformer 模型的应用程序。
fluxgym	cocktailpeanut	一个用于强化学习训练和优化的 Gym 环境。
AutoGPTQ	AutoGPTQ	一款用于自动化 GPT 量化和优化的工具。

AI 模型

工具	组织	描述
WALDO	stephansturges	一个用于视觉推理和目标检测的AI模型。
Janus	deepseek-ai	一个用于高级数据处理的多模态AI模型。
ModernBERT	AnswerDotAI	BERT 的现代化版本，适用于自然语言处理任务。
Magma	microsoft	一个用于大规模数据分析的可扩展AI模型。
Cosmos-Nemotron	NVlabs	一个用于高级图像和视频处理的AI模型。
Paints-UNDO	lllyasviel	一个用于图像生成和编辑的交互式AI模型。

监控

工具	组织	描述	开源	GitHub
helicone	Helicone	一个用于监控和分析AI模型性能的平台。
langwatch	langwatch	一个用于监控语言模型输出和性能的工具。

基础设施

工具	组织	描述	开源	GitHub
gpustack	gpustack	一个用于管理AI工作负载GPU基础设施的工具包。
harbor	av	一个用于容器化AI基础设施管理的仓库。

思维链提示相关研究论文

发表日期	标题	🔗	作者	机构	技术方法
2022年1月28日	思维链提示激发大型语言模型的推理能力	🔗	Jason Wei 等	DeepMind	思维链提示
2022年3月21日	自洽性提升语言模型的思维链推理能力	🔗	Xuezhi Wang 等	DeepMind	带自洽性的思维链提示
2022年5月21日	由简入繁提示使大型语言模型具备复杂推理能力	🔗	Denny Zhou 等	DeepMind	由简入繁提示
2022年5月21日	大型语言模型是零样本推理者	🔗	Takeshi Kojima 等	DeepMind	零样本思维链提示
2022年10月6日	ReAct：在语言模型中协同推理与行动	🔗	Shunyu Yao 等	普林斯顿大学	ReAct
2023年4月1日	教导大型语言模型进行自我调试	🔗	Xiang Lisa Li 等	DeepMind、斯坦福大学	自我调试
2023年5月6日	计划-求解提示：提升大型语言模型的零样本思维链推理能力	🔗	Lei Wang 等	香港中文大学、商汤科技研究院	计划-求解提示
2023年5月23日	让我们逐步验证	🔗	Anya Goyal 等	DeepMind	思维链验证
2023年10月3日	大型语言模型目前仍无法自我纠正推理错误	🔗	Qingxiu Dong 等	香港中文大学、华为诺亚方舟实验室	LLM中的自我纠正
2023年11月	大型语言模型生成的通用自洽性	🔗	Xinyun Chen、Renat Aksitov、Uri Alon、Jie Ren、Kefan Xiao、Pengcheng Yin、Sushant Prakash、Charles Sutton、Xuezhi Wang、Denny Zhou	DeepMind	通用自洽性
2023年5月17日	思维之树：利用大型语言模型进行深思熟虑的问题解决	🔗	Shunyu Yao 等	普林斯顿大学、DeepMind	思维之树
2024年2月15日	无需提示的思维链推理	🔗	Xuezhi Wang、Denny Zhou	DeepMind	思维链解码
2024年3月21日	ChainLM：通过改进思维链提示赋能大型语言模型	🔗	Xiaoxue Cheng 等	中国人民大学	CoTGenius
2024年6月	语言智能体树搜索统一了语言模型中的推理、行动和规划	🔗	Andy Zhou、Kai Yan、Michal Shlapentokh-Rothman、Haohan Wang、Yu-Xiong Wang	无	语言智能体树搜索 (LATS)
2024年5月	蒙特卡洛树搜索通过迭代偏好学习提升推理能力	🔗	Yuxi Xie 等	新加坡国立大学、DeepMind	MCTS
2024年9月18日	要思维链还是不要？思维链主要有助于数学和符号推理	🔗	Zayne Sprague 等	德克萨斯大学奥斯汀分校、约翰霍普金斯大学、普林斯顿大学	思维链的元分析
2024年9月25日	无思维链？对规划中思维链的分析	🔗	Kaya Stechly 等	亚利桑那州立大学	规划中思维链的分析
2024年10月18日	监督式思维链	🔗	Xiang Zhang、Dujian Ding	不列颠哥伦比亚大学	监督式思维链
2024年10月24日	关于示例：对思维链的理论理解——连贯推理与误差感知示范	🔗	Zhiqiang Hu 等	亚马逊、密歇根州立大学	思维链的理论分析

思考链实现

实现	链接	作者
CoT	chain-of-thought-hub	Franx Yao
CoT	optillm	Codelion
CoT	auto-cot	Amazon Science
CoT	g1	BKlieger Groq
解码式CoT	optillm/cot_decoding.py	Codelion
思维树	tree-of-thought-llm	Princeton NLP
思维树	tree-of-thoughts	Kye Gomez
思维树	saplings	Shobrook
MCTS	optillm/mcts.py	Codelion
思维图	graph-of-thoughts	SPCL
其他	CPO	SAIL SG
其他	Everything-of-Thoughts-XoT	Microsoft

思考链微调模型与数据集

模型

模型名称	作者	参数量	链接
CoT-T5-3B	KAIST AI	30亿	🔗
CoT-T5-11B	KAIST AI	110亿	🔗
Llama-3.2V-11B-cot	Xkev	110亿	🔗
Llama-3.1-8B-Instruct-Reasoner-1o1_v0.3	Lyte	80亿	🔗

数据集

数据集名称	作者	数据规模	点赞数	链接
chain-of-thought-sharegpt	Isaiah Bjork	7,140条	🌟 8	🔗
CoT-Collection	KAIST AI	184万条	🌟 122	🔗
Reasoner-1o1-v0.3-HQ	Lyte	370条	🌟 7	🔗
OpenLongCoT-Pretrain	qq8933	103,000条	🌟 86	🔗

学习资源

工具	组织	描述
awesome-cursorrules	PatrickJS	一份关于 cursorrules 的精选资源和指南列表。
ai-engineering-hub	patchy631	一个汇集了 AI 工程学习资源、教程和最佳实践的中心。
GenAI_Agents	NirDiamant	构建生成式 AI 代理的相关资源和示例。
learn-agentic-ai	panaversity	用于理解和构建自主智能体 AI 的学习材料。
awesome-generative-ai	steven2358	一份精选的生成式 AI 资源和项目列表。
awesome-mcp-servers	punkpeye	一份精选的 MCP 服务器资源合集。
GenAI-Showcase	mongodb-developer	一个展示创新生成式 AI 项目的平台。
well-architected-iac-analyzer	aws-samples	一个用于分析并确保良好架构的基础设施即代码实践的工具。
llama-cookbook	meta-llama	一套用于操作 LLaMA 模型的配方和指南。
optillm	codelion	有关优化 LLM 使用和性能的资源。
cursor.directory	pontusab	一个与基于光标的 workflows 相关的工具和资源目录。
GenAI_Agents	NirDiamant	一份精选的生成式 AI 代理及相关工具合集。

Awesome-LLM-Resources-List 快速上手指南

Awesome-LLM-Resources-List 并非单一的可安装软件，而是一个精选的大语言模型（LLM）资源集合，涵盖了模型托管、推理框架、本地运行工具及 API 服务平台。本指南将指导开发者如何根据需求选择并快速启动其中最流行的本地推理工具和服务框架。

环境准备

在开始使用列表中的工具前，请确保满足以下基础环境要求：

操作系统: Linux (推荐 Ubuntu 20.04+), macOS, 或 Windows (WSL2)。
硬件要求:
- CPU 运行: 至少 8GB 内存（推荐 16GB+），适用于小参数模型量化版本。
- GPU 运行: NVIDIA GPU (显存建议 8GB+)，需安装正确的 CUDA 驱动。
前置依赖:
- Python 3.8+
- Git
- (可选) Docker & Docker Compose
- (可选) NVIDIA Container Toolkit (用于 GPU 容器化部署)

国内加速建议:
Python 包: 使用清华或阿里镜像源安装依赖。
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple <package_name>
Hugging Face 模型: 设置镜像环境变量以加速模型下载。
export HF_ENDPOINT=https://hf-mirror.com
GitHub: 若克隆仓库速度慢，建议使用国内镜像站或配置代理。

安装步骤

根据您的需求场景，选择以下一种主流工具进行安装：

方案 A：本地快速体验 (推荐新手) - Ollama

最适合在本地笔记本电脑或个人服务器上快速运行开源模型。

# Linux/macOS 一键安装
curl -fsSL https://ollama.com/install.sh | sh

# Windows 用户请下载安装包运行: https://ollama.com/download/windows

# 验证安装
ollama --version

方案 B：高性能服务部署 - vLLM

适合生产环境，提供高吞吐量的模型推理服务。

# 创建虚拟环境 (推荐)
python -m venv vllm-env
source vllm-env/bin/activate  # Windows: vllm-env\Scripts\activate

# 安装 vLLM (NVIDIA GPU 环境)
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple vllm

# 或者使用 Docker 运行 (推荐，避免环境冲突)
docker run --gpus all -it --rm \
  -p 8000:8000 \
  --ipc=host \
  vllm/vllm-openai:latest

方案 C：无服务器托管探索 - Modal

适合希望将模型部署到云端且按量付费的开发者。

# 安装 Modal CLI
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple modal

# 认证账号 (按提示操作)
modal token new

# 初始化项目
modal init

基本使用

1. 使用 Ollama 运行模型

最简单的单行命令即可下载并运行模型（例如 Llama 3）。

# 拉取并运行模型
ollama run llama3

# 在交互式命令行中直接对话
>>> Hello, who are you?

后台服务模式 (作为 API 使用):

# 启动服务 (默认端口 11434)
ollama serve

# 另开终端测试 API
curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Hello!"
}'

2. 使用 vLLM 部署 OpenAI 兼容服务

启动一个高性能推理服务器，完全兼容 OpenAI API 格式。

# 启动服务 (自动下载模型)
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Meta-Llama-3-8B-Instruct \
    --port 8000

# 调用示例 (使用 curl)
curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "meta-llama/Meta-Llama-3-8B-Instruct",
        "messages": [{"role": "user", "content": "你好，请介绍一下你自己"}]
    }'

3. 使用 Modal 部署无服务器模型

创建一个简单的 main.py 文件，利用 Modal 的云端算力。

# main.py
import modal

app = modal.App("example-llama")
image = modal.Image.debian_slim().pip_install("torch", "transformers")

@app.function(image=image, gpu="A10G")
def generate(prompt: str) -> str:
    from transformers import pipeline
    generator = pipeline("text-generation", model="TinyLlama/TinyLlama-1.1B-Chat-v1.0")
    return generator(prompt)[0]["generated_text"]

if __name__ == "__main__":
    # 本地触发云端运行
    print(generate.remote("Once upon a time,"))

运行命令:

modal run main.py

4. 访问现成 API (无需部署)

如果您不想自行托管，可直接调用列表中提供的 API 服务（如 Together.ai, Groq 等）。

# 示例：使用 OpenAI 兼容客户端调用第三方服务
from openai import OpenAI

client = OpenAI(
    base_url="https://api.together.xyz/v1", # 替换为具体服务商地址
    api_key="YOUR_API_KEY"
)

response = client.chat.completions.create(
    model="meta-llama/Llama-3-8b-chat-hf",
    messages=[{"role": "user", "content": "Hello world"}]
)

print(response.choices[0].message.content)

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2周前

Agent开发框架图像

n8n

n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。

★ 184.7k|★★☆☆☆|今天

数据工具开发框架Agent

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 161.1k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像