free-llm-api-resources
free-llm-api-resources 是一个精心整理的开源清单,专门收录了可通过 API 免费访问的大语言模型(LLM)推理资源。它主要解决了开发者和研究者在探索 AI 技术时面临的高昂算力成本与门槛问题,让用户无需预先支付费用或绑定信用卡,即可快速调用各类主流模型进行应用开发与测试。
这份资源非常适合软件开发者、AI 研究人员以及希望低成本构建智能应用的技术团队使用。其核心亮点在于严格筛选机制:仅收录合法合规的服务商,明确排除了通过逆向工程等手段获取的非正规渠道,确保用户使用的安全性与稳定性。清单涵盖了 OpenRouter、Google AI Studio、NVIDIA NIM、Groq、HuggingFace 等知名平台,不仅提供完全免费的额度,也包含部分提供试用积分的优质服务商。此外,它还详细列出了各服务的具体限制(如请求频率)及支持的模型列表(包括 Llama、Gemma、Qwen 等前沿模型),帮助用户根据项目需求精准选择。对于想要快速验证想法、原型开发或学习大模型应用的创作者而言,free-llm-api-resources 是一份实用且可靠的入门指南。
使用场景
一位独立开发者正在构建一个面向学生的 AI 编程辅导助手,需要在不增加运营成本的前提下集成多种大模型以提供代码生成与解释功能。
没有 free-llm-api-resources 时
- 高昂的试错成本:开发者需自行逐个注册 Google、Mistral、Groq 等平台,不仅耗时,还容易因信用卡预授权或隐性收费导致预算超支。
- 模型选择受限:受限于单一服务商的免费额度,无法灵活调用 Llama 3.3 70B 或 Qwen Coder 等特定优势模型,导致辅导回答质量不稳定。
- 维护风险高:难以实时掌握各平台免费策略的变动,一旦某个接口突然收费或停用,应用服务将面临中断风险。
- 合规隐患:在寻找免费资源时,可能误用非官方逆向工程接口,导致项目面临法律纠纷或被封禁。
使用 free-llm-api-resources 后
- 零成本快速接入:直接参考列表中经过验证的 OpenRouter、Google AI Studio 等正规渠道,几分钟内即可获取多个模型的免费 API 密钥并投入开发。
- 灵活调度最优模型:利用列表提供的丰富选项,针对代码生成调用 Qwen Coder,针对逻辑解释调用 Llama 3.3,显著提升辅导准确率而不增加支出。
- 稳定可持续运营:依托列表中明确标注的速率限制(如 OpenRouter 每日 50 次请求),合理设计降级策略,确保服务长期稳定运行。
- 安全合规保障:严格遵循列表“排除非合法服务”的原则,只采用官方认可的推理资源,彻底规避法律与封号风险。
free-llm-api-resources 让开发者能够以零成本、低风险的方式,灵活组合全球顶级开源模型,极大降低了 AI 应用的落地门槛。
运行环境要求
未说明
未说明

快速开始
免费的LLM API资源
这里列出了提供免费访问或API使用额度的各种服务,用于基于API的LLM调用。
[!注意]
请不要滥用这些服务,否则我们可能会失去它们。
[!警告]
此列表明确排除任何不合法的服务(例如逆向工程现有聊天机器人)。
免费提供商
OpenRouter
限制:
20次请求/分钟
50次请求/天
通过10美元终身充值可达到每天最多1000次请求
所有模型共享同一配额。
- Gemma 3 12B 指令版
- Gemma 3 27B 指令版
- Gemma 3 4B 指令版
- Hermes 3 Llama 3.1 405B
- Llama 3.2 3B 指令版
- Llama 3.3 70B 指令版
- arcee-ai/trinity-large-preview:free
- cognitivecomputations/dolphin-mistral-24b-venice-edition:free
- google/gemma-3n-e2b-it:free
- google/gemma-3n-e4b-it:free
- google/gemma-4-26b-a4b-it:free
- google/gemma-4-31b-it:free
- liquid/lfm-2.5-1.2b-instruct:free
- liquid/lfm-2.5-1.2b-thinking:free
- meta-llama/llama-guard-4-12b:free
- minimax/minimax-m2.5:free
- nvidia/nemotron-3-nano-30b-a3b:free
- nvidia/nemotron-3-super-120b-a12b:free
- nvidia/nemotron-nano-12b-v2-vl:free
- nvidia/nemotron-nano-9b-v2:free
- openai/gpt-oss-120b:free
- openai/gpt-oss-20b:free
- qwen/qwen3-coder:free
- qwen/qwen3-next-80b-a3b-instruct:free
- z-ai/glm-4.5-air:free
Google AI Studio
在英国、瑞士、欧洲经济区和欧盟以外地区使用时,数据将被用于训练。
| 模型名称 | 模型限制 |
|---|---|
| Gemini 3 Flash | 每分钟25万 tokens 每天20次请求 每分钟5次请求 |
| Gemini 3.1 Flash-Lite | 每分钟25万 tokens 每天500次请求 每分钟15次请求 |
| Gemini 2.5 Flash | 每分钟25万 tokens 每天20次请求 每分钟5次请求 |
| Gemini 2.5 Flash-Lite | 每分钟25万 tokens 每天20次请求 每分钟10次请求 |
| Gemini 3.1 Flash TTS | 每分钟1万 tokens 每天10次请求 每分钟3次请求 |
| Gemini 2.5 Flash TTS | 每分钟1万 tokens 每天10次请求 每分钟3次请求 |
| Gemini Robotics-ER 1.6 | 每分钟25万 tokens 每天20次请求 每分钟5次请求 |
| Gemini Robotics-ER 1.5 | 每分钟25万 tokens 每天20次请求 每分钟10次请求 |
| Gemma 3 27B 指令版 | 每分钟1.5万 tokens 每天1.44万次请求 每分钟30次请求 |
| Gemma 3 12B 指令版 | 每分钟1.5万 tokens 每天1.44万次请求 每分钟30次请求 |
| Gemma 3 4B 指令版 | 每分钟1.5万 tokens 每天1.44万次请求 每分钟30次请求 |
| Gemma 3 1B 指令版 | 每分钟1.5万 tokens 每天1.44万次请求 每分钟30次请求 |
NVIDIA NIM
需要手机号验证。 模型通常有上下文窗口限制。
限制: 每分钟40次请求
Mistral (La Plateforme)
- 免费层级(实验计划)需要选择同意数据训练
- 需要手机号验证。
限制(按模型): 每秒1次请求,每分钟50万个tokens,每月10亿个tokens
Mistral (Codestral)
- 目前可免费使用
- 基于月度订阅
- 需要手机号验证
限制: 每分钟30次请求,每天2000次请求
- Codestral
HuggingFace 推理提供商
HuggingFace 无服务器推理仅限于小于10GB的模型。一些流行的模型即使超过10GB也受支持。
限制: $0.10/月的积分
- 各种在支持的提供商处提供的开源模型
Vercel AI Gateway
路由到各种支持的提供商。
限制: $5/月
OpenCode Zen
集成了精选模型的AI网关。
免费模型可能会使用数据进行优化。
- Big Pickle Stealth
- MiniMax M2.5 Free
- Arcee Large Preview Free
Cerebras
| 模型名称 | 模型限制 |
|---|---|
| gpt-oss-120b | 每分钟30次请求 每分钟60,000个token 每小时900次请求 每小时1,000,000个token 每天14,400次请求 每天1,000,000个token |
| Llama 3.1 8B | 每分钟30次请求 每分钟60,000个token 每小时900次请求 每小时1,000,000个token 每天14,400次请求 每天1,000,000个token |
Groq
| 模型名称 | 模型限制 |
|---|---|
| Allam 2 7B | 每天7,000次请求 每分钟6,000个token |
| Llama 3.1 8B | 每天14,400次请求 每分钟6,000个token |
| Llama 3.3 70B | 每天1,000次请求 每分钟12,000个token |
| Llama 4 Scout Instruct | 每天1,000次请求 每分钟30,000个token |
| Whisper Large v3 | 每分钟7,200秒音频 每天2,000次请求 |
| Whisper Large v3 Turbo | 每分钟7,200秒音频 每天2,000次请求 |
| canopylabs/orpheus-arabic-saudi | |
| canopylabs/orpheus-v1-english | |
| groq/compound | 每天250次请求 每分钟70,000个token |
| groq/compound-mini | 每天250次请求 每分钟70,000个token |
| meta-llama/llama-prompt-guard-2-22m | |
| meta-llama/llama-prompt-guard-2-86m | |
| openai/gpt-oss-120b | 每天1,000次请求 每分钟8,000个token |
| openai/gpt-oss-20b | 每天1,000次请求 每分钟8,000个token |
| openai/gpt-oss-safeguard-20b | 每天1,000次请求 每分钟8,000个token |
| qwen/qwen3-32b | 每天1,000次请求 每分钟6,000个token |
Cohere
限制:
所有模型共享一个共同的月度配额。
- c4ai-aya-expanse-32b
- c4ai-aya-vision-32b
- command-a-03-2025
- command-a-reasoning-08-2025
- command-a-translate-08-2025
- command-a-vision-07-2025
- command-r-08-2024
- command-r-plus-08-2024
- command-r7b-12-2024
- command-r7b-arabic-02-2025
GitHub Models
输入输出token限制极为严格。
限制: 取决于Copilot订阅层级(免费/Pro/Pro+/Business/Enterprise)
- AI21 Jamba 1.5 Large
- Codestral 25.01
- Cohere Command A
- Cohere Command R 08-2024
- Cohere Command R+ 08-2024
- DeepSeek-R1
- DeepSeek-R1-0528
- DeepSeek-V3-0324
- Grok 3
- Grok 3 Mini
- Llama 4 Maverick 17B 128E Instruct FP8
- Llama 4 Scout 17B 16E Instruct
- Llama-3.2-11B-Vision-Instruct
- Llama-3.2-90B-Vision-Instruct
- Llama-3.3-70B-Instruct
- MAI-DS-R1
- Meta-Llama-3.1-405B-Instruct
- Meta-Llama-3.1-8B-Instruct
- Ministral 3B
- Mistral Medium 3 (25.05)
- Mistral Small 3.1
- OpenAI GPT-4.1
- OpenAI GPT-4.1-mini
- OpenAI GPT-4.1-nano
- OpenAI GPT-4o
- OpenAI GPT-4o mini
- OpenAI Text Embedding 3 (large)
- OpenAI Text Embedding 3 (small)
- OpenAI gpt-5
- OpenAI gpt-5-chat (preview)
- OpenAI gpt-5-mini
- OpenAI gpt-5-nano
- OpenAI o1
- OpenAI o1-mini
- OpenAI o1-preview
- OpenAI o3
- OpenAI o3-mini
- OpenAI o4-mini
- Phi-4
- Phi-4-mini-instruct
- Phi-4-mini-reasoning
- Phi-4-multimodal-instruct
- Phi-4-reasoning
Cloudflare Workers AI
限制: 每天10,000个神经元
- @cf/aisingapore/gemma-sea-lion-v4-27b-it
- @cf/google/gemma-4-26b-a4b-it
- @cf/ibm-granite/granite-4.0-h-micro
- @cf/moonshotai/kimi-k2.5
- @cf/nvidia/nemotron-3-120b-a12b
- @cf/openai/gpt-oss-120b
- @cf/openai/gpt-oss-20b
- @cf/qwen/qwen3-30b-a3b-fp8
- @cf/zai-org/glm-4.7-flash
- DeepSeek R1 Distill Qwen 32B
- Deepseek Coder 6.7B Base (AWQ)
- Deepseek Coder 6.7B Instruct (AWQ)
- Deepseek Math 7B Instruct
- Discolm German 7B v1 (AWQ)
- Falcom 7B Instruct
- Gemma 2B Instruct (LoRA)
- Gemma 3 12B Instruct
- Gemma 7B Instruct
- Gemma 7B Instruct (LoRA)
- Hermes 2 Pro Mistral 7B
- Llama 2 13B Chat (AWQ)
- Llama 2 7B Chat (FP16)
- Llama 2 7B Chat (INT8)
- Llama 2 7B Chat (LoRA)
- Llama 3 8B Instruct
- Llama 3 8B Instruct (AWQ)
- Llama 3.1 8B Instruct (AWQ)
- Llama 3.1 8B Instruct (FP8)
- Llama 3.2 11B Vision Instruct
- Llama 3.2 1B Instruct
- Llama 3.2 3B Instruct
- Llama 3.3 70B Instruct (FP8)
- Llama 4 Scout Instruct
- Llama Guard 3 8B
- Mistral 7B Instruct v0.1
- Mistral 7B Instruct v0.1 (AWQ)
- Mistral 7B Instruct v0.2
- Mistral 7B Instruct v0.2 (LoRA)
- Mistral Small 3.1 24B Instruct
- Neural Chat 7B v3.1 (AWQ)
- OpenChat 3.5 0106
- OpenHermes 2.5 Mistral 7B (AWQ)
- Phi-2
- Qwen 1.5 0.5B Chat
- Qwen 1.5 1.8B Chat
- Qwen 1.5 14B Chat (AWQ)
- Qwen 1.5 7B Chat (AWQ)
- Qwen 2.5 Coder 32B Instruct
- Qwen QwQ 32B
- SQLCoder 7B 2
- Starling LM 7B Beta
- TinyLlama 1.1B Chat v1.0
- Una Cybertron 7B v2 (BF16)
- Zephyr 7B Beta (AWQ)
提供试用额度的服务商
Fireworks
额度: $1
模型: 多种开源模型
Baseten
额度: $30
Nebius
额度: $1
模型: 多种开源模型
Novita
额度: $0.5,有效期1年
模型: 多种开源模型
AI21
额度: $10,有效期3个月
模型: Jamba系列模型
Upstage
额度: $10,有效期3个月
模型: Solar Pro/Mini
NLP Cloud
额度: $15
要求: 需验证手机号码
模型: 多种开源模型
阿里云国际版Model Studio
额度: 每模型100万token
模型: 多种开源及专有Qwen模型
Modal
额度: 注册时$5/月,添加支付方式后$30/月
模型: 任何支持的模型 - 按计算时间付费
Inference.net
额度: $1,回复邮件调查可得$25
模型: 多种开源模型
Hyperbolic
积分: $1
模型:
- DeepSeek V3 0324
- Llama 3.3 70B Instruct
- deepseek-ai/deepseek-r1-0528
- qwen/qwen3-coder-480b-a35b-instruct
SambaNova Cloud
积分: 3个月$5
模型:
- Llama 3.3 70B
- Llama-4-Maverick-17B-128E-Instruct
- deepseek-ai/DeepSeek-V3.1
- deepseek-ai/DeepSeek-V3.1
- deepseek-ai/DeepSeek-V3.2
- google/gemma-3-12b-it
- minimaxai/minimax-m2.5
- openai/gpt-oss-120b
Scaleway 生成式 API
积分: 1,000,000个免费Token
模型:
- BGE-Multilingual-Gemma2
- Gemma 3 27B Instruct
- Llama 3.3 70B Instruct
- Pixtral 12B (2409)
- Whisper Large v3
- devstral-2-123b-instruct-2512
- gpt-oss-120b
- holo2-30b-a3b
- mistral-small-3.2-24b-instruct-2506
- qwen3-235b-a22b-instruct-2507
- qwen3-coder-30b-a3b-instruct
- qwen3-embedding-8b
- qwen3.5-397b-a17b
- voxtral-small-24b-2507
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
opencode
OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。