gpt-oss

20k 2.1k 较难 1 次阅读今天Apache-2.0语言模型Agent

AI 解读由 AI 自动生成，仅供参考

gpt-oss 是 OpenAI 推出的开源权重语言模型系列，包含 gpt-oss-120b 和 gpt-oss-20b 两个版本，旨在为开发者提供强大的推理能力和智能体（Agentic）任务支持。它主要解决了高性能大模型难以在本地或单卡环境下高效部署的痛点，让复杂的逻辑推理、代码执行及网页浏览等功能不再依赖昂贵的云端集群。

这款工具特别适合开发者、研究人员以及需要构建定制化 AI 应用的企业团队。其技术亮点显著：采用宽松的 Apache 2.0 许可，允许自由商用与修改；支持动态调节“推理力度”，用户可根据场景在低延迟与高深度思考之间灵活切换；同时完整开放思维链（Chain-of-Thought），便于调试与建立信任。得益于 MXFP4 量化技术，参数量高达 1170 亿的 gpt-oss-120b 仅需单张 80GB GPU（如 H100）即可运行，而轻量版的 gpt-oss-20b 甚至能在 16GB 显存中流畅工作。此外，模型原生支持函数调用、结构化输出及 Python 代码执行，并需配合专用的"Harmony"响应格式使用，以确保最佳性能与稳定性。无论是用于生产环境的高阶推理，还是本地的专项任务，gpt-oss 都提供了灵活且高效的解决方案。

使用场景

某金融科技公司的算法团队需要在本地服务器部署一套高频交易策略分析系统，要求模型具备极强的逻辑推理能力且数据绝不能出域。

没有 gpt-oss 时

数据安全风险高：只能调用云端闭源 API 进行复杂策略回测，敏感的交易数据和核心算法逻辑存在泄露隐患。
硬件门槛难以跨越：同等量级的高性能推理模型通常需要多卡并行或超大显存，公司现有的单张 80GB H100 显卡无法运行。
推理过程不透明：面对模型给出的错误投资建议，无法查看其内部的思维链（Chain-of-Thought），导致调试困难且难以建立信任。
响应延迟不可控：云端服务受网络波动影响大，且无法根据业务高峰期灵活调整模型的“推理努力程度”以平衡速度与精度。

使用 gpt-oss 后

实现完全本地化部署：利用 gpt-oss-120b 的 MXFP4 量化技术，成功在单张 80GB GPU 上运行百亿参数模型，确保核心数据不出内网。
低成本高性能推理：无需昂贵的多卡集群，仅凭现有硬件即可承载生产级的高强度逻辑推理任务，大幅降低基础设施成本。
全链路思维可追溯：通过 gpt-oss 输出的完整思维链，开发人员能清晰看到策略生成的每一步逻辑，快速定位并修正推理偏差。
灵活调控推理强度：针对实时盘口分析调低“推理努力程度”以降低延迟，针对深度研报生成则调高该参数，完美适配不同场景需求。

gpt-oss 让企业在单一消费级显卡上即可拥有安全、透明且可定制的企业级推理能力，彻底打破了高性能 AI 落地的硬件与隐私壁垒。

运行环境要求

操作系统

Linux
macOS

GPU

gpt-oss-120b: 单张 80GB GPU (如 NVIDIA H100 或 AMD MI300X)
gpt-oss-20b: 16GB 显存即可
参考 PyTorch 实现需 4x H100
Linux 参考实现需要 CUDA，vLLM 示例指定 cu128
Apple Silicon 可使用 Metal 实现

内存

未说明

依赖

notes模型必须使用 Harmony 响应格式才能正常工作。gpt-oss-120b 和 gpt-oss-20b 均经过 MXFP4 量化以优化显存占用。Windows 系统未测试参考实现，建议使用 Ollama 等工具在本地运行。vLLM 运行时若遇到显存错误，需设置环境变量 'PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True'。

python3.12

torch

triton

transformers

vllm (特定版本 0.10.1+gptoss)

openai-harmony

flashinfer (可选)

快速开始

体验 gpt-oss · 使用指南 · 模型卡片 · OpenAI 官方博客

在 Hugging Face 上下载 gpt-oss-120b 和 gpt-oss-20b

欢迎来到 gpt-oss 系列，这是 OpenAI 的开源权重模型，专为强大的推理能力、智能体任务以及多样化的开发者应用场景而设计。

我们发布了两种版本的开源模型：

gpt-oss-120b — 适用于生产环境、通用场景以及需要高推理能力且能在单张 80GB 显卡（如 NVIDIA H100 或 AMD MI300X）上运行的任务（参数量为 117B，其中活跃参数为 5.1B）
gpt-oss-20b — 适用于低延迟需求以及本地或特定场景的应用（参数量为 21B，其中活跃参数为 3.6B）

两款模型均采用我们的 harmony 响应格式进行训练，因此仅能配合该格式使用；否则将无法正常工作。

宽松的 Apache 2.0 许可证： 可自由构建，不受 copyleft 限制或专利风险困扰——非常适合实验、定制化开发以及商业部署。
可配置的推理强度： 根据具体用例和延迟要求，轻松调整推理强度（低、中、高）。
完整的思维链： 提供对模型推理过程的全面访问，便于调试并增强对输出结果的信任。这些信息不应用于向最终用户提供。
可微调： 通过参数微调，完全适配您的特定应用场景。
智能体能力： 利用模型原生的功能调用、网页浏览、Python 代码执行以及结构化输出等功能。
MXFP4 量化： 模型在 MoE 权重上进行了 MXFP4 量化后处理，使得 gpt-oss-120b 能够在单张 80GB 显卡（如 NVIDIA H100 或 AMD MI300X）上运行，而 gpt-oss-20b 则可在 16GB 显存内运行。所有评估均基于相同的 MXFP4 量化进行。

推理示例

Transformers

您可以将 gpt-oss-120b 和 gpt-oss-20b 与 Transformers 库一起使用。如果使用 Transformers 的聊天模板，它会自动应用 harmony 响应格式。如果您直接使用 model.generate，则需要手动通过聊天模板应用 harmony 格式，或者使用我们的 openai-harmony 包。

from transformers import pipeline
import torch

model_id = "openai/gpt-oss-120b"

pipe = pipeline(
    "text-generation",
    model=model_id,
    torch_dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "user", "content": "请清晰简洁地解释量子力学。"},
]

outputs = pipe(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

了解更多关于如何使用 gpt-oss 与 Transformers 的信息。

vLLM

vLLM 推荐使用 uv 进行 Python 依赖管理。您可以使用 vLLM 启动一个兼容 OpenAI 的 Web 服务器。以下命令将自动下载模型并启动服务器。

uv pip install --pre vllm==0.10.1+gptoss \
    --extra-index-url https://wheels.vllm.ai/gpt-oss/ \
    --extra-index-url https://download.pytorch.org/whl/nightly/cu128 \
    --index-strategy unsafe-best-match

vllm serve openai/gpt-oss-20b

了解更多关于如何使用 gpt-oss 与 vLLM 的信息。

离线服务代码：

在按照说明安装好相关库之后，还需额外安装以下内容：
uv pip install openai-harmony

# source .oss/bin/activate

import os
os.environ["VLLM_USE_FLASHINFER_SAMPLER"] = "0"

import json
from openai_harmony import (
    HarmonyEncodingName,
    load_harmony_encoding,
    Conversation,
    Message,
    Role,
    SystemContent,
    DeveloperContent,
)
 
from vllm import LLM, SamplingParams
import os

# --- 1) 使用 Harmony 渲染预填充 ---
encoding = load_harmony_encoding(HarmonyEncodingName.HARMONY_GPT_OSS)
 
convo = Conversation.from_messages(
    [
        Message.from_role_and_content(Role.SYSTEM, SystemContent.new()),
        Message.from_role_and_content(
            Role.DEVELOPER,
            DeveloperContent.new().with instructions("始终以谜语形式作答"),
        ),
        Message.from_role_and_content(Role.USER, "旧金山的天气怎么样？"),
    ]
)
 
prefill_ids = encoding.render_conversation_for_completion(convo, Role.ASSISTANT)
 
# Harmony 停止标记（传递给采样器，以避免它们被包含在输出中）
stop_token_ids = encoding.stop_tokens_for_assistant_actions()
 
# --- 2) 使用预填充运行 vLLM ---
llm = LLM(
    model="openai/gpt-oss-20b",
    trust_remote_code=True,
    gpu_memory_utilization = 0.95,
    max_num_batched_tokens=4096,
    max_model_len=5000,
    tensor_parallel_size=1
)
 
sampling = SamplingParams(
    max_tokens=128,
    temperature=1,
    stop_token_ids=stop_token_ids,
)
 
outputs = llm.generate(
    prompt_token_ids=[prefill_ids],   # 批次大小为 1
    sampling_params=sampling,
)
 
# vLLM 会同时返回文本和 token ID
gen = outputs[0].outputs[0]
text = gen.text
output_tokens = gen.token_ids  # <-- 这些是完成部分的 token ID（不含预填充）
 
# --- 3) 将完成部分的 token ID 解析回结构化的 Harmony 消息 ---
entries = encoding.parse_messages_from_completion_tokens(output_tokens, Role.ASSISTANT)

# 'entries' 是一系列结构化的对话条目（助手消息、工具调用等）。
for message in entries:
    print(f"{json.dumps(message.to_dict())}")

PyTorch / Triton / Metal

这些实现主要是用于教育目的的参考实现，不建议在生产环境中运行。

更多信息请见下文。

Ollama

如果您想在消费级硬件上运行 gpt-oss，可以在安装 Ollama 后，运行以下命令。

# gpt-oss-20b
ollama pull gpt-oss:20b
ollama run gpt-oss:20b

# gpt-oss-120b
ollama pull gpt-oss:120b
ollama run gpt-oss:120b

了解更多关于如何使用 Ollama 运行 gpt-oss 的信息。

LM Studio

如果您使用的是 LM Studio，可以使用以下命令进行下载。

# gpt-oss-20b
lms get openai/gpt-oss-20b
# gpt-oss-120b
lms get openai/gpt-oss-120b

请查看我们的 awesome 列表，其中包含了更广泛的 gpt-oss 资源和推理合作伙伴。

关于本仓库

本仓库提供了一系列参考实现：

推理：
- torch — 一个未优化的 PyTorch 实现，仅用于教育目的。由于缺乏优化，至少需要 4 张 H100 GPU。
- triton — 一个更优化的实现，使用 PyTorch 和 Triton 技术，包括 CUDA 图和基础缓存。
- metal — 一个针对 Apple Silicon 硬件的 Metal 特定实现。
工具：
- browser — 模型训练中使用的浏览器工具的参考实现。
- python — 模型训练中使用的 Python 工具的无状态参考实现。
客户端示例：
- chat — 一个基本的终端聊天应用，使用 PyTorch 或 Triton 实现进行推理，并结合 Python 和浏览器工具。
- responses_api — 一个兼容 Responses API 的示例服务器，实现了浏览器工具以及其他与 Responses 兼容的功能。

设置

要求

Python 3.12
在 macOS 上：安装 Xcode 命令行工具 --> xcode-select --install
在 Linux 上：这些参考实现需要 CUDA。
在 Windows 上：这些参考实现尚未在 Windows 上测试过。如果您想在本地运行模型，可以尝试使用 Ollama 等解决方案。

安装

如果您想尝试任何代码，可以直接从 PyPI 安装。

# 如果只需要工具
pip install gpt-oss
# 如果想尝试 PyTorch 实现
pip install gpt-oss[torch]
# 如果想尝试 Triton 实现
pip install gpt-oss[triton]

如果您想修改代码或尝试 Metal 实现，请在本地设置项目：

git clone https://github.com/openai/gpt-oss.git
GPTOSS_BUILD_METAL=1 pip install -e ".[metal]"

下载模型

您可以从 Hugging Face Hub 直接通过 Hugging Face CLI 下载模型权重：

# gpt-oss-120b
hf download openai/gpt-oss-120b --include "original/*" --local-dir gpt-oss-120b/

# gpt-oss-20b
hf download openai/gpt-oss-20b --include "original/*" --local-dir gpt-oss-20b/

参考 PyTorch 实现

我们在 gpt_oss/torch/model.py 中包含了一个低效的参考 PyTorch 实现。这段代码使用了基本的 PyTorch 操作符来展示精确的模型架构，并添加了一点支持 MoE 的张量并行性，以便较大的模型能够在此代码上运行（例如，在 4 张 H100 或 2 张 H200 上）。在这个实现中，我们将所有权重上采样到 BF16，并以 BF16 格式运行模型。

要运行参考实现，请安装依赖项：

pip install -e ".[torch]"

然后运行：

# 在 4 张 H100 上：
torchrun --nproc-per-node=4 -m gpt_oss.generate gpt-oss-120b/original/

参考 Triton 实现（单 GPU）

我们还提供了一个优化的参考实现，使用了优化的 Triton MoE 内核，支持 MXFP4。它还在注意力代码上做了一些优化，以降低内存开销。要运行这个实现，需要安装 nightly 版本的 Triton 和 PyTorch。该版本可以在一张 80GB 的 GPU 上运行 gpt-oss-120b。

要安装参考 Triton 实现，请执行以下步骤：

# 需要从源码安装 Triton 才能使用 Triton 实现
git clone https://github.com/triton-lang/triton
cd triton/
pip install -r python/requirements.txt
pip install -e . --verbose --no-build-isolation
pip install -e python/triton_kernels

# 安装 gpt-oss 的 Triton 实现
pip install -e ".[triton]"

然后运行：

# 在 1 张 H100 上
export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
python -m gpt_oss.generate --backend triton gpt-oss-120b/original/

如果您遇到 torch.OutOfMemoryError，请确保启用可扩展分配器，以避免在加载检查点权重时发生崩溃。

参考 Metal 实现

此外，我们还提供了一个用于在 Apple Silicon 上运行的 Metal 参考实现。虽然该实现尚未达到生产就绪状态，但其准确性与 PyTorch 实现一致。

当您在 Apple Silicon 设备上运行 .[metal] 安装时，该实现会自动编译：

GPTOSS_BUILD_METAL=1 pip install -e ".[metal]"

要进行推理，您需要先将来自 Hugging Face 的 SafeTensor 权重转换为正确的格式，使用以下命令：

python gpt_oss/metal/scripts/create-local-model.py -s <model_dir> -d <output_file>

或者直接下载预转换好的权重：

hf download openai/gpt-oss-120b --include "metal/*" --local-dir gpt-oss-120b/metal/
hf download openai/gpt-oss-20b --include "metal/*" --local-dir gpt-oss-20b/metal/

要测试它，您可以运行：

python gpt_oss/metal/examples/generate.py gpt-oss-20b/metal/model.bin -p "为什么鸡要过马路？"

Harmony 格式及工具

除了模型之外，我们还发布了一个新的聊天格式库 harmony，用于与模型交互。有关 harmony 的更多信息，请参阅此指南。

我们还为模型提供了两个系统工具：浏览和 Python 容器。工具的实现请参阅 gpt_oss/tools。

客户端

终端聊天

终端聊天应用程序是一个基础示例，展示了如何将 harmony 格式与 PyTorch、Triton 和 vLLM 实现结合使用。它还提供了 Python 工具和浏览器工具作为可选的辅助手段。

用法: python -m gpt_oss.chat [-h] [-r REASONING_EFFORT] [-a] [-b] [--show-browser-results] [-p] [--developer-message DEVELOPER_MESSAGE] [-c CONTEXT] [--raw] [--backend {triton,torch,vllm}] FILE

聊天示例

位置参数:
  FILE                  SafeTensors 检查点的路径

选项:
  -h, --help            显示此帮助消息并退出
  -r REASONING_EFFORT, --reasoning-effort REASONING_EFFORT
                        推理力度（默认：低）
  -a, --apply-patch     使模型可以使用 apply_patch 工具（默认：False）
  -b, --browser         使用浏览器工具（默认：False）
  --show-browser-results
                        显示浏览器结果（默认：False）
  -p, --python          使用 Python 工具（默认：False）
  --developer-message DEVELOPER_MESSAGE
                        开发者消息（默认：无）
  -c CONTEXT, --context CONTEXT
                        最大上下文长度（默认：8192）
  --raw                 原始模式（不渲染 Harmony 编码）（默认：False）
  --backend {triton,torch,vllm}
                        推理后端（默认：triton）

[!注意] PyTorch 和 Triton 实现分别需要位于 gpt-oss-120b/original/ 和 gpt-oss-20b/original/ 目录下的原始检查点。而 vLLM 则使用位于 gpt-oss-120b/ 和 gpt-oss-20b/ 根目录下的 Hugging Face 转换后的检查点。

Responses API

我们还提供了一个 Responses API 服务器示例。该服务器并未实现 Responses API 的所有功能和事件，但应能兼容大多数基本用例，并可为构建自定义服务器的用户提供灵感。此外，我们的一些推理合作伙伴也提供了他们自己的 Responses API。

您可以使用以下推理后端启动此服务器：

triton — 使用 Triton 实现
metal — 仅在 Apple Silicon 上使用 Metal 实现
ollama — 将 Ollama /api/generate API 用作推理解决方案
vllm — 使用您已安装的 vLLM 版本进行推理
transformers — 使用您已安装的 transformers 版本进行本地推理

用法: python -m gpt_oss.responses_api.serve [-h] [--checkpoint FILE] [--port PORT] [--inference-backend BACKEND]

Responses API 服务器

选项:
  -h, --help                    显示此帮助消息并退出
  --checkpoint FILE             SafeTensors 检查点的路径
  --port PORT                   服务器运行的端口
  --inference-backend BACKEND   使用的推理后端

Codex

我们支持 codex 作为 gpt-oss 的客户端。要运行 20b 版本，请将其设置到 ~/.codex/config.toml 中：

disable_response_storage = true
show_reasoning_content = true

[model_providers.local]
name = "local"
base_url = "http://localhost:11434/v1"

[profiles.oss]
model = "gpt-oss:20b"
model_provider = "local"

这将与任何兼容聊天完成 API 的服务器配合使用，例如 ollama，只要该服务器在 11434 端口上监听即可。启动服务器并将 codex 指向 oss 模型：

ollama run gpt-oss:20b
codex -p oss

工具

浏览器

[!警告] 此实现纯粹用于教育目的，不应在生产环境中使用。您应当根据自己的浏览环境实现一个等效的 ExaBackend 类。目前我们提供了 ExaBackend 和 YouComBackend。

gpt-oss 的两个模型均经过训练，能够使用“浏览器”工具进行浏览，该工具暴露了以下三种方法：

search 用于搜索关键词
open 用于打开特定页面
find 用于在页面上查找内容

使用方法

要启用浏览器工具，您需要将其定义放入 harmony 格式的系统提示中。如果您的工具实现了完整的接口，可以直接使用 with_browser_tool() 方法；否则，可以使用 with_tools() 方法修改定义。例如：

import datetime
from gpt_oss.tools.simple_browser import SimpleBrowserTool
from gpt_oss.tools.simple_browser.backend import ExaBackend
from openai_harmony import SystemContent, Message, Conversation, Role, load_harmony_encoding, HarmonyEncodingName

encoding = load_harmony_encoding(HarmonyEncodingName.HARMONY_GPT_OSS)

# 根据所选的浏览器后端，需要设置相应的环境变量
# Exa 后端需要 EXA_API_KEY 环境变量，
# 而 You.com 则需要 YDC_API_KEY 环境变量
backend = ExaBackend(
    source="web",
)
# backend = YouComBackend(
#  source="web",
# )
browser_tool = SimpleBrowserTool(backend=backend)

# 创建一个基本的系统提示
system_message_content = SystemContent.new().with_conversation_start_date(
    datetime.datetime.now().strftime("%Y-%m-%d")
)

# 如果要使用浏览器工具
if use_browser_tool:
    # 启用工具
    system_message_content = system_message_content.with_tools(browser_tool.tool_config)
    # 或者，如果您的工具不是无状态的，也可以使用以下方法
    system_message_content = system_message_content.with_browser_tool()

# 构建系统消息
system_message = Message.from_role_and_content(Role.SYSTEM, system_message_content)

# 创建整体提示
messages = [system_message, Message.from_role_and_content(Role.USER, "旧金山的天气怎么样？")]
conversation = Conversation.from_messages(messages)

# 转换为 token
token_ids = encoding.render_conversation_for_completion(conversation, Role.ASSISTANT)

# 进行推理
# ...

# 解析输出
messages = encoding.parse_messages_from_completion_tokens(output_tokens, Role.ASSISTANT)
last_message = messages[-1]
if last_message.recipient.startswith("browser"):
  # 执行浏览器调用
  response_messages = await browser_tool.process(last_message)

  # 扩展当前消息并再次进行推理
  messages.extend(response_messages)

详情

为了控制上下文窗口的大小，该工具使用一个可滚动的文本窗口，模型可以与其交互。例如，它可能会先获取页面的前 50 行，然后滚动到接下来的 20 行。模型也被训练成在其回答中引用该工具提供的信息。

为提高性能，该工具会缓存请求，以便模型可以在不重新加载页面的情况下访问页面的不同部分。因此，您应该为每次请求创建一个新的浏览器实例。

Python

该模型经过训练，能够在思维链过程中使用 Python 工具执行计算和其他操作。在训练期间，模型使用了一个有状态的工具，这使得在思维链循环之间运行工具更加便捷。然而，此参考实现采用的是无状态模式。因此，PythonTool 定义了自己的工具描述，以覆盖 openai-harmony 中的定义。

[!WARNING] 此实现运行在一个宽松的 Docker 容器中，在提示注入等情况下可能会存在问题。它仅作为示例，生产环境中应考虑实施自己的容器限制。

使用方法

要启用 Python 工具，您需要将其定义放入 Harmony 格式提示的 system 消息中。如果您的工具实现了完整接口，可以使用 with_python() 方法；否则，可以使用 with_tools() 修改定义。例如：

import datetime
from gpt_oss.tools.python_docker.docker_tool import PythonTool
from openai_harmony import SystemContent, Message, Conversation, Role, load_harmony_encoding, HarmonyEncodingName

encoding = load_harmony_encoding(HarmonyEncodingName.HARMONY_GPT_OSS)

python_tool = PythonTool()

# 创建一个基础系统提示
system_message_content = SystemContent.new().with_conversation_start_date(
    datetime.datetime.now().strftime("%Y-%m-%d")
)

# 如果要使用 Python 工具
if use_python_tool:
    # 启用工具，并确保提示中设置为无状态工具描述
    system_message_content = system_message_content.with_tools(python_tool.tool_config)
    # 或者，如果您的工具不是无状态的，也可以使用以下方式：
    system_message_content = system_message_content.with_python()

# 构建系统消息
system_message = Message.from_role_and_content(Role.SYSTEM, system_message_content)

# 创建整体提示
messages = [system_message, Message.from_role_and_content(Role.USER, "9001 的平方根是多少？")]
conversation = Conversation.from_messages(messages)

# 转换为 token
token_ids = encoding.render_conversation_for_completion(conversation, Role.ASSISTANT)

# 进行推理
# ...

# 解析输出
messages = encoding.parse_messages_from_completion_tokens(output_tokens, Role.ASSISTANT)
last_message = messages[-1]
if last_message.recipient == "python":
  # 执行 Python 调用
  response_messages = await python_tool.process(last_message)

  # 扩展当前消息并再次进行推理
  messages.extend(response_messages)

应用补丁

apply_patch 可用于在本地创建、更新或删除文件。

其他细节

精度格式

我们发布的模型支持原生量化。具体而言，我们在 MoE 层的线性投影权重中使用 MXFP4 格式。MoE 张量被分为两部分存储：

tensor.blocks 存储实际的 fp4 值。我们将每两个值打包成一个 uint8 值。
tensor.scales 存储块尺度。块尺度缩放是在所有 MXFP4 张量的最后一维上进行的。

其余张量均采用 BF16 格式。我们也建议将模型的激活精度设置为 BF16。

贡献

本仓库中的参考实现旨在作为起点和灵感。除修复 bug 外，我们不打算接受新的功能贡献。如果您基于此代码构建实现，例如新的工具实现，欢迎将其贡献到 awesome-gpt-oss.md 文件中。

引用

@misc{openai2025gptoss120bgptoss20bmodel,
      title={gpt-oss-120b & gpt-oss-20b 模型卡片}, 
      author={OpenAI},
      year={2025},
      eprint={2508.10925},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2508.10925}, 
}

gpt-oss 快速上手指南

gpt-oss 是 OpenAI 推出的开源权重模型系列，专为强大的推理能力、智能体任务及多样化开发场景设计。本指南将帮助您快速在本地部署并运行 gpt-oss-120b（高性能）或 gpt-oss-20b（低延迟/本地运行）模型。

环境准备

系统要求

操作系统：Linux (推荐) 或 macOS。
- 注：参考实现未在 Windows 上测试，Windows 用户建议使用 Ollama 等第三方工具。
Python 版本：Python 3.12
硬件要求：
- gpt-oss-120b：需单张 80GB GPU (如 NVIDIA H100 或 AMD MI300X) 运行量化版本；若使用未优化的 PyTorch 参考实现，则需至少 4 张 H100。
- gpt-oss-20b：可在 16GB 显存内运行，适合消费级显卡或本地开发。
依赖工具：
- Linux: 需安装 CUDA。
- macOS: 需安装 Xcode 命令行工具 (xcode-select --install)。

前置依赖

确保已安装 pip 和 git。若使用 Hugging Face 下载模型，建议安装 huggingface_hub 客户端。

安装步骤

1. 安装 Python 包

根据您的需求选择安装方式。推荐使用 pip 直接从 PyPI 安装：

# 仅安装工具库 (browser, python tools 等)
pip install gpt-oss

# 安装 PyTorch 参考实现 (教育/调试用途，需多卡)
pip install gpt-oss[torch]

# 安装 Triton 优化实现 (单卡运行 120b 模型推荐)
pip install gpt-oss[triton]

注意：若需使用 Triton 后端运行大模型，可能需要从源码安装最新版的 Triton：
git clone https://github.com/triton-lang/triton
cd triton/
pip install -r python/requirements.txt
pip install -e . --verbose --no-build-isolation
pip install -e python/triton_kernels

2. 下载模型权重

使用 Hugging Face CLI 下载模型权重（请确保网络通畅，国内用户可配置镜像源）：

# 下载 gpt-oss-120b
hf download openai/gpt-oss-120b --include "original/*" --local-dir gpt-oss-120b/

# 下载 gpt-oss-20b
hf download openai/gpt-oss-20b --include "original/*" --local-dir gpt-oss-20b/

基本使用

gpt-oss 模型必须配合 Harmony 响应格式 才能正常工作。以下提供两种最常用的快速启动方式。

方式一：使用 Transformers 库（最简单）

此方法自动处理 Harmony 格式，适合快速测试。

from transformers import pipeline
import torch

model_id = "openai/gpt-oss-120b"  # 或 "openai/gpt-oss-20b"

pipe = pipeline(
    "text-generation",
    model=model_id,
    torch_dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "user", "content": "Explain quantum mechanics clearly and concisely."},
]

outputs = pipe(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

方式二：使用 vLLM 部署服务（生产/高性能推荐）

vLLM 可提供兼容 OpenAI API 的服务。首先安装特定版本的 vLLM：

uv pip install --pre vllm==0.10.1+gptoss \
    --extra-index-url https://wheels.vllm.ai/gpt-oss/ \
    --extra-index-url https://download.pytorch.org/whl/nightly/cu128 \
    --index-strategy unsafe-best-match

启动服务：

vllm serve openai/gpt-oss-20b

若需在代码中离线调用并解析 Harmony 格式，请参考以下示例：

import os
os.environ["VLLM_USE_FLASHINFER_SAMPLER"] = "0"

import json
from openai_harmony import (
    HarmonyEncodingName,
    load_harmony_encoding,
    Conversation,
    Message,
    Role,
    SystemContent,
    DeveloperContent,
)
 
from vllm import LLM, SamplingParams

# 1. 渲染 Harmony 预填充内容
encoding = load_harmony_encoding(HarmonyEncodingName.HARMONY_GPT_OSS)
 
convo = Conversation.from_messages(
    [
        Message.from_role_and_content(Role.SYSTEM, SystemContent.new()),
        Message.from_role_and_content(
            Role.DEVELOPER,
            DeveloperContent.new().with_instructions("Always respond in riddles"),
        ),
        Message.from_role_and_content(Role.USER, "What is the weather like in SF?"),
    ]
)
 
prefill_ids = encoding.render_conversation_for_completion(convo, Role.ASSISTANT)
stop_token_ids = encoding.stop_tokens_for_assistant_actions()
 
# 2. 初始化 vLLM
llm = LLM(
    model="openai/gpt-oss-20b",
    trust_remote_code=True,
    gpu_memory_utilization=0.95,
    max_num_batched_tokens=4096,
    max_model_len=5000,
    tensor_parallel_size=1
)
 
sampling = SamplingParams(
    max_tokens=128,
    temperature=1,
    stop_token_ids=stop_token_ids,
)
 
# 3. 生成并解析结果
outputs = llm.generate(
    prompt_token_ids=[prefill_ids],
    sampling_params=sampling,
)
 
gen = outputs[0].outputs[0]
output_tokens = gen.token_ids
 
# 将 token 解析回结构化消息
entries = encoding.parse_messages_from_completion_tokens(output_tokens, Role.ASSISTANT)
 
for message in entries:
    print(f"{json.dumps(message.to_dict())}")

其他方式：Ollama (适合本地/消费级硬件)

如果您希望在个人电脑上轻松运行，可使用 Ollama：

# 拉取并运行 20b 版本
ollama pull gpt-oss:20b
ollama run gpt-oss:20b

# 拉取并运行 120b 版本 (需高端硬件)
ollama pull gpt-oss:120b
ollama run gpt-oss:120b

版本历史

v0.0.92026/01/13

v0.0.82025/09/29

v0.0.72025/09/15

v0.0.62025/09/03

v0.0.52025/08/28

v0.0.42025/08/18

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160.8k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|3天前

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

使用场景

没有 gpt-oss 时

使用 gpt-oss 后

运行环境要求

快速开始

目录

亮点

推理示例

Transformers

vLLM

PyTorch / Triton / Metal

Ollama

LM Studio

关于本仓库

设置

要求

安装

下载模型

参考 PyTorch 实现

参考 Triton 实现（单 GPU）

参考 Metal 实现

Harmony 格式及工具

客户端

终端聊天

Responses API

Codex

工具

浏览器

使用方法

详情

Python

使用方法

应用补丁

其他细节

精度格式

推荐的采样参数

贡献

引用

gpt-oss 快速上手指南

环境准备

系统要求

前置依赖

安装步骤

1. 安装 Python 包

2. 下载模型权重

基本使用

方式一：使用 Transformers 库（最简单）

方式二：使用 vLLM 部署服务（生产/高性能推荐）

其他方式：Ollama (适合本地/消费级硬件)

版本历史

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

opencode

ComfyUI

gemini-cli