Qwen3

27.1k 2k 简单 1 次阅读今天语言模型

AI 解读由 AI 自动生成，仅供参考

Qwen3 是阿里云通义千问团队最新推出的大型语言模型系列，旨在为用户提供更强大、更灵活的智能交互体验。它不仅能流畅完成日常对话、文案创作和代码编写，还能深入处理复杂的逻辑推理、科学计算及长文档分析任务，有效解决了传统模型在专业深度和超长上下文理解上的局限。

无论是希望快速集成 AI 能力的开发者、需要高性能基座模型的研究人员，还是寻求高效办公助手的普通用户，都能从中获益。Qwen3 提供了多种尺寸版本（从 4B 到 235B），并创新性地分为“指令版”和“思考版”：前者在多语言支持和主观任务对齐上表现卓越；后者则具备深度推理能力，在数学与学术基准测试中达到开源模型领先水平。其独特的技术亮点包括原生支持 256K 上下文窗口（可扩展至 100 万 token），以及出色的工具调用能力。配合完善的本地部署、量化压缩及微调文档，Qwen3 让高性能大模型的应用门槛大幅降低，真正实现了从云端到本地的灵活落地。

使用场景

某跨国科技公司的数据团队需要快速从数百页的多语言技术文档和遗留代码库中提炼关键逻辑，并生成可执行的修复方案。

没有 Qwen3 时

面对超过 10 万字的混合语言文档，传统模型因上下文窗口限制只能分段处理，导致前后逻辑割裂，无法理解全局架构。
在处理复杂的数学推导或科学原理时，模型经常产生幻觉或给出表面正确但深层逻辑错误的回答，需专家花费大量时间复核。
生成的代码片段往往缺乏对特定工具链的适配，且难以遵循复杂的指令约束，开发人员需反复修改才能运行。
对于非英语的小语种技术资料，模型理解能力薄弱，关键信息遗漏严重，阻碍了全球化知识的整合。

使用 Qwen3 后

利用 Qwen3 支持的 256K 甚至百万级 token 长上下文能力，团队可一次性输入整本技术手册，精准定位跨章节的逻辑关联。
借助 Qwen3-Thinking-2507 的深度推理增强，模型在解决高难度数学与科学问题时展现出专家级水平，大幅降低了人工校验成本。
Qwen3-Instruct-2507 显著提升了指令遵循与代码生成质量，能直接输出适配现有框架的可运行代码，并准确调用外部工具。
凭借多语言长尾知识的覆盖突破，Qwen3 能流畅解析小语种文档，确保全球技术资产被完整挖掘和利用。

Qwen3 通过超长上下文理解与深度推理能力的双重突破，将原本需要数天的人工研判工作压缩至小时级，极大提升了研发效率。

运行环境要求

GPU

未说明具体型号，但支持 CPU 和 GPU 运行
显存需求取决于模型尺寸（如 235B、30B、4B 等），需参考官方速度基准测试文档
CUDA 版本未说明

内存

未说明

依赖

notesREADME 未直接列出操作系统、Python 版本及内存的具体数值，仅指出推荐使用最新版的 transformers 库（需>=4.51.0）。支持在 CPU 和 GPU 上本地运行，框架包括 llama.cpp、Ollama、LM Studio 等。不同模型尺寸（如 235B、30B、4B）对硬件资源差异巨大，具体显存和吞吐量需求需查阅官方提供的速度基准测试链接。Qwen3-2507 系列分为 Instruct（非思考模式）和 Thinking（思考模式）两个变体，后者输出包含思考过程且建议设置较大的最大生成长度。

python未说明

transformers>=4.51.0

快速开始

Qwen3

请访问我们的 Hugging Face 或 ModelScope 组织（点击上方链接），搜索以 Qwen3- 开头的检查点，或前往 Qwen3 系列，您将找到所需的一切！尽情体验吧！

如需了解更多关于 Qwen3 的信息，欢迎阅读我们的文档 [EN|ZH]。我们的文档包含以下章节：

快速入门：基本用法与示例；
推理：使用 Transformers 进行推理的指南，包括批量推理、流式推理等；
本地运行：在 CPU 和 GPU 上使用 llama.cpp、Ollama、LM Studio 等框架本地运行大模型的说明；
部署：展示如何使用 SGLang、vLLM、TGI 等框架部署 Qwen 以进行大规模推理；
量化：使用 GPTQ、AWQ 对大模型进行量化实践，以及如何制作高质量量化 GGUF 文件的指导；
训练：后训练的说明，包括 SFT 和 RLHF（待完成）等，使用 Axolotl、LLaMA-Factory 等框架；
框架：Qwen 在应用框架中的使用，例如 RAG、Agent 等。

简介

Qwen3-2507

过去三个月里，我们持续探索 Qwen3 系列的潜力，并很高兴推出更新后的 Qwen3-2507，分为 Qwen3-Instruct-2507 和 Qwen3-Thinking-2507 两种模式，以及 235B-A22B、30B-A3B、4B 三种规模。

Qwen3-Instruct-2507 是此前 Qwen3 非思维模式的升级版，具有以下关键改进：

在通用能力方面取得 显著提升，包括 指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用。
在多语言领域的长尾知识覆盖上获得 大幅增长。
在 主观性和开放式任务 中与用户偏好更加契合，能够提供更有帮助的回答和更高质量的文本生成。
在 256K 令牌长上下文理解 方面的能力得到增强，可扩展至 100 万令牌。

Qwen3-Thinking-2507 是 Qwen3 思维模型的延续，其推理质量和深度均有所提升，主要改进如下：

在推理任务上的表现 显著提高，包括逻辑推理、数学、科学、编码以及通常需要人类专业知识的学术基准——在开源权重的思维模型中达到 最先进水平。
通用能力显著增强，例如指令遵循、工具使用、文本生成以及与人类偏好的一致性。
256K 长上下文理解能力进一步提升，可扩展至 100 万令牌。

之前的 Qwen3 发布

Qwen3（又称 Qwen3-2504）

我们很高兴地宣布推出 Qwen3，这是通义千问系列大型语言模型的最新成员。这些模型代表了我们迄今为止最为先进和智能的系统，是在构建 QwQ 和 Qwen2.5 的经验基础上进一步优化而成的。我们现向公众开放 Qwen3 的权重，涵盖密集型和混合专家（MoE）模型。

Qwen3 的亮点包括：

多种规模的密集型和混合专家（MoE）模型, 分别为 0.6B、1.7B、4B、8B、14B、32B，以及 30B-A3B 和 235B-A22B。
思维模式与非思维模式之间的无缝切换（思维模式适用于复杂的逻辑推理、数学和编码任务，非思维模式则用于高效、通用的对话），确保在各种场景下都能发挥最佳性能。
推理能力显著增强, 在数学、代码生成和常识性逻辑推理方面超越了之前的 QwQ（思维模式）和 Qwen2.5 指令模型（非思维模式）。
与人类偏好的契合度更高, 在创意写作、角色扮演、多轮对话和指令遵循等方面表现出色，带来更加自然、引人入胜且沉浸式的对话体验。
强大的代理能力, 无论在思维模式还是非思维模式下，都能精准集成外部工具，在复杂的基于代理的任务中表现领先于其他开源模型。
支持 100 多种语言和方言, 具备强大的 **多语言指令遵循** 和 **翻译** 能力。

新闻

2025年8月8日：您现在可以使用Qwen3-2507处理长达100万标记的超长输入！请参阅更新后的模型卡片（235B-A22B-Instruct-2507、235B-A22B-Thinking-2507、A30B-A3B-Instruct-2507、A30B-A3B-Thinking-2507），了解如何启用此功能。
2025年8月6日：Qwen3-2507的最终公开版本，即Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507，现已发布！
2025年7月31日：Qwen3-30B-A3B-Thinking-2507已发布。更多详情请查看模型卡片！
2025年7月30日：Qwen3-30B-A3B-Instruct-2507已发布。更多详情请查看模型卡片！
2025年7月25日：我们发布了Qwen3-235B-A22B思考模式的更新版本，名为Qwen3-235B-A22B-Thinking-2507。更多详情请查看模型卡片！
2025年7月21日：我们发布了Qwen3-235B-A22B非思考模式的更新版本，名为Qwen3-235B-A22B-Instruct-2507，相比上一版本有显著提升，并支持256K标记的长上下文理解。更多详情请查看我们的模型卡片！
2025年4月29日：我们发布了Qwen3系列。更多详情请查看我们的博客！
2024年9月19日：我们发布了Qwen2.5系列。此次新增了3个模型尺寸：3B、14B和32B，以提供更多可能性。更多信息请查看我们的博客！
2024年6月6日：我们发布了Qwen2系列。请查看我们的博客！
2024年3月28日：我们发布了Qwen的第一个MoE模型：Qwen1.5-MoE-A2.7B！目前，只有HF transformers和vLLM支持该模型。我们很快将增加对llama.cpp、mlx-lm等的支持。更多信息请查看我们的博客！
2024年2月5日：我们发布了Qwen1.5系列。

性能

详细评估结果已在本篇📑博客（Qwen3-2504）以及这篇📑博客（Qwen3-2507）[即将发布]中报告。

关于显存需求及相应吞吐量，请参阅此处的结果：链接。

运行Qwen3

🤗 Transformers

Transformers是一个用于推理和训练的预训练自然语言处理库。建议使用最新版本的transformers，且需满足transformers>=4.51.0的要求。

Qwen3-Instruct-2507

以下代码片段展示了如何使用Qwen3-30B-A3B-Instruct-2507根据给定输入生成内容。

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-30B-A3B-Instruct-2507"

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# 准备模型输入
prompt = "给我一个关于大型语言模型的简短介绍。"
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 进行文本补全
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=16384
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

content = tokenizer.decode(output_ids, skip_special_tokens=True)

print("content:", content)

[!注释] Qwen3-Instruct-2507仅支持非思考模式，其输出不会生成<think></think>块。同时，不再需要指定enable_thinking=False。

Qwen3-Thinking-2507

以下代码片段展示了如何使用Qwen3-30B-A3B-Thinking-2507根据给定输入生成内容。

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-30B-A3B-Thinking-2507"

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# 准备模型输入
prompt = "给我一个关于大型语言模型的简短介绍。"
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 进行文本补全
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

# 解析思考内容
try:
    # 从后向前查找151668（</think>）
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("thinking content:", thinking_content)  # 无<think>标签开头
print("content:", content)

[!注释] Qwen3-Thinking-2507仅支持思考模式。此外，为强制模型进行思考，默认聊天模板会自动包含<think>。因此，模型输出中仅出现</think>而没有明确的<think>标签开头是正常现象。 Qwen3-Thinking-2507还具有更长的思考长度。我们强烈建议在复杂的推理任务中使用它，并设置足够的最大生成长度。

切换先前Qwen3模型的思考/非思考模式

默认情况下，Qwen3模型会在响应前进行思考。可通过以下方式控制：

enable_thinking=False：向`tokenizer.apply_chat_template`传递enable_thinking=False可严格阻止模型生成思考内容。
/think和/no_think指令：在系统或用户消息中使用这些词语来指示Qwen3是否应思考。在多轮对话中，以最新的指令为准。

ModelScope

我们强烈建议用户，尤其是中国大陆的用户，使用 ModelScope。
ModelScope 采用与 Transformers 类似的 Python API。
命令行工具 modelscope download 可以帮助您解决检查点下载相关的问题。
对于 vLLM 和 SGLang，可以分别使用环境变量 VLLM_USE_MODELSCOPE=true 和 SGLANG_USE_MODELSCOPE=true。

llama.cpp

llama.cpp 能够在极简的设置下实现 LLM 推理，并在多种硬件上提供最先进的性能。
为了完整支持 Qwen3，建议使用 llama.cpp>=b5401。

要使用命令行界面，请在终端中运行以下命令：

./llama-cli -hf Qwen/Qwen3-8B-GGUF:Q8_0 --jinja --color -ngl 99 -fa -sm row --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0 -c 40960 -n 32768 --no-context-shift
# 按 CTRL+C 退出

要使用 API 服务器，请在终端中运行以下命令：

./llama-server -hf Qwen/Qwen3-8B-GGUF:Q8_0 --jinja --reasoning-format deepseek -ngl 99 -fa -sm row --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0 -c 40960 -n 32768 --no-context-shift --port 8080

简单的 Web 前端将位于 http://localhost:8080，而兼容 OpenAI 的 API 将位于 http://localhost:8080/v1。

有关更多指南，请参阅我们的文档。

[!注] llama.cpp 采用“循环上下文管理”机制，通过逐出较早的标记来实现无限生成。
这可以通过参数进行配置，上述命令已有效禁用该功能。
更多详情请参阅我们的文档。

Ollama

在安装 Ollama 后，您可以使用以下命令启动 Ollama 服务（建议使用 Ollama v0.9.0 或更高版本）：

ollama serve
# 使用 Ollama 时，需保持此服务运行

要拉取模型检查点并运行模型，请使用 ollama run 命令。您可以通过在 qwen3 后添加后缀来指定模型大小，例如 :8b 或 :30b-a3b：

ollama run qwen3:8b
# 设置参数：输入 `/set parameter num_ctx 40960` 和 `/set parameter num_predict 32768`  
# 输入 `/bye` 并按 ENTER 键退出  
# 对于 Qwen3-2504 模型，
# - 若要启用思考模式（默认），输入 `/set think`  
# - 若要禁用思考模式，输入 `/set nothink`

您还可以通过 Ollama 的兼容 OpenAI 的 API 访问该服务。
请注意：(1) 使用 API 时需保持 ollama serve 运行；(2) 在使用此 API 之前需先执行 ollama run qwen3:8b，以确保模型检查点已准备就绪。
API 默认地址为 http://localhost:11434/v1/。

有关更多详细信息，请访问 ollama.ai。

[!注] Ollama 的命名可能与 Qwen 的原始命名不一致。
例如，Ollama 中的 qwen3:30b-a3b 实际指向的是截至 2025 年 8 月的 qwen3:30b-a3b-thinking-2507-q4_K_M。
请在使用前查看 https://ollama.com/library/qwen3/tags。

[!注] Ollama 采用与 llama.cpp 相同的“循环上下文管理”机制。
然而，其默认设置（num_ctx 为 2048，num_predict 为 -1）意味着使用 2048 个标记的上下文进行无限生成，
这可能会给 Qwen3 模型带来问题。
我们建议正确设置 num_ctx 和 num_predict。

LMStudio

Qwen3 已被 lmstudio.ai 支持。您可以直接使用我们的 GGUF 文件在 LMStudio 中运行。

ExecuTorch

要导出并在 ExecuTorch 上运行（适用于 iOS、Android、Mac、Linux 等平台），请参考此示例。

MNN

要导出并在 MNN 上运行（支持 Qwen3 在移动设备上的部署），请访问 Alibaba MNN。

MLX LM

如果您使用的是 Apple Silicon 处理器，mlx-lm 也支持 Qwen3（mlx-lm>=0.24.0）。
请在 Hugging Face Hub 上查找以 MLX 结尾的模型。

OpenVINO

如果您使用的是 Intel CPU 或 GPU，OpenVINO 工具包支持 Qwen3。
您可以参考此聊天机器人示例。

部署 Qwen3

Qwen3 很好地支持多种推理框架。
在此我们将演示如何使用 SGLang、vLLM 和 TensorRT-LLM。
此外，您也可以从各种推理提供商处找到 Qwen3 模型，例如阿里云 Model Studio。

SGLang

SGLang 是一个用于大型语言模型和视觉语言模型的快速推理框架。
SGLang 可用于启动具有兼容 OpenAI API 服务的服务器。
需要 sglang>=0.4.6.post1。

对于 Qwen3-Instruct-2507：

python -m sglang.launch_server --model-path Qwen/Qwen3-30B-A3B-Instruct-2507 --port 30000 --context-length 262144

对于 Qwen3-Thinking-2507：

python -m sglang.launch_server --model-path Qwen/Qwen3-30B-A3B-Thinking-2507 --port 30000 --context-length 262144 --reasoning-parser deepseek-r1

对于 Qwen3：

python -m sglang.launch_server --model-path Qwen/Qwen3-8B --port 30000 --context-length 131072 --reasoning-parser qwen3

兼容 OpenAI 的 API 将可在 http://localhost:30000/v1 使用。

[!注] 由于 SGLang 对 API 请求的预处理会丢弃所有 reasoning_content 字段，因此 使用 Qwen3 思考模型进行多步工具调用 的质量可能不够理想，这要求相关的思考内容必须存在。虽然目前正在修复这一问题，但作为临时解决方案，我们建议直接传递原始内容，无需提取思考内容，聊天模板将正确处理这些内容。

vLLM

vLLM 是一个高吞吐量且内存高效的大型语言模型推理和部署引擎。建议使用 vllm>=0.9.0。

对于 Qwen3-Instruct-2507，

vllm serve Qwen/Qwen3-30B-A3B-Instruct-2507 --port 8000 --max-model-len 262144

对于 Qwen3-Thinking-2507，

vllm serve Qwen/Qwen3-30B-A3B-Thinking-2507 --port 8000 --max-model-len 262144 --enable-reasoning --reasoning-parser deepseek_r1

对于 Qwen3，则为：

vllm serve Qwen/Qwen3-8B --port 8000 --max-model-len 131072 --enable-reasoning --reasoning-parser qwen3

一个兼容 OpenAI 的 API 将在 http://localhost:8000/v1 提供。

[!注] 由于 vLLM 对 API 请求的预处理会丢弃所有 reasoning_content 字段，因此 使用 Qwen3 思考模型进行多步工具调用 的质量可能会不理想，这需要相关思考内容的存在。目前我们正在修复此问题，作为临时解决方案，建议直接传递原始内容，无需提取思考内容，聊天模板将正确处理这些内容。

TensorRT-LLM

TensorRT-LLM 是 NVIDIA 开源的 LLM 推理引擎，它在 NVIDIA GPU 上提供了包括自定义注意力核、量化等优化功能。Qwen3 在其重新设计的 PyTorch 后端中得到支持。建议使用 tensorrt_llm>=0.20.0rc3。更多详细信息请参阅 README 页面。

trtllm-serve Qwen/Qwen3-8B --host localhost --port 8000 --backend pytorch

一个兼容 OpenAI 的 API 将在 http://localhost:8000/v1 提供。

MindIE

如需在 Ascend NPU 上部署，请访问 Modelers 并搜索 Qwen3。

使用 Qwen3 构建

工具使用

对于工具使用功能，我们建议查看 Qwen-Agent，它为这些 API 提供了封装，支持工具使用或函数调用，并具备 MCP 支持。使用 Qwen3 进行工具调用也可以通过 SGLang、vLLM、Transformers、llama.cpp、Ollama 等工具实现。请参考我们的文档中的指南，了解如何启用该支持。

微调

我们建议您使用训练框架，包括 Axolotl、UnSloth、Swift、Llama-Factory 等，以 SFT、DPO、GRPO 等方法对您的模型进行微调。

许可协议

我们所有的开源权重模型均采用 Apache 2.0 许可证授权。您可以在相应的 Hugging Face 仓库中找到许可证文件。

引用

如果您觉得我们的工作有所帮助，请随时引用我们。

@article{qwen3,
    title={Qwen3 技术报告}, 
    author={An Yang 和 Anfeng Li 和 Baosong Yang 和 Beichen Zhang 和 Binyuan Hui 和 Bo Zheng 和 Bowen Yu 和 Chang Gao 和 Chengen Huang 和 Chenxu Lv 和 Chujie Zheng 和 Dayiheng Liu 和 Fan Zhou 和 Fei Huang 和 Feng Hu 和 Hao Ge 和 Haoran Wei 和 Huan Lin 和 Jialong Tang 和 Jian Yang 和 Jianhong Tu 和 Jianwei Zhang 和 Jianxin Yang 和 Jiaxi Yang 和 Jing Zhou 和 Jingren Zhou 和 Junyang Lin 和 Kai Dang 和 Keqin Bao 和 Kexin Yang 和 Le Yu 和 Lianghao Deng 和 Mei Li 和 Mingfeng Xue 和 Mingze Li 和 Pei Zhang 和 Peng Wang 和 Qin Zhu 和 Rui Men 和 Ruize Gao 和 Shixuan Liu 和 Shuang Luo 和 Tianhao Li 和 Tianyi Tang 和 Wenbiao Yin 和 Xingzhang Ren 和 Xinyu Wang 和 Xinyu Zhang 和 Xuancheng Ren 和 Yang Fan 和 Yang Su 和 Yichang Zhang 和 Yinger Zhang 和 Yu Wan 和 Yuqiong Liu 和 Zekun Wang 和 Zeyu Cui 和 Zhenru Zhang 和 Zhipeng Zhou 和 Zihan Qiu},
    journal = {arXiv 预印本 arXiv:2505.09388},
    year={2025}
}

@article{qwen2.5,
    title   = {Qwen2.5 技术报告}, 
    author  = {An Yang 和 Baosong Yang 和 Beichen Zhang 和 Binyuan Hui 和 Bo Zheng 和 Bowen Yu 和 Chengyuan Li 和 Dayiheng Liu 和 Fei Huang 和 Haoran Wei 和 Huan Lin 和 Jian Yang 和 Jianhong Tu 和 Jianwei Zhang 和 Jianxin Yang 和 Jiaxi Yang 和 Jingren Zhou 和 Junyang Lin 和 Kai Dang 和 Keming Lu 和 Keqin Bao 和 Kexin Yang 和 Le Yu 和 Mei Li 和 Mingfeng Xue 和 Pei Zhang 和 Qin Zhu 和 Rui Men 和 Runji Lin 和 Tianhao Li 和 Tingyu Xia 和 Xingzhang Ren 和 Xuancheng Ren 和 Yang Fan 和 Yang Su 和 Yichang Zhang 和 Yu Wan 和 Yuqiong Liu 和 Zeyu Cui 和 Zhenru Zhang 和 Zihan Qiu},
    journal = {arXiv 预印本 arXiv:2412.15115},
    year    = {2024}
}

@article{qwen2,
    title   = {Qwen2 技术报告}, 
    author  = {An Yang 和 Baosong Yang 和 Binyuan Hui 和 Bo Zheng 和 Bowen Yu 和 Chang Zhou 和 Chengpeng Li 和 Chengyuan Li 和 Dayiheng Liu 和 Fei Huang 和 Guanting Dong 和 Haoran Wei 和 Huan Lin 和 Jialong Tang 和 Jialin Wang 和 Jian Yang 和 Jianhong Tu 和 Jianwei Zhang 和 Jianxin Ma 和 Jin Xu 和 Jingren Zhou 和 Jinze Bai 和 Jinzheng He 和 Junyang Lin 和 Kai Dang 和 Keming Lu 和 Keqin Chen 和 Kexin Yang 和 Mei Li 和 Mingfeng Xue 和 Na Ni 和 Pei Zhang 和 Peng Wang 和 Ru Peng 和 Rui Men 和 Ruize Gao 和 Runji Lin 和 Shijie Wang 和 Shuai Bai 和 Sinan Tan 和 Tianhang Zhu 和 Tianhao Li 和 Tianyu Liu 和 Wenbin Ge 和 Xiaodong Deng 和 Xiaohuan Zhou 和 Xingzhang Ren 和 Xinyu Zhang 和 Xipin Wei 和 Xuancheng Ren 和 Yang Fan 和 Yang Yao 和 Yichang Zhang 和 Yu Wan 和 Yunfei Chu 和 Yuqiong Liu 和 Zeyu Cui 和 Zhenru Zhang 和 Zhihao Fan},
    journal = {arXiv 预印本 arXiv:2407.10671},
    year    = {2024}
}

联系我们

如果您希望向我们的研究团队或产品团队留言，请加入我们的 Discord 或微信交流群!

Qwen3 快速上手指南

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux, macOS, Windows
Python 版本：推荐 Python 3.9 及以上
核心依赖：
- transformers >= 4.51.0 (必须)
- torch (PyTorch)
- accelerate (推荐用于自动设备映射)
硬件建议：
- 推理：根据模型大小（4B ~ 235B），需配备相应显存的 GPU。小参数模型（如 4B）可在消费级显卡运行，大参数模型（如 30B, 235B）建议使用多卡或高显存专业卡。
- 长上下文：若需开启 256K 或 1M token 上下文支持，请确保显存充足并参考官方 ModelCard 配置。

国内开发者提示：推荐使用 ModelScope (魔搭) 获取模型权重，下载速度更快且无需特殊网络环境。Hugging Face 用户若遇网络问题，可配置镜像源或使用代理。

2. 安装步骤

使用 pip 安装必要的 Python 库：

pip install -U transformers torch accelerate

若您需要从 ModelScope 下载模型，建议安装 modelscope 库以获得更好的体验：

pip install modelscope

3. 基本使用

Qwen3 系列主要包含两种模式：指令模式 (Instruct) 和 思考模式 (Thinking)。两者在使用代码上略有不同。

场景一：使用 Qwen3-Instruct-2507 (通用对话)

适用于日常问答、代码生成、文本创作等任务。该模式不输出思考过程，响应速度快。

from transformers import AutoModelForCausalLM, AutoTokenizer

# 模型名称 (可使用 ModelScope 路径，例如 "qwen/Qwen3-30B-A3B-Instruct-2507")
model_name = "Qwen/Qwen3-30B-A3B-Instruct-2507"

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# 准备输入
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 生成回复
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=16384
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

content = tokenizer.decode(output_ids, skip_special_tokens=True)

print("content:", content)

场景二：使用 Qwen3-Thinking-2507 (深度推理)

适用于数学计算、复杂逻辑推理、科学问题及高难度编程任务。该模型会先输出思考过程（<think> 标签内），再输出最终答案。

from transformers import AutoModelForCausalLM, AutoTokenizer

# 模型名称
model_name = "Qwen/Qwen3-30B-A3B-Thinking-2507"

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# 准备输入
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 生成回复 (建议设置较大的 max_new_tokens 以容纳思考过程)
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

# 解析思考内容与最终回答
try:
    # 查找 </think> 结束标记 (token id: 151668)
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("thinking content:", thinking_content)
print("content:", content)

注意：

Instruct 模型：仅支持非思考模式，无需设置 enable_thinking 参数，输出中不会包含 <think> 标签。

Thinking 模型：默认强制开启思考模式。模板会自动添加起始标记，因此输出通常只包含结束的 </think> 标签，这是正常现象。

长上下文：部分 Qwen3-2507 模型支持扩展至 1M token，具体启用方法请参阅对应模型的 ModelCard。

常见问题

Qwen2 系列是否有 14B 和 32B 版本的计划？

配置了 128K 上下文后，输入长文本仍报错提示超出最大长度限制怎么办？

使用 vLLM 启动 OpenAI 兼容接口时，输出结果结尾包含大量换行符（\n\n\n）如何解决？

使用 Ollama 运行 Qwen2-7B 模型时，无论输入什么都只输出大写字母"G"或乱码，如何解决？

使用 vLLM 加载 Qwen2-72B-Instruct-gptq-int4 模型时，生成内容出现严重重复怎么办？

为什么 vLLM 推理结果与 Hugging Face Transformers 的结果差异很大？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

spec-kit

Spec Kit 是一款专为提升软件开发效率而设计的开源工具包，旨在帮助团队快速落地“规格驱动开发”（Spec-Driven Development）模式。传统开发中，需求文档往往与代码实现脱节，导致沟通成本高且结果不可控；而 Spec Kit 通过将规格说明书转化为可执行的指令，让 AI 直接依据明确的业务场景生成高质量代码，从而减少从零开始的随意编码，确保产出结果的可预测性。该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程，用户只需通过简单的命令行操作，即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念，支持社区扩展与预设模板，允许用户根据特定技术栈定制开发流程。此外，Spec Kit 强调官方维护的安全性，提供稳定的版本管理，帮助开发者在享受 AI 红利的同时，依然牢牢掌握架构设计的主动权，真正实现从“凭感觉写代码”到“按规格建系统”的转变。

★ 88.7k|★★☆☆☆|昨天

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|1周前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.3k|★★☆☆☆|今天

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|1周前

语言模型数据工具其他