Hunyuan-A13B

813 118 中等 1 次阅读 1周前NOASSERTION语言模型Agent

AI 解读由 AI 自动生成，仅供参考

Hunyuan-A13B 是腾讯开源的一款基于细粒度混合专家（MoE）架构的大型语言模型。它旨在解决大模型在规模扩张过程中，如何平衡高性能与低资源消耗的难题。该模型总参数量达 800 亿，但在推理时仅激活 130 亿参数，既保留了超大模型的强大能力，又显著降低了计算开销和部署门槛。

Hunyuan-A13B 特别适合资源受限环境下的开发者、研究人员以及需要构建高效 AI 应用的企业团队。无论是进行学术探索、开发成本敏感型解决方案，还是构建复杂的智能体应用，它都能提供坚实的技术底座。

其技术亮点十分突出：原生支持 256K 超长上下文窗口，能稳定处理长篇文档；具备“快慢思考”双模式，可灵活应对不同复杂度的推理任务；在智能体（Agent）基准测试中表现领先。此外，通过采用分组查询注意力（GQA）机制及支持多种量化格式，Hunyuan-A13B 实现了极高的推理效率，让高性能大模型的落地变得更加轻松可行。

使用场景

某中型电商公司的技术团队正致力于构建一个能实时分析海量用户评论并生成深度洞察报告的智能客服系统。

没有 Hunyuan-A13B 时

硬件成本高昂：为了处理长篇幅的用户反馈，团队不得不租用配备多张高端 GPU 的服务器来运行参数量巨大的模型，导致每月云资源账单激增。
响应延迟严重：在促销高峰期，面对并发请求，旧模型推理速度慢，用户往往需要等待数秒甚至更久才能收到回复，严重影响体验。
长文理解丢失：面对包含复杂前因后果的长篇投诉，原有模型受限于上下文窗口，经常遗漏关键细节，导致生成的解决方案牛头不对马嘴。
复杂任务乏力：在处理需要多步推理的售后纠纷（如核对订单、物流、退款政策）时，模型逻辑混乱，无法像人类专家一样进行“慢思考”。

使用 Hunyuan-A13B 后

资源效率倍增：得益于细粒度 MoE 架构，Hunyuan-A13B 仅激活 130 亿参数即可发挥 800 亿参数模型的性能，团队成功将服务器配置降级，算力成本降低 60%。
毫秒级实时响应：利用其高效的推理机制和量化支持，即使在流量洪峰下，Hunyuan-A13B 也能保持极速响应，让用户感觉在与真人即时对话。
全量信息精准捕捉：原生支持的 256K 超长上下文窗口，让 Hunyuan-A13B 能完整阅读数万字的歷史沟通记录，精准定位问题根源，不再断章取义。
智能代理逻辑严密：开启“慢思考”模式后，Hunyuan-A13B 能自主规划步骤，准确调用内部 API 完成复杂的退改签流程，大幅减少了人工介入的需求。

Hunyuan-A13B 以极致的能效比和强大的长文本推理能力，帮助企业在有限资源下实现了企业级 AI 应用的性能飞跃。

运行环境要求

操作系统

未说明

GPU

需要 NVIDIA GPU（代码示例使用 device_map="auto"且提及 TRT-LLM 后端），具体显存需求未说明（支持 FP8 和 INT4 量化以降低部署门槛）

内存

未说明

依赖

notes模型基于细粒度混合专家（MoE）架构，总参数量 80B，激活参数 13B。默认启用慢思考推理模式，可通过设置 enable_thinking=False 或在提示词前加/no_think 禁用。官方提供了 FP8 和 GPTQ-Int4 量化版本以提升推理效率并降低显存需求。训练详情需参考单独的训练文档。

python未说明

transformers

torch

AngelSlim (用于量化)

快速开始

中文｜英文

Hugging Face | 🖥️ 官方网站 | 🕖 HunyuanAPI | 🕹️ 演示 | ModelScope

欢迎来到Hunyuan-A13B的官方仓库，这是一款基于细粒度专家混合（MoE）架构构建的创新开源大型语言模型（LLM）。Hunyuan-A13B专为高效性和可扩展性而设计，在保持高性能的同时，计算开销极低，因此成为高级推理和通用应用的理想选择，尤其适用于资源受限的环境。

模型简介

随着人工智能技术的飞速发展，大型语言模型（LLMs）在自然语言处理、计算机视觉以及科学任务等领域取得了显著进展。然而，随着模型规模的不断扩大，如何在保持高性能的同时优化资源消耗已成为一项关键挑战。为此，我们深入探索了专家混合（MoE）架构。全新推出的Hunyuan-A13B模型总参数量达800亿，其中活跃参数仅为130亿。它不仅能够提供卓越的性能，还实现了最优的资源效率，成功地在计算能力与资源利用率之间取得了平衡。

核心特性与优势

小巧而强大：尽管总参数量高达800亿，但活跃参数仅130亿，该模型在众多基准测试中表现出色，其性能甚至可以媲美规模更大的模型。
混合推理支持：同时支持快速思维和慢速思维模式，用户可根据需求灵活选择。
超长上下文理解能力：原生支持256K的上下文窗口，在处理长文本任务时仍能保持稳定表现。
增强的代理能力：针对代理任务进行了优化，在BFCL-v3、τ-Bench和C3-Bench等基准测试中均取得了领先结果。
高效推理：采用分组查询注意力机制（GQA），并支持多种量化格式，从而实现高效的推理过程。

为什么选择Hunyuan-A13B？

作为一款功能强大且计算效率极高的大模型，Hunyuan-A13B是研究人员和开发者在资源有限的情况下追求高性能的理想选择。无论是学术研究、经济高效的AI解决方案开发，还是创新应用的探索，这款模型都能为您提供坚实的基础，助力不断进步。

基准测试

注意：以下基准测试由 TRT-LLM 后端在若干 基础模型 上进行评估。

模型	Hunyuan-Large	Qwen2.5-72B	Qwen3-A22B	Hunyuan-A13B
MMLU	88.40	86.10	87.81	88.17
MMLU-Pro	60.20	58.10	68.18	67.23
MMLU-Redux	87.47	83.90	87.40	87.67
BBH	86.30	85.80	88.87	87.56
SuperGPQA	38.90	36.20	44.06	41.32
EvalPlus	75.69	65.93	77.60	78.64
MultiPL-E	59.13	60.50	65.94	69.33
MBPP	72.60	76.00	81.40	83.86
CRUX-I	57.00	57.63	-	70.13
CRUX-O	60.63	66.20	79.00	77.00
MATH	69.80	62.12	71.84	72.35
CMATH	91.30	84.80	-	91.17
GSM8k	92.80	91.50	94.39	91.83
GPQA	25.18	45.90	47.47	49.12

Hunyuan-A13B-Instruct 在多个基准测试中表现出极高的竞争力，尤其是在数学、科学和智能体等领域。我们将其与几款强大的模型进行了对比，结果如下所示。

主题	基准	OpenAI-o1-1217	DeepSeek R1	Qwen3-A22B	Hunyuan-A13B-Instruct
数学	AIME 2024 AIME 2025 MATH	74.3 79.2 96.4	79.8 70 94.9	85.7 81.5 94.0	87.3 76.8 94.3
科学	GPQA-Diamond OlympiadBench	78 83.1	71.5 82.4	71.1 85.7	71.2 82.7
编码	Livecodebench Fullstackbench ArtifactsBench	63.9 64.6 38.6	65.9 71.6 44.6	70.7 65.6 44.6	63.9 67.8 43
推理	BBH DROP ZebraLogic	80.4 90.2 81	83.7 92.2 78.7	88.9 90.3 80.3	89.1 91.1 84.7
指令遵循	IF-Eval SysBench	91.8 82.5	88.3 77.7	83.4 74.2	84.7 76.1
文本生成	LengthCtrl InsCtrl	60.1 74.8	55.9 69	53.3 73.7	55.4 71.9
NLU	ComplexNLU Word-Task	64.7 67.1	64.5 76.3	59.8 56.4	61.2 62.9
智能体	BFCL v3 τ-Bench ComplexFuncBench C3-Bench	67.8 60.4 47.6 58.8	56.9 43.8 41.1 55.3	70.8 44.6 40.6 51.7	78.3 54.7 61.2 63.5

与 transformers 库结合使用

我们的模型默认采用慢速思维推理模式，有两种方法可以禁用 CoT 推理：

在调用 apply_chat_template 时传入 "enable_thinking=False"。
在提示词前添加 "/no_think" 可强制模型不执行 CoT 推理。类似地，在提示词前添加 "/think" 则会强制模型执行 CoT 推理。

以下代码片段展示了如何使用 transformers 库加载并应用该模型，同时演示了如何启用和禁用推理模式，以及如何解析推理过程与最终输出。

from transformers import AutoModelForCausalLM, AutoTokenizer
import os
import re

model_name_or_path = os.environ['MODEL_PATH']
# model_name_or_path = "tencent/Hunyuan-A13B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_name_or_path, device_map="auto",trust_remote_code=True)  # You may want to use bfloat16 and/or move to GPU here
messages = [
    {"role": "user", "content": "Write a short summary of the benefits of regular exercise"},
]
tokenized_chat = tokenizer.apply_chat_template(messages, tokenize=True, return_tensors="pt",
                                                enable_thinking=True # Toggle thinking mode (default: True)
                                                )

outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=4096)

output_text = tokenizer.decode(outputs[0])

think_pattern = r'\<think\>(.*?)\<\/think\>'
think_matches = re.findall(think_pattern, output_text, re.DOTALL)

answer_pattern = r'\<answer\>(.*?)\<\/answer\>'
answer_matches = re.findall(answer_pattern, output_text, re.DOTALL)

think_content = [match.strip() for match in think_matches][0]
answer_content = [match.strip() for match in answer_matches][0]
print(f"thinking_content:{think_content}\n\n")
print(f"answer_content:{answer_content}\n\n")

训练快速入门

Hunyuan-A13B 提供了与模型训练相关的流程。请参阅 Training 以了解模型训练的相关内容。

量化压缩

我们使用自主研发的 AngelSlim 压缩工具，生成了 FP8 和 INT4 量化模型。AngelSlim 支持对 LLM 模型进行一键式量化与压缩，请参考 AngelSlim 文档。

FP8 量化

我们采用 FP8 静态量化技术。FP8 量化使用 8 位浮点格式，通过少量校准数据（无需训练）预先确定量化尺度，将模型权重和激活值转换为 FP8 格式，从而提升推理效率并降低部署门槛。您可以使用 AngleSlim 进行量化，也可以直接下载我们已完成量化并开源的模型 Hunyuan-A13B-Instruct-FP8。

FP8 基准测试

本小节介绍 Hunyuan-80B-A13B-Instruct-FP8 量化模型的基准测试指标。

基准	Hunyuan-A13B-Instruct	Hunyuan-A13B-Instruct-FP8
AIME 2024	87.3	86.7
Gsm8k	94.39	94.01
BBH	89.1	88.34
DROP	91.1	91.1

Int4 量化

我们使用 GPTQ 算法实现 W4A16 量化，该算法逐层处理模型权重，利用少量校准数据来最小化量化权重的重构误差，并通过近似海森矩阵逆矩阵的优化过程逐层调整权重。这一过程无需对模型进行重新训练，仅需少量校准数据即可完成权重量化，从而提升推理效率并降低部署门槛。您可以使用 AngleSlim 量化工具，也可以直接下载我们已完成量化的开源模型进行使用：Hunyuan-A13B-Instruct-Int4。

Int4 基准测试

本小节介绍 Hunyuan-80B-A13B-Instruct-GPTQ-Int4 量化模型的基准测试指标。

基准测试	Hunyuan-A13B-Instruct	Hunyuan-A13B-Instruct-GPTQ-Int4
OlympiadBench	82.7	84.0
AIME 2024	87.3	86.7
Gsm8k	94.39	94.24
BBH	89.1	87.91
DROP	91.1	91.05

部署

在部署方面，您可以使用 TensorRT-LLM、vLLM 或 SGLang 等框架来服务模型，并创建与 OpenAI 兼容的 API 端点。

图片：https://hub.docker.com/r/hunyuaninfer/hunyuan-a13b/tags

TensorRT-LLM

Docker 镜像

我们提供基于最新版本 TensorRT-LLM 的预构建 Docker 镜像。

开始使用：

https://hub.docker.com/r/hunyuaninfer/hunyuan-large/tags

docker pull hunyuaninfer/hunyuan-a13b:hunyuan-moe-A13B-trtllm

docker run --privileged --user root --name hunyuanLLM_infer --rm -it --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 --gpus=all hunyuaninfer/hunyuan-a13b:hunyuan-moe-A13B-trtllm

准备配置文件：

cat >/path/to/extra-llm-api-config.yml <<EOF
use_cuda_graph: true
cuda_graph_padding_enabled: true
cuda_graph_batch_sizes:
- 1
- 2
- 4
- 8
- 16
- 32
print_iter_log: true
EOF

启动 API 服务器：

trtllm-serve \
  /path/to/HunYuan-moe-A13B \
  --host localhost \
  --port 8000 \
  --backend pytorch \
  --max_batch_size 32 \
  --max_num_tokens 16384 \
  --tp_size 2 \
  --kv_cache_free_gpu_memory_fraction 0.6 \
  --trust_remote_code \
  --extra_llm_api_options /path/to/extra-llm-api-config.yml

vllm

Docker 镜像

我们提供包含 vLLM 0.8.5 的预构建 Docker 镜像，完全支持该模型。目前官方 vLLM 版本仍在开发中，请注意：此 Docker 镜像需要 CUDA 12.8。

开始使用：

docker pull docker.cnb.cool/tencent/hunyuan/hunyuan-a13b:hunyuan-moe-A13B-vllm
或
docker pull hunyuaninfer/hunyuan-a13b:hunyuan-moe-A13B-vllm

下载模型文件：
- Huggingface：vLLM 会自动下载。
- ModelScope：modelscope download --model Tencent-Hunyuan/Hunyuan-A13B-Instruct
启动 API 服务器：

通过 Huggingface 下载模型：

docker run  --privileged --user root  --net=host --ipc=host \
        -v ~/.cache:/root/.cache/ \
        --gpus=all -it --entrypoint python  hunyuaninfer/hunyuan-a13b:hunyuan-moe-A13B-vllm
 \
         -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 8000 \
         --tensor-parallel-size 4 --model tencent/Hunyuan-A13B-Instruct --trust-remote-code

通过 ModelScope 下载模型：

docker run  --privileged --user root  --net=host --ipc=host \
        -v ~/.cache/modelscope:/root/.cache/modelscope \
        --gpus=all -it --entrypoint python   hunyuaninfer/hunyuan-a13b:hunyuan-moe-A13B-vllm \
         -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --tensor-parallel-size 4 --port 8000 \
         --model /root/.cache/modelscope/hub/models/Tencent-Hunyuan/Hunyuan-A13B-Instruct/ --trust_remote_code

量化模型部署

本节介绍如何使用 vLLM 部署后量化模型的过程。

图片：以 BF16 模式部署镜像。

Int8 量化模型部署

部署 HunYuan-A13B 模型的 Int8 权重专用版本，只需在 run_server_int8.sh 中设置环境变量：

export MODEL_PATH=PATH_TO_BF16_MODEL

接下来启动 Int8 服务。运行：

sh run_server_int8.sh

成功运行 run_server_int8.sh 后，再运行请求脚本：

sh openapi.sh

Int4 量化模型部署

部署 HunYuan-A13B 模型的 Int4 权重专用版本，只需在 run_server_int4.sh 中设置环境变量，采用 GPTQ 方法：

export MODEL_PATH=PATH_TO_INT4_MODEL

接下来启动 Int4 服务。运行：

sh run_server_int4.sh

成功运行 run_server_int4.sh 后，再运行请求脚本：

sh openapi.sh

FP8 量化模型部署

部署 HunYuan-A13B 模型的 W8A8C8 版本，只需在 run_server_int8.sh 中设置环境变量：

export MODEL_PATH=PATH_TO_FP8_MODEL

接下来启动 FP8 服务。运行：

sh run_server_fp8.sh

成功运行 run_server_fp8.sh 后，再运行请求脚本：

sh openapi.sh

SGLang

Docker 镜像

我们还提供基于最新版本 SGLang 的预构建 Docker 镜像。

开始使用：
拉取 Docker 镜像

docker pull docker.cnb.cool/tencent/hunyuan/hunyuan-a13b:hunyuan-moe-A13B-sglang
或
docker pull hunyuaninfer/hunyuan-a13b:hunyuan-moe-A13B-sglang

启动 API 服务器：

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    --ipc=host \
    docker.cnb.cool/tencent/hunyuan/hunyuan-a13b:hunyuan-moe-A13B-sglang \
    -m sglang.launch_server --model-path hunyuan/huanyuan_A13B --tp 4 --trust-remote-code --host 0.0.0.0 --port 30000

社区资源

Hunyuan-A13B CNB 快速入门

联系我们

如果您想向我们的研发和产品团队留言，欢迎联系我们的开源团队。您也可以通过电子邮件（hunyuan_opensource@tencent.com）与我们取得联系。

Hunyuan-A13B 快速上手指南

Hunyuan-A13B 是腾讯混元团队开源的基于细粒度混合专家（MoE）架构的大语言模型。该模型总参数量 800 亿，激活参数量仅 130 亿，兼具高性能与低推理成本，原生支持 256K 上下文窗口，并具备快慢思维切换能力。

环境准备

系统要求

操作系统: Linux (推荐 Ubuntu 20.04+) 或 macOS
GPU: 推荐使用 NVIDIA GPU，显存建议 24GB 及以上（FP16/BF16 推理）；若使用量化版本（FP8/Int4），显存需求可大幅降低。
Python: 3.8 或更高版本

前置依赖

确保已安装 PyTorch 和 Transformers 库。建议使用国内镜像源加速安装：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install transformers accelerate sentencepiece -i https://pypi.tuna.tsinghua.edu.cn/simple

注意：模型加载需要 trust_remote_code=True，请确保网络通畅以自动下载相关代码文件，或提前从 GitHub 仓库克隆代码。

安装步骤

方式一：直接使用 Hugging Face（推荐）

无需额外安装模型文件，代码运行时会自动下载。国内用户若访问 HF 受阻，可配置镜像或使用 ModelScope。

配置 HF 镜像（可选）：

export HF_ENDPOINT=https://hf-mirror.com

或者使用 ModelScope（魔搭社区）：

pip install modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple

方式二：手动下载模型

前往以下地址下载模型权重：

Hugging Face: tencent/Hunyuan-A13B-Instruct
ModelScope: Tencent-Hunyuan/Hunyuan-A13B-Instruct
量化版本: 提供 FP8 和 Int4 版本以降低显存占用。

下载后设置环境变量指向本地路径：

export MODEL_PATH=/path/to/your/local/model

基本使用

Hunyuan-A13B 默认开启“慢思考”模式（CoT），输出包含 <think> 思考过程和 <answer> 最终答案。您可以通过参数或提示词控制思维模式。

Python 代码示例

以下示例展示如何加载模型、切换思维模式并解析输出：

from transformers import AutoModelForCausalLM, AutoTokenizer
import os
import re

# 设置模型路径：可以是本地路径或 Hugging Face ID (如 "tencent/Hunyuan-A13B-Instruct")
model_name_or_path = os.environ.get('MODEL_PATH', "tencent/Hunyuan-A13B-Instruct")

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name_or_path, 
    device_map="auto", 
    trust_remote_code=True,
    torch_dtype="bfloat16"  # 建议根据显存情况选择 bfloat16 或 float16
)

# 构建对话消息
messages = [
    {"role": "user", "content": "Write a short summary of the benefits of regular exercise"},
]

# 方法 1: 通过参数控制思维模式
# enable_thinking=True (默认): 开启慢思考 (CoT)
# enable_thinking=False: 关闭慢思考，直接输出结果
tokenized_chat = tokenizer.apply_chat_template(
    messages, 
    tokenize=True, 
    return_tensors="pt",
    enable_thinking=True 
)

# 方法 2: 通过在 prompt 前添加特殊指令控制
# "/think": 强制开启思考
# "/no_think": 强制关闭思考
# messages = [{"role": "user", "content": "/no_think Write a short summary..."}]

# 生成回复
outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=4096)
output_text = tokenizer.decode(outputs[0])

# 解析思考过程和最终答案
think_pattern = r'<think>(.*?)</think>'
think_matches = re.findall(think_pattern, output_text, re.DOTALL)

answer_pattern = r'<answer>(.*?)</answer>'
answer_matches = re.findall(answer_pattern, output_text, re.DOTALL)

if think_matches:
    print(f"Thinking Content:\n{think_matches[0].strip()}\n")
    
if answer_matches:
    print(f"Answer Content:\n{answer_matches[0].strip()}\n")
else:
    # 如果未开启思考模式，直接输出原始文本
    print(output_text)

关键特性说明

思维切换：默认开启深度推理。若需快速响应，可在 apply_chat_template 中设置 enable_thinking=False 或在输入文本前加 /no_think。
长文本支持：模型原生支持 256K 上下文，可直接传入长文档进行处理。
量化推理：若显存受限，请替换 model_name_or_path 为 FP8 或 Int4 版本的模型路径。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2周前

Agent开发框架图像

n8n

n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。

★ 184.7k|★★☆☆☆|今天

数据工具开发框架Agent

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 161.1k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|3天前

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|昨天

开发框架图像Agent

使用场景

没有 Hunyuan-A13B 时

使用 Hunyuan-A13B 后

运行环境要求

快速开始

模型简介

核心特性与优势

为什么选择Hunyuan-A13B？

相关新闻

基准测试

与 transformers 库结合使用

训练快速入门

量化压缩

FP8 量化

FP8 基准测试

Int4 量化

Int4 基准测试

部署

TensorRT-LLM

Docker 镜像

vllm

Docker 镜像

量化模型部署

Int8 量化模型部署

Int4 量化模型部署

FP8 量化模型部署

SGLang

Docker 镜像

社区资源

联系我们

Hunyuan-A13B 快速上手指南

环境准备

系统要求

前置依赖

安装步骤

方式一：直接使用 Hugging Face（推荐）

方式二：手动下载模型

基本使用

Python 代码示例

关键特性说明

相似工具推荐

openclaw

n8n

stable-diffusion-webui

everything-claude-code

opencode

ComfyUI