guidellm

1k 144 简单 1 次阅读今天Apache-2.0语言模型开发框架其他

AI 解读由 AI 自动生成，仅供参考

GuideLLM 是一个专为大语言模型（LLM）部署打造的评估与优化平台，旨在帮助团队在接近真实生产环境的负载下，精准衡量模型性能。它解决了传统基准测试工具往往只关注接口连通性，而忽视首字延迟（TTFT）、令牌间延迟（ITL）等关键指标分布的问题，让开发者能够依据服务等级目标（SLO）进行数据驱动的调优。

无论是负责模型落地的工程师，还是研究系统扩展性的研究人员，都能利用 GuideLLM 模拟同步、并发及速率限制等多种真实流量模式。它支持使用真实或合成的多模态数据集，通过端到端的交互仿真，生成包含详细资源需求和操作极限的标准报告，从而辅助容量规划与回归测试。

该工具的独特亮点在于其深度适配 LLM 特性，不仅提供细粒度的令牌级统计信息，还具备高吞吐量的压测能力，支持多进程、异步执行及灵活的 CLI/API 调用。相比通用脚本，GuideLLM 直接兼容 OpenAI 接口与 vLLM 原生服务，无需定制格式即可融入现有的 Python 开发工作流，是构建高效、可靠大模型应用的得力助手。

使用场景

某电商平台的 AI 客服团队正在为即将到来的“双 11"大促进行大模型服务扩容，急需验证新部署的 vLLM 集群能否在高压下满足严格的响应延迟要求。

没有 guidellm 时

盲测风险高：仅靠简单的脚本发送随机请求，无法模拟真实用户长短不一的对话节奏，导致上线后突发长文本请求时系统频繁卡顿。
指标缺失：只能监控平均延迟，缺乏首字延迟（TTFT）和 token 生成间隔（ITL）的详细分布数据，难以定位是网络问题还是模型推理瓶颈。
SLO 验证困难：无法精确回答“在 99% 的情况下响应是否小于 500ms"，只能凭经验估算资源配额，造成服务器资源要么浪费要么不足。
复现成本高：遇到性能抖动时，缺乏可重放的标准化流量模式，开发团队花费数天时间试图手动复现故障场景。

使用 guidellm 后

真实流量仿真：利用 guidellm 生成符合生产环境特征的混合负载（同步、并发及速率限制模式），提前暴露了长上下文场景下的显存溢出隐患。
全链路深度洞察：自动输出 TTFT 和 ITL 的完整分布统计报告，精准识别出特定长度区间的推理延迟异常，指导团队针对性优化参数。
数据驱动决策：基于 SLO 驱动的评估结果，团队确切知道了集群在满足 99% 请求低于 400ms 时的最大并发阈值，实现了资源的精准规划。
高效回归测试：通过保存标准化的执行配置，每次代码更新后一键重放相同压力测试，快速确认性能改进或防止退化。

guidellm 将模糊的性能猜测转化为可视化的数据决策，帮助团队在零故障的前提下完成了大促期间的容量规划与系统调优。

运行环境要求

操作系统

Linux
macOS

GPU

未说明 (工具本身为基准测试客户端，GPU 需求取决于所连接的后端推理服务器，如 vLLM)

内存

未说明

依赖

notesGuideLLM 是一个用于评估 LLM 推理性能的基准测试平台，它通过调用 OpenAI 兼容接口或 vLLM 原生 API 运行。因此，运行该工具本身不需要高性能 GPU，但被测试的推理后端（如 vLLM 服务器）需要相应的 GPU 资源。支持文本、图像、音频和视频等多模态输入。可通过 pip 安装或使用 Docker/Podman 容器运行。

python3.10 - 3.13

vllm (可选，用于启动本地测试服务器)

HuggingFace Datasets (用于数据加载)

快速开始

GuideLLM Logo

面向真实世界大模型推理优化的SLO感知基准测试与评估平台

概述

GuideLLM 用户流程

GuideLLM 是一个用于评估语言模型在实际工作负载和配置下表现的平台。它能够模拟与 OpenAI 兼容及 vLLM 原生服务器的端到端交互，生成反映生产环境使用情况的工作负载模式，并输出详细的报告，帮助团队理解系统行为、资源需求以及运行上限。GuideLLM 支持真实和合成数据集、多模态输入以及灵活的执行配置文件，为工程和机器学习团队提供了一套一致的框架，以评估模型行为、优化部署并规划容量，从而适应系统的持续演进。

为什么选择 GuideLLM？

GuideLLM 能够在类生产环境中清晰地展示 LLM 部署时的性能、效率和可靠性。

捕捉完整的延迟和 token 级别的统计信息，用于 SLO 驱动的评估，包括 TTFT、ITL 和端到端行为的完整分布。
生成逼真且可配置的流量模式，涵盖同步、并发和基于速率的模式，支持可重复的扫描测试以识别安全的运行范围。
同时支持真实和合成的多模态数据集，在一个框架内实现受控实验和生产风格的评估。
生成标准化且可导出的报告，用于仪表盘、分析和回归跟踪，确保跨团队和工作流的一致性。
提供高吞吐量、可扩展的基准测试能力，支持多进程、多线程、异步执行，并配备灵活的 CLI/API，便于定制或快速上手。

比较

许多工具仅对端点进行基准测试，而非模型本身，因此会忽略对大语言模型至关重要的细节。GuideLLM 专注于 LLM 特有的工作负载，能够测量 TTFT、ITL、输出分布以及由数据集驱动的差异性。它采用标准的 Python 接口和 HuggingFace 数据集，而非自定义格式或仅用于研究的流水线，因而能无缝融入日常工程任务。此外，GuideLLM 在性能方面也经过精心设计，支持高频率的负载生成和精确的调度，远超简单的脚本或示例基准测试。下表突显了这种方法与其他选项相比的优势。

工具	CLI	API	高性能	全面指标	数据模态	数据来源	配置文件	后端	端点	输出类型
GuideLLM	✅	✅	✅	✅	文本、图像、音频、视频	HuggingFace、文件、合成数据、自定义数据	同步、并发、吞吐量、恒定、泊松、扫描	OpenAI 兼容	/completions, /chat/completions, /audio/translation, /audio/transcription	控制台、JSON、CSV、HTML
inference-perf	✅	❌	✅	❌	文本	合成数据、特定数据集	并发、恒定、泊松、扫描	OpenAI 兼容	/completions, /chat/completions	JSON、PNG
genai-bench	✅	❌	❌	❌	文本、图像、嵌入、重排序	合成数据、文件	并发	OpenAI 兼容、托管云服务	/chat/completions, /embeddings	控制台、XLSX、PNG
llm-perf	❌	❌	✅	❌	文本	合成数据	并发	OpenAI 兼容、托管云服务	/chat/completions	JSON
ollama-benchmark	✅	❌	❌	❌	文本	合成数据	同步	Ollama	/completions	控制台、JSON
vllm/benchmarks	✅	❌	❌	❌	文本	合成数据、特定数据集	同步、吞吐量、恒定、扫描	OpenAI 兼容、vLLM API	/completions, /chat-completions	控制台、PNG

快速入门

快速入门将展示如何在几分钟内安装 GuideLLM、启动服务器并运行首次基准测试。

安装 GuideLLM

在安装之前，请确保满足以下先决条件：

操作系统：Linux 或 macOS
Python：3.10 - 3.13

使用 pip 从 PyPI 安装最新版 GuideLLM：

pip install guidellm[recommended]

或者从源代码安装：

pip install git+https://github.com/vllm-project/guidellm.git

也可以直接运行来自 ghcr.io/vllm-project/guidellm 的最新容器：

podman run \
  --rm -it \
  -v "./results:/results:rw" \
  -e GUIDELLM_TARGET=http://localhost:8000 \
  -e GUIDELLM_PROFILE=sweep \
  -e GUIDELLM_MAX_SECONDS=30 \
  -e GUIDELLM_DATA="prompt_tokens=256,output_tokens=128" \
  ghcr.io/vllm-project/guidellm:latest

启动推理服务器

启动任意一个 OpenAI 兼容的端点。以 vLLM 为例：

vllm serve "neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w4a16"

请确认服务器已在 http://localhost:8000 正常运行。

运行首次基准测试

运行一次扫描测试，以确定模型的最大性能和最高速率：

guidellm benchmark \
  --target "http://localhost:8000" \
  --profile sweep \
  --max-seconds 30 \
  --data "prompt_tokens=256,output_tokens=128"

运行过程中，您将看到进度更新和每次基准测试的摘要，如下所示：

检查输出结果

基准测试完成后，GuideLLM 会将所有结果保存到您指定的输出目录中（默认为当前目录）。控制台会打印汇总信息，并附带一组文件路径（.json、.csv、.html），其中包含了完整的运行结果。

下一节——“输出文件与报告”——将详细说明每个文件的内容以及如何利用它们进行分析、可视化或自动化操作。

输出文件与报告

运行快速入门基准测试后，GuideLLM 会将多个输出文件写入您指定的目录中。每个文件侧重于不同层次的分析，从屏幕上的快速摘要，到可用于仪表板和回归管道的完全结构化数据。

控制台输出

控制台提供了一个轻量级的摘要，包含本次运行中每个基准测试的高级统计信息。它非常适合用于快速检查，以确认服务器响应正确、负载扫描已完成，并且系统行为符合预期。此外，输出表格可以使用 | 作为分隔符复制并粘贴到电子表格软件中。各部分的格式大致如下所示：

benchmarks.json

此文件是整个基准测试会话的权威记录。它包含配置、元数据、每个基准测试的统计信息，以及带有单个请求计时的示例请求条目。您可以将其用于调试、深入分析，或使用 GenerativeBenchmarksReport 加载到 Python 中。

另外，您也可以通过使用 --outputs yaml 参数生成一个内容与 benchmarks.json 相同、但更易于人类阅读的 YAML 版本。

benchmarks.csv

此文件以紧凑的表格形式展示了每个基准测试的数据，字段包括最常用于报告的吞吐量、延迟百分位数、标记数量和速率信息。它可以在电子表格和 BI 工具中直接打开，非常适合用于跨次运行的比较。

benchmarks.html

HTML 报告提供了结果的可视化摘要，包括延迟分布图、吞吐量行为和生成模式等图表。它非常适合快速浏览，或与团队成员共享，而无需他们解析 JSON 文件。

常见用例与配置

GuideLLM 支持广泛的 LLM 基准测试工作流。以下示例展示了如何运行典型场景，并重点介绍了最重要的参数。如需完整的参数列表、详细信息和选项，请运行 guidellm benchmark run --help。

负载模式

模拟不同的应用需要不同的流量形状。此示例演示了基于速率的负载测试，采用每秒 10 个请求的恒定速率配置，持续 20 秒，使用包含 128 个提示标记和 256 个输出标记的合成数据。

guidellm benchmark \
  --target http://localhost:8000 \
  --profile constant \
  --rate 10 \
  --max-seconds 20 \
  --data "prompt_tokens=128,output_tokens=256"

关键参数：

--profile：定义流量模式——可选值包括 synchronous（顺序请求）、concurrent（并行用户）、throughput（最大容量）、constant（固定请求/秒）、poisson（随机请求/秒）或 sweep（自动速率探索）。
--rate：数值速率，其含义取决于所选的流量模式——对于 sweep 是基准测试的数量，对于 concurrent 是同时发起的请求数量，而对于 constant 或 poisson 则是每秒的请求数。
--max-seconds：每个基准测试运行的最大持续时间（单位为秒）。您也可以使用 --max-requests 来按请求数限制运行。

数据集来源

GuideLLM 支持 HuggingFace 数据集、本地文件以及合成数据。此示例从 HuggingFace 加载 CNN DailyMail 数据集，并将文章列映射为提示，同时使用摘要标记数量列来确定输出长度。

guidellm benchmark run \
  --target http://localhost:8000 \
  --data "abisee/cnn_dailymail" \
  --data-args '{"name": "3.0.0"}' \
  --data-column-mapper '{"text_column":"article"}'

关键参数：

--data：数据源规范——接受 HuggingFace 数据集 ID（需加前缀 hf:）、本地文件路径（.json、.csv、.jsonl、.txt），或合成数据配置（JSON 对象或 key=value 键值对，例如 prompt_tokens=256,output_tokens=128）。
--data-args：加载数据集时使用的参数。有关有效选项，请参阅 datasets.load_dataset。
--data-column-mapper：用于数据集创建的参数 JSON 对象——通常用于指定列映射，例如 text_column、output_tokens_count_column，或 HuggingFace 数据集的相关参数。
--data-samples：从数据集中使用的样本数量——使用 -1（默认值）表示动态生成所有样本，或指定一个正整数以限制样本数量。
--processor：用于生成合成数据的分词器或处理器名称——如果未提供且数据集需要，则会自动从模型中加载；接受 HuggingFace 模型 ID 或本地路径。

请求类型与 API 目标

您可以对聊天补全、文本补全或其他支持的请求类型进行基准测试。此示例配置基准测试以使用自定义数据集文件测试聊天补全 API，GuideLLM 会自动将请求格式化为匹配聊天补全的架构。

guidellm benchmark \
  --target http://localhost:8000 \
  --request-type chat_completions \
  --data path/to/data.json

关键参数：

--request-type：指定 API 端点的格式——可选值包括 chat_completions（聊天 API 格式）、 completions（文本补全格式）、audio_transcription（音频转录）和 audio_translation（音频翻译）。

使用场景

内置场景将调度、数据集设置和请求格式化打包在一起，以标准化常见的测试模式。此示例使用预配置的聊天场景，其中包含了适用于聊天模型评估的适当默认值，任何额外的 CLI 参数都会覆盖场景的设置。

guidellm benchmark --scenario chat --target http://localhost:8000

关键参数：

--scenario：内置场景名称或自定义场景配置文件的路径——内置选项包括针对常见用例预配置的测试模式；与此参数一起传递的 CLI 选项将覆盖场景的默认设置。

基准控制

预热、冷却和最大限制有助于确保测量的稳定性和可重复性。此示例运行一个并发基准测试，包含16个并行请求，使用10%的预热和冷却期以排除初始化和关闭的影响，同时限制测试在出现超过5次错误时停止。

guidellm benchmark \
  --target http://localhost:8000 \
  --profile concurrent \
  --rate 16 \
  --warmup 0.1 \
  --cooldown 0.1 \
  --max-errors 5 \
  --data "prompt_tokens=256,output_tokens=128" \
  --detect-saturation

关键参数：

--warmup：预热设置——值介于0到1之间表示总请求数或总时间的百分比，值≥1则表示绝对的请求数或时间单位。
--cooldown：冷却设置——格式与预热相同，用于将基准测试的最后一部分排除在分析之外，以避免关闭效应。
--max-seconds：每个基准测试的最大持续时间（秒），超过该时间将自动终止。
--max-requests：每个基准测试的最大请求数，超过该数量将自动终止。
--max-errors：在基准测试完全停止之前允许出现的最大错误次数。
--data：用于基准测试的数据——合成数据，输入256个标记，输出128个标记。
--detect-saturation：启用过饱和检测功能，当模型发生过饱和时自动停止基准测试（有关更高级的控制，请参阅--over-saturation）。

开发与贡献

对扩展GuideLLM感兴趣的开发者可以使用该项目已建立的开发流程。本地设置、环境激活及测试说明均在DEVELOPING.md中列出。本指南解释了如何运行基准测试套件、验证更改，以及在开发过程中使用CLI或API的方法。贡献标准记录在CONTRIBUTING.md中，包括编码规范、提交结构和评审指南。这些标准有助于在平台演进过程中保持稳定性。CODE_OF_CONDUCT.md概述了在所有项目空间中进行尊重和建设性参与的期望。对于希望获取更深入参考资料的贡献者，文档涵盖了安装、后端、数据集、指标、输出类型和架构等内容。在添加新的后端、请求类型或数据集成时，查阅这些主题会很有帮助。发布说明和变更日志链接自GitHub Releases页面，为当前工作提供了历史背景。

文档

完整文档提供了本README中未涵盖的详细信息。其中包括安装步骤、后端配置、数据集处理、指标定义、输出格式、教程以及架构概览。这些参考资料有助于您更深入地探索该平台或将之集成到现有工作流中。

以下是一些值得关注的文档：

安装指南——本指南提供了安装GuideLLM的分步说明，包括先决条件和设置技巧。
后端指南——全面概述了支持的后端及其在GuideLLM中的设置方法。
数据/数据集指南——关于支持的数据集的信息，包括如何将其用于基准测试。
指标指南——对GuideLLM中使用的指标的详细解释，包括定义及如何解读。
输出指南——关于GuideLLM支持的不同输出格式及其使用方法的信息。
架构概览——详细介绍GuideLLM的设计、组件及其相互作用。

许可证

GuideLLM采用Apache许可证2.0版授权。

引用

如果您在研究或项目中发现GuideLLM有所帮助，请考虑引用它：

@misc{guidellm2024,
  title={GuideLLM：大型语言模型的可扩展推理与优化},
  author={Neural Magic, Inc.},
  year={2024},
  howpublished={\url{https://github.com/vllm-project/guidellm}},
}

GuideLLM 快速上手指南

GuideLLM 是一个面向生产环境的 LLM 推理基准测试与评估平台，专注于 SLO（服务等级目标）驱动的性能分析。它能模拟真实负载模式，生成详细的延迟分布（TTFT、ITL）和吞吐量报告，帮助团队优化模型部署。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux 或 macOS
Python 版本：3.10 - 3.13
推理后端：需要运行一个 OpenAI 兼容的推理服务（例如 vLLM、TGI 等）。

安装步骤

您可以选择通过 PyPI 安装推荐版本，或直接从源码安装。

方式一：通过 PyPI 安装（推荐）

pip install guidellm[recommended]

提示：国内用户若下载缓慢，可添加清华或阿里镜像源： pip install guidellm[recommended] -i https://pypi.tuna.tsinghua.edu.cn/simple

方式二：从源码安装

pip install git+https://github.com/vllm-project/guidellm.git

方式三：使用容器运行

如果您偏好使用容器，可以直接运行最新的 Docker/Podman 镜像：

podman run \
  --rm -it \
  -v "./results:/results:rw" \
  -e GUIDELLM_TARGET=http://localhost:8000 \
  -e GUIDELLM_PROFILE=sweep \
  -e GUIDELLM_MAX_SECONDS=30 \
  -e GUIDELLM_DATA="prompt_tokens=256,output_tokens=128" \
  ghcr.io/vllm-project/guidellm:latest

基本使用

以下是启动服务并运行第一个基准测试的最小化流程。

1. 启动推理服务器

首先启动一个 OpenAI 兼容的推理服务。以下以 vLLM 为例：

vllm serve "neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w4a16"

确保服务正常运行在 http://localhost:8000。

2. 运行基准测试

使用 guidellm benchmark 命令执行压力测试。以下示例将执行一次 Sweep（扫描） 模式的测试，自动探测模型的最大性能边界：

guidellm benchmark \
  --target "http://localhost:8000" \
  --profile sweep \
  --max-seconds 30 \
  --data "prompt_tokens=256,output_tokens=128"

参数说明：

--target: 推理服务的地址。
--profile sweep: 执行负载扫描，寻找最佳吞吐量和最大并发率。
--max-seconds: 每个测试场景的最大持续时间。
--data: 定义合成数据的输入/输出 Token 数量。

3. 查看结果

测试完成后，GuideLLM 会在当前目录生成以下文件：

控制台输出：实时显示进度和关键指标摘要。
benchmarks.json：包含完整的配置、元数据和详细请求日志，适合程序化分析。
benchmarks.csv：表格格式，包含吞吐量、延迟百分位数等核心指标，适合导入 Excel 分析。
benchmarks.html：可视化报告，包含延迟分布图和吞吐量趋势图。

版本历史

v0.6.02026/04/01

v0.5.42026/03/12

v0.5.32026/01/23

v0.5.22026/01/16

v0.5.12026/01/14

v0.5.02025/12/16

v0.4.02025/11/21

v0.3.12025/10/10

v0.3.02025/09/16

v0.2.12025/04/29

v0.2.02025/04/18

v0.1.02024/09/04

常见问题

如何在运行 GuideLLM 基准测试时传递额外的采样参数（如 topk 或 ignore_eos）？

高并发基准测试（rate >= 24）在关闭时出现未处理的 ConnectionRefusedError 错误怎么办？

使用 GuideLLM 通过 LiteLLM 代理测试 vLLM 时遇到 500 Internal Server Error 如何解决？

GuideLLM 默认使用了错误的 Tokenizer（例如对 Mistral 模型使用了 Llama Tokenizer）怎么办？

如何为 GuideLLM 基准测试提供不同格式的数据源（DS），例如本地 JSON 文件或 Hugging Face 数据集？

为什么在使用 OpenAI HTTP 后端时会收到关于 max_completion_tokens 和 max_tokens 的错误？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 158.1k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|6天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架

使用场景

没有 guidellm 时

使用 guidellm 后

运行环境要求

快速开始

面向真实世界大模型推理优化的SLO感知基准测试与评估平台

概述

为什么选择 GuideLLM？

比较

最新功能

快速入门

安装 GuideLLM

启动推理服务器

运行首次基准测试

检查输出结果

输出文件与报告

常见用例与配置

负载模式

数据集来源

请求类型与 API 目标

使用场景

基准控制

开发与贡献

文档

许可证

引用

GuideLLM 快速上手指南

环境准备

安装步骤

方式一：通过 PyPI 安装（推荐）

方式二：从源码安装

方式三：使用容器运行

基本使用

1. 启动推理服务器

2. 运行基准测试

3. 查看结果

版本历史

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

gemini-cli

markitdown