vllora

792 47 简单 1 次阅读昨天NOASSERTIONAgent开发框架语言模型

AI 解读由 AI 自动生成，仅供参考

vLLora 是一款专为 AI 智能体（AI Agents）打造的轻量级实时调试工具。在开发复杂的智能体应用时，开发者往往难以直观地追踪模型调用、工具交互及内部工作流，导致排查错误和优化性能变得困难。vLLora 正是为了解决这一痛点而生，它能帮助开发者即时追踪、分析并优化智能体的每一次运行细节。

该工具主要面向 AI 应用开发者、研究人员以及使用 LangChain、Google ADK 或 OpenAI 等主流框架的工程团队。其核心亮点在于“无感接入”与“实时可观测性”：vLLora 兼容 OpenAI 标准的聊天补全 API，用户只需将请求指向 vLLora 服务，即可自动收集所有交互的追踪数据，无需大幅修改现有代码。启动后，它提供本地 Web 界面，让用户能像查看日志一样实时监控智能体的决策过程。此外，vLLora 还全面支持模型上下文协议（MCP），可轻松连接外部工具服务器。基于 Rust 构建的 vLLora 不仅运行高效，更让调试 AI 智能体变得像传统软件开发一样透明、可控。

使用场景

某电商公司的后端团队正在开发一个基于 LangChain 的智能客服 Agent，该 Agent 需要实时调用库存查询工具和订单数据库来回答用户问题。

没有 vllora 时

黑盒调试困难：当 Agent 回答错误时，开发者无法直观看到模型内部思考过程及工具调用的具体参数，只能依靠分散的日志文件拼凑线索。
延迟定位低效：遇到响应卡顿或流式输出中断，团队难以判断是网络延迟、模型生成慢还是外部工具接口超时，排查耗时极长。
上下文丢失严重：在多轮对话中，一旦逻辑链路断裂，很难回溯是哪一步的上下文传递出现了偏差，导致修复代码如同“盲人摸象”。
MCP 集成盲区：在接入外部 Model Context Protocol (MCP) 服务器时，缺乏实时监控手段，无法确认工具连接状态和数据交换细节。

使用 vllora 后

全链路实时透视：通过 vllora 的本地 UI，开发者能实时看到每一条消息的完整轨迹，包括模型输入、思维链推导及最终的工具调用参数，一目了然。
性能瓶颈秒级定位：利用实时追踪功能，团队可清晰识别出是 LLM 生成阶段还是外部 API 调用阶段导致了延迟，迅速优化对应环节。
交互流程可视化：多轮对话的上下文流转以图形化方式呈现，任何逻辑断层都能被即时捕捉并回溯，大幅降低复现和修复 Bug 的难度。
无缝监控 MCP 连接：vllora 原生支持 MCP 协议，让开发者能直接在界面中监控与外部工具的 HTTP/SSE 连接状态，确保数据交互准确无误。

vllora 将原本晦涩难懂的 AI Agent 运行过程转化为透明、实时的可视化数据流，让调试效率从“小时级”提升至“分钟级”。

运行环境要求

操作系统

macOS
Linux

GPU

未说明

内存

未说明

依赖

notes该工具主要通过 Homebrew 安装（明确支持 macOS），也可通过源码编译运行（需 Rust 环境）。它是一个用于 AI Agent 的实时调试和追踪服务器，本身不运行大模型，而是作为代理转发 OpenAI 兼容的请求，因此对 GPU 无直接硬性要求。运行时会自动下载可选组件 Distri。提供 Web UI (端口 9091) 和 API 服务 (端口 9090)。

python未说明

Homebrew

Rust (Cargo)

快速开始

轻量级、实时的 AI 代理调试工具

实时调试您的代理。即时追踪、分析和优化。与 LangChain、Google ADK、OpenAI 及所有主流框架无缝集成。

文档 | 问题

快速入门

首先，如果您尚未安装，请先安装 Homebrew，然后执行以下命令：

brew tap vllora/vllora
brew install vllora

启动 vLLora：

vllora

服务器将在 http://localhost:9090 启动，UI 界面则可在 http://localhost:9091 访问。

vLLora 使用与 OpenAI 兼容的聊天完成 API，因此当您的 AI 代理通过 vLLora 发起调用时，它会自动收集每次交互的追踪信息和调试数据。

vLLora 演示

测试：发送您的第一个请求

配置 API 密钥：访问 http://localhost:9091，通过 UI 配置您的 AI 提供商 API 密钥。
发起请求，查看调试效果：

curl http://localhost:9090/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-4o-mini",
    "messages": [{"role": "user", "content": "法国的首都是哪里？"}]
  }'

Rust 流式示例（与 OpenAI 兼容）

在 llm/examples/openai_stream_basic/src/main.rs 中，您可以找到一个极简的 Rust 示例，该示例：

使用 CreateChatCompletionRequestArgs 构建一个 OpenAI 风格的请求，其中：
- model("gpt-4.1-mini")
- 一条 系统消息：“您是一位乐于助人的助手。”
- 一条 用户消息：“请将数字 1 到 20 分别以单独的一行输出。”
构建 VlloraLLMClient 并通过以下方式配置凭据：

export VLLORA_OPENAI_API_KEY="your-openai-compatible-key"

在示例中，客户端大致按如下方式创建：

let client = VlloraLLMClient::new()
    .with_credentials(Credentials::ApiKey(ApiKeyCredentials {
        api_key: std::env::var("VLLORA_OPENAI_API_KEY")
            .expect("必须设置 VLLORA_OPENAI_API_KEY")
    }));

随后，它使用原始的 OpenAI 风格请求进行流式处理：

let mut stream = client
    .completions()
    .create_stream(openai_req)
    .await?;

while let Some(chunk) = stream.next().await {
    let chunk = chunk?;
    for choice in chunk.choices {
        if let Some(delta) = choice.delta.content {
            print!("{delta}");
        }
    }
}

这将逐段打印流式响应内容（本例中为数字 1 至 20）到标准输出。

功能特性

实时追踪 - 实时监控 AI 代理的交互过程，包括调用、工具交互及代理工作流的可观测性。让您精确了解代理在实时中的操作。

实时追踪

MCP 支持 - 完全支持模型上下文协议（MCP）服务器，可通过 HTTP 和 SSE 连接 MCP 服务器，实现与外部工具的无缝集成。

MCP 配置

开发

开始开发的步骤如下：

克隆仓库：

git clone https://github.com/vllora/vllora.git
cd vLLora
cargo build --release

编译后的二进制文件将位于 target/release/vlora。

运行测试：

cargo test

贡献

我们欢迎各位贡献！请查阅我们的贡献指南，了解以下内容：

如何提交问题
如何提交拉取请求
代码风格规范
开发流程
测试要求

您有 bug 报告或功能需求吗？请查看我们的问题列表，了解当前正在进行的工作或提交新问题。

路线图

请查看我们的路线图，了解接下来的计划！

许可证

vLLora 是基于 fair-code 的项目，采用 Elastic License 2.0 (ELv2) 协议进行分发。

内部包 llm 则采用 Apache License 2.0 协议分发。

vLLora 包含 Distri 作为可选组件，用于 AI 代理功能。Distri 基于 Elastic License 2.0 (ELv2) 协议分发，并在运行时单独下载。Distri 是由 DistriHub 维护的一个独立项目。

源码开放：vLLora 源代码始终公开可见。
可自托管：您可以在任何需要的地方部署 vLLora。
可扩展：添加您自己的提供商、工具、MCP 服务器以及自定义功能。

如需企业许可证，请联系我们的邮箱：hello@vllora.dev。

有关许可模式的更多信息，请参阅文档。

vLLora 快速上手指南

vLLora 是一款轻量级、实时的 AI Agent 调试工具。它支持 LangChain、Google ADK、OpenAI 等主流框架，能够自动收集交互轨迹（Traces）并实时分析，帮助开发者即时优化 Agent 工作流。

环境准备

操作系统：macOS 或 Linux（推荐通过 Homebrew 安装）。
前置依赖：
- Homebrew：包管理工具（macOS/Linux）。
- 若未安装 Homebrew，请先运行官方安装脚本。
网络要求：需确保能访问 localhost:9090 和 localhost:9091 端口。

注意：目前官方主要提供 Homebrew 安装方式。国内用户若遇到 Homebrew 下载缓慢问题，可配置国内镜像源（如中科大或清华源）加速 brew 本身的操作，但 vllora tap 源仍需从 GitHub 拉取。

安装步骤

添加 vLLora 源并安装：在终端中依次执行以下命令：
```
brew tap vllora/vllora
brew install vllora
```
验证安装：安装完成后，输入 vllora --version（或直接运行启动命令）确认工具可用。

基本使用

1. 启动服务

在终端运行以下命令启动 vLLora：

vllora

启动成功后，你将看到如下服务地址：

API 服务端点：http://localhost:9090（用于接收 AI 请求）
可视化调试界面：http://localhost:9091（用于查看轨迹和配置）

2. 配置 API Key

打开浏览器访问 http://localhost:9091。
在 UI 界面中配置你的 AI 提供商 API Key（如 OpenAI Key），以便 vLLora 代理转发请求。

3. 发送测试请求

vLLora 兼容 OpenAI 的 Chat Completions API。你可以直接将原本发往 OpenAI 的请求地址改为 http://localhost:9090/v1/chat/completions 即可自动开启调试追踪。

使用 curl 发送第一条测试消息：

curl http://localhost:9090/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-4o-mini",
    "messages": [{"role": "user", "content": "What is the capital of France?"}]
  }'

发送后，返回浏览器刷新 http://localhost:9091 页面，即可看到该次交互的完整实时轨迹（Traces）、耗时及内容详情。

4. 进阶：Rust 流式调用示例

如果你使用 Rust 开发，vLLora 提供了兼容 OpenAI 风格的流式客户端。

前置设置： 导出环境变量配置密钥：

export VLLORA_OPENAI_API_KEY="your-openai-compatible-key"

代码示例： 构建请求并流式输出结果：

let client = VlloraLLMClient::new()
    .with_credentials(Credentials::ApiKey(ApiKeyCredentials {
        api_key: std::env::var("VLLORA_OPENAI_API_KEY")
            .expect("VLLORA_OPENAI_API_KEY must be set")
    }));

let mut stream = client
    .completions()
    .create_stream(openai_req)
    .await?;

while let Some(chunk) = stream.next().await {
    let chunk = chunk?;
    for choice in chunk.choices {
        if let Some(delta) = choice.delta.content {
            print!("{delta}");
        }
    }
}

运行上述代码后，终端将逐字打印流式响应内容，同时 vLLora 后台会自动记录完整的调试信息。

版本历史

v0.1.232026/01/30

v0.1.222026/01/15

v0.1.212026/01/09

v0.1.202025/12/23

v0.1.192025/12/19

v0.1.182025/12/15

v0.1.172025/12/12

v0.1.162025/12/11

v0.1.16-prerelease-42025/12/11

v0.1.16-prerelease-32025/12/11

v0.1.16-prerelease-12025/12/11

v0.1.152025/12/10

v0.1.142025/12/04

v0.1.14-prerelease-52025/12/04

v0.1.14-prerelease-42025/12/04

v0.1.14-prerelease-32025/12/04

v0.1.14-prerelease-22025/12/04

v0.1.14-prerelease-12025/12/03

v0.1.132025/12/02

v0.1.122025/12/02

常见问题

使用 cargo install 安装 vllora 时遇到 `tracing::Value` trait 未实现的编译错误怎么办？

启动时遇到 "No available port found for service OTEL" 错误，但端口实际上未被占用，如何解决？

作为一个开源项目，为什么需要使用 LangDB Key？我可以使用自己的 LLM API Key 吗？

如何部署 Snowflake MCP Server？

如何改进 BedrockError 的错误处理以便于调试？

vllora 的 README 文档是否有改进计划以提升新用户体验？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|2天前

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|今天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像