phoenix

9.3k 821 非常简单 1 次阅读今天NOASSERTIONAgent数据工具其他语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

Phoenix 是一款专为人工智能应用打造的开源可观测性与评估平台。随着大模型和 RAG（检索增强生成）系统的普及，开发者常面临模型“黑盒”难题：难以追踪错误根源、无法量化回答质量或缺乏调试依据。Phoenix 正是为了解决这些痛点而生，它帮助团队深入洞察 AI 系统的内部运行状态，从追踪复杂的调用链到精准评估生成内容的准确性，让模型表现变得透明可控。

这款工具主要面向 AI 工程师、数据科学家以及构建智能应用的开发团队。无论是正在微调大模型的算法研究员，还是致力于优化生产环境稳定性的后端开发者，都能通过 Phoenix 快速定位性能瓶颈或逻辑缺陷。其技术亮点在于对 OpenTelemetry 标准的原生支持，能够无缝集成主流 AI 框架，提供细粒度的分布式追踪能力；同时内置了先进的语义分析与可视化仪表盘，让用户无需编写复杂代码即可直观地分析模型行为、对比不同版本效果。通过 Phoenix，团队可以更高效地迭代模型，确保 AI 应用在真实场景中既聪明又可靠。

使用场景

某电商公司的算法团队正在优化其智能客服大模型，试图提升回答准确率并降低幻觉风险。

没有 phoenix 时

故障排查如“盲人摸象”：当用户反馈模型胡编乱造时，开发人员只能翻阅海量原始日志，难以定位是哪一次检索增强生成（RAG）环节出现了数据污染。
评估依赖人工抽样：每次模型迭代后，测试人员需人工阅读数百条对话来打分，耗时数天且标准主观，无法量化细微的性能波动。
缺乏细粒度归因：发现回答质量下降时，无法区分是底层 Embedding 模型失效、检索片段不相关，还是提示词工程出了问题。
线上问题响应滞后：往往等到大量客诉爆发后才察觉异常，缺乏实时的质量监控仪表盘来预警潜在的分布漂移。

使用 phoenix 后

全链路追踪可视化：通过 phoenix 的分布式追踪功能，一键还原问题对话的完整执行路径，精准定位到具体的检索片段或生成步骤。
自动化批量评估：利用内置的 LLM 评判器，几分钟内即可完成对数千条历史对话的自动评分，快速对比不同版本模型的优劣。
多维根因分析：借助嵌入空间（Embedding Space）可视化，直观发现聚类异常的数据点，迅速识别出是检索库噪声还是模型理解偏差。
实时质量监控：部署在线仪表盘实时监控延迟、令牌消耗及回答质量分数，一旦指标偏离阈值立即触发告警，将事故扼杀在萌芽期。

phoenix 将原本黑盒的大模型运行过程转化为透明、可度量、可优化的工程闭环，显著提升了团队迭代效率与系统稳定性。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

未说明

依赖

notes该工具是厂商和语言无关的 AI 可观测性平台，支持本地机器、Jupyter Notebook、容器化部署（Docker/Kubernetes）及云端运行。可通过 pip 或 conda 安装。支持多种主流框架（如 LangChain, LlamaIndex, OpenAI Agents SDK 等）和 LLM 提供商的自动插桩。若需轻量级集成，可单独安装提供的 Python 子包或 TypeScript 包。

python3.9+

arize-phoenix

OpenTelemetry

arize-phoenix-otel

arize-phoenix-client

arize-phoenix-evals

快速开始

Phoenix 是一个开源的 AI 可观测性平台，专为实验、评估和故障排除而设计。它提供以下功能：

追踪 - 使用基于 OpenTelemetry 的工具链追踪您的 LLM 应用程序运行时。
评估 - 利用 LLM 对您的应用程序性能进行基准测试，包括响应评估和检索评估。
数据集 - 创建用于实验、评估和微调的版本化示例数据集。
实验 - 跟踪并评估提示、LLM 和检索方面的变化。
游乐场- 优化提示、比较模型、调整参数，并回放已追踪的 LLM 调用。
提示管理- 使用版本控制、标记和实验系统地管理和测试提示变更。

Phoenix 不依赖于特定的供应商或编程语言，开箱即用地支持多种流行框架（OpenAI Agents SDK、Claude Agent SDK、LangGraph、Vercel AI SDK、Mastra、CrewAI、LlamaIndex、DSPy）以及大模型服务提供商（OpenAI、Anthropic、Google GenAI、Google ADK、AWS Bedrock、OpenRouter、LiteLLM 等）。有关自动埋点的详细信息，请参阅 OpenInference 项目。

Phoenix 几乎可以在任何环境中运行，包括您的本地机器、Jupyter Notebook、容器化部署或云端。

安装

您可以通过 pip 或 conda 安装 Phoenix：

pip install arize-phoenix

Phoenix 的容器镜像可在 Docker Hub 上获取，可以使用 Docker 或 Kubernetes 进行部署。Arize AI 还在 app.phoenix.arize.com 提供云实例。

软件包

arize-phoenix 包含整个 Phoenix 平台。不过，如果您已经部署了 Phoenix 平台，则可以使用与平台配合使用的轻量级 Python 子包和 TypeScript 包。

Python 子包

软件包	版本与文档	描述
arize-phoenix-otel		提供基于 OpenTelemetry 原语的轻量级封装，并带有 Phoenix 感知的默认配置
arize-phoenix-client		用于通过其 OpenAPI REST 接口与 Phoenix 服务器交互的轻量客户端
arize-phoenix-evals		用于评估大模型应用的工具，包括 RAG 相关性、答案相关性等

TypeScript 子包

包	版本与文档	描述
@arizeai/phoenix-otel		提供基于 OpenTelemetry 原语的轻量级封装，并带有 Phoenix 特有的默认配置
@arizeai/phoenix-client		Arize Phoenix API 的客户端
@arizeai/phoenix-evals		用于 LLM 应用程序的 TypeScript 评估库（Alpha 版）
@arizeai/phoenix-mcp		Arize Phoenix 的 MCP 服务器实现，为 Phoenix 的各项功能提供统一接口
@arizeai/phoenix-cli		用于获取 Trace、数据集和实验的命令行工具，可与 Claude Code、Cursor 等编码助手配合使用

跟踪集成

Phoenix 基于 OpenTelemetry 构建，具有供应商、语言和框架无关性。有关跟踪集成及示例应用的详细信息，请参阅 OpenInference 项目。

Python 集成

	集成	包	版本
	OpenAI	`openinference-instrumentation-openai`
	OpenAI Agents	`openinference-instrumentation-openai-agents`
	LlamaIndex	`openinference-instrumentation-llama-index`
	DSPy	`openinference-instrumentation-dspy`
	AWS Bedrock	`openinference-instrumentation-bedrock`
	LangChain	`openinference-instrumentation-langchain`
	MistralAI	`openinference-instrumentation-mistralai`
	Google GenAI	`openinference-instrumentation-google-genai`
	Google ADK	`openinference-instrumentation-google-adk`
	Guardrails	`openinference-instrumentation-guardrails`
	VertexAI	`openinference-instrumentation-vertexai`
	CrewAI	`openinference-instrumentation-crewai`
	Haystack	`openinference-instrumentation-haystack`
	LiteLLM	`openinference-instrumentation-litellm`
	Groq	`openinference-instrumentation-groq`
	Instructor	`openinference-instrumentation-instructor`
	Anthropic	`openinference-instrumentation-anthropic`
	Smolagents	`openinference-instrumentation-smolagents`
	Agno	`openinference-instrumentation-agno`
	MCP	`openinference-instrumentation-mcp`
	Pydantic AI	`openinference-instrumentation-pydantic-ai`
	Autogen AgentChat	`openinference-instrumentation-autogen-agentchat`
	Portkey	`openinference-instrumentation-portkey`
	Agent Spec	`openinference-instrumentation-agentspec`
	Claude Agent SDK	`openinference-instrumentation-claude-agent-sdk`

Span 处理器

通过添加统一数据的 span 处理器，在其他观测库之间规范化和转换数据。

软件包	描述	版本
`openinference-instrumentation-openlit`	OpenInference Span 处理器，用于 OpenLIT 跟踪。
`openinference-instrumentation-openllmetry`	OpenInference Span 处理器，用于 OpenLLMetry (Traceloop) 跟踪。

JavaScript 集成

	集成	包	版本
	OpenAI	`@arizeai/openinference-instrumentation-openai`
	LangChain.js	`@arizeai/openinference-instrumentation-langchain`
	Vercel AI SDK	`@arizeai/openinference-vercel`
	BeeAI	`@arizeai/openinference-instrumentation-beeai`
	Claude Agent SDK	`@arizeai/openinference-instrumentation-claude-agent-sdk`
	Mastra	`@mastra/arize`
	MCP	`@arizeai/openinference-instrumentation-mcp`

Java 集成

	集成	包	版本
	LangChain4j	`openinference-instrumentation-langchain4j`
	SpringAI	`openinference-instrumentation-springAI`
	Arconia	`openinference-instrumentation-springAI`

平台

平台	描述	文档
BeeAI	内置可观测性的 AI 代理框架	集成指南
Dify	开源 LLM 应用开发平台	集成指南
Envoy AI Gateway	基于 Envoy Proxy 构建的用于 AI 工作负载的 AI 网关	集成指南
LangFlow	用于构建多代理和 RAG 应用程序的可视化框架	集成指南
LiteLLM Proxy	LLM 的代理服务器	集成指南
Flowise	用于构建 LLM 应用程序的可视化框架	集成指南
Prompt Flow	微软的提示流程编排工具	集成指南
NVIDIA NeMo	NVIDIA NeMo 企业级代理工具包	集成指南
Graphite	具有可视化构建器的多代理 LLM 工作流框架	集成指南

编码代理技能

此仓库包含技能，可教导编码代理如何使用 Phoenix。这些技能位于.agents/skills/，可与 Claude Code、Cursor 及其他兼容工具一起使用。

技能	描述
phoenix-cli	使用 Phoenix CLI 调试 LLM 应用程序——获取跟踪记录、分析错误、查看实验并查询 GraphQL API
phoenix-evals	使用 Phoenix 构建和运行 AI/LLM 应用程序的评估工具
phoenix-tracing	OpenInference 语义规范及用于跟踪 LLM 应用程序的仪器化

安全与隐私

我们非常重视数据安全和隐私。有关详细信息，请参阅我们的安全与隐私文档。

遥测

默认情况下，Phoenix 会收集基本的 Web 分析数据（例如页面浏览量、UI 交互），以帮助我们了解 Phoenix 的使用情况并改进产品。我们绝不会收集您的任何跟踪数据、评估结果或任何敏感信息。

您可以通过设置环境变量 PHOENIX_TELEMETRY_ENABLED=false 来选择退出遥测。

社区

加入我们的社区，与数千名 AI 构建者建立联系。

🌍 加入我们的 Slack 社区。
📚 阅读我们的文档。
💡 在 #phoenix-support 频道中提问并提供反馈。
🌟 在我们的 GitHub 上留下一颗星。
🐞 使用 GitHub Issues 报告 bug。
𝕏 在 𝕏 上关注我们。
🗺️ 查看我们的路线图，了解我们接下来的发展方向。
🧑‍🏫 在 Arize 的学习中心深入了解代理和LLM 评估的相关内容。

重大变更

有关重大变更列表，请参阅迁移指南。

版权、专利与许可

本代码的部分内容受一项或多件美国专利保护。请参阅IP_NOTICE。

本软件根据 Elastic License 2.0 (ELv2) 的条款进行许可。请参阅LICENSE。

Phoenix 快速上手指南

Phoenix 是一个开源的 AI 可观测性平台，专为大语言模型（LLM）应用的实验、评估和故障排查而设计。它支持链路追踪（Tracing）、自动化评估（Evaluation）、数据集管理、提示词工程等功能，且与主流开发框架和模型提供商无关。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux、macOS 或 Windows（推荐 WSL2）。
Python 版本：Python 3.9 或更高版本。
包管理器：已安装 pip 或 conda。
可选依赖：若需使用容器化部署，请确保已安装 Docker。

提示：国内开发者若遇到 PyPI 下载速度慢的问题，建议在安装命令中指定清华或阿里云镜像源。

安装步骤

您可以选择通过 pip 或 conda 进行安装。

方式一：使用 pip 安装（推荐）

标准安装：

pip install arize-phoenix

使用国内镜像加速安装（推荐国内用户）：

pip install arize-phoenix -i https://pypi.tuna.tsinghua.edu.cn/simple

方式二：使用 conda 安装

conda install -c conda-forge arize-phoenix

方式三：Docker 部署

如果您希望独立部署服务而不占用本地 Python 环境，可以使用 Docker：

docker run --rm -it -p 6006:6006 arizephoenix/phoenix

基本使用

安装完成后，您可以通过以下几种最简单的方式启动 Phoenix 并开始观测您的 LLM 应用。

1. 命令行启动（独立服务）

在终端直接运行以下命令，Phoenix 将在本地启动一个 Web 界面（默认端口 6006）：

phoenix serve

启动后，浏览器访问 http://localhost:6006 即可查看仪表盘。

2. 在 Jupyter Notebook 中使用

如果您在 Notebook 中进行实验，可以直接导入并启动：

import phoenix as px

# 启动 Phoenix 实例
session = px.launch_app()

3. 集成追踪示例

Phoenix 基于 OpenTelemetry，支持自动追踪主流框架（如 OpenAI, LangChain, LlamaIndex 等）。以下是一个结合 OpenAI SDK 的最小化追踪示例：

前置准备： 确保已安装对应的集成包（以 OpenAI 为例）：

pip install arize-phoenix-otel openai

代码示例：

import os
from openai import OpenAI
from phoenix.otel import register

# 1. 注册 Phoenix 追踪器 (会自动配置 OpenTelemetry)
register(project_name="my-first-project")

# 2. 初始化您的 LLM 客户端
client = OpenAI(api_key=os.environ["OPENAI_API_KEY"])

# 3. 执行调用，Phoenix 将自动记录链路数据
response = client.chat.completions.create(
    model="gpt-3.5-turbo",
    messages=[{"role": "user", "content": "Hello, Phoenix!"}]
)

print(response.choices[0].message.content)

运行上述代码后，返回 Phoenix Web 界面 (http://localhost:6006)，您即可看到完整的调用链路、延迟分析以及 Token 消耗情况。

4. 连接云端服务（可选）

除了本地运行，您也可以将数据发送到 Arize 云端实例：

import phoenix as px

# 连接到云端实例
px.connect_to_cloud(api_key="YOUR_API_KEY", workspace_url="https://app.phoenix.arize.com")

版本历史

arize-phoenix-v14.6.02026/04/15

arize-phoenix-v14.5.02026/04/14

arize-phoenix-v14.4.02026/04/14

arize-phoenix-v14.3.12026/04/14

arize-phoenix-v14.3.02026/04/14

arize-phoenix-v14.2.12026/04/10

arize-phoenix-v14.2.02026/04/10

arize-phoenix-v14.1.12026/04/08

arize-phoenix-v14.1.02026/04/08

arize-phoenix-client-v2.3.12026/04/07

arize-phoenix-evals-v3.0.02026/04/07

arize-phoenix-v14.0.02026/04/07

arize-phoenix-client-v2.3.02026/04/03

arize-phoenix-v13.23.02026/04/02

arize-phoenix-v13.22.22026/04/01

arize-phoenix-v13.22.12026/04/01

arize-phoenix-client-v2.2.02026/04/01

arize-phoenix-evals-v2.13.02026/04/01

arize-phoenix-v13.22.02026/04/01

arize-phoenix-v13.21.02026/04/01

常见问题

为什么在使用 DSPy 连接器时，Phoenix UI 中的 Token 计数显示为 0？

遇到 ImportError: cannot import name '_ExtendedAttributes' 错误该如何解决？

在 Span 详情视图中删除标注后，编辑器界面为何没有实时更新？

Span 详情中的标注元数据（Metadata）列显示异常或过宽怎么办？

如何正确配置 DSPy 和 Phoenix 以同时支持 OpenAI 和其他模型的 Token 追踪？

在容器化环境中部署 Phoenix 时遇到依赖冲突如何处理？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 158.1k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|今天

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|6天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像