phoenix

GitHub
9.3k 821 非常简单 1 次阅读 今天NOASSERTIONAgent数据工具其他语言模型开发框架
AI 解读 由 AI 自动生成,仅供参考

Phoenix 是一款专为人工智能应用打造的开源可观测性与评估平台。随着大模型和 RAG(检索增强生成)系统的普及,开发者常面临模型“黑盒”难题:难以追踪错误根源、无法量化回答质量或缺乏调试依据。Phoenix 正是为了解决这些痛点而生,它帮助团队深入洞察 AI 系统的内部运行状态,从追踪复杂的调用链到精准评估生成内容的准确性,让模型表现变得透明可控。

这款工具主要面向 AI 工程师、数据科学家以及构建智能应用的开发团队。无论是正在微调大模型的算法研究员,还是致力于优化生产环境稳定性的后端开发者,都能通过 Phoenix 快速定位性能瓶颈或逻辑缺陷。其技术亮点在于对 OpenTelemetry 标准的原生支持,能够无缝集成主流 AI 框架,提供细粒度的分布式追踪能力;同时内置了先进的语义分析与可视化仪表盘,让用户无需编写复杂代码即可直观地分析模型行为、对比不同版本效果。通过 Phoenix,团队可以更高效地迭代模型,确保 AI 应用在真实场景中既聪明又可靠。

使用场景

某电商公司的算法团队正在优化其智能客服大模型,试图提升回答准确率并降低幻觉风险。

没有 phoenix 时

  • 故障排查如“盲人摸象”:当用户反馈模型胡编乱造时,开发人员只能翻阅海量原始日志,难以定位是哪一次检索增强生成(RAG)环节出现了数据污染。
  • 评估依赖人工抽样:每次模型迭代后,测试人员需人工阅读数百条对话来打分,耗时数天且标准主观,无法量化细微的性能波动。
  • 缺乏细粒度归因:发现回答质量下降时,无法区分是底层 Embedding 模型失效、检索片段不相关,还是提示词工程出了问题。
  • 线上问题响应滞后:往往等到大量客诉爆发后才察觉异常,缺乏实时的质量监控仪表盘来预警潜在的分布漂移。

使用 phoenix 后

  • 全链路追踪可视化:通过 phoenix 的分布式追踪功能,一键还原问题对话的完整执行路径,精准定位到具体的检索片段或生成步骤。
  • 自动化批量评估:利用内置的 LLM 评判器,几分钟内即可完成对数千条历史对话的自动评分,快速对比不同版本模型的优劣。
  • 多维根因分析:借助嵌入空间(Embedding Space)可视化,直观发现聚类异常的数据点,迅速识别出是检索库噪声还是模型理解偏差。
  • 实时质量监控:部署在线仪表盘实时监控延迟、令牌消耗及回答质量分数,一旦指标偏离阈值立即触发告警,将事故扼杀在萌芽期。

phoenix 将原本黑盒的大模型运行过程转化为透明、可度量、可优化的工程闭环,显著提升了团队迭代效率与系统稳定性。

运行环境要求

操作系统
  • Linux
  • macOS
  • Windows
GPU

未说明

内存

未说明

依赖
notes该工具是厂商和语言无关的 AI 可观测性平台,支持本地机器、Jupyter Notebook、容器化部署(Docker/Kubernetes)及云端运行。可通过 pip 或 conda 安装。支持多种主流框架(如 LangChain, LlamaIndex, OpenAI Agents SDK 等)和 LLM 提供商的自动插桩。若需轻量级集成,可单独安装提供的 Python 子包或 TypeScript 包。
python3.9+
arize-phoenix
OpenTelemetry
arize-phoenix-otel
arize-phoenix-client
arize-phoenix-evals
phoenix hero image

快速开始

phoenix banner

phoenix banner

Add Arize Phoenix MCP server to Cursor

Phoenix 是一个开源的 AI 可观测性平台,专为实验、评估和故障排除而设计。它提供以下功能:

  • 追踪 - 使用基于 OpenTelemetry 的工具链追踪您的 LLM 应用程序运行时。
  • 评估 - 利用 LLM 对您的应用程序性能进行基准测试,包括响应评估和检索评估。
  • 数据集 - 创建用于实验、评估和微调的版本化示例数据集。
  • 实验 - 跟踪并评估提示、LLM 和检索方面的变化。
  • 游乐场- 优化提示、比较模型、调整参数,并回放已追踪的 LLM 调用。
  • 提示管理- 使用版本控制、标记和实验系统地管理和测试提示变更。

Phoenix 不依赖于特定的供应商或编程语言,开箱即用地支持多种流行框架(OpenAI Agents SDKClaude Agent SDKLangGraphVercel AI SDKMastraCrewAILlamaIndexDSPy)以及大模型服务提供商(OpenAIAnthropicGoogle GenAIGoogle ADKAWS BedrockOpenRouterLiteLLM 等)。有关自动埋点的详细信息,请参阅 OpenInference 项目。

Phoenix 几乎可以在任何环境中运行,包括您的本地机器、Jupyter Notebook、容器化部署或云端。

安装

您可以通过 pipconda 安装 Phoenix:

pip install arize-phoenix

Phoenix 的容器镜像可在 Docker Hub 上获取,可以使用 Docker 或 Kubernetes 进行部署。Arize AI 还在 app.phoenix.arize.com 提供云实例。

软件包

arize-phoenix 包含整个 Phoenix 平台。不过,如果您已经部署了 Phoenix 平台,则可以使用与平台配合使用的轻量级 Python 子包和 TypeScript 包。

Python 子包

软件包 版本与文档 描述
arize-phoenix-otel PyPI 版本 文档 提供基于 OpenTelemetry 原语的轻量级封装,并带有 Phoenix 感知的默认配置
arize-phoenix-client PyPI 版本 文档 用于通过其 OpenAPI REST 接口与 Phoenix 服务器交互的轻量客户端
arize-phoenix-evals PyPI 版本 文档 用于评估大模型应用的工具,包括 RAG 相关性、答案相关性等

TypeScript 子包

版本与文档 描述
@arizeai/phoenix-otel NPM 版本 文档 提供基于 OpenTelemetry 原语的轻量级封装,并带有 Phoenix 特有的默认配置
@arizeai/phoenix-client NPM 版本 文档 Arize Phoenix API 的客户端
@arizeai/phoenix-evals NPM 版本 文档 用于 LLM 应用程序的 TypeScript 评估库(Alpha 版)
@arizeai/phoenix-mcp NPM 版本 文档 Arize Phoenix 的 MCP 服务器实现,为 Phoenix 的各项功能提供统一接口
@arizeai/phoenix-cli NPM 版本 文档 用于获取 Trace、数据集和实验的命令行工具,可与 Claude Code、Cursor 等编码助手配合使用

跟踪集成

Phoenix 基于 OpenTelemetry 构建,具有供应商、语言和框架无关性。有关跟踪集成及示例应用的详细信息,请参阅 OpenInference 项目。

Python 集成

集成 版本
OpenAI openinference-instrumentation-openai PyPI 版本
OpenAI Agents openinference-instrumentation-openai-agents PyPI 版本
LlamaIndex openinference-instrumentation-llama-index PyPI 版本
DSPy openinference-instrumentation-dspy PyPI 版本
AWS Bedrock openinference-instrumentation-bedrock PyPI 版本
LangChain openinference-instrumentation-langchain PyPI 版本
MistralAI openinference-instrumentation-mistralai PyPI 版本
Google GenAI openinference-instrumentation-google-genai PyPI 版本
Google ADK openinference-instrumentation-google-adk PyPI 版本
Guardrails openinference-instrumentation-guardrails PyPI 版本
VertexAI openinference-instrumentation-vertexai PyPI 版本
CrewAI openinference-instrumentation-crewai PyPI 版本
Haystack openinference-instrumentation-haystack PyPI 版本
LiteLLM openinference-instrumentation-litellm PyPI 版本
Groq openinference-instrumentation-groq PyPI 版本
Instructor openinference-instrumentation-instructor PyPI 版本
Anthropic openinference-instrumentation-anthropic PyPI 版本
Smolagents openinference-instrumentation-smolagents PyPI 版本
Agno openinference-instrumentation-agno PyPI 版本
MCP openinference-instrumentation-mcp PyPI 版本
Pydantic AI openinference-instrumentation-pydantic-ai PyPI 版本
Autogen AgentChat openinference-instrumentation-autogen-agentchat PyPI 版本
Portkey openinference-instrumentation-portkey PyPI 版本
Agent Spec openinference-instrumentation-agentspec PyPI 版本
Claude Agent SDK openinference-instrumentation-claude-agent-sdk PyPI 版本

Span 处理器

通过添加统一数据的 span 处理器,在其他观测库之间规范化和转换数据。

软件包 描述 版本
openinference-instrumentation-openlit OpenInference Span 处理器,用于 OpenLIT 跟踪。 PyPI 版本
openinference-instrumentation-openllmetry OpenInference Span 处理器,用于 OpenLLMetry (Traceloop) 跟踪。 PyPI 版本

JavaScript 集成

集成 版本
OpenAI @arizeai/openinference-instrumentation-openai NPM 版本
LangChain.js @arizeai/openinference-instrumentation-langchain NPM 版本
Vercel AI SDK @arizeai/openinference-vercel NPM 版本
BeeAI @arizeai/openinference-instrumentation-beeai NPM 版本
Claude Agent SDK @arizeai/openinference-instrumentation-claude-agent-sdk NPM 版本
Mastra @mastra/arize NPM 版本
MCP @arizeai/openinference-instrumentation-mcp NPM 版本

Java 集成

集成 版本
LangChain4j openinference-instrumentation-langchain4j Maven Central
SpringAI openinference-instrumentation-springAI Maven Central
Arconia openinference-instrumentation-springAI Maven Central

平台

平台 描述 文档
BeeAI 内置可观测性的 AI 代理框架 集成指南
Dify 开源 LLM 应用开发平台 集成指南
Envoy AI Gateway 基于 Envoy Proxy 构建的用于 AI 工作负载的 AI 网关 集成指南
LangFlow 用于构建多代理和 RAG 应用程序的可视化框架 集成指南
LiteLLM Proxy LLM 的代理服务器 集成指南
Flowise 用于构建 LLM 应用程序的可视化框架 集成指南
Prompt Flow 微软的提示流程编排工具 集成指南
NVIDIA NeMo NVIDIA NeMo 企业级代理工具包 集成指南
Graphite 具有可视化构建器的多代理 LLM 工作流框架 集成指南

编码代理技能

此仓库包含技能,可教导编码代理如何使用 Phoenix。这些技能位于.agents/skills/,可与 Claude Code、Cursor 及其他兼容工具一起使用。

技能 描述
phoenix-cli 使用 Phoenix CLI 调试 LLM 应用程序——获取跟踪记录、分析错误、查看实验并查询 GraphQL API
phoenix-evals 使用 Phoenix 构建和运行 AI/LLM 应用程序的评估工具
phoenix-tracing OpenInference 语义规范及用于跟踪 LLM 应用程序的仪器化

安全与隐私

我们非常重视数据安全和隐私。有关详细信息,请参阅我们的安全与隐私文档

遥测

默认情况下,Phoenix 会收集基本的 Web 分析数据(例如页面浏览量、UI 交互),以帮助我们了解 Phoenix 的使用情况并改进产品。我们绝不会收集您的任何跟踪数据、评估结果或任何敏感信息。

您可以通过设置环境变量 PHOENIX_TELEMETRY_ENABLED=false 来选择退出遥测。

社区

加入我们的社区,与数千名 AI 构建者建立联系。

  • 🌍 加入我们的 Slack 社区
  • 📚 阅读我们的文档
  • 💡 在 #phoenix-support 频道中提问并提供反馈。
  • 🌟 在我们的 GitHub 上留下一颗星。
  • 🐞 使用 GitHub Issues 报告 bug。
  • 𝕏 在 𝕏 上关注我们。
  • 🗺️ 查看我们的路线图,了解我们接下来的发展方向。
  • 🧑‍🏫 在 Arize 的学习中心深入了解代理LLM 评估的相关内容。

重大变更

有关重大变更列表,请参阅迁移指南

版权、专利与许可

版权所有 © 2025 Arize AI, Inc. 保留所有权利。

本代码的部分内容受一项或多件美国专利保护。请参阅IP_NOTICE

本软件根据 Elastic License 2.0 (ELv2) 的条款进行许可。请参阅LICENSE

版本历史

arize-phoenix-v14.6.02026/04/15
arize-phoenix-v14.5.02026/04/14
arize-phoenix-v14.4.02026/04/14
arize-phoenix-v14.3.12026/04/14
arize-phoenix-v14.3.02026/04/14
arize-phoenix-v14.2.12026/04/10
arize-phoenix-v14.2.02026/04/10
arize-phoenix-v14.1.12026/04/08
arize-phoenix-v14.1.02026/04/08
arize-phoenix-client-v2.3.12026/04/07
arize-phoenix-evals-v3.0.02026/04/07
arize-phoenix-v14.0.02026/04/07
arize-phoenix-client-v2.3.02026/04/03
arize-phoenix-v13.23.02026/04/02
arize-phoenix-v13.22.22026/04/01
arize-phoenix-v13.22.12026/04/01
arize-phoenix-client-v2.2.02026/04/01
arize-phoenix-evals-v2.13.02026/04/01
arize-phoenix-v13.22.02026/04/01
arize-phoenix-v13.21.02026/04/01

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

158.1k|★★☆☆☆|今天
开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信

144.3k|★☆☆☆☆|今天
Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|6天前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|1周前
插件Agent图像