open-webui-tools

649 63 简单 1 次阅读昨天MIT视频Agent其他图像音频开发框架语言模型

AI 解读由 AI 自动生成，仅供参考

open-webui-tools 是一套专为 Open WebUI 设计的模块化扩展工具箱，旨在将普通的聊天界面升级为功能强大的 AI 工作站。它通过提供超过 20 种专用工具、函数管道和过滤器，解决了原生平台在学术检索、多模态内容创作及复杂任务自动化方面的能力局限。

无论是需要查阅最新论文的科研人员、追求图文音视全方位创作的设计师，还是希望部署自主智能体（Agent）的开发者，都能从中找到得力助手。其核心亮点在于深度集成了 ComfyUI 工作流，支持高级图像编辑、音乐生成及文生视频；同时内置了无需 API 密钥的 arXiv 学术搜索、带引用的 Perplexica 网络搜索，以及基于蒙特卡洛树搜索（MCTS）的深度研究代理。此外，它还提供了简历分析、天气查询等实用小工具，以及提示词优化、语义路由等增强过滤功能。

大多数组件支持“即插即用”，用户可通过 Open WebUI Hub 一键安装或手动导入代码。open-webui-tools 以低门槛的方式极大地丰富了 AI 交互场景，让普通用户也能轻松享受专业级的 AI 应用能力。

使用场景

一位人工智能研究员正在撰写关于“多模态大模型最新进展”的综述论文，需要快速检索前沿文献并生成配套的可视化图表。

没有 open-webui-tools 时

文献检索割裂：必须离开对话界面，手动在浏览器打开 arXiv 官网搜索论文，再复制摘要回到对话框，效率极低且容易打断思路。
多步操作繁琐：想要验证某个理论的视频演示或高清素材，需分别在 YouTube 和 Pexels 等多个网站反复切换搜索，无法在统一工作流中完成。
缺乏深度推理：面对复杂的研究问题，普通对话模式难以自主拆解任务或进行蒙特卡洛树搜索（MCTS），导致生成的分析内容浅尝辄止。
多媒体生成困难：若需将论文观点转化为示意图或短视频，必须额外启动 ComfyUI 等独立软件，配置复杂的工作流并手动传输文件。

使用 open-webui-tools 后

一站式学术发现：直接调用 arXiv Search 工具，无需 API 密钥即可在对话中实时检索并引用最新论文，研究闭环在窗口内瞬间完成。
多模态资源聚合：通过 YouTube Search & Embed 和 Pexels Media Search，直接在聊天流中播放相关视频或插入高清素材，极大丰富了论证维度。
智能代理规划：启用 Planner Agent v3 或 arXiv Research MCTS 功能管道，系统能自主拆解研究路径、委托子任务并进行深度推理，输出高质量分析报告。
原生创意工作流：利用集成的 ComfyUI Text-to-Video 和 Native Image Generator，仅需文字指令即可在工作站内直接生成专业级的解释性视频与图像，无需切换软件。

open-webui-tools 将原本分散的搜索、推理与创作工具整合为统一的 AI 工作站，让研究人员能专注于核心创新而非繁琐的工具切换。

运行环境要求

操作系统

未说明 (基于 Open WebUI，通常支持 Linux
macOS
Windows)

GPU

非必需
仅在使用 ComfyUI 进行图像/音乐/视频生成或本地运行 Ollama/Perplexica 时需要 GPU
具体型号和显存取决于所选模型（如 Flux, WAN 2.2 等），README 未指定统一标准

内存

未说明 (取决于运行的具体工具和后端服务，如 ComfyUI 或 Ollama)

依赖

notes该工具集是 Open WebUI 的插件集合，本身无独立重型运行时需求。核心依赖是已部署的 Open WebUI 实例。部分高级功能（如图像生成、视频制作、本地搜索）需要额外配置后端服务（如 ComfyUI, Perplexica, Ollama）并获取相应的 API 密钥。大多数工具即插即用，但需根据具体功能在 Open WebUI 界面中配置环境变量或 API Key。

python3.8+

Open WebUI (v0.6.0+)

Ollama (可选，用于 Perplexica/本地模型)

ComfyUI (可选，用于图像/音频/视频生成)

Mopidy (可选，用于音乐控制)

各类 API Keys (Pexels, YouTube, Hugging Face, OpenWeatherMap 等)

快速开始

开放WebUI工具集合

🚀 一个模块化的工具、函数管道和过滤器集合，旨在大幅提升您的Open WebUI体验。

通过这套全面的工具集，您可以将您的Open WebUI实例转变为强大的AI工作站。无论是学术研究、图像生成，还是音乐创作和自主代理，该集合都能为您提供扩展AI功能所需的全部资源。

✨ 内容概览

本仓库包含20余种专用工具和函数，旨在增强您的Open WebUI体验：

🛠️ 工具

arXiv搜索 - 学术论文发现（无需API密钥！）
Perplexica搜索 - 使用Perplexica API进行带引用的网页搜索
Pexels媒体搜索 - 来自Pexels API的高质量照片和视频
YouTube搜索与嵌入 - 搜索YouTube并在嵌入式播放器中播放视频
原生图像生成器 - 直接使用Ollama模型管理进行Open WebUI图像生成
Hugging Face图像生成器 - 基于AI的图像创作
ComfyUI 图像到图像转换（Qwen Edit 2509） - 支持多张图片的高级图像编辑
ComfyUI ACE Step 1.5 音频 - 高级音乐生成（新）
ComfyUI ACE Step 音频（旧版） - 高级音乐生成
ComfyUI 文本到视频 - 使用ComfyUI生成基于文本的短视频（默认WAN 2.2工作流）
Flux Kontext ComfyUI - 专业图像编辑
OpenWeatherMap 天气预报工具 - 带有当前天气状况和预报的交互式天气小部件

🔄 函数管道

Planner Agent v3 - 具有代理式规划、多代理委派及实时可视化执行跟踪的高级自主代理
arXiv Research MCTS - 基于蒙特卡洛树搜索的高级研究
Multi Model Conversations v2 - 带有交互式UI、工具支持及改进推理处理的多代理对话
简历分析器 - 专业的简历分析
Mopidy 音乐控制器 - 音乐服务器管理
Letta Agent - 自主代理集成
Perplexica Pipe - 带有流式响应和引用的AI驱动网页搜索
Google Veo 文本到视频及图像到视频 - 使用Google Veo从文本或单张图片生成视频（仅支持单张图片作为输入）

🔧 过滤器

涂鸦画板 - 在发送每条消息前打开画布的可切换过滤器
提示增强器 - 自动优化提示
语义路由器 - 智能模型选择
全文处理 - 文件处理能力
清理思维标签 - 对话清理
OpenRouter 网页搜索引用 - 为OpenRouter模型启用带有引用处理的网页搜索

🚀 快速入门

方法一：Open WebUI Hub（推荐）

访问 https://openwebui.com/u/haervwe
浏览工具集合并点击所需工具的“获取”按钮
按照您Open WebUI实例中的安装提示操作

方法二：手动安装

从tools/、functions/或filters/目录中复制.py文件
导航到Open WebUI工作区 > 工具/函数/过滤器
粘贴代码，提供名称和描述，然后保存

🎯 核心特性

🔌 即插即用：大多数工具无需配置即可直接使用
🎨 可视化集成：与ComfyUI工作流无缝集成
🤖 AI赋能：具备MCTS研究和自主规划等高级功能
📚 学术导向：集成arXiv以支持科研和学术工作
🎵 创意工具：音乐生成和图像编辑功能
🔍 智能路由：智能模型选择和对话管理
📄 文档处理：完整的文档分析和简历处理

📋 先决条件

Open WebUI：建议使用0.6.0及以上版本
Python：3.8或更高版本
可选依赖项：
- ComfyUI（用于图像/音乐生成工具）
- Mopidy（用于音乐控制器）
- 各类API密钥（Hugging Face、Tavily等）

🔧 配置

大多数工具设计为只需极少配置即可运行。关键配置区域包括：

API密钥：部分工具需要（如Hugging Face、Tavily等）
ComfyUI集成：用于图像和音乐生成工具
模型选择：根据您的使用场景选择合适的模型
过滤器设置：在模型配置中启用过滤器

📖 详细文档

arXiv搜索工具
Perplexica搜索工具
Pexels媒体搜索工具
YouTube搜索与嵌入工具
原生图像生成器
Hugging Face图像生成器
Cloudflare Workers AI图像生成器
SearxNG图像搜索工具
ComfyUI 图像到图像转换工具（Qwen Image Edit 2509）
ComfyUI ACE Step 1.5 音频工具
ComfyUI ACE Step 音频工具（旧版）
ComfyUI 文本到视频工具
OpenWeatherMap 天气预报工具
Flux Kontext ComfyUI管道
Google Veo 文本到视频及图像到视频管道
Planner Agent v3
arXiv Research MCTS管道
Multi Model Conversations v2管道
简历分析器管道
Mopidy 音乐控制器
Letta Agent管道
Perplexica管道
OpenRouter 图像管道
OpenRouter 网页搜索引用过滤器
涂鸦画板过滤器
提示增强器过滤器
语义路由器过滤器
全文处理过滤器
清理思维标签过滤器
使用提供的ComfyUI工作流
安装
贡献
许可证
致谢
支持

🧪 工具

arXiv搜索工具

描述

在 arXiv.org 上搜索任何主题的相关学术论文。无需 API 密钥！

配置

无需配置。开箱即用。

使用方法

示例：

搜索关于“思维树”的最新论文

返回最多 5 篇最相关的论文，按最新发表时间排序。

arXiv 搜索示例 Open WebUI 中的 arXiv 搜索结果示例

Perplexica 搜索工具

描述

使用 Perplexica API 在网络上搜索事实信息、时事新闻或特定主题。该工具提供包含引用和来源的全面搜索结果，非常适合研究和信息收集。Perplexica 是一个开源的 AI 驱动搜索引擎，作为 Perplexity AI 的替代方案，必须在本地自行部署。它利用先进的语言模型，提供准确、具有上下文关联的答案，并附有适当的来源标注。

配置

BASE_URL（str）：Perplexica API 的基础 URL（默认值：http://host.docker.internal:3001）
OPTIMIZATION_MODE（str）：搜索优化模式——“speed” 或 “balanced”（默认值：balanced）
CHAT_MODEL（str）：用于搜索处理的默认聊天模型（默认值：llama3.1:latest）
EMBEDDING_MODEL（str）：用于搜索的默认嵌入模型（默认值：bge-m3:latest）
OLLAMA_BASE_URL（str）：Ollama API 的基础 URL（默认值：http://host.docker.internal:11434）

先决条件：您必须在本地安装并运行已配置 URL 的 Perplexica。Perplexica 是一个自托管的开源搜索引擎，需要 Ollama 提供指定的聊天和嵌入模型。请按照 Perplexica 仓库中的安装说明设置您的本地实例。

使用方法

示例：

搜索“2024 年人工智能安全研究的最新进展”

返回带有适当引用的全面搜索结果。
自动为 Open WebUI 中的来源追踪生成引用。
同时提供摘要和各个来源链接。

特性

网页搜索集成：直接访问当前的网络信息。
引用支持：自动为 Open WebUI 生成引用。
模型灵活性：可配置的聊天和嵌入模型。
实时状态：搜索执行期间的进度更新。
来源追踪：带有元数据的单个来源引用。

Pexels 媒体搜索工具

描述

通过 Pexels API 搜索并获取高质量的照片和视频。该工具提供对 Pexels 丰富免费素材库的访问，具备全面的搜索功能、自动引用生成以及在聊天中直接显示图片的功能。非常适合为演示文稿、内容创作或创意项目寻找专业品质的媒体资源。

配置

PEXELS_API_KEY（str）：来自 https://www.pexels.com/api/ 的免费 Pexels API 密钥（必填）。
DEFAULT_PER_PAGE（int）：每次搜索的默认结果数量（默认值：5，推荐用于 LLM）。
MAX_RESULTS_PER_PAGE（int）：每页允许的最大结果数（默认值：15，防止 LLM 被大量结果压垮）。
DEFAULT_ORIENTATION（str）：默认照片方向——“all”、“landscape”、“portrait” 或 “square”（默认值：“all”）。
DEFAULT_SIZE（str）：默认最小照片尺寸——“all”、“large”（24MP）、“medium”（12MP）或 “small”（4MP）（默认值：“all”）。

先决条件：从 Pexels API 获取免费 API 密钥，并将其配置到工具的 Valves 设置中。

使用方法

照片搜索示例：

搜索“现代办公空间”的照片

视频搜索示例：

搜索“日落时分的海浪”的视频

精选照片示例：
```
获取 Pexels 的精选照片
```

特性

三种搜索功能：search_photos、search_videos 和 get_curated_photos。
直接显示图片：图片会自动以 Markdown 格式化，以便在聊天中立即显示。
高级筛选：可按方向、尺寸、颜色和质量进行筛选。
署名支持：自动生成功能者署名的引用。
速率限制处理：内置针对 API 限制和无效密钥的错误处理机制。
LLM 优化：结果数量受限且格式化，以避免给语言模型带来过大负担。
实时状态：搜索执行期间的进度更新。

YouTube 搜索与嵌入工具

描述

在 YouTube 上搜索视频，并在 Open WebUI 聊天中直接以精美的嵌入播放器展示。该工具提供全面的 YouTube 搜索功能，包括自动引用生成、详细的视频信息以及自定义样式的嵌入播放器。非常适合查找教程、音乐视频、教育内容或其他所需的视频资料。

配置

YOUTUBE_API_KEY（str）：来自 https://console.cloud.google.com/apis/credentials 的 YouTube Data API v3 密钥（必填）。
MAX_RESULTS（int）：返回的最大搜索结果数量（默认值：5，范围：1–10）。
SHOW_EMBEDDED_PLAYER（bool）：是否显示第一个结果的嵌入式 YouTube 播放器（默认值：True）。
REGION_CODE（str）：用于搜索结果的地区代码，例如“US”、“GB”、“JP”等（默认值：“US”）。
SAFE_SEARCH（str）：安全搜索过滤器——“none”、“moderate” 或 “strict”（默认值：“moderate”）。

先决条件：从 Google Cloud 控制台获取免费的 YouTube Data API v3 密钥，并在您的项目中启用 YouTube Data API v3。

使用方法

搜索视频：

在 YouTube 上搜索“Python 初学者教程”

播放特定视频：
```
播放 YouTube 视频 dQw4w9WgXcQ
```

自定义结果搜索：

在 YouTube 上搜索“烹饪食谱”，返回 10 条结果

特性

两个主要功能：search_youtube 用于搜索，play_video 用于播放特定视频 ID。
嵌入式播放器：美观的自定义样式 YouTube 播放器直接嵌入聊天中，具有响应式设计。
安全搜索：内置内容过滤选项。
地区支持：根据地区代码提供本地化的搜索结果。
直接链接：提供 YouTube 链接和“在 YouTube 上观看”按钮。
速率限制处理：针对 API 配额限制的正确错误处理。
实时状态：搜索和加载过程中的进度更新。

开始使用

获取 YouTube API 密钥：
- 访问 Google Cloud 控制台
- 创建一个新项目或选择现有项目
- 启用“YouTube Data API v3”
- 创建凭据（API 密钥）
- 复制 API 密钥
配置工具：
- 在 Open WebUI 中打开工具的 Valves 设置
- 将您的 API 密钥粘贴到 YOUTUBE_API_KEY 字段中
- 根据需要调整其他设置（地区、最大结果数等）
开始搜索：
- 使用自然语言：“在 YouTube 上搜索 [主题]”
- 或直接使用函数：search_youtube("主题")

YouTube 嵌入式播放器示例 Open WebUI 聊天中嵌入的 YouTube 视频示例

原生图像生成器

描述

使用在管理设置中配置的 Open WebUI 原生图像生成中间件来生成图像。该工具通过 Open WebUI 内置的图像生成系统，利用您已配置的任何图像生成后端（如 AUTOMATIC1111、ComfyUI 或 OpenAI DALL-E），并可选地使用 Ollama 模型管理功能，在需要时释放显存。

配置

unload_ollama_models（布尔值）：是否在生成图像前从显存中卸载所有 Ollama 模型（默认：False）
ollama_url（字符串）：用于模型管理的 Ollama API URL（默认：http://host.docker.internal:11434）
emit_embeds（布尔值）：是否通过 embeds 事件发出 HTML 图像嵌入代码，以便生成的图像在聊天中内联显示（默认：True）。当为 False 时，工具将跳过嵌入代码的发出，仅返回原始下载链接。如果 emit_embeds 为 True 但没有可用的事件发射器，则无法内联显示图像，只会返回链接。

先决条件：您必须在 Open WebUI 的管理设置中，于“设置 > 图像”下配置图像生成功能。该工具适用于您所设置的任何图像生成后端（AUTOMATIC1111、ComfyUI、OpenAI 等）。

使用方法

示例：

生成一张“日落时分宁静的山景”的图像

使用 Open WebUI 管理设置中配置的任何图像生成后端
如果启用了 Ollama 卸载功能，则会自动管理模型资源
返回 Markdown 格式的图像链接，可立即显示

特性

原生集成：使用 Open WebUI 的原生图像生成中间件，无需外部依赖
后端无关：适用于管理设置中配置的任何图像生成后端（AUTOMATIC1111、ComfyUI、OpenAI 等）
内存管理：可选的 Ollama 模型卸载功能，以优化显存使用
灵活的模型支持：您可以提示代理更换图像生成模型，只要提供模型名称即可。
实时状态：通过事件发射器提供生成进度更新
错误处理：全面的错误报告和恢复机制

Hugging Face 图像生成器

描述

使用 Hugging Face 的 Stable Diffusion 模型，根据文本描述生成高质量图像。

配置

API 密钥（必填）：从您的 Hugging Face 账户获取 Hugging Face API 密钥，并将其设置在 Open WebUI 工具的配置中。
API URL（可选）：默认使用 Stability AI 的 SD 3.5 Turbo 模型。也可以自定义为使用其他 HF 文本到图像模型端点。

使用方法

示例：

创建一张“美丽的马自由奔跑”的图像

支持多种图像格式：正方形、横幅、竖屏等。

图像生成示例 使用 Hugging Face 工具生成的示例图像

Cloudflare Workers AI 图像生成器

描述

使用 Cloudflare Workers AI 的文生图模型生成图像，包括 FLUX、Stable Diffusion XL、SDXL Lightning 和 DreamShaper LCM。该工具提供特定于模型的提示预处理、参数优化以及在聊天中直接显示图像的功能。它支持快速且高质量的图像生成，且配置简单。

配置

cloudflare_api_token（字符串）：您的 Cloudflare API Token（必填）
cloudflare_account_id（字符串）：您的 Cloudflare 账户 ID（必填）
default_model（字符串）：默认使用的模型（例如 @cf/black-forest-labs/flux-1-schnell）

先决条件：您需要从 Cloudflare 仪表板获取 Cloudflare API Token 和账户 ID。除了 requests 库之外，无需其他依赖。

使用方法

示例：

# 根据提示生成图像
await tools.generate_image(prompt="日落时分的未来都市景观，色彩鲜艳")

返回 Markdown 格式的图像链接，可在聊天中立即显示。

特性

多种模型：支持 FLUX、SDXL、SDXL Lightning、DreamShaper LCM
提示优化：自动优化提示，以获得每种模型的最佳效果
参数处理：智能处理步骤、引导系数、负面提示和尺寸
直接显示图像：返回可用于聊天的 Markdown 图像链接
错误处理：全面的错误和状态报告
实时状态：通过事件发射器提供进度更新

SearxNG 图像搜索工具

描述

使用自托管的 SearxNG 实例在网络上搜索并检索图像。该工具提供尊重隐私、多引擎的图像搜索功能，并可在聊天中直接显示图像。非常适合从多个来源查找多样化图像，而无需跟踪或广告。

配置

SEARXNG_ENGINE_API_BASE_URL（字符串）：SearxNG 搜索引擎 API 的基础 URL（默认：http://searxng:4000/search）
MAX_RESULTS（整数）：每次搜索最多返回的图像数量（默认：5）

先决条件：您必须运行一个 SearxNG 实例。有关设置说明，请参阅 SearxNG 文档。

使用方法

示例：

# 搜索猫的图片
await tools.search_images(query="cats", max_results=3)

返回一系列 Markdown 格式的图像链接，可在聊天中立即显示。

特性

尊重隐私：无跟踪、无广告、无用户画像
多引擎：聚合来自多个搜索引擎的结果
直接显示图像：图像格式化后可直接在聊天中显示
可定制：可以选择引擎、结果数量等
错误处理：能够优雅地处理连接和搜索错误

🔄 函数管道

Perplexica 管道

描述

使用 Perplexica 进行人工智能驱动的网络搜索，支持流式响应、智能引用和全面的来源追踪。此函数管道与您自托管的 Perplexica 实例集成，提供实时的网络搜索功能，并正确标注来源，非常适合用于研究、事实核查以及及时了解最新动态。

配置

enable_perplexica (布尔): 启用或禁用 Perplexica 搜索（默认：True）
perplexica_api_url (字符串): Perplexica API 端点（默认：http://localhost:3001/api/search）
perplexica_chat_provider (字符串): 聊天模型的提供商 ID（默认：550e8400-e29b-41d4-a716-446655440000）
perplexica_chat_model (字符串): 使用的聊天模型（默认：gpt-4o-mini）
perplexica_embedding_provider (字符串): 嵌入模型的提供商 ID（默认：550e8400-e29b-41d4-a716-446655440000）
perplexica_embedding_model (字符串): 使用的嵌入模型（默认：text-embedding-3-large）
perplexica_focus_mode (字符串): 搜索焦点模式（默认：webSearch）
perplexica_optimization_mode (字符串): 优化模式——“speed” 或 “balanced”（默认：balanced）
task_model (字符串): 用于非搜索任务的模型（默认：gpt-4o-mini）
max_history_pairs (整数): 最多包含的对话历史对数（默认：12）
perplexica_timeout_ms (整数): HTTP 套接字读取超时时间，单位为毫秒（默认：1500）

先决条件: 您必须在本地安装并运行 Perplexica。Perplexica 是一款开源的 AI 驱动搜索引擎，需要与 Ollama 或 OpenAI 兼容的提供商一起进行设置。

使用方法

示例:

调查美国、欧洲、中国等不同地区关于 AI 监管的最新消息，仅执行一次工具调用

自动将搜索请求路由到 Perplexica
提供带有实时更新的流式响应
为每个结果发出包含来源元数据的引用
处理对话历史以进行上下文相关的搜索

功能

流式支持: 实时流式响应，实现更快的交互
智能引用: 自动生成带有元数据（标题、URL、内容）的引用
对话历史: 维持来自先前消息的上下文（可配置）
多种焦点模式: webSearch、academicSearch、youtubeSearch 等
状态更新: 搜索过程中的实时进度更新
来源追踪: 包含 URL 和摘要的全面来源元数据
任务路由: 在搜索和非搜索任务之间进行智能路由
错误处理: 强大的错误处理机制，并提供用户友好的提示信息

开始使用

安装 Perplexica:
- 按照 Perplexica 安装指南进行操作
- 设置您的聊天和嵌入提供商（Ollama、OpenAI 等）
- 启动 Perplexica 服务器（默认：http://localhost:3001）
配置管道:
- 在 Open WebUI 中打开管道的 Valves 设置
- 将 perplexica_api_url 设置为您 Perplexica 实例的 URL
- 配置您的聊天和嵌入提供商/模型
- 根据需要调整焦点模式和优化设置
开始搜索:
- 在 Open WebUI 中选择“Perplexica Pipe”模型
- 提出问题或请求网络搜索
- 查看带有自动引用和来源链接的搜索结果

Open WebUI 中 Perplexica 管道搜索结果示例，附带引用

ComfyUI 图像转图像工具（Qwen Image Edit 2509）

描述

使用 ComfyUI 工作流和 AI 驱动的图像编辑功能来编辑和转换图像。默认采用 Qwen Image Edit 2509 模型，支持最多 3 张图像，可用于上下文编辑、风格迁移和多图像混合等高级编辑任务。此外，还包含 Flux Kontext 工作流，用于艺术化的变换。图像会自动从消息附件中提取，并渲染为精美的 HTML 嵌入。

配置

comfyui_api_url (字符串): ComfyUI HTTP API 端点（默认：http://localhost:8188）
workflow_type (字符串): 选择您的工作流——“Flux_Kontext”、“QWen_Edit” 或 “Custom”（默认：QWen_Edit）
custom_workflow (字典): 自定义 ComfyUI 工作流 JSON（仅当 workflow_type='Custom' 时使用）
max_wait_time (整数): 作业完成的最大等待时间，单位为秒（默认：600）
unload_ollama_models (布尔): 在生成图像之前自动从 VRAM 中卸载 Ollama 模型（默认：False）
ollama_api_url (字符串): 用于模型管理的 Ollama API URL（默认：http://localhost:11434）
return_html_embed (布尔): 返回带有对比视图的精美 HTML 图像嵌入（默认：True）

先决条件: 您必须安装并运行 ComfyUI，同时具备所需的模型和自定义节点：

对于 Flux Kontext: Flux Dev 模型、Flux Kontext LoRA 以及必要的 ComfyUI 节点
对于 Qwen Edit 2509: Qwen Image Edit 2509 模型、Qwen CLIP、VAE 以及 ETN_LoadImageBase64 自定义节点
请参阅 Extras 文件夹中的工作流 JSON 文件：flux_context_owui_api_v1.json 和 image_qwen_image_edit_2509_api_owui.json

使用方法

示例:

# 附加图像并提供编辑指令
"移除背景"
"把车变成红色"
"将第一张图片的光照效果应用到第二张图片上"

功能

Qwen Edit 2509（默认）: 顶尖的图像编辑技术，具有精确的控制能力和指令遵循能力
多图像支持: Qwen Edit 工作流接受 1–3 张图像，用于上下文和风格转移的高级编辑
双工作流支持: 可切换到 Flux Kontext 进行艺术化变换和创意重塑
自动图像处理: 图像会自动从消息中提取并传递给 AI
VRAM 管理: 可选的 Ollama 模型卸载功能，以便在生成前释放 GPU 内存
精美的 HTML 嵌入: 以优雅的前后对比视图展示结果
OpenWebUI 集成: 自动生成的图像会自动上传到 OpenWebUI 存储
灵活的工作流: 可使用内置工作流，也可提供您自己的自定义 ComfyUI JSON

工作流详情

Qwen Edit 2509（默认）:

支持 1–3 张图像，具备多图像上下文和风格转移功能
极速的 4 步生成流程
适用于：精确编辑、对象操作、风格转移

Flux Kontext（替代方案）:

单张图像输入（计划支持多图像）
20 步高质量生成流程
适用于：艺术化变换、创意重塑

自定义工作流:

可自行提供 ComfyUI 工作流 JSON
为高级用户提供完全的灵活性

入门指南

设置 ComfyUI：
- 安装 ComfyUI
- 下载所需模型（Flux Dev、Qwen Edit 2509 等）
- 安装必要的自定义节点（尤其是用于 Qwen 工作流的 ETN_LoadImageBase64）
导入工作流：
- 在 ComfyUI 中加载 Extras/flux_context_owui_api_v1.json 或 Extras/image_qwen_image_edit_2509_api_owui.json
- 确认所有节点均已识别（如有缺失，需安装相应的自定义节点）
配置工具：
- 将 comfyui_api_url 设置为您的 ComfyUI 服务器地址
- 选择您偏好的工作流类型
- 如显存有限，可选择启用 Ollama 模型卸载功能
开始编辑：
- 在消息中附上一张图片（或多至三张以进行多图编辑）
- 用自然语言描述您希望实现的变换效果
- 观看神奇的效果诞生吧！

自定义工作流注意事项： 如果您使用的是具有不同功能的自定义工作流（例如仅支持单张图片或有不同提示要求的工作流），则应修改工具代码中 edit_image 函数的文档字符串。该文档字符串会指导 AI 如何使用该工具以及哪些提示策略最为有效。请根据您的工作流的具体能力和需求进行相应调整。

多图支持状态：

Qwen Edit 2509：完全支持 1–3 张图片（默认工作流）
Flux Kontext：目前仅支持单张图片；多图支持计划于未来版本推出
自定义工作流：取决于您的工作流实现方式

Qwen 图片编辑示例
Qwen Image Edit 2509 将赛博朋克风格的大海豚转换为自然山景的示例

ComfyUI ACE Step 1.5 音频工具

描述

通过 ComfyUI 使用改进后的 ACE Step 1.5 模型生成高质量音乐。此工具在原有版本基础上进行了升级，增强了对音调、拍号、BPM 和语言等音乐元素的控制能力。它配备了同样精美的嵌入式播放器，并支持批量生成。

配置

comfyui_api_url（str）：ComfyUI API 端点（默认值：http://localhost:8188）
model_name（str）：ACE Step 1.5 检查点名称（默认值：ace_step_1.5_turbo_aio.safetensors）
batch_size（int）：每次请求生成的曲目数量（默认值：1）
max_duration（int）：歌曲最长时长（单位：秒）（默认值：180）
max_number_of_steps（int）：允许的最大采样步数（默认值：50）
max_wait_time（int）：生成过程的最大等待时间（单位：秒）（默认值：600）
workflow_json（str）：ComfyUI 工作流 JSON 文件（默认值：ace_step_1.5_workflow）
checkpoint_node（str）：CheckpointLoaderSimple 节点 ID（默认值："97"）
text_encoder_node（str）：TextEncodeAceStepAudio1.5 节点 ID（默认值："94"）
empty_latent_node（str）：EmptyAceStep1.5LatentAudio 节点 ID（默认值："98"）
sampler_node（str）：KSampler 节点 ID（默认值："3"）
save_node（str）：SaveAudioMP3 节点 ID（默认值："104"）
vae_decode_node（str）：VAEDecodeAudio 节点 ID（默认值："18"）
unload_node（str）：UnloadAllModels 节点 ID（默认值："105"）
owui_base_url（str）：Open WebUI 基础 URL（默认值：http://localhost:3000）
save_local（bool）：将生成的音频保存到本地存储（默认值：True）
show_player_embed（bool）：显示嵌入式音频播放器（默认值：True）
unload_comfyui_models（bool）：使用 ComfyUI-Unload-Model 节点在生成后卸载模型（默认值：False）

先决条件

ComfyUI-Unload-Model 节点：若要使用模型卸载功能（unload_comfyui_models），您必须在自己的 ComfyUI 实例中安装 ComfyUI-Unload-Model 自定义节点。

注意：您也可以在自定义工作流中使用其他模型卸载节点，但必须正确配置 unload_node 参数，指定该节点的 ID。

用户配置（按用户设置的阀门）

用户可通过聊天界面中的“阀门”图标，为各自的会话自定义以下设置：

generate_audio_codes（bool）：启用或禁用音频代码生成。禁用后（快速模式）可加快生成速度，但可能降低质量（默认值：True）
steps（int）：生成时的采样步数。数值越高，质量可能越好，但耗时也越长（默认值：8，上限由管理员设置的 max_number_of_steps 决定）
seed（int）：生成时的随机种子。设为 -1 表示随机，或输入特定数字以获得可重复的结果（默认值：-1）

使用方法

示例：

生成一首 E 小调、140 BPM、时长 60 秒的“赛博朋克、黑暗浪潮”主题歌曲，歌词内容为“AI 取代人类”

高级功能：

ACE Step 1.5 音频播放器

控制调式（如“C 大调”、“F# 小调”）
设置拍号（如 4/4、3/4）
选择语言（如“en”、“ja”、“zh”）

特性

1.5 版新增功能：调式、拍号、语言支持及音质提升
批量生成：一次生成多个变体
嵌入式播放器：时尚透明的播放器，配有歌词和波形可视化
可定制：全面控制生成参数

ComfyUI ACE Step 音频工具（旧版）

描述

通过 ComfyUI 使用 ACE Step AI 模型生成音乐。该工具允许您根据标签和歌词创作歌曲，并可完全控制工作流 JSON 和节点编号。配备精美透明的自定义音频播放器，带有播放/暂停控制、进度跟踪、音量调节以及清晰可滚动的歌词显示。专为高级音乐生成设计，可根据不同流派和氛围进行定制。

配置

comfyui_api_url（str）：ComfyUI API 端点（如 http://localhost:8188）
model_name（str）：要使用的模型检查点（默认值：ACE_STEP/ace_step_v1_3.5b.safetensors）
workflow_json（str）：完整的 ACE Step 工作流 JSON 字符串。请使用 {tags}、{lyrics} 和 {model_name} 作为占位符。
tags_node（str）：标签输入节点编号（默认值："14"）
lyrics_node（str）：歌词输入节点编号（默认值："14"）
model_node（str）：模型检查点输入节点编号（默认值："40"）
save_local（bool）：将生成的歌曲复制到 Open WebUI 存储后端（默认值：True）
owui_base_url（str）：您的 Open WebUI 基础 URL（默认值：http://localhost:3000）
show_player_embed（bool）：显示嵌入式音频播放器。若设置为 False，则仅返回下载链接（默认值：True）

使用方法

导入 ACE Step 工作流：
- 在 ComfyUI 中，进入工作流导入部分，加载 extras/ace_step_api.json。
- 根据您的设置需求调整节点。
在 Open WebUI 中配置工具：
- 将 comfyui_api_url 设置为您的 ComfyUI 后端地址。
- 将工作流 JSON（来自文件或您自定义的）粘贴到 workflow_json 中。
- 如果您修改了工作流，请设置正确的节点编号。
生成音乐：
- 提供歌曲标题、标签以及（可选）歌词。
- 工具会根据您的配置返回嵌入式音频播放器或下载链接。

示例：

  生成一首关于人工智能与人类友谊的歌曲

ACE Step 音频播放器 内嵌于 Open WebUI 聊天界面中的时尚透明音频播放器

功能特性

自定义音频播放器：美观的半透明播放器，带有模糊效果
完整播放控制：播放/暂停、拖动进度条、音量调节，配有 SVG 图标
歌曲标题显示：用户自定义的歌曲标题醒目展示
可滚动歌词：干净的歌词显示，配备自定义滚动条（最大高度 120px）
透明 UI：无缝集成任何 Open WebUI 主题
播放器切换：可选择显示/隐藏播放器嵌入，仅返回下载链接
本地存储：可选将歌曲保存至 Open WebUI 缓存，以实现持久化

根据配置返回嵌入式音频播放器及下载链接，或仅返回下载链接。高级用户可以完全自定义工作流，以适应不同风格、情绪或创意实验。

ComfyUI 文本转视频工具

描述

使用 ComfyUI 工作流从文本提示生成短视频，默认使用 WAN 2.2 文本转视频模型。该工具封装了 ComfyUI 的 HTTP + WebSocket API，等待任务完成，提取生成的视频，并（可选）将其上传至 Open WebUI 存储，以便在聊天中嵌入。

此仓库中包含的默认工作流文件是 extras/video_wan2_2_14B_t2v.json，工具实现位于 tools/text_to_video_comfyui_tool.py。

配置

comfyui_api_url（字符串）：ComfyUI HTTP API 端点（默认：http://localhost:8188）
prompt_node_id（字符串）：工作流中接收文本提示的节点 ID（默认："89"）
workflow（JSON/字典）：ComfyUI 工作流 JSON；若为空，则使用自带的 WAN 2.2 工作流
max_wait_time（整数）：等待 ComfyUI 运行的最大秒数（默认：600）
unload_ollama_models（布尔值）：是否在运行前从 VRAM 中卸载 Ollama 模型（默认：False）
ollama_api_url（字符串）：卸载模型时使用的 Ollama API 地址（默认：http://localhost:11434）

使用方法

导入工作流

在 ComfyUI 中，如果您想检查或修改节点，可导入工作流 JSON 文件 extras/video_wan2_2_14B_t2v.json。

安装/配置工具

将 tools/text_to_video_comfyui_tool.py 复制到您的 Open WebUI 工具目录，并在工具设置中根据需要配置 comfyui_api_url 等参数。

生成视频

调用工具并提供提示（例如：“赛博朋克熊猫在霓虹街道上滑板，3 秒镜头”），等待任务完成。工具会发出进度事件，并提供嵌入式 HTML 播放器或直接的 ComfyUI URL。

示例：

使用默认的 WAN 2.2 工作流，生成一段“赛博朋克熊猫在霓虹城市街道上滑板”的 3 秒短片

文本转视频示例 通过 ComfyUI WAN 2.2 工作流生成的示例短视频（缩略图）。

功能特性

默认使用 WAN 2.2 文本转视频模型工作流（video_wan2_2_14B_t2v.json）
将工作流提交至 ComfyUI，并监听 WebSocket 以获取完成信号
提取生成的视频文件，并可选将其上传至 Open WebUI 存储，以便内嵌显示
可选卸载 Ollama VRAM，以释放内存后再运行
提示节点和等待超时可配置

OpenWeatherMap 天气预报工具

描述

该工具使用 OpenWeatherMap API 获取天气预报，并显示一个交互式的 HTML 天气小部件，包含当前天气状况、逐小时预报和每日预报。支持免费的 2.5 API 和付费的 One Call 3.0 API。

配置

openweathermap_api_key（字符串）：您的 OpenWeatherMap API 密钥（必填）
api_version（字符串）：API 版本：“2.5”（免费版，包含当前天气及 5 天/3 小时预报）或 “3.0”（One Call API，需单独订阅）（默认：2.5）
units（字符串）：度量单位：“metric”、“imperial” 或 “standard”（默认：metric）
language（字符串）：天气描述的语言代码（默认：en）
show_weather_embed（布尔值）：是否显示嵌入式天气小部件（默认：True）

使用方法

示例：

东京，日本现在的天气如何？

获取当前天气状况、逐小时预报以及多日每日预报
显示交互式天气小部件，并返回文本摘要供 LLM 使用

OpenWeatherMap 天气预报工具示例小部件

🔄 函数管道

Flux Kontext ComfyUI 管道

描述

该管道通过 ComfyUI 将 Open WebUI 与 Flux Kontext 图像到图像编辑模型连接起来。这一集成允许使用 Flux Kontext 工作流进行高级图像编辑、风格迁移及其他创意变换。提供交互式 /setup 命令系统，便于管理员轻松配置。

配置

该管道包含一个交互式设置系统，管理员可通过聊天命令配置所有设置。大多数配置可以通过 /setup 命令完成，该命令提供交互式表单，方便调整参数。

关键配置选项：

COMFYUI_ADDRESS：正在运行的 ComfyUI 服务器地址（默认：http://127.0.0.1:8188）
COMFYUI_WORKFLOW_JSON：完整的 ComfyUI 工作流 JSON
PROMPT_NODE_ID：用于输入文本提示的节点 ID（默认："6"）
IMAGE_NODE_ID：用于输入 Base64 图像的节点 ID（默认："196"）
KSAMPLER_NODE_ID：采样器节点的节点 ID（默认："194"）
ENHANCE_PROMPT：启用基于视觉模型的提示增强功能（默认：False）
VISION_MODEL_ID：用于提示增强的视觉模型
UNLOAD_OLLAMA_MODELS：在生成前卸载 Ollama 模型以释放 RAM（默认：False）
MAX_WAIT_TIME：生成过程的最大等待时间，单位为秒（默认：1200）
AUTO_CHECK_MODEL_LOADER：自动检测 .safetensors 或 .gguf 格式的模型加载器类型（默认：False）

使用方法

初次设置

导入工作流：
- 在 ComfyUI 中，导入 extras/flux_context_owui_api_v1.json 作为工作流
- 如果您修改了工作流，请调整节点 ID
使用 /setup 命令配置（仅限管理员）：
- 在聊天中输入 /setup 以启动交互式配置表单
- 表单将显示所有当前设置及输入字段
- 根据需要调整各项设置
- 提交表单以应用并选择性地保存配置
- 设置可持久化到后端配置文件中，以便永久存储
替代方案：手动配置：
- 在 Open WebUI 的管理面板中访问管道的阀门
- 将 COMFYUI_ADDRESS 设置为您的 ComfyUI 后端地址
- 将工作流 JSON 粘贴到 COMFYUI_WORKFLOW_JSON 中
- 根据需要配置节点 ID 和其他参数

使用管道

基础图像编辑：
- 将图片上传至聊天窗口
- 提供描述所需更改的文本提示
- 管道会通过 ComfyUI 处理图像，并返回编辑后的结果
增强提示（可选）：
- 在设置中启用 ENHANCE_PROMPT
- 设置一个 VISION_MODEL_ID（例如多模态模型如 LLaVA 或 GPT-4V）
- 视觉模型将分析输入图像，并自动优化您的提示，以获得更好的效果
内存管理：
- 启用 UNLOAD_OLLAMA_MODELS 以在生成前释放 RAM
- 默认工作流包含一个用于在 ComfyUI 中管理 VRAM 的 Clean VRAM 节点

示例 - 图像编辑：

提示： “将这张图片编辑成中世纪奇幻风格的国王形象，同时保留面部特征。”
[上传图片]

Flux Kontext 设置 Flux Kontext /setup 命令界面示例

Flux Kontext 示例 Flux Kontext 图像编辑输出示例

Google Veo 文本转视频与图像转视频管道

描述

通过 Gemini API 使用 Google Veo，根据文本提示或单张图片生成高质量视频。该管道使高级视频生成功能直接从 Open WebUI 中实现，支持创意和专业用途。它同时支持文本转视频和图像转视频。

注意： 目前仅支持一张图片作为输入。不支持多张图片输入。

配置

GOOGLE_API_KEY（字符串）：用于访问 Gemini API 的 Google API 密钥（必填）
MODEL（字符串）：用于视频生成的 Veo 模型（默认：“veo-3.1-generate-preview”）
ENHANCE_PROMPT（布尔值）：使用视觉模型增强提示（默认：假）
VISION_MODEL_ID（字符串）：用作提示增强器的视觉模型
ENHANCER_SYSTEM_PROMPT（字符串）：用于提示增强过程的系统提示
MAX_WAIT_TIME（整数）：视频生成的最大等待时间，单位为秒（默认：1200）

先决条件：

您必须拥有 Google Gemini API 的访问权限及有效的 API 密钥。
对于图像转视频生成，仅支持一张图片作为输入（Gemini API 的限制）。

使用方法

文本转视频示例：

生成一段“日落时分、有飞行汽车的未来城市”的视频

图像转视频示例：

根据这张图片制作视频：[附上图片]

功能

文本转视频： 根据描述性文本提示生成视频
图像转视频： 将单张图片动画化为视频序列
高质量： 利用 Google Veo 先进的视频生成模型
直接嵌入： 返回 Markdown 格式的视频链接，可在聊天中显示
状态更新： 在生成过程中提供进度和错误报告

限制

图像转视频仅支持一张图片作为输入（Gemini API 的限制）
不支持多张图片或视频编辑功能。

示例输出

Google Veo 示例 Open WebUI 中 Google Veo 视频生成输出示例

计划代理 v3

具备代理式规划、多代理委派以及实时可视化执行跟踪功能的先进自主代理系统。

计划代理 v3 是专为 Open WebUI 设计的最先进自主系统。它能将复杂的用户请求转化为结构化的可执行计划，将专门任务委派给一组子代理，同时提供交互式反馈和可视化进度更新。

🚀 主要特性

🧠 代理式规划与自我修正： 自动将高层次目标分解为依赖关系明确的任务树，并由用户参与审批和自适应重新安排。
⚡ 并行执行（v15+）： 通过使用 asyncio.gather 并发执行工具调用和子代理任务，实现极快的性能。这允许多个独立任务同时进行。
📂 强大的状态持久化： 自动保存和恢复任务状态、结果以及子代理历史记录，跨聊天轮次通过附加的 JSON 文件实现。
🔌 原生 OWUI 集成：
- 用户技能： 自动解析并注入模型可用的技能（计划者和自定义工作空间模型），以便其查询这些技能。
- 知识库与 RAG： 通过 knowledge_agent 直接集成 OWUI 知识库、笔记和用户记忆。
- 自定义函数与工具： 完全支持用户创建的 Python 工具、导入工具以及外部 OpenAPI/DB 工具。
- MCP 服务器： 扩展支持模型上下文协议（MCP）服务器，具有连接去重和韧性功能，以防止死锁。
- 终端集成： 完全交互式终端访问权限，可用于基于 shell 的任务和文件管理（需 terminal_agent）。
- 原生工具对等性： 当专用子代理被禁用时，智能继承内置工具能力（网络搜索、图像生成等）。
🌐 专用内置子代理：
- 网络搜索代理： 自主研究，结合来源综合与引用处理。
- 图像生成代理： 使用 OWUI 原生图像中间件生成高质量图像。
- 知识代理： 根据您的文档和用户记忆进行情境感知的 RAG 检索。
- 代码解释器代理： 安全执行 Python 代码，用于数据科学和自动化任务。
- 终端代理： 直接访问系统，用于执行技术任务。
🛠️ MCP 韧性系统： 完整支持模型上下文协议（MCP），内置并行化补丁和连接去重功能，以防止死锁。
🎭 交互式 UI 模态框： 原生 UI 组件，用于 ask_user、give_options 和 plan_approval，允许代理请求澄清或确认。
📊 可视化执行跟踪器： 实时 HTML 界面，显示任务的实时状态（待处理、进行中、已完成、失败）。

⚙️ 配置（阀门）

[!IMPORTANT] 模型ID与功能配置

基础模型：位于管理面板 > 设置 > 模型中。这些是原始模型ID（例如，qwen2.5:7b、gpt-4o）。

必备项：PLANNER_MODEL（必填）。

回退支持：如果未填写，REVIEW_MODEL、TERMINAL_AGENT_MODEL以及所有虚拟代理模型将回退到PLANNER_MODEL。然而，若已指定，则它们必须是基础模型（而非工作区预设）。

工作区模型（预设）：位于工作区 > 模型中。这些是带有特定角色设定和参数的自定义预设。

用途：SUBAGENT_MODELS。在此处可为子代理配置特定的知识库访问权限、自定义工具功能、技能及专用系统提示。

并行执行（新功能）

Planner Agent v3 支持并行执行工具调用和子代理调用。当多个独立任务可以同时进行时，这将显著提升性能。

PARALLEL_TOOL_EXECUTION：启用后，规划器会并行执行所有识别出的工具调用（包括子代理调用）。
PARALLEL_SUBAGENT_EXECUTION：启用后，子代理会并行执行其内部工具调用（如搜索、代码解释器等）。

[!WARNING] 并行执行可能导致外部竞争条件，若工具在同一轮次内存在状态依赖关系（例如，一个工具依赖于同一轮次中另一个工具创建的文件）。对于复杂且相互依赖的工作流，请谨慎使用。大多数标准的搜索和生成任务是独立的，适合并行处理。子代理之间的任务依赖性和管道中的异步状态受到严格保护，因此较为安全。但您需对它可能对外部服务产生的影响负责。如果选择完全并行化，可能需要使用异步数据库以避免死锁，并在大量子代理情况下防止性能下降。

模型与子代理设置

PLANNER_MODEL：用于规划和编排的主要“大脑”模型（必填）。
SUBAGENT_MODELS：用于委派任务的专用模型或工作区模型预设列表，以逗号分隔。最适合用于知识库访问和自定义角色设定。
WORKSPACE_TERMINAL_MODELS：允许使用本地终端环境的模型ID列表，覆盖默认的虚拟终端代理检查。
SUBAGENT_TIMEOUT：子代理和MCP工具调用的全局超时时间，以防止瓶颈。

交互与控制

ENABLE_PLAN_APPROVAL：在开始任何任务前暂停，等待用户审核。
YOLO_MODE：完全自主模式：禁用迭代限制和确认环节。
TASK_ITERATION_LIMIT：全局安全上限，防止无限代理循环。
ENABLE_USER_INPUT_TOOLS：切换交互式UI模态框（ask_user、give_options）的可用性。

🔄 工具继承与虚拟代理

Planner V3 具有智能的工具继承逻辑：

委派模式：若规划器阀门中启用了某个虚拟代理（例如，web_search_agent），规划器将根据该子代理的配置将其任务委派给它。
固有模式：若虚拟代理被禁用，规划器本身会“继承”这些能力（前提是规划器的基础模型/管理员工具设置允许），并直接执行任务，无需委派。

💡 可视化演示

Planner V3 演示 Planner V3 实际运行的录屏：自动化规划、子代理执行及最终多媒体合成。

实时执行 实时监控子代理任务及规划进度。

配置阀门 丰富的配置选项，可定制代理行为。

交互式选项提供 自主代理通过交互式UI模态框请求用户选择。

详细思维轨迹 深入查看代理的推理过程及工具交互。

任务完成与媒体播放器 利用专用子代理（如音乐生成与HTML布局）进行最终输出合成。

arXiv 研究 MCTS 管道

描述

在 arXiv.org 上搜索相关学术论文，并采用蒙特卡洛树搜索（MCTS）方法逐步完善研究摘要。

配置

model：来自您的大语言模型提供商的模型ID
tavily_api_key：必填。请从 tavily.com 获取您的 API 密钥
max_web_search_results：每次查询要获取的网页搜索结果数量
max_arxiv_results：每次查询要从 arXiv API 获取的结果数量
tree_breadth：每次 MCTS 迭代探索的子节点数量
tree_depth：MCTS 的迭代次数
exploration_weight：控制探索与利用之间的平衡
temperature_decay：随着树深度增加，LLM 温度呈指数下降
dynamic_temperature_adjustment：根据父节点得分调整温度
maximum_temperature：初始 LLM 温度（默认 1.4）
minimum_temperature：达到最大树深时的最终 LLM 温度（默认 0.5）

使用方法

示例：

对“DPO激光LLM训练”进行研究摘要

arXiv MCTS 示例 arXiv 研究 MCTS 管道的输出示例

多模型对话 v2 管道

描述

一种先进的多模型对话系统，可通过自定义配置界面实现互动式的多代理讨论。功能与最新的 Open WebUI 相当，包括工具支持、推理标签处理（思考块）以及动态发言者管理。最多可配置 5 名参与者，赋予他们独特的角色和模型，并使用可选的群聊管理器来协调讨论流程。

配置

版本 2 引入了功能强大的配置叠加层，允许您以可视化方式设置多智能体对话。它仍然支持用于默认值的用户阀门，但配置聊天的主要方式是通过交互式 UI。

主要特性：

动态发言者选择：启用或禁用群聊管理器。
模型特定提示：为每个参与者设置独特的系统消息。
工具集成：模型现在可以在对话中使用可用工具。
推理支持：完全支持“思考”模型，并提供可折叠的推理块。

核心设置：

NUM_PARTICIPANTS：设置参与者数量（1–5）
ROUNDS_PER_CONVERSATION：对话中的总回复轮次
UseGroupChatManager：启用由管理模型进行的动态发言者选择

每位参与者的配置：

Participant[1-5]Model：每个参与者的模型
Participant[1-5]Alias：每个参与者的显示名称
Participant[1-5]SystemMessage：每个参与者的角色设定和指令

访问配置 UI

要配置对话：

选择管道：将“多模型对话 v2 管道”选为您的模型。
打开配置：在聊天输入区域点击设置图标（新消息中的列表图标），或查找在开始新聊天时出现的配置叠加层。
配置智能体：设置您的模型、别名和系统提示。
保存并开始：点击“开始对话”以启动多智能体会话。

多模型对话阀门 多模型对话用户阀门配置面板示例

多模型对话设置弹出窗口示例

视频演示

对话 v2 演示 1

对话 v2 演示 2

使用方法

示例：

开始一场关于气候变化的三位 AI 智能体之间的对话。

使用场景：

辩论：设置对立观点（乐观派 vs. 怀疑派）
头脑风暴：针对一个问题的多种创意视角
角色扮演：多角色互动式故事讲述
分析：对同一主题的不同分析方法
专家小组讨论：模拟领域专家讨论复杂问题

简历分析管道

描述

分析简历并提供标签、第一印象、对抗性分析、潜在面试问题以及职业建议。

配置

model：来自您的 LLM 提供商的模型 ID
dataset_path：本地简历数据集 CSV 文件路径
rapidapi_key（可选）：用于求职功能
web_search：启用或禁用相关职位的网络搜索
prompt_templates：所有步骤的可定制模板

使用方法

需要完整文档过滤器（见下文）才能处理附件文件。
示例：

分析这份简历：
[附加简历文件]

简历分析示例 1 简历分析示例 2 简历分析示例 3 简历分析管道输出截图

Mopidy 音乐控制器

描述

控制您的 Mopidy 音乐服务器，播放本地库或 YouTube 中的歌曲、管理播放列表以及处理各种音乐命令。该管道通过自然语言命令提供直观的音乐播放、搜索和播放列表管理界面。

⚠️ 要求：此管道需要安装 Mopidy-Iris 才能使用播放器界面。Iris 提供了一个美观且功能丰富的 Web 界面来控制 Mopidy。

配置

model：来自您的 LLM 提供商的模型 ID
mopidy_url：Mopidy JSON-RPC API 端点的 URL（默认：http://localhost:6680/mopidy/rpc）——必须安装 Iris 界面
youtube_api_key：用于搜索功能的 YouTube 数据 API 密钥
temperature：模型温度（默认：0.7）
max_search_results：返回的最大搜索结果数（默认：5）
system_prompt：用于请求分析的系统提示

先决条件

Mopidy 服务器：安装并配置 Mopidy
Mopidy-Iris：安装 Iris Web 界面：
```
pip install Mopidy-Iris
```
可选扩展：
- Mopidy-Local（用于本地音乐库）
- Mopidy-YouTube（用于 YouTube 播放）

使用方法

示例：

播放约翰·列侬的歌曲《Imagine》

快速文本命令：停止、暂停、播放、开始、恢复、继续、下一首、跳过、暂定

功能

自然语言控制：使用对话式命令控制播放
YouTube 集成：直接从 YouTube 搜索并播放歌曲
本地库支持：访问并播放您本地 Mopidy 音乐库中的歌曲
播放列表管理：创建、修改和管理播放列表
Iris 界面集成：美观专业的 Web 界面，具备完整的播放控制功能
无缝嵌入：Iris 播放器直接嵌入 Open WebUI 聊天界面

Mopidy 示例 带有 Iris 界面的 Mopidy 音乐控制器管道示例（v0.7.0）

Letta 智能体管道

描述

与 Letta 智能体连接，使自主智能体能够无缝集成到 Open WebUI 对话中。支持任务特定处理，并在与智能体 API 通信时保持对话上下文。

配置

agent_id：要与之通信的 Letta 智能体 ID
api_url：Letta 智能体 API 的基础 URL（默认：http://localhost:8283）
api_token：用于 API 身份验证的 Bearer 令牌
task_model：用于生成标题/标签任务的模型
custom_name：要显示的智能体名称
timeout：等待 Letta 智能体响应的超时时间，单位为秒（默认：400）

使用方法

示例：

与内置的长期记忆 Letta MemGPT 智能体聊天。

Letta 示例 Letta 智能体管道示例

OpenRouter 图像管道

描述

OpenRouter API 的适配器管道，支持流式传输、多模态聊天完成，并内置网络搜索和图像生成支持。该管道专注于图像生成能力和网络搜索集成，不支持外部工具，仅支持流式完成。生成的图像会自动保存到 Open WebUI 后端，并发出稳定的访问 URL。

配置（阀门）

API_KEY (str)：OpenRouter API 密钥（Bearer 令牌）
ALLOWED_MODELS (List[str])：允许使用的模型标识符列表（管道仅可调用这些模型）
USE_WEBSEARCH (bool)：全局启用网络搜索插件，或通过在模型 ID 后附加 :online 来按模型启用
USE_IMAGE_EMBEDDING (bool)：当为 True 时，管道会将生成的图片以 HTML <img> 嵌入形式输出；否则，图片将以 Markdown 链接形式输出

功能

实时向客户端流式传输文本增量（低延迟的部分响应）
在模型提供时，输出结构化的推理细节
将 Base64 编码的图片响应保存到 Open WebUI 的文件后端，并返回带有防缓存时间戳的稳定 URL
内置网络搜索集成，以增强响应效果
模型能力检测（查询 OpenRouter 模型端点以确定支持的模态，并自动调整请求负载）
不支持外部工具——专注于核心的图像生成和网络搜索功能

使用方法

将 functions/openrouter_image_pipe.py 复制到你的 Open WebUI Functions 目录中，并在工作区中启用它。该管道会注册格式为 openrouter-<model>-pipe 的 ID（例如：openrouter-openai/gpt-4o-pipe）。调用时，它会使用事件发射器 API 将消息/事件流式传输回 Open WebUI 前端。

示例：

   “解释这张图片”

   “搜索关于阿根廷的最新新闻，并据此生成一张图片”

示例截图

以下是展示管道在 Open WebUI 中运行情况的示例截图——包括助手文本的流式输出、具备视觉能力的模型输入输出，以及生成的图片。

OpenRouter 图像生成 示例：结合网络搜索的图像生成。

OpenRouter 网络搜索引用过滤器

描述

通过向请求负载添加插件和选项，为 OpenRouter 模型启用网络搜索功能。此过滤器提供一个 UI 开关，用于使用 OpenRouter 原生的网络搜索功能，并进行适当的引用处理。它会处理网络搜索结果，并发出结构化的引用事件，以便在 Open WebUI 中正确标注来源。

配置（阀门）

engine (str)：网络搜索引擎——“auto”（自动选择）、“native”（提供商内置）或“exa”（Exa API）
max_results (int)：最多检索的网络搜索结果数量（1–10）
search_prompt (str)：整合网络搜索结果的模板。使用 {date} 占位符表示当前日期。
search_context_size (str)：搜索上下文大小——“low”（最小）、“medium”（中等）、“high”（广泛）

功能

提供 UI 开关，可在 OpenRouter 模型上启用网络搜索
自动生成包含域名的 Markdown 链接形式的引用
结构化的引用事件，便于与 Open WebUI 集成
灵活的搜索引擎选择（自动、原生或 Exa）
可配置的搜索结果限制和上下文大小
搜索执行期间的实时状态更新

使用方法

将 filters/openrouter_websearch_citations_filter.py 复制到你的 Open WebUI Filters 目录中，并在模型配置中启用它。该过滤器将为 OpenRouter 模型添加网络搜索功能，并进行适当的引用处理。

搜索提示模板示例：

于 {date} 进行了网络搜索。请将以下网络搜索结果纳入您的回复中。
重要提示：请使用以来源域名命名的 Markdown 链接进行引用。
例如：[nytimes.com](https://nytimes.com/some-page)。

该过滤器会处理响应流中的注释，并为每个网络搜索结果发出包含源 URL、标题和元数据的引用事件。

🔧 过滤器

涂鸦绘画过滤器

描述

这是一个可切换的过滤器，在发送每条消息之前会打开一个绘画画布，允许你将手绘草图附加到提示中。非常适合用于可视化地解释概念、请求修改 UI 草图，或为与 AI 的交互增添个人色彩。

功能

集成画布：直接在你的 Open WebUI 空间内打开一个简洁、全屏的绘画画布。
丰富工具：包括笔、橡皮擦、调色板、自定义颜色选择器、笔刷大小调节、清空画布以及撤销/重做功能。
原生持久化：使用 Open WebUI 的原生 Chats 模型，因此生成的涂鸦会永久附加到用户的讯息主体中，无缝贯穿整个对话历史，而不是作为临时的助手附件。

使用方法

启用过滤器：在你的模型配置或参数中开启涂鸦绘画过滤器。
发送消息：输入你的消息并发送。
绘画：一个精美的全屏涂鸦绘画画布会自动弹出。开始绘制你的草图吧！
附加：点击 ✔ 附加并发送 将绘画内容附加到你的消息中（或“跳过”以仅发送纯文本）。

涂鸦绘画提示 发送提示时，若该功能已启用，将自动弹出涂鸦绘画画布

涂鸦绘画画布 全屏绘画画布叠加层

涂鸦绘画结果 与 AI 模型的最终交互

提示增强过滤器

描述

利用大语言模型自动提升你的提示质量，然后再将其发送给主语言模型。

配置

user_customizable_template：自定义提供给提示增强 LLM 的指令
show_status：在增强过程中显示状态更新
show_enhanced_prompt：将增强后的提示输出到聊天窗口
model_id：选择用于提示增强的具体模型

使用方法

在你的模型配置的过滤器部分启用。
根据需要在聊天设置中切换过滤器的开关。
过滤器会在每次用户消息发送到主 LLM 之前自动处理该消息。

提示增强示例

语义路由过滤器

描述

充当智能模型路由器，分析用户的输入消息和可用模型，自动为任务选择最合适的模型、管道或预设。具备视觉模型过滤、动态视觉重路由、对话持续性、知识库集成以及与 Open WebUI 的 RAG 系统结合的强大文件处理能力。

该过滤器采用创新的隐形文本标记系统，在多轮对话中持续保留路由决策。当选定模型后，过滤器会在第一条助手消息中插入零宽 Unicode 字符。这些标记对大语言模型（LLM）不可见（在处理前会被移除），但会保留在聊天数据库中，从而确保在整个对话过程中始终使用相同的模型、工具和知识库，而无需依赖元数据或系统提示词的修改。

过滤器还会自动检测现有对话中是否添加了图片，若当前模型不具备视觉处理能力，则智能地切换到支持视觉的模型。这使得从纯文本对话无缝过渡到基于图像的交互成为可能，而无需手动切换模型。

语义路由器示例

配置阀门

vision_fallback_model_id：当没有视觉能力模型可用时，用于处理图像查询的备用模型 ID
banned_models：排除在路由选择之外的模型 ID 列表
allowed_models：白名单模型 ID 列表（设置后仅考虑这些模型）
router_model_id：用于路由决策的特定模型 ID（留空则使用当前模型）
system_prompt：路由器模型的系统提示词（可自定义）
disable_qwen_thinking：为 Qwen 模型的路由器提示词附加 /no_think
show_reasoning：在聊天中显示路由推理过程
status：在聊天中显示状态更新
debug：启用调试日志记录

功能

对话持续性：仅在第一条用户消息时进行路由，随后通过隐形文本标记自动维持所选模型贯穿整个对话
动态视觉重路由：自动检测对话中途添加的图片，若当前模型缺乏视觉能力，则切换至支持视觉的模型
视觉模型过滤：当对话中检测到图片时，自动将模型选择范围缩小到仅支持视觉的模型（检查 meta.capabilities.vision 标志）
智能回退：仅在过滤后的列表中无视觉模型时，才使用 vision_fallback_model_id
知识库集成：正确处理来自知识库集合的文件，并提供完整的 RAG 检索支持
工具保留：在多轮对话中保持特定于模型的工具不变
文件结构合规：以正确的 INPUT 格式传递文件给 Open WebUI 的 get_sources_from_items() 函数，以便进行适当的 RAG 处理
白名单支持：使用 allowed_models 限制仅选择特定模型，或使用 banned_models 排除某些模型
跨后端兼容性：在不同后端类型之间路由时，自动转换 OpenAI 和 Ollama 格式的负载
自动回退：遇到错误时会优雅地回退到原始模型

使用方法

在您的模型配置的过滤器部分启用此功能
配置 vision_fallback_model_id 以指定用于图像查询的备用模型
可选地设置 allowed_models 来创建首选模型白名单，或使用 banned_models 排除特定模型
过滤器将自动：
- 仅在第一条用户消息时进行路由（分析任务需求和可用模型）
- 发出一个隐形标记，将路由决策保存在聊天历史中
- 在后续对话消息中检测并恢复路由
- 当对话中添加图片且当前模型不具备视觉能力时，动态重新路由
- 检测对话中的图片，并在存在图片时过滤到支持视觉的模型
- 在整个对话中保留所选模型的工具和知识库
- 附上来自知识库集合的相关文件，并进行适当的 RAG 检索
- 根据需要在 OpenAI 和 Ollama 格式之间转换负载

工作原理

第一条消息（路由）：

分析用户消息和可用模型
若检测到图片，则过滤为支持视觉的模型
路由到最适合该任务的模型
在第一条助手消息中发出隐形 Unicode 标记（例如：‌‍⁠model-id‌‍⁠）
保留模型的工具、知识库和配置

后续消息（持续性）：

检测聊天历史中的隐形标记
提取已保存的模型 ID
检查是否存在图片但当前模型缺乏视觉能力 ⭐ 新增
若检测到视觉不匹配，则触发带有视觉过滤器的新一轮路由
否则，重建完整的路由信息（模型 + 工具 + 知识 + 元数据）
从消息内容中移除标记（对 LLM 不可见）
继续使用相同模型和配置进行对话

动态视觉重路由示例：

用户：“请解释量子物理”
→ 路由器选择文本模型（例如：llama3.2:latest）

用户：“谢谢！那这张图里是什么？” [附上图片]
→ 过滤器检测到：存在图片 + 当前模型缺乏视觉能力
→ 自动触发带有视觉过滤器的重新路由
→ 路由器选择视觉模型（例如：llama3.2-vision:latest）
→ 视觉模型处理图片并作出回应

视觉过滤的工作原理

当对话中检测到图片时：

过滤器会检查所有可用模型的 meta.capabilities.vision 标志
只有具备视觉能力的模型才会被纳入路由选择
如果未找到任何视觉模型，则使用 vision_fallback_model_id 作为回退方案
路由器模型会接收图片以做出上下文相关的路由决策
若路由器模型不支持视觉功能，则会自动切换到视觉回退模型进行路由

语义路由器

完整文档过滤器

描述

允许 Open WebUI 将整个附件文件（如简历或文档）作为对话的一部分进行处理。它会清理并把文件内容前置到第一条用户消息中，确保 LLM 获得完整的上下文信息。

配置

priority（整数）：过滤器操作的优先级（默认值：0）
max_turns（整数）：用户允许的最大对话轮次（默认值：8）

用户阀门

max_turns（整数）：用户允许的最大对话轮次（默认值：4）

使用方法

在您的模型配置中启用此过滤器。
当您在 Open WebUI 中附加文件时，过滤器会自动清理并将文件内容注入您的消息中。
多数用户无需手动配置。

示例：

请分析这份简历：
[附加简历文件]

清洁思维标签过滤器

描述

检查助理的消息是否以未闭合或不完整的“thinking”标签结尾。如果是，则提取未完成的想法，并将其作为用户可见的消息呈现。

配置

无需配置。

使用方法

启用后自动运行。

🎨 使用提供的 ComfyUI 工作流

导入工作流

打开 ComfyUI。
点击“加载工作流”或“导入”按钮。
选择提供的 JSON 文件（例如 ace_step_api.json 或 flux_context_owui_api_v1.json）。
根据需要保存或修改。
在 Open WebUI 工具配置中使用节点编号。

最佳实践

导入后务必检查节点编号，因为如果您修改了工作流，节点编号可能会发生变化。
您可以通过从 ComfyUI 导出工作流来创建和分享您自己的工作流。

这样做的意义

这种方法使您能够直接从 Open WebUI 中，以完全的控制和自定义方式，利用最先进的图像和音乐生成/编辑模型。

📦 安装

通过 Open WebUI Hub（推荐）

访问 https://openwebui.com/u/haervwe
点击所需工具/管道/过滤器的“获取”按钮。
按照 Open WebUI 实例中的提示操作。

手动安装

将 tools/、functions/ 或 filters/ 中的 .py 文件复制到 Open WebUI 的“工作区 > 工具/函数/过滤器”部分。
提供名称和描述，然后保存。

🤝 贡献

欢迎您通过以下方式为本项目贡献力量：

分支仓库
创建您的功能分支
提交您的更改
打开拉取请求

📄 许可证

MIT 许可证

🙏 致谢

由 Haervwe 开发
感谢以下优秀团队的支持：
- Ollama
- Open WebUI
- ComfyUI
- Perplexica
- Letta
- Mopidy
- Mopidy-Iris
- SearXNG
以及所有提供这些强大工具的模型训练者。

贡献者

安全审计

🎯 使用示例

学术研究

# 搜索某个主题的最新论文
搜索关于“大型语言模型训练”的最新论文

# 进行全面的研究
对“DPO 激光 LLM 训练”进行研究总结

创意项目

# 生成图片
创作一幅“美丽的马自由奔跑”的图片

# 创作音乐
以“放克、流行、灵魂乐”的风格创作一首歌词为“在秘密隐藏的阴影中……”的歌曲

# 编辑图片
将这张图片编辑成中世纪奇幻国王的样子，同时保留面部特征

生产力提升

# 分析文档
分析这份简历：[附上简历文件]

# 规划复杂任务
为康威的生命游戏创建一个功能齐全的单页应用 (SPA)

多智能体对话

# 开始小组讨论
让三个 AI 智能体就气候变化展开对话

🌟 社区与生态系统

本集合是更广泛的 Open WebUI 生态系统的一部分。以下是您可以参与的方式：

🔗 Open WebUI Hub：在 openwebui.com 发现更多工具
📚 文档：访问 docs.openwebui.com 了解更多关于 Open WebUI 的信息
💡 想法：分享您的想法和功能请求
🐛 错误报告：通过报告问题帮助改进工具
🌟 星标仓库：通过星标本仓库表达您的支持

💬 支持

如遇问题、疑问或建议，请在 GitHub 仓库中提交一个问题。

Open WebUI Tools 快速上手指南

Open WebUI Tools 是一个模块化集合，包含 20+ 种专用工具、函数管道和过滤器，旨在将您的 Open WebUI 实例升级为强大的 AI 工作站。功能涵盖学术搜索（arXiv）、网络检索、多媒体生成（图像/音乐/视频）、自主代理及文档处理等。

🛠️ 环境准备

在开始之前，请确保满足以下系统和依赖要求：

Open WebUI: 建议版本 0.6.0 或更高。
Python: 版本 3.8 或更高。
可选依赖（根据所需功能安装）：
- ComfyUI: 用于图像编辑、音乐生成和视频生成功能。
- Mopidy: 用于音乐控制器功能。
- Perplexica: 用于高级网络搜索（需本地部署）。
- API Keys: 部分工具需要配置密钥（如 Pexels, Hugging Face, YouTube Data API 等）。

💡 国内开发者提示：若拉取 Python 依赖或 Docker 镜像较慢，建议配置国内镜像源（如清华源、阿里源）或使用国内加速服务。

🚀 安装步骤

本工具集提供两种安装方式，推荐优先使用 Open WebUI Hub 进行一键安装。

方式一：通过 Open WebUI Hub 安装（推荐）

这是最简便的方法，无需手动复制代码。

访问工具集主页：https://openwebui.com/u/haervwe
浏览列表，找到您需要的工具（例如 "arXiv Search" 或 "Planner Agent v3"）。
点击工具卡片上的 "Get" 按钮。
系统会自动跳转至您的 Open WebUI 实例，按照页面提示确认安装即可。

方式二：手动安装

如果您希望自定义修改或离线部署，可手动复制代码。

获取源码：从 GitHub 仓库克隆或直接下载所需的 .py 文件（位于 tools/, functions/, 或 filters/ 目录下）。
```
git clone https://github.com/open-webui/open-webui-tools.git
```
部署到 Open WebUI：
- 登录您的 Open WebUI 界面。
- 进入 Workspace (工作区) > 选择对应的标签页 (Tools / Functions / Filters)。
- 点击 "+" 号创建新项目。
- 将下载的 .py 文件内容粘贴到代码编辑器中。
- 填写 Name (名称) 和 Description (描述)。
- 如有需要，在 Valves (配置项) 中填入对应的 API Key 或服务地址。
- 点击 Save (保存)。

🎯 基本使用

安装完成后，工具会自动集成到您的聊天界面中。以下是几个典型场景的使用示例：

1. 学术文献搜索 (arXiv Search)

无需任何配置即可直接使用。在对话框中输入：

Search for recent papers about "tree of thought"

系统将返回最新的 5 篇相关学术论文摘要。

2. 网络信息检索 (Perplexica Search)

前提：已本地部署 Perplexica 并配置好 BASE_URL。 在对话框中输入：

Search for "latest developments in AI safety research 2024"

系统将执行联网搜索，并带回引用来源的详细报告。

3. 素材搜索 (Pexels / YouTube)

前提：已在工具配置中填入对应的 API Key。

查找图片：

Search for photos of "modern office workspace"

查找视频：

Search for videos of "ocean waves at sunset"

结果将以嵌入式播放器或图片卡片形式直接展示在聊天窗口中。

4. 启用过滤器 (Filters)

过滤器需在模型设置中启用。

进入 Workspace > Models。
编辑您使用的模型，找到 Filters 选项卡。
勾选已安装的过滤器（如 Prompt Enhancer 用于自动优化提示词，或 Doodle Paint 用于开启画板功能）。
保存后，后续对话将自动应用这些增强功能。

更多高级功能（如 ComfyUI 工作流集成、多智能体规划等）请参考各工具的具体配置说明。

常见问题

为什么 Ace Step 批量生成（batch）设置为 2 或更多时，仍然只输出一首歌曲？

如何通过 Tailscale 或远程网络访问生成的音频/图片文件？遇到 localhost 链接无法打开的问题怎么办？

如何在命令行中查看 Open WebUI 的详细日志以排查错误？

Flux Kontext 生成的图像提示词（prompt）在生成后消失了，如何查看增强后的提示词？

Perplexica 管道（Pipe）配置后无法工作，但浏览器访问正常，该如何解决？

Conversation Pipe（对话管道）在多轮对话中历史记忆丢失，每轮都重置内容怎么办？

Flux Kontext 报错"No valid image provided"但实际上图片已显示，且无法在普通聊天中调用工具怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 143.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|昨天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent