genai-processors

2.1k 213 非常简单 1 次阅读昨天Apache-2.0开发框架Agent图像其他语言模型

AI 解读由 AI 自动生成，仅供参考

genai-processors 是一款轻量级 Python 库，旨在帮助开发者高效构建模块化、异步且可组合的生成式 AI 处理流程。它主要解决了当前大语言模型（LLM）API 生态碎片化的问题，通过提供统一的内容模型，让不同模型、智能体及工具之间的输入输出保持一致，从而简化了复杂的数据流管理。

这款工具特别适合需要开发高性能 AI 应用的后端工程师、算法研究人员以及希望优化多模态数据处理流程的技术团队。其核心亮点在于独特的“处理器（Processor）”抽象概念：它将复杂的异步多模态数据流封装为简单的 Python 类，开发者只需关注业务逻辑，无需手动处理繁琐的底层异步代码。genai-processors 原生支持流式传输，允许用户轻松实现内容的并行处理与链式调用（如使用 + 串联或 // 并行），并能无缝衔接文本、图像、音频等多种数据类型。无论是构建实时对话机器人，还是处理大规模并发任务，genai-processors 都能基于 Python 熟悉的 asyncio 框架，提供灵活且强大的基础设施支持。

使用场景

某电商团队需要构建一个实时多模态客服系统，能够同时接收用户的文字咨询和商品图片，并快速生成包含文本解答与相关图片推荐的回复。

没有 genai-processors 时

代码耦合严重：处理文字、图片等不同模态数据需要编写大量重复的格式转换代码，导致业务逻辑与底层 API 细节紧密纠缠。
并发实现复杂：若要并行调用多个模型（如一个分析图片、一个检索知识库），开发者需手动管理 asyncio 任务队列和锁机制，极易出错。
流式响应困难：实现“打字机”效果的实时输出需要自行处理复杂的缓冲区和分块逻辑，开发周期长且难以维护。
扩展性差：新增一种内容类型（如音频）或调整处理流程时，往往需要重构整个管道，无法灵活插拔功能模块。

使用 genai-processors 后

统一内容模型：利用统一的 ProcessorPart 自动封装文本、图像等数据，开发者无需关心底层格式差异，专注业务逻辑。
声明式并行编排：通过简单的操作符（如 //）即可将图片分析与文本生成任务并行化，底层自动处理异步并发细节。
原生流式支持：内置异步流能力，只需几行代码即可实现端到端的流式输出，让用户即时看到生成结果。
模块化组合灵活：将功能拆解为独立的 Processor 单元，像搭积木一样通过链式调用（+）快速重组新流程，轻松适配新需求。

genai-processors 通过标准化的异步流处理架构，将复杂的多模态并发开发简化为清晰的模块化组合，显著提升了生成式 AI 应用的构建效率与稳定性。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该库是一个轻量级 Python 库，基于 asyncio 构建异步处理管道。主要依赖 Google GenAI API（需自行配置密钥），支持文本、图像、音频等多模态内容流处理。安装命令为 pip install genai-processors。使用时建议参考官方文档及 Colab 示例以了解最新 SDK 用法。

python3.10+

genai-processors

快速开始

GenAI 处理器库 📚

构建模块化、异步且可组合的生成式 AI 流水线。

GenAI 处理器是一个轻量级的 Python 库，能够实现高效、并行的内容处理。它通过三大核心支柱解决了 LLM API 的碎片化问题：

统一内容模型：为跨模型、代理和工具的输入与输出提供单一、一致的表示。
处理器：简单、可组合的 Python 类，使用原生 asyncio 转换内容流。
流式处理：默认内置异步流式能力，无需额外的复杂配置。

该生态系统的核心是 Processor，它封装了一个工作单元。通过“双接口”模式，它处理了异步、多模态数据流的复杂性，同时向开发者暴露了一个简单的 API：

from typing import AsyncIterable
from genai_processors import content_api
from genai_processors import processor

class EchoProcessor(processor.Processor):
  # 生产者接口（面向处理器作者）：
  # 接受强大的 ProcessorStream 作为输入，并产出部分类型。
  async def call(
      self, content: content_api.ProcessorStream
  ) -> AsyncIterable[content_api.ProcessorPartTypes]:
      # 在内容流式传入时进行处理！
      async for part in content:
          yield part

应用 Processor 同样非常直观。消费者接口接受广泛且容错性强的输入类型，并返回一个功能强大的流，可以一次性等待所有结果，也可以逐块流式处理：

# 消费者接口（面向调用者）：
# 轻松提供输入。字符串会自动转换为 Part。
input_content = ["Hello ", content_api.ProcessorPart("World")]

# 1. 将所有输出轻松汇总到一个对象中：
result: content_api.ProcessorContent = await simple_text_processor(input_content).gather()

# 2. 或者对于纯文本代理，直接获取文本：
print(await simple_text_processor(input_content).text())

# 3. 对于流式场景，可以逐个处理到达的部分：
async for part in simple_text_processor(input_content):
  print(part.text, end="")

Processor 的概念为 Gemini 模型调用以及围绕其构建的日益复杂的行为提供了通用抽象，既能支持轮次交互，也能支持实时流式传输。

✨ 核心特性

模块化：将复杂任务分解为可重用的 Processor 和 PartProcessor 单元，这些单元可以轻松地串联（+）或并行化（//），以创建复杂的数据流和智能体行为。
与 GenAI API 集成：包含开箱即用的处理器，如用于轮次 API 调用的 GenaiModel 和用于实时流式交互的 LiveProcessor。
可扩展性：允许您通过继承基类或使用简单的函数装饰器来创建自定义处理器。
丰富的内容处理：
- ProcessorPart：基于 genai.types.Part 的包装器，附加了 MIME 类型、角色和自定义属性等元数据。
- 支持多种内容类型（文本、图像、音频、自定义 JSON）。
异步与并发：基于 Python 熟悉的 asyncio 框架，协调并发任务（包括网络 I/O 和与计算密集型子线程的通信）。
流管理：提供用于拆分、拼接和合并 ProcessorPart 异步流的实用工具。

📦 安装

GenAI 处理器库需要 Python 3.10 或更高版本。

安装命令如下：

pip install genai-processors

代码生成

生成式模型通常不了解最新的 API 和 SDK 更新，可能会建议过时或遗留的代码。

我们建议在生成使用 GenAI 处理器的代码时，使用我们的代码生成说明，以引导您的模型使用更现代的 SDK 功能。请将说明复制并粘贴到您的开发环境中，以便为模型提供必要的上下文。

🚀 入门指南

我们建议从文档微站点开始，其中涵盖了核心概念、开发指南和架构设计。

您还可以查看以下 Colab 笔记本，以熟悉 GenAI 处理器（建议按顺序阅读）：

内容 API Colab - 解释了 ProcessorPart、ProcessorContent 的基础知识以及如何创建它们。
处理器入门 Colab - 介绍 GenAI 处理器的核心概念。
创建您自己的处理器 Colab - 演示了创建 Processor 或 PartProcessor 的典型步骤。
使用 Live API - 展示了使用 LiveProcessor 类基于 Gemini Live API 构建的几个实时处理器示例。

📖 示例

请浏览 examples/ 目录，获取实用演示：

实时 Live 示例 - 一个音频输入、音频输出的 Live 代理，以谷歌搜索作为工具。它是客户端侧的 Live 处理器实现（基于文本的 Gemini API 模型），展示了 GenAI 处理器的流式传输和编排能力。
研究代理示例 - 一个由处理器组成的研究代理，包含 3 个子处理器、链式处理、创建 ProcessorPart 等操作。
实时解说示例 - 描述了一个基于 Gemini Live API 构建的实时解说代理，由两个代理组成：一个用于事件检测，另一个用于管理对话。

🧩 内置处理器

core/ 目录包含一组基础处理器，您可以在自己的应用中使用。它提供了大多数实时应用所需的通用构建模块，并将随着时间的推移不断演进，加入更多核心组件。

社区贡献扩展的内置处理器集合位于 contrib/ 下——请参阅下方关于如何向 GenAI 处理器库添加代码的部分。

🤝 贡献

欢迎贡献！请参阅 CONTRIBUTING.md，了解如何为本项目做出贡献的指南。

📜 许可证

本项目采用 Apache License, Version 2.0 许可证。详情请参阅 LICENSE 文件。

Gemini 服务条款

如果您通过 Genai 处理器框架使用 Gemini，请务必查阅服务条款。

GenAI Processors 快速上手指南

GenAI Processors 是一个轻量级 Python 库，旨在帮助开发者构建模块化、异步且可组合的生成式 AI 管道。它通过统一的内容模型和原生 asyncio 支持，简化了多模态数据流的处理与 LLM API 的集成。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux, macOS 或 Windows
Python 版本：3.10 或更高版本
前置依赖：建议预先安装好 pip 包管理工具
API 密钥：如需使用 Gemini 模型功能，请准备好 Google AI API Key

安装步骤

使用 pip 直接安装官方发布版本：

pip install genai-processors

提示：如果您在国内网络环境下遇到下载速度慢的问题，可以使用国内镜像源加速安装：
pip install genai-processors -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

GenAI Processors 的核心概念是 Processor（处理器），它支持流式输入输出。以下是最简单的使用示例，展示如何定义一个回声处理器并调用它。

1. 定义一个简单的 Processor

创建一个继承自 processor.Processor 的类，实现 call 方法来处理流式数据：

from typing import AsyncIterable
from genai_processors import content_api
from genai_processors import processor

class EchoProcessor(processor.Processor):
  # 生产者接口：接收 ProcessorStream 输入，并 yield 处理后的部分
  async def call(
      self, content: content_api.ProcessorStream
  ) -> AsyncIterable[content_api.ProcessorPartTypes]:
      # 模拟流式处理：接收到什么就输出什么
      async for part in content:
          yield part

2. 调用 Processor

消费者接口非常灵活，支持字符串、列表等多种输入格式，并提供多种获取结果的方式（一次性获取、仅获取文本或流式迭代）：

import asyncio
from genai_processors import content_api

# 初始化处理器实例
simple_text_processor = EchoProcessor()

# 准备输入内容：支持混合类型，字符串会自动转换为 Part
input_content = ["Hello ", content_api.ProcessorPart("World")]

async def main():
    # 方式 1: 一次性收集所有输出
    result: content_api.ProcessorContent = await simple_text_processor(input_content).gather()
    print(f"Gathered result: {result}")

    # 方式 2: 仅获取纯文本结果
    text_result = await simple_text_processor(input_content).text()
    print(f"Text result: {text_result}")

    # 方式 3: 流式迭代处理（适合实时场景）
    print("Streaming output: ", end="")
    async for part in simple_text_processor(input_content):
        print(part.text, end="")
    print() # 换行

if __name__ == "__main__":
    asyncio.run(main())

核心特性速览

组合与并行：使用 + 串联处理器，使用 // 并行执行处理器。
多模态支持：原生支持文本、图像、音频及自定义 JSON 数据的 ProcessorPart 封装。
Gemini 集成：内置 GenaiModel 用于常规对话，LiveProcessor 用于实时音视频流交互。

更多高级用法（如创建自定义处理器、连接 Gemini Live API 等），建议参考官方文档站点或 GitHub 仓库中的 Colab 示例。

版本历史

v2.0.02026/03/10

v1.1.12025/12/17

v1.1.02025/08/01

v1.0.52025/07/21

v1.0.32025/07/09

v1.0.22025/06/27

v1.0.12025/06/20

v1.0.02025/05/22

常见问题

如何在链式管道中访问每个处理器的中间输出（如音频帧、视频帧或模型响应）？

如何控制代理的响应时机，避免其对短促或嘈杂的声音过快响应？

如何在会话期间动态切换视频输入源（例如从摄像头切换到屏幕共享）？

如何实现持续的视频输入流，但仅在特定间隔（如每 10 秒）或触发函数调用时才接收音频输出？

收到关于“外部协管员拥有管理员权限”的安全策略违规警告该如何修复？

收到关于“主分支缺乏保护”的安全策略违规警告意味着什么？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 157.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|6天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|6天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架