vision-agent

5.3k 602 简单 1 次阅读昨天Apache-2.0图像Agent其他

AI 解读由 AI 自动生成，仅供参考

VisionAgent 是 LandingAI 推出的一款视觉 AI 助手，旨在帮助用户快速构建具备视觉理解能力的应用程序。用户只需提供一张图片或一段视频，并输入自然语言指令，它便能自动选择最合适的视觉模型，并生成可直接运行的代码，从而将原本复杂的视觉开发流程缩短至几分钟。

这一工具主要解决了传统视觉 AI 开发中模型选型困难、代码编写繁琐以及调试成本高等痛点，让非专家也能轻松实现复杂的视觉推理任务。它特别适合开发者、数据科学家以及希望快速验证视觉想法的研究人员使用，同时也为需要集成视觉功能的产品团队提供了高效的原型设计手段。

其核心技术亮点在于“代理式”（Agentic）架构：不仅能理解用户的意图，还能自主规划任务步骤、调用多种大模型（如 Anthropic 和 Google 的模型）进行协同工作，最终输出高质量的工程代码。不过需要注意的是，该版本目前已停止维护，官方建议新用户转向使用其升级版方案"Agentic Document Extraction"以获取更稳定的支持。

使用场景

某电商质检团队需要快速开发一个自动检测服装瑕疵（如污渍、破洞）并生成报告的原型系统，以应对突发的批量验货需求。

没有 vision-agent 时

技术门槛高：开发人员需手动调研并选择适合的图像分割或目标检测模型，反复调试参数才能识别细微瑕疵。
开发周期长：从数据标注、模型训练到编写推理代码和可视化界面，通常需要数周时间才能产出可用 Demo。
试错成本大：若初始选型的模型效果不佳，需推倒重来更换算法架构，严重拖慢项目进度。
资源协调难：团队成员需分别负责算法、后端和前端，沟通协作成本高，难以单人快速验证想法。

使用 vision-agent 后

自然语言驱动：只需上传几张瑕疵样图并输入“检测衣服上的污渍和破洞”，vision-agent 自动匹配最佳视觉模型。
代码即时生成：几分钟内直接输出可运行的 Python 代码，包含完整的推理逻辑和结果可视化功能。
敏捷迭代验证：若检测效果不理想，调整提示词即可让 vision-agent 重新生成优化后的代码，无需重写底层逻辑。
单人全栈交付：一名开发者即可利用生成的代码快速搭建端到端应用，大幅降低对多角色协作的依赖。

vision-agent 将原本数周的视觉 AI 开发流程压缩至分钟级，让非专家也能通过自然语言交互快速构建高质量的视觉应用原型。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notes该工具主要依赖云端 LLM API（Anthropic 和 Google）进行推理和代码生成，本地无需部署大型模型。必须配置 VISION_AGENT_API_KEY、ANTHROPIC_API_KEY 和 GOOGLE_API_KEY 三个环境变量方可运行。支持通过修改配置文件切换不同的 LLM 提供商（如 OpenAI）。可通过 pip 或 uv 安装。

python3.9+

vision-agent

Anthropic API (Claude 3.7 Sonnet)

Google API (Gemini Flash 2.0 Experimental)

快速开始

通过图片或视频提供提示 → 获取可运行的视觉代码 → 在几分钟内构建视觉 AI 应用程序

version

Discord · 架构 · YouTube

VisionAgent 是 LandingAI 推出的视觉 AI 引擎。只需提供一个提示和一张图像，它就能自动选择合适的视觉模型，并输出可以直接运行的代码——让您在几分钟内构建支持视觉功能的应用程序。您可以通过 examples/chat 中的本地 Web 应用程序并按照 README.md 中的说明来体验 VisionAgent：

https://github.com/user-attachments/assets/752632b3-dda5-44f1-b27e-5cb4c97757ac

库的安装步骤

获取您的 VisionAgent API 密钥

最重要的一步是创建账户，并获取您的API 密钥。

其他先决条件

Python 3.9 或更高版本
Anthropic API 密钥
Google API 密钥

为什么需要 Anthropic 和 Google 的 API 密钥？

VisionAgent 使用 Anthropic 和 Google 的模型来响应提示并生成代码。

当您运行 VisionAgent 时，应用程序需要使用您的 API 密钥来访问 Anthropic 和 Google 的模型。这确保了您使用 VisionAgent 运行的任何项目都不会受到 LandingAI 账户速率限制的影响，同时也避免了大量用户对 LandingAI 速率限制的过度占用。

Anthropic 和 Google 都有自己的速率限制和付费层级。请参阅它们的文档和定价信息以了解更多信息。

注意: 在 VisionAgent v1.0.2 及更早版本中，VisionAgent 由 Anthropic Claude-3.5 和 OpenAI o1 提供支持。如果您使用的是这些版本之一，您将获得一个 OpenAI API 密钥，并将其设置为环境变量。

获取 Anthropic API 密钥

如果您还没有，请创建一个Anthropic 控制台账户。
在 Anthropic 控制台中，前往API 密钥页面。
生成一个 API 密钥。

获取 Google API 密钥

如果您还没有，请创建一个Google AI Studio 账户。
在 Google AI Studio 中，前往获取 API 密钥页面。
生成一个 API 密钥。

安装

使用 uv 安装：

uv add vision-agent

使用 pip 安装：

pip install vision-agent

快速入门：向 VisionAgent 提示

按照本快速入门指南学习如何向 VisionAgent 提示。掌握基础知识后，您可以根据自己的需求自定义提示和工作流程。

获取您的 Anthropic、Google 和 VisionAgent API 密钥。
将 Anthropic、Google 和 VisionAgent API 密钥设置为环境变量。
安装 VisionAgent。
创建一个名为 quickstart 的文件夹。
找到您想要分析的图像，并将其保存到 quickstart 文件夹中。
将示例脚本复制到名为 source.py 的文件中。将该文件保存到 quickstart 文件夹中。
运行 source.py。
VisionAgent 会生成一个名为 generated_code.py 的文件，并将生成的代码保存到其中。

将 API 密钥设置为环境变量

在运行 VisionAgent 代码之前，您必须将 Anthropic、Google 和 VisionAgent 的 API 密钥设置为环境变量。不同的操作系统有不同的设置方法。

以下是设置变量的代码：

export VISION_AGENT_API_KEY="your-api-key"
export ANTHROPIC_API_KEY="your-api-key"
export GOOGLE_API_KEY="your-api-key"

示例脚本：向 VisionAgent 提示

要使用 VisionAgent 生成代码，可以使用以下脚本作为起点：

# 从 VisionAgent 包中导入所需的类
from vision_agent.agent import VisionAgentCoderV2
from vision_agent.models import AgentMessage

# 启用详细输出
agent = VisionAgentCoderV2(verbose=True)

# 添加您的提示（内容）和图像文件（媒体）
code_context = agent.generate_code(
    [
        AgentMessage(
            role="user",
            content="描述这张图像",
            media=["friends.jpg"]
        )
    ]
)

# 将输出写入文件
with open("generated_code.py", "w") as f:
    f.write(code_context.code + "\n" + code_context.test)

向 VisionAgent 提示时的预期结果

当您提交提示时，VisionAgent 会执行以下任务。

为代码生成任务生成计划。如果启用了详细输出，将会显示该计划的编号步骤。
根据计划生成代码和测试用例。
使用测试用例测试生成的代码。如果测试失败，VisionAgent 会反复迭代代码生成过程，直到测试通过为止。

示例：统计图像中的罐头数量

请查看此 Jupyter Notebook 中的示例，了解如何使用 VisionAgent 统计图像中的罐头数量：

统计图像中的罐头数量

使用 VisionAgent 中的特定工具

VisionAgent 库包含一组工具，这些工具是独立的模型或函数，用于完成特定任务。当您向 VisionAgent 发出提示时，VisionAgent 会从这些工具中选择一个或多个来完成您提示中描述的任务。

例如，如果您提示 VisionAgent“计算图像中的狗的数量”，VisionAgent 可能会使用 florence2_object_detection 工具检测所有狗，然后使用 countgd_object_detection 工具统计检测到的狗的数量。

安装 VisionAgent 库后，您也可以在自己的脚本中使用这些工具。例如，如果您正在编写一个用于跟踪视频中物体的脚本，可以调用 owlv2_sam2_video_tracking 函数。换句话说，您不仅可以在向 VisionAgent 发送提示时使用这些工具，还可以在其他场景中直接调用它们。

这些工具位于 vision_agent.tools API 中。

示例脚本：对图像使用特定工具

您可以调用 countgd_object_detection 函数来统计图像中的对象数量。

为此，您可以运行以下脚本：

# 导入 VisionAgent Tools 库；导入 Matplotlib 以可视化结果
import vision_agent.tools as T
import matplotlib.pyplot as plt

# 加载图像
image = T.load_image("people.png")

# 调用函数统计图像中的对象，并指定要统计“人”
dets = T.countgd_object_detection("person", image)

# 在图像上可视化 countgd 检测框
viz = T.overlay_bounding_boxes(image, dets)

# 将可视化结果保存为文件
T.save_image(viz, "people_detected.png")

# 显示可视化结果
plt.imshow(viz)
plt.show()

示例脚本：对视频使用特定工具

您可以调用 countgd_sam2_video_tracking 函数来跟踪视频中的人，并将其与 extract_frames_and_timestamps 函数结合使用，以返回这些人出现的帧和时间戳。

为此，您可以运行以下脚本：

# 导入 VisionAgent Tools 库
import vision_agent.tools as T

# 调用函数获取帧和时间戳
frames_and_ts = T.extract_frames_and_timestamps("people.mp4")

# 从 frames_and_ts 列表中提取帧
frames = [f["frame"] for f in frames_and_ts]

# 调用函数跟踪对象，并指定要跟踪“人”
tracks = T.countgd_sam2_video_tracking("person", frames)

# 在帧上可视化 countgd 跟踪结果并保存视频
viz = T.overlay_segmentation_masks(frames, tracks)
T.save_video(viz, "people_detected.mp4")

使用其他 LLM 提供商

VisionAgent 使用 Anthropic Claude 3.7 Sonnet 和 Gemini Flash 2.0 Experimental (gemini-2.0-flash-exp) 来响应提示并生成代码。我们发现，这些模型为 VisionAgent 提供了最佳性能，并且其提供商均在其免费层级（有限制）中提供这些模型。

如果您更倾向于仅使用其中一种模型，或者使用不同的模型组合，可以在 vision_agent/configs/config.py 文件中更改所选的 LLM 提供商。此外，您还需要将提供商的 API 密钥作为环境变量进行设置。

例如，如果您只想使用 Anthropic 模型，可以运行以下命令：

cp vision_agent/configs/anthropic_config.py vision_agent/configs/config.py

或者，您也可以手动在 config.py 文件中输入模型详细信息。例如，如果您想将规划器模型从 Anthropic 更改为 OpenAI，可以将以下代码：

    planner: Type[LMM] = Field(default=AnthropicLMM)
    planner_kwargs: dict = Field(
        default_factory=lambda: {
            "model_name": "claude-3-7-sonnet-20250219",
            "temperature": 0.0,
            "image_size": 768,
        }
    )

替换为以下代码：

    planner: Type[LMM] = Field(default=OpenAILMM)
    planner_kwargs: dict = Field(
        default_factory=lambda: {
            "model_name": "gpt-4o-2024-11-20",
            "temperature": 0.0,
            "image_size": 768,
            "image_detail": "low",
        }
    )

资源

Discord：加入我们的 VisionAgent 用户社区，分享使用案例并了解最新更新。
VisionAgent 库文档：学习如何使用此库。
视频教程：观看最新的视频教程，了解 VisionAgent 在各种应用场景中的使用方法。

VisionAgent 快速上手指南

VisionAgent 是 LandingAI 推出的视觉 AI 智能体。只需提供提示词和图片/视频，它就能自动选择合适的视觉模型并生成可运行的代码，帮助你在几分钟内构建视觉 AI 应用。

环境准备

在开始之前，请确保满足以下要求：

系统要求：Python 3.9 或更高版本。
必需 API Keys：VisionAgent 依赖外部大模型进行推理和代码生成，你需要准备以下三个密钥：
1. VisionAgent API Key：在 LandingAI 官网注册账号并获取。
2. Anthropic API Key：用于调用 Claude 模型（获取地址）。
3. Google API Key：用于调用 Gemini 模型（获取地址）。

注意：设置这些密钥是为了避免触及 LandingAI 公共账户的速率限制，并确保项目运行的稳定性。

安装步骤

你可以使用 pip 或 uv 进行安装：

使用 pip 安装：

pip install vision-agent

使用 uv 安装：

uv add vision-agent

基本使用

1. 配置环境变量

运行前，请将获取到的三个 API Key 设置为环境变量。

Linux/macOS:

export VISION_AGENT_API_KEY="your-vision-agent-key"
export ANTHROPIC_API_KEY="your-anthropic-key"
export GOOGLE_API_KEY="your-google-key"

Windows (PowerShell):

$env:VISION_AGENT_API_KEY="your-vision-agent-key"
$env:ANTHROPIC_API_KEY="your-anthropic-key"
$env:GOOGLE_API_KEY="your-google-key"

2. 编写脚本

创建一个名为 source.py 的文件，填入以下代码。该脚本会让 VisionAgent 分析一张图片并生成相应的处理代码。

请确保当前目录下有一张名为 friends.jpg 的图片，或者修改代码中的文件名。

# 从 VisionAgent 包导入必要的类
from vision_agent.agent import VisionAgentCoderV2
from vision_agent.models import AgentMessage

# 初始化智能体，开启详细输出以便观察过程
agent = VisionAgentCoderV2(verbose=True)

# 发送提示词和图片
code_context = agent.generate_code(
    [
        AgentMessage(
            role="user",
            content="Describe the image",
            media=["friends.jpg"]
        )
    ]
)

# 将生成的代码和测试用例保存到 generated_code.py
with open("generated_code.py", "w") as f:
    f.write(code_context.code + "\n" + code_context.test)

3. 运行与结果

执行脚本：

python source.py

执行流程说明：

规划：VisionAgent 会根据你的提示词生成代码编写计划。
生成：基于计划生成 Python 代码及对应的测试用例。
自修正：自动运行测试用例，如果失败，它会迭代修改代码直到通过测试。

运行结束后，当前目录会生成一个 generated_code.py 文件，里面包含了针对你图片任务的可直接运行的视觉处理代码。

常见问题

在 macOS 上使用 Python 3.13 安装 vision-agent 时遇到 pillow-heif 构建失败错误怎么办？

为什么在使用时会频繁出现 'Could not extract JSON' 的错误？

Vision Agent 为什么会在代码执行失败后无限循环或一直运行不终止？

既然 write_plans() 已经生成了计划和所需工具，为什么后续还需要调用 retrieve_tools()？

使用 DeepSeek-Janus-Pro-7B 模型后端时，前端 Chat 界面无响应但底层工具测试正常，可能是什么原因？

macOS 安装 vision-agent 前需要预先安装哪些系统依赖？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|5天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|6天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 150.7k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|2天前

插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|5天前

语言模型图像Agent