4KAgent

785 45 较难 1 次阅读昨天Apache-2.0开发框架图像语言模型Agent

AI 解读由 AI 自动生成，仅供参考

4KAgent 是一款荣获 NeurIPS 2025 收录的智能图像超分辨率工具，旨在将任意质量的图片“魔法般”地修复并提升至完美的 4K 分辨率。无论是严重模糊的老照片、低清的网络截图，还是复杂的科学显微图像乃至 AI 生成的画面，它都能通用处理，有效解决了传统算法在面对极端退化或特定领域图像时效果不佳的难题。

其核心创新在于采用了多智能体协作架构：由“感知智能体”利用大型视觉语言模型分析图像内容与损伤情况并制定修复策略，再由“恢复智能体”执行包含反思与回滚机制的递归修复流程。此外，4KAgent 引入了质量驱动的混合专家策略（Q-MoE）以在每一步骤中优选最佳结果，并配备了专门的人脸增强管道和无需额外训练即可适配不同任务的配置模块。

这款工具非常适合需要高质量图像放大的设计师、处理科研影像的研究人员、开发计算机视觉应用的工程师，以及希望提升个人照片清晰度的普通用户。通过智能化的流程设计，4KAgent 让高分辨率图像重建变得更加通用、精准且易于定制。

使用场景

一位数字档案管理员正在处理一批珍贵的 20 世纪老照片，这些照片不仅分辨率极低（仅 256x256），还混杂着严重的划痕、噪点以及模糊的人脸细节，急需修复并放大至 4K 标准以供高清展览使用。

没有 4KAgent 时

工具碎片化严重：需要分别使用去噪软件、超分模型和专门的人脸修复工具，手动串联流程极易出错且耗时。
细节丢失与伪影：传统算法在极端低质输入下容易产生模糊或奇怪的纹理伪影，无法还原真实的胶片质感。
人脸修复失败：通用超分模型对老旧照片中模糊不清的五官往往无能为力，导致人物面部扭曲或无法识别。
缺乏智能判断：无法根据照片具体的退化类型（如划痕 vs 噪点）自动调整策略，只能套用固定参数，效果参差不齐。

使用 4KAgent 后

一站式智能代理：4KAgent 的多智能体系统自动分析图像退化情况，一键执行从感知、规划到修复的全流程，无需人工干预。
高质量细节重建：借助质量驱动的混合专家策略（Q-MoE），能精准去除噪点并生成自然的 4K 高频细节，完美保留历史韵味。
专属人脸增强：内置的人脸修复流水线专门针对模糊五官进行优化，即使原图极度模糊也能还原清晰、自然的面部特征。
自适应场景处理：无论是显微图像还是老旧胶片，4KAgent 的配置文件模块能自动适配不同任务，无需额外训练即可达到最佳效果。

4KAgent 将繁琐的多步图像处理转化为智能化的单次交互，让任何低质图像都能以完美的 4K 画质重获新生。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU
示例命令使用多卡并行（感知代理、推理主进程、工具执行分别占用不同 GPU）
显存需求较高：运行非参考指标评估时，若显存小于 24GB 需使用低显存脚本
建议大显存显卡以支持 4K 分辨率生成及多模型并发

内存

未说明

依赖

notes1. 架构为多智能体系统，包含感知代理（需调用 LLaMA-Vision 或 DepictQA 等视觉语言模型）和修复代理。 2. 必须配置 API Key 到 config.yml 文件才能运行。 3. 支持多 GPU 部署：感知代理和具体修复工具可指定在不同 GPU 上运行（通过 --tool_run_gpu_id 参数）。 4. 若使用 DepictQA 作为感知模型，需单独启动其服务端口。 5. 数据集 DIV4K-50 需通过 huggingface-cli 下载并解压。

python未说明 (通过 conda 环境管理)

torch

transformers (用于 VLM)

huggingface_hub

conda

快速开始

4KAgent：基于智能体的任意图像至4K超分辨率重建

Yushen Zuo¹ Qi Zheng^1† Mingyang Wu^1† Xinrui Jiang^2† Renjie Li¹
Jian Wang³ Yide Zhang⁴ Gengchen Mai⁵ Lihong V. Wang⁶ James Zou²
Xiaoyu Wang⁷ Ming-Hsuan Yang⁸ Zhengzhong Tu^1*

¹德克萨斯农工大学 ²斯坦福大学 ³Snap Inc. ⁴科罗拉多大学博尔德分校
⁵德克萨斯大学奥斯汀分校 ⁶加州理工学院 ⁷Topaz Labs ⁸加州大学默塞德分校
^†表示共同第一作者
^*通讯作者

visitors

已被NeurIPS 2025接收

引言

我们提出了4KAgent，一个基于智能体的通用图像超分辨率模型，旨在将任意图像无差别地提升至4K分辨率，无论输入类型、退化程度或领域如何。4KAgent具备以下关键特性：

🔥 框架：4KAgent是首个用于通用任意图像至4K超分辨率的AI智能体框架，能够处理所有图像类别，从经典和现实中的退化图像、极端低质量输入，到AI生成图像，以及遥感、显微镜和生物医学等科学成像任务。
🔥 系统设计：在4KAgent中，感知智能体采用大型视觉-语言模型（VLM）分析图像内容与失真，并制定修复方案供修复智能体执行。修复智能体则通过执行—反思—回滚的递归流程进行修复与超分辨率重建。
🔥 Q-MoE与人脸修复流水线：在修复方案的每一步中，我们提出了一种基于质量驱动的专家混合（Q-MoE）策略，在执行与反思阶段选择最优图像。此外，我们还开发了人脸修复流水线，以增强图像中的人脸细节。
🔥 配置模块：为扩展4KAgent的适用性，我们提出了配置模块，允许用户根据不同的修复任务自定义系统。4KAgent无需额外训练即可适应多种修复任务。
🔥 DIV4K-50数据集：我们构建了DIV4K-50数据集，作为一项具有挑战性的测试集，用于将256×256分辨率的低质量（LQ）图像，经过多重退化后，提升至4096×4096分辨率的高质量（HQ）4K图像。

流程

依赖与安装

请参阅安装指南，获取关于环境搭建和依赖安装的详细说明。

推理

前提条件：在运行4KAgent之前，请在配置文件中填写API密钥。

4KAgent的推理依赖于配置文件，以下是示例：

使用‘llama_vision’作为感知智能体VLM的配置文件：

经典SR（ExpSR_s4_F）

CUDA_VISIBLE_DEVICES=1 python infer_4kagent.py \
  --input_dir ./assets/profile_test_example/classicsr \
  --output_dir ./outputs/4KAgent_test/classicsr \
  --profile_name ExpSR_s4_F \
  --tool_run_gpu_id 2

真实世界SR（ExpSR_s4_P）

CUDA_VISIBLE_DEVICES=1 python infer_4kagent.py \
  --input_dir ./assets/profile_test_example/realworldsr \
  --output_dir ./outputs/4KAgent_test/realworldsr \
  --profile_name ExpSR_s4_P \
  --tool_run_gpu_id 2

使用‘depictqa’作为感知智能体VLM的配置文件：

红外与4K SR联合处理：

# 在门户A中设置depictqa：
cd ./DepictQA
conda activate depictqa
CUDA_VISIBLE_DEVICES=0 python src/app_eval.py

# 在门户B中运行4KAgent推理：
CUDA_VISIBLE_DEVICES=1 python infer_4kagent.py \
  --input_dir ./assets/profile_test_example/4ksr \
  --output_dir ./outputs/4KAgent_test/4ksr \
  --profile_name FastGen4K_P \
  --tool_run_gpu_id 2

我们推荐FastGen4K_P配置文件，它推理速度更快，且具有良好的感知质量。

tool_run_gpu_id用于指定执行工具（修复方法）的GPU。对于显存较大的GPU，可以将tool_run_gpu_id设置为与CUDA_VISIBLE_DEVICES相同。

老照片4K SR

# 在门户A中设置depictqa：
cd ./DepictQA
conda activate depictqa
CUDA_VISIBLE_DEVICES=0 python src/app_eval.py

# 在门户B中运行4KAgent推理：
CUDA_VISIBLE_DEVICES=1 python infer_4kagent.py \
  --input_dir ./assets/profile_test_example/opr \
  --output_dir ./outputs/4KAgent_test/opr \
  --profile_name OldP4K_P \
  --tool_run_gpu_id 2

多重退化图像修复

# 在门户A中设置depictqa：
cd ./DepictQA
conda activate depictqa
CUDA_VISIBLE_DEVICES=0 python src/app_eval.py

# 在门户B中运行4KAgent推理：
CUDA_VISIBLE_DEVICES=1 python infer_4kagent.py \
  --input_dir ./assets/profile_test_example/mir \
  --output_dir ./outputs/4KAgent_test/mir \
  --profile_name GenMIR_P \
  --tool_run_gpu_id 2

配置文件设置

我们在pipeline/profiles目录下提供了若干示例配置文件，供不同应用场景参考。用户可根据这些示例自定义自己的配置文件。

DIV4K-50 数据集

我们已在 🤗 Hugging Face 上提供了 DIV4K-50 数据集，方便大家访问和复现实验。要下载该数据集，请确保已安装 huggingface_hub CLI：

python -m pip install "huggingface_hub[cli]"

# 运行以下命令将数据集下载到本地目录：
huggingface-cli download --repo-type dataset YSZuo/DIV4K-50 --local-dir ./dataset/DIV4K-50

# 解压数据集：
cd ./dataset/DIV4K-50
unzip DIV4K-50.zip

实用工具

[1] 提取结果图像：utils/image_export.py

目前，4KAgent 会生成一个包含日志和推理过程中生成图像的文件夹。如果我们仅需要最终输出图像来计算指标（例如 PSNR / SSIM / LPIPS 等），可以使用此脚本将每个 output 图像按其原始文件名提取到一个新的文件夹中。

[2] 提取结果工具链：utils/toolchain_export.py

如果我们对多张图像进行推理，并希望了解每张图像对应的 4KAgent 工具链，可以使用此脚本提取每张图像的工具链。例如：

001: defocus deblurring@diffplugin-brightening@gamma_correction-super-resolution@diffbir.
002: defocus deblurring@drbnet-super-resolution@diffbir.
003: defocus deblurring@restormer-super-resolution@pisasr.

[3] 提取人脸修复结果工具：utils/face_restoration_tool_export.py

如果在配置文件中启用了“人脸修复”功能（将 FaceRestore 设置为 true），并想查看具体使用了哪种人脸修复方法，可以使用此脚本。例如：

00006_01: codeformer
00006_02: gfpgan
00006_03: img

其中，“img”表示原始人脸图像。

评估

我们在 eval 文件夹中提供了多个评估脚本，分别对应不同的任务：

[1] test_metrics_classic：crop_border=4，用于评估经典超分辨率任务中的图像。（Set5、Set14、B100、Urban100、Manga109）

[2] test_metrics：用于评估真实世界超分辨率任务中的图像。（RealSR、DRealSR）

[3] test_metrics_mio：用于评估多退化修复任务中的图像。（MiO100）

[4] test_metrics_nr：用于评估无参考指标的图像。（NIQE、MUSIQ、MANIQA (pipal)、CLIPIQA）。（RealSRSet（16倍超分辨率）、DIV4K-50）如果 GPU 显存有限（小于 24G），也可以使用 test_metrics_nr_low_gpu。

实验结果

我们在11个不同的图像超分辨率任务上评估了4KAgent。总体实验结果总结如下：

任务	数据集	配置文件	缩放因子	结果
经典超分辨率	Set5	ExpSR-s4-F, ExpSR-s4-P, GenSR-s4-P	4	结果
经典超分辨率	Set14	ExpSR-s4-F, ExpSR-s4-P, GenSR-s4-P	4	结果
经典超分辨率	B100	ExpSR-s4-F, ExpSR-s4-P, GenSR-s4-P	4	结果
经典超分辨率	Urban100	ExpSR-s4-F, ExpSR-s4-P, GenSR-s4-P	4	结果
经典超分辨率	Manga109	ExpSR-s4-F, ExpSR-s4-P, GenSR-s4-P	4	结果
现实场景超分辨率	DRealSR	ExpSR-s4-F, ExpSR-s4-P, GenSR-s4-P	4	结果
现实场景超分辨率	RealSR	ExpSR-s4-F, ExpSR-s4-P, GenSR-s4-P	4	结果
多重退化红外图像超分辨率	MiO100	GenMIR-P	4 *	结果
人脸修复	WebPhoto-Test	GenSRFR-s4-P	4	结果
16倍超分辨率	RealSRSet	Gen4K-P	16	结果
红外与4K超分辨率联合处理	DIV4K-50	Gen4K-P	16	结果
AIGC 4K超分辨率 **	GenAIBench-4K	ExpSR-s4-P	4	结果
AIGC 4K超分辨率 **	DiffusionDB-4K	ExpSR-s4-P	4	结果
遥感图像超分辨率	AID	AerSR-s4-F, AerSR-s4-P	4	结果
遥感图像超分辨率	DIOR	AerSR-s4-F, AerSR-s4-P	4	结果
遥感图像超分辨率	DOTA	AerSR-s4-F, AerSR-s4-P, Aer4K-F, Aer4K-P	4, 16	结果
遥感图像超分辨率	WorldStrat	AerSR-s4-F, AerSR-s4-P	4	结果
荧光显微镜图像超分辨率	SR-CACO-2	ExpSR-s2-F, ExpSR-s4-F, ExpSR-s8-F	2, 4, 8	结果
病理图像超分辨率	bcSR	ExpSR-s4-F, ExpSR-s8-F	4, 8	结果
医学图像超分辨率	胸部X光2017	ExpSR-s4-F	4	结果
医学图像超分辨率	胸部X光14	ExpSR-s4-F	4	结果
医学图像超分辨率	US-CASE	ExpSR-s4-F	4	结果
医学图像超分辨率	MMUS1K	ExpSR-s4-F	4	结果
医学图像超分辨率	DRIVE	ExpSR-s4-F	4	结果

*: 对于使用GenMIR-P配置文件在4KAgent中触发超分辨率的低质量图像（基于低质量图像的分辨率），缩放因子被设置为4。

**: 我们使用标准样本提示来评估4KAgent在AIGC领域的性能。我们未采用无参考指标（NIQE、MUSIQ-P、MANIQA、CLIPIQA）进行评估，并提供了用于生成的测试提示。（MUSIQ-P：一种应用于补丁的方法，它在不重叠的512×512补丁上计算MUSIQ分数并取平均值，从而提高对超高分辨率内容中局部伪影的敏感性。）

我们在profile_setup中介绍了这些任务中使用的配置文件命名规范及详细信息。

许可证

本项目根据Apache 2.0许可证发布。

联系方式

如有任何问题，请随时联系：zuoyushen12@gmail.com

引用

如果您在研究中使用了我们的工作，我们诚挚地希望您能考虑引用我们的论文：

@article{zuo20254kagent,
      title={4KAgent: 基于智能体的任意图像至4K超分辨率}, 
      author={Yushen Zuo 和 Qi Zheng 和 Mingyang Wu 和 Xinrui Jiang 和 Renjie Li 和 Jian Wang 和 Yide Zhang 和 Gengchen Mai 和 Lihong V. Wang 和 James Zou 和 Xiaoyu Wang 和 Ming-Hsuan Yang 和 Zhengzhong Tu},
      year={2025},
      eprint={2507.07105},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2507.07105}, 
}

致谢

我们的代码基于 AgenticIR，同时还借鉴了若干优秀的开源图像修复工具和视觉语言模型，这些内容已在工具箱中列出。我们衷心感谢各位作者对社区所做的宝贵贡献。

4KAgent 快速上手指南

4KAgent 是一个通用的智能体图像超分辨率框架，能够将任意类型的低质量图像（包括经典退化、真实世界退化、AI 生成图像、遥感、显微及生物医学图像等）统一 upscale 至 4K 分辨率。

1. 环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统: Linux (推荐 Ubuntu)
GPU: NVIDIA GPU (支持 CUDA)，建议显存 ≥ 24GB 以获得最佳体验（小显存可使用低显存评估脚本，但推理仍建议大显存）。
Python: 3.8 或更高版本
依赖管理: Conda (推荐)
API Key: 本项目依赖视觉语言模型 (VLM)，使用前需在配置文件中填入对应的 API Key。

2. 安装步骤

2.1 克隆项目

git clone https://github.com/taco-group/4KAgent.git
cd 4KAgent

2.2 创建虚拟环境并安装依赖

详细的环境配置请参考项目自带的 installation/Installation.md，以下是基础安装流程：

# 创建 conda 环境
conda create -n 4kagent python=3.9 -y
conda activate 4kagent

# 安装 PyTorch (请根据您的 CUDA 版本调整，以下为示例)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# 安装项目核心依赖
pip install -r requirements.txt

注意：如果部分依赖下载缓慢，可尝试使用国内镜像源加速： pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

2.3 配置 API Key

运行前必须配置 VLM 的 API Key。编辑根目录下的 config.yml 文件，填入您的密钥。

3. 基本使用

4KAgent 基于 Profile（配置文件） 运行，针对不同类型的图像（如经典超分、真实世界超分、老照片修复等）提供了预设 Profile。

3.1 下载测试数据（可选）

您可以使用提供的示例数据进行测试：

# 确保已安装 huggingface-cli
pip install "huggingface_hub[cli]"

# 下载 DIV4K-50 数据集或其他测试样本（根据实际需求）
# 此处以手动放置图片到 input_dir 为例，无需强制下载完整数据集即可运行

3.2 运行推理

场景 A：经典超分辨率 (Classic SR)

使用 llama_vision 作为感知代理，适用于标准退化图像。

CUDA_VISIBLE_DEVICES=1 python infer_4kagent.py \
  --input_dir ./assets/profile_test_example/classicsr \
  --output_dir ./outputs/4KAgent_test/classicsr \
  --profile_name ExpSR_s4_F \
  --tool_run_gpu_id 2

场景 B：真实世界超分辨率 (Real-World SR)

适用于包含复杂噪声和模糊的真实拍摄图像。

CUDA_VISIBLE_DEVICES=1 python infer_4kagent.py \
  --input_dir ./assets/profile_test_example/realworldsr \
  --output_dir ./outputs/4KAgent_test/realworldsr \
  --profile_name ExpSR_s4_P \
  --tool_run_gpu_id 2

场景 C：老照片修复与多重退化恢复 (需部署 DepictQA)

对于老照片 (OldP4K_P) 或多重退化 (GenMIR_P) 任务，需要额外启动 DepictQA 服务作为感知代理。

步骤 1：启动 DepictQA 服务 (终端 A)

cd ./DepictQA
conda activate depictqa  # 假设已单独配置 depictqa 环境
CUDA_VISIBLE_DEVICES=0 python src/app_eval.py

步骤 2：运行 4KAgent 推理 (终端 B)

CUDA_VISIBLE_DEVICES=1 python infer_4kagent.py \
  --input_dir ./assets/profile_test_example/opr \
  --output_dir ./outputs/4KAgent_test/opr \
  --profile_name OldP4K_P \
  --tool_run_gpu_id 2

3.3 参数说明

--input_dir: 输入低质量图像文件夹路径。
--output_dir: 输出高清 4K 图像保存路径。
--profile_name: 预设配置文件名（位于 pipeline/profiles），决定处理策略。
- 推荐尝试 FastGen4K_P：推理速度较快且感知质量良好。
--tool_run_gpu_id: 指定执行具体修复工具（Restoration Tools）的 GPU ID。若显存充足，可与 CUDA_VISIBLE_DEVICES 设为相同值。

3.4 结果提取

推理完成后，输出目录包含日志和中间过程图。若只需最终结果用于指标计算，可使用工具脚本提取：

# 提取最终输出图像
python utils/image_export.py --input_dir ./outputs/4KAgent_test/xxx --output_dir ./final_results

# 查看每张图使用的工具链
python utils/toolchain_export.py --input_dir ./outputs/4KAgent_test/xxx

版本历史

v1.02025/09/24

常见问题

代码和预训练模型是否已经发布？如何获取？

是否可以使用本地 VLM（视觉语言模型）进行图像描述，而不是依赖在线 API？

示例图片中的“超分辨率”图像是否正确？

4KAgent 的预训练模型和 DIV4K-50 数据集在哪里下载？

项目是否支持 Docker 环境部署？

如何验证 4KAgent 的去噪能力，特别是针对 Sentinel-1 SAR 图像？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 159.6k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|昨天

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|1周前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像