tapnet

GitHub
1.8k 176 中等 1 次阅读 2天前Apache-2.0图像开发框架其他
AI 解读 由 AI 自动生成,仅供参考

tapnet 是谷歌 DeepMind 推出的开源项目,专注于解决视频中的“任意点跟踪”难题。它的核心能力是在视频中精准锁定并持续追踪用户指定的任意像素点,即使该点在运动过程中发生快速移动、形变或被物体暂时遮挡,也能保持轨迹的连贯与准确。

这一技术有效克服了传统跟踪算法在复杂场景下容易丢失目标或产生漂移的痛点,为视频分析提供了高鲁棒性的基础支持。tapnet 特别适合计算机视觉研究人员、AI 开发者以及从事机器人控制、视频特效制作的专业人士使用。无论是需要构建新的跟踪模型,还是开发依赖运动信息的下游应用(如机器人模仿学习),都能从中获益。

该项目不仅包含了表现卓越的 TAPIR 算法和最新的 TAPNext 系列模型,还引入了独特的 BootsTAP 自举训练策略,利用大量无标签视频显著提升了泛化能力。其中,TAPNext++ 更是实现了长达 40 倍的稳定跟踪时长,具备强大的重检测机制。此外,tapnet 还提供了 TAP-Vid 等多个权威基准数据集与评估指标,旨在推动整个领域向更精确、更高效的方向发展,是探索视频时空理解不可或缺的工具库。

使用场景

某自动驾驶研发团队正在处理一段复杂的城市路口监控视频,需要精确分析行人穿越马路时的运动轨迹以优化感知算法。

没有 tapnet 时

  • 遮挡即丢失:当行人被路边车辆短暂遮挡后,传统追踪算法往往直接丢失目标,无法在行人重新出现时恢复追踪,导致轨迹断裂。
  • 人工标注成本极高:为了获取完整的真值数据用于模型训练,工程师不得不逐帧手动校正坐标,处理一分钟高清视频需耗费数小时。
  • 长时序稳定性差:在长达数百帧的视频序列中,累积误差会导致追踪点逐渐漂移,最终偏离行人的实际身体部位,失去分析意义。
  • 动态场景适应弱:面对摄像头抖动或背景中相似纹理的干扰,旧方法容易产生误匹配,将背景噪点错误识别为追踪目标。

使用 tapnet 后

  • 强力重检测能力:借助 TAPNext++ 的特性,即使行人被完全遮挡数十帧,tapnet 也能在其重现瞬间精准“找回”并延续轨迹,确保数据完整。
  • 自动化高效产出:利用预训练的 BootsTAPIR 模型,团队可一键生成全视频的高密度像素级追踪点,将原本数小时的工作压缩至分钟级。
  • 超长序列稳定追踪:tapnet 基于下一代令牌预测架构,能在 1024 帧以上的长视频中保持极低漂移率,真实还原行人每一步的细微动作。
  • 抗干扰鲁棒性强:通过局部相关性细化机制,tapnet 能有效过滤背景杂波和相机抖动影响,牢牢锁定目标特征,即使在复杂光照下也表现稳定。

tapnet 通过解决遮挡丢失和长时序漂移难题,将高难度的视频点追踪任务转化为高效自动化的标准流程,极大加速了视觉算法的迭代闭环。

运行环境要求

操作系统
  • Linux
  • macOS
GPU
  • 若需运行实时演示或加速推理,需要支持 CUDA 的 NVIDIA GPU(测试环境为 Quadro RTX 4000)
  • CPU 亦可运行但速度较慢
  • 需安装与系统 CUDA/cuDNN 版本兼容的 JAX
内存

未说明

依赖
notes该工具主要基于 Google DeepMind 的 JAX 框架开发,同时也提供了 PyTorch 复现版本。若使用 GPU 加速,必须手动安装与本地 CUDA 驱动匹配的 JAX 版本(README 未指定具体 CUDA 版本号,需参考 JAX 官方文档)。实时演示在较旧的移动 GPU (Quadro RTX 4000) 上可达约 17 FPS。使用前需下载预训练检查点文件。
python3.8+
jax
flax
optax
torch (可选,用于 PyTorch 版本模型)
numpy
opencv-python
dm-haiku
chex
tapnet hero image

快速开始

跟踪任意点(TAP)

[TAP-Vid] [TAPIR] [RoboTAP] [博客文章] [BootsTAP] [TAPVid-3D] [TAPNext] [TRAJAN] [TAPNext++]

https://github.com/google-deepmind/tapnet/assets/4534987/9f66b81a-7efb-48e7-a59c-f5781c35bebc

欢迎来到 Google DeepMind 官方的“跟踪任意点”(TAP)仓库,这里汇集了 TAP-Vid 和 TAPVid-3D 数据集、我们性能领先的 TAPIR 模型以及 RoboTAP 扩展。

  • TAP-Vid 是用于评估此类任务模型的基准,包含针对真实视频和合成视频的真实标注点集合。
  • TAPIR 是一种两阶段算法,第一阶段为匹配阶段,独立地在每一帧中为查询点找到合适的候选匹配点;第二阶段为精炼阶段,基于局部相关性更新轨迹和查询特征。该模型速度快,在 TAP-Vid 基准上显著超越了所有先前方法。
  • RoboTAP 是一个利用 TAPIR 点轨迹在现实世界中高效执行机器人操作任务的系统。它还包含一个数据集,其中对真实的机器人操作视频进行了真实标注点的注释。
  • BootsTAP(即 TAP 的自举训练)使用大量未标注的真实世界视频来提升跟踪精度。具体而言,该模型被训练为在视频的不同空间变换和损坏情况下,以及不同查询点选择下,都能给出一致的预测结果。我们将这一方法应用于 TAPIR,从而创建了 BootsTAPIR,其架构与 TAPIR 类似,但在 TAP-Vid 上表现显著优于 TAPIR。
  • TAPVid-3D 是用于评估 3D 点跟踪任务模型的基准及指标集合。该基准包含 4,000 多个真实世界视频中的 100 万条以上计算得出的真实轨迹。
  • TAPNext 是我们最新、功能最强、速度最快且最简单的跟踪器。它将 TAP 问题建模为下一个标记预测,并通过在网络中传播信息来简单地跟踪点。值得注意的是,我们最好的 TAPNext 检查点是使用 BootsTAP 流程进行微调的。
  • TRAJAN 是我们的首个点轨迹自动编码器(TRAJAN)。TRAJAN 以一组支持点轨迹为条件,重建一组待测查询点的轨迹。TRAJAN 学习到的嵌入空间可用于比较视频分布、在不依赖物体外观的情况下比较不同视频中的运动轨迹,以及评估生成式视频模型输出视频的真实性和一致性。
  • TAPNext++ 是一个改进版的 TAPNext 检查点,其稳定跟踪性能提升了 40 倍,能够穿越遮挡并展现出强大的重新检测能力。它已在包含多种新颖训练策略的 1024 帧合成序列上进行了微调。

本仓库包含以下内容:

  • TAPNext / TAPNext++ / TAPIR / BootsTAPIR 演示,可通过克隆此仓库实现在线 Colab 演示 和离线 实时演示
  • TRAJAN 演示,用于在线 Colab 演示
  • TAP-Vid 基准,包括评估用的 数据集指标
  • RoboTAP 基准,包括评估用的 数据集 和基于点轨迹的聚类代码。
  • TAPVid-3D 基准,提供评估用的 指标 以及 TAPVid-3D 基准的示例 评估代码
  • 检查点,包含 TAP-Net(TAP-Vid 论文中提出的基线)、TAPIR 和 BootsTAPIR 的 预训练 模型权重,格式分别为 JaxPyTorch
  • 训练说明,介绍如何在 Kubric 上 训练 TAP-Net(TAP-Vid 论文中提出的基线)和 TAPIR。

演示

运行 TAPNext / TAPNext++ / TAPIR / BootsTAPIR 最简单的方式是使用我们的在线 Colab 演示。您也可以克隆本仓库并在自己的硬件上运行,包括实时演示。

Colab 示例

您可以通过运行 Colab 示例来了解 TAPIR 的工作原理。您还可以上传自己的视频,并尝试使用 TAPIR 进行点跟踪。

我们提供了几个 Colab 示例:

  1. TAPNext++ TAPNext++:这是一个经过微调的 BootsTAPNext 检查点,能够进行长期跟踪、遮挡跟踪和重新检测。它已在 PointOdyssey 和 Kubric-1024 数据集上进行了微调。
  1. BootsTAPNext BootsTAPNext:这是功能最强大的 TAPNext 模型,可在每帧上在线运行。该模型即论文中所报道的 BootsTAPNext 模型。
  1. BootsTAPNext PyTorch BootsTAPNext PyTorch:这是用 PyTorch 重新实现的功能最强大的 TAPNext 模型,其架构和权重与 Jax 版本完全一致。
  1. Offline TAPIR 标准 TAPIR:这是功能最强大的 TAPIR / BootsTAPIR 模型,可一次性处理整段视频。我们在论文中主要报告了该模型的结果。
  1. Online TAPIR 在线 TAPIR:这是顺序因果的 TAPIR / BootsTAPIR 模型,支持对点的在线跟踪,可在 GPU 平台上实时运行。
  1. TAPIR 彩虹可视化 彩虹可视化:这种可视化效果被广泛应用于我们的预告视频中:它能够自动进行前景/背景分割,并校正因相机运动导致的轨迹偏移,从而直观展示物体在真实空间中的运动路径。
  1. Offline PyTorch TAPIR 标准 PyTorch TAPIR:这是用 PyTorch 重新实现的 TAPIR / BootsTAPIR 模型,其架构和权重与 Jax 版本完全一致。
  1. Online PyTorch TAPIR 在线 PyTorch TAPIR:这是用 PyTorch 重新实现的顺序因果 BootsTAPIR 模型,其架构和权重与 Jax 版本完全一致。
  1. TRAJAN TRAJAN:这是一种点轨迹自编码器,可根据一组输入点轨迹重建未见点轨迹的运动。
  2. 点聚类 RoboTAP:这是 RoboTAP 中使用的分割算法演示。
  3. Kubric Kubric for TAPVid(3D):此可视化展示了如何使用 Kubric 数据集生成具有世界坐标系的 2D 和 3D 真实点轨迹。

实时演示

克隆仓库:

git clone https://github.com/deepmind/tapnet.git

切换到项目目录:

cd tapnet

安装 tapnet Python 包(以及运行推理所需的依赖):

pip install .

下载检查点:

mkdir checkpoints
wget -P checkpoints https://storage.googleapis.com/dm-tapnet/causal_tapir_checkpoint.npy

将当前路径(即 TapNet 安装目录的父目录)添加到 PYTHONPATH

export PYTHONPATH=`(cd ../ && pwd)`:`pwd`:$PYTHONPATH

如果您希望使用 CUDA,请确保已安装相应的驱动程序,并安装与您的 CUDA 和 CUDNN 版本兼容的 JAX 版本。请参考 JAX 官方文档,以正确安装支持 CUDA 的 JAX 版本。

随后,您可以在实时摄像头画面中运行预训练的因果 TAPIR 模型,并选择要跟踪的点:

cd ..
python3 ./tapnet/live_demo.py \

在我们的测试中,使用 Quadro RTX 4000(一款 2018 年发布的移动 GPU)处理 480x480 分辨率的图像时,帧率可达约 17 fps。

基准测试

该仓库包含三个相互关联但独立的基准测试:TAP-Vid、其后续扩展 RoboTAP 以及 TAPVid-3D。

TAP-Vid

https://github.com/google-deepmind/tapnet/assets/4534987/ff5fa5e3-ed37-4480-ad39-42a1e2744d8b

TAP-Vid 是一个包含视频及其点轨迹的数据集,这些轨迹可以是人工标注的,也可以是从模拟器中获取的。其目标是评估在任何固体物理表面上对可追踪点的跟踪性能。算法会接收某一帧上的单个查询点,并需要生成该点在整个视频序列中的完整轨迹,即包括该点移动到了哪里(如果可见)以及在其他每一帧中是否可见。这要求达到点级别的精度(不同于以往基于边界框和分割的跟踪工作),并且能够在可能的变形表面上进行长期跟踪(不同于结构光流法),同时适用于任何物体(即不依赖于特定类别,不同于以往针对人类等特定类别的关键点跟踪方法)。

关于如何下载、使用及在 TAP-Vid 基准测试 上进行评估的更多详细信息,请参阅相应的 README

RoboTAP

RoboTAP 是 TAP-Vid 和 TAPIR 的后续工作,旨在展示点跟踪模型在机器人技术中的重要性。

RoboTAP 数据集 采用与 TAP-Vid 相同的标注格式,但作为 TAP-Vid 的补充发布。从领域上看,RoboTAP 数据集与 TAP-Vid-RGB-Stacking 大致相似,主要区别在于所有机器人相关视频均为真实采集并由人工标注。此外,视频来源和物体类别也更加多样化。该基准数据集包含 265 个视频,仅用于评估目的。更多详情请参阅 TAP-Vid 的 README。我们还提供了一个 RoboTAP Colab Notebook,演示了论文中使用的分割算法。

TAPVid-3D

TAPVid-3D 是一个用于评估三维长距离任意点跟踪任务(TAP-3D)的数据集和基准测试。

该基准测试包含 4,000 多段真实世界视频,以及它们的度量级 3D 位置点轨迹。数据集涵盖了三种不同的视频来源,涉及多种物体类型、运动模式以及室内外环境。此仓库文件夹包含用于下载和生成这些标注及数据集样本以供查看的代码。请注意,它与 TAP-Vid 使用的是不同的许可证。

关于如何下载、使用及在 TAPVid-3D 基准测试 上进行评估的更多详细信息,请参阅相应的 README

关于坐标的一点说明

在我们的存储数据集中,(x, y) 坐标通常采用归一化的栅格坐标:即 (0, 0) 表示左上角像素的左上角,而 (1, 1) 表示右下角像素的右下角。然而,我们的代码会立即将这些坐标转换为常规的栅格坐标,与 Kubric 读取器的输出一致:(0, 0) 表示左上角像素的左上角,而 (h, w) 则表示右下角像素的右下角,其中 h 是图像的高度(以像素为单位),w 是对应的宽度。

在处理 2D 坐标时,我们通常按 (x, y) 的顺序存储;而在处理 3D 坐标时,则通常按 (t, y, x) 的顺序存储,其中 y 和 x 仍为上述的栅格坐标,而 t 则是帧坐标,即 0 表示第一帧,0.5 表示第一帧和第二帧之间的时间点。请务必注意这一点:根据我们的指标,哪怕只差一个像素,结果也会有所不同。

检查点

Checkpoints

tapnet/checkpoint/ 目录下必须包含一个名为 checkpoint.npy 的文件,该文件可使用我们的 NumpyFileCheckpointer 加载。您可以在下方或在 HuggingFace 上下载检查点,这些检查点应与论文中使用的检查点高度一致。

注:表格中的评估结果是在 256×256 推理分辨率下报告的,但更高的分辨率可能会带来更好的效果。对于 BootsTAPIR,我们通常发现 512×512 分辨率下的效果最佳;而对于 TAPIR,则甚至可以使用高于 512×512 的分辨率来进一步提升性能。

模型 检查点 配置 骨干网络 训练分辨率 DAVIS First (AJ) DAVIS Strided (AJ) Kinetics First (AJ) RoboTAP First (AJ)
TAP-Net Jax tapnet_config.py TSM-ResNet18 256×256 33.0% 38.4% 38.5% 45.1%
TAPIR Jax & PyTorch tapir_config.py ResNet18 256×256 58.5% 63.3% 50.0% 59.6%
在线 TAPIR Jax causal_tapir_config.py ResNet18 256×256 56.2% 58.3% 51.2% 59.1%
BootsTAPIR Jax & PyTorch tapir_bootstrap_config.py ResNet18 + 4 层卷积 256×256 + 512×512 62.4% 67.4% 55.8% 69.2%
在线 BootsTAPIR Jax & PyTorch tapir_bootstrap_config.py ResNet18 + 4 层卷积 256×256 + 512×512 59.7% 61.2% 55.1% 69.1%
TAPNext Jax tapnext_demo.ipynb TrecViT-B 256×256 65.25% 68.9% 57.3% 64.1%
TAPNext++ PyTorch torch_tapnextpp_demo.ipynb TrecViT-B 256×256 65.6% - 53.9% 61.1%
TRAJAN Jax trajan_demo.ipynb

训练

我们在训练目录中为 TAP-Net 和 TAPIR 提供了一个 Jax 训练与评估框架;详情请参阅训练 README

其他研究者开发了 TAPIR 的 PyTorch 训练实现,可能也会引起您的兴趣;然而,这项工作 并非 由 Google DeepMind 开发,其准确性也尚未经过我们的验证。

引用本工作

请使用以下 BibTeX 条目来引用我们的工作:

@article{doersch2022tap,
  title={{TAP}-Vid: A Benchmark for Tracking Any Point in a Video},
  author={Doersch, Carl and Gupta, Ankush and Markeeva, Larisa and Recasens, Adria and Smaira, Lucas and Aytar, Yusuf and Carreira, Joao and Zisserman, Andrew and Yang, Yi},
  journal={Advances in Neural Information Processing Systems},
  volume={35},
  pages={13610--13626},
  year={2022}
}
@inproceedings{doersch2023tapir,
  title={{TAPIR}: Tracking any point with per-frame initialization and temporal refinement},
  author={Doersch, Carl and Yang, Yi and Vecerik, Mel and Gokay, Dilara and Gupta, Ankush and Aytar, Yusuf and Carreira, Joao and Zisserman, Andrew},
  booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision},
  pages={10061--10072},
  year={2023}
}
@article{vecerik2023robotap,
  title={{RoboTAP}: Tracking arbitrary points for few-shot visual imitation},
  author={Vecerik, Mel and Doersch, Carl and Yang, Yi and Davchev, Todor and Aytar, Yusuf and Zhou, Guangyao and Hadsell, Raia and Agapito, Lourdes and Scholz, Jon},
  journal={International Conference on Robotics and Automation},
  pages={5397--5403},
  year={2024}
}
@article{doersch2024bootstap,
  title={{BootsTAP}: Bootstrapped Training for Tracking-Any-Point},
  author={Doersch, Carl and Luc, Pauline and Yang, Yi and Gokay, Dilara and Koppula, Skanda and Gupta, Ankush and Heyward, Joseph and Rocco, Ignacio and Goroshin, Ross and Carreira, Jo{\~a}o and Zisserman, Andrew},
  journal={Asian Conference on Computer Vision},
  year={2024}
}
@article{koppula2024tapvid,
  title={{TAPVid}-{3D}: A Benchmark for Tracking Any Point in {3D}},
  author={Koppula, Skanda and Rocco, Ignacio and Yang, Yi and Heyward, Joe and Carreira, Jo{\~a}o and Zisserman, Andrew and Brostow, Gabriel and Doersch, Carl},
  journal={Advances in Neural Information Processing Systems},
  year={2024}
}
@article{zholus2025tapnext,
  title={TAPNext: Tracking Any Point (TAP) as Next Token Prediction},
  author={Zholus, Artem and Doersch, Carl and Yang, Yi and Koppula, Skanda and Patraucean, Viorica and He, Xu Owen and Rocco, Ignacio and Sajjadi, Mehdi S. M. and Chandar, Sarath and Goroshin, Ross},
  journal={arXiv preprint arXiv:2504.05579},
  year={2025}
}
@article{allen2025trajan,
  title={Direct Motion Models for Assessing Generated Videos},
  author={Allen, Kelsey and Doersch, Carl and Zhou, Guangyao and Suhail, Mohammed and Driess, Danny and Rocco, Ignacio and Rubanova, Yulia and Kipf, Thomas and Sajjadi, Mehdi S. M. and Murphy, Kevin and Carreira, Joao and van Steenkiste, Sjoerd},
  journal={arXiv preprint},
  year={2025}
}

许可与免责声明

版权所有 © 2022–2024 Google LLC

专属于 TAPVid-3D 基准的软件及其他材料受 tapvid3d/LICENSE 文件中所列许可协议的约束。

本仓库中的所有其他软件均采用 Apache License, Version 2.0(Apache 2.0)许可;除非符合 Apache 2.0 许可协议的规定,否则不得使用。您可以在以下网址获取 Apache 2.0 许可协议的副本:

https://www.apache.org/licenses/LICENSE-2.0

此处发布的所有非软件材料,包括 TAP-Vid 数据集的标注、RGB-Stacking 视频以及 RoboTAP 视频,均采用 Creative Commons BY 许可。您可以在以下网址获取 CC-BY 许可协议的法律文本:

https://creativecommons.org/licenses/by/4.0/legalcode

DAVIS 的原始视频来自验证集,同样根据其创作者的授权采用知识共享许可;详情请参阅 DAVIS 数据集。Kinetics 视频在 YouTube 上公开可用,但受各自独立许可的约束。详情请参阅 Kinetics 数据集网页

除非适用法律另有规定或双方另有书面约定,否则在此处依据 Apache 2.0 或 CC-BY 许可协议分发的所有软件和材料均按“现状”提供,不附带任何明示或默示的保证或条件。具体的权利与限制以相应许可协议中的条款为准。

本项目并非 Google 官方产品。

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|6天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

151.3k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|2天前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|2天前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|5天前
插件开发框架