OpenPCDet

GitHub
5.5k 1.4k 较难 1 次阅读 今天Apache-2.0图像其他Agent开发框架
AI 解读 由 AI 自动生成,仅供参考

OpenPCDet 是一个清晰、简洁且自包含的开源项目,专注于基于激光雷达(LiDAR)的 3D 物体检测。它旨在解决自动驾驶领域中从点云数据精准识别车辆、行人等目标的核心难题,为研究人员和开发者提供了一套标准化的算法实现框架。

作为 PointRCNN、PV-RCNN++、MPPNet 及 DSVT 等多个经典与前沿模型的官方代码库,OpenPCDet 不仅复现了学术界的高性能算法,还持续集成最新技术突破。其独特亮点包括支持多模态融合检测(如 BEVFusion、TransFusion-Lidar),在 NuScenes 数据集上实现了领先的检测精度;同时引入了稀疏卷积网络(如 VoxelNeXt)和时序检测能力,其中 MPPNet 曾在 Waymo 公开数据集榜单上斩获第一。此外,项目提供了完善的自定义数据集教程和 Docker 部署支持,大幅降低了环境配置与数据处理的门槛。

这款工具非常适合从事自动驾驶感知算法研究的科研人员、需要快速验证新想法的工程师,以及希望深入理解 3D 检测技术的深度学习爱好者。无论是进行学术探索还是工业级模型开发,OpenPCDet 都能提供坚实的技术底座。

使用场景

某自动驾驶初创团队正在研发城市道路 L4 级无人配送车,急需基于激光雷达点云数据实现高精度的实时 3D 目标检测,以识别车辆、行人及骑行者。

没有 OpenPCDet 时

  • 算法复现成本极高:团队需从零复现 PointRCNN 或 PV-RCNN 等经典论文代码,耗时数月且难以保证与论文性能一致。
  • 多传感器融合困难:面对 NuScenes 等多模态数据集,缺乏现成的 BEVFusion 或 TransFusion 架构支持,自行开发融合模块风险大、周期长。
  • 长时序检测缺失:在处理 Waymo 数据集时,无法直接利用多帧时序信息(如 MPPNet),导致对遮挡目标的跟踪和检测精度不足。
  • 新模型部署滞后:当业界出现 DSVT 等 SOTA 模型时,内部缺乏统一框架快速验证,错失技术迭代窗口。

使用 OpenPCDet 后

  • 开箱即用的模型库:直接调用内置的 PV-RCNN++、MPPNet 等官方认证代码,几天内即可完成基线模型搭建并达到论文级精度。
  • 高效的多模态支持:利用已集成的 BEVFusion 头,快速完成激光雷达与相机数据的特征融合,在 NuScenes 验证集上 NDS 指标迅速突破 70%。
  • 强大的时序处理能力:启用 MPPNet 多帧训练功能,显著提升了对远距离及遮挡车辆、行人的检测召回率,mAPH 指标达到行业领先水平。
  • 敏捷的技术迭代:通过更新版本即可无缝集成 DSVT 等新架构,结合 TensorRT 加速实现 27Hz 实时推理,大幅缩短研发到落地的路径。

OpenPCDet 将原本需要数月的底层算法研发工作压缩至数周,让团队能专注于场景优化而非重复造轮子。

运行环境要求

操作系统
  • Linux
GPU
  • 必需 NVIDIA GPU
  • 文档提及测试环境使用 GTX 1080Ti (11GB) 和 TITAN XP (12GB),部分新模型(如 DSVT)需配合 TensorRT 使用
  • 具体 CUDA 版本未在当前片段说明,但通常需匹配 PyTorch 版本(支持 PyTorch 1.1~1.10)
内存

未说明(建议 16GB+ 以处理大型点云数据集如 Waymo/NuScenes)

依赖
notes该工具主要用于基于 LiDAR 的 3D 物体检测。核心依赖 'spconv'(稀疏卷积库),安装较为复杂,需注意版本兼容性(支持 spconv 1.x 和 2.x)。若需使用可视化功能需安装 Open3D;若需记录 GPU 状态需安装 gpustat。支持 Docker 部署。处理 Waymo 等大数据集时,建议在配置中开启共享内存(USE_SHARED_MEMORY)以加速数据加载。
python未说明(兼容 PyTorch 1.1~1.10,通常对应 Python 3.6~3.9)
torch>=1.1
spconv>=1.0
numpy
scipy
opencv-python
PyYAML
tqdm
open3d
torch_scatter
gpustat
OpenPCDet hero image

快速开始

OpenPCDet

OpenPCDet 是一个清晰、简单、自包含的开源项目,用于基于 LiDAR 的 3D 物体检测。

它同时也是 [PointRCNN][Part-A2-Net][PV-RCNN][Voxel R-CNN][PV-RCNN++][MPPNet] 的官方代码发布。

亮点

  • OpenPCDet 已更新至 v0.6.0(2022年9月)。
  • 支持 PV-RCNN++ 的代码实现。
  • 支持 MPPNet 的代码实现。
  • 支持在 NuScenes 数据集上的多模态 3D 检测方法。

概览

更改日志

[2023-06-30] 新增: 添加对 DSVT 的支持,该模型在大规模 Waymo 开放数据集上实现了最先进的性能,并且具有实时推理速度(使用 TensorRT 时为 27HZ)。

[2023-05-13] 新增: 添加对 nuScenes 数据集上多模态 3D 物体检测模型的支持。

  • 支持多模态 nuScenes 检测(请参阅 GETTING_STARTED.md 以处理数据)。
  • 支持 TransFusion-Lidar 头部,该头部在 nuScenes 验证集上达到了 69.43% 的 NDS。
  • 支持 BEVFusion,该模型在 BEV 空间中融合多模态信息,在 nuScenes 验证集上达到了 70.98% 的 NDS。(请参阅 guideline 了解如何使用 BEVFusion 进行训练和测试)。

[2023-04-02] 添加对 nuScenes、Waymo 和 Argoverse2 数据集上 VoxelNeXt 的支持。它是一个完全稀疏的 3D 物体检测网络,属于干净的稀疏 CNN 网络,可以直接在体素上预测 3D 物体。

[2022-09-02] 新增:OpenPCDet 更新至 v0.6.0:

  • 正式发布了用于时序 3D 物体检测的 MPPNet 的官方代码,该模型支持长期多帧 3D 物体检测,并于 2022 年 9 月 2 日在 Waymo 开放数据集的 3D 检测排行榜 中排名第一。在验证集上,MPPNet 在车辆、行人和骑自行车者类别中分别达到了 mAPH@Level_2 的 74.96%、75.06% 和 74.52%。(请参阅 guideline 了解如何使用 MPPNet 进行训练和测试)。
  • 支持 Waymo 开放数据集上的多帧训练/测试(更多关于如何处理数据的信息,请参阅 changelog)。
  • 支持将训练过程中的变化细节(如损失、迭代次数、epoch)保存到文件中(仍然可以通过使用 --use_tqdm_to_record 来使用之前的 tqdm 进度条)。如果您还想记录 GPU 相关信息,请使用 pip install gpustat
  • 支持每 5 分钟保存一次最新模型,这样您就可以从最近的状态而不是前一个 epoch 恢复模型训练。

[2022-08-22] 添加了对 自定义数据集教程和模板 的支持。

[2022-07-05] 添加了对 3D 物体检测骨干网络 Focals Conv 的支持。

[2022-02-12] 添加了对 Docker 的支持。请参考 ./docker 中的指导说明。

[2022-02-07] 添加了对 nuScenes 数据集上 Centerpoint 模型的支持。

[2022-01-14] 添加了动态柱状体素化支持,遵循 H^23D R-CNN 中提出的实现方式,结合独特的操作和 torch_scatter 包。

[2022-01-05] 新增:OpenPCDet 更新至 v0.5.2:

  • 已将 PV-RCNN++ 的代码发布到本仓库,其性能更高、训练/推理速度更快,且内存消耗更少,优于 PV-RCNN。
  • 增加了使用 Waymo 开放数据集 完整训练集训练的多个模型的性能。
  • 支持 Lyft 数据集,详情请参阅此拉取请求 here

[2021-12-09] 新增:OpenPCDet 更新至 v0.5.1:

  • Waymo 开放数据集 上增加了 PointPillar 相关基线配置/结果。
  • 支持 Pandaset 数据加载器,详情请参阅此拉取请求 here
  • 支持一组新的数据增强方法,详情请参阅此拉取请求 here

[2021-12-01] 新增: OpenPCDet v0.5.0 发布,包含以下功能:

  • 提高了所有模型在 Waymo 开放数据集 上的性能。请注意,您需要重新准备 Waymo 开放数据集的训练/验证数据以及真值数据库(请参阅 GETTING_STARTED.md)。
  • 支持无锚点的 CenterHead,并添加了 CenterPointPV-RCNN with CenterHead 的配置。
  • 支持最新的 PyTorch 1.1~1.10spconv 1.0~2.x,其中 spconv 2.x 可以通过 pip 轻松安装,并且比之前版本更快(请参阅 spconv 的官方更新 here)。
  • 支持配置 USE_SHARED_MEMORY,以便在遇到 IO 问题时使用共享内存来加速训练过程。
  • 支持更好、更快的 可视化脚本,您需要先安装 Open3D

[2021-06-08] 添加了对基于体素的 3D 物体检测模型 Voxel R-CNN 的支持。

[2021-05-14] 添加了对单目 3D 物体检测模型 CaDDN 的支持。

[2020-11-27] 修复了错误:如果您想使用我们提供的 Waymo 评估工具(请参阅 PR),请重新准备 Waymo 数据集的验证信息(版本 1.2)。请注意,您不需要重新准备训练数据和真值数据库。

[2020-11-10] Waymo 开放数据集 已经支持了最先进的结果。目前我们提供了 SECONDPartA2PV-RCNN 在 Waymo 开放数据集上的配置和结果,通过修改其数据集配置,可以轻松支持更多模型。

[2020-08-10] 修复了错误:提供的 nuScenes 模型已更新,以修复加载错误。如果您需要使用预训练的 nuScenes 模型,请重新下载。

[2020-07-30] OpenPCDet v0.3.0 发布,包含以下功能:

[2020-07-17] 添加了简单的可视化代码和快速演示,以测试自定义数据。

[2020-06-24] OpenPCDet v0.2.0 发布,采用了全新的结构,以支持更多的模型和数据集。

[2020-03-16] OpenPCDet v0.1.0 发布。

简介

OpenPCDet 工具箱的功能是什么?

请注意,我们已将 PCDetv0.1 升级到 v0.2,并引入了全新的架构,以支持多种数据集和模型。

OpenPCDet 是一个基于 PyTorch 的通用代码库,用于点云中的 3D 物体检测。它目前支持多种最先进的 3D 物体检测方法,并对单阶段和双阶段的 3D 检测框架进行了高度重构。

基于 OpenPCDet 工具箱,我们在 Waymo 开放数据集挑战赛中,在 3D 检测3D 跟踪领域自适应 三个赛道上,所有仅使用 LiDAR 的方法中均取得了第一名。与 Waymo 相关的模型也将很快发布到 OpenPCDet 中。

我们目前正在积极更新此仓库,未来将支持更多数据集和模型。我们也欢迎各位贡献代码!

OpenPCDet 设计模式

  • 数据与模型分离,并采用统一的点云坐标系,便于扩展到自定义数据集:

  • 统一的 3D 边界框定义:(x, y, z, dx, dy, dz, heading)。

  • 灵活且清晰的模型结构,便于支持各种 3D 检测模型:

  • 在同一框架内支持多种模型:

当前支持的功能

  • 支持单阶段和双阶段的 3D 物体检测框架
  • 支持多 GPU 和多机的分布式训练与测试
  • 支持在不同尺度上使用多个头来检测不同类别
  • 支持堆叠版本的集合抽象,以编码不同场景中的各种点数
  • 支持自适应训练样本选择 (ATSS) 用于目标分配
  • 支持 RoI 感知的点云池化和 RoI 格网点云池化
  • 支持 GPU 版本的 3D IoU 计算和旋转 NMS

模型库

KITTI 3D 物体检测基线

下表展示了部分支持的方法。结果为 KITTI 数据集 val 集上的中等难度 3D 检测性能。

  • 所有基于 LiDAR 的模型均使用 8 块 GTX 1080Ti GPU 进行训练,并可下载。
  • 训练时间是使用 8 块 TITAN XP GPU 和 PyTorch 1.5 测量的。
训练时间 Car@R11 Pedestrian@R11 Cyclist@R11 下载
PointPillar ~1.2 小时 77.28 52.29 62.68 model-18M
SECOND ~1.7 小时 78.62 52.98 67.15 model-20M
SECOND-IoU - 79.09 55.74 71.31 model-46M
PointRCNN ~3 小时 78.70 54.41 72.11 model-16M
PointRCNN-IoU ~3 小时 78.75 58.32 71.34 model-16M
Part-A2-Free ~3.8 小时 78.72 65.99 74.29 model-226M
Part-A2-Anchor ~4.3 小时 79.40 60.05 69.90 model-244M
PV-RCNN ~5 小时 83.61 57.90 70.47 model-50M
Voxel R-CNN (Car) ~2.2 小时 84.54 - - model-28M
Focals Conv - F ~4 小时 85.66 - - model-30M
CaDDN (Mono) ~15 小时 21.38 13.02 9.76 model-774M

Waymo 开放数据集基线

我们在 Waymo 开放数据集(WOD)上提供了 DATA_CONFIG.SAMPLED_INTERVAL 的设置,用于对部分样本进行子采样以供训练和评估。因此,即使您的 GPU 资源有限,也可以通过设置较小的 DATA_CONFIG.SAMPLED_INTERVAL 来体验 WOD 数据集。

默认情况下,所有模型均使用全部训练样本中 20% 的数据(约 3.2 万帧)单帧 数据,在 8 张 GTX 1080Ti 显卡上进行训练。此处每个单元格的结果均为按照 Waymo 官方评估指标在 整个 验证集(版本 1.2)上计算得到的 mAP/mAPH。

性能@(使用 20% 数据训练) 车辆 L1 车辆 L2 行人 L1 行人 L2 自行车 L1 自行车 L2
SECOND 70.96/70.34 62.58/62.02 65.23/54.24 57.22/47.49 57.13/55.62 54.97/53.53
PointPillar 70.43/69.83 62.18/61.64 66.21/46.32 58.18/40.64 55.26/51.75 53.18/49.80
CenterPoint-Pillar 70.50/69.96 62.18/61.69 73.11/61.97 65.06/55.00 65.44/63.85 62.98/61.46
CenterPoint-Dynamic-Pillar 70.46/69.93 62.06/61.58 73.92/63.35 65.91/56.33 66.24/64.69 63.73/62.24
CenterPoint 71.33/70.76 63.16/62.65 72.09/65.49 64.27/58.23 68.68/67.39 66.11/64.87
CenterPoint (ResNet) 72.76/72.23 64.91/64.42 74.19/67.96 66.03/60.34 71.04/69.79 68.49/67.28
Part-A2-Anchor 74.66/74.12 65.82/65.32 71.71/62.24 62.46/54.06 66.53/65.18 64.05/62.75
PV-RCNN (AnchorHead) 75.41/74.74 67.44/66.80 71.98/61.24 63.70/53.95 65.88/64.25 63.39/61.82
PV-RCNN (CenterHead) 75.95/75.43 68.02/67.54 75.94/71.40 67.66/61.62 70.18/68.98 67.73/66.57
Voxel R-CNN (CenterHead)-Dynamic-Voxel 76.13/75.66 68.18/67.74 78.20/71.98 69.29/63.59 70.75/69.68 68.25/67.21
PV-RCNN++ 77.82/77.32 69.07/68.62 77.99/71.36 69.92/63.74 71.80/70.71 69.31/68.26
PV-RCNN++ (ResNet) 77.61/77.14 69.18/68.75 79.42/73.31 70.88/65.21 72.50/71.39 69.84/68.77

在此我们还提供了若干模型在完整训练集上训练的性能结果(参考 [PV-RCNN++] 论文:https://arxiv.org/abs/2102.00463):

性能@(使用 100% 数据训练) 车辆 L1 车辆 L2 行人 L1 行人 L2 自行车 L1 自行车 L2
SECOND 72.27/71.69 63.85/63.33 68.70/58.18 60.72/51.31 60.62/59.28 58.34/57.05
CenterPoint-Pillar 73.37/72.86 65.09/64.62 75.35/65.11 67.61/58.25 67.76/66.22 65.25/63.77
Part-A2-Anchor 77.05/76.51 68.47/67.97 75.24/66.87 66.18/58.62 68.60/67.36 66.13/64.93
VoxelNeXt-2D 77.94/77.47 69.68/69.25 80.24/73.47 72.23/65.88 73.33/72.20 70.66/69.56
VoxelNeXt 78.16/77.70 69.86/69.42 81.47/76.30 73.48/68.63 76.06/74.90 73.29/72.18
PV-RCNN (CenterHead) 78.00/77.50 69.43/68.98 79.21/73.03 70.42/64.72 71.46/70.27 68.95/67.79
PV-RCNN++ 79.10/78.63 70.34/69.91 80.62/74.62 71.86/66.30 73.49/72.38 70.70/69.62
PV-RCNN++ (ResNet) 79.25/78.78 70.61/70.18 81.83/76.28 73.17/68.00 73.72/72.66 71.21/70.19
DSVT-Pillar 79.44/78.97 71.24/70.81 83.00/77.22 75.45/69.95 76.70/75.70 73.83/72.86
DSVT-Voxel 79.77/79.31 71.67/71.25 83.75/78.92 76.21/71.57 77.57/76.58 74.70/73.73
PV-RCNN++ (ResNet, 2 帧) 80.17/79.70 72.14/71.70 83.48/80.42 75.54/72.61 74.63/73.75 72.35/71.50
MPPNet (4 帧) 81.54/81.06 74.07/73.61 84.56/81.94 77.20/74.67 77.15/76.50 75.01/74.38
MPPNet (16 帧) 82.74/82.28 75.41/74.96 84.69/82.25 77.43/75.06 77.28/76.66 75.13/74.52

由于 Waymo 数据集许可协议 的限制,我们无法提供上述预训练模型,但您只需使用默认配置进行训练,即可轻松获得类似性能。

NuScenes 3D目标检测基线

所有模型均使用8张GPU进行训练,并提供下载。关于BEVFusion的训练,请参阅指南

mATE mASE mAOE mAVE mAAE mAP NDS download
PointPillar-MultiHead 33.87 26.00 32.07 28.74 20.15 44.63 58.23 model-23M
SECOND-MultiHead (CBGS) 31.15 25.51 26.64 26.26 20.46 50.59 62.29 model-35M
CenterPoint-PointPillar 31.13 26.04 42.92 23.90 19.14 50.03 60.70 model-23M
CenterPoint (voxel_size=0.1) 30.11 25.55 38.28 21.94 18.87 56.03 64.54 model-34M
CenterPoint (voxel_size=0.075) 28.80 25.43 37.27 21.55 18.24 59.22 66.48 model-34M
VoxelNeXt (voxel_size=0.075) 30.11 25.23 40.57 21.69 18.56 60.53 66.65 model-31M
TransFusion-L* 27.96 25.37 29.35 27.31 18.55 64.58 69.43 model-32M
BEVFusion 28.03 25.43 30.19 26.76 18.48 67.75 70.98 model-157M

*: 使用渐退策略,即在训练的最后几个epoch中禁用数据增强。

ONCE 3D目标检测基线

所有模型均使用8张GPU进行训练。

Vehicle Pedestrian Cyclist mAP
PointRCNN 52.09 4.28 29.84 28.74
PointPillar 68.57 17.63 46.81 44.34
SECOND 71.19 26.44 58.04 51.89
PV-RCNN 77.77 23.50 59.37 53.55
CenterPoint 78.02 49.74 67.22 64.99

Argoverse2 3D目标检测基线

所有模型均使用4张GPU进行训练。

mAP download
VoxelNeXt 30.5 model-32M

其他数据集

欢迎通过提交Pull Request来支持其他数据集。

安装

请参阅INSTALL.md,了解OpenPCDet的安装方法。

快速演示

请参阅DEMO.md,获取使用预训练模型进行快速演示的指南,并在您自定义的数据或原始KITTI数据上可视化预测结果。

入门指南

请参阅GETTING_STARTED.md,了解更多关于该项目的使用方法。

许可证

OpenPCDet采用Apache 2.0许可证发布。

致谢

OpenPCDet是一个基于LiDAR的3D场景感知开源项目,支持如上所示的多种LiDAR感知模型。PCDet的部分代码借鉴了上述受支持方法的官方实现。我们感谢这些方法的提出者及其官方实现。

我们希望这个仓库能够作为一个强大而灵活的代码库,帮助研究社区加速复现已有工作和/或开发新方法。

引用

如果您在研究中使用了本项目,请考虑引用以下内容:

@misc{openpcdet2020,
    title={OpenPCDet: An Open-source Toolbox for 3D Object Detection from Point Clouds},
    author={OpenPCDet Development Team},
    howpublished = {\url{https://github.com/open-mmlab/OpenPCDet}},
    year={2020}
}

贡献

欢迎加入OpenPCDet开发团队,为本项目贡献力量。如有任何潜在贡献,请随时与我们联系。

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

156.8k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|5天前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|5天前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|1周前
插件开发框架