OpenPCDet
OpenPCDet 是一个清晰、简洁且自包含的开源项目,专注于基于激光雷达(LiDAR)的 3D 物体检测。它旨在解决自动驾驶领域中从点云数据精准识别车辆、行人等目标的核心难题,为研究人员和开发者提供了一套标准化的算法实现框架。
作为 PointRCNN、PV-RCNN++、MPPNet 及 DSVT 等多个经典与前沿模型的官方代码库,OpenPCDet 不仅复现了学术界的高性能算法,还持续集成最新技术突破。其独特亮点包括支持多模态融合检测(如 BEVFusion、TransFusion-Lidar),在 NuScenes 数据集上实现了领先的检测精度;同时引入了稀疏卷积网络(如 VoxelNeXt)和时序检测能力,其中 MPPNet 曾在 Waymo 公开数据集榜单上斩获第一。此外,项目提供了完善的自定义数据集教程和 Docker 部署支持,大幅降低了环境配置与数据处理的门槛。
这款工具非常适合从事自动驾驶感知算法研究的科研人员、需要快速验证新想法的工程师,以及希望深入理解 3D 检测技术的深度学习爱好者。无论是进行学术探索还是工业级模型开发,OpenPCDet 都能提供坚实的技术底座。
使用场景
某自动驾驶初创团队正在研发城市道路 L4 级无人配送车,急需基于激光雷达点云数据实现高精度的实时 3D 目标检测,以识别车辆、行人及骑行者。
没有 OpenPCDet 时
- 算法复现成本极高:团队需从零复现 PointRCNN 或 PV-RCNN 等经典论文代码,耗时数月且难以保证与论文性能一致。
- 多传感器融合困难:面对 NuScenes 等多模态数据集,缺乏现成的 BEVFusion 或 TransFusion 架构支持,自行开发融合模块风险大、周期长。
- 长时序检测缺失:在处理 Waymo 数据集时,无法直接利用多帧时序信息(如 MPPNet),导致对遮挡目标的跟踪和检测精度不足。
- 新模型部署滞后:当业界出现 DSVT 等 SOTA 模型时,内部缺乏统一框架快速验证,错失技术迭代窗口。
使用 OpenPCDet 后
- 开箱即用的模型库:直接调用内置的 PV-RCNN++、MPPNet 等官方认证代码,几天内即可完成基线模型搭建并达到论文级精度。
- 高效的多模态支持:利用已集成的 BEVFusion 头,快速完成激光雷达与相机数据的特征融合,在 NuScenes 验证集上 NDS 指标迅速突破 70%。
- 强大的时序处理能力:启用 MPPNet 多帧训练功能,显著提升了对远距离及遮挡车辆、行人的检测召回率,mAPH 指标达到行业领先水平。
- 敏捷的技术迭代:通过更新版本即可无缝集成 DSVT 等新架构,结合 TensorRT 加速实现 27Hz 实时推理,大幅缩短研发到落地的路径。
OpenPCDet 将原本需要数月的底层算法研发工作压缩至数周,让团队能专注于场景优化而非重复造轮子。
运行环境要求
- Linux
- 必需 NVIDIA GPU
- 文档提及测试环境使用 GTX 1080Ti (11GB) 和 TITAN XP (12GB),部分新模型(如 DSVT)需配合 TensorRT 使用
- 具体 CUDA 版本未在当前片段说明,但通常需匹配 PyTorch 版本(支持 PyTorch 1.1~1.10)
未说明(建议 16GB+ 以处理大型点云数据集如 Waymo/NuScenes)

快速开始
OpenPCDet
OpenPCDet 是一个清晰、简单、自包含的开源项目,用于基于 LiDAR 的 3D 物体检测。
它同时也是 [PointRCNN]、[Part-A2-Net]、[PV-RCNN]、[Voxel R-CNN]、[PV-RCNN++] 和 [MPPNet] 的官方代码发布。
亮点:
OpenPCDet已更新至v0.6.0(2022年9月)。- 支持 PV-RCNN++ 的代码实现。
- 支持 MPPNet 的代码实现。
- 支持在 NuScenes 数据集上的多模态 3D 检测方法。
概览
更改日志
[2023-06-30] 新增: 添加对 DSVT 的支持,该模型在大规模 Waymo 开放数据集上实现了最先进的性能,并且具有实时推理速度(使用 TensorRT 时为 27HZ)。
[2023-05-13] 新增: 添加对 nuScenes 数据集上多模态 3D 物体检测模型的支持。
- 支持多模态 nuScenes 检测(请参阅 GETTING_STARTED.md 以处理数据)。
- 支持 TransFusion-Lidar 头部,该头部在 nuScenes 验证集上达到了 69.43% 的 NDS。
- 支持
BEVFusion,该模型在 BEV 空间中融合多模态信息,在 nuScenes 验证集上达到了 70.98% 的 NDS。(请参阅 guideline 了解如何使用 BEVFusion 进行训练和测试)。
[2023-04-02] 添加对 nuScenes、Waymo 和 Argoverse2 数据集上 VoxelNeXt 的支持。它是一个完全稀疏的 3D 物体检测网络,属于干净的稀疏 CNN 网络,可以直接在体素上预测 3D 物体。
[2022-09-02] 新增: 将 OpenPCDet 更新至 v0.6.0:
- 正式发布了用于时序 3D 物体检测的
MPPNet的官方代码,该模型支持长期多帧 3D 物体检测,并于 2022 年 9 月 2 日在 Waymo 开放数据集的 3D 检测排行榜 中排名第一。在验证集上,MPPNet 在车辆、行人和骑自行车者类别中分别达到了 mAPH@Level_2 的 74.96%、75.06% 和 74.52%。(请参阅 guideline 了解如何使用 MPPNet 进行训练和测试)。 - 支持 Waymo 开放数据集上的多帧训练/测试(更多关于如何处理数据的信息,请参阅 changelog)。
- 支持将训练过程中的变化细节(如损失、迭代次数、epoch)保存到文件中(仍然可以通过使用
--use_tqdm_to_record来使用之前的 tqdm 进度条)。如果您还想记录 GPU 相关信息,请使用pip install gpustat。 - 支持每 5 分钟保存一次最新模型,这样您就可以从最近的状态而不是前一个 epoch 恢复模型训练。
[2022-08-22] 添加了对 自定义数据集教程和模板 的支持。
[2022-07-05] 添加了对 3D 物体检测骨干网络 Focals Conv 的支持。
[2022-02-12] 添加了对 Docker 的支持。请参考 ./docker 中的指导说明。
[2022-02-07] 添加了对 nuScenes 数据集上 Centerpoint 模型的支持。
[2022-01-14] 添加了动态柱状体素化支持,遵循 H^23D R-CNN 中提出的实现方式,结合独特的操作和 torch_scatter 包。
[2022-01-05] 新增: 将 OpenPCDet 更新至 v0.5.2:
- 已将
PV-RCNN++的代码发布到本仓库,其性能更高、训练/推理速度更快,且内存消耗更少,优于 PV-RCNN。 - 增加了使用 Waymo 开放数据集 完整训练集训练的多个模型的性能。
- 支持 Lyft 数据集,详情请参阅此拉取请求 here。
[2021-12-09] 新增: 将 OpenPCDet 更新至 v0.5.1:
- 在 Waymo 开放数据集 上增加了 PointPillar 相关基线配置/结果。
- 支持 Pandaset 数据加载器,详情请参阅此拉取请求 here。
- 支持一组新的数据增强方法,详情请参阅此拉取请求 here。
[2021-12-01] 新增: OpenPCDet v0.5.0 发布,包含以下功能:
- 提高了所有模型在 Waymo 开放数据集 上的性能。请注意,您需要重新准备 Waymo 开放数据集的训练/验证数据以及真值数据库(请参阅 GETTING_STARTED.md)。
- 支持无锚点的 CenterHead,并添加了
CenterPoint和PV-RCNN with CenterHead的配置。 - 支持最新的 PyTorch 1.1~1.10 和 spconv 1.0~2.x,其中 spconv 2.x 可以通过 pip 轻松安装,并且比之前版本更快(请参阅 spconv 的官方更新 here)。
- 支持配置
USE_SHARED_MEMORY,以便在遇到 IO 问题时使用共享内存来加速训练过程。 - 支持更好、更快的 可视化脚本,您需要先安装 Open3D。
[2021-06-08] 添加了对基于体素的 3D 物体检测模型 Voxel R-CNN 的支持。
[2021-05-14] 添加了对单目 3D 物体检测模型 CaDDN 的支持。
[2020-11-27] 修复了错误:如果您想使用我们提供的 Waymo 评估工具(请参阅 PR),请重新准备 Waymo 数据集的验证信息(版本 1.2)。请注意,您不需要重新准备训练数据和真值数据库。
[2020-11-10] Waymo 开放数据集 已经支持了最先进的结果。目前我们提供了 SECOND、PartA2 和 PV-RCNN 在 Waymo 开放数据集上的配置和结果,通过修改其数据集配置,可以轻松支持更多模型。
[2020-08-10] 修复了错误:提供的 nuScenes 模型已更新,以修复加载错误。如果您需要使用预训练的 nuScenes 模型,请重新下载。
[2020-07-30] OpenPCDet v0.3.0 发布,包含以下功能:
- 现在支持基于点和无锚点的模型(
PointRCNN、PartA2-Free)。 - nuScenes 数据集现在也得到了强大的基线结果支持(
SECOND-MultiHead (CBGS)和PointPillar-MultiHead)。 - 效率比上一版本更高,同时支持 PyTorch 1.1~1.7 和 spconv 1.0~1.2。
[2020-07-17] 添加了简单的可视化代码和快速演示,以测试自定义数据。
[2020-06-24] OpenPCDet v0.2.0 发布,采用了全新的结构,以支持更多的模型和数据集。
[2020-03-16] OpenPCDet v0.1.0 发布。
简介
OpenPCDet 工具箱的功能是什么?
请注意,我们已将 PCDet 从 v0.1 升级到 v0.2,并引入了全新的架构,以支持多种数据集和模型。
OpenPCDet 是一个基于 PyTorch 的通用代码库,用于点云中的 3D 物体检测。它目前支持多种最先进的 3D 物体检测方法,并对单阶段和双阶段的 3D 检测框架进行了高度重构。
基于 OpenPCDet 工具箱,我们在 Waymo 开放数据集挑战赛中,在 3D 检测、3D 跟踪 和 领域自适应 三个赛道上,所有仅使用 LiDAR 的方法中均取得了第一名。与 Waymo 相关的模型也将很快发布到 OpenPCDet 中。
我们目前正在积极更新此仓库,未来将支持更多数据集和模型。我们也欢迎各位贡献代码!
OpenPCDet 设计模式
- 数据与模型分离,并采用统一的点云坐标系,便于扩展到自定义数据集:
统一的 3D 边界框定义:(x, y, z, dx, dy, dz, heading)。
灵活且清晰的模型结构,便于支持各种 3D 检测模型:
- 在同一框架内支持多种模型:
当前支持的功能
- 支持单阶段和双阶段的 3D 物体检测框架
- 支持多 GPU 和多机的分布式训练与测试
- 支持在不同尺度上使用多个头来检测不同类别
- 支持堆叠版本的集合抽象,以编码不同场景中的各种点数
- 支持自适应训练样本选择 (ATSS) 用于目标分配
- 支持 RoI 感知的点云池化和 RoI 格网点云池化
- 支持 GPU 版本的 3D IoU 计算和旋转 NMS
模型库
KITTI 3D 物体检测基线
下表展示了部分支持的方法。结果为 KITTI 数据集 val 集上的中等难度 3D 检测性能。
- 所有基于 LiDAR 的模型均使用 8 块 GTX 1080Ti GPU 进行训练,并可下载。
- 训练时间是使用 8 块 TITAN XP GPU 和 PyTorch 1.5 测量的。
| 训练时间 | Car@R11 | Pedestrian@R11 | Cyclist@R11 | 下载 | |
|---|---|---|---|---|---|
| PointPillar | ~1.2 小时 | 77.28 | 52.29 | 62.68 | model-18M |
| SECOND | ~1.7 小时 | 78.62 | 52.98 | 67.15 | model-20M |
| SECOND-IoU | - | 79.09 | 55.74 | 71.31 | model-46M |
| PointRCNN | ~3 小时 | 78.70 | 54.41 | 72.11 | model-16M |
| PointRCNN-IoU | ~3 小时 | 78.75 | 58.32 | 71.34 | model-16M |
| Part-A2-Free | ~3.8 小时 | 78.72 | 65.99 | 74.29 | model-226M |
| Part-A2-Anchor | ~4.3 小时 | 79.40 | 60.05 | 69.90 | model-244M |
| PV-RCNN | ~5 小时 | 83.61 | 57.90 | 70.47 | model-50M |
| Voxel R-CNN (Car) | ~2.2 小时 | 84.54 | - | - | model-28M |
| Focals Conv - F | ~4 小时 | 85.66 | - | - | model-30M |
| CaDDN (Mono) | ~15 小时 | 21.38 | 13.02 | 9.76 | model-774M |
Waymo 开放数据集基线
我们在 Waymo 开放数据集(WOD)上提供了 DATA_CONFIG.SAMPLED_INTERVAL 的设置,用于对部分样本进行子采样以供训练和评估。因此,即使您的 GPU 资源有限,也可以通过设置较小的 DATA_CONFIG.SAMPLED_INTERVAL 来体验 WOD 数据集。
默认情况下,所有模型均使用全部训练样本中 20% 的数据(约 3.2 万帧) 的 单帧 数据,在 8 张 GTX 1080Ti 显卡上进行训练。此处每个单元格的结果均为按照 Waymo 官方评估指标在 整个 验证集(版本 1.2)上计算得到的 mAP/mAPH。
| 性能@(使用 20% 数据训练) | 车辆 L1 | 车辆 L2 | 行人 L1 | 行人 L2 | 自行车 L1 | 自行车 L2 |
|---|---|---|---|---|---|---|
| SECOND | 70.96/70.34 | 62.58/62.02 | 65.23/54.24 | 57.22/47.49 | 57.13/55.62 | 54.97/53.53 |
| PointPillar | 70.43/69.83 | 62.18/61.64 | 66.21/46.32 | 58.18/40.64 | 55.26/51.75 | 53.18/49.80 |
| CenterPoint-Pillar | 70.50/69.96 | 62.18/61.69 | 73.11/61.97 | 65.06/55.00 | 65.44/63.85 | 62.98/61.46 |
| CenterPoint-Dynamic-Pillar | 70.46/69.93 | 62.06/61.58 | 73.92/63.35 | 65.91/56.33 | 66.24/64.69 | 63.73/62.24 |
| CenterPoint | 71.33/70.76 | 63.16/62.65 | 72.09/65.49 | 64.27/58.23 | 68.68/67.39 | 66.11/64.87 |
| CenterPoint (ResNet) | 72.76/72.23 | 64.91/64.42 | 74.19/67.96 | 66.03/60.34 | 71.04/69.79 | 68.49/67.28 |
| Part-A2-Anchor | 74.66/74.12 | 65.82/65.32 | 71.71/62.24 | 62.46/54.06 | 66.53/65.18 | 64.05/62.75 |
| PV-RCNN (AnchorHead) | 75.41/74.74 | 67.44/66.80 | 71.98/61.24 | 63.70/53.95 | 65.88/64.25 | 63.39/61.82 |
| PV-RCNN (CenterHead) | 75.95/75.43 | 68.02/67.54 | 75.94/71.40 | 67.66/61.62 | 70.18/68.98 | 67.73/66.57 |
| Voxel R-CNN (CenterHead)-Dynamic-Voxel | 76.13/75.66 | 68.18/67.74 | 78.20/71.98 | 69.29/63.59 | 70.75/69.68 | 68.25/67.21 |
| PV-RCNN++ | 77.82/77.32 | 69.07/68.62 | 77.99/71.36 | 69.92/63.74 | 71.80/70.71 | 69.31/68.26 |
| PV-RCNN++ (ResNet) | 77.61/77.14 | 69.18/68.75 | 79.42/73.31 | 70.88/65.21 | 72.50/71.39 | 69.84/68.77 |
在此我们还提供了若干模型在完整训练集上训练的性能结果(参考 [PV-RCNN++] 论文:https://arxiv.org/abs/2102.00463):
| 性能@(使用 100% 数据训练) | 车辆 L1 | 车辆 L2 | 行人 L1 | 行人 L2 | 自行车 L1 | 自行车 L2 |
|---|---|---|---|---|---|---|
| SECOND | 72.27/71.69 | 63.85/63.33 | 68.70/58.18 | 60.72/51.31 | 60.62/59.28 | 58.34/57.05 |
| CenterPoint-Pillar | 73.37/72.86 | 65.09/64.62 | 75.35/65.11 | 67.61/58.25 | 67.76/66.22 | 65.25/63.77 |
| Part-A2-Anchor | 77.05/76.51 | 68.47/67.97 | 75.24/66.87 | 66.18/58.62 | 68.60/67.36 | 66.13/64.93 |
| VoxelNeXt-2D | 77.94/77.47 | 69.68/69.25 | 80.24/73.47 | 72.23/65.88 | 73.33/72.20 | 70.66/69.56 |
| VoxelNeXt | 78.16/77.70 | 69.86/69.42 | 81.47/76.30 | 73.48/68.63 | 76.06/74.90 | 73.29/72.18 |
| PV-RCNN (CenterHead) | 78.00/77.50 | 69.43/68.98 | 79.21/73.03 | 70.42/64.72 | 71.46/70.27 | 68.95/67.79 |
| PV-RCNN++ | 79.10/78.63 | 70.34/69.91 | 80.62/74.62 | 71.86/66.30 | 73.49/72.38 | 70.70/69.62 |
| PV-RCNN++ (ResNet) | 79.25/78.78 | 70.61/70.18 | 81.83/76.28 | 73.17/68.00 | 73.72/72.66 | 71.21/70.19 |
| DSVT-Pillar | 79.44/78.97 | 71.24/70.81 | 83.00/77.22 | 75.45/69.95 | 76.70/75.70 | 73.83/72.86 |
| DSVT-Voxel | 79.77/79.31 | 71.67/71.25 | 83.75/78.92 | 76.21/71.57 | 77.57/76.58 | 74.70/73.73 |
| PV-RCNN++ (ResNet, 2 帧) | 80.17/79.70 | 72.14/71.70 | 83.48/80.42 | 75.54/72.61 | 74.63/73.75 | 72.35/71.50 |
| MPPNet (4 帧) | 81.54/81.06 | 74.07/73.61 | 84.56/81.94 | 77.20/74.67 | 77.15/76.50 | 75.01/74.38 |
| MPPNet (16 帧) | 82.74/82.28 | 75.41/74.96 | 84.69/82.25 | 77.43/75.06 | 77.28/76.66 | 75.13/74.52 |
由于 Waymo 数据集许可协议 的限制,我们无法提供上述预训练模型,但您只需使用默认配置进行训练,即可轻松获得类似性能。
NuScenes 3D目标检测基线
所有模型均使用8张GPU进行训练,并提供下载。关于BEVFusion的训练,请参阅指南。
| mATE | mASE | mAOE | mAVE | mAAE | mAP | NDS | download | |
|---|---|---|---|---|---|---|---|---|
| PointPillar-MultiHead | 33.87 | 26.00 | 32.07 | 28.74 | 20.15 | 44.63 | 58.23 | model-23M |
| SECOND-MultiHead (CBGS) | 31.15 | 25.51 | 26.64 | 26.26 | 20.46 | 50.59 | 62.29 | model-35M |
| CenterPoint-PointPillar | 31.13 | 26.04 | 42.92 | 23.90 | 19.14 | 50.03 | 60.70 | model-23M |
| CenterPoint (voxel_size=0.1) | 30.11 | 25.55 | 38.28 | 21.94 | 18.87 | 56.03 | 64.54 | model-34M |
| CenterPoint (voxel_size=0.075) | 28.80 | 25.43 | 37.27 | 21.55 | 18.24 | 59.22 | 66.48 | model-34M |
| VoxelNeXt (voxel_size=0.075) | 30.11 | 25.23 | 40.57 | 21.69 | 18.56 | 60.53 | 66.65 | model-31M |
| TransFusion-L* | 27.96 | 25.37 | 29.35 | 27.31 | 18.55 | 64.58 | 69.43 | model-32M |
| BEVFusion | 28.03 | 25.43 | 30.19 | 26.76 | 18.48 | 67.75 | 70.98 | model-157M |
*: 使用渐退策略,即在训练的最后几个epoch中禁用数据增强。
ONCE 3D目标检测基线
所有模型均使用8张GPU进行训练。
| Vehicle | Pedestrian | Cyclist | mAP | |
|---|---|---|---|---|
| PointRCNN | 52.09 | 4.28 | 29.84 | 28.74 |
| PointPillar | 68.57 | 17.63 | 46.81 | 44.34 |
| SECOND | 71.19 | 26.44 | 58.04 | 51.89 |
| PV-RCNN | 77.77 | 23.50 | 59.37 | 53.55 |
| CenterPoint | 78.02 | 49.74 | 67.22 | 64.99 |
Argoverse2 3D目标检测基线
所有模型均使用4张GPU进行训练。
| mAP | download | |
|---|---|---|
| VoxelNeXt | 30.5 | model-32M |
其他数据集
欢迎通过提交Pull Request来支持其他数据集。
安装
请参阅INSTALL.md,了解OpenPCDet的安装方法。
快速演示
请参阅DEMO.md,获取使用预训练模型进行快速演示的指南,并在您自定义的数据或原始KITTI数据上可视化预测结果。
入门指南
请参阅GETTING_STARTED.md,了解更多关于该项目的使用方法。
许可证
OpenPCDet采用Apache 2.0许可证发布。
致谢
OpenPCDet是一个基于LiDAR的3D场景感知开源项目,支持如上所示的多种LiDAR感知模型。PCDet的部分代码借鉴了上述受支持方法的官方实现。我们感谢这些方法的提出者及其官方实现。
我们希望这个仓库能够作为一个强大而灵活的代码库,帮助研究社区加速复现已有工作和/或开发新方法。
引用
如果您在研究中使用了本项目,请考虑引用以下内容:
@misc{openpcdet2020,
title={OpenPCDet: An Open-source Toolbox for 3D Object Detection from Point Clouds},
author={OpenPCDet Development Team},
howpublished = {\url{https://github.com/open-mmlab/OpenPCDet}},
year={2020}
}
贡献
欢迎加入OpenPCDet开发团队,为本项目贡献力量。如有任何潜在贡献,请随时与我们联系。
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器