nice-slam

1.6k 210 中等 1 次阅读 4天前Apache-2.0开发框架其他

AI 解读由 AI 自动生成，仅供参考

NICE-SLAM 是一款基于神经隐式表示的先进 SLAM（即时定位与地图构建）系统，专为大规模室内场景设计。它核心解决了传统方法在处理大空间时难以兼顾高精度稠密几何重建与稳定相机追踪的难题。通过引入可扩展的神经编码机制，NICE-SLAM 能够利用神经网络连续地表达场景几何，从而在无需预先划分网格的情况下，生成细节丰富且一致的三维地图，并实时估算相机轨迹。

该工具的独特亮点在于其“神经隐式可扩展编码”技术，这使得它在面对复杂或广阔的室内环境（如公寓、办公楼）时，依然能保持极高的重建精度和鲁棒性，效果显著优于许多传统基于体素或点云的方案。项目代码开源，提供了完整的安装、演示及可视化工具，支持在 ScanNet、Replica 等主流数据集上复现优异结果。

NICE-SLAM 主要面向计算机视觉领域的研究人员、SLAM 算法开发者以及从事三维重建相关的工程师。对于希望探索神经渲染与 SLAM 结合前沿技术，或需要高质量室内场景数字化解决方案的专业人士而言，这是一个极具参考价值和实用性的开源项目。普通用户若对三维技术原理感兴趣，也可通过其提供的可视化演示直观感受其强大的重建能力。

使用场景

某机器人研发团队正在为大型室内仓储中心开发自主导航系统，需要构建高精度的三维环境地图并实时追踪移动机器人的位置。

没有 nice-slam 时

几何细节丢失严重：传统稀疏 SLAM 只能生成点云骨架，无法还原货架、管道等物体的连续表面，导致碰撞检测频繁失效。
大场景扩展性差：随着仓库面积扩大，内存占用呈指数级增长，长距离运行后系统极易因显存溢出而崩溃。
轨迹漂移明显：在纹理重复或光照变化的走廊区域，相机位姿估计误差累积快，机器人容易迷失方向甚至偏离预定路径。
重建与定位割裂：通常需要离线单独进行稠密重建，无法在机器人移动过程中同步输出可用于导航的稠密几何信息。

使用 nice-slam 后

获得精确稠密几何：nice-slam 利用神经隐式编码生成连续的网格模型，完美还原货架边缘与复杂结构，大幅提升避障安全性。
支持大规模场景扩展：其可扩展的编码机制允许系统在超大仓库中稳定运行，内存消耗可控，不再受限于场景尺寸。
高精度实时跟踪：即使在长走廊或弱纹理区域，nice-slam 也能保持极低的相机轨迹漂移，确保机器人定位始终精准。
建图定位一体化：实现了边移动边构建稠密地图，无需离线后处理，直接为导航规划提供实时的环境几何数据。

nice-slam 通过神经隐式表示技术，成功解决了大型室内场景中稠密建图与高精度定位难以兼得的行业难题。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU，Demo 运行需约 5GB 显存

内存

未说明

依赖

notes1. Linux 用户在创建 conda 环境前必须安装 libopenexr-dev (sudo apt-get install libopenexr-dev)。 2. 建议使用 anaconda 管理依赖环境。 3. 支持多种数据集 (ScanNet, Replica, TUM RGB-D, Co-Fusion, Azure Kinect)。 4. 若使用自定义 Azure Kinect 数据，推荐先使用 Open3D 的 Redwood 工具进行预处理以自动确定场景边界。

python通过 conda environment.yaml 定义 (版本未明确)

libopenexr-dev

anaconda

Open3D (可选，用于处理自定义数据)

快速开始

NICE-SLAM：用于SLAM的神经隐式可扩展编码

朱志涵* · 彭松友* · 维克托·拉尔森 · 徐伟伟 · 鲍虎军
崔兆鹏 · 马丁·R·奥斯瓦尔德 · 马克·波列费斯

(* 等贡献)

CVPR 2022

论文 | 视频 | 项目页面

NICE-SLAM能够在大规模室内场景中生成精确的稠密几何和相机跟踪结果。

（黑色/红色线条分别为真实轨迹/预测轨迹）

安装
可视化
演示
运行
iMAP*
评估
致谢
引用
联系方式

安装

首先，您需要确保已安装所有依赖项。最简单的方法是使用Anaconda。

您可以创建一个名为nice-slam的Anaconda环境。对于Linux系统，在创建环境之前，您需要先安装libopenexr-dev。

sudo apt-get install libopenexr-dev
    
conda env create -f environment.yaml
conda activate nice-slam

可视化NICE-SLAM结果

我们提供了可供下载的NICE-SLAM结果。您可以按照以下步骤运行我们的交互式可视化工具。

自拍公寓

要可视化我们在预告片中展示的自拍公寓结果：

bash scripts/download_vis_apartment.sh
python visualizer.py configs/Apartment/apartment.yaml --output output/vis/Apartment

中国用户注意： 如果下载速度较慢，请检查所有scripts/download_*.sh脚本，其中我们也提供了和彩云链接，供您手动下载。

ScanNet

bash scripts/download_vis_scene0000.sh
python visualizer.py configs/ScanNet/scene0000.yaml --output output/vis/scannet/scans/scene0000_00

您可以在这里找到NICE-SLAM在ScanNet其他场景上的结果。

Replica

bash scripts/download_vis_room1.sh
python visualizer.py configs/Replica/room1.yaml --output output/vis/Replica/room1

您可以在这里找到NICE-SLAM在Replica其他场景上的结果。

交互式可视化工具使用说明

黑色轨迹表示真实轨迹，红色轨迹表示NICE-SLAM的轨迹。

按Ctrl+0切换为灰度网格渲染。
按Ctrl+1切换为纹理网格渲染。
按Ctrl+9切换为法线渲染。
按L键打开或关闭光照。

命令行参数

--output $OUTPUT_FOLDER 输出文件夹（覆盖配置文件中的输出文件夹）
--input_folder $INPUT_FOLDER 输入文件夹（覆盖配置文件中的输入文件夹）
--save_rendering 将渲染视频保存到输出文件夹中的vis.mp4
--no_gt_traj 不显示真实轨迹
--imap 可视化iMAP*的结果
--vis_input_frame 打开查看器以显示输入帧。注意：您需要先下载数据集。请参阅下面的“运行”部分。

演示

在这里，您可以自行运行NICE-SLAM，处理一段包含500帧的简短ScanNet序列。

首先，按如下方式下载演示数据，数据将保存到./Datasets/Demo文件夹中。

bash scripts/download_demo.sh

接下来，运行NICE-SLAM。这需要几分钟时间，大约占用5G显存。

python -W ignore run.py configs/Demo/demo.yaml

最后，运行以下命令进行可视化。

python visualizer.py configs/Demo/demo.yaml

注意： 这仅用于演示目的，其配置/性能可能与我们的论文有所不同。

运行

自拍公寓

按如下方式下载数据，数据将保存到./Datasets/Apartment文件夹中。

bash scripts/download_apartment.sh

接下来，运行NICE-SLAM：

python -W ignore run.py configs/Apartment/apartment.yaml

ScanNet

请按照ScanNet网站上的数据下载流程操作，并使用此代码从.sens文件中提取彩色/深度帧。

[ScanNet目录结构（点击展开）]

默认情况下，DATAROOT为./Datasets。如果某个序列（sceneXXXX_XX）存储在其他位置，请在配置文件或命令行中更改input_folder路径。

  DATAROOT
  └── scannet
      └── scans
          └── scene0000_00
              └── frames
                  ├── color
                  │   ├── 0.jpg
                  │   ├── 1.jpg
                  │   ├── ...
                  │   └── ...
                  ├── depth
                  │   ├── 0.png
                  │   ├── 1.png
                  │   ├── ...
                  │   └── ...
                  ├── intrinsic
                  └── pose
                      ├── 0.txt
                      ├── 1.txt
                      ├── ...
                      └── ...

一旦数据下载并正确设置完毕，您就可以运行NICE-SLAM：

python -W ignore run.py configs/ScanNet/scene0000.yaml

Replica

按如下方式下载数据，数据将保存到 ./Datasets/Replica 文件夹中。请注意，Replica 数据由 iMAP 的作者生成，因此如果您使用该数据，请引用 iMAP。

bash scripts/download_replica.sh

然后您可以运行 NICE-SLAM：

python -W ignore run.py configs/Replica/room0.yaml

用于评估的网格文件保存为 $OUTPUT_FOLDER/mesh/final_mesh_eval_rec.ply，其中未见区域已通过所有帧剔除掉。

TUM RGB-D

按如下方式下载数据，数据将保存到 ./Datasets/TUM-RGBD 文件夹中：

bash scripts/download_tum.sh

现在运行 NICE-SLAM：

python -W ignore run.py configs/TUM_RGBD/freiburg1_desk.yaml

Co-Fusion

首先，下载数据集。此脚本应自动将数据下载并解压到 ./Datasets/CoFusion 文件夹中：

bash scripts/download_cofusion.sh

运行 NICE-SLAM：

python -W ignore run.py configs/CoFusion/room4.yaml

使用您自己的 Kinect Azure RGB-D 序列

[详细信息（点击展开）]

请先按照此指南录制序列并提取对齐的颜色和深度图像。（请记住在 azure_kinect_recorder.py 中使用 --align_depth_to_color）

默认情况下，DATAROOT 是 ./Datasets。如果某个序列 (sceneXX) 存储在其他位置，请在配置文件或命令行中更改 input_folder 路径。

  DATAROOT
  └── Own
      └── scene0
          ├── color
          │   ├── 00000.jpg
          │   ├── 00001.jpg
          │   ├── 00002.jpg
          │   ├── ...
          │   └── ...
          ├── config.json
          ├── depth
          │   ├── 00000.png
          │   ├── 00001.png
          │   ├── 00002.png
          │   ├── ...
          │   └── ...
          └── intrinsic.json

根据 configs/Own/sample.yaml 准备 .yaml 文件。根据 intrinsic.json 更改配置文件中的相机内参。您也可以使用 MATLAB 等其他工具获取深度相机的内参。
指定场景的边界。如果没有给定真实的相机位姿，我们将在第一帧上构建世界坐标系。X 轴从左到右，Y 轴从下到上，Z 轴从前到后。
在配置文件或命令行中更改 input_folder 路径和/或 output 路径。
运行 NICE-SLAM。

python -W ignore run.py configs/Own/sample.yaml

(可选但强烈推荐) 如果您不想指定场景的边界或手动更改配置文件，可以先在 Open3D 中运行 Redwood 工具，然后再运行 NICE-SLAM。这里我们提供了从录制 Azure Kinect 视频开始的完整流程。（建议使用 Ubuntu 18.04 或更高版本）

下载 Open3D 仓库。

bash scripts/download_open3d.sh

录制并提取帧。

# 指定场景 ID
sceneid=0
cd 3rdparty/Open3D-0.13.0/examples/python/reconstruction_system/
# 录制并保存为 .mkv 文件
python sensors/azure_kinect_recorder.py --align_depth_to_color --output scene$sceneid.mkv
# 提取帧
python sensors/azure_kinect_mkv_reader.py --input  scene$sceneid.mkv --output dataset/scene$sceneid

运行重建。

python run_system.py dataset/scene$sceneid/config.json --make --register --refine --integrate 
# 返回主文件夹
cd ../../../../../

准备配置文件。

python src/tools/prep_own_data.py --scene_folder 3rdparty/Open3D-0.13.0/examples/python/reconstruction_system/dataset/scene$sceneid --ouput_config configs/Own/scene$sceneid.yaml

运行 NICE-SLAM。

python -W ignore run.py configs/Own/scene$sceneid.yaml

iMAP*

我们还提供了 iMAP 的重新实现版本 (iMAP*) 供使用。如果您使用该代码，请同时引用原始 iMAP 论文和 NICE-SLAM。

使用方法

iMAP* 与 NICE-SLAM 共享大部分代码。要运行 iMAP*，只需在配置文件中使用 *_imap.yaml，并在命令行中添加 --imap 参数。例如，在 Replica room0 上运行 iMAP*：

python -W ignore run.py configs/Replica/room0_imap.yaml --imap

要使用我们的交互式可视化工具：

python visualizer.py configs/Replica/room0_imap.yaml --imap

要评估 ATE：

python src/tools/eval_ate.py configs/Replica/room0_imap.yaml --imap

[iMAP* 与原始 iMAP 之间的差异（点击展开）]

映射过程中关键帧位姿优化

我们不对 iMAP* 中选定的关键帧位姿进行优化，因为优化通常会导致性能下降。一个可能的原因是，由于这些关键帧是全局选择的，许多关键帧之间没有重叠区域，尤其是在场景较大时。而重叠是光束法平差 (BA) 的前提条件。对于 NICE-SLAM，我们只选择小窗口内的重叠关键帧进行局部 BA，这在所有场景中都表现良好。您仍然可以通过在配置文件中启用 BA 来开启 iMAP* 的映射过程中关键帧位姿优化。

主动采样

我们禁用了 iMAP* 中的主动采样，因为在我们的实验中发现它不仅无法提升性能，还会带来额外的计算开销。

对于图像主动采样，原始 iMAP 在每次迭代中会均匀地从整张图像中采样 200 个像素。然后，他们将图像划分为 8x8 的网格，并根据渲染损失计算概率分布。这意味着，如果一张图像的分辨率为 1200x680（Replica），那么在一块 150x85 的网格区域内，仅约 3 个像素会被用来计算分布。这与简单的均匀采样差别不大。因此，在映射过程中，我们对 iMAP* 使用与 NICE-SLAM 相同的像素采样策略：均匀采样，但采样的像素数量比 iMAP 论文中报告的还要多 4 倍。

对于关键帧主动采样，原始 iMAP 需要为所有关键帧渲染深度和彩色图像以获得损失分布，这非常昂贵，而且我们再次发现它并没有太大帮助。相反，正如 NICE-SLAM 所做的那样，iMAP* 会从关键帧列表中随机抽取关键帧。我们还让 iMAP* 比 NICE-SLAM 多优化 4 倍的迭代次数，但其性能仍然较差。

关键帧选择

为了公平比较，我们在 iMAP* 中采用了与 NICE-SLAM 相同的关键帧选择方法：每 50 帧向关键帧列表中添加一个关键帧。

评估

平均轨迹误差

要评估平均轨迹误差，请使用相应的配置文件运行以下命令：

python src/tools/eval_ate.py configs/Replica/room0.yaml

重建误差

为了评估重建误差，首先下载已剔除未见区域的真实标签Replica网格。

bash scripts/download_cull_replica_mesh.sh

然后运行以下命令（NICE-SLAM和iMAP*相同）。2D指标需要渲染1000张深度图像，这将花费一些时间（约9分钟）。使用 -2d 开启2D指标。使用 -3d 开启3D指标。

# 可以任意指定输出文件夹和真实标签网格，这里仅作为示例
OUTPUT_FOLDER=output/Replica/room0
GT_MESH=cull_replica_mesh/room0.ply
python src/tools/eval_recon.py --rec_mesh $OUTPUT_FOLDER/mesh/final_mesh_eval_rec.ply --gt_mesh $GT_MESH -2d -3d

我们还提供了根据相机位姿剔除网格的代码。这里以剔除Replica room0的真实标签网格为例。

python src/tools/cull_mesh.py --input_mesh Datasets/Replica/room0_mesh.ply --traj Datasets/Replica/room0/traj.txt --output_mesh cull_replica_mesh/room0.ply

[iMAP* 评估说明（点击展开）]

正如许多近期论文所讨论的，例如UNISURF/VolSDF/NeuS，在使用Marching Cubes算法时可能需要手动设置体密度阈值。此外，我们发现存在尺度差异，这可能是由于NeuS中讨论的原因所致。因此，需要进行带尺度的ICP配准。您可以使用CloudCompare中的ICP工具，并启用缩放功能，采用默认配置。

致谢

我们借鉴了一些优秀开源仓库中的代码，包括convolutional_occupancy_networks、nerf-pytorch、lietorch以及DIST-Renderer。感谢这些项目作者公开分享代码。同时，我们也感谢Edgar Sucar允许我们使用Replica数据集。

引用

如果您认为我们的代码或论文有用，请引用以下文献：

@inproceedings{Zhu2022CVPR,
  author    = {Zhu, Zihan and Peng, Songyou and Larsson, Viktor and Xu, Weiwei and Bao, Hujun and Cui, Zhaopeng and Oswald, Martin R. and Pollefeys, Marc},
  title     = {NICE-SLAM: Neural Implicit Scalable Encoding for SLAM},
  booktitle = {IEEE/CVF计算机视觉与模式识别会议（CVPR）论文集},
  year      = {2022}
}

联系方式

如有任何问题、意见或错误报告，请联系Zihan Zhu和Songyou Peng。

NICE-SLAM 快速上手指南

NICE-SLAM (Neural Implicit Scalable Encoding for SLAM) 是一个用于大规模室内场景的神经隐式 SLAM 系统，能够生成高精度的稠密几何重建和相机轨迹跟踪。

1. 环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统: Linux (推荐 Ubuntu 18.04 及以上)
包管理器: Anaconda 或 Miniconda
GPU: 支持 CUDA 的 NVIDIA 显卡 (运行 Demo 约需 5GB 显存)
系统依赖: 安装 libopenexr-dev 库

sudo apt-get update
sudo apt-get install libopenexr-dev

2. 安装步骤

使用 Conda 创建名为 nice-slam 的虚拟环境并安装依赖：

# 创建环境
conda env create -f environment.yaml

# 激活环境
conda activate nice-slam

注意：如果您在中国大陆地区下载依赖或数据集速度较慢，项目脚本中通常提供了“和彩云”等国内下载链接。请检查 scripts/ 目录下的 .sh 脚本文件，手动下载所需数据。

3. 基本使用

3.1 运行官方 Demo (ScanNet)

这是最简单的体验方式，无需自行准备数据集。

下载 Demo 数据 (自动保存至 ./Datasets/Demo)：
```
bash scripts/download_demo.sh
```

运行 NICE-SLAM：

python -W ignore run.py configs/Demo/demo.yaml

可视化结果：
```
python visualizer.py configs/Demo/demo.yaml
```
可视化操作快捷键：
- Ctrl+0: 灰色网格渲染
- Ctrl+1: 纹理网格渲染
- Ctrl+9: 法线渲染
- L: 开关光照效果
- (黑色轨迹为真值，红色轨迹为 NICE-SLAM 预测结果)

3.2 运行其他数据集

项目支持 ScanNet, Replica, TUM RGB-D, Co-Fusion 等数据集。以 Replica 为例：

下载数据：
```
bash scripts/download_replica.sh
```

运行算法：

python -W ignore run.py configs/Replica/room0.yaml

可视化：

python visualizer.py configs/Replica/room0.yaml

3.3 使用自定义 Kinect Azure 数据

如果您想使用自己的 RGB-D 序列：

录制视频并提取对齐的颜色/深度帧（参考 Open3D Azure Kinect 教程，务必使用 --align_depth_to_color）。
参照 configs/Own/sample.yaml 修改配置文件，填入正确的相机内参 (intrinsic.json) 和数据路径。
定义场景边界（若无真值位姿，系统将基于第一帧构建坐标系）。

运行：

python -W ignore run.py configs/Own/sample.yaml

提示：对于自定义数据，强烈建议先使用 Open3D 的 Redwood 系统进行预处理以自动估算场景边界和初始位姿，具体流程可参考 README 中的 "Use your own RGB-D sequence from Kinect Azure" 详细章节。

常见问题

训练时遇到 'max(): Expected reduction dim...' 错误或渲染损失过大导致中断怎么办？

NICE-SLAM 的训练时间需要多久？为什么比预期的慢？

运行时遇到 'CUDA out of memory' (显存不足) 错误如何解决？

Demo 演示程序卡在特定帧（如第 16 帧）且 GPU 不工作怎么办？

如何生成用于网格裁剪（cull_mesh）的 unseen.npy 文件？

如何在自己的 ROS RGB-D 数据序列上运行 NICE-SLAM？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架