deep-learning-localization-mapping

675 130 困难 1 次阅读 1个月前NOASSERTION开发框架

AI 解读由 AI 自动生成，仅供参考

deep-learning-localization-mapping 是一个专注于深度学习在定位与建图领域应用的开源资源库。它系统性地收集并整理了基于深度学习的各类定位模型与算法，旨在解决机器人、自动驾驶及增强现实系统中核心的“我在哪”和“周围环境是什么样”的感知难题。

传统定位方法往往依赖复杂的几何计算且对环境变化敏感，而该资源库通过汇聚前沿的深度学习方案，提供了从里程计估计（涵盖视觉、惯性、激光雷达等多传感器融合）、地图构建（几何与语义地图），到全局定位及同步定位与建图（SLAM）的全方位技术参考。其独特亮点在于不仅收录了具体的模型代码与论文链接，还关联了团队发表在 IEEE TNNLS 等顶级期刊上的权威综述文章，为理解空间机器智能的发展脉络提供了坚实的理论支撑。

该资源库特别适合人工智能研究人员、机器人算法工程师以及相关领域的开发者使用。无论是希望快速复现经典算法、对比不同模型性能，还是寻求最新的研究灵感，deep-learning-localization-mapping 都能提供一个结构清晰、内容详实的技术入口，帮助用户高效探索空间智能的前沿技术。

使用场景

某自动驾驶初创团队正在开发一款适用于地下停车场的自动泊车机器人，该环境缺乏 GPS 信号且光照条件复杂多变。

没有 deep-learning-localization-mapping 时

定位频繁丢失：传统几何算法在停车场昏暗灯光或纹理重复的墙壁前极易失效，导致机器人无法判断自身位置。
开发周期漫长：工程师需手动调整大量参数以适应不同楼层的结构特征，每次场景变更都需重新标定，耗时数周。
误差累积严重：仅依赖惯性导航或基础视觉里程计，长距离行驶后累积误差过大，无法精准停入狭窄车位。
泛化能力差：针对特定停车场训练的模型，一旦部署到地面标线模糊或布局不同的新场地，性能急剧下降。

使用 deep-learning-localization-mapping 后

鲁棒性显著提升：利用库中提供的 DeepVO 等端到端视觉里程计模型，机器人在低光照和无纹理区域仍能保持稳定的位姿估计。
快速落地部署：直接复用经过验证的深度学习方法（如语义建图或闭环检测），将适配新场地的时间从数周缩短至几天。
精度大幅优化：结合深度学习的全局优化与不确定性估计模块，有效抑制了长距离运行中的漂移，实现厘米级停车精度。
强泛化适应性：基于大规模数据预训练的模型具备更强的特征提取能力，能轻松应对不同停车场的结构变化和地面磨损情况。

deep-learning-localization-mapping 通过提供成熟的深度学习定位与建图方案，帮助团队突破了传统算法在极端环境下的瓶颈，加速了自动泊车产品的商业化落地。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库是一个基于深度学习的定位与建图（Localization and Mapping）方法的综述集合，主要提供相关论文列表和链接，而非一个可直接运行的单一软件工具。因此，README 中未包含具体的运行环境、依赖库或硬件需求。用户需根据列表中具体选择的模型（如 DeepVO, VINet, IONet 等）前往其对应的代码仓库查看特定的环境配置要求。部分列出的模型提供了 TensorFlow (TF)、PyTorch (PT)、Caffe 或 ROS 的代码链接。

python未说明

deep-learning-localization-mapping hero image

快速开始

基于深度学习的定位与建图

本仓库汇集了基于深度学习的定位与建图方法。关于视觉定位与建图的深度学习综述，请参阅以下论文：

基于深度学习的视觉定位与建图：综述

Changhao Chen、Bing Wang、Chris Xiaoxuan Lu、Niki Trigoni 和 Andrew Markham

IEEE神经网络与学习系统汇刊 [PDF]

关于惯性定位的深度学习综述，请参阅以下论文：

基于深度学习的惯性定位：综述

Changhao Chen、Xianfei Pan

IEEE智能交通系统汇刊 [PDF]

旧版本：

基于深度学习的定位与建图综述：迈向空间机器智能时代

Changhao Chen、Bing Wang、Chris Xiaoxuan Lu、Niki Trigoni 和 Andrew Markham

arXiv:2006.12567 [PDF]

新闻

更新：2020年6月22日

我们发布了综述论文。

更新：2023年8月30日

我们的综述“基于深度学习的视觉定位与建图：综述”被 IEEE TNNLS 接受。

更新：2024年3月13日

我们的综述“基于深度学习的惯性定位：综述”被 IEEE TITS 接受。

待办事项

如果您觉得本仓库有用，请引用我们的论文：

@misc{chen2020survey,
title={基于深度学习的定位与建图综述：迈向空间机器智能时代},
author={Changhao Chen、Bing Wang、Chris Xiaoxuan Lu、Niki Trigoni 和 Andrew Markham},
year={2020},
eprint={2006.12567},
archivePrefix={arXiv},
primaryClass={cs.CV}
}

按主题分类

*表格中的日期表示发表日期（例如会议日期）。

惯性里程计估计

视觉里程计

模型	日期	发表时间	论文	代码
Konda 等人	2015	VISAPP	使用卷积网络学习视觉里程计
Costante 等人	2016	RA-L	探索使用 CNN 进行帧间自运动估计的表示学习
Backprop KF	2016	NeurIPS	Backprop KF：学习判别式确定性状态估计器
DeepVO	2017	ICRA	DeepVO：迈向基于深度循环卷积神经网络的端到端视觉里程计
SfmLearner	2017	CVPR	从视频中无监督地学习深度和自运动	TF PT
Yin 等人	2017	ICCV	利用深度卷积神经场估计的深度进行单目视觉里程计的比例恢复
UnDeepVO	2018	ICRA	UnDeepVO：通过无监督深度学习实现单目视觉里程计
Barnes 等人	2018	ICRA	分心驱动：用于城市环境中鲁棒单目视觉里程计的自监督干扰物学习
GeoNet	2018	CVPR	GeoNet：无监督学习密集深度、光流和相机位姿	TF
Zhan 等人	2018	CVPR	利用深度特征重建进行单目深度估计和视觉里程计的无监督学习	Caffe
DPF	2018	RSS	可微粒子滤波器：带有算法先验的端到端学习	TF
Yang 等人	2018	ECCV	深度虚拟立体里程计：利用深度预测改进单目直接稀疏里程计
Zhao 等人	2018	IROS	通过密集 3D 流学习密集 3D 映射来学习单目视觉里程计
Turan 等人	2018	IROS	用于内窥镜胶囊机器人的无监督里程计和深度学习
Struct2Depth	2019	AAAI	无需传感器的深度预测：利用结构进行单目视频的无监督学习	TF
Saputra 等人	2019	ICRA	通过几何感知课程学习来学习单目视觉里程计
GANVO	2019	ICRA	GANVO：使用生成对抗网络进行无监督的深度单目视觉里程计和深度估计
CNN-SVO	2019	ICRA	CNN-SVO：利用单幅图像深度预测改进半直接视觉里程计中的建图	ROS
Li 等人	2019	ICRA	用于无监督单目视觉里程计的姿态图优化
Xue 等人	2019	CVPR	超越跟踪：为深度视觉里程计选择记忆并细化姿态
Wang 等人	2019	CVPR	用于（无）监督学习单目视频视觉里程计和深度的循环神经网络
Li 等人	2019	ICCV	用于自监督深度视觉里程计的序列对抗学习
Saputra 等人	2019	ICCV	从深度姿态回归网络中提炼知识
Gordon 等人	2019	ICCV	来自野外视频的深度：从未知相机中进行无监督单目深度学习	TF
Koumis 等人	2019	IROS	使用 3D 卷积网络从视频中估计度量尺度的视觉里程计
Bian 等人	2019	NeurIPS	从单目视频中无监督地学习尺度一致的深度和自运动	PT
D3VO	2020	CVPR	D3VO：用于单目视觉里程计的深度、姿态和不确定性
Jiang 等人	2020	CVPR	通过双层优化进行光流和自运动的联合无监督学习

视觉惯性里程计

模型	日期	发表时间	论文
VINet	2017	AAAI	VINet：将视觉惯性里程计视为序列到序列的学习问题
VIOLearner	2019	TPAMI	用于 RGB-D 图像的在线误差校正的无监督深度视觉惯性里程计
SelectFusion	2019	CVPR	用于神经视觉惯性里程计的选择性传感器融合
DeepVIO	2019	IROS	DeepVIO：利用 3D 几何约束进行单目视觉惯性里程计的自监督深度学习

惯性里程计

模型	日期	发表会议/期刊	论文	代码
IONet	2018	AAAI	IONet: 学习克服惯性里程计中的漂移问题
RIDI	2018	ECCV	RIDI: 鲁棒的IMU双重积分	Py
Wagstaff等	2018	IPIN	基于LSTM的零速度检测用于鲁棒惯性导航	PT
Cortes等	2019	MLSP	基于深度学习的速度估计用于约束智能手机上的捷联惯性导航
MotionTransformer	2019	AAAI	MotionTransformer: 在不同领域间迁移神经网络惯性跟踪
AbolDeepIO	2019	TITS	AbolDeepIO: 一种用于自动驾驶车辆的新型深度惯性里程计网络
Brossard等	2019	ICRA	学习轮式里程计和IMU误差以实现定位
OriNet	2019	RA-L	OriNet: 使用单个特定IMU进行鲁棒的三维姿态估计	PT
L-IONet	2020	IoT-J	基于深度学习的行人惯性导航：方法、数据集及设备端推理

激光雷达里程计

模型	日期	发表会议/期刊	论文
Velas等	2018	ICARSC	使用Velodyne激光雷达的CNN辅助IMU里程计估计
LO-Net	2019	CVPR	LO-Net: 深度实时激光雷达里程计
DeepPCO	2019	IROS	DeepPCO: 通过深度并行神经网络实现端到端点云里程计
Valente等	2019	IROS	用于实时里程计估计的深度传感器融合

地图构建

几何地图构建

深度表示

在视觉里程计中，已经讨论了深度与自运动的联合学习。虽然这些方法能够生成深度表示，但我们在此不将其纳入。

模型	日期	发表期刊	论文
Eigen 等人	2014	NeurIPS	使用多尺度深度网络从单张图像预测深度图
Liu 等人	2015	TPAMI	利用深度卷积神经场从单目图像学习深度
Garg 等人	2016	ECCV	无监督单视图深度估计 CNN：借助几何信息实现
Demon	2017	CVPR	Demon：用于学习单目立体视觉的深度与运动网络
Godard 等人	2017	CVPR	基于左右一致性约束的无监督单目深度估计
Wang 等人	2018	CVPR	利用直接法从单目视频中学习深度

体素表示

模型	日期	发表期刊	论文
SurfaceNet	2017	CVPR	SurfaceNet：一种用于多视图立体匹配的端到端三维神经网络
Dai 等人	2017	CVPR	利用 3D 编码器-预测器 CNN 和形状合成进行形状补全
Hane 等人	2017	3DV	用于三维物体重建的分层表面预测
OctNetFusion	2017	3DV	Octnetfusion：从数据中学习深度融合
OGN	2017	ICCV	八叉树生成网络：用于高分辨率三维输出的高效卷积架构
Kar 等人	2017	NeurIPS	学习多视图立体视觉机器
RayNet	2018	CVPR	RayNet：利用射线势能学习体积化三维重建

点云表示

模型	日期	发表期刊	论文	代码
Fan 等人	2017	CVPR	用于从单张图像重建三维物体的点云生成网络

网格表示

模型	日期	发表期刊	论文
Ladicky 等人	2017	ICCV	利用回归从点云生成网格
Mukasa 等人	2017	ICCVW	基于 CNN 深度预测和稀疏单目 SLAM 的三维场景网格
Wang 等人	2018	ECCV	Pixel2mesh：从单张 RGB 图像生成三维网格模型
Groueix 等人	2018	CVPR	AtlasNet：一种基于纸浆工艺的学习三维表面生成方法
Scan2Mesh	2019	CVPR	Scan2mesh：从非结构化距离扫描到三维网格
Bloesch 等人	2019	ICCV	为密集视觉 SLAM 学习网格

语义地图构建

模型	日期	发表期刊	论文
SemanticFusion	2017	ICRA	Semanticfusion：利用卷积神经网络进行稠密三维语义地图构建
DA-RNN	2017	RSS	DA-RNN：基于数据关联循环神经网络的语义地图构建
Ma 等人	2017	IROS	利用 RGB-D 相机进行一致语义地图构建的多视图深度学习
Sunderhauf 等人	2017	IROS	面向对象的语义地图构建以生成有意义的地图
Fusion++	2018	3DV	Fusion++：体积化的对象级 SLAM
Grinvald 等人	2019	RA-L	体积化的实例感知语义地图构建及三维物体发现
PanopticFusion	2019	IROS	Panopticfusion：在物质与事物层面进行在线体积化语义地图构建

通用地图构建

神经场景表示、任务驱动表示

模型	日期	发表期刊	论文
Mirowski 等人	2017	ICLR	学习在复杂环境中导航
Zhu 等人	2017	ICRA	利用深度强化学习在室内场景中进行目标导向的视觉导航
Eslami 等人	2018	Science	神经场景表示与渲染
CodeSLAM	2018	CVPR	CodeSLAM — 学习用于密集视觉 SLAM 的紧凑可优化表示
Mirowski 等人	2018	NeurIPS	学习在没有地图的情况下于城市中导航
SRN	2019	NeurIPS	场景表示网络：连续的、具有三维结构感知能力的神经场景表示
Tobin 等人	2019	NeurIPS	几何感知神经渲染
Lim 等人	2019	NeurIPS	神经多感官场景推理

全球定位

2D到2D定位

基于隐式地图的定位

模型	日期	发表	论文
PoseNet	2015	ICCV	PoseNet: 一种用于实时6自由度相机重定位的卷积网络
贝叶斯PoseNet	2016	ICRA	在深度学习中为相机重定位建模不确定性
BranchNet	2017	ICRA	深入研究用于相机重定位的卷积神经网络
VidLoc	2017	CVPR	VidLoc: 一种用于6自由度视频片段重定位的深度时空模型
几何PoseNet	2017	CVPR	用于深度学习相机位姿回归的几何损失函数
Naseer等	2017	IROS	基于单目相机的户外环境中6自由度全局定位的深度回归
LSTM-PoseNet	2017	ICCV	利用LSTM进行结构化特征相关性的基于图像的定位
Hourglass PoseNet	2017	ICCV研讨会	使用Hourglass网络进行基于图像的定位
VLocNet	2018	ICRA	用于视觉定位和里程计的深度辅助学习
MapNet	2018	CVPR	面向相机定位的几何感知地图学习
SPP-Net	2018	BMVC	用于绝对位姿回归和图像合成的合成视图生成
GPoseNet	2018	BMVC	一种用于相机重定位的混合概率模型
VLocNet++	2018	RA-L	Vlocnet++：用于语义视觉定位和里程计的深度多任务学习
Xue等	2019	ICCV	局部支持全局：通过序列增强实现的深度相机重定位
Huang等	2019	ICCV	先验引导的丢弃法，用于动态环境中的鲁棒视觉定位
Bui等	2019	ICCVW	用于相机位姿回归和精炼的对抗网络
GN-Net	2020	RA-L	GN-Net：用于多天气条件重定位的高斯-牛顿损失
AtLoc	2020	AAAI	AtLoc：注意力引导的相机定位

基于显式地图的定位

模型	日期	发表	论文
Laskar等	2017	ICCV研讨会	利用卷积神经网络计算两两相对位姿进行相机重定位
DELS-3D	2018	CVPR	Dels-3d：结合3D语义地图的深度定位与分割
AnchorNet	2018	BMVC	通过发现锚点改进视觉重定位
RelocNet	2018	ECCV	RelocNet：使用神经网络进行连续度量学习的重定位
CamNet	2019	ICCV	Camnet：用于相机重定位的粗粒度到细粒度检索

2D到3D定位

描述子匹配

模型	日期	发表	论文
NetVLAD	2016	CVPR	Netvlad：用于弱监督地点识别的CNN架构
DELF	2017	CVPR	具有注意力机制的深度局部特征的大规模图像检索
Schonberger等.	2018年6月	CVPR	语义视觉定位
SuperPoint	2018	CVPRW	Superpoint：自监督的兴趣点检测和描述
NC-Net	2018	NeurIPS	邻域一致性网络
Sarlin等	2019年6月	CVPR	从粗到细：大规模下的鲁棒分层定位
2D3D-MatchNet	2019	ICRA	2d3d-matchnet：学习跨2D图像和3D点云匹配关键点
D2-Net	2019	CVPR	D2-net：一种可训练的CNN，用于局部特征的联合描述与检测
Speciale等	2019	CVPR	保护隐私的基于图像的定位
OOI-Net	2019	CVPR	通过学习感兴趣对象的密集匹配回归进行视觉定位
Camposeco等	2019	CVPR	场景压缩用于视觉定位
Cheng等	2019	CVPR	用于内存高效图像定位的级联并行滤波
Taira等	2019	CVPR	这是正确的地方吗？用于室内视觉定位的几何-语义位姿验证
R2D2	2019	NeurIPS	R2d2：可重复且可靠的检测器和描述符
ASLFeat	2020	CVPR	Aslfeat：学习精确形状和定位的局部特征

场景坐标回归

模型	日期	发表时间	论文
DSAC	2017/07	CVPR	DSAC - 可微分RANSAC用于相机重定位
DSAC++	2018/06	CVPR	少即是多——基于3D表面回归的6D相机定位
Dense SCR	2018/07	RSS	全帧场景坐标回归用于基于图像的定位
DSAC++ angle	2018/09	ECCV	基于角度重投影损失的场景坐标回归用于相机重定位
Confidence SCR	2018/09	BMVC	基于图像的定位中场景坐标与对应关系学习
ESAC	2019/10	ICCV	专家采样一致性算法在相机重定位中的应用
NG-RANSAC	2019/06	CVPR	神经引导的RANSAC：学习从何处采样模型假设
SANet	2019/10	ICCV	SANet：用于相机定位的场景无关网络
HSC-Net	2020	CVPR	用于视觉定位的层次化场景坐标分类与回归
KF-Net	2020	CVPR	Kfnet：利用卡尔曼滤波学习时序相机重定位

3D到3D定位

模型	日期	发表时间	论文
LocNet	2018	IV	Locnet：移动车辆在3D点云中的全局定位
PointNetVLAD	2018	CVPR	Pointnetvlad：基于深度点云的大规模地点识别检索
Barsan等	2018	CoRL	使用激光雷达强度图进行定位的学习
L3-Net	2019	CVPR	L3-net：面向自动驾驶的基于学习的激光雷达定位
PCAN	2019	CVPR	PCAN：利用上下文信息学习点云检索的3D注意力图
DeepICP	2019	CVPR	Deepicp：用于3D点云配准的端到端深度神经网络
DCP	2019	CVPR	深度最邻近点：学习用于点云配准的表示
D3Feat	2020	CVPR	D3feat：密集检测与3D局部特征描述的联合学习

SLAM

局部优化

模型	日期	发表时间	论文	代码
LS-Net	2018	ECCV	学习求解单目立体视觉的非线性最小二乘问题
BA-Net	2019	ICLR	BA-Net：密集束调整网络

全局优化

模型	日期	发表时间	论文
CNN-SLAM	2017	CVPR	CNN-SLAM：具有学习深度预测的实时稠密单目SLAM
Li等	2019	ICRA	用于无监督单目视觉里程计的姿态图优化
DeepTAM	2020	IJCV	DeepTAM：基于卷积神经网络的深度跟踪与建图
DeepFactors	2020	RA-L	DeepFactors：实时概率稠密单目SLAM

关键帧与回环检测

模型	日期	发表时间	论文
Sunderhauf等	2015	RSS	使用卷积网络地标进行地点识别：视角鲁棒、条件鲁棒、无需训练
Gao等	2017	AR	使用深度神经网络为视觉SLAM系统检测回环的无监督学习
Huang等	2018	RSS	轻量级无监督深度回环检测
Sheng等	2019	ICCV	面向单目深度SLAM的关键帧检测与视觉里程计的无监督协同学习
Memon等	2020	RAS	使用有监督和无监督深度神经网络进行单目SLAM系统的回环检测

不确定性估计

模型	日期	发表时间	论文
Kendall等	2016	ICRA	在深度学习中对相机重定位的不确定性建模
Kendall等	2017	NeurIPS	计算机视觉中贝叶斯深度学习需要哪些不确定性？
VidLoc	2017	CVPR	VidLoc：用于6自由度视频片段重定位的深度时空模型
Wang等	2018	IJRR	通过深度神经网络实现端到端、序列到序列的概率视觉里程计
Chen等	2019	TMC	基于低成本惯性测量单元的深度神经网络惯性里程计

本列表由牛津大学计算机科学系的Changhao Chen和Bing Wang维护。

如有任何问题或希望在此列表中添加您的工作，请联系他们（邮箱：changhao.chen@cs.ox.ac.uk；bing.wang@cs.ox.ac.uk）。

deep-learning-localization-mapping 快速上手指南

deep-learning-localization-mapping 并非一个单一的可执行软件包，而是一个深度学习定位与建图（Localization and Mapping）领域的开源论文与代码库合集。该项目由牛津大学团队维护，旨在梳理和汇总基于深度学习的视觉里程计、惯性导航、建图及 SLAM 等相关研究成果。

本指南将帮助开发者快速理解项目结构，并找到所需算法的代码入口进行环境搭建与使用。

1. 环境准备

由于本项目包含多种不同架构的模型（涵盖 TensorFlow, PyTorch, Caffe, ROS 等），不存在统一的全局依赖。您需要根据具体想复现的算法模型来准备环境。

通用系统要求

操作系统: Linux (推荐 Ubuntu 18.04/20.04) 或 macOS
硬件: NVIDIA GPU (推荐 CUDA 10.0+ 以加速深度学习训练/推理)
基础工具: Git, Python 3.6+, pip 或 conda

前置依赖建议

在克隆仓库后，建议先安装通用的深度学习基础环境。国内开发者推荐使用清华源或阿里源加速包下载。

# 创建独立的 Conda 环境 (推荐)
conda create -n dl_loc_map python=3.8
conda activate dl_loc_map

# 安装基础深度学习框架 (根据目标模型选择其一)
# 方案 A: PyTorch (目前最主流，多数新模型支持)
pip install torch torchvision torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple

# 方案 B: TensorFlow (部分旧模型如 GeoNet, Struct2Depth 需要)
pip install tensorflow -i https://pypi.tuna.tsinghua.edu.cn/simple

2. 安装步骤

该项目本身是一个索引库，安装过程实质是获取特定算法的代码仓库。

第一步：克隆主仓库

获取完整的论文列表和分类索引。

git clone https://github.com/ChanghaoChen/deep-learning-localization-mapping.git
cd deep-learning-localization-mapping

第二步：定位并获取目标算法代码

浏览项目目录或查看 README 中的表格，找到您需要的模型（例如 SfmLearner 或 DeepVO）。

情况 A：表格中直接提供了代码链接 直接点击 README 表格中 "Code" 列的链接（通常指向 GitHub），然后克隆该特定模型的仓库。

示例：以 SfmLearner (PyTorch 版本) 为例
```
# 离开主目录，在工作区克隆具体算法
cd ..
git clone https://github.com/ClementPinard/SfmLearner-Pytorch.git
cd SfmLearner-Pytorch
```
情况 B：表格中无代码链接 若 "Code" 列为空，需前往对应论文的官方主页或搜索作者发布的实现代码。主仓库主要提供文献综述功能。

第三步：安装具体算法依赖

进入具体算法的文件夹后，按照其自带的 README.md 或 requirements.txt 安装专属依赖。

# 进入具体模型目录 (以 SfmLearner 为例)
cd SfmLearner-Pytorch

# 安装该模型特定依赖 (国内源加速)
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 基本使用

使用方式完全取决于您选择的具体算法。以下以经典的无监督单目视觉里程计模型 SfmLearner 为例，展示典型的运行流程。

数据准备

大多数定位与建图模型需要标准数据集（如 KITTI, Cityscapes, Make3D）。

下载数据集并放置在指定目录（通常为 data/ 或 dataset/）。
部分模型需要提供数据列表文件（.txt），需参考具体模型的脚本生成。

运行示例

以下是基于 PyTorch 版本的 SfmLearner 的典型命令（请在具体模型目录下执行）：

1. 训练模型 (Training)

python train.py \
  --dataset-dir /path/to/kitti_dataset \
  --log-output \
  --batch-size 4 \
  --epochs 200

2. 测试/推理 (Inference) 使用预训练权重或训练好的模型进行位姿估计或深度图生成。

python test_inference.py \
  --pretrained /path/to/checkpoint.pth \
  --dataset-dir /path/to/test_sequence \
  --output-dir ./results

3. 结果可视化 生成的深度图或轨迹文件通常位于 ./results 目录，可使用 MATLAB、Python (matplotlib) 或专用评估脚本（如 evaluate_kitti.py）进行误差分析。

提示：对于列表中其他模型（如 DeepVO, IONet, LO-Net 等），请务必查阅其各自仓库的 README 文件，因为输入数据格式和命令行参数会有所不同。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2周前

Agent开发框架图像

n8n

n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。

★ 184.7k|★★☆☆☆|今天

数据工具开发框架Agent

AutoGPT

AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台，核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点，让用户只需设定目标，AI 即可自主规划步骤、调用工具并持续运行直至完成任务。无论是开发者、研究人员，还是希望提升工作效率的普通用户，都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体；研究人员能基于开源架构探索多智能体协作机制；而非技术背景用户也可直接选用预置的智能体模板，立即投入实际工作场景。 AutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑，每个块负责单一动作，灵活且易于调试。同时，平台支持本地自托管与云端部署两种模式，兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本，即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛，让人人都能成为 AI 的创造者与受益者。

★ 183.6k|★★★☆☆|今天

Agent语言模型插件

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 161.1k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|2天前

开发框架图像Agent