deep-learning-localization-mapping

GitHub
675 130 困难 1 次阅读 1个月前NOASSERTION开发框架
AI 解读 由 AI 自动生成,仅供参考

deep-learning-localization-mapping 是一个专注于深度学习在定位与建图领域应用的开源资源库。它系统性地收集并整理了基于深度学习的各类定位模型与算法,旨在解决机器人、自动驾驶及增强现实系统中核心的“我在哪”和“周围环境是什么样”的感知难题。

传统定位方法往往依赖复杂的几何计算且对环境变化敏感,而该资源库通过汇聚前沿的深度学习方案,提供了从里程计估计(涵盖视觉、惯性、激光雷达等多传感器融合)、地图构建(几何与语义地图),到全局定位及同步定位与建图(SLAM)的全方位技术参考。其独特亮点在于不仅收录了具体的模型代码与论文链接,还关联了团队发表在 IEEE TNNLS 等顶级期刊上的权威综述文章,为理解空间机器智能的发展脉络提供了坚实的理论支撑。

该资源库特别适合人工智能研究人员、机器人算法工程师以及相关领域的开发者使用。无论是希望快速复现经典算法、对比不同模型性能,还是寻求最新的研究灵感,deep-learning-localization-mapping 都能提供一个结构清晰、内容详实的技术入口,帮助用户高效探索空间智能的前沿技术。

使用场景

某自动驾驶初创团队正在开发一款适用于地下停车场的自动泊车机器人,该环境缺乏 GPS 信号且光照条件复杂多变。

没有 deep-learning-localization-mapping 时

  • 定位频繁丢失:传统几何算法在停车场昏暗灯光或纹理重复的墙壁前极易失效,导致机器人无法判断自身位置。
  • 开发周期漫长:工程师需手动调整大量参数以适应不同楼层的结构特征,每次场景变更都需重新标定,耗时数周。
  • 误差累积严重:仅依赖惯性导航或基础视觉里程计,长距离行驶后累积误差过大,无法精准停入狭窄车位。
  • 泛化能力差:针对特定停车场训练的模型,一旦部署到地面标线模糊或布局不同的新场地,性能急剧下降。

使用 deep-learning-localization-mapping 后

  • 鲁棒性显著提升:利用库中提供的 DeepVO 等端到端视觉里程计模型,机器人在低光照和无纹理区域仍能保持稳定的位姿估计。
  • 快速落地部署:直接复用经过验证的深度学习方法(如语义建图或闭环检测),将适配新场地的时间从数周缩短至几天。
  • 精度大幅优化:结合深度学习的全局优化与不确定性估计模块,有效抑制了长距离运行中的漂移,实现厘米级停车精度。
  • 强泛化适应性:基于大规模数据预训练的模型具备更强的特征提取能力,能轻松应对不同停车场的结构变化和地面磨损情况。

deep-learning-localization-mapping 通过提供成熟的深度学习定位与建图方案,帮助团队突破了传统算法在极端环境下的瓶颈,加速了自动泊车产品的商业化落地。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该仓库是一个基于深度学习的定位与建图(Localization and Mapping)方法的综述集合,主要提供相关论文列表和链接,而非一个可直接运行的单一软件工具。因此,README 中未包含具体的运行环境、依赖库或硬件需求。用户需根据列表中具体选择的模型(如 DeepVO, VINet, IONet 等)前往其对应的代码仓库查看特定的环境配置要求。部分列出的模型提供了 TensorFlow (TF)、PyTorch (PT)、Caffe 或 ROS 的代码链接。
python未说明
deep-learning-localization-mapping hero image

快速开始

基于深度学习的定位与建图

image 本仓库汇集了基于深度学习的定位与建图方法。关于视觉定位与建图的深度学习综述,请参阅以下论文:

基于深度学习的视觉定位与建图:综述

Changhao ChenBing WangChris Xiaoxuan LuNiki TrigoniAndrew Markham

IEEE神经网络与学习系统汇刊 [PDF]

关于惯性定位的深度学习综述,请参阅以下论文:

基于深度学习的惯性定位:综述

Changhao Chen、Xianfei Pan

IEEE智能交通系统汇刊 [PDF]

旧版本:

基于深度学习的定位与建图综述:迈向空间机器智能时代

Changhao ChenBing WangChris Xiaoxuan LuNiki TrigoniAndrew Markham

arXiv:2006.12567 [PDF]

新闻

更新:2020年6月22日

  • 我们发布了综述论文。

更新:2023年8月30日

  • 我们的综述“基于深度学习的视觉定位与建图:综述”被 IEEE TNNLS 接受。

更新:2024年3月13日

  • 我们的综述“基于深度学习的惯性定位:综述”被 IEEE TITS 接受。

待办事项

分类

如果您觉得本仓库有用,请引用我们的论文:

@misc{chen2020survey,
title={基于深度学习的定位与建图综述:迈向空间机器智能时代},
author={Changhao Chen、Bing Wang、Chris Xiaoxuan Lu、Niki Trigoni 和 Andrew Markham},
year={2020},
eprint={2006.12567},
archivePrefix={arXiv},
primaryClass={cs.CV}
}

按主题分类

*表格中的日期表示发表日期(例如会议日期)。

惯性里程计估计

视觉里程计

模型 日期 发表时间 论文 代码
Konda 等人 2015 VISAPP 使用卷积网络学习视觉里程计
Costante 等人 2016 RA-L 探索使用 CNN 进行帧间自运动估计的表示学习
Backprop KF 2016 NeurIPS Backprop KF:学习判别式确定性状态估计器
DeepVO 2017 ICRA DeepVO:迈向基于深度循环卷积神经网络的端到端视觉里程计
SfmLearner 2017 CVPR 从视频中无监督地学习深度和自运动 TF PT
Yin 等人 2017 ICCV 利用深度卷积神经场估计的深度进行单目视觉里程计的比例恢复
UnDeepVO 2018 ICRA UnDeepVO:通过无监督深度学习实现单目视觉里程计
Barnes 等人 2018 ICRA 分心驱动:用于城市环境中鲁棒单目视觉里程计的自监督干扰物学习
GeoNet 2018 CVPR GeoNet:无监督学习密集深度、光流和相机位姿 TF
Zhan 等人 2018 CVPR 利用深度特征重建进行单目深度估计和视觉里程计的无监督学习 Caffe
DPF 2018 RSS 可微粒子滤波器:带有算法先验的端到端学习 TF
Yang 等人 2018 ECCV 深度虚拟立体里程计:利用深度预测改进单目直接稀疏里程计
Zhao 等人 2018 IROS 通过密集 3D 流学习密集 3D 映射来学习单目视觉里程计
Turan 等人 2018 IROS 用于内窥镜胶囊机器人的无监督里程计和深度学习
Struct2Depth 2019 AAAI 无需传感器的深度预测:利用结构进行单目视频的无监督学习 TF
Saputra 等人 2019 ICRA 通过几何感知课程学习来学习单目视觉里程计
GANVO 2019 ICRA GANVO:使用生成对抗网络进行无监督的深度单目视觉里程计和深度估计
CNN-SVO 2019 ICRA CNN-SVO:利用单幅图像深度预测改进半直接视觉里程计中的建图 ROS
Li 等人 2019 ICRA 用于无监督单目视觉里程计的姿态图优化
Xue 等人 2019 CVPR 超越跟踪:为深度视觉里程计选择记忆并细化姿态
Wang 等人 2019 CVPR 用于(无)监督学习单目视频视觉里程计和深度的循环神经网络
Li 等人 2019 ICCV 用于自监督深度视觉里程计的序列对抗学习
Saputra 等人 2019 ICCV 从深度姿态回归网络中提炼知识
Gordon 等人 2019 ICCV 来自野外视频的深度:从未知相机中进行无监督单目深度学习 TF
Koumis 等人 2019 IROS 使用 3D 卷积网络从视频中估计度量尺度的视觉里程计
Bian 等人 2019 NeurIPS 从单目视频中无监督地学习尺度一致的深度和自运动 PT
D3VO 2020 CVPR D3VO:用于单目视觉里程计的深度、姿态和不确定性
Jiang 等人 2020 CVPR 通过双层优化进行光流和自运动的联合无监督学习

视觉惯性里程计

模型 日期 发表时间 论文 代码
VINet 2017 AAAI VINet:将视觉惯性里程计视为序列到序列的学习问题
VIOLearner 2019 TPAMI 用于 RGB-D 图像的在线误差校正的无监督深度视觉惯性里程计
SelectFusion 2019 CVPR 用于神经视觉惯性里程计的选择性传感器融合
DeepVIO 2019 IROS DeepVIO:利用 3D 几何约束进行单目视觉惯性里程计的自监督深度学习

惯性里程计

模型 日期 发表会议/期刊 论文 代码
IONet 2018 AAAI IONet: 学习克服惯性里程计中的漂移问题
RIDI 2018 ECCV RIDI: 鲁棒的IMU双重积分 Py
Wagstaff等 2018 IPIN 基于LSTM的零速度检测用于鲁棒惯性导航 PT
Cortes等 2019 MLSP 基于深度学习的速度估计用于约束智能手机上的捷联惯性导航
MotionTransformer 2019 AAAI MotionTransformer: 在不同领域间迁移神经网络惯性跟踪
AbolDeepIO 2019 TITS AbolDeepIO: 一种用于自动驾驶车辆的新型深度惯性里程计网络
Brossard等 2019 ICRA 学习轮式里程计和IMU误差以实现定位
OriNet 2019 RA-L OriNet: 使用单个特定IMU进行鲁棒的三维姿态估计 PT
L-IONet 2020 IoT-J 基于深度学习的行人惯性导航:方法、数据集及设备端推理

激光雷达里程计

模型 日期 发表会议/期刊 论文 代码
Velas等 2018 ICARSC 使用Velodyne激光雷达的CNN辅助IMU里程计估计
LO-Net 2019 CVPR LO-Net: 深度实时激光雷达里程计
DeepPCO 2019 IROS DeepPCO: 通过深度并行神经网络实现端到端点云里程计
Valente等 2019 IROS 用于实时里程计估计的深度传感器融合

地图构建

几何地图构建

深度表示
  • 在视觉里程计中,已经讨论了深度与自运动的联合学习。虽然这些方法能够生成深度表示,但我们在此不将其纳入。
模型 日期 发表期刊 论文 代码
Eigen 等人 2014 NeurIPS 使用多尺度深度网络从单张图像预测深度图
Liu 等人 2015 TPAMI 利用深度卷积神经场从单目图像学习深度
Garg 等人 2016 ECCV 无监督单视图深度估计 CNN:借助几何信息实现
Demon 2017 CVPR Demon:用于学习单目立体视觉的深度与运动网络
Godard 等人 2017 CVPR 基于左右一致性约束的无监督单目深度估计
Wang 等人 2018 CVPR 利用直接法从单目视频中学习深度
体素表示
模型 日期 发表期刊 论文 代码
SurfaceNet 2017 CVPR SurfaceNet:一种用于多视图立体匹配的端到端三维神经网络
Dai 等人 2017 CVPR 利用 3D 编码器-预测器 CNN 和形状合成进行形状补全
Hane 等人 2017 3DV 用于三维物体重建的分层表面预测
OctNetFusion 2017 3DV Octnetfusion:从数据中学习深度融合
OGN 2017 ICCV 八叉树生成网络:用于高分辨率三维输出的高效卷积架构
Kar 等人 2017 NeurIPS 学习多视图立体视觉机器
RayNet 2018 CVPR RayNet:利用射线势能学习体积化三维重建
点云表示
模型 日期 发表期刊 论文 代码
Fan 等人 2017 CVPR 用于从单张图像重建三维物体的点云生成网络
网格表示
模型 日期 发表期刊 论文 代码
Ladicky 等人 2017 ICCV 利用回归从点云生成网格
Mukasa 等人 2017 ICCVW 基于 CNN 深度预测和稀疏单目 SLAM 的三维场景网格
Wang 等人 2018 ECCV Pixel2mesh:从单张 RGB 图像生成三维网格模型
Groueix 等人 2018 CVPR AtlasNet:一种基于纸浆工艺的学习三维表面生成方法
Scan2Mesh 2019 CVPR Scan2mesh:从非结构化距离扫描到三维网格
Bloesch 等人 2019 ICCV 为密集视觉 SLAM 学习网格

语义地图构建

模型 日期 发表期刊 论文 代码
SemanticFusion 2017 ICRA Semanticfusion:利用卷积神经网络进行稠密三维语义地图构建
DA-RNN 2017 RSS DA-RNN:基于数据关联循环神经网络的语义地图构建
Ma 等人 2017 IROS 利用 RGB-D 相机进行一致语义地图构建的多视图深度学习
Sunderhauf 等人 2017 IROS 面向对象的语义地图构建以生成有意义的地图
Fusion++ 2018 3DV Fusion++:体积化的对象级 SLAM
Grinvald 等人 2019 RA-L 体积化的实例感知语义地图构建及三维物体发现
PanopticFusion 2019 IROS Panopticfusion:在物质与事物层面进行在线体积化语义地图构建

通用地图构建

  • 神经场景表示、任务驱动表示
模型 日期 发表期刊 论文 代码
Mirowski 等人 2017 ICLR 学习在复杂环境中导航
Zhu 等人 2017 ICRA 利用深度强化学习在室内场景中进行目标导向的视觉导航
Eslami 等人 2018 Science 神经场景表示与渲染
CodeSLAM 2018 CVPR CodeSLAM — 学习用于密集视觉 SLAM 的紧凑可优化表示
Mirowski 等人 2018 NeurIPS 学习在没有地图的情况下于城市中导航
SRN 2019 NeurIPS 场景表示网络:连续的、具有三维结构感知能力的神经场景表示
Tobin 等人 2019 NeurIPS 几何感知神经渲染
Lim 等人 2019 NeurIPS 神经多感官场景推理

全球定位

2D到2D定位

基于隐式地图的定位
模型 日期 发表 论文 代码
PoseNet 2015 ICCV PoseNet: 一种用于实时6自由度相机重定位的卷积网络
贝叶斯PoseNet 2016 ICRA 在深度学习中为相机重定位建模不确定性
BranchNet 2017 ICRA 深入研究用于相机重定位的卷积神经网络
VidLoc 2017 CVPR VidLoc: 一种用于6自由度视频片段重定位的深度时空模型
几何PoseNet 2017 CVPR 用于深度学习相机位姿回归的几何损失函数
Naseer等 2017 IROS 基于单目相机的户外环境中6自由度全局定位的深度回归
LSTM-PoseNet 2017 ICCV 利用LSTM进行结构化特征相关性的基于图像的定位
Hourglass PoseNet 2017 ICCV研讨会 使用Hourglass网络进行基于图像的定位
VLocNet 2018 ICRA 用于视觉定位和里程计的深度辅助学习
MapNet 2018 CVPR 面向相机定位的几何感知地图学习
SPP-Net 2018 BMVC 用于绝对位姿回归和图像合成的合成视图生成
GPoseNet 2018 BMVC 一种用于相机重定位的混合概率模型
VLocNet++ 2018 RA-L Vlocnet++:用于语义视觉定位和里程计的深度多任务学习
Xue等 2019 ICCV 局部支持全局:通过序列增强实现的深度相机重定位
Huang等 2019 ICCV 先验引导的丢弃法,用于动态环境中的鲁棒视觉定位
Bui等 2019 ICCVW 用于相机位姿回归和精炼的对抗网络
GN-Net 2020 RA-L GN-Net:用于多天气条件重定位的高斯-牛顿损失
AtLoc 2020 AAAI AtLoc:注意力引导的相机定位
基于显式地图的定位
模型 日期 发表 论文 代码
Laskar等 2017 ICCV研讨会 利用卷积神经网络计算两两相对位姿进行相机重定位
DELS-3D 2018 CVPR Dels-3d:结合3D语义地图的深度定位与分割
AnchorNet 2018 BMVC 通过发现锚点改进视觉重定位
RelocNet 2018 ECCV RelocNet:使用神经网络进行连续度量学习的重定位
CamNet 2019 ICCV Camnet:用于相机重定位的粗粒度到细粒度检索

2D到3D定位

描述子匹配
模型 日期 发表 论文 代码
NetVLAD 2016 CVPR Netvlad:用于弱监督地点识别的CNN架构
DELF 2017 CVPR 具有注意力机制的深度局部特征的大规模图像检索
Schonberger等. 2018年6月 CVPR 语义视觉定位
SuperPoint 2018 CVPRW Superpoint:自监督的兴趣点检测和描述
NC-Net 2018 NeurIPS 邻域一致性网络
Sarlin等 2019年6月 CVPR 从粗到细:大规模下的鲁棒分层定位
2D3D-MatchNet 2019 ICRA 2d3d-matchnet:学习跨2D图像和3D点云匹配关键点
D2-Net 2019 CVPR D2-net:一种可训练的CNN,用于局部特征的联合描述与检测
Speciale等 2019 CVPR 保护隐私的基于图像的定位
OOI-Net 2019 CVPR 通过学习感兴趣对象的密集匹配回归进行视觉定位
Camposeco等 2019 CVPR 场景压缩用于视觉定位
Cheng等 2019 CVPR 用于内存高效图像定位的级联并行滤波
Taira等 2019 CVPR 这是正确的地方吗?用于室内视觉定位的几何-语义位姿验证
R2D2 2019 NeurIPS R2d2:可重复且可靠的检测器和描述符
ASLFeat 2020 CVPR Aslfeat:学习精确形状和定位的局部特征
场景坐标回归
模型 日期 发表时间 论文 代码
DSAC 2017/07 CVPR DSAC - 可微分RANSAC用于相机重定位
DSAC++ 2018/06 CVPR 少即是多——基于3D表面回归的6D相机定位
Dense SCR 2018/07 RSS 全帧场景坐标回归用于基于图像的定位
DSAC++ angle 2018/09 ECCV 基于角度重投影损失的场景坐标回归用于相机重定位
Confidence SCR 2018/09 BMVC 基于图像的定位中场景坐标与对应关系学习
ESAC 2019/10 ICCV 专家采样一致性算法在相机重定位中的应用
NG-RANSAC 2019/06 CVPR 神经引导的RANSAC:学习从何处采样模型假设
SANet 2019/10 ICCV SANet:用于相机定位的场景无关网络
HSC-Net 2020 CVPR 用于视觉定位的层次化场景坐标分类与回归
KF-Net 2020 CVPR Kfnet:利用卡尔曼滤波学习时序相机重定位

3D到3D定位

模型 日期 发表时间 论文 代码
LocNet 2018 IV Locnet:移动车辆在3D点云中的全局定位
PointNetVLAD 2018 CVPR Pointnetvlad:基于深度点云的大规模地点识别检索
Barsan等 2018 CoRL 使用激光雷达强度图进行定位的学习
L3-Net 2019 CVPR L3-net:面向自动驾驶的基于学习的激光雷达定位
PCAN 2019 CVPR PCAN:利用上下文信息学习点云检索的3D注意力图
DeepICP 2019 CVPR Deepicp:用于3D点云配准的端到端深度神经网络
DCP 2019 CVPR 深度最邻近点:学习用于点云配准的表示
D3Feat 2020 CVPR D3feat:密集检测与3D局部特征描述的联合学习

SLAM

局部优化

模型 日期 发表时间 论文 代码
LS-Net 2018 ECCV 学习求解单目立体视觉的非线性最小二乘问题
BA-Net 2019 ICLR BA-Net:密集束调整网络

全局优化

模型 日期 发表时间 论文 代码
CNN-SLAM 2017 CVPR CNN-SLAM:具有学习深度预测的实时稠密单目SLAM
Li等 2019 ICRA 用于无监督单目视觉里程计的姿态图优化
DeepTAM 2020 IJCV DeepTAM:基于卷积神经网络的深度跟踪与建图
DeepFactors 2020 RA-L DeepFactors:实时概率稠密单目SLAM

关键帧与回环检测

模型 日期 发表时间 论文 代码
Sunderhauf等 2015 RSS 使用卷积网络地标进行地点识别:视角鲁棒、条件鲁棒、无需训练
Gao等 2017 AR 使用深度神经网络为视觉SLAM系统检测回环的无监督学习
Huang等 2018 RSS 轻量级无监督深度回环检测
Sheng等 2019 ICCV 面向单目深度SLAM的关键帧检测与视觉里程计的无监督协同学习
Memon等 2020 RAS 使用有监督和无监督深度神经网络进行单目SLAM系统的回环检测

不确定性估计

模型 日期 发表时间 论文 代码
Kendall等 2016 ICRA 在深度学习中对相机重定位的不确定性建模
Kendall等 2017 NeurIPS 计算机视觉中贝叶斯深度学习需要哪些不确定性?
VidLoc 2017 CVPR VidLoc:用于6自由度视频片段重定位的深度时空模型
Wang等 2018 IJRR 通过深度神经网络实现端到端、序列到序列的概率视觉里程计
Chen等 2019 TMC 基于低成本惯性测量单元的深度神经网络惯性里程计

本列表由牛津大学计算机科学系的Changhao ChenBing Wang维护。

如有任何问题或希望在此列表中添加您的工作,请联系他们(邮箱:changhao.chen@cs.ox.ac.ukbing.wang@cs.ox.ac.uk)。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|2周前
Agent开发框架图像

n8n

n8n 是一款面向技术团队的公平代码(fair-code)工作流自动化平台,旨在让用户在享受低代码快速构建便利的同时,保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点,帮助用户轻松连接 400 多种应用与服务,实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”:既可以通过直观的可视化界面拖拽节点搭建流程,也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外,n8n 原生集成了基于 LangChain 的 AI 能力,支持用户利用自有数据和模型构建智能体工作流。在部署方面,n8n 提供极高的自由度,支持完全自托管以保障数据隐私和控制权,也提供云端服务选项。凭借活跃的社区生态和数百个现成模板,n8n 让构建强大且可控的自动化系统变得简单高效。

184.7k|★★☆☆☆|今天
数据工具开发框架Agent

AutoGPT

AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台,核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点,让用户只需设定目标,AI 即可自主规划步骤、调用工具并持续运行直至完成任务。 无论是开发者、研究人员,还是希望提升工作效率的普通用户,都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体;研究人员能基于开源架构探索多智能体协作机制;而非技术背景用户也可直接选用预置的智能体模板,立即投入实际工作场景。 AutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑,每个块负责单一动作,灵活且易于调试。同时,平台支持本地自托管与云端部署两种模式,兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本,即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛,让人人都能成为 AI 的创造者与受益者。

183.6k|★★★☆☆|今天
Agent语言模型插件

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|2周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

161.1k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

109.2k|★★☆☆☆|2天前
开发框架图像Agent