deep-learning-localization-mapping
deep-learning-localization-mapping 是一个专注于深度学习在定位与建图领域应用的开源资源库。它系统性地收集并整理了基于深度学习的各类定位模型与算法,旨在解决机器人、自动驾驶及增强现实系统中核心的“我在哪”和“周围环境是什么样”的感知难题。
传统定位方法往往依赖复杂的几何计算且对环境变化敏感,而该资源库通过汇聚前沿的深度学习方案,提供了从里程计估计(涵盖视觉、惯性、激光雷达等多传感器融合)、地图构建(几何与语义地图),到全局定位及同步定位与建图(SLAM)的全方位技术参考。其独特亮点在于不仅收录了具体的模型代码与论文链接,还关联了团队发表在 IEEE TNNLS 等顶级期刊上的权威综述文章,为理解空间机器智能的发展脉络提供了坚实的理论支撑。
该资源库特别适合人工智能研究人员、机器人算法工程师以及相关领域的开发者使用。无论是希望快速复现经典算法、对比不同模型性能,还是寻求最新的研究灵感,deep-learning-localization-mapping 都能提供一个结构清晰、内容详实的技术入口,帮助用户高效探索空间智能的前沿技术。
使用场景
某自动驾驶初创团队正在开发一款适用于地下停车场的自动泊车机器人,该环境缺乏 GPS 信号且光照条件复杂多变。
没有 deep-learning-localization-mapping 时
- 定位频繁丢失:传统几何算法在停车场昏暗灯光或纹理重复的墙壁前极易失效,导致机器人无法判断自身位置。
- 开发周期漫长:工程师需手动调整大量参数以适应不同楼层的结构特征,每次场景变更都需重新标定,耗时数周。
- 误差累积严重:仅依赖惯性导航或基础视觉里程计,长距离行驶后累积误差过大,无法精准停入狭窄车位。
- 泛化能力差:针对特定停车场训练的模型,一旦部署到地面标线模糊或布局不同的新场地,性能急剧下降。
使用 deep-learning-localization-mapping 后
- 鲁棒性显著提升:利用库中提供的 DeepVO 等端到端视觉里程计模型,机器人在低光照和无纹理区域仍能保持稳定的位姿估计。
- 快速落地部署:直接复用经过验证的深度学习方法(如语义建图或闭环检测),将适配新场地的时间从数周缩短至几天。
- 精度大幅优化:结合深度学习的全局优化与不确定性估计模块,有效抑制了长距离运行中的漂移,实现厘米级停车精度。
- 强泛化适应性:基于大规模数据预训练的模型具备更强的特征提取能力,能轻松应对不同停车场的结构变化和地面磨损情况。
deep-learning-localization-mapping 通过提供成熟的深度学习定位与建图方案,帮助团队突破了传统算法在极端环境下的瓶颈,加速了自动泊车产品的商业化落地。
运行环境要求
未说明
未说明

快速开始
基于深度学习的定位与建图
本仓库汇集了基于深度学习的定位与建图方法。关于视觉定位与建图的深度学习综述,请参阅以下论文:
基于深度学习的视觉定位与建图:综述
Changhao Chen、Bing Wang、Chris Xiaoxuan Lu、Niki Trigoni 和 Andrew Markham
IEEE神经网络与学习系统汇刊 [PDF]
关于惯性定位的深度学习综述,请参阅以下论文:
基于深度学习的惯性定位:综述
Changhao Chen、Xianfei Pan
IEEE智能交通系统汇刊 [PDF]
旧版本:
基于深度学习的定位与建图综述:迈向空间机器智能时代
Changhao Chen、Bing Wang、Chris Xiaoxuan Lu、Niki Trigoni 和 Andrew Markham
arXiv:2006.12567 [PDF]
新闻
更新:2020年6月22日
- 我们发布了综述论文。
更新:2023年8月30日
- 我们的综述“基于深度学习的视觉定位与建图:综述”被 IEEE TNNLS 接受。
更新:2024年3月13日
- 我们的综述“基于深度学习的惯性定位:综述”被 IEEE TITS 接受。
待办事项
分类
如果您觉得本仓库有用,请引用我们的论文:
@misc{chen2020survey,
title={基于深度学习的定位与建图综述:迈向空间机器智能时代},
author={Changhao Chen、Bing Wang、Chris Xiaoxuan Lu、Niki Trigoni 和 Andrew Markham},
year={2020},
eprint={2006.12567},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
按主题分类
*表格中的日期表示发表日期(例如会议日期)。
惯性里程计估计
视觉里程计
视觉惯性里程计
| 模型 | 日期 | 发表时间 | 论文 | 代码 |
|---|---|---|---|---|
| VINet | 2017 | AAAI | VINet:将视觉惯性里程计视为序列到序列的学习问题 | |
| VIOLearner | 2019 | TPAMI | 用于 RGB-D 图像的在线误差校正的无监督深度视觉惯性里程计 | |
| SelectFusion | 2019 | CVPR | 用于神经视觉惯性里程计的选择性传感器融合 | |
| DeepVIO | 2019 | IROS | DeepVIO:利用 3D 几何约束进行单目视觉惯性里程计的自监督深度学习 |
惯性里程计
| 模型 | 日期 | 发表会议/期刊 | 论文 | 代码 |
|---|---|---|---|---|
| IONet | 2018 | AAAI | IONet: 学习克服惯性里程计中的漂移问题 | |
| RIDI | 2018 | ECCV | RIDI: 鲁棒的IMU双重积分 | Py |
| Wagstaff等 | 2018 | IPIN | 基于LSTM的零速度检测用于鲁棒惯性导航 | PT |
| Cortes等 | 2019 | MLSP | 基于深度学习的速度估计用于约束智能手机上的捷联惯性导航 | |
| MotionTransformer | 2019 | AAAI | MotionTransformer: 在不同领域间迁移神经网络惯性跟踪 | |
| AbolDeepIO | 2019 | TITS | AbolDeepIO: 一种用于自动驾驶车辆的新型深度惯性里程计网络 | |
| Brossard等 | 2019 | ICRA | 学习轮式里程计和IMU误差以实现定位 | |
| OriNet | 2019 | RA-L | OriNet: 使用单个特定IMU进行鲁棒的三维姿态估计 | PT |
| L-IONet | 2020 | IoT-J | 基于深度学习的行人惯性导航:方法、数据集及设备端推理 |
激光雷达里程计
| 模型 | 日期 | 发表会议/期刊 | 论文 | 代码 |
|---|---|---|---|---|
| Velas等 | 2018 | ICARSC | 使用Velodyne激光雷达的CNN辅助IMU里程计估计 | |
| LO-Net | 2019 | CVPR | LO-Net: 深度实时激光雷达里程计 | |
| DeepPCO | 2019 | IROS | DeepPCO: 通过深度并行神经网络实现端到端点云里程计 | |
| Valente等 | 2019 | IROS | 用于实时里程计估计的深度传感器融合 |
地图构建
几何地图构建
深度表示
- 在视觉里程计中,已经讨论了深度与自运动的联合学习。虽然这些方法能够生成深度表示,但我们在此不将其纳入。
| 模型 | 日期 | 发表期刊 | 论文 | 代码 |
|---|---|---|---|---|
| Eigen 等人 | 2014 | NeurIPS | 使用多尺度深度网络从单张图像预测深度图 | |
| Liu 等人 | 2015 | TPAMI | 利用深度卷积神经场从单目图像学习深度 | |
| Garg 等人 | 2016 | ECCV | 无监督单视图深度估计 CNN:借助几何信息实现 | |
| Demon | 2017 | CVPR | Demon:用于学习单目立体视觉的深度与运动网络 | |
| Godard 等人 | 2017 | CVPR | 基于左右一致性约束的无监督单目深度估计 | |
| Wang 等人 | 2018 | CVPR | 利用直接法从单目视频中学习深度 |
体素表示
| 模型 | 日期 | 发表期刊 | 论文 | 代码 |
|---|---|---|---|---|
| SurfaceNet | 2017 | CVPR | SurfaceNet:一种用于多视图立体匹配的端到端三维神经网络 | |
| Dai 等人 | 2017 | CVPR | 利用 3D 编码器-预测器 CNN 和形状合成进行形状补全 | |
| Hane 等人 | 2017 | 3DV | 用于三维物体重建的分层表面预测 | |
| OctNetFusion | 2017 | 3DV | Octnetfusion:从数据中学习深度融合 | |
| OGN | 2017 | ICCV | 八叉树生成网络:用于高分辨率三维输出的高效卷积架构 | |
| Kar 等人 | 2017 | NeurIPS | 学习多视图立体视觉机器 | |
| RayNet | 2018 | CVPR | RayNet:利用射线势能学习体积化三维重建 |
点云表示
| 模型 | 日期 | 发表期刊 | 论文 | 代码 |
|---|---|---|---|---|
| Fan 等人 | 2017 | CVPR | 用于从单张图像重建三维物体的点云生成网络 |
网格表示
| 模型 | 日期 | 发表期刊 | 论文 | 代码 |
|---|---|---|---|---|
| Ladicky 等人 | 2017 | ICCV | 利用回归从点云生成网格 | |
| Mukasa 等人 | 2017 | ICCVW | 基于 CNN 深度预测和稀疏单目 SLAM 的三维场景网格 | |
| Wang 等人 | 2018 | ECCV | Pixel2mesh:从单张 RGB 图像生成三维网格模型 | |
| Groueix 等人 | 2018 | CVPR | AtlasNet:一种基于纸浆工艺的学习三维表面生成方法 | |
| Scan2Mesh | 2019 | CVPR | Scan2mesh:从非结构化距离扫描到三维网格 | |
| Bloesch 等人 | 2019 | ICCV | 为密集视觉 SLAM 学习网格 |
语义地图构建
| 模型 | 日期 | 发表期刊 | 论文 | 代码 |
|---|---|---|---|---|
| SemanticFusion | 2017 | ICRA | Semanticfusion:利用卷积神经网络进行稠密三维语义地图构建 | |
| DA-RNN | 2017 | RSS | DA-RNN:基于数据关联循环神经网络的语义地图构建 | |
| Ma 等人 | 2017 | IROS | 利用 RGB-D 相机进行一致语义地图构建的多视图深度学习 | |
| Sunderhauf 等人 | 2017 | IROS | 面向对象的语义地图构建以生成有意义的地图 | |
| Fusion++ | 2018 | 3DV | Fusion++:体积化的对象级 SLAM | |
| Grinvald 等人 | 2019 | RA-L | 体积化的实例感知语义地图构建及三维物体发现 | |
| PanopticFusion | 2019 | IROS | Panopticfusion:在物质与事物层面进行在线体积化语义地图构建 |
通用地图构建
- 神经场景表示、任务驱动表示
| 模型 | 日期 | 发表期刊 | 论文 | 代码 |
|---|---|---|---|---|
| Mirowski 等人 | 2017 | ICLR | 学习在复杂环境中导航 | |
| Zhu 等人 | 2017 | ICRA | 利用深度强化学习在室内场景中进行目标导向的视觉导航 | |
| Eslami 等人 | 2018 | Science | 神经场景表示与渲染 | |
| CodeSLAM | 2018 | CVPR | CodeSLAM — 学习用于密集视觉 SLAM 的紧凑可优化表示 | |
| Mirowski 等人 | 2018 | NeurIPS | 学习在没有地图的情况下于城市中导航 | |
| SRN | 2019 | NeurIPS | 场景表示网络:连续的、具有三维结构感知能力的神经场景表示 | |
| Tobin 等人 | 2019 | NeurIPS | 几何感知神经渲染 | |
| Lim 等人 | 2019 | NeurIPS | 神经多感官场景推理 |
全球定位
2D到2D定位
基于隐式地图的定位
| 模型 | 日期 | 发表 | 论文 | 代码 |
|---|---|---|---|---|
| PoseNet | 2015 | ICCV | PoseNet: 一种用于实时6自由度相机重定位的卷积网络 | |
| 贝叶斯PoseNet | 2016 | ICRA | 在深度学习中为相机重定位建模不确定性 | |
| BranchNet | 2017 | ICRA | 深入研究用于相机重定位的卷积神经网络 | |
| VidLoc | 2017 | CVPR | VidLoc: 一种用于6自由度视频片段重定位的深度时空模型 | |
| 几何PoseNet | 2017 | CVPR | 用于深度学习相机位姿回归的几何损失函数 | |
| Naseer等 | 2017 | IROS | 基于单目相机的户外环境中6自由度全局定位的深度回归 | |
| LSTM-PoseNet | 2017 | ICCV | 利用LSTM进行结构化特征相关性的基于图像的定位 | |
| Hourglass PoseNet | 2017 | ICCV研讨会 | 使用Hourglass网络进行基于图像的定位 | |
| VLocNet | 2018 | ICRA | 用于视觉定位和里程计的深度辅助学习 | |
| MapNet | 2018 | CVPR | 面向相机定位的几何感知地图学习 | |
| SPP-Net | 2018 | BMVC | 用于绝对位姿回归和图像合成的合成视图生成 | |
| GPoseNet | 2018 | BMVC | 一种用于相机重定位的混合概率模型 | |
| VLocNet++ | 2018 | RA-L | Vlocnet++:用于语义视觉定位和里程计的深度多任务学习 | |
| Xue等 | 2019 | ICCV | 局部支持全局:通过序列增强实现的深度相机重定位 | |
| Huang等 | 2019 | ICCV | 先验引导的丢弃法,用于动态环境中的鲁棒视觉定位 | |
| Bui等 | 2019 | ICCVW | 用于相机位姿回归和精炼的对抗网络 | |
| GN-Net | 2020 | RA-L | GN-Net:用于多天气条件重定位的高斯-牛顿损失 | |
| AtLoc | 2020 | AAAI | AtLoc:注意力引导的相机定位 |
基于显式地图的定位
| 模型 | 日期 | 发表 | 论文 | 代码 |
|---|---|---|---|---|
| Laskar等 | 2017 | ICCV研讨会 | 利用卷积神经网络计算两两相对位姿进行相机重定位 | |
| DELS-3D | 2018 | CVPR | Dels-3d:结合3D语义地图的深度定位与分割 | |
| AnchorNet | 2018 | BMVC | 通过发现锚点改进视觉重定位 | |
| RelocNet | 2018 | ECCV | RelocNet:使用神经网络进行连续度量学习的重定位 | |
| CamNet | 2019 | ICCV | Camnet:用于相机重定位的粗粒度到细粒度检索 |
2D到3D定位
描述子匹配
| 模型 | 日期 | 发表 | 论文 | 代码 |
|---|---|---|---|---|
| NetVLAD | 2016 | CVPR | Netvlad:用于弱监督地点识别的CNN架构 | |
| DELF | 2017 | CVPR | 具有注意力机制的深度局部特征的大规模图像检索 | |
| Schonberger等. | 2018年6月 | CVPR | 语义视觉定位 | |
| SuperPoint | 2018 | CVPRW | Superpoint:自监督的兴趣点检测和描述 | |
| NC-Net | 2018 | NeurIPS | 邻域一致性网络 | |
| Sarlin等 | 2019年6月 | CVPR | 从粗到细:大规模下的鲁棒分层定位 | |
| 2D3D-MatchNet | 2019 | ICRA | 2d3d-matchnet:学习跨2D图像和3D点云匹配关键点 | |
| D2-Net | 2019 | CVPR | D2-net:一种可训练的CNN,用于局部特征的联合描述与检测 | |
| Speciale等 | 2019 | CVPR | 保护隐私的基于图像的定位 | |
| OOI-Net | 2019 | CVPR | 通过学习感兴趣对象的密集匹配回归进行视觉定位 | |
| Camposeco等 | 2019 | CVPR | 场景压缩用于视觉定位 | |
| Cheng等 | 2019 | CVPR | 用于内存高效图像定位的级联并行滤波 | |
| Taira等 | 2019 | CVPR | 这是正确的地方吗?用于室内视觉定位的几何-语义位姿验证 | |
| R2D2 | 2019 | NeurIPS | R2d2:可重复且可靠的检测器和描述符 | |
| ASLFeat | 2020 | CVPR | Aslfeat:学习精确形状和定位的局部特征 |
场景坐标回归
| 模型 | 日期 | 发表时间 | 论文 | 代码 |
|---|---|---|---|---|
| DSAC | 2017/07 | CVPR | DSAC - 可微分RANSAC用于相机重定位 | |
| DSAC++ | 2018/06 | CVPR | 少即是多——基于3D表面回归的6D相机定位 | |
| Dense SCR | 2018/07 | RSS | 全帧场景坐标回归用于基于图像的定位 | |
| DSAC++ angle | 2018/09 | ECCV | 基于角度重投影损失的场景坐标回归用于相机重定位 | |
| Confidence SCR | 2018/09 | BMVC | 基于图像的定位中场景坐标与对应关系学习 | |
| ESAC | 2019/10 | ICCV | 专家采样一致性算法在相机重定位中的应用 | |
| NG-RANSAC | 2019/06 | CVPR | 神经引导的RANSAC:学习从何处采样模型假设 | |
| SANet | 2019/10 | ICCV | SANet:用于相机定位的场景无关网络 | |
| HSC-Net | 2020 | CVPR | 用于视觉定位的层次化场景坐标分类与回归 | |
| KF-Net | 2020 | CVPR | Kfnet:利用卡尔曼滤波学习时序相机重定位 |
3D到3D定位
| 模型 | 日期 | 发表时间 | 论文 | 代码 |
|---|---|---|---|---|
| LocNet | 2018 | IV | Locnet:移动车辆在3D点云中的全局定位 | |
| PointNetVLAD | 2018 | CVPR | Pointnetvlad:基于深度点云的大规模地点识别检索 | |
| Barsan等 | 2018 | CoRL | 使用激光雷达强度图进行定位的学习 | |
| L3-Net | 2019 | CVPR | L3-net:面向自动驾驶的基于学习的激光雷达定位 | |
| PCAN | 2019 | CVPR | PCAN:利用上下文信息学习点云检索的3D注意力图 | |
| DeepICP | 2019 | CVPR | Deepicp:用于3D点云配准的端到端深度神经网络 | |
| DCP | 2019 | CVPR | 深度最邻近点:学习用于点云配准的表示 | |
| D3Feat | 2020 | CVPR | D3feat:密集检测与3D局部特征描述的联合学习 |
SLAM
局部优化
| 模型 | 日期 | 发表时间 | 论文 | 代码 |
|---|---|---|---|---|
| LS-Net | 2018 | ECCV | 学习求解单目立体视觉的非线性最小二乘问题 | |
| BA-Net | 2019 | ICLR | BA-Net:密集束调整网络 |
全局优化
| 模型 | 日期 | 发表时间 | 论文 | 代码 |
|---|---|---|---|---|
| CNN-SLAM | 2017 | CVPR | CNN-SLAM:具有学习深度预测的实时稠密单目SLAM | |
| Li等 | 2019 | ICRA | 用于无监督单目视觉里程计的姿态图优化 | |
| DeepTAM | 2020 | IJCV | DeepTAM:基于卷积神经网络的深度跟踪与建图 | |
| DeepFactors | 2020 | RA-L | DeepFactors:实时概率稠密单目SLAM |
关键帧与回环检测
| 模型 | 日期 | 发表时间 | 论文 | 代码 |
|---|---|---|---|---|
| Sunderhauf等 | 2015 | RSS | 使用卷积网络地标进行地点识别:视角鲁棒、条件鲁棒、无需训练 | |
| Gao等 | 2017 | AR | 使用深度神经网络为视觉SLAM系统检测回环的无监督学习 | |
| Huang等 | 2018 | RSS | 轻量级无监督深度回环检测 | |
| Sheng等 | 2019 | ICCV | 面向单目深度SLAM的关键帧检测与视觉里程计的无监督协同学习 | |
| Memon等 | 2020 | RAS | 使用有监督和无监督深度神经网络进行单目SLAM系统的回环检测 |
不确定性估计
| 模型 | 日期 | 发表时间 | 论文 | 代码 |
|---|---|---|---|---|
| Kendall等 | 2016 | ICRA | 在深度学习中对相机重定位的不确定性建模 | |
| Kendall等 | 2017 | NeurIPS | 计算机视觉中贝叶斯深度学习需要哪些不确定性? | |
| VidLoc | 2017 | CVPR | VidLoc:用于6自由度视频片段重定位的深度时空模型 | |
| Wang等 | 2018 | IJRR | 通过深度神经网络实现端到端、序列到序列的概率视觉里程计 | |
| Chen等 | 2019 | TMC | 基于低成本惯性测量单元的深度神经网络惯性里程计 |
本列表由牛津大学计算机科学系的Changhao Chen和Bing Wang维护。
如有任何问题或希望在此列表中添加您的工作,请联系他们(邮箱:changhao.chen@cs.ox.ac.uk;bing.wang@cs.ox.ac.uk)。
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
n8n
n8n 是一款面向技术团队的公平代码(fair-code)工作流自动化平台,旨在让用户在享受低代码快速构建便利的同时,保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点,帮助用户轻松连接 400 多种应用与服务,实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”:既可以通过直观的可视化界面拖拽节点搭建流程,也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外,n8n 原生集成了基于 LangChain 的 AI 能力,支持用户利用自有数据和模型构建智能体工作流。在部署方面,n8n 提供极高的自由度,支持完全自托管以保障数据隐私和控制权,也提供云端服务选项。凭借活跃的社区生态和数百个现成模板,n8n 让构建强大且可控的自动化系统变得简单高效。
AutoGPT
AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台,核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点,让用户只需设定目标,AI 即可自主规划步骤、调用工具并持续运行直至完成任务。 无论是开发者、研究人员,还是希望提升工作效率的普通用户,都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体;研究人员能基于开源架构探索多智能体协作机制;而非技术背景用户也可直接选用预置的智能体模板,立即投入实际工作场景。 AutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑,每个块负责单一动作,灵活且易于调试。同时,平台支持本地自托管与云端部署两种模式,兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本,即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛,让人人都能成为 AI 的创造者与受益者。
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。