3D-Reconstruction-with-Deep-Learning-Methods

GitHub
1k 131 较难 1 次阅读 5天前Unlicense开发框架其他
AI 解读 由 AI 自动生成,仅供参考

3D-Reconstruction-with-Deep-Learning-Methods 是一个专注于汇集基于深度学习技术的开源 3D 重建项目的资源列表。它旨在解决从单目图像、多视角照片或点云数据中高效恢复三维几何结构的技术难题,涵盖了深度估计、场景补全、语义分割及相机定位等核心任务。

该列表精选了多个托管在 GitHub 上的高质量项目,如利用迁移学习实现高质量单目深度估计的 DenseDepth、处理大规模场景补全的 ScanComplete,以及经典的 PointNet 点云分类框架。这些项目大多提供了基于 TensorFlow 或 PyTorch 的代码实现,部分还结合了 GAN(生成对抗网络)与混合集成方法,展现了当前学术界在几何特征提取与语义理解融合方面的前沿探索。

这份资源特别适合计算机视觉领域的研究人员、算法工程师以及希望深入探索 3D 视觉技术的开发者使用。无论是需要复现最新论文成果,还是寻找特定场景下的基线模型进行二次开发,用户都能在此找到对应的开源方案。对于设计师或普通用户而言,虽然直接上手可能需要一定的编程基础,但它为理解后端 3D 生成逻辑提供了宝贵的技术窗口。

使用场景

某自动驾驶初创团队正利用车载单目摄像头采集的城市街道视频,构建高保真 3D 语义地图以训练感知算法。

没有 3D-Reconstruction-with-Deep-Learning-Methods 时

  • 数据获取成本高昂:依赖昂贵的激光雷达(LiDAR)设备或人工建模来获取精确深度信息,导致数据采集预算严重超支。
  • 场景还原不完整:传统多视图几何方法在处理纹理缺失区域(如白墙、路面)时经常失效,生成的 3D 模型存在大量空洞和噪点。
  • 语义信息割裂:重建的几何模型缺乏语义标签,无法直接区分道路、车辆与行人,需额外开发复杂的后处理流程进行对齐。
  • 开发迭代缓慢:团队需手动整合分散的开源代码库,环境配置冲突频发,从数据输入到可用模型往往耗时数周。

使用 3D-Reconstruction-with-Deep-Learning-Methods 后

  • 低成本高精度重建:直接调用列表中如 DenseDepth 等项目,仅凭单目 RGB 图像即可通过迁移学习估算出高质量深度图,大幅降低硬件门槛。
  • 智能补全缺失细节:利用 ScanCompleteMSN-Point-Cloud-Completion 等算法,自动推断并补全被遮挡或未扫描区域的几何结构,生成稠密且平滑的点云。
  • 几何与语义融合:采用 Deep 3D Semantic Scene Extrapolation 等方案,在重建过程中同步输出语义分割结果,直接生成带标签的 3D 场景。
  • 一站式高效开发:基于该清单快速定位并部署成熟的 PyTorch/TensorFlow 实现(如 PointNet),将原本数周的集成工作缩短至几天,加速算法验证。

3D-Reconstruction-with-Deep-Learning-Methods 通过聚合前沿开源项目,将高门槛的 3D 视觉重建转化为可快速落地的标准化流程,显著提升了研发效率与模型质量。

运行环境要求

GPU

未说明(部分项目提及 TensorFlow, PyTorch, cuDNN,通常暗示需要 NVIDIA GPU,但无具体型号或显存要求)

内存

未说明

依赖
notes该 README 是一个开源项目列表而非单一工具,因此没有统一的运行环境需求。列表中各项目依赖不同的深度学习框架(如 TensorFlow, PyTorch, Keras, Caffe)和特定库(如 cuDNN, Blender)。用户需根据列表中具体选择的项目(例如 DenseDepth, PointNet, ScanComplete 等)前往其对应的 GitHub 仓库查看详细的安装和环境配置说明。
python未说明
TensorFlow
PyTorch
cuDNN
Keras
Caffe
Blender
3D-Reconstruction-with-Deep-Learning-Methods hero image

快速开始

基于深度学习方法的3D重建

本列表的重点是托管在Github上的开源项目。

在Github上发布的项目

标题 关键词 URL 许可证 优秀程度
通过迁移学习实现高质量单目深度估计 TensorFlow, PyTorch https://github.com/ialhashim/DenseDepth https://arxiv.org/abs/1812.11941 GPL-3.0
基于多视角立体图像的3D重建 https://github.com/adahbingee/pais-mvs nn
基于多视角单目RGB图像的3D物体重建混合集成方法 https://github.com/Ajithbalakrishnan/3D-Object-Reconstruction-from-Multi-View-Monocular-RGB-images nn
深度3D语义场景外推 混合CNN、GAN、TensorFlow https://github.com/AliAbbasi/Deep-3D-Semantic-Scene-Extrapolation http://user.ceng.metu.edu.tr/~ys/pubs/extrap-tvcj18.pdf nn
ScanComplete:大规模场景补全与3D扫描语义分割 TensorFlow https://github.com/angeladai/ScanComplete Apache-2.0
AtLoc:注意力引导的相机定位 PyTorch https://github.com/BingCS/AtLoc https://arxiv.org/abs/1909.03557 BY-NC-SA 4.0
PointNet:用于3D分类和分割的点云深度学习 TensorFlow, cuDNN https://github.com/charlesq34/pointnet MIT许可证
DeepVO的PyTorch实现 PyTorch, CNN https://github.com/ChiWeiHsiao/DeepVO-pytorch nn
全卷积几何特征:用于配准和对应关系的快速准确3D特征。 PyTorch https://github.com/chrischoy/FCGF MIT许可证
用于密集点云补全的变形与采样网络(AAAI2020) PyTorch https://github.com/Colin97/MSN-Point-Cloud-Completion Apache-2.0
实时自适应深度立体视觉 TensorFlow https://github.com/CVLAB-Unibo/Real-time-self-adaptive-deep-stereo Apache-2.0
几何与语义结合的半监督单目深度估计 - ACCV 2018 TensorFlow https://github.com/CVLAB-Unibo/Semantic-Mono-Depth MIT许可证
BlenderProc:用于生成深度学习数据的程序化Blender管道 Blender https://github.com/DLR-RM/BlenderProc GPL-3.0
SingleViewReconstruction:从单一视口重建3D场景 TensorFlow https://github.com/DLR-RM/SingleViewReconstruction MIT许可证
NNCAP — 用于摄影测量的神经网络复杂方法 https://github.com/Dok11/nn-dldm nn
使用全卷积残差网络改进深度预测的PyTorch实现 PyTorch https://github.com/dontLoveBugs/FCRN_pytorch nn
用于3D物体生成和重建的改进对抗系统 GAN https://github.com/EdwardSmith1884/3D-IWGAN MIT许可证
视觉惯性里程计中的深度学习 PyTorch, CNN https://github.com/ElliotHYLee/Deep_Visual_Inertial_Odometry MIT许可证
机器视觉 列表 https://github.com/Ewenwan/MVision nn
Mesh R-CNN,一篇在ICCV 2019上发表的学术论文 PyTorch, R-CNN https://github.com/facebookresearch/meshrcnn BSD-3-Clause许可证
PyTorch3d是FAIR公司提供的用于3D数据深度学习的可重用组件库。 PyTorch https://github.com/facebookresearch/pytorch3d BSD-3-Clause许可证
自监督稀疏转密集:来自LiDAR和单目相机的自监督深度补全 PyTorch https://github.com/fangchangma/self-supervised-depth-completion MIT许可证
稀疏转密集:从稀疏深度样本和单张图像进行深度预测 PyTorch https://github.com/fangchangma/sparse-to-dense BSD许可证
稀疏转密集:从稀疏深度样本和单张图像进行深度预测 PyTorch https://github.com/fangchangma/sparse-to-dense.pytorch nn
PackNet-SfM:用于自监督单目深度估计的3D打包 PyTorch https://github.com/FangGet/PackNet-SFM-PyTorch GPL-3.0
InvSFM:通过反转运动恢复结构来揭示场景 [CVPR 2019] TensorFlow https://github.com/francescopittaluga/invsfm MIT许可证
使用PyTorch的深度单目视觉里程计(实验性) PyTorch https://github.com/fshamshirdar/DeepVO nn
PointNet:用于3D分类和分割的点云深度学习 PyTorch https://github.com/fxia22/pointnet.pytorch MIT许可证
Pix2Depth - 从单目图像估计深度图 Keras https://github.com/gautam678/Pix2Depth GPL-3.0
3DRegNet:用于3D点云配准的深度神经网络 TensorFlow https://github.com/goncalo120/3DRegNet MIT许可证
神经3D网格渲染器 – 使用神经渲染器从单张图像重建3D https://github.com/hiroharu-kato/mesh_reconstruction MIT许可证
实时可扩展的密集Surfel映射 https://github.com/HKUST-Aerial-Robotics/DenseSurfelMapping nn
MVDepthNet:实时多视角深度估计神经网络 PyTorch https://github.com/HKUST-Aerial-Robotics/MVDepthNet nn
DeepMatchVO:超越光度损失的自监督自我运动估计 https://github.com/hlzz/DeepMatchVO MIT许可证
MIRorR:通过学习表面重建进行可匹配的图像检索 TensorFlow, CNN https://github.com/hlzz/mirror MIT许可证
使用深度特征重建进行单目深度估计和视觉里程计的无监督学习 Caffe https://github.com/Huangying-Zhan/Depth-VO-Feat 非商业用途
深度学习3D视觉论文 论文、列表、CN https://github.com/huayong/dl-vision-papers nn
Open3D PointNet的PyTorch实现 PyTorch, jupyter, Open3D https://github.com/intel-isl/Open3D-PointNet MIT许可证
用于自动驾驶静态场景重建的语义TSDF PyTorch https://github.com/irsisyphus/semantic-tsdf MIT许可证
带有对抗约束的弱监督3D重建 https://github.com/jgwak/McRecon MIT许可证
使用深度学习技术进行立体视觉和3D重建 TensorFlow, CN https://github.com/jiafeng5513/EvisionNet nn
从单目视频中无监督地学习尺度一致的深度和自我运动 PyTorch https://github.com/JiawangBian/SC-SfMLearner-Release GPL-3.0
重新审视单张图像深度估计:迈向具有精确物体边界的更高分辨率地图(官方实现) PyTorch https://github.com/JunjH/Revisiting_Single_Depth_Estimation nn
用于单目深度估计的卷积神经网络可视化(官方实现) CNN, PyTorch https://github.com/JunjH/Visualizing-CNNs-for-monocular-depth-estimation MIT许可证
DeepVO:迈向使用深度循环卷积神经网络的端到端视觉里程计 PyTorch https://github.com/krrish94/DeepVO nn
DISN:用于高质量单视角3D重建的深度隐式表面网络 Tensorflow https://github.com/laughtervv/DISN nn
DeepTAM:深度跟踪与 mapping https://github.com/lmb-freiburg/deeptam GPL-3.0
DeMoN:深度与运动网络 Tensorflow https://github.com/lmb-freiburg/demon GPL-3.0
CloudWalk最近工作的DenseBody的PyTorch实现 PyTorch https://github.com/Lotayou/densebody_pytorch GPL-3.0
在单目内窥镜检查中进行密集深度估计的自监督学习 Tensorflow, Torch https://github.com/lppllppl920/EndoscopyDepthEstimation-Pytorch 非商业用途
ContextDesc:跨模态上下文增强的局部描述符 Tensorflow https://github.com/lzx551402/contextdesc nn
GL3D(基于3D重建的几何学习):为3D重建和几何相关学习问题创建的大规模数据库 https://github.com/lzx551402/GL3D MIT许可证
使用全卷积残差网络进行更深层次的深度预测(官方实现) Tensorflow https://github.com/MahmoudSelmy/DeeperDepthEstimation nn
为深度估计微调Vgg16 Tensorflow https://github.com/MahmoudSelmy/DepthEstimationVGG nn
使用TensorFlow的神经网络进行3D重建。视频链接见此处 https://github.com/micmelesse/3D-reconstruction-with-Neural-Networks nn
使用直接方法从单目视频中学习深度 PyTorch https://github.com/MightyChaos/LKVOLearner BSD-3-Clause
PointNetVLAD:用于大规模场所识别的基于深度点云的检索 Tensorflow https://github.com/mikacuy/pointnetvlad MIT许可证
尝试从图像数据估计一个地区的地形 https://github.com/nbelakovski/topography_neural_net nn
DDRNet:使用级联CNN为消费级深度相机去噪和优化深度图 Tensorflow https://github.com/neycyanshi/DDRNet MIT许可证
从单张图像进行单目深度估计 PyTorch https://github.com/nianticlabs/monodepth2 版权所有 © Niantic, Inc. 2018。专利待批 - 仅限非商业用途
3D-RelNet:用于3D预测的联合对象与关系网络 Torch, jupyter https://github.com/nileshkulkarni/relative3d nn
PlaneRCNN从单张RGB图像中检测并重建分段平面表面 Torch, RCNN https://github.com/NVlabs/planercnn 版权所有 (c) 2018 NVIDIA Corp. 保留所有权利。本作品根据知识共享署名-非商业性使用-相同方式共享4.0许可协议授权。
OctoMap - 基于八叉树的高效概率3D映射框架。 https://github.com/OctoMap/octomap 弗莱堡大学,版权 (C) 2009-2014,octomap:新BSD许可证,octovis及相关库:GPL
无监督单目深度估计神经网络MonoDepth的PyTorch实现(非官方实现) PyTorch https://github.com/OniroAI/MonoDepth-PyTorch nn
学习采样:一种用于点云的可学习采样方法 https://github.com/orendv/learning_to_sample MIT许可证
DeepMVS:学习多视角立体视觉 CNN, PyTorch https://github.com/phuang17/DeepMVS BSD 2条款
DeepV2D:利用可微分运动恢复结构将视频转换为深度 Tensorflow https://github.com/princeton-vl/DeepV2D nn
通过迁移学习实现高质量单目深度估计 Tensorflow https://github.com/priya-dwivedi/Deep-Learning/tree/master/depth_estimation nn(GPL-3.0?)
带有视觉外壳嵌入的深度单视角3D物体重建 CNN, Tensorflow https://github.com/qweas120/PSVH-3d-reconstruction MIT许可证
ScanNet是一个包含250万帧、超过1500次扫描的RGB-D视频数据集,标注了3D相机位姿,... https://github.com/ScanNet/ScanNet 可以使用,但需注明出处并包含原始版权声明
桥梁的视觉检查通常用于识别和评估缺陷 CNN https://github.com/Shaggyshak/CS543_project_Image-based-Localization-of-Bridge-Defects-with-AR-Visualization nn
通过高效的高阶CRF进行语义3D占用映射 CNN https://github.com/shichaoy/semantic_3d_mapping BSD-3-Clause
从3D场景的2D图像中分解形状、姿态和布局 https://github.com/shubhtuls/factored3d nn
Motion R-CNN代码库(旧版) RCNN https://github.com/simonmeister/old-motion-rcnn MIT许可证
几何感知的对称域适应用于单目深度估计 PyTorch https://github.com/sshan-zhao/GASDA nn
3D场景图:统一语义、3D空间和相机的结构 https://github.com/StanfordVL/3DSceneGraph MIT许可证
Minkowski Engine是一个用于高维稀疏张量的自动微分卷积神经网络库 PyTorch https://github.com/stanfordvl/MinkowskiEngine MIT许可证
在有限姿态监督下学习单视角3D重建(官方实现) Tensorflow https://github.com/stevenygd/3d-recon MIT许可证
VNect:使用单个RGB摄像头进行实时3D人体姿态估计(TensorFlow版本) Tensorflow https://github.com/timctho/VNect-tensorflow Apache-2.0
3D-LMNet:用于从单张图像准确且多样化地重建3D点云的潜在嵌入匹配 https://github.com/val-iisc/3d-lmnet MIT许可证
学习寻找良好的对应关系 https://github.com/vcg-uvic/learned-correspondence-release 仅用于研究和评估。商业用途需书面批准
用于深度图像体积积分的框架 https://github.com/victorprad/InfiniTAM 非商业用途
Pixel2Mesh++:通过变形进行多视角3D网格生成 Tensorflow https://github.com/walsvid/Pixel2MeshPlusPlus BSD-3-Clause
来自单个深度图像的对抗性语义场景补全(官方实现) Tensorflow https://github.com/wangyida/gan-depth-semantic3d nn
SurfelWarp:高效的非体积动态重建 https://github.com/weigao95/surfelwarp BSD-3-Clause
PCN:点云补全网络 Tensorflow https://github.com/wentaoyuan/pcn MIT许可证
DISN:用于高质量单视角3D重建的深度隐式表面网络 https://github.com/Xharlie/DISN nn
从结构中实时获取运动 CNN https://github.com/yan99033/CNN-SVO nn
从单个深度视图进行密集3D物体重建 TensorFlow https://github.com/Yang7879/3D-RecGAN-extended MIT许可证
半监督单目深度图预测 Tensorflow https://github.com/Yevkuzn/semodepth GPL-3.0
3DFeat-Net:用于点云配准的弱监督局部3D特征 Tensorflow https://github.com/yewzijian/3DFeatNet MIT许可证
估计深度图有助于图像分类:使用神经网络进行深度估计,并在RGBD图像上学习 https://github.com/yihui-he/Estimated-Depth-Map-Helps-Image-Classification MIT许可证
同时拟合正面和侧面脸部图像的3DMM模型。 https://github.com/Yinghao-Li/3DMM-fitting nn
完美匹配:使用平滑密度进行3D点云匹配 CNN, Tensorflow https://github.com/zgojcic/3DSmoothNet BSD-3-Clause
NeurVPS:通过圆锥卷积进行神经消失点扫描 Tenosorflow https://github.com/zhou13/neurvps MIT许可证
LayoutNet:从单张RGB图像重建3D房间布局(Torch实现) Torch https://github.com/zouchuhang/LayoutNet MIT许可证
NeRF:神经辐射场 https://github.com/bmild/nerf MIT许可证 10
SIGGRAPH 2019上的局部光场融合 https://github.com/fyusion/llff GPL-3.0 10
神经体积——从图像中学习动态可渲染体积 https://research.fb.com/publications/neural-volumes-learning-dynamic-renderable-volumes-from-images/
https://github.com/facebookresearch/neuralvolumes
BY-NC 4.0
学得越少越好——通过3D表面回归进行6D相机定位 https://github.com/vislearn/LessMore BSD-3-Clause
局部特征 https://github.com/vcg-uvic/lf-net-release
Pix2Vox https://github.com/hzxie/Pix2Vox
平面重建:通过关联嵌入从单张图像分段重建3D平面 pytorch https://github.com/svip-lab/PlanarReconstruction
使用深度神经网络进行深度估计 https://medium.com/@omarbarakat1995/depth-estimation-with-deep-neural-networks-part-1-5fa6d2237d0d
https://medium.com/datadriveninvestor/depth-estimation-with-deep-neural-networks-part-2-81ee374888eb
https://github.com/MahmoudSelmy/DeeperDepthEstimation
https://github.com/MahmoudSelmy/DepthEstimationVGG/blob/master/README.md
通过迁移学习实现高质量单目深度估计 https://github.com/ialhashim/DenseDepth
https://arxiv.org/abs/1812.11941
D3Feat https://github.com/XuyangBai/D3Feat
高分辨率图像上的层次化深度立体匹配 pytorch https://github.com/gengshan-y/high-res-stereo MIT
结构感知的残差金字塔网络用于单目深度估计 pytorch https://github.com/Xt-Chen/SARPN nn
用于从单张RGB图像构建3D点云模型的PyTorch代码。 pytorch https://github.com/lkhphuc/pytorch-3d-point-cloud-generation nn
使用全卷积神经网络从RGB图像估计深度 pytorch https://github.com/karoly-hars/DE_resnet_unet_hyb BSD-3-Clause
通过关联嵌入从单张图像分段重建3D平面 torch, tensorflow https://github.com/svip-lab/PlanarReconstruction MIT
TriDepth:基于三角形补丁的深度深度预测 PyTorch https://github.com/syinari0123/tridepth MIT
使用多尺度深度网络从单张图像预测深度图 torch https://github.com/imran3180/depth-map-prediction nn
用于单张图像深度估计的混合CNN torch https://github.com/karoly-hars/DE_resnet_unet_hyb BSD-3-Clause
MarrNet:通过2.5D草图重建3D形状 torch https://github.com/jiajunwu/marrnet nn
一致的视频深度估计 https://roxanneluo.github.io/Consistent-Video-Depth-Estimation/ nn
HF-Net:大规模下的稳健分层定位 torch, tensorflow https://github.com/ethz-asl/hfnet MIT
高分辨率图像上的层次化深度立体匹配 pytorch https://github.com/gengshan-y/high-res-stereo MIT
结构感知的残差金字塔网络用于单目深度估计 pytorch https://github.com/Xt-Chen/SARPN nn
用于从单张RGB图像构建3D点云模型的PyTorch代码。 pytorch https://github.com/lkhphuc/pytorch-3d-point-cloud-generation nn
使用全卷积神经网络从RGB图像估计深度 pytorch https://github.com/karoly-hars/DE_resnet_unet_hyb BSD-3-Clause
通过关联嵌入从单张图像分段重建3D平面 torch, tensorflow https://github.com/svip-lab/PlanarReconstruction MIT
TriDepth:基于三角形补丁的深度深度预测 PyTorch https://github.com/syinari0123/tridepth MIT
使用多尺度深度网络从单张图像预测深度图 torch https://github.com/imran3180/depth-map-prediction nn
用于单张图像深度估计的混合CNN torch https://github.com/karoly-hars/DE_resnet_unet_hyb BSD-3-Clause
MarrNet:通过2.5D草图重建3D形状 torch https://github.com/jiajunwu/marrnet nn
一致的视频深度估计 https://roxanneluo.github.io/Consistent-Video-Depth-Estimation/ nn
HF-Net:大规模下的稳健分层定位 torch, tensorflow https://github.com/ethz-asl/hfnet MIT

其他项目

标题 关键词 URL 许可证
3D-Scene-GAN:基于生成对抗网络的三维场景重建 论文 https://openreview.net/forum?id=SkNEsmJwf
Google:深度学习深度预测 杂志文章,德语 https://www.digitalproduction.com/2019/05/27/google-deep-learning-depth-prediction/
SLAM与深度学习用于室内场景理解 博士论文 https://www.doc.ic.ac.uk/~ajd/Publications/McCormac-J-2019-PhD-Thesis.pdf
基于单张深度图像的稠密3D物体重建 3D-RecGAN++ https://arxiv.org/abs/1802.00411
移动相机,移动人群:一种基于深度学习的深度预测方法 https://ai.googleblog.com/2019/05/moving-camera-moving-people-deep.html
从单张RGB图像中估计深度 http://campar.in.tum.de/Chair/ProjectDepthPrediction
深度基础矩阵估计 http://vladlen.info/papers/deep-fundamental.pdf
depth_estimation https://towardsdatascience.com/depth-estimation-on-camera-images-using-densenets-ac454caa893
3D机器学习列表 https://github.com/timzhang642/3D-Machine-Learning
基于深度学习的3D物体重建——综述——基于图像的3D物体重建:深度学习时代的现状与趋势 https://arxiv.org/pdf/1906.06543.pdf

I2-SDF:通过神经SDF中的光线追踪进行室内场景的内在重建与编辑(CVPR 2023) https://github.com/jingsenzhu/i2-sdf MIT

https://github.com/lioryariv/idr

https://github.com/autonomousvision/differentiable_volumetric_rendering

https://github.com/Dok11/surface-match-dataset

基于图像的3D物体重建:深度学习时代的现状与趋势 https://arxiv.org/pdf/1906.06543v3.pdf

稠密3D物体重建:基于单张深度图像 https://arxiv.org/pdf/1802.00411v2.pdf

https://dagshub.com/OperationSavta/SavtaDepth https://colab.research.google.com/drive/1XU4DgQ217_hUMU1dllppeQNw3pTRlHy1?usp=sharing https://huggingface.co/spaces/kingabzpro/savtadepth MIT许可证

https://github.com/gradslam/gradslam pyTorch

https://github.com/ventusff/neurecon

https://github.com/theICTlab/3DUNDERWORLD-SLS-GPU_CPU

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

140.4k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|昨天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|2天前
Agent图像开发框架