3D-Machine-Learning

10.2k 1.8k 困难 1 次阅读 2天前其他开发框架

AI 解读由 AI 自动生成，仅供参考

3D-Machine-Learning 是一个专注于三维机器学习领域的开源资源库，旨在汇集计算机视觉、图形学与机器学习交叉学科的前沿成果。面对该领域技术迭代快、论文数量庞大且数据表示形式复杂（如多视图图像、体素、点云、网格及图元等）的挑战，它提供了一套系统化的知识整理方案。

该项目不仅分类整理了从基础课程、权威数据集到最新研究论文的海量资料，还覆盖了三维姿态估计、物体检测、语义分割、几何重建及场景理解等核心任务。其独特亮点在于通过直观的图标体系区分不同的三维数据表示形式，帮助读者快速定位所需内容；同时推荐利用关联图谱工具可视化学术脉络，极大提升了文献调研效率。此外，项目还建立了全球协作的社区环境，促进知识共享与合作。

无论是希望入门三维深度学习的学生、需要追踪最新算法的研究人员，还是寻求工程落地的开发者，都能从中获得宝贵的学习路径与参考资料。它将零散的学术资源转化为结构清晰的知识体系，是探索三维智能技术不可或缺的指南针。

使用场景

一家自动驾驶初创公司的算法团队正急需构建一套能精准识别复杂路况中行人和车辆的 3D 感知系统，以优化其自动紧急制动功能。

没有 3D-Machine-Learning 时

资源搜集如大海捞针：工程师需手动在 arXiv、Google Scholar 等多个平台搜索“点云检测”或"3D 重建”论文，耗时数周仍难以覆盖最新成果。
数据格式混乱难统一：面对激光雷达生成的点云（:game_die:）与相机多视图图像（:camera:），团队缺乏明确的数据集指引，常因数据预处理标准不一导致模型训练失败。
技术路线选择盲目：由于缺乏对体素化（:space_invader:）与网格（:gem:）等不同 3D 表示方法的系统对比，团队在选型时反复试错，严重拖慢研发进度。
学术脉络断裂：难以理清经典算法与前沿研究之间的演进关系，导致复现代码时频繁遇到未记录的依赖问题或理论盲区。

使用 3D-Machine-Learning 后

一站式资源导航：团队直接利用该仓库的分类目录，快速定位到"Multiple Objects Detection"板块，瞬间获取该领域最权威的论文列表与开源代码链接。
精准匹配数据源：通过"Datasets"章节，迅速找到适配点云与多视图融合任务的公开数据集（如 Princeton Shape Benchmark），大幅缩短数据清洗周期。
清晰的技术图谱：借助图标分类体系，工程师直观对比不同 3D 表示方法的优劣，迅速确定采用“基于深度学习的点云处理”作为核心路线。
高效社区协作：加入配套的 Slack 社区后，团队成员直接向全球专家请教几何深度学习难点，将原本需要数月摸索的调参过程压缩至几天。

3D-Machine-Learning 将原本分散孤立的学术资源转化为结构化的研发加速器，帮助团队在竞争激烈的自动驾驶赛道上实现了从“盲目探索”到“精准打击”的跨越。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库是一个用于整理和分类 3D 机器学习研究论文的资源列表（Awesome List），并非一个可执行的软件工具或代码库。因此，README 中未包含任何关于操作系统、GPU、内存、Python 版本或依赖库的安装运行需求。用户主要使用该页面查找数据集链接、课程资源和相关学术论文。

python未说明

快速开始

3D机器学习

近年来，3D机器学习领域取得了巨大进展。该领域是一个融合了计算机视觉、计算机图形学和机器学习的跨学科方向。这个仓库源自我的学习笔记，将用作整理新研究论文的地方。

我将使用以下图标来区分不同的3D表示形式：

:camera: 多视角图像
:space_invader: 体素表示
:game_die: 点云
:gem: 多边形网格
:pill: 基于基元的表示

要查找相关论文及其相互关系，可以访问Connected Papers。它提供了一种以图结构可视化学术领域的便捷方式。

参与贡献

如您希望为本仓库贡献力量，可以通过提交拉取请求添加内容，或直接开一个议题告知我。

:star: :star: :star: :star: :star: :star: :star: :star: :star: :star: :star: :star:
我们还创建了一个Slack工作区，供全球各地的研究者交流问题、分享知识并促进合作。相信通过共同努力，我们可以携手推动这一领域的进步。请通过此链接加入社区。
:star: :star: :star: :star: :star: :star: :star: :star: :star: :star: :star: :star:

可用课程

斯坦福CS231A：计算机视觉——从3D重建到识别（2018年冬季）

UCSD CSE291-I00：面向3D数据的机器学习（2018年冬季）

斯坦福CS468：面向3D数据的机器学习（2017年春季）

MIT 6.838：形状分析（2017年春季）

普林斯顿COS 526：高级计算机图形学（2010年秋季）

普林斯顿CS597：几何建模与分析（2003年秋季）

几何深度学习

3D理解相关论文合集

CreativeAI：面向图形学的深度学习

数据集

若想了解RGBD数据集的综述，可以查看Michael Firman的集合，以及相关的论文《RGBD数据集：过去、现在与未来》(https://arxiv.org/pdf/1604.00999.pdf)。Point Cloud Library也有一个不错的数据集目录。

3D模型

普林斯顿形状基准测试集（2003年） [链接]
共收集了1,814个来自网络的.OFF格式模型，用于评估基于形状的检索和分析算法。

宜家3D模型及配对图像数据集（2013年） [链接]
包含759张图片和219个模型，文件格式有Sketchup (skp)和Wavefront (obj)，非常适合姿态估计任务。

Open Surfaces：表面外观的丰富标注目录（SIGGRAPH 2013） [链接]
OpenSurfaces是一个大型的标注数据库，由真实世界的消费者照片构建而成。其标注框架利用众包技术，从照片中分割出表面，并为其添加丰富的表面属性，包括材质、纹理和上下文信息。

PASCAL3D+（2014年） [链接]
涵盖12个类别，平均每类超过3,000个对象，适用于3D目标检测和姿态估计任务。

ModelNet（2015年） [链接]
包含来自662个类别的127,915个3D CAD模型。
ModelNet10：10个类别中的4,899个模型。
ModelNet40：40个类别中的12,311个模型，所有模型均采用统一的方向。

ShapeNet（2015年） [链接]
拥有超过300万个模型和4,000多个类别。这是一个规模庞大、组织有序且标注丰富的数据集。
ShapeNetCore [链接]：55个类别下的51,300个模型。

大规模物体扫描数据集（2016年） [链接]
包含1万次RGBD扫描，以及以.PLY格式重建的3D模型。

ObjectNet3D：大规模3D物体识别数据库（2016年） [链接]
涵盖100个类别，90,127张图片，其中包含201,888个物体和44,147个3D形状。
任务包括区域建议生成、2D物体检测、2D检测与3D物体姿态估计的联合任务，以及基于图像的3D形状检索。

Thingi10K：1万份3D打印模型数据集（2016年） [链接]
包含来自thingiverse.com上精选“事物”的1万份模型，适合用于测试3D打印技术，例如结构分析、形状优化或实体几何操作。

ABC：用于几何深度学习的大型CAD模型数据集 [链接][论文]
本工作介绍了一个用于几何深度学习的数据集，包含超过100万个独立且高质量的几何模型，每个模型都配有精确的真值信息，包括补丁分解、明确的尖锐特征标注以及解析的微分属性。

:game_die: ScanObjectNN：基于真实世界数据的新基准数据集及分类模型（ICCV 2019） [链接]
本工作介绍了ScanObjectNN，这是一个基于室内场景扫描数据构建的新颖真实世界点云物体数据集。该研究中的全面基准测试表明，由于真实世界的扫描数据中物体常被背景遮挡或因遮挡而呈现不完整状态，这一数据集对现有的点云分类技术提出了巨大挑战。研究还识别出点云物体分类领域的三个关键开放问题，并提出了一种新的点云分类神经网络，该网络在处理具有复杂背景的物体分类任务时达到了最先进的性能。

VOCASET：语音-4D头部扫描数据集（2019年） [链接][论文]
VOCASET是一个4D面部数据集，包含约29分钟以60帧每秒采集的4D扫描数据，并同步了音频。该数据集共有12名受试者，共480段长约3至4秒的序列，其中的句子选自一系列能够最大化音素多样性的标准协议。

3D-FUTURE：带有纹理的3D家具形状数据集（2020年） [链接]
3D-FUTURE包含5,000多个多样化房间中的20,000多个干净且逼真的合成场景，其中包括由专业设计师开发的10,000多个具有高分辨率、信息丰富纹理的独特高质量3D家具实例。

Fusion 360 Gallery 数据集（2020年） [链接][论文]
Fusion 360 Gallery 数据集包含了从参数化CAD模型中提取的丰富的2D和3D几何数据。重建数据集提供了一组简单“草图与拉伸”设计的连续构造序列信息。分割数据集则根据CAD建模操作对3D模型进行分割，包括B-Rep格式、网格和点云。

机械部件基准数据集（2020年）[链接][论文]
MCB是一个大规模的机械部件3D对象数据集。它总共包含58,696个机械部件，分为68个类别。

组合式3D形状数据集（2020年） [链接][论文]
组合式3D形状数据集由14个类别的406个实例组成。我们数据集中的每个物体都被视为一系列基本体素放置的等价物。与其他3D物体数据集相比，我们的数据集包含了单元体素的组装序列。这意味着我们可以快速获得一个模拟人类组装过程的顺序生成流程。此外，在验证采样序列的有效性后，我们还可以从给定的组合式形状中随机采样有效的序列。综上所述，我们的组合式3D形状数据集具有以下特点：(i) 组合性，(ii) 顺序性，(iii) 可分解性，以及 (iv) 可操作性。

3D场景

NYU深度数据集V2（2012年） [链接]
来自Kinect视频序列的1,449对密集标注的RGB与深度图像配对，涵盖多种室内场景。

SUNRGB-D 3D物体检测挑战赛 [链接]
19个物体类别，用于预测真实世界尺寸的3D边界框
训练集：10,355张RGB-D场景图像，测试集：2,860张RGB-D图像

SceneNN（2016年） [链接]
100多个带有顶点级和像素级标注的室内场景网格。

ScanNet（2017年） [链接]
一个包含250万视角的RGB-D视频数据集，覆盖1,500多次扫描，附有3D相机姿态、表面重建以及实例级语义分割标注。

Matterport3D：基于室内环境RGB-D数据的学习（2017年） [链接]
来自90个私人房间尺度场景的194,400张RGB-D图像中提取的10,800张全景视图（同时包含RGB和深度信息）。针对区域（客厅、厨房）和物体（沙发、电视）类别提供了实例级语义分割。

SUNCG：用于室内场景的大规模3D模型库（2017年） [链接]
该数据集包含超过4.5万个不同的场景，每个场景都由人工创建了逼真的房间和家具布局。所有场景都在对象级别进行了语义标注。

MINOS：多模态室内模拟器（2017年） [链接]
MINOS是一款旨在支持在复杂室内环境中开发面向目标的多感官导航模型的模拟器。MINOS利用大规模的复杂3D环境数据集，并支持灵活配置多模态传感器套件。MINOS支持SUNCG和Matterport3D场景。

Facebook House3D：丰富且逼真的3D虚拟环境（2017年） [链接]
House3D是一个虚拟3D环境，包含4.5万个室内场景，涵盖了来自SUNCG数据集的多样化场景类型、布局和物体。所有3D物体均带有完整的类别标签。环境中的智能体可以获取多种模态的观测信息，包括RGB图像、深度图、分割掩码以及俯视二维地图视图。

HoME：家庭多模态环境（2017年） [链接]
HoME整合了基于SUNCG数据集的超过4.5万个多样化的3D房屋布局，这一规模有助于学习、泛化和迁移。HoME是一个开源、兼容OpenAI Gym的平台，可扩展应用于强化学习、语言接地、基于声音的导航、机器人技术以及多智能体学习等任务。

AI2-THOR：用于AI智能体的写实交互式环境 [链接]
AI2-THOR是一个逼真的可交互框架，专为AI智能体设计。THOR环境1.0版本共包含120个场景，覆盖厨房、客厅、卧室和浴室四类房间。每个房间都配备若干可操作对象。

UnrealCV：用于计算机视觉的虚拟世界（2017年） [链接][论文]
一个开源项目，旨在帮助计算机视觉研究人员使用虚幻引擎4构建虚拟世界。

Gibson Environment：具身智能体的真实世界感知环境（2018 CVPR） [链接]
该平台提供来自1000个点云的RGB图像，以及多模态传感器数据：表面法线、深度，并且部分空间还包含语义对象标注。该环境也具备物理引擎，适合强化学习应用。使用此类数据集可以进一步缩小虚拟环境与现实世界之间的差距。

InteriorNet：超大规模多传感器写实室内场景数据集 [链接]
系统概述：一套端到端的流水线，用于渲染RGB-D惯性基准数据集，以支持大规模室内场景理解和建图。我们的数据集包含2000万张由以下流程生成的图像：(A) 我们收集了约100万个由全球领先的家具制造商提供的CAD模型。这些模型已被实际生产所采用。(B) 基于这些模型，约1100名专业设计师创建了约2200万个室内布局。其中大多数布局已被用于实际装修。(C) 针对每个布局，我们生成了多种配置，以模拟日常生活中不同的随机光照及场景随时间的变化。(D) 我们提供了一个交互式模拟器（ViSim），用于生成IMU、事件以及单目或双目相机轨迹的地面真值，包括手绘轨迹、随机行走轨迹和基于神经网络的逼真轨迹。(E) 所有支持的图像序列及地面真值。

Semantic3D[链接]
大规模点云分类基准，提供包含超过40亿个点的自然场景大型标注3D点云数据集，同时也涵盖多种城市场景。

Structured3D：用于结构化3D建模的大型写实数据集 [链接]

3D-FRONT：带布局和语义信息的3D家具化房间 [链接]
包含1万栋房屋（或公寓）及约7万个带有布局信息的房间。

3ThreeDWorld（TDW）：高保真、多模态的交互式物理仿真平台 [链接]

MINERVAS：大规模室内环境虚拟合成 [链接]

3D姿态估计

基于单张图像的类别特定物体重建（2014） [论文]

视角与关键点（2015） [论文]

为CNN而渲染：利用基于渲染的3D模型视图训练的CNN进行图像中的视角估计（2015 ICCV） [论文]

PoseNet：用于实时6自由度相机重定位的卷积网络（2015） [论文]

深度学习在相机重定位中的不确定性建模（2016） [论文]

基于深度学习的视角分类实现鲁棒的相机位姿估计（2016） [论文]

基于LSTM的结构化特征关联的图像定位（2017 ICCV） [论文]

基于Hourglass网络的图像定位（2017 ICCV研讨会） [论文]

深度学习下用于相机位姿回归的几何损失函数（2017 CVPR） [论文]

通过姿态估计与匹配实现通用3D表示（2017） [论文]

利用深度学习与几何学进行3D边界框估计（2017） [论文]

基于语义关键点的6自由度物体姿态（2017） [论文]

利用卷积神经网络进行相对相机位姿估计（2017） [论文]

3DMatch：从RGB-D重建中学习局部几何描述子（2017） [论文]

单张图像3D解释网络（2016） [论文] [代码]

多视图一致性作为监督信号用于学习形状和姿态预测（2018 CVPR） [论文]

PoseCNN：用于杂乱场景中6D物体姿态估计的卷积神经网络（2018） [论文]

用于从合成图像中快速准确推断3D姿态的特征映射（2018 CVPR） [论文]

Pix3D：单张图像3D形状建模的数据集与方法（2018 CVPR） [论文]

野外环境中物体的3D姿态估计与3D模型检索（2018 CVPR） [论文]

用于家用物品语义机器人抓取的深度物体姿态估计（2018） [论文]

MocapNET2：一种实时方法，可直接以流行的生物视觉层次结构（BVH）格式估计人体3D姿态（2021） [论文]，[代码]

单个物体分类

:space_invader: 3D ShapeNets：用于体素化形状的深度表示（2015） [论文]

:space_invader: VoxNet：用于实时物体识别的3D卷积神经网络（2015） [论文] [代码]

:camera: 用于3D形状识别的多视角卷积神经网络（2015） [论文]

:camera: DeepPano：用于3D形状识别的深度全景表示（2015） [论文]

:space_invader::camera: FusionNet：利用多种数据表示进行3D物体分类（2016） [论文]

:space_invader::camera: 用于3D数据物体分类的体素和多视角CNN（2016） [论文] [代码]

:space_invader: 基于卷积神经网络的生成与判别式体素建模（2016） [论文] [代码]

:gem: 使用混合模型CNN在图和流形上进行几何深度学习（2016） [链接]

:space_invader: 3D GAN：通过3D生成对抗建模学习物体形状的概率潜在空间（2016） [论文] [代码]

:space_invader: 基于卷积神经网络的生成与判别式体素建模（2017） [论文]

:space_invader: FPNN：用于3D数据的场探测神经网络（2016） [论文] [代码]

:space_invader: OctNet：以高分辨率学习深度3D表示（2017） [论文] [代码]

:space_invader: O-CNN：基于八叉树的卷积神经网络用于3D形状分析（2017） [论文] [代码]

:space_invader: 面向3D物体识别的方向增强型体素网络（2017） [论文] [代码]

:game_die: PointNet：针对3D分类与分割的点云深度学习（2017） [论文] [代码]

:game_die: PointNet++：度量空间中点云上的深度层次特征学习（2017） [论文] [代码]

:camera: 反馈网络（2017） [论文] [代码]

:game_die: 逃离细胞：用于3D点云模型识别的深度Kd网络（2017） [论文]

:game_die: 用于点云学习的动态图CNN（2018） [论文]

:game_die: PointCNN（2018） [论文]

:game_die::camera: 一种通过自动生成深度图像进行点云分类的网络架构（2018 CVPR） [论文]

:game_die::space_invader: PointGrid：用于3D形状理解的深度网络（CVPR 2018） [论文] [代码]

:gem: MeshNet：用于三维形状表示的网格神经网络（AAAI 2019） [论文] [代码]

:game_die: SpiderCNN（2018） [论文][代码]

:game_die: PointConv（2018） [论文][代码]

:gem: MeshCNN（SIGGRAPH 2019） [论文][代码]

:game_die: SampleNet：可微分点云采样（CVPR 2020） [论文] [代码]

多物体检测

用于深度图像中三维物体检测的滑动形状（2014） [论文]

基于多视角图像中CNN的三维场景物体检测（2016） [论文]

用于RGB-D图像中遮挡性三维物体检测的深度滑动形状（2016） [论文] [代码]

使用定向梯度云进行三维物体检测与布局预测（2016） [CVPR '16 论文] [CVPR '18 论文] [T-PAMI '19 论文]

DeepContext：用于三维整体场景理解的上下文编码神经通路（2016） [论文]

SUN RGB-D：一个RGB-D场景理解基准套件（2017） [论文]

VoxelNet：基于点云的端到端三维物体检测学习（2017） [论文]

用于RGB-D数据中三维物体检测的Frustum PointNets（CVPR2018） [论文]

A^2-Net：从冷冻电镜密度体积中估计分子结构（AAAI2019） [论文]

基于立体R-CNN的自动驾驶三维物体检测（CVPR2019） [论文]

用于点云中三维物体检测的深度霍夫投票法（ICCV2019） [论文] [代码]

场景/物体语义分割

学习三维网格分割与标注（2010） [论文]

通过描述子空间谱聚类对一组形状进行无监督协同分割（2011） [论文]

通过图像和形状集合的联合分析进行单视图重建（2015） [论文] [代码]

使用投影卷积网络进行三维形状分割（2017） [论文] [代码]

从在线资源库中学习层次化形状分割与标注（2017） [论文]

:space_invader: ScanNet（2017） [论文] [代码]

:game_die: PointNet：用于三维分类与分割的点集深度学习（2017） [论文] [代码]

:game_die: PointNet++：度量空间中点集的深度层次特征学习（2017） [论文] [代码]

:game_die: 用于RGB-D语义分割的3D图神经网络（2017） [论文]

:game_die: 3DCNN-DQN-RNN：大规模3D点云语义解析的深度强化学习框架（2017） [论文]

:game_die::space_invader: 使用卷积神经网络进行室内点云语义分割（2017） [论文]

:game_die::space_invader: SEGCloud：3D点云语义分割（2017） [论文]

:game_die::space_invader: 基于ShapeNet Core55的大规模3D形状重建与分割（2017） [论文]

:game_die: 逐点卷积神经网络（CVPR 2018） [链接]
我们提出了一种逐点卷积方法，该方法可实时进行体素化，以学习点云的局部特征。

:game_die: 用于点云学习的动态图卷积网络（2018） [论文]

:game_die: PointCNN（2018） [论文]

:camera::space_invader: 3DMV：用于3D语义场景分割的联合3D-多视角预测（2018） [论文]

:space_invader: ScanComplete：3D扫描的大规模场景补全与语义分割（2018） [论文]

:game_die::camera: SPLATNet：用于点云处理的稀疏格子网络（2018） [论文]

:game_die::space_invader: PointGrid：用于3D形状理解的深度网络（CVPR 2018） [论文] [代码]

:game_die: PointConv（2018） [论文][代码]

:game_die: SpiderCNN（2018） [论文][代码]

:space_invader: 3D-SIS：RGB-D扫描的3D语义实例分割（CVPR 2019） [论文][代码]

:game_die: 室内场景的实时渐进式3D语义分割（WACV 2019） [链接]
我们提出了一种高效且鲁棒的技术，用于对3D室内场景进行实时密集重建和语义分割。我们的方法基于高效的超体素聚类算法以及结合结构和物体线索的高阶约束条件的条件随机场，从而能够在无需任何预计算的情况下实现渐进式的密集语义分割。

:game_die: JSIS3D：3D点云的联合语义-实例分割（CVPR 2019） [链接]
我们通过一个多任务逐点网络同时解决3D点云的语义分割和实例分割问题：该网络可以预测3D点的语义类别，并将点嵌入到高维向量中，使得同一对象实例的点由相似的嵌入表示。随后，我们提出了一种多值条件随机场模型来整合语义和实例标签，并将语义和实例分割问题表述为在该场模型中联合优化标签。

:game_die: ShellNet：基于同心壳统计的高效点云卷积神经网络（ICCV 2019） [链接]
我们提出了一种高效的端到端排列不变卷积方法，用于点云深度学习。通过利用同心球壳的统计信息来定义具有代表性的特征，并解决点顺序的歧义问题，从而使传统的卷积操作能够高效地作用于这些特征。

:game_die: 用于3D点云深度学习的旋转不变卷积（3DV 2019） [链接]
我们提出了一种新颖的点云卷积算子，实现了旋转不变性。我们的核心思想是利用距离和角度等低级的旋转不变几何特征，设计用于点云学习的卷积算子。

3D模型合成/重建

基于参数化可变形模型的方法

用于3D人脸合成的可变形模型（1999） [论文][代码]

FLAME：带有关节模型和表情的人脸（2017） [论文][代码（Chumpy）][代码（TF）] [代码（PyTorch）]
FLAME 是一个轻量且富有表现力的通用头部模型，由超过33,000个精确对齐的3D扫描数据训练而成。该模型结合了线性身份形状空间（基于3800个头颅扫描训练）与可关节的颈部、下颌和眼球，以及姿态相关的修正混合形和额外的全局表情混合形。代码展示了如何1）从图像中重建带纹理的3D人脸，2）将模型拟合到3D地标或注册好的3D网格上，或者3）生成用于语音驱动面部动画的3D人脸模板。

人体形态空间：基于范围扫描的重建与参数化（2003） [论文]

SMPL-X：单张图像中的3D手部、面部和身体表达式捕捉（2019） [论文][视频][代码]

PIFuHD：用于高分辨率人体数字化的多层级像素对齐隐式函数（CVPR 2020） [论文][视频][代码]

ExPose：通过体感注意力进行单目表情身体回归（2020） [论文][视频][代码]

基于单张图像的特定类别物体重建（2014） [论文]

:game_die: DeformNet：用于从单张图像重建3D形状的自由变形网络（2017） [论文]

:gem: 基于网格的自编码器用于局部变形成分分析（2017） [论文]

:gem: 使用自编码器网络探索生成式3D形状（Autodesk 2017） [论文]

:gem: 利用局部对应的CAD模型进行单张图像的密集3D重建（2017） [论文]

:gem: 用于3D重建的紧凑模型表示（2017） [论文]

:gem: Image2Mesh：用于单张图像3D重建的学习框架（2017） [论文]

:gem: 学习用于3D物体重建的自由变形（2018） [论文]

:gem: 用于变形3D网格模型的变分自编码器（2018 CVPR） [论文]

:gem: 狮子、老虎和熊：从图像中捕捉非刚性、3D、可关节的形状（2018 CVPR） [论文]

基于部件的模板学习方法

基于示例的建模（2004） [论文]

由可互换组件组成的模型（2007） [论文]

数据驱动的建议：用于3D建模中创意支持（2010） [论文]

受照片启发的模型驱动3D对象建模（2011） [论文]

基于装配的3D建模中的概率推理（2011） [论文]

基于组件的形状合成的概率模型（2012） [论文]

通过部件装配进行结构恢复（2012） [论文]

契合与多样：用于激发灵感的3D形状图库的集合演化（2012） [论文]

AttribIt：使用语义属性进行内容创作（2013） [论文]

从大量3D形状集合中学习基于部件的模板（2013） [论文]

通过结构混合实现拓扑可变的3D形状创建（2014） [论文]

利用形状集合估计图像深度（2014） [论文]

通过联合分析图像和形状集合进行单视图重建（2015） [论文]

用于动手装配式建模的可互换组件（2016） [论文]

从单张RGBD图像完成形状（2016） [论文]

深度学习方法

:camera: 利用卷积网络学习生成椅子、桌子和汽车（2014） [论文]

:camera: 弱监督解耦与循环变换用于3D视图合成（2015，NIPS） [论文]

:game_die: 通过深度学习的表面生成模型对3D形状族进行分析与合成（2015） [论文]

:camera: 弱监督解耦与循环变换用于3D视图合成（2015） [论文] [代码]

:camera: 利用卷积网络从单张图像生成多视图3D模型（2016） [论文] [代码]

:camera: 基于外观流的视图合成（2016） [论文] [代码]

:space_invader: Voxlets：从单张深度图像预测未观测体素（2016） [论文] [代码]

:space_invader: 3D-R2N2：3D递归重建神经网络（2016） [论文] [代码]

:space_invader: 透视变换网络：无需3D监督的单视图3D物体重建学习（2016） [论文]

:space_invader: TL-嵌入网络：为物体学习可预测且生成性的向量表示（2016） [论文]

:space_invader: 3D GAN：通过3D生成对抗建模学习物体形状的概率潜在空间（2016） [论文]

:space_invader: 从多物体的2D视图中推断3D形状（2016） [论文]

:camera: 从图像中无监督学习3D结构（2016） [论文]

:space_invader: 基于卷积神经网络的生成与判别体素建模（2016） [论文] [代码]

:camera: 通过可微射线一致性实现单视图重建的多视图监督（2017） [论文]

:camera: 利用深度生成网络建模多视角深度图和轮廓来合成3D形状（2017） [论文] [代码]

:space_invader: 使用3D编码器-预测器CNN和形状合成进行形状补全（2017） [论文] [代码]

:space_invader: 八叉树生成网络：用于高分辨率3D输出的高效卷积架构（2017） [论文] [代码]

:space_invader: 用于3D物体重建的层次化表面预测（2017） [论文]

:space_invader: OctNetFusion：从数据中学习深度融合（2017） [论文] [代码]

:game_die: 用于从单张图像重建3D物体的点集生成网络（2017） [论文] [代码]

:game_die: 用于3D点云的表示学习和生成模型（2017） [论文] [代码]

:game_die: 使用空间分区点云进行形状生成（2017） [论文]

:game_die: PCPNET：从原始点云中学习局部形状属性（2017） [论文]

:camera: 基于变换的图像生成网络，用于新颖的3D视图合成（2017） [论文] [代码]

:camera: 标签解耦生成对抗网络用于物体图像重渲染（2017） [论文]

:camera: 通过多视图卷积网络从草图重建3D形状（2017） [论文] [代码]

:space_invader: 利用生成对抗网络进行交互式3D建模（2017） [论文]

:camera::space_invader: 带有对抗约束的弱监督3D重建（2017） [论文] [代码]

:camera: SurfNet：利用深度残差网络生成三维形状表面（2017） [论文]

:camera: 利用三维曲面的平面参数化学习重建对称形状（2019） [论文] [代码]

:pill: GRASS：用于形状结构的生成式递归自编码器（SIGGRAPH 2017） [论文] [代码] [代码]

:pill: 3D-PRNN：利用循环神经网络生成形状基元（2017） [论文][代码]

:gem: 神经网络三维网格渲染器（2017） [论文] [代码]

:game_die::space_invader: 基于ShapeNet Core55的大规模三维形状重建与分割（2017） [论文]

:space_invader: Pix2vox：基于草图的三维探索，采用堆叠生成对抗网络（2017） [代码]

:camera::space_invader: 所绘即所得：利用多视角深度体素预测进行三维草图绘制（2017） [论文]

:camera::space_invader: MarrNet：通过2.5D草图进行三维形状重建（2017） [论文]

:camera::space_invader::game_die: 学习多视图立体视觉机器（2017 NIPS） [论文]

:space_invader: 3DMatch：从RGB-D重建中学习局部几何描述符（2017） [论文]

:space_invader: 为单张图像的高分辨率体积重建扩展CNN（2017） [论文]

:pill: ComplementMe：用于三维建模的弱监督组件建议（2017） [论文]

:space_invader: 学习用于三维形状合成与分析的描述符网络（2018 CVPR） [项目] [论文] [代码]

基于能量的三维形状描述符网络是一种用于体素化形状模式的深度能量模型。该模型的最大似然训练遵循“以合成促分析”的方案，可被解释为一种寻找和转移模式的过程。通过诸如朗之万动力学之类的MCMC采样方法，该模型可以从概率分布中生成三维形状模式。实验表明，所提出的模型能够生成逼真的三维形状模式，并可用于三维形状分析。

:game_die: PU-Net：点云上采样网络（2018） [论文] [代码]

:camera::space_invader: 多视图一致性作为监督信号，用于学习形状和姿态预测（2018 CVPR） [论文]

:camera::game_die: 以对象为中心的光度束调整，结合深度形状先验（2018） [论文]

:camera::game_die: 学习高效的点云生成技术，用于密集型三维物体重建（2018 AAAI） [论文]

:gem: Pixel2Mesh：从单张RGB图像生成三维网格模型（2018） [论文]

:gem: AtlasNet：一种基于纸浆工艺的学习三维表面生成方法（2018 CVPR） [论文] [代码]

:space_invader::gem: 深度Marching Cubes：学习显式表面表示（2018 CVPR） [论文]

:space_invader: Im2Avatar：基于单张图像的彩色3D重建（2018） [论文]

:gem: 从图像集合中学习特定类别的网格重建（2018） [论文]

:pill: CSGNet：用于构造实体几何的神经形状解析器（2018） [论文]

:space_invader: Text2Shape：通过学习联合嵌入从自然语言生成形状（2018） [论文]

:space_invader::gem::camera: 高分辨率3D物体表示的多视角轮廓与深度分解（2018） [论文] [代码]

:space_invader::gem::camera: 像素、体素和视图：单视角3D物体形状预测的形状表示研究（2018 CVPR） [论文]

:camera::game_die: 神经场景表示与渲染（2018） [论文]

:pill: Im2Struct：从单张RGB图像恢复3D形状结构（2018 CVPR） [论文]

:game_die: FoldingNet：基于深度网格变形的点云自编码器（2018 CVPR） [论文]

:camera::space_invader: Pix3D：单张图像3D形状建模的数据集与方法（2018 CVPR） [论文]

:gem: 3D-RCNN：基于渲染与比较的实例级3D物体重建（2018 CVPR） [论文]

:space_invader: 套娃网络：通过嵌套形状层预测3D几何形状（2018 CVPR） [论文]

:gem: 基于图卷积自编码器的可变形形状补全（2018 CVPR） [论文]

:space_invader: 3D形状的全局到局部生成模型（SIGGRAPH Asia 2018） [论文][代码]

:gem::game_die::space_invader: ALIGNet：通过无监督学习实现部分形状无关对齐（TOG 2018） [论文] [代码]

:game_die::space_invader: PointGrid：用于3D形状理解的深度网络（CVPR 2018） [论文] [代码]

:game_die: GAL：用于单视角3D物体重建的几何对抗损失（2018） [论文]

:game_die: 视觉对象网络：具有解耦3D表示的图像生成（2018） [论文]

:space_invader: 学习推断并执行3D形状程序（2019） [论文]

:gem: 为单视角3D重建学习视图先验（CVPR 2019） [论文]

:gem::game_die: 使用二次损失学习3D模型的嵌入（BMVC 2019） [论文] [代码]

:game_die: CompoNet：通过部件合成与组合学习生成未见对象（ICCV 2019） [论文][代码]

CoMA：卷积网格自编码器（2018） [论文][代码（TF）][代码（PyTorch）][代码（PyTorch）]
CoMA 是一种多功能模型，它利用网格表面上的谱卷积学习人脸的非线性表示。CoMA 引入了网格采样操作，从而实现分层的网格表示，能够在模型内部以多尺度捕捉形状和表情中的非线性变化。

RingNet：单张图像的三维人脸重建（2019） [论文][代码]

VOCA：语音驱动的角色动画（2019） [论文][视频][代码]
VOCA 是一个简单且通用的语音驱动面部动画框架，适用于多种不同身份的人脸。该代码库展示了如何根据任意语音信号和静态角色网格来合成逼真的角色动画。

:gem: 基于插值的可微渲染器学习预测三维物体 [论文][网站][代码]

:gem: 软光栅化器：用于基于图像的三维推理的可微渲染器 [论文][代码]

NeRF：将场景表示为神经辐射场以进行视图合成 [项目][论文][代码]

:gem::game_die: GAMesh：面向深度点网络的引导与增强网格化方法（3DV 2020） [项目][论文][代码]

:space_invader: 生成式体素网：学习基于能量的模型用于三维形状的合成与分析（2020 TPAMI） [论文]

本文提出了一种深度三维能量模型来表示体素化的形状。该模型的最大似然训练遵循“由合成推导”的方案。实验表明，所提出的模型能够生成高质量的三维形状模式，并可用于各种三维形状分析任务。

:game_die: 生成式点云网：面向无序点集的深度能量学习，用于三维生成、重建和分类（2021 CVPR） [项目][论文][代码]

生成式点云网是一种基于能量的无序点云模型，其能量函数由一个输入排列不变的自底向上神经网络参数化。该模型可以通过基于 MCMC 的最大似然学习进行训练，也可以通过短时间运行的 MCMC 将能量模型作为类似流的生成器用于点云的重建和插值。学习到的点云表示对于点云分类非常有用。

:game_die: :gem: 塑造我的脸：基于面到面变换的三维人脸扫描配准 [论文][代码]

“塑造我的脸”（SMF）是一个点云到网格的自编码器，用于原始人脸扫描的配准以及合成人脸的生成。SMF 利用经过改进的 PointNet 编码器，结合视觉注意力模块和可微表面采样，使其不依赖于原始的表面表示，从而减少预处理的需求。网格卷积解码器与专门针对口腔的 PCA 模型相结合，并根据测地距离平滑融合，形成一个紧凑且对噪声具有高度鲁棒性的模型。SMF 被应用于在野外使用 iPhone 深度相机捕获的扫描数据的配准及表情迁移，这些数据既可以表示为网格，也可以表示为点云。

:game_die: 学习隐式场用于生成式形状建模（2019） [论文][代码]

我们提倡使用隐式场来学习形状的生成模型，并引入了一种名为 IM-NET 的隐式场解码器，用于形状生成，旨在提升生成形状的视觉质量。隐式场为三维空间中的每个点分配一个值，从而可以将形状提取为等值面。IM-NET 经过训练，能够通过二元分类器完成这一分配。具体而言，它接收一个点的坐标以及编码形状特征的向量，然后输出一个值，指示该点是在形状外部还是内部。通过用我们的隐式解码器替代传统的解码器来进行表征学习（通过 IM-AE）和形状生成（通过 IM-GAN），我们在生成式形状建模、插值以及单目三维重建等任务中都取得了更优的结果，尤其是在视觉质量方面。

纹理/材质分析与合成

使用卷积神经网络的纹理合成（2015） [论文]

用于静止材质的两步SVBRDF捕获（SIGGRAPH 2015） [论文]

基于神经纹理合成的反射率建模（2016） [论文]

利用自增强卷积神经网络从单张照片建模表面外观（2017） [论文]

高分辨率多尺度神经纹理合成（2017） [论文]

利用深度学习从单一材质的镜面物体中恢复反射率和自然光照（2017） [论文]

从野外照片集中联合估计材质与光照（2017） [论文]

J相机周围有什么？（2017） [论文]

TextureGAN：用纹理块控制深度图像合成（2018 CVPR） [论文]

高斯材质合成（2018 SIGGRAPH） [论文]

通过对抗扩张实现非平稳纹理合成（2018 SIGGRAPH） [论文]

通过图像及梯度幅值系数的多尺度空间与统计纹理特征评估合成纹理质量（2018 CVPR） [论文]

LIME：实时内在材质估计（2018 CVPR） [论文]

利用渲染感知深度网络进行单张图像SVBRDF捕获（2018） [论文]

PhotoShape：用于大规模形状集合的逼真材质（2018） [论文]

为3D形状学习材质感知局部描述符（2018） [论文]

FrankenGAN：使用风格同步GAN引导建筑体量模型的细节合成（2018 SIGGRAPH Asia） [论文]

风格学习与迁移

基于各向异性部件尺度的风格-内容分离（2010） [论文]

保持设计的服装迁移（2012） [论文]

类比驱动的三维风格迁移（2014） [论文]

风格要素：学习感知形状风格相似性（2015） [论文] [代码]

保持功能性的形状风格迁移（2016） [论文] [代码]

无监督的图像到模型集合的纹理迁移（2016） [论文]

基于几何特征的学习细节迁移（2017） [论文]

三维形状上风格定义元素的协同定位（2017） [论文]

神经网络三维网格渲染器（2017） [论文] [代码]

通过代理与图像对齐进行外观建模（2018） [论文]

:gem: Pixel2Mesh：从单张RGB图像生成三维网格模型（2018） [论文]

自动非配对形状变形迁移（SIGGRAPH Asia 2018） [论文]

3DSNet：无监督的形状到形状三维风格迁移（2020） [论文] [代码]

场景合成/重建

让家更温馨：家具布局的自动优化（2011，SIGGRAPH） [论文]

利用室内设计指南进行交互式家具布局（2011） [论文]

使用局部退火可逆跳跃MCMC在约束条件下合成开放世界（2012） [论文]

基于示例的三维物体布局合成（2012 SIGGRAPH Asia） [论文]

Skyetch2Scene：基于草图的三维模型协同检索与协同放置（2013） [论文]

动作驱动的三维室内场景演化（2016） [论文]

The Clutterpalette：用于细化室内场景的交互式工具（2015） [论文]

Image2Scene：改变三维房间的风格（2015） [论文]

用于创建场景变体的关系模板（2016） [论文]

IM2CAD（2017） [论文]

预测完整的室内场景三维模型（2017） [论文]

从单张RGBD图像完整解析三维场景（2017） [论文]

栅格转矢量：重新审视平面图转换（2017年，ICCV） [论文] [代码]

用于3D多物体场景的全卷积精炼自编码生成对抗网络（2017年） [博客]

基于活动关联对象关系图的室内场景自适应合成（2017年SIGGRAPH Asia） [论文]

利用遗传算法的自动化室内设计（2017年） [论文]

SceneSuggest：情境驱动的3D场景设计（2017年） [论文]

一种端到端深度学习方法，用于实时同步的3D重建与材料识别（2017年） [论文]

基于随机文法的人本化室内场景合成（2018年，CVPR）[论文] [补充材料] [代码]

:camera::game_die: FloorNet：基于3D扫描的平面图重建统一框架（2018年） [论文] [代码]

:space_invader: ScanComplete：大规模场景补全与3D扫描的语义分割（2018年） [论文]

用于室内场景合成的深度卷积先验（2018年） [论文]

:camera: 基于深度卷积生成模型的快速灵活室内场景合成（2018年） [论文] [代码]

使用随机文法实现可配置的3D场景合成与逐像素真值的2D图像渲染（2018年） [论文]

从单张RGB图像进行整体3D场景解析与重建（ECCV 2018） [论文]

基于语言的场景数据库驱动的3D场景合成（SIGGRAPH Asia 2018） [论文]

基于混合表示的场景合成深度生成建模（2018年） [论文]

GRAINS：面向室内场景的生成式递归自编码器（2018年） [论文]

SEETHROUGH：在严重遮挡的室内场景图像中寻找物体（2018年） [论文]

:space_invader: Scan2CAD：在RGB-D扫描中学习CAD模型对齐（CVPR 2019） [论文] [代码]

:gem: Scan2Mesh：从非结构化距离扫描到3D网格（CVPR 2019） [论文]

:space_invader: 3D-SIC：针对RGB-D扫描的3D语义实例补全（arXiv 2019） [论文]

:space_invader: 3D扫描中的端到端CAD模型检索与9自由度对齐（arXiv 2019） [论文]

3D室内场景合成综述（2020年） [论文]

:pill: :camera: PlanIT：利用关系图和空间先验网络进行室内场景规划与实例化（2019） [论文] [代码]

:space_invader: 特征度量配准：一种无需对应点的快速半监督鲁棒点云配准方法（CVPR 2020） [论文][代码]

:pill: 面向人的室内场景评估与合成指标（2020） [论文]

SceneCAD：预测RGB-D扫描中的物体对齐与布局（2020） [论文]

场景理解（另一个更详细的 仓库）

恢复杂乱房间的空间布局（2009） [论文]

利用图核刻画场景中的结构关系（2011 SIGGRAPH） [论文]

使用3D几何短语理解室内场景（2013） [论文]

通过情境焦点组织异构场景集合（2014 SIGGRAPH） [论文]

SceneGrok：在3D环境中推断动作地图（2014，SIGGRAPH） [论文]

PanoContext：用于全景场景理解的全室3D上下文模型（2014） [论文]

学习信息丰富的边缘图用于室内场景布局预测（2015） [论文]

Rent3D：用于单目布局估计的平面图先验（2015） [论文]

一种由粗到细的室内布局估计方法（CFILE，2016） [论文]

DeLay：针对杂乱室内场景的鲁棒空间布局估计（2016） [论文]

大规模室内空间的3D语义解析（2016） [论文] [代码]

单张图像3D解释网络（2016） [论文] [代码]

深度多模态图像对应学习（2016） [论文]

基于物理的渲染结合卷积神经网络用于室内场景理解（2017） [论文] [代码] [代码] [代码] [代码]

RoomNet：端到端房间布局估计（2017） [论文]

SUN RGB-D：一个RGB-D场景理解基准套件（2017） [论文]

从单张深度图像进行语义场景补全（2017） [论文] [代码]

从3D场景的2D图像中分解形状、姿态和布局（2018 CVPR） [论文] [代码]

LayoutNet：从单张RGB图像重建3D房间布局（2018 CVPR） [论文] [代码]

PlaneNet：基于单张RGB图像的分段平面重建（2018 CVPR） [论文] [代码]

利用合成图像进行跨域自监督多任务特征学习（2018 CVPR） [论文]

Pano2CAD：从单张全景图像中恢复房间布局（2018 CVPR） [论文]

基于单张全景图的室内场景自动三维建模（2018 CVPR） [论文]

基于关联嵌入的单幅图像分段平面三维重建（2019 CVPR） [论文] [代码]

基于逆向图形的三维感知场景操控（NeurIPS 2018） [论文] [代码]

:gem: 基于多层深度与极线变换器的三维场景重建（ICCV 2019） [论文]

PerspectiveNet：通过透视点实现单张RGB图像中的三维目标检测（NIPS 2019） [论文]

Holistic++ 场景理解：单视角三维整体场景解析与人体姿态估计，包含人-物交互及物理常识推理（ICCV 2019） [论文与代码]

3D-Machine-Learning 快速上手指南

注意：3D-Machine-Learning 并非一个可直接安装运行的软件包或库，而是一个** curated（精选）的资源汇总仓库**。它主要收集了 3D 机器学习领域的课程、数据集、论文分类及研究笔记。因此，本指南将指导你如何获取该资源列表，并基于其中的内容搭建开发环境。

1. 环境准备

由于本项目是资源索引，你需要根据你选择的具体研究方向（如点云处理、3D 重建等）配置相应的深度学习环境。以下是通用的基础环境要求：

操作系统: Linux (推荐 Ubuntu 18.04/20.04) 或 macOS
编程语言: Python 3.7+
核心依赖:
- PyTorch 或 TensorFlow (根据具体论文代码要求)
- CUDA & cuDNN (用于 GPU 加速)

常用 3D 数据处理库 (建议预先安装):

pip install numpy scipy matplotlib trimesh open3d pytorch3d

国内加速建议：推荐使用清华或中科大镜像源安装 Python 依赖，以提升下载速度：
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple <package_name>

2. 获取资源与安装步骤

你不需要“安装”此工具，而是需要克隆仓库以获取最新的数据集链接、课程笔记和论文分类。

步骤 1: 克隆仓库

使用 Git 将资源库下载到本地：

git clone https://github.com/timzhang642/3D-Machine-Learning.git
cd 3D-Machine-Learning

国内加速建议：如果 GitHub 连接缓慢，可使用 Gitee 镜像（如有）或通过代理加速：
git clone https://gitee.com/mirror/3D-Machine-Learning.git
# 或者使用国内代理前缀
git clone https://ghproxy.com/https://github.com/timzhang642/3D-Machine-Learning.git

步骤 2: 浏览资源目录

进入目录后，直接查看 README.md 文件，其中包含了按领域分类的详细资源列表：

Courses: 斯坦福、MIT 等名校的 3D 视觉课程。
Datasets: ModelNet, ShapeNet, ScanObjectNN 等主流数据集下载链接。
Tasks: 涵盖分类、检测、分割、重建、生成等任务的论文索引。

cat README.md

3. 基本使用

本项目的核心用法是作为研究导航，引导你找到特定的数据集或论文代码。以下是典型的使用流程示例：

场景：寻找点云分类数据集并加载示例

假设你想进行点云分类研究，根据仓库中的 Datasets 章节，你发现了 ScanObjectNN 数据集。

访问链接：在 README 中找到 ScanObjectNN 的链接 (https://hkust-vgd.github.io/scanobjectnn/) 并下载数据。

使用 Open3D 加载数据 (示例代码)：下载完成后，你可以使用 Python 和 open3d 库快速查看数据：

import open3d as o3d

# 替换为你实际下载的数据路径
file_path = "path/to/scanobjectnn_data/example.ply"

# 读取点云
pcd = o3d.io.read_point_cloud(file_path)

# 可视化
o3d.visualization.draw_geometries([pcd])

场景：学习相关课程

根据 Courses 章节，你可以直接访问斯坦福 CS231A 课程主页进行学习：

访问：http://web.stanford.edu/class/cs231a/
获取课件、作业和讲座视频以构建理论基础。

参与社区

如需进一步交流，可点击 README 中的 Slack 邀请链接加入全球 3D 机器学习社区，提问或分享研究成果。

提示：具体的算法实现代码通常位于各篇论文对应的独立 GitHub 仓库中，请通过本仓库提供的论文链接跳转获取。

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架