MeshAnythingV2

973 66 较难 1 次阅读 3天前NOASSERTION语言模型其他图像

AI 解读由 AI 自动生成，仅供参考

MeshAnythingV2 是一款能够像人类艺术家一样生成高质量 3D 网格模型的开源 AI 工具。它主要解决了现有自动化建模工具生成的模型拓扑结构混乱、布线不合理，难以直接用于专业生产流程的痛点。通过独特的“相邻网格标记化”（Adjacent Mesh Tokenization）技术，MeshAnythingV2 能深入理解网格的几何邻接关系，将粗糙或密集的输入网格重构为布线整洁、结构优化的艺术级模型。

该工具特别适合 3D 设计师、游戏开发者以及计算机图形学研究人员使用。对于设计师而言，它可以作为强大的后处理助手，将其他生成式模型（如 Rodin）输出的高密度网格转化为低多边形、易编辑的专业资产；对于研究人员，它提供了复现前沿 ICCV 2025 研究成果的代码与预训练权重。无论是通过命令行处理单个文件还是批量文件夹，MeshAnythingV2 都能高效工作，并支持可选的 marching cubes 预处理以确保最佳效果。如果你追求既具备自动化效率又拥有手工建模般优良拓扑的 3D 内容创作，这款工具值得尝试。

使用场景

某独立游戏开发团队需要将概念原画快速转化为可直接用于引擎的低多边形（Low-Poly）资产，以加速原型迭代。

没有 MeshAnythingV2 时

拓扑结构混乱：通过传统摄影测量或基础 AI 生成的模型面数过高且布线杂乱，充满三角面碎片，无法直接用于动画绑定。
人工重修耗时：美术人员必须手动进行重拓扑（Retopology），为一个简单道具花费数小时整理边线流向，严重拖慢生产管线。
风格难以统一：不同来源的资产拓扑风格各异，导致后续批量处理脚本失效，难以维持项目整体的“艺术家创作级”质感。
细节丢失严重：在强制减面优化性能时，往往牺牲了模型的关键轮廓特征，导致最终效果显得生硬且缺乏艺术感。

使用 MeshAnythingV2 后

自动生成优质拓扑：MeshAnythingV2 利用相邻网格标记化技术，直接将高模输入转化为布线清晰、符合动画要求的低多边形网格，媲美人工重拓扑效果。
流程效率飞跃：团队只需将 Rodin 等工具生成的密集网格输入 MeshAnythingV2，几分钟内即可获得可用资产，将单道具处理时间从小时级压缩至分钟级。
标准化艺术输出：生成的模型具备一致的“艺术家创作”特征，边线流向自然合理，确保了整个游戏资产库的风格统一性与高质量。
智能保真优化：在大幅降低面数的同时，MeshAnythingV2 能精准保留物体的关键几何特征与轮廓细节，无需在性能与画质间做痛苦取舍。

MeshAnythingV2 通过将复杂的网格重拓扑过程自动化并提升至艺术级标准，彻底解放了 3D 美术生产力，让从概念到可玩资产的转化变得前所未有的高效。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU，测试环境为 A800/A6000，显存需求约 8GB+，CUDA 11.8

内存

未说明

依赖

notes1. 官方仅在 Ubuntu 22 + CUDA 11.8 环境下测试。2. 生成一个网格约需 8GB 显存和 45 秒（基于 A6000）。3. 模型训练数据限制在 1600 个面以内，因此无法生成超过 1600 个面的网格，建议输入形状足够尖锐的网格（如来自 3D 重建、扫描或 Rodin 的结果）。4. 输入网格的法线方向建议为 +Y 轴以获得更好效果。5. 若输入网格非由 Marching Cubes 生成，建议使用 --mc 参数进行预处理，默认分辨率为 128，可调整为 256 以提高精度但会增加耗时。6. 点云推理输入需为 .npy 格式 (N, 6)，包含坐标和法线。

python3.10.13

torch==2.1.1

torchvision==0.16.1

torchaudio==2.1.1

flash-attn

gradio

accelerate

快速开始

MeshAnything V2：
艺术家创作的网格生成
结合邻接网格标记化

Yiwen Chen^1,2, Yikai Wang³*, Yihao Luo⁴, Zhengyi Wang^2,3,
Zilong Chen^2,3, Jun Zhu^2,3, Chi Zhang⁵*, Guosheng Lin¹*
^*通讯作者。
¹南洋理工大学S-Lab, ²盛数,
³清华大学, ⁴帝国理工学院, ⁵西湖大学

演示GIF

安装

我们的环境已在Ubuntu 22和CUDA 11.8（A800）上测试通过。

克隆我们的仓库并创建Conda环境

git clone https://github.com/buaacyw/MeshAnythingV2.git && cd MeshAnythingV2
conda create -n MeshAnythingV2 python==3.10.13 -y
conda activate MeshAnythingV2
pip install torch==2.1.1 torchvision==0.16.1 torchaudio==2.1.1 --index-url https://download.pytorch.org/whl/cu118
pip install -r requirements.txt
pip install -r training_requirements.txt # 如果你想进行训练
pip install flash-attn --no-build-isolation
pip install -U gradio

使用

邻接网格标记化与解标记化的实现

# 我们在adjacent_mesh_tokenization.py中发布了邻接网格标记化的实现。
# 解标记化请查看MeshAnything/models/meshanything_v2.py中的adjacent_detokenize函数。
python adjacent_mesh_tokenization.py

对于文本/图像到艺术家创作网格的转换，我们建议先使用Rodin将文本或图像转化为密集网格，然后再将该密集网格输入给我们。

# 将Rodin的输出obj文件放入rodin_result目录，并使用以下命令生成艺术家创作的网格。
# 我们建议使用--mc标志先用Marching Cubes对输入网格进行预处理。这有助于我们将推理点云对齐到我们的训练域。
python main.py --input_dir rodin_result --out_dir mesh_output --input_type mesh --mc

网格命令行推理

重要提示：如果您的网格输入不是由Marching Cubes生成的，我们建议您先用Marching Cubes对其进行预处理（只需添加--mc即可）。

# 文件夹输入
python main.py --input_dir examples --out_dir mesh_output --input_type mesh

# 单个文件输入
python main.py --input_path examples/wand.obj --out_dir mesh_output --input_type mesh

# 先用Marching Cubes预处理
python main.py --input_dir examples --out_dir mesh_output --input_type mesh --mc

# Marching Cubes的分辨率默认为128。对于一些精细的网格，这个分辨率可能不够。提高分辨率会增加预处理时间，但通常能获得更好的效果。
# 可以通过以下方式调整：--mc_level 7 -> 128 (2^7), --mc_level 8 -> 256 (2^8)。
# 256分辨率Marching Cube示例。
python main.py --input_dir examples --out_dir mesh_output --input_type mesh --mc --mc_level 8

点云命令行推理

# 注意：如果您想使用自己的点云，请确保包含法线信息。
# 文件格式应为.npy文件，形状为(N, 6)，其中N是点的数量。前3列是坐标，后3列是法线。

# 文件夹推理
python main.py --input_dir pc_examples --out_dir pc_output --input_type pc_normal

# 单个文件推理
python main.py --input_path pc_examples/grenade.npy --out_dir pc_output --input_type pc_normal

本地Gradio演示

python app.py

训练

第一步：下载数据集

我们提供了部分来自Objaverse的已处理数据集。您可以从https://huggingface.co/datasets/Yiwen-ntu/MeshAnythingV2/tree/main下载。

下载后，将train.npz和test.npz放入dataset目录。

如果您更倾向于自行处理数据，请参考data_process.py。

第二步：下载点云编码器检查点

从https://huggingface.co/Maikou/Michelangelo/tree/main/checkpoints/aligned_shape_latents下载米开朗基罗的点云编码器，并将其放入`meshanything_train/miche/checkpoints/aligned_shape_latents/shapevae-256.ckpt`。

第三步：训练与评估

# 多GPU训练
accelerate launch --multi_gpu --num_processes 8 train.py  --batchsize_per_gpu 2 --checkpoint_dir training_trial

# 评估
python train.py --batchsize_per_gpu 2 --checkpoint_dir evaluation_trial --pretrained_weights gpt_output/training_trial/xxx_xxx.pth --test_only

重要提示

在 A6000 GPU 上生成一个网格大约需要 8GB 显存和 45 秒（具体时间取决于生成网格的面数）。
输入网格将被归一化到单位包围盒。为了获得更好的效果，输入网格的向上方向矢量应为 +Y。
受计算资源限制，MeshAnything 模型仅在面数少于 1600 的网格上进行训练，无法生成面数超过 1600 的网格。输入网格的形状应足够清晰；否则，仅用 1600 个面难以准确表示。因此，基于前向传播的 3D 生成方法往往因形状质量不足而产生较差的结果。我们建议使用 3D 重建、扫描、基于 SDS 的方法（如 DreamCraft3D）或 Rodin 的输出作为 MeshAnything 的输入。
更多示例请参阅：https://huggingface.co/spaces/Yiwen-ntu/MeshAnything/tree/main/examples。

致谢

我们的代码基于以下优秀的开源项目：

BibTeX

@misc{chen2024meshanythingv2artistcreatedmesh,
      title={MeshAnything V2: 基于邻接网格标记化的艺术家创作网格生成}, 
      author={陈艺文、王毅凯、罗一豪、王正一、陈子龙、朱俊、张驰、林国胜},
      year={2024},
      eprint={2408.02555},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2408.02555}, 
}

MeshAnythingV2 快速上手指南

MeshAnythingV2 是一个能够将艺术家创作的网格（或点云）转化为高质量、低面数网格的生成模型。它特别适合作为 3D 重建、扫描或 Rodin 等前向生成模型的后续优化工具。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Ubuntu 22.04 (推荐)
GPU: NVIDIA GPU (测试环境为 A800/A6000)，显存建议 8GB 以上
CUDA 版本: 11.8
Python 版本: 3.10.13
依赖管理: Conda

安装步骤

以下命令将克隆代码库并配置完整的运行环境。

克隆仓库并创建 Conda 环境

git clone https://github.com/buaacyw/MeshAnythingV2.git && cd MeshAnythingV2
conda create -n MeshAnythingV2 python==3.10.13 -y
conda activate MeshAnythingV2

安装 PyTorch (CUDA 11.8)

pip install torch==2.1.1 torchvision==0.16.1 torchaudio==2.1.1 --index-url https://download.pytorch.org/whl/cu118

安装项目依赖

pip install -r requirements.txt
# 如果不需要训练，可跳过下一行
pip install -r training_requirements.txt 
pip install flash-attn --no-build-isolation
pip install -U gradio

下载预训练权重 从 Hugging Face 下载权重文件并放置于项目目录（具体路径参考官方 HF 页面结构，通常需放入 gpt_output 或对应 checkpoint 目录）：
- 权重地址：https://huggingface.co/Yiwen-ntu/MeshAnythingV2/tree/main

基本使用

场景一：网格优化 (Mesh to Artist-Created Mesh)

这是最常用的场景。建议输入由 Rodin、3D 扫描或重建算法生成的密集网格，模型将其转换为拓扑更优的低面数网格。

注意：如果输入网格不是由 Marching Cubes 生成的，强烈建议添加 --mc 参数进行预处理，以对齐训练域。

处理文件夹内的所有网格文件：

python main.py --input_dir examples --out_dir mesh_output --input_type mesh --mc

处理单个网格文件：

python main.py --input_path examples/wand.obj --out_dir mesh_output --input_type mesh --mc

调整预处理精度（默认分辨率 128，对于细节丰富的模型可提升至 256）：

# --mc_level 8 对应 2^8 = 256 分辨率
python main.py --input_dir examples --out_dir mesh_output --input_type mesh --mc --mc_level 8

场景二：点云生成网格 (Point Cloud to Mesh)

输入需为 .npy 格式，形状为 (N, 6)，其中前 3 列为坐标，后 3 列为法向量。

处理点云文件：

python main.py --input_path pc_examples/grenade.npy --out_dir pc_output --input_type pc_normal

场景三：启动本地 Web 演示

如果您希望通过图形界面进行操作，可以启动本地的 Gradio 服务：

python app.py

启动后在浏览器访问显示的本地地址即可。

重要提示：

模型训练时限制在 1600 个面以内，因此生成的网格面数不会超过此限制。
为了获得最佳效果，输入网格的上方向向量应为 +Y 轴。
生成一个网格在 A6000 上大约需要 45 秒和 8GB 显存。

常见问题

MeshAnything V2 生成的网格拓扑结构不如 V1，且平坦表面的面数过多怎么办？

生成的网格是否包含颜色（纹理）信息？如何应用原始颜色？

生成的网格是否包含光照信息？

训练过程中使用的旋转增强（Rotation Augmentation）具体是如何设置的？

项目支持直接通过文本输入生成网格（Text-to-Mesh）吗？

代码仓库中是否包含 VQ-VAE 的训练代码？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|3天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|4天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 147.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.1k|★★☆☆☆|昨天

开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|3天前

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|4天前

开发框架图像Agent

使用场景

没有 MeshAnythingV2 时

使用 MeshAnythingV2 后

运行环境要求

快速开始

MeshAnything V2：艺术家创作的网格生成结合邻接网格标记化

目录

安装

使用

邻接网格标记化与解标记化的实现

对于文本/图像到艺术家创作网格的转换，我们建议先使用Rodin将文本或图像转化为密集网格，然后再将该密集网格输入给我们。

网格命令行推理

重要提示：如果您的网格输入不是由Marching Cubes生成的，我们建议您先用Marching Cubes对其进行预处理（只需添加--mc即可）。

点云命令行推理

本地Gradio演示

训练

第一步：下载数据集

第二步：下载点云编码器检查点

第三步：训练与评估

重要提示

致谢

BibTeX

MeshAnythingV2 快速上手指南

环境准备

安装步骤

基本使用

场景一：网格优化 (Mesh to Artist-Created Mesh)

场景二：点云生成网格 (Point Cloud to Mesh)

场景三：启动本地 Web 演示

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

LLMs-from-scratch

Deep-Live-Cam

MeshAnything V2：
艺术家创作的网格生成
结合邻接网格标记化