MeshAnythingV2
MeshAnythingV2 是一款能够像人类艺术家一样生成高质量 3D 网格模型的开源 AI 工具。它主要解决了现有自动化建模工具生成的模型拓扑结构混乱、布线不合理,难以直接用于专业生产流程的痛点。通过独特的“相邻网格标记化”(Adjacent Mesh Tokenization)技术,MeshAnythingV2 能深入理解网格的几何邻接关系,将粗糙或密集的输入网格重构为布线整洁、结构优化的艺术级模型。
该工具特别适合 3D 设计师、游戏开发者以及计算机图形学研究人员使用。对于设计师而言,它可以作为强大的后处理助手,将其他生成式模型(如 Rodin)输出的高密度网格转化为低多边形、易编辑的专业资产;对于研究人员,它提供了复现前沿 ICCV 2025 研究成果的代码与预训练权重。无论是通过命令行处理单个文件还是批量文件夹,MeshAnythingV2 都能高效工作,并支持可选的 marching cubes 预处理以确保最佳效果。如果你追求既具备自动化效率又拥有手工建模般优良拓扑的 3D 内容创作,这款工具值得尝试。
使用场景
某独立游戏开发团队需要将概念原画快速转化为可直接用于引擎的低多边形(Low-Poly)资产,以加速原型迭代。
没有 MeshAnythingV2 时
- 拓扑结构混乱:通过传统摄影测量或基础 AI 生成的模型面数过高且布线杂乱,充满三角面碎片,无法直接用于动画绑定。
- 人工重修耗时:美术人员必须手动进行重拓扑(Retopology),为一个简单道具花费数小时整理边线流向,严重拖慢生产管线。
- 风格难以统一:不同来源的资产拓扑风格各异,导致后续批量处理脚本失效,难以维持项目整体的“艺术家创作级”质感。
- 细节丢失严重:在强制减面优化性能时,往往牺牲了模型的关键轮廓特征,导致最终效果显得生硬且缺乏艺术感。
使用 MeshAnythingV2 后
- 自动生成优质拓扑:MeshAnythingV2 利用相邻网格标记化技术,直接将高模输入转化为布线清晰、符合动画要求的低多边形网格,媲美人工重拓扑效果。
- 流程效率飞跃:团队只需将 Rodin 等工具生成的密集网格输入 MeshAnythingV2,几分钟内即可获得可用资产,将单道具处理时间从小时级压缩至分钟级。
- 标准化艺术输出:生成的模型具备一致的“艺术家创作”特征,边线流向自然合理,确保了整个游戏资产库的风格统一性与高质量。
- 智能保真优化:在大幅降低面数的同时,MeshAnythingV2 能精准保留物体的关键几何特征与轮廓细节,无需在性能与画质间做痛苦取舍。
MeshAnythingV2 通过将复杂的网格重拓扑过程自动化并提升至艺术级标准,彻底解放了 3D 美术生产力,让从概念到可玩资产的转化变得前所未有的高效。
运行环境要求
- Linux
必需 NVIDIA GPU,测试环境为 A800/A6000,显存需求约 8GB+,CUDA 11.8
未说明

快速开始
MeshAnything V2:
艺术家创作的网格生成
结合邻接网格标记化
Yiwen Chen1,2,
Yikai Wang3*,
Yihao Luo4,
Zhengyi Wang2,3,
Zilong Chen2,3,
Jun Zhu2,3,
Chi Zhang5*,
Guosheng Lin1*
*通讯作者。
1南洋理工大学S-Lab,
2盛数,
3清华大学,
4帝国理工学院,
5西湖大学
目录
安装
我们的环境已在Ubuntu 22和CUDA 11.8(A800)上测试通过。
- 克隆我们的仓库并创建Conda环境
git clone https://github.com/buaacyw/MeshAnythingV2.git && cd MeshAnythingV2
conda create -n MeshAnythingV2 python==3.10.13 -y
conda activate MeshAnythingV2
pip install torch==2.1.1 torchvision==0.16.1 torchaudio==2.1.1 --index-url https://download.pytorch.org/whl/cu118
pip install -r requirements.txt
pip install -r training_requirements.txt # 如果你想进行训练
pip install flash-attn --no-build-isolation
pip install -U gradio
使用
邻接网格标记化与解标记化的实现
# 我们在adjacent_mesh_tokenization.py中发布了邻接网格标记化的实现。
# 解标记化请查看MeshAnything/models/meshanything_v2.py中的adjacent_detokenize函数。
python adjacent_mesh_tokenization.py
对于文本/图像到艺术家创作网格的转换,我们建议先使用Rodin将文本或图像转化为密集网格,然后再将该密集网格输入给我们。
# 将Rodin的输出obj文件放入rodin_result目录,并使用以下命令生成艺术家创作的网格。
# 我们建议使用--mc标志先用Marching Cubes对输入网格进行预处理。这有助于我们将推理点云对齐到我们的训练域。
python main.py --input_dir rodin_result --out_dir mesh_output --input_type mesh --mc
网格命令行推理
重要提示:如果您的网格输入不是由Marching Cubes生成的,我们建议您先用Marching Cubes对其进行预处理(只需添加--mc即可)。
# 文件夹输入
python main.py --input_dir examples --out_dir mesh_output --input_type mesh
# 单个文件输入
python main.py --input_path examples/wand.obj --out_dir mesh_output --input_type mesh
# 先用Marching Cubes预处理
python main.py --input_dir examples --out_dir mesh_output --input_type mesh --mc
# Marching Cubes的分辨率默认为128。对于一些精细的网格,这个分辨率可能不够。提高分辨率会增加预处理时间,但通常能获得更好的效果。
# 可以通过以下方式调整:--mc_level 7 -> 128 (2^7), --mc_level 8 -> 256 (2^8)。
# 256分辨率Marching Cube示例。
python main.py --input_dir examples --out_dir mesh_output --input_type mesh --mc --mc_level 8
点云命令行推理
# 注意:如果您想使用自己的点云,请确保包含法线信息。
# 文件格式应为.npy文件,形状为(N, 6),其中N是点的数量。前3列是坐标,后3列是法线。
# 文件夹推理
python main.py --input_dir pc_examples --out_dir pc_output --input_type pc_normal
# 单个文件推理
python main.py --input_path pc_examples/grenade.npy --out_dir pc_output --input_type pc_normal
本地Gradio演示 
python app.py
训练
第一步:下载数据集
我们提供了部分来自Objaverse的已处理数据集。您可以从https://huggingface.co/datasets/Yiwen-ntu/MeshAnythingV2/tree/main下载。
下载后,将train.npz和test.npz放入dataset目录。
如果您更倾向于自行处理数据,请参考data_process.py。
第二步:下载点云编码器检查点
第三步:训练与评估
# 多GPU训练
accelerate launch --multi_gpu --num_processes 8 train.py --batchsize_per_gpu 2 --checkpoint_dir training_trial
# 评估
python train.py --batchsize_per_gpu 2 --checkpoint_dir evaluation_trial --pretrained_weights gpt_output/training_trial/xxx_xxx.pth --test_only
重要提示
- 在 A6000 GPU 上生成一个网格大约需要 8GB 显存和 45 秒(具体时间取决于生成网格的面数)。
- 输入网格将被归一化到单位包围盒。为了获得更好的效果,输入网格的向上方向矢量应为 +Y。
- 受计算资源限制,MeshAnything 模型仅在面数少于 1600 的网格上进行训练,无法生成面数超过 1600 的网格。输入网格的形状应足够清晰;否则,仅用 1600 个面难以准确表示。因此,基于前向传播的 3D 生成方法往往因形状质量不足而产生较差的结果。我们建议使用 3D 重建、扫描、基于 SDS 的方法(如 DreamCraft3D)或 Rodin 的输出作为 MeshAnything 的输入。
- 更多示例请参阅:https://huggingface.co/spaces/Yiwen-ntu/MeshAnything/tree/main/examples。
致谢
我们的代码基于以下优秀的开源项目:
BibTeX
@misc{chen2024meshanythingv2artistcreatedmesh,
title={MeshAnything V2: 基于邻接网格标记化的艺术家创作网格生成},
author={陈艺文、王毅凯、罗一豪、王正一、陈子龙、朱俊、张驰、林国胜},
year={2024},
eprint={2408.02555},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2408.02555},
}
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。