[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Arthur151--ROMP":3,"tool-Arthur151--ROMP":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":81,"owner_email":82,"owner_twitter":83,"owner_website":84,"owner_url":85,"languages":86,"stars":115,"forks":116,"last_commit_at":117,"license":118,"difficulty_score":23,"env_os":119,"env_gpu":120,"env_ram":121,"env_deps":122,"category_tags":128,"github_topics":129,"view_count":23,"oss_zip_url":82,"oss_zip_packed_at":82,"status":16,"created_at":137,"updated_at":138,"faqs":139,"releases":174},2545,"Arthur151\u002FROMP","ROMP","Monocular, One-stage, Regression of Multiple 3D People and their 3D positions & trajectories in camera & global coordinates. ROMP[ICCV21], BEV[CVPR22], TRACE[CVPR2023]","ROMP 是一套专注于从单目视频或图像中实时重建多人 3D 人体模型及运动轨迹的开源算法库。它主要解决了传统方法在处理复杂场景时计算成本高、难以实时运行，以及在动态相机视角下难以准确还原人物全局位置的问题。通过高效的单阶段回归技术，ROMP 能够直接从普通摄像头画面中提取出高精度的 3D 人体网格（Mesh），并支持跨平台部署。\n\n该系列工具包含三个核心模块：基础版 ROMP 实现了实时的多人 3D 重建；BEV 版本进一步优化了人物间的深度关系判断，提升了对不同年龄段人群的适用性；而最新的 TRACE 版本则引入了时间维度追踪，能够在相机移动的环境中，稳定跟踪特定主体并还原其全局 3D 运动轨迹。这些功能使得机器不仅能“看见”人，还能理解人在空间中的具体位置和运动路径。\n\nROMP 非常适合计算机视觉研究人员、AI 开发者以及数字内容创作者使用。对于开发者而言，它提供了便捷的 Python API 和 Docker 支持，可轻松集成到 Linux、Windows 或 Mac 系统中，并支持导出 FBX、GLB、BVH 等通用 3D 格式，便于后续动画制作。此外，社区还开发了 Blen","ROMP 是一套专注于从单目视频或图像中实时重建多人 3D 人体模型及运动轨迹的开源算法库。它主要解决了传统方法在处理复杂场景时计算成本高、难以实时运行，以及在动态相机视角下难以准确还原人物全局位置的问题。通过高效的单阶段回归技术，ROMP 能够直接从普通摄像头画面中提取出高精度的 3D 人体网格（Mesh），并支持跨平台部署。\n\n该系列工具包含三个核心模块：基础版 ROMP 实现了实时的多人 3D 重建；BEV 版本进一步优化了人物间的深度关系判断，提升了对不同年龄段人群的适用性；而最新的 TRACE 版本则引入了时间维度追踪，能够在相机移动的环境中，稳定跟踪特定主体并还原其全局 3D 运动轨迹。这些功能使得机器不仅能“看见”人，还能理解人在空间中的具体位置和运动路径。\n\nROMP 非常适合计算机视觉研究人员、AI 开发者以及数字内容创作者使用。对于开发者而言，它提供了便捷的 Python API 和 Docker 支持，可轻松集成到 Linux、Windows 或 Mac 系统中，并支持导出 FBX、GLB、BVH 等通用 3D 格式，便于后续动画制作。此外，社区还开发了 Blender 插件和 VMC 协议支持，让设计师和普通用户也能利用 webcam 实现低成本的虚拟形象驱动和动作捕捉。无论是用于学术研究、游戏开发，还是虚拟主播制作，ROMP 都提供了一套成熟且高效的解决方案。","| \u003Ch2 align=\"center\"> ROMP \u003C\u002Fh2> | \u003Ch2 align=\"center\"> BEV \u003C\u002Fh2> | \u003Ch2 align=\"center\"> TRACE \u003C\u002Fh2> |\n| :---: | :---: | :---: |\n| Monocular, One-stage, Regression of Multiple 3D People (ICCV21) | Putting People in their Place: Monocular Regression of 3D People in Depth (CVPR2022) | TRACE: 5D Temporal Regression of Avatars with Dynamic Cameras in 3D Environments (CVPR2023) |\n| ROMP is a **one-stage** method for monocular multi-person 3D mesh recovery in **real time**. | BEV further explores multi-person **depth relationships** and supports **all age groups**. | TRACE further **tracks specific subjects** and recover their **global 3D trajectory with dynamic cameras**. |\n| **[[Paper]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2008.12272) [[Video]](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=hunBPJxnyBU)** | **[[Project Page]](https:\u002F\u002Farthur151.github.io\u002FBEV\u002FBEV.html) [[Paper]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.08274) [[Video]](https:\u002F\u002Fyoutu.be\u002FQ62fj_6AxRI)** |  **[[Project Page]](https:\u002F\u002Farthur151.github.io\u002FTRACE\u002FTRACE.html) [[Paper]](http:\u002F\u002Farxiv.org\u002Fabs\u002F2306.02850) [[Video]](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=l8aLHDXWQRw)** |\n| | **[[RelativeHuman Dataset]](https:\u002F\u002Fgithub.com\u002FArthur151\u002FRelative_Human)** | **[[DynaCam Dataset]](https:\u002F\u002Fgithub.com\u002FArthur151\u002FDynaCam)** |\n| \u003Cimg src=\"..\u002Fassets\u002Fdemo\u002Fanimation\u002Fblender_character_driven-min.gif\" alt=\"drawing\" height=\"230\"\u002F> | \u003Cimg src=\"..\u002Fassets\u002Fdemo\u002Fimages_results\u002FBEV_tennis_results.png\" alt=\"drawing\" height=\"230\"\u002F> | \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FArthur151_ROMP_readme_11b2764c899f.gif\" alt=\"drawing\" height=\"230\"\u002F> |\n\nWe provide **cross-platform API** (installed via pip) to run ROMP & BEV on Linux \u002F Windows \u002F Mac. \n\n## Table of contents\n- [Table of contents](#table-of-contents)\n- [News](#news)\n- [Getting started](#getting-started)\n  - [Installation](#installation)\n  - [Try on Google Colab](#try-on-google-colab)\n- [How to use it](#how-to-use-it)\n    - [Please refer to this guidance for inference & export (fbx\u002Fglb\u002Fbvh).](#please-refer-to-this-guidance-for-inference--export-fbxglbbvh)\n  - [Train](#train)\n  - [Evaluation](#evaluation)\n  - [Docker usage](#docker-usage)\n  - [Bugs report](#bugs-report)\n- [Citation](#citation)\n- [Acknowledgement](#acknowledgement)\n\n## News\n*2023\u002F06\u002F17: Release of TRACE's code. Please refer to this [instructions](simple_romp\u002Ftrace2\u002FREADME.md) for inference.*   \n*2022\u002F06\u002F21: Training & evaluation code of BEV is released. Please update the [model_data](https:\u002F\u002Fgithub.com\u002FArthur151\u002FROMP\u002Freleases\u002Fdownload\u002Fv1.1\u002Fmodel_data.zip).*   \n*2022\u002F05\u002F16: simple-romp v1.0 is released to support tracking, calling in python, exporting bvh, and etc.*   \n*2022\u002F04\u002F14: Inference code of BEV has been released in simple-romp v0.1.0.*   \n*2022\u002F04\u002F10: Adding onnx support, with faster inference speed on CPU\u002FGPU.*   \n[Old logs](docs\u002Fupdates.md)\n\n## Getting started\n\nPlease use simple-romp for inference, the rest code is just for training.\n\n## How to use it\n\n## ROMP & BEV\n#### For inference & export (fbx\u002Fglb\u002Fbvh), please refer to [this guidance](https:\u002F\u002Fgithub.com\u002FArthur151\u002FROMP\u002Fblob\u002Fmaster\u002Fsimple_romp\u002FREADME.md).\n#### For training, please refer to [installation.md](docs\u002Finstallation.md) for full installation, [dataset.md](docs\u002Fdataset.md) for data preparation, [train.md](docs\u002Ftrain.md) for training.\n#### For evaluation on benchmarks, please refer to [romp_evaluation](docs\u002Fromp_evaluation.md), [bev_evaluation](docs\u002Fbev_evaluation.md).\n\n## TRACE\n#### For inference, please refer to [this instrcution](simple_romp\u002Ftrace2\u002FREADME.md).\n#### For evaluation on benchmarks, please refer to [trace_evaluation](simple_romp\u002Ftrace2\u002FREADME.md).\n#### For training, please refer to [trace_train](trace\u002FREADME.md).\n\n### Extensions\n\n[[Blender addon]](https:\u002F\u002Fgithub.com\u002Fyanchxx\u002FCDBA): [Yan Chuanhang](https:\u002F\u002Fgithub.com\u002Fyanchxx) created a Blender-addon to drive a 3D character in Blender using ROMP from image, video or webcam input.\n\n[[VMC protocol]](https:\u002F\u002Fcodeberg.org\u002Fvivi90\u002Fvmcps): [Vivien Richter](https:\u002F\u002Fgithub.com\u002Fvivi90) implemented a VMC (Virtual Motion Capture) protocol support for different Motion Capture solutions with ROMP. \n\n### Docker usage\n\nPlease refer to [docker.md](docs\u002Fdocker.md)\n\n### Bugs report\n\nWelcome to submit issues for the bugs.\n\n## Contributors\n\nThis repository is maintained by [Yu Sun](https:\u002F\u002Fwww.yusun.work\u002F).  \n\nROMP has also benefited from many developers, including   \n - [Peng Cheng](https:\u002F\u002Fgithub.com\u002FCPFLAME) : constructive discussion on Center map training.  \n - [Marco Musy](https:\u002F\u002Fgithub.com\u002Fmarcomusy) : help in [the textured SMPL visualization](https:\u002F\u002Fgithub.com\u002Fmarcomusy\u002Fvedo\u002Fissues\u002F371).  \n - [Gavin Gray](https:\u002F\u002Fgithub.com\u002Fgngdb) : adding support for an elegant context manager to run code in a notebook.  \n - [VLT Media](https:\u002F\u002Fgithub.com\u002Fvltmedia) and [Vivien Richter](https:\u002F\u002Fgithub.com\u002Fvivi90) : adding support for running on Windows & batch_videos.py.  \n - [Chuanhang Yan](https:\u002F\u002Fgithub.com\u002Fyanch2116) : developing an [addon for driving character in Blender](https:\u002F\u002Fgithub.com\u002Fyanch2116\u002FBlender-addons-for-SMPL).  \n - [Tian Jin](https:\u002F\u002Fgithub.com\u002Fjinfagang): help in simplified smpl and fast rendering ([realrender](https:\u002F\u002Fpypi.org\u002Fproject\u002Frealrender\u002F)).\n - [ZhengdiYu](https:\u002F\u002Fgithub.com\u002FZhengdiYu) : helpful discussion on optimizing the implementation details.\n - [Ali Yaghoubian](https:\u002F\u002Fgithub.com\u002FAliYqb) : add Docker file for simple-romp.\n\n## Citation\n```bibtex\n@InProceedings{TRACE,\n    author = {Sun, Yu and Bao, Qian and Liu, Wu and Mei, Tao and Black, Michael J.},\n    title = {{TRACE: 5D Temporal Regression of Avatars with Dynamic Cameras in 3D Environments}}, \n    booktitle = {CVPR}, \n    year = {2023}}\n@InProceedings{BEV,\n    author = {Sun, Yu and Liu, Wu and Bao, Qian and Fu, Yili and Mei, Tao and Black, Michael J},\n    title = {{Putting People in their Place: Monocular Regression of 3D People in Depth}},\n    booktitle = {CVPR},\n    year = {2022}}\n@InProceedings{ROMP,\n    author = {Sun, Yu and Bao, Qian and Liu, Wu and Fu, Yili and Michael J., Black and Mei, Tao},\n    title = {{Monocular, One-stage, Regression of Multiple 3D People}},\n    booktitle = {ICCV},\n    year = {2021}}\n```\n\n## Acknowledgement\nThis work was supported by the National Key R&D Program of China under Grand No. 2020AAA0103800.  \n**MJB Disclosure**: [https:\u002F\u002Ffiles.is.tue.mpg.de\u002Fblack\u002FCoI_CVPR_2023.txt](https:\u002F\u002Ffiles.is.tue.mpg.de\u002Fblack\u002FCoI_CVPR_2023.txt)\n","| \u003Ch2 align=\"center\"> ROMP \u003C\u002Fh2> | \u003Ch2 align=\"center\"> BEV \u003C\u002Fh2> | \u003Ch2 align=\"center\"> TRACE \u003C\u002Fh2> |\n| :---: | :---: | :---: |\n| 单目、单阶段、多人体三维姿态回归（ICCV21） | 让人各就其位：基于单目图像的深度感知三维人体姿态回归（CVPR2022） | TRACE：在3D环境中利用动态相机进行虚拟人物的5D时空姿态回归（CVPR2023） |\n| ROMP是一种**单阶段**方法，可在**实时**条件下实现单目多人体三维网格重建。 | BEV进一步探索多人之间的**深度关系**，并支持**所有年龄段**的人群。 | TRACE进一步**追踪特定个体**，并在动态摄像机下恢复其**全局三维轨迹**。 |\n| **[[论文]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2008.12272) [[视频]](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=hunBPJxnyBU)** | **[[项目页面]](https:\u002F\u002Farthur151.github.io\u002FBEV\u002FBEV.html) [[论文]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.08274) [[视频]](https:\u002F\u002Fyoutu.be\u002FQ62fj_6AxRI)** |  **[[项目页面]](https:\u002F\u002Farthur151.github.io\u002FTRACE\u002FTRACE.html) [[论文]](http:\u002F\u002Farxiv.org\u002Fabs\u002F2306.02850) [[视频]](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=l8aLHDXWQRw)** |\n| | **[[RelativeHuman数据集]](https:\u002F\u002Fgithub.com\u002FArthur151\u002FRelative_Human)** | **[[DynaCam数据集]](https:\u002F\u002Fgithub.com\u002FArthur151\u002FDynaCam)** |\n| \u003Cimg src=\"..\u002Fassets\u002Fdemo\u002Fanimation\u002Fblender_character_driven-min.gif\" alt=\"drawing\" height=\"230\"\u002F> | \u003Cimg src=\"..\u002Fassets\u002Fdemo\u002Fimages_results\u002FBEV_tennis_results.png\" alt=\"drawing\" height=\"230\"\u002F> | \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FArthur151_ROMP_readme_11b2764c899f.gif\" alt=\"drawing\" height=\"230\"\u002F> |\n\n我们提供**跨平台API**（通过pip安装），可在Linux \u002F Windows \u002F Mac上运行ROMP和BEV。\n\n## 目录\n- [目录](#table-of-contents)\n- [新闻](#news)\n- [快速入门](#getting-started)\n  - [安装](#installation)\n  - [在Google Colab上试用](#try-on-google-colab)\n- [使用方法](#how-to-use-it)\n    - [请参考此指南进行推理与导出（fbx\u002Fglb\u002Fbvh）。](#please-refer-to-this-guidance-for-inference--export-fbxglbbvh)\n  - [训练](#train)\n  - [评估](#evaluation)\n  - [Docker使用](#docker-usage)\n  - [错误报告](#bugs-report)\n- [引用](#citation)\n- [致谢](#acknowledgement)\n\n## 新闻\n*2023年6月17日：TRACE代码发布。请参考此[说明](simple_romp\u002Ftrace2\u002FREADME.md)进行推理。*   \n*2022年6月21日：BEV的训练与评估代码已发布。请更新[模型数据](https:\u002F\u002Fgithub.com\u002FArthur151\u002FROMP\u002Freleases\u002Fdownload\u002Fv1.1\u002Fmodel_data.zip)。*   \n*2022年5月16日：simple-romp v1.0发布，支持跟踪、Python调用、bvh导出等功能。*   \n*2022年4月14日：BEV的推理代码已在simple-romp v0.1.0中发布。*   \n*2022年4月10日：新增ONNX支持，提升了CPU\u002FGPU上的推理速度。*   \n[历史记录](docs\u002Fupdates.md)\n\n## 快速入门\n\n请使用simple-romp进行推理，其余代码仅用于训练。\n\n## 使用方法\n\n## ROMP与BEV\n#### 对于推理与导出（fbx\u002Fglb\u002Fbvh），请参考[此指南](https:\u002F\u002Fgithub.com\u002FArthur151\u002FROMP\u002Fblob\u002Fmaster\u002Fsimple_romp\u002FREADME.md)。\n#### 对于训练，请参考[installation.md](docs\u002Finstallation.md)完成完整安装，[dataset.md](docs\u002Fdataset.md)准备数据，[train.md](docs\u002Ftrain.md)进行训练。\n#### 对于基准测试的评估，请参考[romp_evaluation](docs\u002Fromp_evaluation.md)和[bev_evaluation](docs\u002Fbev_evaluation.md)。\n\n## TRACE\n#### 对于推理，请参考[此说明](simple_romp\u002Ftrace2\u002FREADME.md)。\n#### 对于基准测试的评估，请参考[trace_evaluation](simple_romp\u002Ftrace2\u002FREADME.md)。\n#### 对于训练，请参考[trace_train](trace\u002FREADME.md)。\n\n### 扩展功能\n\n[[Blender插件]](https:\u002F\u002Fgithub.com\u002Fyanchxx\u002FCDBA)：[Yan Chuanhang](https:\u002F\u002Fgithub.com\u002Fyanchxx)创建了一个Blender插件，能够根据图像、视频或网络摄像头输入，利用ROMP驱动Blender中的3D角色。\n\n[[VMC协议]](https:\u002F\u002Fcodeberg.org\u002Fvivi90\u002Fvmcps)：[Vivien Richter](https:\u002F\u002Fgithub.com\u002Fvivi90)实现了VMC（虚拟动作捕捉）协议，使不同的动作捕捉解决方案能够与ROMP兼容。\n\n### Docker使用\n\n请参考[docker.md](docs\u002Fdocker.md)\n\n### 错误报告\n\n欢迎提交关于错误的问题。\n\n## 贡献者\n\n本仓库由[Yu Sun](https:\u002F\u002Fwww.yusun.work\u002F)维护。\n\nROMP还受益于众多开发者的贡献，包括：\n - [Peng Cheng](https:\u002F\u002Fgithub.com\u002FCPFLAME)：关于Center map训练的建设性讨论。\n - [Marco Musy](https:\u002F\u002Fgithub.com\u002Fmarcomusy)：协助[SMPL纹理可视化](https:\u002F\u002Fgithub.com\u002Fmarcomusy\u002Fvedo\u002Fissues\u002F371)。\n - [Gavin Gray](https:\u002F\u002Fgithub.com\u002Fgngdb)：增加了优雅的上下文管理器支持，方便在笔记本中运行代码。\n - [VLT Media](https:\u002F\u002Fgithub.com\u002Fvltmedia)和[Vivien Richter](https:\u002F\u002Fgithub.com\u002Fvivi90)：增加了对Windows的支持以及batch_videos.py脚本。\n - [Chuanhang Yan](https:\u002F\u002Fgithub.com\u002Fyanch2116)：开发了[用于驱动Blender中角色的插件](https:\u002F\u002Fgithub.com\u002Fyanch2116\u002FBlender-addons-for-SMPL)。\n - [Tian Jin](https:\u002F\u002Fgithub.com\u002Fjinfagang)：协助简化smpl并实现快速渲染（[realrender](https:\u002F\u002Fpypi.org\u002Fproject\u002Frealrender\u002F)）。\n - [ZhengdiYu](https:\u002F\u002Fgithub.com\u002FZhengdiYu)：对优化实现细节提供了有益的讨论。\n - [Ali Yaghoubian](https:\u002F\u002Fgithub.com\u002FAliYqb)：为simple-romp添加了Docker文件。\n\n## 引用\n```bibtex\n@InProceedings{TRACE,\n    author = {Sun, Yu and Bao, Qian and Liu, Wu and Mei, Tao and Black, Michael J.},\n    title = {{TRACE: 5D Temporal Regression of Avatars with Dynamic Cameras in 3D Environments}}, \n    booktitle = {CVPR}, \n    year = {2023}}\n@InProceedings{BEV,\n    author = {Sun, Yu and Liu, Wu and Bao, Qian and Fu, Yili and Mei, Tao and Black, Michael J},\n    title = {{Putting People in their Place: Monocular Regression of 3D People in Depth}},\n    booktitle = {CVPR},\n    year = {2022}}\n@InProceedings{ROMP,\n    author = {Sun, Yu and Bao, Qian and Liu, Wu and Fu, Yili and Michael J., Black and Mei, Tao},\n    title = {{Monocular, One-stage, Regression of Multiple 3D People}},\n    booktitle = {ICCV},\n    year = {2021}}\n```\n\n## 致谢\n本研究得到了国家重点研发计划的支持，项目编号为2020AAA0103800。  \n**MJB披露**：[https:\u002F\u002Ffiles.is.tue.mpg.de\u002Fblack\u002FCoI_CVPR_2023.txt](https:\u002F\u002Ffiles.is.tue.mpg.de\u002Fblack\u002FCoI_CVPR_2023.txt)","# ROMP 快速上手指南\n\nROMP 是一个用于单目多人体 3D 网格重建的实时开源工具库，包含 **ROMP**（基础实时重建）、**BEV**（深度关系与全年龄段支持）和 **TRACE**（动态相机下的全局轨迹追踪）三个核心模块。本指南主要介绍基于 `simple-romp` 的快速安装与推理使用。\n\n## 环境准备\n\n*   **操作系统**：Linux \u002F Windows \u002F Mac\n*   **Python 版本**：建议 Python 3.7+\n*   **前置依赖**：\n    *   PyTorch (建议根据 CUDA 版本安装对应版本)\n    *   pip 包管理器\n\n## 安装步骤\n\n推荐使用 pip 直接安装跨平台 API，这是最简便的使用方式。\n\n1.  **安装 simple-romp**\n\n    ```bash\n    pip install simple-romp\n    ```\n\n2.  **下载模型数据**\n\n    首次使用前，需要下载预训练模型。代码运行时通常会自动下载，若需手动下载或更新模型（特别是 BEV 模型），请参考官方 releases 页面或使用以下命令确保模型就绪：\n\n    ```bash\n    # 如果自动下载失败，可手动从以下链接下载并解压到指定目录\n    # https:\u002F\u002Fgithub.com\u002FArthur151\u002FROMP\u002Freleases\u002Fdownload\u002Fv1.1\u002Fmodel_data.zip\n    ```\n\n    > **注意**：对于 TRACE 模块，请确保更新至最新版本以获取相关代码支持。\n\n## 基本使用\n\n`simple-romp` 提供了统一的接口进行推理和结果导出（支持 fbx\u002Fglb\u002Fbvh 格式）。\n\n### 1. 命令行推理 (CLI)\n\n最简单的使用方式是直接在终端运行命令。假设你有一张输入图片 `input.jpg`：\n\n```bash\n# 基本推理示例\nromp --image_path=input.jpg --output_dir=.\u002Fresults\n\n# 处理视频文件\nromp --video_path=input.mp4 --output_dir=.\u002Fresults\n\n# 启用 BEV 模型（更好的深度估计）\nromp --image_path=input.jpg --model_type=bev --output_dir=.\u002Fresults\n```\n\n### 2. Python API 调用\n\n在 Python 脚本中集成 ROMP：\n\n```python\nfrom simple_romp.inference import Inference\n\n# 初始化推理器\n# model_type 可选: 'romp', 'bev', 'trace'\ninference = Inference(model_type='romp')\n\n# 对图像进行推理\nresults = inference.process_image('input.jpg')\n\n# 对视频进行推理\n# results = inference.process_video('input.mp4')\n\n# 打印结果关键点或网格信息\nprint(results)\n```\n\n### 3. 高级功能：导出动画格式\n\n若需将结果导出为 Blender 或其他 3D 软件可用的格式（fbx\u002Fglb\u002Fbvh）：\n\n```bash\n# 导出为 FBX 格式\nromp --image_path=input.jpg --output_dir=.\u002Fresults --save_mesh --mesh_format=fbx\n```\n\n### 4. TRACE 模块特别说明\n\n如果你需要使用 **TRACE** 进行动态相机下的全局轨迹追踪，请参考其专用文档进行配置，因为涉及相机参数和时序处理：\n\n```bash\n# 具体命令需参考 simple_romp\u002Ftrace2\u002FREADME.md\n# 通常涉及额外的相机标定参数输入\n```\n\n---\n\n**更多资源：**\n*   **Blender 插件**：[CDBA](https:\u002F\u002Fgithub.com\u002Fyanchxx\u002FCDBA) 可直接利用 ROMP 驱动 Blender 中的 3D 角色。\n*   **详细文档**：训练、评估及 Docker 使用方法请参阅仓库中的 `docs\u002F` 目录。","某独立游戏开发团队正在制作一款基于真实动作捕捉的格斗游戏，需要快速将真人演示视频转化为游戏引擎可用的3角色动画数据。\n\n### 没有 ROMP 时\n- **硬件门槛极高**：传统动捕方案依赖昂贵的惯性 suits 或光学标记点系统，单套设备成本数万至数十万元，且需专用场地，小团队难以负担。\n- **流程繁琐耗时**：若采用手工关键帧动画，一名资深动画师制作一套连招需数天；若用多视角重建，需同步校准多个相机并处理复杂的数据对齐，后期清洗噪点极其痛苦。\n- **多人交互难实现**：现有单目算法大多仅支持单人提取，面对双人对打场景，无法准确判断角色间的深度关系和遮挡，导致模型穿插或位置漂移，缺乏空间一致性。\n- **格式兼容差**：原始数据往往需经过多次中间软件转换才能导入 Unity 或 Unreal Engine，每次迭代都伴随大量格式报错和骨骼映射调整工作。\n\n### 使用 ROMP 后\n- **零成本即时启动**：只需一部普通手机或 webcam 录制视频，ROMP 即可通过单目图像实时回归出多人 3D Mesh，彻底摆脱昂贵硬件束缚，随时随地采集动作。\n- **端到端自动化**：利用其 One-stage 架构，直接从视频输出标准化的 FBX\u002FGLB\u002FBVH 文件，省去了繁琐的多相机标定和后期清洗环节，将数天的工作量压缩至几分钟。\n- **精准的空间定位**：借助 BEV 模块的深度回归能力，ROMP 能准确解析双人对战时的前后遮挡与相对距离，确保角色在 3D 空间中的站位和互动逻辑真实自然，无穿模现象。\n- **无缝引擎集成**：支持跨平台 API 及 Blender 插件，导出的动画数据可直接驱动游戏角色模型，开发者可专注于玩法逻辑而非数据处理，大幅加速原型验证迭代。\n\n核心价值在于 ROMP 将专业级多人 3D 动捕技术 democratize，让小型团队也能以极低门槛实现高质量、高保真的实时动作数字化与资产生产。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FArthur151_ROMP_7719be49.gif","Arthur151","Yu Sun","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FArthur151_29eca319.jpg","Focusing on 3D human motion perception from video.","Epic Games, Meshcapade","China",null,"yusun14567741","https:\u002F\u002Fwww.yusun.work\u002F","https:\u002F\u002Fgithub.com\u002FArthur151",[87,91,95,99,103,107,111],{"name":88,"color":89,"percentage":90},"Python","#3572A5",93.6,{"name":92,"color":93,"percentage":94},"Cuda","#3A4E3A",2.9,{"name":96,"color":97,"percentage":98},"C++","#f34b7d",2.6,{"name":100,"color":101,"percentage":102},"Cython","#fedf5b",0.5,{"name":104,"color":105,"percentage":106},"C","#555555",0.3,{"name":108,"color":109,"percentage":110},"Shell","#89e051",0.2,{"name":112,"color":113,"percentage":114},"Dockerfile","#384d54",0,1512,244,"2026-04-02T03:39:28","Apache-2.0","Linux, macOS, Windows","未说明（支持 CPU\u002FGPU 推理，ONNX 加速；训练通常需 NVIDIA GPU，具体 CUDA 版本未提及）","未说明",{"notes":123,"python":121,"dependencies":124},"该工具提供跨平台 API（通过 pip 安装 simple-romp），支持 Linux、Windows 和 Mac。推理建议使用 simple-romp，支持导出 fbx\u002Fglb\u002Fbvh 格式。2022\u002F04\u002F10 更新增加了对 ONNX 的支持，可在 CPU\u002FGPU 上获得更快的推理速度。若需训练或完整环境配置，需参考 docs\u002Finstallation.md。另有 Docker 支持及 Blender 插件扩展。",[125,126,127],"torch","onnx","simple-romp",[54,13],[130,131,132,133,134,135,136],"3d-mesh-recovery","bottom-up","multi-person-3d-mesh-recovery","smpl","multi-person","pytorch","pose-estimation","2026-03-27T02:49:30.150509","2026-04-06T05:16:21.846763",[140,145,150,155,160,164,169],{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},11755,"如何复现论文中的结果？训练时需要注意什么？","为了更快收敛并复现结果，建议使用 Higher-HRNet-32 的预训练模型作为骨干网络（backbone）进行初始化。此外，复现过程通常分为两步：1. 使用 v1.yml 从预训练骨干网络开始训练，得到类似 ROMP_HRNet32_V1.pkl 的模型；2. 使用 v1_hrnet_3dpw_ft.yml 加载上一步的模型进行微调，得到用于测试的最终模型。","https:\u002F\u002Fgithub.com\u002FArthur151\u002FROMP\u002Fissues\u002F121",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},11756,"运行视频 Demo 时出现 OpenCV 'solvePnPRansac' 错误怎么办？","该部分代码较旧且维护不足，可能存在延迟高或兼容性问题。建议升级 simple-romp 到最新版本（0.1.0 以上），命令为：pip install --upgrade simple-romp。如果问题依旧，可能是旧版本遗留问题，建议检查代码版本或等待后续更稳定的版本开源。","https:\u002F\u002Fgithub.com\u002FArthur151\u002FROMP\u002Fissues\u002F140",{"id":151,"question_zh":152,"answer_zh":153,"source_url":154},11757,"ROMP 预测的顶点坐标系是什么？'cam_trans' 的作用是什么？","ROMP 预测的是相机坐标系下的点，但是是根节点对齐（root-aligned）的。'cam_trans' 是为了将根节点对齐的网格转换到正确的相机空间位置。在渲染前，需要将 'cam_trans' 加到顶点上。如果你希望获得正确的相对位置，需要理解这一平移量的估计过程（estimate_translation 实际上是在估计根节点的位置）。","https:\u002F\u002Fgithub.com\u002FArthur151\u002FROMP\u002Fissues\u002F210",{"id":156,"question_zh":157,"answer_zh":158,"source_url":159},11758,"如何处理 MoVi 数据集中的 SMPL 参数（beta 和 pose）以进行可视化？","MoVi 数据集提供的是 SMPL-H 参数（shape 16维, pose 52维）。如果要在使用标准 SMPL 模型（如 SMPL_NEUTRAL.pkl）的程序中可视化，通常取 beta 的前 10 个值和 pose 的前 22 个值。注意确保模型加载参数正确，例如设置 model_type='smpl', gender='neutral', use_face_contour=False 等。如果可视化失败，需检查是否正确处理了手部 pose（通常设为0或忽略）以及相机内外参的匹配。","https:\u002F\u002Fgithub.com\u002FArthur151\u002FROMP\u002Fissues\u002F47",{"id":161,"question_zh":162,"answer_zh":163,"source_url":159},11759,"如何选择基于模型（Model-based）和基于骨架（Skeleton-based）的方法？","如果需要驱动 Avatar 模型并获取旋转信息，基于模型（如 SMPL）的方法更合适，因为它提供完整的网格和姿态参数。基于骨架的方法虽然可能更容易学习且网络更小，但缺乏表面几何信息。对于从 2D 到 3D 的转换，可以参考结合几何感知自编码器的方法（如 István Sárándi 的论文），以桥接不同的骨架格式并提升估计效果。",{"id":165,"question_zh":166,"answer_zh":167,"source_url":168},11760,"如何支持 VMC 协议导出？","ROMP 本身不直接内置 VMC 协议导出，但社区已有实现。可以使用 vivi90 开发的 VMC 协议实现草案，代码地址为：https:\u002F\u002Fcodeberg.org\u002Fvivi90\u002Fvmcps。该实现已针对 ROMP 进行测试，可用于将 ROMP 的输出转换为 VMC 格式，进而用于 Unreal Engine 等环境。","https:\u002F\u002Fgithub.com\u002FArthur151\u002FROMP\u002Fissues\u002F193",{"id":170,"question_zh":171,"answer_zh":172,"source_url":173},11761,"代码中的 valid_mask_kp2ds 是什么？","valid_mask_kp2ds 是 person 对象的一个属性，用于指示每个人的关键点状态（即可见性或有效性掩码）。它在处理多人员数据集或训练 BEV 等后续版本时用于过滤无效的关键点数据。","https:\u002F\u002Fgithub.com\u002FArthur151\u002FROMP\u002Fissues\u002F132",[175,179,184,189,194,199,204],{"id":176,"version":177,"summary_zh":82,"released_at":178},62223,"V3.0","2023-06-17T01:09:12",{"id":180,"version":181,"summary_zh":182,"released_at":183},62224,"V2.1","检查点，用于训练BEV的数据。","2022-06-21T13:32:22",{"id":185,"version":186,"summary_zh":187,"released_at":188},62225,"V2.0","Simple-ROMP 中的 ROMP 和 BEV 模型检查点。","2022-03-14T13:08:00",{"id":190,"version":191,"summary_zh":192,"released_at":193},62226,"v1.1","ROMP 官方 1.1 版本！\r\n- 训练代码及更多评估内容。\r\n- 多人 webcam 演示。\r\n- 用于 webcam 演示的时序跟踪与优化。\r\n- 在 Blender 中实时进行单人角色动画。","2021-09-10T13:52:39",{"id":195,"version":196,"summary_zh":197,"released_at":198},62227,"v1.0","集成所有功能的正式 ROMP V1.0，包括 ResNet-50 模型和基准评测。","2021-03-31T11:18:19",{"id":200,"version":201,"summary_zh":202,"released_at":203},62228,"v0.1","添加实时摄像头支持。","2020-09-12T09:11:09",{"id":205,"version":206,"summary_zh":207,"released_at":208},62229,"v0.0","互联网图片的演示代码。我们来试试吧。","2020-09-04T06:00:42"]