[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-mkocabas--VIBE":3,"tool-mkocabas--VIBE":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",158594,2,"2026-04-16T23:34:05",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":75,"owner_email":75,"owner_twitter":75,"owner_website":77,"owner_url":78,"languages":79,"stars":88,"forks":89,"last_commit_at":90,"license":91,"difficulty_score":10,"env_os":92,"env_gpu":93,"env_ram":94,"env_deps":95,"category_tags":101,"github_topics":104,"view_count":32,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":115,"updated_at":116,"faqs":117,"releases":151},8209,"mkocabas\u002FVIBE","VIBE","Official implementation of CVPR2020 paper \"VIBE: Video Inference for Human Body Pose and Shape Estimation\"","VIBE 是一款基于深度学习的开源工具，专为从视频中精准估算人体姿态与三维形状而设计。它源自 CVPR 2020 的获奖论文，能够自动分析输入视频的每一帧，预测出符合 SMPL 标准的人体模型参数，从而将二维画面转化为生动的三维人物动作数据。\n\n传统方法在处理快速运动或遮挡时往往出现抖动或失真，而 VIBE 通过引入时序信息处理机制，有效解决了单帧估计不稳定的痛点，显著提升了动作的流畅度与自然感。其在多个权威数据集上达到了业界领先的精度，即使在复杂场景或多人员同框的情况下也能保持出色表现。\n\n这款工具非常适合计算机视觉研究人员、动画开发者以及游戏设计师使用。研究人员可利用其提供的完整训练代码复现前沿成果；开发者能快速集成到应用中，实现高达 30 FPS 的实时推理（基于 GPU）；设计师则可直接导出 FBX 或 glTF 格式文件，无缝对接主流图形软件进行二次创作。此外，VIBE 纯 PyTorch 实现且支持 CPU 运行，配合详细的文档与 Colab 演示，大大降低了技术门槛，让不同背景的用户都能轻松上手探索三维人体感知的奥秘。","# VIBE: Video Inference for Human Body Pose and Shape Estimation [CVPR-2020]\n[![report](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Farxiv-report-red)](https:\u002F\u002Farxiv.org\u002Fabs\u002F1912.05656) [![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1dFfwxZ52MN86FA6uFNypMEdFShd2euQA) [![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Fvibe-video-inference-for-human-body-pose-and\u002F3d-human-pose-estimation-on-3dpw)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002F3d-human-pose-estimation-on-3dpw?p=vibe-video-inference-for-human-body-pose-and)\n\n\u003Cp float=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmkocabas_VIBE_readme_a206ba088bb6.gif\" width=\"49%\" \u002F>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmkocabas_VIBE_readme_401b73b39144.gif\" width=\"49%\" \u002F>\n\u003C\u002Fp>\n\nCheck our YouTube videos below for more details.\n\n| Paper Video                                                                                                | Qualitative Results                                                                                                |\n|------------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------------------------------|\n| [![PaperVideo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmkocabas_VIBE_readme_48a472fcb62e.jpg)](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=rIr-nX63dUA) | [![QualitativeResults](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmkocabas_VIBE_readme_4e2b5264f500.jpg)](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=fW0sIZfQcIs) |\n\n\u003C!-- \u003Csub>Sources: left video - [https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=qlPRDVqYO74](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=qlPRDVqYO74), right video - [https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=Opry3F6aB1I](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=Opry3F6aB1I)\n\u003C\u002Fsub> -->\n\n> [**VIBE: Video Inference for Human Body Pose and Shape Estimation**](https:\u002F\u002Farxiv.org\u002Fabs\u002F1912.05656),            \n> [Muhammed Kocabas](https:\u002F\u002Fps.is.tuebingen.mpg.de\u002Fperson\u002Fmkocabas), [Nikos Athanasiou](https:\u002F\u002Fps.is.tuebingen.mpg.de\u002Fperson\u002Fnathanasiou), \n[Michael J. Black](https:\u002F\u002Fps.is.tuebingen.mpg.de\u002Fperson\u002Fblack),        \n> *IEEE Computer Vision and Pattern Recognition, 2020* \n\n## Features\n\n_**V**ideo **I**nference for **B**ody Pose and Shape **E**stimation_ (VIBE) is a video pose and shape estimation method.\nIt predicts the parameters of SMPL body model for each frame of an input video. Pleaser refer to our [arXiv report](https:\u002F\u002Farxiv.org\u002Fabs\u002F1912.05656) for further details.\n\nThis implementation:\n\n- has the demo and training code for VIBE implemented purely in PyTorch,\n- can work on arbitrary videos with multiple people,\n- supports both CPU and GPU inference (though GPU is way faster),\n- is fast, up-to 30 FPS on a RTX2080Ti (see [this table](doc\u002Fdemo.md#runtime-performance)),\n- achieves SOTA results on 3DPW and MPI-INF-3DHP datasets,\n- includes Temporal SMPLify implementation.\n- includes the training code and detailed instruction on how to train it from scratch.\n- can create an FBX\u002FglTF output to be used with major graphics softwares.\n\n\u003Cp float=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmkocabas_VIBE_readme_591a9c1abd27.gif\" width=\"49%\" \u002F>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmkocabas_VIBE_readme_6b20232999e5.gif\" width=\"49%\" \u002F>\n\u003C\u002Fp>\n\n## Updates\n\n- 05\u002F01\u002F2021: Windows installation tutorial is added thanks to amazing [@carlosedubarreto](https:\u002F\u002Fgithub.com\u002Fcarlosedubarreto)\n- 06\u002F10\u002F2020: Support OneEuroFilter smoothing.\n- 14\u002F09\u002F2020: FBX\u002FglTF conversion script is released.\n\n## Getting Started\nVIBE has been implemented and tested on Ubuntu 18.04 with python >= 3.7. It supports both GPU and CPU inference.\nIf you don't have a suitable device, try running our Colab demo. \n\nClone the repo:\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fmkocabas\u002FVIBE.git\n```\n\nInstall the requirements using `virtualenv` or `conda`:\n```bash\n# pip\nsource scripts\u002Finstall_pip.sh\n\n# conda\nsource scripts\u002Finstall_conda.sh\n```\n\n## Running the Demo\n\nWe have prepared a nice demo code to run VIBE on arbitrary videos. \nFirst, you need download the required data(i.e our trained model and SMPL model parameters). To do this you can just run:\n\n```bash\nsource scripts\u002Fprepare_data.sh\n```\n\nThen, running the demo is as simple as:\n\n```bash\n# Run on a local video\npython demo.py --vid_file sample_video.mp4 --output_folder output\u002F --display\n\n# Run on a YouTube video\npython demo.py --vid_file https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=wPZP8Bwxplo --output_folder output\u002F --display\n```\n\nRefer to [`doc\u002Fdemo.md`](doc\u002Fdemo.md) for more details about the demo code.\n\nSample demo output with the `--sideview` flag:\n\n\u003Cp float=\"left\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmkocabas_VIBE_readme_6d26edd8f954.gif\" width=\"30%\" \u002F>\n\u003C\u002Fp>\n\n### FBX and glTF output (New Feature!)\nWe provide a script to convert VIBE output to standalone FBX\u002FglTF files to be used in 3D graphics tools like\nBlender, Unity etc. You need to follow steps below to be able to run the conversion script.\n\n- You need to download FBX files for SMPL body model\n    - Go to [SMPL website](https:\u002F\u002Fsmpl.is.tue.mpg.de\u002F) and create an account.\n    - Download the Unity-compatible FBX file through the [link](https:\u002F\u002Fpsfiles.is.tuebingen.mpg.de\u002Fdownloads\u002Fsmpl\u002FSMPL_unity_v-1-0-0-zip)\n    - Unzip the contents and locate them `data\u002FSMPL_unity_v.1.0.0`.\n- Install Blender python API\n    - Note that we tested our script with Blender v2.8.0 and v2.8.3.\n- Run the command below to convert VIBE output to FBX:\n```\npython lib\u002Futils\u002Ffbx_output.py \\\n    --input output\u002Fsample_video\u002Fvibe_output.pkl \\\n    --output output\u002Fsample_video\u002Ffbx_output.fbx \\ # specify the file extension as *.glb for glTF\n    --fps_source 30 \\\n    --fps_target 30 \\\n    --gender \u003Cmale or female> \\\n    --person_id \u003Ctracklet id from VIBE output>\n\n``` \n### Windows Installation Tutorial\n\nYou can follow the instructions provided by [@carlosedubarreto](https:\u002F\u002Fgithub.com\u002Fcarlosedubarreto) to install and run VIBE on a Windows machine:\n\n- VIBE windows installation tutorial: https:\u002F\u002Fyoutu.be\u002F3qhs5IRJ1LI\n- FBX conversion: https:\u002F\u002Fyoutu.be\u002Fw1biKeiQThY\n- Helper github repo: https:\u002F\u002Fgithub.com\u002Fcarlosedubarreto\u002Fvibe_win_install\n\n## Google Colab\nIf you do not have a suitable environment to run this project then you could give Google Colab a try. \nIt allows you to run the project in the cloud, free of charge. You may try our Colab demo using the notebook we have prepared: \n[![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1dFfwxZ52MN86FA6uFNypMEdFShd2euQA)\n\n\n## Training\nRun the commands below to start training:\n\n```shell script\nsource scripts\u002Fprepare_training_data.sh\npython train.py --cfg configs\u002Fconfig.yaml\n```\n\nNote that the training datasets should be downloaded and prepared before running data processing script.\nPlease see [`doc\u002Ftrain.md`](doc\u002Ftrain.md) for details on how to prepare them.\n \n## Evaluation\n\nHere we compare VIBE with recent state-of-the-art methods on 3D pose estimation datasets. Evaluation metric is\nProcrustes Aligned Mean Per Joint Position Error (PA-MPJPE) in mm.\n\n| Models         | 3DPW &#8595; | MPI-INF-3DHP &#8595; | H36M &#8595; |\n|----------------|:----:|:------------:|:----:|\n| SPIN           | 59.2 |     67.5     | **41.1** |\n| Temporal HMR   | 76.7 |     89.8     | 56.8 |\n| VIBE           | 56.5 |     **63.4**     | 41.5 |\n\nSee [`doc\u002Feval.md`](doc\u002Feval.md) to reproduce the results in this table or \nevaluate a pretrained model.\n\n**Correction**: Due to a mistake in dataset preprocessing, VIBE trained with 3DPW results in Table 1 of the original paper are not correct.\nBesides, even though training with 3DPW guarantees better quantitative performance, it does not give good \nqualitative results. ArXiv version will be updated with the corrected results. \n\n## Citation\n\n```bibtex\n@inproceedings{kocabas2019vibe,\n  title={VIBE: Video Inference for Human Body Pose and Shape Estimation},\n  author={Kocabas, Muhammed and Athanasiou, Nikos and Black, Michael J.},\n  booktitle = {The IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},\n  month = {June},\n  year = {2020}\n}\n```\n\n## License\nThis code is available for **non-commercial scientific research purposes** as defined in the [LICENSE file](LICENSE). By downloading and using this code you agree to the terms in the [LICENSE](LICENSE). Third-party datasets and software are subject to their respective licenses.\n\n\n## References\nWe indicate if a function or script is borrowed externally inside each file. Here are some great resources we \nbenefit:\n\n- Pretrained HMR and some functions are borrowed from [SPIN](https:\u002F\u002Fgithub.com\u002Fnkolot\u002FSPIN).\n- SMPL models and layer is from [SMPL-X model](https:\u002F\u002Fgithub.com\u002Fvchoutas\u002Fsmplx).\n- Some functions are borrowed from [Temporal HMR](https:\u002F\u002Fgithub.com\u002Fakanazawa\u002Fhuman_dynamics).\n- Some functions are borrowed from [HMR-pytorch](https:\u002F\u002Fgithub.com\u002FMandyMo\u002Fpytorch_HMR).\n- Some functions are borrowed from [Kornia](https:\u002F\u002Fgithub.com\u002Fkornia\u002Fkornia).\n- Pose tracker is from [STAF](https:\u002F\u002Fgithub.com\u002Fsoulslicer\u002Fopenpose\u002Ftree\u002Fstaf).\n\n","# VIBE：用于人体姿态和形状估计的视频推理 [CVPR-2020]\n[![报告](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Farxiv-report-red)](https:\u002F\u002Farxiv.org\u002Fabs\u002F1912.05656) [![在Colab中打开](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1dFfwxZ52MN86FA6uFNypMEdFShd2euQA) [![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Fvibe-video-inference-for-human-body-pose-and\u002F3d-human-pose-estimation-on-3dpw)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002F3d-human-pose-estimation-on-3dpw?p=vibe-video-inference-for-human-body-pose-and)\n\n\u003Cp float=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmkocabas_VIBE_readme_a206ba088bb6.gif\" width=\"49%\" \u002F>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmkocabas_VIBE_readme_401b73b39144.gif\" width=\"49%\" \u002F>\n\u003C\u002Fp>\n\n请观看下方的YouTube视频以获取更多详情。\n\n| 论文视频                                                                                                | 定性结果                                                                                                |\n|------------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------------------------------|\n| [![PaperVideo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmkocabas_VIBE_readme_48a472fcb62e.jpg)](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=rIr-nX63dUA) | [![QualitativeResults](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmkocabas_VIBE_readme_4e2b5264f500.jpg)](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=fW0sIZfQcIs) |\n\n\u003C!-- \u003Csub>来源：左视频 - [https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=qlPRDVqYO74](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=qlPRDVqYO74)，右视频 - [https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=Opry3F6aB1I](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=Opry3F6aB1I)\n\u003C\u002Fsub> -->\n\n> [**VIBE：用于人体姿态和形状估计的视频推理**](https:\u002F\u002Farxiv.org\u002Fabs\u002F1912.05656),            \n> [穆罕默德·科卡巴斯](https:\u002F\u002Fps.is.tuebingen.mpg.de\u002Fperson\u002Fmkocabas), [尼科斯·阿塔纳西乌](https:\u002F\u002Fps.is.tuebingen.mpg.de\u002Fperson\u002Fnathanasiou), \n[迈克尔·J·布莱克](https:\u002F\u002Fps.is.tuebingen.mpg.de\u002Fperson\u002Fblack),        \n> *IEEE计算机视觉与模式识别会议，2020年* \n\n## 特性\n\n_**V**ideo **I**nference for **B**ody Pose and Shape **E**stimation_ (VIBE) 是一种基于视频的姿态和形状估计方法。\n它能够为输入视频的每一帧预测SMPL人体模型的参数。更多详细信息请参阅我们的[arXiv报告](https:\u002F\u002Farxiv.org\u002Fabs\u002F1912.05656)。\n\n本实现：\n\n- 纯PyTorch实现的VIBE演示和训练代码，\n- 可处理包含多个人物的任意视频，\n- 支持CPU和GPU推理（但GPU速度更快），\n- 速度快，在RTX2080Ti上可达30 FPS（见[此表格](doc\u002Fdemo.md#runtime-performance)），\n- 在3DPW和MPI-INF-3DHP数据集上达到SOTA水平，\n- 包含Temporal SMPLify实现。\n- 提供从头开始训练的代码及详细说明。\n- 可生成FBX\u002FglTF格式的输出文件，便于与主流图形软件配合使用。\n\n\u003Cp float=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmkocabas_VIBE_readme_591a9c1abd27.gif\" width=\"49%\" \u002F>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmkocabas_VIBE_readme_6b20232999e5.gif\" width=\"49%\" \u002F>\n\u003C\u002Fp>\n\n## 更新\n\n- 2021年01月05日：感谢优秀的[@carlosedubarreto](https:\u002F\u002Fgithub.com\u002Fcarlosedubarreto)添加了Windows安装教程\n- 2020年10月06日：支持OneEuroFilter平滑滤波。\n- 2020年09月14日：发布了FBX\u002FglTF转换脚本。\n\n## 快速入门\nVIBE已在Ubuntu 18.04系统上使用Python >= 3.7版本进行实现和测试。它同时支持GPU和CPU推理。\n如果您没有合适的设备，可以尝试运行我们的Colab演示。\n\n克隆仓库：\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fmkocabas\u002FVIBE.git\n```\n\n使用`virtualenv`或`conda`安装依赖：\n```bash\n# pip\nsource scripts\u002Finstall_pip.sh\n\n# conda\nsource scripts\u002Finstall_conda.sh\n```\n\n## 运行演示\n\n我们准备了一个友好的演示代码，用于在任意视频上运行VIBE。\n首先，您需要下载所需的数据（即我们训练好的模型和SMPL模型参数）。只需运行以下命令即可：\n\n```bash\nsource scripts\u002Fprepare_data.sh\n```\n\n然后，运行演示非常简单：\n\n```bash\n# 在本地视频上运行\npython demo.py --vid_file sample_video.mp4 --output_folder output\u002F --display\n\n# 在YouTube视频上运行\npython demo.py --vid_file https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=wPZP8Bwxplo --output_folder output\u002F --display\n```\n\n有关演示代码的更多详细信息，请参阅[`doc\u002Fdemo.md`](doc\u002Fdemo.md)。\n\n带有`--sideview`标志的示例演示输出：\n\n\u003Cp float=\"left\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmkocabas_VIBE_readme_6d26edd8f954.gif\" width=\"30%\" \u002F>\n\u003C\u002Fp>\n\n### FBX和glTF输出（新功能！）\n我们提供了一个脚本，可将VIBE的输出转换为独立的FBX\u002FglTF文件，以便在Blender、Unity等3D图形工具中使用。要运行该转换脚本，您需要按照以下步骤操作。\n\n- 您需要下载SMPL人体模型的FBX文件\n    - 前往[SMPL官网](https:\u002F\u002Fsmpl.is.tue.mpg.de\u002F)并注册账号。\n    - 通过[链接](https:\u002F\u002Fpsfiles.is.tuebingen.mpg.de\u002Fdownloads\u002Fsmpl\u002FSMPL_unity_v-1-0-0-zip)下载Unity兼容的FBX文件。\n    - 解压内容，并将其放置在`data\u002FSMPL_unity_v.1.0.0`目录下。\n- 安装Blender Python API\n    - 请注意，我们已使用Blender v2.8.0和v2.8.3测试过该脚本。\n- 运行以下命令将VIBE输出转换为FBX：\n```\npython lib\u002Futils\u002Ffbx_output.py \\\n    --input output\u002Fsample_video\u002Fvibe_output.pkl \\\n    --output output\u002Fsample_video\u002Ffbx_output.fbx \\ # 对于glTF，请指定文件扩展名为*.glb\n    --fps_source 30 \\\n    --fps_target 30 \\\n    --gender \u003Cmale or female> \\\n    --person_id \u003C来自VIBE输出的tracklet id>\n\n``` \n### Windows安装教程\n\n您可以按照[@carlosedubarreto](https:\u002F\u002Fgithub.com\u002Fcarlosedubarreto)提供的说明，在Windows机器上安装并运行VIBE：\n\n- VIBE Windows安装教程：https:\u002F\u002Fyoutu.be\u002F3qhs5IRJ1LI\n- FBX转换：https:\u002F\u002Fyoutu.be\u002Fw1biKeiQThY\n- 辅助GitHub仓库：https:\u002F\u002Fgithub.com\u002Fcarlosedubarreto\u002Fvibe_win_install\n\n## Google Colab\n如果您没有合适的环境来运行该项目，不妨试试Google Colab。\n它允许您在云端免费运行项目。您可以使用我们准备的笔记本试用我们的Colab演示：\n[![在Colab中打开](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1dFfwxZ52MN86FA6uFNypMEdFShd2euQA)\n\n\n## 训练\n运行以下命令开始训练：\n\n```shell script\nsource scripts\u002Fprepare_training_data.sh\npython train.py --cfg configs\u002Fconfig.yaml\n```\n\n请注意，在运行数据处理脚本之前，应先下载并准备好训练数据。\n有关如何准备这些数据的详细信息，请参阅[`doc\u002Ftrain.md`](doc\u002Ftrain.md)。\n\n## 评估\n\n在这里，我们将在3D姿态估计数据集上将VIBE与近期的最先进方法进行比较。评估指标是经过普罗库斯图斯对齐后的平均关节位置误差（PA-MPJPE），单位为毫米。\n\n| 模型         | 3DPW &#8595; | MPI-INF-3DHP &#8595; | H36M &#8595; |\n|----------------|:----:|:------------:|:----:|\n| SPIN           | 59.2 |     67.5     | **41.1** |\n| Temporal HMR   | 76.7 |     89.8     | 56.8 |\n| VIBE           | 56.5 |     **63.4**     | 41.5 |\n\n请参阅[`doc\u002Feval.md`](doc\u002Feval.md)，以复现本表中的结果或评估预训练模型。\n\n**更正**：由于数据集预处理中的一个错误，原始论文表1中使用3DPW训练的VIBE结果并不正确。\n此外，尽管使用3DPW进行训练能够保证更好的定量性能，但其定性结果并不理想。ArXiv版本将更新为更正后的结果。\n\n## 引用\n\n```bibtex\n@inproceedings{kocabas2019vibe,\n  title={VIBE: Video Inference for Human Body Pose and Shape Estimation},\n  author={Kocabas, Muhammed and Athanasiou, Nikos and Black, Michael J.},\n  booktitle = {The IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},\n  month = {June},\n  year = {2020}\n}\n```\n\n## 许可证\n此代码仅可用于[LICENSE文件](LICENSE)中定义的“非商业性科学研究目的”。下载并使用此代码即表示您同意[LICENSE](LICENSE)中的条款。第三方数据集和软件受其各自许可证的约束。\n\n\n## 参考文献\n我们在每个文件中注明了是否借用了外部功能或脚本。以下是我们受益匪浅的一些优秀资源：\n\n- 预训练的HMR及部分函数借自[SPIN](https:\u002F\u002Fgithub.com\u002Fnkolot\u002FSPIN)。\n- SMPL模型及相关层来自[SMPL-X模型](https:\u002F\u002Fgithub.com\u002Fvchoutas\u002Fsmplx)。\n- 部分函数借自[Temporal HMR](https:\u002F\u002Fgithub.com\u002Fakanazawa\u002Fhuman_dynamics)。\n- 部分函数借自[HMR-pytorch](https:\u002F\u002Fgithub.com\u002FMandyMo\u002Fpytorch_HMR)。\n- 部分函数借自[Kornia](https:\u002F\u002Fgithub.com\u002Fkornia\u002Fkornia)。\n- 姿态跟踪器来自[STAF](https:\u002F\u002Fgithub.com\u002Fsoulslicer\u002Fopenpose\u002Ftree\u002Fstaf)。","# VIBE 快速上手指南\n\nVIBE (Video Inference for Human Body Pose and Shape Estimation) 是一个基于视频的人体姿态和形状估计工具，能够预测输入视频中每一帧的 SMPL 人体模型参数。它支持多人体检测，在 GPU 上运行速度快（最高可达 30 FPS），并支持导出 FBX\u002FglTF 格式供 Blender、Unity 等软件使用。\n\n## 环境准备\n\n*   **操作系统**: 推荐 Ubuntu 18.04（Windows 用户可参考项目提供的第三方教程）。\n*   **Python 版本**: >= 3.7\n*   **硬件要求**:\n    *   **GPU**: 推荐使用 NVIDIA GPU（如 RTX2080Ti 及以上）以获得最佳性能。\n    *   **CPU**: 支持 CPU 推理，但速度较慢。\n*   **依赖管理**: 支持 `pip` (virtualenv) 或 `conda`。\n\n> **提示**: 如果没有合适的本地环境，可以直接使用官方提供的 [Google Colab](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1dFfwxZ52MN86FA6uFNypMEdFShd2euQA) 在线运行。\n\n## 安装步骤\n\n### 1. 克隆代码库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fmkocabas\u002FVIBE.git\ncd VIBE\n```\n\n### 2. 安装依赖\n根据你习惯的环境管理工具，选择以下任一命令执行：\n\n**使用 Conda (推荐):**\n```bash\nsource scripts\u002Finstall_conda.sh\n```\n\n**使用 Pip:**\n```bash\nsource scripts\u002Finstall_pip.sh\n```\n\n### 3. 下载预训练模型与数据\n运行以下脚本自动下载所需的预训练模型和 SMPL 模型参数：\n```bash\nsource scripts\u002Fprepare_data.sh\n```\n> **注意**: 如果下载速度慢，可能需要手动配置网络代理或寻找国内镜像源下载相关文件后放入对应目录。\n\n## 基本使用\n\n安装完成后，你可以直接对本地视频文件或 YouTube 链接进行推理。\n\n### 示例 1：处理本地视频\n```bash\npython demo.py --vid_file sample_video.mp4 --output_folder output\u002F --display\n```\n*   `--vid_file`: 输入视频路径。\n*   `--output_folder`: 结果输出目录。\n*   `--display`: 实时显示结果窗口（若无图形界面可去除此参数）。\n\n### 示例 2：处理 YouTube 视频\n```bash\npython demo.py --vid_file https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=wPZP8Bwxplo --output_folder output\u002F --display\n```\n\n### 进阶：生成侧视图\n添加 `--sideview` 标志可生成包含侧视角度的演示输出：\n```bash\npython demo.py --vid_file sample_video.mp4 --output_folder output\u002F --sideview\n```\n\n### 导出为 3D 格式 (FBX\u002FglTF)\n若需将结果用于 Blender 或 Unity，可使用转换脚本（需先按 README 说明下载 SMPL FBX 文件并安装 Blender Python API）：\n```bash\npython lib\u002Futils\u002Ffbx_output.py \\\n    --input output\u002Fsample_video\u002Fvibe_output.pkl \\\n    --output output\u002Fsample_video\u002Ffbx_output.fbx \\\n    --fps_source 30 \\\n    --fps_target 30 \\\n    --gender male \\\n    --person_id 0\n```\n*   将 `--output` 文件扩展名改为 `.glb` 即可导出 glTF 格式。\n*   `--gender` 需指定为 `male` 或 `female`。\n*   `--person_id` 对应视频中追踪到的人物 ID。","某独立游戏开发团队正在制作一款跑酷类游戏，需要将真人演员的动作快速转化为游戏中 3D 角色的动画数据。\n\n### 没有 VIBE 时\n- **成本高昂**：团队必须租用专业动作捕捉棚或购买昂贵的光学动捕设备，预算严重超支。\n- **流程繁琐**：演员需穿戴布满标记点的紧身衣，后期还需人工清理数据噪点并手动绑定骨骼，耗时数天。\n- **灵活性差**：一旦需要修改动作或增加新角色，必须重新召集演员进行拍摄，无法利用现有的普通视频素材。\n- **环境受限**：只能在受控的绿幕或特定灯光环境下拍摄，难以捕捉户外自然光下的真实运动细节。\n\n### 使用 VIBE 后\n- **零硬件门槛**：直接使用手机或相机拍摄的普通 RGB 视频即可输入，无需任何专用传感器或标记点，大幅降低资金压力。\n- **自动化高效**：VIBE 能自动从视频中推断出每一帧的 SMPL 人体模型参数，直接生成流畅的 3D 动作序列，将数天的工作缩短至几分钟。\n- **素材复用性强**：支持处理任意包含多人的视频，开发者可轻松从网络视频库或历史录像中提取动作，随时迭代游戏内容。\n- **无缝对接引擎**：工具支持输出 FBX\u002FglTF 格式，生成的动画数据可直接导入 Unity 或 Unreal Engine 中使用，且能在消费级显卡上实现近 30 FPS 的实时推理速度。\n\nVIBE 通过将普通视频一键转化为高精度 3D 人体动作数据，彻底打破了传统动捕的技术与资金壁垒，让中小团队也能轻松实现电影级的角色动画制作。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmkocabas_VIBE_a206ba08.gif","mkocabas","Muhammed Kocabas","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmkocabas_460da1ac.jpg",null,"Max Planck Institute for Intelligent Systems","https:\u002F\u002Fps.is.mpg.de\u002Fperson\u002Fmkocabas","https:\u002F\u002Fgithub.com\u002Fmkocabas",[80,84],{"name":81,"color":82,"percentage":83},"Python","#3572A5",99.5,{"name":85,"color":86,"percentage":87},"Shell","#89e051",0.5,3176,578,"2026-04-16T03:12:30","NOASSERTION","Linux, Windows","非必需（支持 CPU），但推荐 NVIDIA GPU（示例提及 RTX2080Ti 可达 30 FPS）","未说明",{"notes":96,"python":97,"dependencies":98},"已在 Ubuntu 18.04 上测试；提供 Windows 安装教程链接；首次运行需下载预训练模型和 SMPL 参数；若需生成 FBX\u002FglTF 文件，需安装 Blender (v2.8.0\u002Fv2.8.3) 并下载 SMPL Unity FBX 文件；无合适本地环境可使用 Google Colab。",">=3.7",[99,100],"PyTorch","virtualenv\u002Fconda",[102,103,14,15],"其他","视频",[105,106,107,108,109,110,111,112,113,114],"video-pose-estimation","3d-pose-estimation","human-pose-estimation","smpl","pytorch","3d-human-pose","cvpr2020","cvpr-2020","cvpr20","cvpr","2026-03-27T02:49:30.150509","2026-04-17T08:24:37.964420",[118,123,128,132,137,142,147],{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},36727,"运行 demo.py 时遇到 OpenGL GLError (err = 12289) 或 libEGL warning 错误如何解决？","这通常是由于依赖包版本不兼容导致的。解决方案是检查并调整依赖包版本：\n1. 尝试移除 requirements 或安装脚本中特定包的版本号限制，让 pip 自动解析兼容版本。\n2. 如果是 CentOS 系统且禁用了 nouveau 驱动，需确保 EGL 初始化正常。\n3. 参考 PyOpenGL 相关 issue 的修复方案（如设置 export 环境变量）。\n4. 在 Google Colab 等环境中，直接按照 README 去除所有依赖包的版本号通常能解决问题。","https:\u002F\u002Fgithub.com\u002Fmkocabas\u002FVIBE\u002Fissues\u002F47",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},36728,"训练过程中损失函数（loss）不下降或 PA-MPJPE 误差反而增加怎么办？","这通常是因为默认的训练配置文件中缺少了 3DPW 数据集。默认配置可能未包含 3DPW 用于训练，导致模型收敛困难或结果异常。\n解决方法：修改训练配置文件，显式添加 3DPW 数据集到训练列表中。添加后，训练误差通常会恢复正常并随迭代下降。","https:\u002F\u002Fgithub.com\u002Fmkocabas\u002FVIBE\u002Fissues\u002F140",{"id":129,"question_zh":130,"answer_zh":131,"source_url":127},36729,"使用预训练模型或自己训练的模型进行可视化时，重建的人体模型看起来比预期小，如何调整？","这是因为边界框（bbox）的缩放比例默认设置导致的。可以在运行 demo.py 时通过参数调整来解决。\n具体命令：在执行脚本时添加 --bbox_scale 参数并设置为 1.0（或其他合适数值），例如：\npython demo.py --vid_file sample_video.mp4 --output_folder output\u002F --bbox_scale 1.0",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},36730,"训练时报错 'ValueError: data\u002Fvibe_db\u002Fmpii3d_train_db.pt do not exists' 缺失文件怎么办？","该错误表明预处理后的数据集文件不存在。这是因为原始数据尚未被处理成项目所需的 .pt 格式。\n解决方法：在开始训练之前，必须先运行项目提供的预处理脚本（preprocess script）。请检查项目中是否有类似 `scripts\u002Fpreprocess.sh` 或专门的预处理代码，先对 MPII-3D 等原始数据集进行处理，生成对应的 .pt 数据库文件后再运行训练。","https:\u002F\u002Fgithub.com\u002Fmkocabas\u002FVIBE\u002Fissues\u002F77",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},36731,"为什么在 3DPW 数据集上的测试结果（PA-MPJPE 57.2mm）与论文中的结果（51.9mm）不一致？","这种差异通常是因为训练数据的变化。作者后来发现原始代码中存在数据泄露（data leak）问题，修复该问题后，如果在训练集中包含 3DPW 数据反而会降低定性结果的质量。因此，后续版本移除了生成 3DPW 训练数据的代码。\n如果你使用的是更新后的代码且未包含 3DPW 训练数据，或者复现环境与原作者最初实验环境不同，可能会导致指标略有差异。建议确认是否使用了正确的数据集划分和预处理流程。","https:\u002F\u002Fgithub.com\u002Fmkocabas\u002FVIBE\u002Fissues\u002F69",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},36732,"如何将估计的动作导出为 .fbx 格式以便导入到 3D 软件中？","VIBE 项目本身主要关注姿态估计，直接导出 .fbx 的功能可能需要借助外部工具或插件。\n社区用户建议：\n1. 可以尝试使用 EASYMocap 或小 K 动捕等工具进行后续处理。\n2. 有用户提到存在自定义的 Blender 构建版本（包含预安装的 Python 包和插件），可以配合使用来导出动画，但需注意该版本可能与特定显卡（如 RTX 3090）存在兼容性问题，因为它是在 RTX 2060 上打包的。","https:\u002F\u002Fgithub.com\u002Fmkocabas\u002FVIBE\u002Fissues\u002F1",{"id":148,"question_zh":149,"answer_zh":150,"source_url":146},36733,"下载 Blender 插件或脚本时找不到 blender.sh 文件是怎么回事？","这通常是因为操作系统版本不匹配。.sh 文件是 Linux\u002FUbuntu 系统的脚本文件。\n如果你下载的是 Windows 版本的压缩包，里面自然不会包含 .sh 脚本。请确保根据你的操作系统下载对应的版本：Ubuntu 用户下载包含 .sh 文件的版本，Windows 用户应寻找对应的 .bat 脚本或直接运行可执行文件。",[152,156],{"id":153,"version":154,"summary_zh":75,"released_at":155},297129,"v0.2","2020-06-27T18:21:50",{"id":157,"version":158,"summary_zh":159,"released_at":160},297130,"v0.1","`vibe_data.zip` 包含预训练模型和数据。","2019-12-18T16:32:31"]