[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-mks0601--3DMPPE_POSENET_RELEASE":3,"tool-mks0601--3DMPPE_POSENET_RELEASE":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":78,"owner_location":78,"owner_email":79,"owner_twitter":78,"owner_website":80,"owner_url":81,"languages":82,"stars":91,"forks":92,"last_commit_at":93,"license":94,"difficulty_score":95,"env_os":96,"env_gpu":97,"env_ram":98,"env_deps":99,"category_tags":108,"github_topics":109,"view_count":23,"oss_zip_url":78,"oss_zip_packed_at":78,"status":16,"created_at":116,"updated_at":117,"faqs":118,"releases":154},3503,"mks0601\u002F3DMPPE_POSENET_RELEASE","3DMPPE_POSENET_RELEASE","Official PyTorch implementation of \"Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image\", ICCV 2019","3DMPPE_POSENET_RELEASE 是一个基于 PyTorch 开发的开源项目，旨在从单张 RGB 图片中精准估计多人的三维人体姿态。它主要解决了传统方法在复杂场景下难以准确判断人物与相机距离，从而导致三维姿态重建深度信息不准的难题。通过引入“相机距离感知”的自顶向下策略，该工具能更可靠地还原人物在空间中的真实位置和动作细节。\n\n该项目代码结构灵活简洁，兼容 Human3.6M、MS COCO、MuPoTS-3D 等多个主流二维及三维姿态数据集，并提供了完整的训练、测试及三维可视化脚本。其核心技术亮点在于将深度估计融入姿态识别流程，显著提升了单人及多人场景下的三维重建精度。\n\n3DMPPE_POSENET_RELEASE 非常适合计算机视觉领域的研究人员、算法工程师以及高校开发者使用。如果你正在从事动作捕捉、人机交互、虚拟现实内容生成或智能监控等相关研究，需要复现 ICCV 2019 的经典论文成果或构建自己的三维姿态估算系统，这将是一个极具参考价值的基准工具。使用前需配置好 PyTorch、CUDA 及 cuDNN 等深度学习环境。","# PoseNet of \"Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image\"\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmks0601_3DMPPE_POSENET_RELEASE_readme_dd2d9da43b1e.png\" width=\"800\" height=\"300\">\n\u003C\u002Fp>\n\n\u003Cp align=\"middle\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmks0601_3DMPPE_POSENET_RELEASE_readme_d9ee571478f3.gif\" width=\"200\" height=\"150\"> \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmks0601_3DMPPE_POSENET_RELEASE_readme_9ce254be173e.gif\" width=\"200\" height=\"150\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmks0601_3DMPPE_POSENET_RELEASE_readme_efaee8fc354e.gif\" width=\"200\" height=\"150\"> \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmks0601_3DMPPE_POSENET_RELEASE_readme_6bc0899194a5.gif\" width=\"200\" height=\"150\">\n\u003C\u002Fp>\n\n\n## Introduction\n\nThis repo is official **[PyTorch](https:\u002F\u002Fpytorch.org)** implementation of **[Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image (ICCV 2019)](https:\u002F\u002Farxiv.org\u002Fabs\u002F1907.11346)**. It contains **PoseNet** part.\n\n**What this repo provides:**\n* [PyTorch](https:\u002F\u002Fpytorch.org) implementation of [Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image (ICCV 2019)](https:\u002F\u002Farxiv.org\u002Fabs\u002F1907.11346).\n* Flexible and simple code.\n* Compatibility for most of the publicly available 2D and 3D, single and multi-person pose estimation datasets including **[Human3.6M](http:\u002F\u002Fvision.imar.ro\u002Fhuman3.6m\u002Fdescription.php), [MPII](http:\u002F\u002Fhuman-pose.mpi-inf.mpg.de\u002F), [MS COCO 2017](http:\u002F\u002Fcocodataset.org\u002F#home), [MuCo-3DHP](http:\u002F\u002Fgvv.mpi-inf.mpg.de\u002Fprojects\u002FSingleShotMultiPerson\u002F) and [MuPoTS-3D](http:\u002F\u002Fgvv.mpi-inf.mpg.de\u002Fprojects\u002FSingleShotMultiPerson\u002F)**.\n* Human pose estimation visualization code.\n\n## Dependencies\n* [PyTorch](https:\u002F\u002Fpytorch.org)\n* [CUDA](https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-downloads)\n* [cuDNN](https:\u002F\u002Fdeveloper.nvidia.com\u002Fcudnn)\n* [Anaconda](https:\u002F\u002Fwww.anaconda.com\u002Fdownload\u002F)\n* [COCO API](https:\u002F\u002Fgithub.com\u002Fcocodataset\u002Fcocoapi)\n\nThis code is tested under Ubuntu 16.04, CUDA 9.0, cuDNN 7.1 environment with two NVIDIA 1080Ti GPUs.\n\nPython 3.6.5 version with Anaconda 3 is used for development.\n\n## Quick demo\nYou can try quick demo at `demo` folder. \n* Download the pre-trained PoseNet in [here](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1xjefKgjsH-W8v2lVn1Hbwzp2_Su7KtG0\u002Fview?usp=sharing).\n* Prepare `input.jpg` and pre-trained snapshot at `demo` folder.\n* Set `bbox_list` at [here](https:\u002F\u002Fgithub.com\u002Fmks0601\u002F3DMPPE_POSENET_RELEASE\u002Fblob\u002Ff8d420895570682c815d37ea74e2d6b1bf646818\u002Fdemo\u002Fdemo.py#L68).\n* Set `root_depth_list` at [here](https:\u002F\u002Fgithub.com\u002Fmks0601\u002F3DMPPE_POSENET_RELEASE\u002Fblob\u002Fbf4fa6f8076fcd3f636ddcc31479e2becbba19ec\u002Fdemo\u002Fdemo.py#L74).\n* Run `python demo.py --gpu 0 --test_epoch 24` if you want to run on gpu 0.\n* You can see `output_pose_2d.jpg` and new window that shows 3D pose.\n\n## Directory\n\n### Root\nThe `${POSE_ROOT}` is described as below.\n```\n${POSE_ROOT}\n|-- data\n|-- demo\n|-- common\n|-- main\n|-- tool\n|-- vis\n`-- output\n```\n* `data` contains data loading codes and soft links to images and annotations directories.\n* `demo` contains demo codes.\n* `common` contains kernel codes for 3d multi-person pose estimation system.\n* `main` contains high-level codes for training or testing the network.\n* `tool` contains data pre-processing codes. You don't have to run this code. I provide pre-processed data below.\n* `vis` contains scripts for 3d visualization.\n* `output` contains log, trained models, visualized outputs, and test result.\n\n### Data\nYou need to follow directory structure of the `data` as below.\n```\n${POSE_ROOT}\n|-- data\n|   |-- Human36M\n|   |   |-- bbox_root\n|   |   |   |-- bbox_root_human36m_output.json\n|   |   |-- images\n|   |   |-- annotations\n|   |-- MPII\n|   |   |-- images\n|   |   |-- annotations\n|   |-- MSCOCO\n|   |   |-- bbox_root\n|   |   |   |-- bbox_root_coco_output.json\n|   |   |-- images\n|   |   |   |-- train2017\n|   |   |   |-- val2017\n|   |   |-- annotations\n|   |-- MuCo\n|   |   |-- data\n|   |   |   |-- augmented_set\n|   |   |   |-- unaugmented_set\n|   |   |   |-- MuCo-3DHP.json\n|   |-- MuPoTS\n|   |   |-- bbox_root\n|   |   |   |-- bbox_mupots_output.json\n|   |   |-- data\n|   |   |   |-- MultiPersonTestSet\n|   |   |   |-- MuPoTS-3D.json\n```\n* Download Human3.6M parsed data [[data](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1r0B9I3XxIIW_jsXjYinDpL6NFcxTZart?usp=sharing)]\n* Download MPII parsed data [[images](http:\u002F\u002Fhuman-pose.mpi-inf.mpg.de\u002F)][[annotations](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1rrL_RxhwQgwhq5BU1iIRPwl285B_KTpU?usp=sharing)]\n* Download MuCo parsed and composited data [[data](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1dfhFa1kBHYKLTKuprNc7xixt3yyKEky5?usp=sharing)]\n* Download MuPoTS parsed data [[images](http:\u002F\u002Fgvv.mpi-inf.mpg.de\u002Fprojects\u002FSingleShotMultiPerson\u002F)][[annotations](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1wZ_QdqDzYqz1Lh4Yqf_-dSC568CFnfA0\u002Fview?usp=sharing)]\n* All annotation files follow [MS COCO format](http:\u002F\u002Fcocodataset.org\u002F#format-data).\n* If you want to add your own dataset, you have to convert it to [MS COCO format](http:\u002F\u002Fcocodataset.org\u002F#format-data).\n\nTo download multiple files from Google drive without compressing them, try [this](https:\u002F\u002Fchrome.google.com\u002Fwebstore\u002Fdetail\u002Fdrive-multiple-downloader\u002Fbaolodbihgboogdhkikimhadihambecp).\nIf you have a problem with 'Download limit' problem when tried to download dataset from google drive link, please try this trick.  \n```  \n* Go the shared folder, which contains files you want to copy to your drive  \n* Select all the files you want to copy  \n* In the upper right corner click on three vertical dots and select “make a copy”  \n* Then, the file is copied to your personal google drive account. You can download it from your personal account.  \n```  \n\n### Output\nYou need to follow the directory structure of the `output` folder as below.\n```\n${POSE_ROOT}\n|-- output\n|-- |-- log\n|-- |-- model_dump\n|-- |-- result\n`-- |-- vis\n```\n* Creating `output` folder as soft link form is recommended instead of folder form because it would take large storage capacity.\n* `log` folder contains training log file.\n* `model_dump` folder contains saved checkpoints for each epoch.\n* `result` folder contains final estimation files generated in the testing stage.\n* `vis` folder contains visualized results.\n\n### 3D visualization\n* Run `$DB_NAME_img_name.py` to get image file names in `.txt` format.\n* Place your test result files (`preds_2d_kpt_$DB_NAME.mat`, `preds_3d_kpt_$DB_NAME.mat`) in `single` or `multi` folder.\n* Run `draw_3Dpose_$DB_NAME.m`\n\n## Running 3DMPPE_POSENET\n### Start\n* In the `main\u002Fconfig.py`, you can change settings of the model including dataset to use, network backbone, and input size and so on.\n\n### Train\nIn the `main` folder, run\n```bash\npython train.py --gpu 0-1\n```\nto train the network on the GPU 0,1. \n\nIf you want to continue experiment, run \n```bash\npython train.py --gpu 0-1 --continue\n```\n`--gpu 0,1` can be used instead of `--gpu 0-1`.\n\n### Test\nPlace trained model at the `output\u002Fmodel_dump\u002F`.\n\nIn the `main` folder, run \n```bash\npython test.py --gpu 0-1 --test_epoch 20\n```\nto test the network on the GPU 0,1 with 20th epoch trained model. `--gpu 0,1` can be used instead of `--gpu 0-1`.\n\n## Results\nHere I report the performance of the PoseNet. \n* Download pre-trained models of the PoseNetNet in [here](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1El3qfdtgttO90X25k_680V2UCDv_TPoJ?usp=sharing) \n* Bounding boxs (from DetectNet) and root joint coordintates (from RootNet) of Human3.6M, MSCOCO, and MuPoTS-3D dataset in [here](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1bmQWFiT0ZU4Q7dlsRaPGqaqoCAOeThGr?usp=sharing).\n\n#### Human3.6M dataset using protocol 1\nFor the evaluation, you can run `test.py` or there are evaluation codes in `Human36M`.\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmks0601_3DMPPE_POSENET_RELEASE_readme_37c42cd91f3c.png\">\n\u003C\u002Fp>\n\n#### Human3.6M dataset using protocol 2\nFor the evaluation, you can run `test.py` or there are evaluation codes in `Human36M`.\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmks0601_3DMPPE_POSENET_RELEASE_readme_07d42a29bb94.png\">\n\u003C\u002Fp>\n\n#### MuPoTS-3D dataset\nFor the evaluation, run `test.py`.  After that, move `data\u002FMuPoTS\u002Fmpii_mupots_multiperson_eval.m` in `data\u002FMuPoTS\u002Fdata`. Also, move the test result files (`preds_2d_kpt_mupots.mat` and `preds_3d_kpt_mupots.mat`) in `data\u002FMuPoTS\u002Fdata`. Then run `mpii_mupots_multiperson_eval.m` with your evaluation mode arguments.\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmks0601_3DMPPE_POSENET_RELEASE_readme_e14ed8dcaa19.png\">\n\u003C\u002Fp>\n\n#### MSCOCO dataset\n\nWe additionally provide estimated 3D human root coordinates in on the MSCOCO dataset. The coordinates are in 3D camera coordinate system, and focal lengths are set to 1500mm for both x and y axis. You can change focal length and corresponding distance using equation 2 or equation in supplementarial material of my [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1907.11346).\n\n## Reference\n  ```\n@InProceedings{Moon_2019_ICCV_3DMPPE,\n  author = {Moon, Gyeongsik and Chang, Juyong and Lee, Kyoung Mu},\n  title = {Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image},\n  booktitle = {The IEEE Conference on International Conference on Computer Vision (ICCV)},\n  year = {2019}\n}\n```\n\n","# “基于单张RGB图像的3D多人姿态估计的相机距离感知自顶向下方法”中的PoseNet\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmks0601_3DMPPE_POSENET_RELEASE_readme_dd2d9da43b1e.png\" width=\"800\" height=\"300\">\n\u003C\u002Fp>\n\n\u003Cp align=\"middle\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmks0601_3DMPPE_POSENET_RELEASE_readme_d9ee571478f3.gif\" width=\"200\" height=\"150\"> \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmks0601_3DMPPE_POSENET_RELEASE_readme_9ce254be173e.gif\" width=\"200\" height=\"150\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmks0601_3DMPPE_POSENET_RELEASE_readme_efaee8fc354e.gif\" width=\"200\" height=\"150\"> \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmks0601_3DMPPE_POSENET_RELEASE_readme_6bc0899194a5.gif\" width=\"200\" height=\"150\">\n\u003C\u002Fp>\n\n\n## 简介\n\n本仓库是 **[Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image (ICCV 2019)](https:\u002F\u002Farxiv.org\u002Fabs\u002F1907.11346)** 的官方 **[PyTorch](https:\u002F\u002Fpytorch.org)** 实现，其中包含了 **PoseNet** 部分。\n\n**本仓库提供的内容：**\n* [Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image (ICCV 2019)](https:\u002F\u002Farxiv.org\u002Fabs\u002F1907.11346) 的 **[PyTorch](https:\u002F\u002Fpytorch.org)** 实现。\n* 灵活且简洁的代码。\n* 兼容大多数公开可用的2D和3D、单人及多人姿态估计数据集，包括 **[Human3.6M](http:\u002F\u002Fvision.imar.ro\u002Fhuman3.6m\u002Fdescription.php), [MPII](http:\u002F\u002Fhuman-pose.mpi-inf.mpg.de\u002F), [MS COCO 2017](http:\u002F\u002Fcocodataset.org\u002F#home), [MuCo-3DHP](http:\u002F\u002Fgvv.mpi-inf.mpg.de\u002Fprojects\u002FSingleShotMultiPerson\u002F) 和 [MuPoTS-3D](http:\u002F\u002Fgvv.mpi-inf.mpg.de\u002Fprojects\u002FSingleShotMultiPerson\u002F)**。\n* 人体姿态估计可视化代码。\n\n## 依赖项\n* [PyTorch](https:\u002F\u002Fpytorch.org)\n* [CUDA](https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-downloads)\n* [cuDNN](https:\u002F\u002Fdeveloper.nvidia.com\u002Fcudnn)\n* [Anaconda](https:\u002F\u002Fwww.anaconda.com\u002Fdownload\u002F)\n* [COCO API](https:\u002F\u002Fgithub.com\u002Fcocodataset\u002Fcocoapi)\n\n该代码已在 Ubuntu 16.04、CUDA 9.0、cuDNN 7.1 环境下，使用两块 NVIDIA 1080Ti 显卡进行了测试。\n\n开发过程中使用了 Python 3.6.5 版本与 Anaconda 3。\n\n## 快速演示\n您可以在 `demo` 文件夹中尝试快速演示。\n* 请从 [这里](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1xjefKgjsH-W8v2lVn1Hbwzp2_Su7KtG0\u002Fview?usp=sharing) 下载预训练的 PoseNet 模型。\n* 在 `demo` 文件夹中准备 `input.jpg` 和预训练模型快照。\n* 在 [此处](https:\u002F\u002Fgithub.com\u002Fmks0601\u002F3DMPPE_POSENET_RELEASE\u002Fblob\u002Ff8d420895570682c815d37ea74e2d6b1bf646818\u002Fdemo\u002Fdemo.py#L68) 设置 `bbox_list`。\n* 在 [此处](https:\u002F\u002Fgithub.com\u002Fmks0601\u002F3DMPPE_POSENET_RELEASE\u002Fblob\u002Fbf4fa6f8076fcd3f636ddcc31479e2becbba19ec\u002Fdemo\u002Fdemo.py#L74) 设置 `root_depth_list`。\n* 如果您想在 GPU 0 上运行，请执行 `python demo.py --gpu 0 --test_epoch 24`。\n* 您将看到 `output_pose_2d.jpg` 以及显示3D姿态的新窗口。\n\n## 目录结构\n\n### 根目录\n`${POSE_ROOT}` 的目录结构如下：\n```\n${POSE_ROOT}\n|-- data\n|-- demo\n|-- common\n|-- main\n|-- tool\n|-- vis\n`-- output\n```\n* `data` 包含数据加载代码以及指向图像和标注目录的软链接。\n* `demo` 包含演示代码。\n* `common` 包含用于3D多人姿态估计系统的内核代码。\n* `main` 包含用于训练或测试网络的高层代码。\n* `tool` 包含数据预处理代码。您无需运行此代码，我已提供预处理后的数据。\n* `vis` 包含3D可视化脚本。\n* `output` 存储日志、训练好的模型、可视化输出以及测试结果。\n\n### 数据目录\n请按照以下目录结构设置 `data` 目录：\n```\n${POSE_ROOT}\n|-- data\n|   |-- Human36M\n|   |   |-- bbox_root\n|   |   |   |-- bbox_root_human36m_output.json\n|   |   |-- images\n|   |   |-- annotations\n|   |-- MPII\n|   |   |-- images\n|   |   |-- annotations\n|   |-- MSCOCO\n|   |   |-- bbox_root\n|   |   |   |-- bbox_root_coco_output.json\n|   |   |-- images\n|   |   |   |-- train2017\n|   |   |   |-- val2017\n|   |   |-- annotations\n|   |-- MuCo\n|   |   |-- data\n|   |   |   |-- augmented_set\n|   |   |   |-- unaugmented_set\n|   |   |   |-- MuCo-3DHP.json\n|   |-- MuPoTS\n|   |   |-- bbox_root\n|   |   |   |-- bbox_mupots_output.json\n|   |   |-- data\n|   |   |   |-- MultiPersonTestSet\n|   |   |   |-- MuPoTS-3D.json\n```\n* 下载 Human3.6M 解析后的数据 [[数据](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1r0B9I3XxIIW_jsXjYinDpL6NFcxTZart?usp=sharing)]\n* 下载 MPII 解析后的数据 [[图片](http:\u002F\u002Fhuman-pose.mpi-inf.mpg.de\u002F)][[标注](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1rrL_RxhwQgwhq5BU1iIRPwl285B_KTpU?usp=sharing)]\n* 下载 MuCo 解析并合成后的数据 [[数据](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1dfhFa1kBHYKLTKuprNc7xixt3yyKEky5?usp=sharing)]\n* 下载 MuPoTS 解析后的数据 [[图片](http:\u002F\u002Fgvv.mpi-inf.mpg.de\u002Fprojects\u002FSingleShotMultiPerson\u002F)][[标注](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1wZ_QdqDzYqz1Lh4Yqf_-dSC568CFnfA0\u002Fview?usp=sharing)]\n* 所有标注文件均遵循 [MS COCO 格式](http:\u002F\u002Fcocodataset.org\u002F#format-data)。\n* 如果您想添加自己的数据集，必须将其转换为 [MS COCO 格式](http:\u002F\u002Fcocodataset.org\u002F#format-data)。\n\n如需从 Google Drive 下载多个文件而不压缩它们，请尝试使用 [此工具](https:\u002F\u002Fchrome.google.com\u002Fwebstore\u002Fdetail\u002Fdrive-multiple-downloader\u002Fbaolodbihgboogdhkikimhadihambecp)。\n如果您在下载 Google Drive 链接中的数据集时遇到“下载限制”问题，请尝试以下方法：\n```  \n* 进入包含您要复制文件的共享文件夹  \n* 选中所有要复制的文件  \n* 在右上角点击三个竖直点，选择“制作副本”  \n* 此时，文件将被复制到您的个人 Google Drive 账户。您可以从个人账户下载这些文件。  \n```  \n\n### 输出目录\n请按照以下目录结构设置 `output` 文件夹：\n```\n${POSE_ROOT}\n|-- output\n|-- |-- log\n|-- |-- model_dump\n|-- |-- result\n`-- |-- vis\n```\n* 建议以软链接形式创建 `output` 文件夹，而非普通文件夹形式，因为这会占用大量存储空间。\n* `log` 文件夹包含训练日志文件。\n* `model_dump` 文件夹保存每个epoch的检查点。\n* `result` 文件夹包含测试阶段生成的最终估计文件。\n* `vis` 文件夹包含可视化的结果。\n\n### 3D 可视化\n* 运行 `$DB_NAME_img_name.py` 以获取 `.txt` 格式的图像文件名列表。\n* 将您的测试结果文件（`preds_2d_kpt_$DB_NAME.mat`, `preds_3d_kpt_$DB_NAME.mat`）放入 `single` 或 `multi` 文件夹中。\n* 运行 `draw_3Dpose_$DB_NAME.m`\n\n## 运行 3DMPPE_POSENET\n### 启动\n* 在 `main\u002Fconfig.py` 中，您可以更改模型的设置，包括使用的数据集、网络主干、输入尺寸等。\n\n### 训练\n在 `main` 文件夹中，运行\n```bash\npython train.py --gpu 0-1\n```\n即可在 GPU 0 和 1 上训练网络。\n\n如果您想继续实验，请运行\n```bash\npython train.py --gpu 0-1 --continue\n```\n其中 `--gpu 0,1` 可以替代 `--gpu 0-1`。\n\n### 测试\n将训练好的模型放置在 `output\u002Fmodel_dump\u002F` 目录中。\n\n在 `main` 文件夹中，运行\n```bash\npython test.py --gpu 0-1 --test_epoch 20\n```\n即可在 GPU 0 和 1 上使用第20个epoch的模型进行测试。同样地，`--gpu 0,1` 可以替代 `--gpu 0-1`。\n\n## 结果\n在此报告 PoseNet 的性能。\n* 可在此处下载 PoseNet 的预训练模型：[这里](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1El3qfdtgttO90X25k_680V2UCDv_TPoJ?usp=sharing)\n* Human3.6M、MSCOCO 和 MuPoTS-3D 数据集的边界框（来自 DetectNet）以及根关节坐标（来自 RootNet）可在此处获取：[这里](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1bmQWFiT0ZU4Q7dlsRaPGqaqoCAOeThGr?usp=sharing)。\n\n#### 使用协议 1 的 Human3.6M 数据集\n进行评估时，可以运行 `test.py`，或者使用 `Human36M` 文件夹中的评估代码。\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmks0601_3DMPPE_POSENET_RELEASE_readme_37c42cd91f3c.png\">\n\u003C\u002Fp>\n\n#### 使用协议 2 的 Human3.6M 数据集\n进行评估时，可以运行 `test.py`，或者使用 `Human36M` 文件夹中的评估代码。\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmks0601_3DMPPE_POSENET_RELEASE_readme_07d42a29bb94.png\">\n\u003C\u002Fp>\n\n#### MuPoTS-3D 数据集\n进行评估时，请运行 `test.py`。随后，将 `data\u002FMuPoTS\u002Fmpii_mupots_multiperson_eval.m` 移至 `data\u002FMuPoTS\u002Fdata` 目录下，并将测试结果文件（`preds_2d_kpt_mupots.mat` 和 `preds_3d_kpt_mupots.mat`）也移至该目录。然后，使用您的评估模式参数运行 `mpii_mupots_multiperson_eval.m`。\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmks0601_3DMPPE_POSENET_RELEASE_readme_e14ed8dcaa19.png\">\n\u003C\u002Fp>\n\n#### MSCOCO 数据集\n\n我们还额外提供了 MSCOCO 数据集中估计的人体根关节 3D 坐标。这些坐标采用 3D 摄像机坐标系，且 x 和 y 轴的焦距均设置为 1500 mm。您可以通过公式 2 或我论文 [arXiv:1907.11346](https:\u002F\u002Farxiv.org\u002Fabs\u002F1907.11346) 补充材料中的公式来调整焦距及相应距离。\n\n## 参考文献\n  ```\n@InProceedings{Moon_2019_ICCV_3DMPPE,\n  author = {Moon, Gyeongsik and Chang, Juyong and Lee, Kyoung Mu},\n  title = {Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image},\n  booktitle = {The IEEE Conference on International Conference on Computer Vision (ICCV)},\n  year = {2019}\n}\n```","# 3DMPPE_POSENET_RELEASE 快速上手指南\n\n本指南基于 ICCV 2019 论文《Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image》的官方 PyTorch 实现，用于从单张 RGB 图像中进行 3D 多人姿态估计。\n\n## 环境准备\n\n### 系统要求\n*   **操作系统**: Ubuntu 16.04 (推荐) 或更高版本\n*   **GPU**: NVIDIA GPU (测试环境为双路 1080Ti)\n*   **CUDA**: 9.0 或更高版本\n*   **cuDNN**: 7.1 或更高版本\n*   **Python**: 3.6.5 (推荐使用 Anaconda 管理环境)\n\n### 前置依赖\n请确保已安装以下库：\n*   [PyTorch](https:\u002F\u002Fpytorch.org)\n*   [Anaconda](https:\u002F\u002Fwww.anaconda.com\u002Fdownload\u002F)\n*   [COCO API](https:\u002F\u002Fgithub.com\u002Fcocodataset\u002Fcocoapi)\n\n> **国内加速建议**：\n> *   安装 PyTorch 时可使用清华或中科大镜像源。\n> *   下载 Google Drive 数据集若遇限速，可参考 README 中提到的\"Make a copy\"技巧，或使用第三方下载工具。\n\n## 安装步骤\n\n1.  **克隆仓库**\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fmks0601\u002F3DMPPE_POSENET_RELEASE.git\n    cd 3DMPPE_POSENET_RELEASE\n    ```\n\n2.  **创建 Conda 环境并安装依赖**\n    ```bash\n    conda create -n posenet python=3.6.5 anaconda\n    conda activate posenet\n    \n    # 安装 PyTorch (请根据你的 CUDA 版本选择对应命令，以下为示例)\n    pip install torch torchvision\n    \n    # 安装 COCO API\n    git clone https:\u002F\u002Fgithub.com\u002Fcocodataset\u002Fcocoapi.git\n    cd cocoapi\u002FPythonAPI\n    python setup.py build_ext install\n    cd ..\u002F..\u002F\n    \n    # 安装其他必要 Python 包\n    pip install opencv-python matplotlib\n    ```\n\n3.  **配置目录结构**\n    项目需要特定的目录结构来存放数据和输出。建议在 `output` 目录使用软链接以节省空间：\n    ```bash\n    mkdir -p output\u002Flog output\u002Fmodel_dump output\u002Fresult output\u002Fvis\n    ```\n\n4.  **准备数据与模型 (可选，仅演示用)**\n    *   **预训练模型**: 下载 PoseNet 预训练权重放入 `demo` 文件夹。\n        *   下载地址: [Google Drive Link](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1xjefKgjsH-W8v2lVn1Hbwzp2_Su7KtG0\u002Fview?usp=sharing)\n    *   **数据集**: 若需训练或完整测试，需按 `data` 目录结构下载 Human3.6M, MSCOCO 等数据集及对应的标注文件（格式需符合 MS COCO standard）。\n\n## 基本使用\n\n### 1. 快速演示 (Demo)\n无需训练，直接使用预训练模型对单张图片进行推理。\n\n*   **准备文件**:\n    将输入图片重命名为 `input.jpg` 放入 `demo` 文件夹，并将下载的预训练模型也放入该文件夹。\n\n*   **配置参数**:\n    编辑 `demo\u002Fdemo.py` 文件：\n    *   第 68 行：设置 `bbox_list` (检测框坐标)。\n    *   第 74 行：设置 `root_depth_list` (根节点深度估计值)。\n\n*   **运行演示**:\n    ```bash\n    cd demo\n    python demo.py --gpu 0 --test_epoch 24\n    ```\n    *运行成功后，将在当前目录生成 `output_pose_2d.jpg`，并弹出窗口显示 3D 姿态结果。*\n\n### 2. 模型训练\n在开始训练前，请修改 `main\u002Fconfig.py` 以设置数据集、骨干网络及输入尺寸等参数。\n\n*   **启动训练** (使用 GPU 0 和 1):\n    ```bash\n    cd main\n    python train.py --gpu 0-1\n    ```\n\n*   **断点续训**:\n    ```bash\n    python train.py --gpu 0-1 --continue\n    ```\n\n### 3. 模型测试\n将训练好的模型 checkpoint 放入 `output\u002Fmodel_dump\u002F` 目录。\n\n*   **执行测试** (使用第 20 个 epoch 的模型):\n    ```bash\n    cd main\n    python test.py --gpu 0-1 --test_epoch 20\n    ```\n    测试结果将保存在 `output\u002Fresult` 和 `output\u002Fvis` 目录中。\n\n### 4. 3D 可视化\n若需对测试结果进行详细的 3D 可视化（需 MATLAB 环境）：\n1.  运行脚本获取图片列表：`$DB_NAME_img_name.py` (生成 `.txt`)。\n2.  将测试生成的 `.mat` 文件 (`preds_2d_kpt_*.mat`, `preds_3d_kpt_*.mat`) 放入 `single` 或 `multi` 文件夹。\n3.  运行 MATLAB 脚本：`draw_3Dpose_$DB_NAME.m`。","某智能健身镜研发团队正试图通过单目摄像头，为用户在客厅环境中提供实时的深蹲动作矫正与计数服务。\n\n### 没有 3DMPPE_POSENET_RELEASE 时\n- **深度信息缺失**：传统 2D 姿态估计只能获取关节的平面坐标，无法判断用户离摄像头的远近，导致系统无法区分“标准深蹲”与“向前探身”的错误动作。\n- **多人场景混乱**：当家庭成员同时进入画面时，算法难以将 2D 关键点准确关联到对应的 3D 人体骨架，经常出现肢体错位或身份混淆。\n- **开发成本高昂**：团队需自行收集多视角数据并训练复杂的深度回归模型，且难以兼容 Human3.6M 等主流公开数据集，研发周期被大幅拉长。\n- **可视化调试困难**：缺乏原生的 3D 可视化工具，开发人员仅能查看二维热力图，难以直观排查空间坐标预测的偏差来源。\n\n### 使用 3DMPPE_POSENET_RELEASE 后\n- **感知相机距离**：利用其“相机距离感知”特性，系统仅需单张 RGB 图像即可精准还原人体关节的三维空间坐标，准确识别动作幅度与深度变化。\n- **多人拓扑清晰**：基于自顶向下的处理流程，能稳定地从单图中分离并重建多个人的 3D 姿态，即使家人交叉运动也能保持骨架独立且准确。\n- **快速落地验证**：直接复用官方提供的 PyTorch 实现及预训练模型，无缝接入 MS COCO 等数据集进行微调，将原型开发时间从数周缩短至数天。\n- **直观效果呈现**：调用内置的可视化脚本，可立即生成旋转视角的 3D 骨架动画，帮助团队快速定位并优化特定动作的识别盲区。\n\n3DMPPE_POSENET_RELEASE 让单目摄像头具备了专业的三维空间感知能力，以极低的算力成本实现了高精度的多人动作分析。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmks0601_3DMPPE_POSENET_RELEASE_dd2d9da4.png","mks0601","Gyeongsik Moon","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmks0601_51e86422.jpg",null,"mks0601@gmail.com","https:\u002F\u002Fmks0601.github.io","https:\u002F\u002Fgithub.com\u002Fmks0601",[83,87],{"name":84,"color":85,"percentage":86},"Python","#3572A5",72.4,{"name":88,"color":89,"percentage":90},"MATLAB","#e16737",27.6,860,148,"2026-04-03T06:34:35","MIT",4,"Linux","必需 NVIDIA GPU，测试环境为两块 NVIDIA 1080Ti，需安装 CUDA 9.0 和 cuDNN 7.1","未说明",{"notes":100,"python":101,"dependencies":102},"代码在 Ubuntu 16.04 环境下测试通过。数据标注文件需遵循 MS COCO 格式。输出目录建议设置为软链接以节省存储空间。运行演示或训练前需手动下载预训练模型及数据集（如 Human3.6M, MPII, MSCOCO 等）。","3.6.5",[103,104,105,106,107],"PyTorch","CUDA","cuDNN","Anaconda","COCO API",[13,14,54],[110,111,112,113,114,115],"3d-human-pose","human-pose-estimation","pytorch","iccv2019","deep-learning","computer-vision","2026-03-27T02:49:30.150509","2026-04-06T07:16:04.696266",[119,124,129,134,139,144,149],{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},16058,"是否有针对单张图片进行姿态估计的演示代码？","有的，维护者提供了专门的演示脚本。您可以查看 `demo\u002Fdemo.py` 文件：https:\u002F\u002Fgithub.com\u002Fmks0601\u002F3DMPPE_POSENET_RELEASE\u002Fblob\u002Fmaster\u002Fdemo\u002Fdemo.py。该脚本支持输入单张已裁剪的人体图像并进行可视化。如果需自行编写脚本，注意边界框（bbox）最好设置为以人体为中心的方形，这与训练过程相似；同时需硬编码骨架结构和关节数量（针对 Human3D+MPII 预训练模型）。","https:\u002F\u002Fgithub.com\u002Fmks0601\u002F3DMPPE_POSENET_RELEASE\u002Fissues\u002F14",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},16059,"项目是否开源了 DetectNet 部分？测试时使用的边界框（Bounding Box）来源是什么？","DetectNet 部分未单独开源，其使用的是在 MS COCO 数据集上预训练的 Mask R-CNN。关于三个模块（DetectNet, PoseNet, RootNet）的边界框使用策略如下：\n1. DetectNet：训练时使用 COCO 预训练权重（无微调）；测试时直接使用预训练 Mask R-CNN 在 3D 姿态数据集上的预测结果。\n2. PoseNet & RootNet（训练时）：使用从 Ground Truth 2D 关节坐标生成并扩展的边界框。\n3. PoseNet & RootNet（测试时）：使用来自 DetectNet（即 Mask R-CNN）预测的边界框。\n简而言之，测试流程是先用 Mask R-CNN 检测 2D 关节得到初始 bbox，清洗后用于裁剪图像输入给 RootNet 或 PoseNet。","https:\u002F\u002Fgithub.com\u002Fmks0601\u002F3DMPPE_POSENET_RELEASE\u002Fissues\u002F5",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},16060,"如何在单张特定图片上运行测试代码？需要注意哪些变量？","要在单张图片上测试，必须设置正确的边界框坐标（bounding box coordinates）和人体根关节深度（root joint depth）。如果未正确设置这些变量，测试结果将不合理。请确保根据您的输入图像调整这两个关键参数。","https:\u002F\u002Fgithub.com\u002Fmks0601\u002F3DMPPE_POSENET_RELEASE\u002Fissues\u002F36",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},16061,"为什么 demo.py 和 test.py 在自定义数据集上的运行结果差异很大？","这通常是因为数据预处理或加载方式不一致导致的。在 `demo.py` 中，图像是逐个处理并经过 `generate_patch_image` 裁剪和变换的；而在 `test.py` 中，数据是通过 `batch_generator` 批量加载的。如果遇到结果不一致，请检查自定义数据集类中的 `getitem` 函数是否正确应用了与 `demo.py` 相同的图像变换（transform）和裁剪逻辑。此外，确保在评估函数中打印图像路径以验证输入数据是否正确，而非在 `getitem` 中打印。","https:\u002F\u002Fgithub.com\u002Fmks0601\u002F3DMPPE_POSENET_RELEASE\u002Fissues\u002F97",{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},16062,"在 Human3.6M 数据集上复现论文时准确率偏低（MPJPE 200-300mm），可能是什么原因？","精度差距可能源于训练数据的配置差异。论文中提到训练 Human3.6M 时使用了 MPII 数据集作为额外数据，但如果仅使用 Human3.6M 而不加额外 2D 数据集，效果可能会下降。此外，需检查数据解析过程是否完全遵循原项目设定，原始数据本身可能存在误差。如果目标是驱动虚拟角色（需要旋转信息），请注意本项目基于骨架的方法仅输出 3D 坐标而非旋转量；若需旋转，需通过逆运动学（IK）从坐标计算，或直接使用基于 SMPL 的方法。","https:\u002F\u002Fgithub.com\u002Fmks0601\u002F3DMPPE_POSENET_RELEASE\u002Fissues\u002F127",{"id":145,"question_zh":146,"answer_zh":147,"source_url":148},16063,"MUPOTS 数据集中的 3D Z 坐标（深度）与图像中的实际深度位置不匹配，是否需要额外处理？","这种现象可能与相机内参矩阵（intrinsic matrix）有关。如果在不同相机（不同内参）下拍摄同一 3D 空间的人，虽然相机坐标系下的 3D 关键点坐标相同，但投影到图像空间的 2D 姿态会因尺度不同而不同。在使用该数据集时，通常是先利用 2D 姿态和边界框进行裁剪，此时微小的深度对齐差异在裁剪和归一化过程中可能被忽略或需根据具体相机参数进行转换。请确认是否正确应用了相机内参来解释 2D 到 3D 的映射关系。","https:\u002F\u002Fgithub.com\u002Fmks0601\u002F3DMPPE_POSENET_RELEASE\u002Fissues\u002F12",{"id":150,"question_zh":151,"answer_zh":152,"source_url":153},16064,"Google Drive 上的数据集文件太大无法下载或显示为损坏的归档文件，有其他链接吗？","如果 Google Drive 显示文件为 `.gzaa` 等奇怪的归档格式或下载失败，可能是文件在上传过程中被 Google 修改或损坏。建议尝试手动下载后使用解压工具自行解压。如果问题依旧，可能需要检查是否有官方提供的备用下载链接（如 Baidu Pan 等，需参考项目 README 最新公告），或者联系维护者确认文件完整性。","https:\u002F\u002Fgithub.com\u002Fmks0601\u002F3DMPPE_POSENET_RELEASE\u002Fissues\u002F28",[]]