[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-bearpaw--pytorch-pose":3,"tool-bearpaw--pytorch-pose":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",143909,2,"2026-04-07T11:33:18",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":78,"owner_twitter":79,"owner_website":80,"owner_url":81,"languages":82,"stars":95,"forks":96,"last_commit_at":97,"license":98,"difficulty_score":99,"env_os":100,"env_gpu":101,"env_ram":102,"env_deps":103,"category_tags":110,"github_topics":111,"view_count":32,"oss_zip_url":78,"oss_zip_packed_at":78,"status":17,"created_at":119,"updated_at":120,"faqs":121,"releases":152},5101,"bearpaw\u002Fpytorch-pose","pytorch-pose","A PyTorch toolkit for 2D Human Pose Estimation.","pytorch-pose 是一个基于 PyTorch 框架开发的开源工具包，专注于实现 2D 单人人体姿态估计的完整流程。它旨在为研究人员和开发者提供一套标准化的接口，涵盖数据加载、模型训练、推理预测及结果评估等核心环节，有效解决了在复现经典姿态估计算法时面临的环境配置复杂、数据预处理繁琐以及缺乏统一评估标准等痛点。\n\n该工具特别适配 MPII、LSP 和 FLIC 等主流人体姿态数据集，内置了丰富的数据增强选项，并支持多线程数据加载与多 GPU 并行训练，显著提升了实验效率。此外，pytorch-pose 还集成了训练日志记录与可视化功能，帮助用户直观监控模型收敛情况与分析测试结果。其代码部分借鉴了经典的堆叠沙漏网络（Stacked Hourglass）实现，并已完成对 PyTorch 0.4.1 及 1.0 版本的兼容更新。\n\n无论是从事计算机视觉算法研究的高校学者，还是需要快速搭建姿态估计基线模型的工程师，pytorch-pose 都是一个高效、可靠且易于上手的选择。它不仅降低了进入该领域的技术门槛，也为后续算法改进提供了坚实的实验基础。","# PyTorch-Pose\n\n![screenshot](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbearpaw_pytorch-pose_readme_b134f0730a20.png)\n\nPyTorch-Pose is a PyTorch implementation of the general pipeline for 2D single human pose estimation. The aim is to provide the interface of the training\u002Finference\u002Fevaluation, and the dataloader with various data augmentation options for the most popular human pose databases (e.g., [the MPII human pose](http:\u002F\u002Fhuman-pose.mpi-inf.mpg.de), [LSP](http:\u002F\u002Fwww.comp.leeds.ac.uk\u002Fmat4saj\u002Flsp.html) and [FLIC](http:\u002F\u002Fbensapp.github.io\u002Fflic-dataset.html)).\n\nSome codes for data preparation and augmentation are brought from the [Stacked hourglass network](https:\u002F\u002Fgithub.com\u002Fanewell\u002Fpose-hg-train). Thanks to the original author.\n\n**Update: this repository is compatible with PyTorch 0.4.1\u002F1.0 now!**\n\n## Features\n- Multi-thread data loading\n- Multi-GPU training\n- Logger\n- Training\u002Ftesting results visualization\n\n## Installation\n1. PyTorch (>= 0.4.1): Please follow the [installation instruction of PyTorch](http:\u002F\u002Fpytorch.org\u002F). Note that the code is developed with Python2 and has not been tested with Python3 yet.\n\n2. Clone the repository with submodule\n   ```\n   git clone --recursive https:\u002F\u002Fgithub.com\u002Fbearpaw\u002Fpytorch-pose.git\n   ```\n\n3. Create a symbolic link to the `images` directory of the MPII dataset:\n   ```\n   ln -s PATH_TO_MPII_IMAGES_DIR data\u002Fmpii\u002Fimages\n   ```\n   For training\u002Ftesting on COCO, please refer to [COCO Readme](https:\u002F\u002Fgithub.com\u002Fbearpaw\u002Fpytorch-pose\u002Fblob\u002Fmaster\u002Fdata\u002Fmscoco\u002FREADME.md).\n\n\u003C!-- 4. Modify your `.bashrc` file:\n   ```\n   export PYTHONPATH=\".:$PYTHONPATH\"\n   ``` -->\n\n4. Download annotation file:\n    * (MPII) Download [mpii_annotations.json](https:\u002F\u002Fdrive.google.com\u002Fopen?id=1mQrH_yVHeB93rzCfyq5kC9ZYTwZeMsMm) and save it to `data\u002Fmpii`\n    * (MSCOCO) Download [coco_annotations_2014.json](https:\u002F\u002Fdrive.google.com\u002Fopen?id=1jrxis4ujrLlkwoD2GOdv3PGzygpQ04k7) or\u002Fand [coco_annotations_2017.json](https:\u002F\u002Fdrive.google.com\u002Fopen?id=1YuzpScAfzemwZqUuZBrbBZdoplXEqUse) and save it to `data\u002Fmscoco`\n\n## Usage\n\n**Please refer to [TRAINING.md](TRAINING.md) for detailed training recipes!**\n\n### Testing\nYou may download our pretrained models (e.g., [2-stack hourglass model](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F0B63t5HSgY4SQQ2FBRE5rQ2EzbjQ?resourcekey=0-EyrDJs1JYnC5byj5GydbPQ&usp=sharing)) for a quick start.\n\nRun the following command in terminal to evaluate the model on MPII validation split (The train\u002Fval split is from [Tompson et al. CVPR 2015](http:\u002F\u002Fwww.cims.nyu.edu\u002F~tompson\u002Fdata\u002Fmpii_valid_pred.zip)).\n```\nCUDA_VISIBLE_DEVICES=0 python example\u002Fmain.py --dataset mpii -a hg --stacks 2 --blocks 1 --checkpoint checkpoint\u002Fmpii\u002Fhg_s2_b1 --resume checkpoint\u002Fmpii\u002Fhg_s2_b1\u002Fmodel_best.pth.tar -e -d\n```\n* `-a` specifies a network architecture\n* `--resume` will load the weight from a specific model\n* `-e` stands for evaluation only\n* `-d` will visualize the network output. It can be also used during training\n\nThe result will be saved as a `.mat` file (`preds_valid.mat`), which is a `2958x16x2` matrix, in the folder specified by `--checkpoint`.\n\n#### Evaluate the PCKh@0.5 score\n\n##### Evaluate with MATLAB\n\nYou may use the matlab script `evaluation\u002Feval_PCKh.m` to evaluate your predictions. The evaluation code is ported from  [Tompson et al. CVPR 2015](http:\u002F\u002Fwww.cims.nyu.edu\u002F~tompson\u002Fdata\u002Fmpii_valid_pred.zip).\n\nThe results (PCKh@0.5 score) trained using this code is reported in the following table.\n\n\n| Model            | Head | Shoulder | Elbow | Wrist | Hip  | Knee  | Ankle | Mean |\n| ---------------- | -----| -------- | ----- | ----- | ---- | ------|------ | ---- |\n| hg_s2_b1 (last)  | 95.80| 94.57    | 88.12 | 83.31 | 86.24| 80.88 | 77.44 | 86.76|\n| hg_s2_b1 (best)  | 95.87| 94.68    | 88.27 | 83.64 | 86.29| 81.20 | 77.70 | 86.95|\n| hg_s8_b1 (last)  | 96.79| 95.19    | 90.08 | 85.32 | 87.48| 84.26 | 80.73 | 88.64|\n| hg_s8_b1 (best)  | 96.79|\t95.28\t   | 90.27 | 85.56 | 87.57| 84.3  | 81.06\t| 88.78|\n\nTraining \u002F validation curve is visualized as follows.\n\n![curve](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbearpaw_pytorch-pose_readme_037348c6a523.png)\n##### Evaluate with Python\n\nYou may also evaluate the result by running `python evaluation\u002Feval_PCKh.py` to evaluate the predictions. It will produce exactly the same result as that of the MATLAB. Thanks [@sssruhan1](https:\u002F\u002Fgithub.com\u002Fsssruhan1) for the [contribution](https:\u002F\u002Fgithub.com\u002Fbearpaw\u002Fpytorch-pose\u002Fpull\u002F2).\n\n### Training\nRun the following command in terminal to train an 8-stack of hourglass network on the MPII human pose dataset.\n```\nCUDA_VISIBLE_DEVICES=0 python example\u002Fmain.py --dataset mpii -a hg --stacks 8 --blocks 1 --checkpoint checkpoint\u002Fmpii\u002Fhg8 -j 4\n```\nHere,\n* `CUDA_VISIBLE_DEVICES=0` identifies the GPU devices you want to use. For example, use `CUDA_VISIBLE_DEVICES=0,1` if you want to use two GPUs with ID `0` and `1`.\n* `-j` specifies how many workers you want to use for data loading.\n* `--checkpoint` specifies where you want to save the models, the log and the predictions to.\n\n## Miscs\nSupported dataset\n- [x] [MPII human pose](http:\u002F\u002Fhuman-pose.mpi-inf.mpg.de)\n- [x] [Leeds Sports Pose (LSP)](http:\u002F\u002Fsam.johnson.io\u002Fresearch\u002Flsp.html)\n- [x] [MSCOCO (single person)](http:\u002F\u002Fcocodataset.org\u002F#keypoints-challenge2017)\n\nSupported models\n- [x] [Stacked Hourglass networks](https:\u002F\u002Farxiv.org\u002Fabs\u002F1603.06937)\n- [x] Xiao et al., Simple Baselines for Human Pose Estimation and Tracking, ECCV 2018 ([PDF](https:\u002F\u002Farxiv.org\u002Fabs\u002F1804.06208) | [GitHub](https:\u002F\u002Fgithub.com\u002FMicrosoft\u002Fhuman-pose-estimation.pytorch))\n\n## Contribute\nPlease create a pull request if you want to contribute.\n","# PyTorch-Pose\n\n![截图](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbearpaw_pytorch-pose_readme_b134f0730a20.png)\n\nPyTorch-Pose 是一个基于 PyTorch 的 2D 单人人体姿态估计通用流水线实现。其目标是为最流行的人体姿态数据集（例如 [MPII 人体姿态](http:\u002F\u002Fhuman-pose.mpi-inf.mpg.de)、[LSP](http:\u002F\u002Fwww.comp.leeds.ac.uk\u002Fmat4saj\u002Flsp.html) 和 [FLIC](http:\u002F\u002Fbensapp.github.io\u002Fflic-dataset.html)）提供训练\u002F推理\u002F评估的接口，以及带有多种数据增强选项的数据加载器。\n\n部分用于数据准备和增强的代码源自 [Stacked Hourglass 网络](https:\u002F\u002Fgithub.com\u002Fanewell\u002Fpose-hg-train)，感谢原作者。\n\n**更新：该仓库现已兼容 PyTorch 0.4.1\u002F1.0！**\n\n## 特性\n- 多线程数据加载\n- 多 GPU 训练\n- 日志记录器\n- 训练\u002F测试结果可视化\n\n## 安装\n1. PyTorch (>= 0.4.1)：请按照 [PyTorch 安装说明](http:\u002F\u002Fpytorch.org\u002F) 进行安装。请注意，代码是基于 Python2 开发的，尚未在 Python3 上进行测试。\n\n2. 克隆包含子模块的仓库：\n   ```\n   git clone --recursive https:\u002F\u002Fgithub.com\u002Fbearpaw\u002Fpytorch-pose.git\n   ```\n\n3. 创建指向 MPII 数据集 `images` 目录的符号链接：\n   ```\n   ln -s PATH_TO_MPII_IMAGES_DIR data\u002Fmpii\u002Fimages\n   ```\n   如果要在 COCO 数据集上进行训练\u002F测试，请参考 [COCO Readme](https:\u002F\u002Fgithub.com\u002Fbearpaw\u002Fpytorch-pose\u002Fblob\u002Fmaster\u002Fdata\u002Fmscoco\u002FREADME.md)。\n\n\u003C!-- 4. 修改你的 `.bashrc` 文件：\n   ```\n   export PYTHONPATH=\".:$PYTHONPATH\"\n   ``` -->\n\n4. 下载标注文件：\n    * (MPII) 下载 [mpii_annotations.json](https:\u002F\u002Fdrive.google.com\u002Fopen?id=1mQrH_yVHeB93rzCfyq5kC9ZYTwZeMsMm)，并将其保存到 `data\u002Fmpii`\n    * (MSCOCO) 下载 [coco_annotations_2014.json](https:\u002F\u002Fdrive.google.com\u002Fopen?id=1jrxis4ujrLlkwoD2GOdv3PGzygpQ04k7) 或\u002F及 [coco_annotations_2017.json](https:\u002F\u002Fdrive.google.com\u002Fopen?id=1YuzpScAfzemwZqUuZBrbBZdoplXEqUse)，并将其保存到 `data\u002Fmscoco`\n\n## 使用\n\n**详细的训练流程请参阅 [TRAINING.md](TRAINING.md)！**\n\n### 测试\n您可以下载我们的预训练模型（例如 [2 层 Hourglass 模型](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F0B63t5HSgY4SQQ2FBRE5rQ2EzbjQ?resourcekey=0-EyrDJs1JYnC5byj5GydbPQ&usp=sharing)）以快速开始。\n\n在终端中运行以下命令，即可在 MPII 验证集上评估模型（训练\u002F验证划分来自 [Tompson et al. CVPR 2015](http:\u002F\u002Fwww.cims.nyu.edu\u002F~tompson\u002Fdata\u002Fmpii_valid_pred.zip))。\n```\nCUDA_VISIBLE_DEVICES=0 python example\u002Fmain.py --dataset mpii -a hg --stacks 2 --blocks 1 --checkpoint checkpoint\u002Fmpii\u002Fhg_s2_b1 --resume checkpoint\u002Fmpii\u002Fhg_s2_b1\u002Fmodel_best.pth.tar -e -d\n```\n* `-a` 指定网络架构\n* `--resume` 将从指定模型加载权重\n* `-e` 表示仅进行评估\n* `-d` 会可视化网络输出，也可在训练过程中使用。\n\n结果将保存为 `.mat` 文件（`preds_valid.mat`），它是一个 `2958x16x2` 的矩阵，存储在 `--checkpoint` 指定的文件夹中。\n\n#### 评估 PCKh@0.5 分数\n\n##### 使用 MATLAB 评估\n\n您可以使用 MATLAB 脚本 `evaluation\u002Feval_PCKh.m` 来评估您的预测结果。该评估代码移植自 [Tompson et al. CVPR 2015](http:\u002F\u002Fwww.cims.nyu.edu\u002F~tompson\u002Fdata\u002Fmpii_valid_pred.zip)。\n\n使用此代码训练得到的结果（PCKh@0.5 分数）如下表所示。\n\n\n| 模型            | 头部 | 肩部 | 肘部 | 手腕 | 髋部  | 膝盖  | 踝部 | 平均 |\n| ---------------- | -----| -------- | ----- | ----- | ---- | ------|------ | ---- |\n| hg_s2_b1 (最后)  | 95.80| 94.57    | 88.12 | 83.31 | 86.24| 80.88 | 77.44 | 86.76|\n| hg_s2_b1 (最佳)  | 95.87| 94.68    | 88.27 | 83.64 | 86.29| 81.20 | 77.70 | 86.95|\n| hg_s8_b1 (最后)  | 96.79| 95.19    | 90.08 | 85.32 | 87.48| 84.26 | 80.73 | 88.64|\n| hg_s8_b1 (最佳)  | 96.79|\t95.28\t   | 90.27 | 85.56 | 87.57| 84.3  | 81.06\t| 88.78|\n\n训练\u002F验证曲线如下所示。\n\n![曲线](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbearpaw_pytorch-pose_readme_037348c6a523.png)\n##### 使用 Python 评估\n\n您也可以通过运行 `python evaluation\u002Feval_PCKh.py` 来评估结果，其效果与 MATLAB 完全相同。感谢 [@sssruhan1](https:\u002F\u002Fgithub.com\u002Fsssruhan1) 的 [贡献](https:\u002F\u002Fgithub.com\u002Fbearpaw\u002Fpytorch-pose\u002Fpull\u002F2)。\n\n### 训练\n在终端中运行以下命令，即可在 MPII 人体姿态数据集上训练一个 8 层 Hourglass 网络。\n```\nCUDA_VISIBLE_DEVICES=0 python example\u002Fmain.py --dataset mpii -a hg --stacks 8 --blocks 1 --checkpoint checkpoint\u002Fmpii\u002Fhg8 -j 4\n```\n其中，\n* `CUDA_VISIBLE_DEVICES=0` 指定了要使用的 GPU 设备。例如，如果要使用 ID 为 `0` 和 `1` 的两个 GPU，则应设置为 `CUDA_VISIBLE_DEVICES=0,1`。\n* `-j` 指定了用于数据加载的工作进程数量。\n* `--checkpoint` 指定了保存模型、日志和预测结果的路径。\n\n## 其他\n支持的数据集\n- [x] [MPII 人体姿态](http:\u002F\u002Fhuman-pose.mpi-inf.mpg.de)\n- [x] [利兹运动姿态 (LSP)](http:\u002F\u002Fsam.johnson.io\u002Fresearch\u002Flsp.html)\n- [x] [MSCOCO (单人)](http:\u002F\u002Fcocodataset.org\u002F#keypoints-challenge2017)\n\n支持的模型\n- [x] [Stacked Hourglass 网络](https:\u002F\u002Farxiv.org\u002Fabs\u002F1603.06937)\n- [x] Xiao 等人，人体姿态估计与跟踪的简单基线，ECCV 2018 ([PDF](https:\u002F\u002Farxiv.org\u002Fabs\u002F1804.06208) | [GitHub](https:\u002F\u002Fgithub.com\u002FMicrosoft\u002Fhuman-pose-estimation.pytorch))\n\n## 贡献\n如果您想贡献代码，请创建一个 Pull Request。","# PyTorch-Pose 快速上手指南\n\nPyTorch-Pose 是一个基于 PyTorch 的 2D 单人姿态估计通用流水线实现，支持训练、推理和评估，并提供了针对 MPII、LSP 和 FLIC 等主流数据集的数据加载与增强接口。\n\n## 环境准备\n\n*   **操作系统**: Linux (推荐)\n*   **Python 版本**: Python 2.7 (代码基于 Python 2 开发，尚未在 Python 3 上测试)\n*   **深度学习框架**: PyTorch >= 0.4.1 (兼容 1.0)\n*   **硬件要求**: 支持 CUDA 的 NVIDIA GPU (支持多卡训练)\n\n> **注意**：请确保已安装 CUDA 驱动及对应的 PyTorch 版本。国内用户可通过清华或阿里镜像源加速 PyTorch 安装。\n\n## 安装步骤\n\n### 1. 克隆仓库\n使用 `--recursive` 参数克隆仓库以包含子模块：\n```bash\ngit clone --recursive https:\u002F\u002Fgithub.com\u002Fbearpaw\u002Fpytorch-pose.git\ncd pytorch-pose\n```\n\n### 2. 配置数据集路径\n以 MPII 数据集为例，创建图像目录的软链接（请将 `PATH_TO_MPII_IMAGES_DIR` 替换为实际路径）：\n```bash\nln -s PATH_TO_MPII_IMAGES_DIR data\u002Fmpii\u002Fimages\n```\n*若需使用 COCO 数据集，请参考 `data\u002Fmscoco\u002FREADME.md` 进行配置。*\n\n### 3. 下载标注文件\n将以下标注文件下载到指定目录：\n\n*   **MPII 数据集**:\n    下载 [mpii_annotations.json](https:\u002F\u002Fdrive.google.com\u002Fopen?id=1mQrH_yVHeB93rzCfyq5kC9ZYTwZeMsMm) 并保存至 `data\u002Fmpii\u002F` 目录。\n    \n*   **MSCOCO 数据集** (可选):\n    下载 [coco_annotations_2014.json](https:\u002F\u002Fdrive.google.com\u002Fopen?id=1jrxis4ujrLlkwoD2GOdv3PGzygpQ04k7) 或 [coco_annotations_2017.json](https:\u002F\u002Fdrive.google.com\u002Fopen?id=1YuzpScAfzemwZqUuZBrbBZdoplXEqUse) 并保存至 `data\u002Fmscoco\u002F` 目录。\n\n## 基本使用\n\n### 快速测试 (推理与评估)\n下载预训练模型（例如 [2-stack hourglass 模型](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F0B63t5HSgY4SQQ2FBRE5rQ2EzbjQ?resourcekey=0-EyrDJs1JYnC5byj5GydbPQ&usp=sharing)），解压后放置于 `checkpoint\u002Fmpii\u002Fhg_s2_b1\u002F` 目录下。\n\n运行以下命令在 MPII 验证集上进行评估并可视化结果：\n```bash\nCUDA_VISIBLE_DEVICES=0 python example\u002Fmain.py --dataset mpii -a hg --stacks 2 --blocks 1 --checkpoint checkpoint\u002Fmpii\u002Fhg_s2_b1 --resume checkpoint\u002Fmpii\u002Fhg_s2_b1\u002Fmodel_best.pth.tar -e -d\n```\n\n**参数说明：**\n*   `-a`: 指定网络架构 (如 `hg` 代表 Hourglass)。\n*   `--resume`: 加载指定权重的模型文件。\n*   `-e`: 仅执行评估模式。\n*   `-d`: 可视化网络输出结果。\n\n执行完成后，预测结果将保存为 `.mat` 文件 (如 `preds_valid.mat`)。\n\n### 开始训练\n以下命令演示如何在单张 GPU 上训练一个 8-stack 的 Hourglass 网络：\n```bash\nCUDA_VISIBLE_DEVICES=0 python example\u002Fmain.py --dataset mpii -a hg --stacks 8 --blocks 1 --checkpoint checkpoint\u002Fmpii\u002Fhg8 -j 4\n```\n\n**参数说明：**\n*   `CUDA_VISIBLE_DEVICES=0`: 指定使用的 GPU ID (多卡可使用 `0,1`)。\n*   `-j 4`: 指定数据加载的线程数。\n*   `--checkpoint`: 指定模型、日志和预测结果的保存路径。\n\n> **提示**：详细的训练配方和高级用法请参阅项目根目录下的 `TRAINING.md` 文件。","某智能健身初创公司的算法团队正在开发一款基于摄像头的家庭健身动作纠正系统，需要快速构建高精度的 2D 人体关键点检测模型以分析用户深蹲和瑜伽姿势。\n\n### 没有 pytorch-pose 时\n- **数据预处理繁琐**：团队需手动编写代码解析 MPII 或 COCO 等主流数据集的标注文件，并自行实现旋转、缩放等数据增强逻辑，耗时且易出错。\n- **训练流程重复造轮子**：缺乏现成的多 GPU 训练和多线程数据加载框架，导致模型训练效率低下，难以充分利用服务器算力。\n- **评估与可视化困难**：缺少集成的评估脚本，无法直接计算 PCKh@0.5 等专业指标，也难以直观查看关键点预测的热力图效果，调试周期漫长。\n\n### 使用 pytorch-pose 后\n- **开箱即用的数据管道**：直接调用内置的数据加载器，轻松适配 MPII 和 COCO 数据集，自动应用多种数据增强策略，将数据准备时间从数天缩短至几小时。\n- **高效分布式训练**：利用其原生支持的多 GPU 训练和多线程加载功能，显著加速模型收敛，让团队能快速迭代不同架构（如堆叠沙漏网络）。\n- **标准化的评估体系**：通过一行命令即可完成模型推理并生成可视化结果，直接输出符合学术标准的 PCKh 评分矩阵，大幅提升了模型验证的透明度与效率。\n\npytorch-pose 通过提供标准化的全流程接口，让研发团队从繁琐的基础设施搭建中解放出来，专注于核心动作分析算法的优化。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbearpaw_pytorch-pose_e444bfac.png","bearpaw","Wei Yang","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fbearpaw_80502dc6.jpg","NVIDIA Robotics Research Lab","NVIDIA","Seattle, WA, USA",null,"wei_yang_cv","www.wyang.me","https:\u002F\u002Fgithub.com\u002Fbearpaw",[83,87,91],{"name":84,"color":85,"percentage":86},"Python","#3572A5",80.8,{"name":88,"color":89,"percentage":90},"MATLAB","#e16737",18.3,{"name":92,"color":93,"percentage":94},"Shell","#89e051",1,1120,253,"2026-01-28T09:11:55","GPL-3.0",4,"Linux","需要 NVIDIA GPU（支持多 GPU 训练），具体型号和显存未说明，需安装与 PyTorch 兼容的 CUDA 版本","未说明",{"notes":104,"python":105,"dependencies":106},"1. 该工具明确基于 Python 2 开发，未在 Python 3 上测试，现代环境运行可能需要代码迁移。\n2. 支持 PyTorch 0.4.1 及 1.0 版本。\n3. 评估 PCKh@0.5 分数可选使用 MATLAB 或 Python 脚本。\n4. 需手动下载 MPII 或 COCO 数据集图像及标注文件并配置软链接。","2.7 (明确注明基于 Python2 开发，尚未测试 Python3)",[107,108,109],"pytorch>=0.4.1","numpy (隐含，用于生成.mat 文件)","matplotlib (隐含，用于可视化)",[16,14],[112,113,114,115,116,117,118],"pose","human-pose-estimation","pytorch","mpii-dataset","mscoco-keypoint","hourglass-network","pose-estimation","2026-03-27T02:49:30.150509","2026-04-08T05:11:24.330717",[122,127,132,137,142,147],{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},23181,"crop 方法无法正常工作或热图与关节不重叠怎么办？","这通常是由旋转处理不当引起的。如果使用了有界旋转（bounded rotation），图像可能会缩小导致热图错位。解决方案是切换回普通旋转模式。此外，如果使用 `imutils.rotate_bound` 方法，由于其顺时针旋转特性，需要传入负角度值（即 `angle=-rot`）。还有一个常见错误是 `cv2.resize` 的参数顺序，`dsize` 应该是 (宽度，高度) 而不是 (高度，宽度)。","https:\u002F\u002Fgithub.com\u002Fbearpaw\u002Fpytorch-pose\u002Fissues\u002F115",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},23182,"transform 函数中为什么要对坐标先减 1 再加 1？","这种操作主要是为了处理从浮点数转换为整数时的索引偏移问题（即 1-based 索引与 0-based 索引的转换）。虽然在某些调用处看起来像是抵消了，但在涉及类型转换和仿射变换矩阵计算时，这是为了确保坐标对齐的正确性。如果您将其改为纯 0 索引并验证结果一致，也可以简化代码，但这需要确保整个流程（包括标注数据）都统一为 0 索引。","https:\u002F\u002Fgithub.com\u002Fbearpaw\u002Fpytorch-pose\u002Fissues\u002F19",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},23183,"为什么复现的准确率低于原论文报告的结果？","这通常是因为比较的基准不同。原论文图表中展示的往往是验证集（validation set）的结果，而表格中较高的准确率通常是测试集（test set）的结果，测试集准确率通常高于验证集。此外，代码中计算的 PCKh 是一种近似值（归一化因子为热图高宽的 1\u002F10 且排除了部分点），如果在原图上使用头部尺寸归一化并计算所有关键点，准确率数值会更高。请确认您是在对比相同的数据集划分和评估指标。","https:\u002F\u002Fgithub.com\u002Fbearpaw\u002Fpytorch-pose\u002Fissues\u002F15",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},23184,"如何使用预训练模型对单张图片进行测试和可视化？","基本思路是获取模型输出的热图（heatmap），然后找到热图中数值最大的点的坐标作为预测的关键点位置。虽然项目中包含 `get_final_preds` 函数用于此目的，但如果该函数在单图测试中难以直接调用，您可以手动实现：在热图张量上使用 `argmax` 或寻找最大值索引来提取坐标，然后根据图像的缩放和平移参数将这些坐标映射回原始图像尺寸进行绘制。","https:\u002F\u002Fgithub.com\u002Fbearpaw\u002Fpytorch-pose\u002Fissues\u002F67",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},23185,"在 PyTorch 0.4+ 版本上训练时准确率极低或增长缓慢怎么办？","这可能是评估模块中的数据类型兼容性问题。在 Python 2.7 或特定 PyTorch 版本中，整数除法可能导致精度丢失。请检查 `evaluation.py` 中的距离准确率计算函数 `dist_acc`。建议修改为显式的浮点运算以确保兼容性，例如：\n```python\ndef dist_acc(dists, thr=0.5):\n    if dists.ne(-1).sum() > 0:\n        return dists.le(thr).eq(dists.ne(-1)).sum().float() \u002F dists.ne(-1).sum().float()\n    else:\n        return -1\n```\n确保分子和分母都转换为 float 类型再进行除法运算。","https:\u002F\u002Fgithub.com\u002Fbearpaw\u002Fpytorch-pose\u002Fissues\u002F51",{"id":148,"question_zh":149,"answer_zh":150,"source_url":151},23186,"在多 GPU 环境下运行时程序卡死，如何设置 worker 数和 batch size？","在多 GPU 服务器（如配备 4 张 1080Ti）上运行时出现卡死（trunk\u002Fhang），通常是因为数据加载进程过多导致资源竞争或死锁。虽然没有绝对的固定值，但一般建议减少 `num_workers` 的数量（例如设置为 4 或更少，甚至设为 0 进行调试），并适当调整每个 GPU 的 `batch_size`。如果问题依旧，尝试将 `num_workers` 设为 0 以排除多进程加载数据的问题，然后再逐步增加直到找到稳定运行的最大值。","https:\u002F\u002Fgithub.com\u002Fbearpaw\u002Fpytorch-pose\u002Fissues\u002F49",[]]