awesome-human-pose-estimation
awesome-human-pose-estimation 是一个专注于人体姿态估计领域的优质资源合集,旨在为学习者和从业者提供一站式的技术导航。它系统性地整理了从基础概念到前沿研究的各类资料,有效解决了该领域技术更新快、论文与代码分散难寻的痛点,帮助用户快速构建知识体系并追踪最新进展。
这份合集特别适合人工智能研究人员、计算机视觉开发者以及希望深入理解姿态估计技术的学生使用。无论是想入门 2D/3D 姿态估算基础,还是寻找特定场景(如实时估算、多人检测)的解决方案,都能在此找到方向。其核心亮点在于结构清晰的分类索引,涵盖了经典与最新的学术论文、主流框架(PyTorch、TensorFlow 等)的代码实现、关键数据集以及深度解读博客。通过汇集带代码链接的复现资源和权威指南,awesome-human-pose-estimation 不仅降低了技术门槛,更为算法优化和项目落地提供了坚实的参考基石。
使用场景
某智慧体育科技公司的算法团队正致力于开发一款基于手机摄像头的 AI 健身动作纠正应用,需要快速构建高精度的人体姿态识别模型。
没有 awesome-human-pose-estimation 时
- 文献检索如大海捞针:团队成员需在 arXiv、Google Scholar 等多个平台分散搜索,难以系统掌握从 DeepPose 到 CPM 等经典算法的演进脉络。
- 复现成本极高:寻找论文对应的开源代码耗时费力,常遇到代码缺失、框架版本不兼容或缺乏预训练模型的问题,导致基础验证周期长达数周。
- 技术选型盲目:缺乏对 2D 与 3D 姿态估计、实时检测等不同细分领域主流方案的横向对比,容易选错不适合移动端部署的技术路线。
- 数据资源匮乏:难以快速定位高质量的标准数据集(如 MPII、COCO),导致模型训练初期因数据清洗和标注问题陷入停滞。
使用 awesome-human-pose-estimation 后
- 知识体系一键构建:直接利用整理好的分类目录,团队在半天内便梳理清楚技术发展史,并锁定了适合移动端的轻量级实时估算方案。
- 工程落地加速:通过列表中提供的 PyTorch 和 TensorFlow 热门实现链接及对应代码库,直接复用成熟模块,将原型开发时间从数周缩短至 3 天。
- 决策依据充分:参考收录的权威论文与博客解读,团队准确评估了不同模型在精度与速度上的权衡,避免了试错成本。
- 数据准备无忧:迅速获取官方推荐的数据集列表及相关预处理工具,立即启动了模型微调工作。
awesome-human-pose-estimation 将原本碎片化的学术资源转化为结构化的工程弹药库,帮助开发者跳过重复造轮子的阶段,直接站在巨人肩膀上创新。
运行环境要求
未说明
未说明

快速开始
优秀的人体姿态估计 
人体姿态估计相关资源的集合。
为什么是优秀的人体姿态估计?
这是我学习人体姿态估计时整理的一系列论文和资源。我会持续更新这份列表,加入最新的论文和资源。如果你想了解人体姿态估计的基础知识,并理解该领域的演进历程,请查看我在2D姿态估计和3D姿态估计上发表的文章。
贡献
如果你认为我遗漏了某些内容,或者有任何建议(例如论文、实现和其他资源),欢迎随时提交拉取请求。
我们非常欢迎反馈和贡献!
目录
基础知识
论文
2D姿态估计
- 利用卷积网络学习人体姿态估计特征 - Jain, A., Tompson, J., Andriluka, M., Taylor, G.W., & Bregler, C. (ICLR 2013)
- DeepPose:基于深度神经网络的人体姿态估计 - Toshev, A., & Szegedy, C. (CVPR 2014)
- 卷积网络与图模型联合训练用于人体姿态估计 - [代码] - Tompson, J., Jain, A., LeCun, Y., & Bregler, C. (NIPS 2014)
- MoDeep:一种使用运动特征进行人体姿态估计的深度学习框架 - Jain, A., Tompson, J., LeCun, Y., & Bregler, C. (ACCV 2014)
- 利用卷积网络进行高效的目标定位 - Tompson, J., Goroshin, R., Jain, A., LeCun, Y., & Bregler, C (CVPR 2015)
- 用于视频中人体姿态估计的流式卷积网络 - [代码] - Pfister, T., Charles, J., & Zisserman, A. (ICCV 2015)
- 卷积姿态机器 - [代码] - Wei, S., Ramakrishna, V., Kanade, T., & Sheikh, Y. (CVPR 2016)
- 基于迭代误差反馈的人体姿态估计 - [代码] Carreira, J., Agrawal, P., Fragkiadaki, K., & Malik, J. (CVPR 2016)
- DeepCut:多人姿态估计中的联合子集划分与标注 - [代码] - Pishchulin, L., Insafutdinov, E., Tang, S., Andres, B., Andriluka, M., Gehler, P.V., & Schiele, B. (CVPR 2016)
- DeeperCut:更深入、更强、更快的多人姿态估计模型 - [代码1][代码2] - Insafutdinov, E., Pishchulin, L., Andres, B., Andriluka, M., & Schiele, B. (ECCV 2016)
- 用于人体姿态估计的堆叠沙漏网络 - [代码] - Newell, A., Yang, K., & Deng, J. (ECCV 2016)
- 用于人体姿态估计的多上下文注意力机制 - [代码] - Chu, X., Yang, W., Ouyang, W., Ma, C., Yuille, A.L., & Wang, X. (CVPR 2017)
- 迈向野外环境中精确的多人姿态估计 - [代码] - Papandreou, G., Zhu, T., Kanazawa, N., Toshev, A., Tompson, J., Bregler, C., & Murphy, K.P. (CVPR 2017)
- 基于部分亲和力场的实时多人2D姿态估计 - [代码] - Cao, Z., Simon, T., Wei, S., & Sheikh, Y. (CVPR 2017)
- 用于人体姿态估计的特征金字塔学习 - [代码] - Yang, W., Li, S., Ouyang, W., Li, H., & Wang, X. (ICCV 2017)
- 采用全局与局部归一化的人体姿态估计 - Sun, K., Lan, C., Xing, J., Zeng, W., Liu, D., & Wang, J. (ICCV 2017)
- 对抗姿态网络:一种结构感知的卷积网络用于人体姿态估计 - Chen, Y., Shen, C., Wei, X., Liu, L., & Yang, J. (ICCV 2017)
- RMPE:区域多人姿态估计 - [代码1][代码2] - Fang, H., Xie, S., & Lu, C. (ICCV 2017)
- 用于人体姿态估计的自对抗训练 - [代码1][代码2] - Chou, C., Chien, J., & Chen, H. (ArXiv 2017)
- 循环人体姿态估计 - [代码] - Belagiannis, V., & Zisserman, A. (FG 2017)
- 知识引导的深度分形神经网络用于人体姿态估计 - [代码] Ning, G., Zhang, Z., & He, Z. (IEEE Transactions on Multimedia 2018)
- 基于解析诱导学习器的人体姿态估计 - Xuecheng Nie, Jiashi Feng, Yiming Zuo, Shuicheng Yan (CVPR 2018)
- LSTM姿态机器 - [代码] - Yue Luo, Jimmy Ren, Zhouxia Wang, Wenxiu Sun, Jinshan Pan, Jianbo Liu, Jiahao Pang, Liang Lin (CVPR 2018)
- 用于人体姿态估计与跟踪的简单基线 - [代码] - Bin, Xiao, Haiping Wu, Yichen Wei (ECCV 2018)
- 用于人体姿态估计的多尺度结构感知网络 - Lipeng Ke, Ming-Ching Chang, Honggang Qi, Siwei Lyu (ECCV 2018)
- 用于人体姿态估计的深度学习组合模型 - Wei Tang, Pei Yu, Ying Wu (ECCV 2018)
- 在CPU上实现的实时2D多人姿态估计:轻量级OpenPose - [代码] Osokin, D. (ArXiv 2018)
- 用于人体姿态估计的深度高分辨率表征学习 - [代码] Ke Sun, Bin Xiao, Dong Liu, Jingdong Wang (CVPR 2019)
3D 姿态估计
- 基于深度卷积神经网络的单目图像3D人体姿态估计 - 李思远、陈安邦(ACCV 2014)
- 利用深度神经网络进行3D人体姿态的结构化预测 - 特金·巴哈迪尔、卡蒂尔焦卢·伊尔汗、萨尔茨曼·马库斯、勒佩蒂·文森特、富阿·皮埃尔(BMVC 2016)
- VNect:基于单个RGB摄像头的实时3D人体姿态估计 - [代码] - 迪舒扬特·梅塔等(SIGGRAPH 2017)
- 循环3D姿态序列模型 - 林茂、林立、梁晓轩、王凯、程浩(CVPR 2017)
- 从深层特征中提升:基于单张图像的卷积3D姿态估计 - 托梅·达尼埃莱、拉塞尔·克里斯托弗、阿加皮托·路易斯(CVPR 2017)
- 单目3D人体姿态的粗到精体积预测 - [代码] - 帕夫拉科斯·格奥尔吉奥斯、周晓东、德尔帕尼斯·康斯坦丁、达尼利迪斯·基里亚科斯(CVPR 2017)
- 迈向野外环境下的3D人体姿态估计:一种弱监督方法 - [代码] - 周晓东、黄琦、孙旭、薛雪、魏勇(ICCV 2017)
- 一种简单而有效的3D人体姿态估计基线 - 马丁内斯·豪尔赫、侯赛因·拉希德、罗梅罗·胡安、利特尔·约翰(ICCV 2017)
- 组合式人体姿态回归 - 孙旭、尚杰、梁松、魏勇(ICCV 2017)
- 利用改进的CNN监督技术进行野外环境下的单目3D人体姿态估计 - 梅塔·迪舒扬特、罗丁·赫尔格、卡萨斯·大卫、富阿·皮埃尔、索特尼琴科·奥列克桑德、徐伟、特奥巴尔特·克里斯蒂安(3DV 2017)
- 通过对抗学习实现野外环境下的3D人体姿态估计 - 杨伟、欧阳旺、王欣、任继生、李华、王翔(2018年)
- DRPose3D:3D人体姿态估计中的深度排序 - 王明、陈曦、刘伟、钱灿、林立、马丽(IJCAI 2018)
- 端到端的人体形状与姿态恢复 - [代码] - 金泽步、布莱克·迈克尔、雅各布斯·戴维、马利克·贾米勒(CVPR 2018)
- 从单张彩色图像中学习估计3D人体姿态与形状 - 帕夫拉科斯·格奥尔吉奥斯、朱莉娅·祖、周晓东、达尼利迪斯·基里亚科斯(CVPR 2018)
- 野外环境下的密集人体姿态估计 - [代码] - 古勒·雷扎、涅韦罗娃·纳塔莉娅、科基诺斯·伊万尼斯(ArXiv 2018)
- 神经人体拟合:统一深度学习与基于模型的人体姿态和形状估计 - [代码] - 奥姆兰·穆罕默德、拉斯纳·克里斯托夫、蓬斯-莫尔·杰拉尔德、盖勒·彼得、席勒·伯恩特(3DV 2018)
- 从结构与运动中学习3D人体姿态 - 达布拉尔·里沙布、蒙达达·阿努普、库苏帕蒂·乌玛、阿法克·萨米尔、夏尔马·阿努什、贾因·阿努普(ECCV 2018)
- 积分式人体姿态回归 - [代码] - 孙旭、肖斌、梁松、魏勇(ECCV 2018)
- 密集姿态迁移 - 涅韦罗娃·纳塔莉娅、古勒·雷扎、科基诺斯·伊万尼斯(ECCV 2018)
- 用于3D人体姿态估计的无监督几何感知表示 - [代码] - 罗丁·赫尔格、萨尔茨曼·马库斯、富阿·皮埃尔(ECCV 2018)
- BodyNet:3D人体形态的体积推理 - [代码] - 瓦罗尔·古尔坎、塞伊兰·代尼兹、拉塞尔·布赖恩、杨洁、尤默尔·艾伦、拉普捷夫·伊戈尔、施密德·克里斯蒂安(ECCV 2018)
- 利用时间卷积和半监督训练在视频中进行3D人体姿态估计 - [代码] - 帕夫洛·丹尼尔、费希滕霍费尔·克里斯蒂安、格朗吉耶·多米尼克、奥利·马泰乌斯(ArXiv 2018)
- 基于单目RGB图像的单次多人群3D姿态估计 - [代码1][代码2] - 梅塔·迪舒扬特、索特尼琴科·奥列克桑德、穆勒·弗里德里希、徐伟、斯里达尔·萨蒂什、蓬斯-莫尔·杰拉尔德、特奥巴尔特·克里斯蒂安(3DV 2018)
人物生成
- 姿态引导的人物图像生成 - [代码] - 马丽、贾霞、孙青、席勒·伯恩特、图伊特拉尔斯·蒂恩、古尔·莱昂·范(NIPS 2017)
- 服装中人物的生成模型 - 拉斯纳·克里斯托夫、蓬斯-莫尔·杰拉尔德、盖勒·彼得·范(ICCV 2017)
- 基于姿态的人像生成可变形GAN - [代码] - 西亚罗欣·阿利亚克桑德尔、桑吉内托·埃马努埃莱、拉图伊利耶·塞巴斯蒂安、塞贝·尼尔(CVPR 2018)
- 密集姿态迁移 - 涅韦罗娃·纳塔莉娅、古勒·雷扎、科基诺斯·伊万尼斯(ECCV 2018)
实时姿态估计
- 基于部件亲和场的实时多人2D姿态估计 - [代码] - Cao, Z., Simon, T., Wei, S., & Sheikh, Y. (CVPR 2017)
- VNect:使用单个RGB摄像头的实时3D人体姿态估计 - [代码] - Mehta, Dushyant 等 (SIGGRAPH 2017)
- RMPE:区域多人姿态估计 - [代码1][代码2] - Fang, H., Xie, S., & Lu, C. (ICCV 2017)
- 野外密集人体姿态估计 - [代码] - Guler, R.A., Neverova, N., & Kokkinos, I. (ArXiv 2018)
- 在CPU上进行实时2D多人姿态估计:轻量级OpenPose - [代码] Osokin, D. (ArXiv 2018)
- 扩展到3D姿态估计(基于单目RGB图像的单次多人3D姿态估计 - Mehta, D., et al.) - [代码]
数据集
2D
3D
研讨会
博客文章
流行的实现
PyTorch
- pytorch-pose-hg-3d
- 3d_pose_baseline_pytorch
- pytorch_Realtime_Multi-Person_Pose_Estimation
- AlphaPose
- pytorch-pose
- human-pose-estimation.pytorch
- deep-high-resolution-net.pytorch
TensorFlow
Torch
其他
待办事项
- 添加基础知识
- 添加关于行人再识别的论文
- 添加关于多人姿态估计的论文
- 添加SOTA排名
许可证

本作品采用知识共享署名4.0国际许可协议授权。
常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。