img2pose
img2pose 是一款基于 PyTorch 的开源 AI 模型,专为实时人脸姿态估计与对齐而设计。它源自 CVPR 2021 的研究成果,核心突破在于无需预先进行人脸检测或关键点定位,即可直接估算图像中多张人脸的六自由度(6DoF)刚性变换参数。
传统方法通常依赖繁琐的人脸检测器和 landmarks 定位来实现 3D 对齐,而 img2pose 发现直接回归 6DoF 姿态是更简单且信息量更大的路径。通过改进的 Faster R-CNN 架构,它能直接从原始图片中输出精确的 3D 人脸姿态,不仅简化了处理流程,还在 AFLW2000-3D 和 BIWI 等基准测试中超越了现有最先进模型。有趣的是,即便未针对边界框标签进行专门优化,其在 WIDER FACE 人脸检测任务上的表现也优于同类复杂模型。
这款工具非常适合计算机视觉研究人员、AI 开发者以及需要高效人脸预处理方案的技术团队。用户利用它可以轻松实现人脸的可视化渲染、自定义投影边界框生成,或直接裁剪并对齐人脸以用于后续的识别与分析任务。如果你正在寻找一种既快速又精准,且能摆脱传统检测依赖的 3D 人脸处理方案,img2pose 是一个值得尝试的强大选择。
使用场景
某安防团队正在开发一套实时会议行为分析系统,需要从多角度监控视频中精准捕捉参会者的头部姿态以判断其专注度。
没有 img2pose 时
- 流程繁琐且误差累积:必须先运行独立的人脸检测器定位人脸,再串联关键点模型进行对齐,最后才能估算姿态,多阶段流水线导致误差逐级放大。
- 小目标与遮挡失效:在远距离或侧身遮挡场景下,传统检测器容易漏检人脸,导致后续姿态分析完全中断,无法获取数据。
- 计算延迟高:串行处理多个模型消耗大量算力,难以在边缘设备上维持实时帧率,视频分析出现明显卡顿。
- 信息维度单一:仅能获取二维边界框,缺乏精确的三维空间旋转信息,难以准确判断用户是“低头看手机”还是“转头看屏幕”。
使用 img2pose 后
- 端到端一步到位:img2pose 直接回归人脸的 6DoF(六自由度)刚性变换,无需预检测或关键点定位,单模型即可同时完成检测与姿态估计。
- 极强的小目标鲁棒性:凭借对 3D 面部几何的直接建模,img2pose 能有效捕捉极小尺寸或部分遮挡的人脸,显著降低漏检率。
- 实时高效运行:基于优化的 Faster R-CNN 架构,img2pose 在单张图像上实现实时推理,大幅降低延迟,满足流畅的视频流分析需求。
- 获取精确 3D 姿态:直接输出包含平移和旋转的完整 3D 信息,能精准区分头部的细微转动,为行为分析提供高价值数据支撑。
img2pose 通过摒弃传统的级联检测流程,以单一的 6DoF 估计任务实现了更精准、更快速且抗干扰能力更强的人脸姿态分析。
运行环境要求
- Linux
需要 NVIDIA GPU(训练脚本使用 CUDA_VISIBLE_DEVICES 和 torch.distributed.launch),具体型号和显存未说明,需支持 CUDA
未说明

快速开始
img2pose:基于6DoF的人脸对齐与检测、人脸姿态估计
论文已被IEEE计算机视觉与模式识别会议(CVPR)2021收录
简要说明
本仓库提供了一种新颖的方法,可在无需预先进行人脸检测的情况下,对多张人脸进行六自由度(6DoF)检测。预测完成后,用户可以可视化检测结果(如上图所示)、自定义投影边界框,或将每张人脸裁剪并对其齐,以便进一步处理。详情请见下文。
目录
论文详情
Vítor Albiero、Xingyu Chen、Xi Yin、Guan Pang、Tal Hassner,“img2pose:基于6DoF的人脸对齐与检测、人脸姿态估计”,CVPR,2021年,arXiv:2012.07791
摘要
我们提出了一种无需人脸检测或关键点定位的实时六自由度(6DoF)3D人脸姿态估计方法。我们观察到,估计人脸的6DoF刚性变换比常用于3D人脸对齐的面部关键点检测更为简单。此外,6DoF提供的信息量也多于仅使用人脸边界框标签的情况。基于这些观察,我们做出了多项贡献:(a) 我们描述了一种易于训练、高效的基于Faster R-CNN的模型,该模型可直接回归照片中所有人脸的6DoF姿态,而无需进行预处理的人脸检测。(b) 我们解释了如何在输入照片与训练和评估过程中生成的任意裁剪图像之间保持姿态的一致性。(c) 最后,我们展示了如何用人脸姿态替代检测边界框的训练标签。在AFLW2000-3D和BIWI数据集上的测试表明,我们的方法能够实现实时运行,并且性能优于当前最先进的人脸姿态估计算法。值得注意的是,尽管我们的方法并未针对边界框标签进行优化,但在WIDER FACE检测基准上,其表现仍超越了同等复杂度的最先进模型。
视频亮点
引用
如果您使用了我们的代码或数据中的任何部分,请引用我们的论文。
@inproceedings{albiero2021img2pose,
title={img2pose: Face Alignment and Detection via 6DoF, Face Pose Estimation},
author={Albiero, Vítor and Chen, Xingyu and Yin, Xi and Pang, Guan and Hassner, Tal},
booktitle={CVPR},
year={2021},
url={https://arxiv.org/abs/2012.07791},
}
安装
使用Python 3安装依赖项。
pip install -r requirements.txt
安装渲染器,用于可视化预测结果。该渲染器的实现基于此处的代码。
cd Sim3DR
sh build_sim3dr.sh
训练
准备WIDER FACE数据集
首先,按照注释中的说明下载我们的标注文件。
下载WIDER FACE数据集,并解压到datasets/WIDER_Face目录下。
然后,运行以下脚本以创建训练和验证数据集(LMDB格式)。
python3 convert_json_list_to_lmdb.py \
--json_list ./annotations/WIDER_train_annotations.txt \
--dataset_path ./datasets/WIDER_Face/WIDER_train/images/ \
--dest ./datasets/lmdb/ \
--train
此脚本将生成一个包含训练图像及其标注的LMDB数据集,并输出姿态的均值和标准差文件,供训练和测试使用。
python3 convert_json_list_to_lmdb.py \
--json_list ./annotations/WIDER_val_annotations.txt \
--dataset_path ./datasets/WIDER_Face/WIDER_val/images/ \
--dest ./datasets/lmdb
第二个脚本将创建一个包含验证图像及其标注的LMDB数据集。
训练
一旦LMDB格式的训练/验证文件创建完毕,只需运行以下脚本即可开始训练。
CUDA_VISIBLE_DEVICES=0 python3 train.py \
--pose_mean ./datasets/lmdb/WIDER_train_annotations_pose_mean.npy \
--pose_stddev ./datasets/lmdb/WIDER_train_annotations_pose_stddev.npy \
--workspace ./workspace/ \
--train_source ./datasets/lmdb/WIDER_train_annotations.lmdb \
--val_source ./datasets/lmdb/WIDER_val_annotations.lmdb \
--prefix trial_1 \
--batch_size 2 \
--lr_plateau \
--early_stop \
--random_flip \
--random_crop \
--max_size 1400
若要使用多块GPU进行训练(例如下面的例子中使用4块GPU),请使用以下脚本:
python3 -m torch.distributed.launch --nproc_per_node=4 --use_env train.py \
--pose_mean ./datasets/lmdb/WIDER_train_annotations_pose_mean.npy \
--pose_stddev ./datasets/lmdb/WIDER_train_annotations_pose_stddev.npy \
--workspace ./workspace/ \
--train_source ./datasets/lmdb/WIDER_train_annotations.lmdb \
--val_source ./datasets/lmdb/WIDER_val_annotations.lmdb \
--prefix trial_1 \
--batch_size 2 \
--lr_plateau \
--early_stop \
--random_flip \
--random_crop \
--max_size 1400 \
--distributed
使用自己的数据集进行训练
如果您的数据集中已经标注了人脸关键点和边界框,请按照与WIDER FACE标注相同的格式将其存储为JSON文件。
如果没有,则可以运行以下脚本来标注您的数据集。您需要一个检测器,并在脚本中导入它。
python3 utils/annotate_dataset.py
--image_list list_of_images.txt
--output_path ./annotations/dataset_name
数据集标注完成后,创建一个指向已保存JSON文件的列表。然后,按照准备WIDER FACE数据集中的步骤操作,将WIDER的标注替换为您自己的数据集标注。当LMDB文件和姿态文件创建完毕后,再按照训练中的步骤,将WIDER的LMDB和姿态文件替换为您数据集的相应文件。
测试
若要使用预训练模型进行评估,可从模型库下载模型并解压到主目录下。这将创建一个名为models的文件夹,其中包含模型权重以及训练时使用的姿态均值和标准差。
如果使用自己训练的模型进行评估,则需将姿态均值和标准差替换为对应于您所训练模型的值。
可视化训练好的模型
要在WIDER FACE验证集上可视化训练好的模型,请运行笔记本visualize_trained_model_predictions。
WIDER FACE数据集评估
如果您尚未完成,请下载WIDER FACE数据集并解压到datasets/WIDER_Face目录下。
下载预训练模型。
python3 evaluation/evaluate_wider.py \
--dataset_path datasets/WIDER_Face/WIDER_val/images/ \
--dataset_list datasets/WIDER_Face/wider_face_split/wider_face_val_bbx_gt.txt \
--pose_mean models/WIDER_train_pose_mean_v1.npy \
--pose_stddev models/WIDER_train_pose_stddev_v1.npy \
--pretrained_path models/img2pose_v1.pth \
--output_path results/WIDER_FACE/Val/
要检查mAP并绘制曲线,请下载WIDER FACE评估工具,并将路径指向results/WIDER_FACE/Val目录。
AFLW2000-3D数据集评估
下载AFLW2000-3D数据集并解压到datasets/AFLW2000目录下。
下载微调后的模型。
运行笔记本aflw_2000_3d_evaluation。
BIWI数据集评估
下载BIWI数据集并解压到datasets/BIWI目录下。
下载微调后的模型。
运行笔记本biwi_evaluation。
在自己的图像上测试
运行笔记本test_own_images。
输出自定义
对于每个检测到的人脸,模型默认输出以下信息:
- 姿态:rx, ry, rz, tx, ty, tz
- 投影后的边界框:左、上、右、下
- 人脸置信度:0至1
由于未扩展的投影边界框会止于额头起始处,我们提供了一种单独扩展额头区域的方法,同时保留默认的宽度和高度扩展。
若要自定义投影边界框的大小,在创建模型时,可以修改如下所示的边界框扩展参数(完整示例可在visualize_trained_model_predictions中查看)。
# 宽度扩展倍数
bbox_x_factor = 1.1
# 高度扩展倍数
bbox_y_factor = 1.1
# 额头扩展比例
expand_forehead = 0.3
img2pose_model = img2poseModel(
...,
bbox_x_factor=bbox_x_factor,
bbox_y_factor=bbox_y_factor,
expand_forehead=expand_forehead,
)
人脸对齐
要检测并对齐人脸,只需运行以下命令,传入待检测和对齐的图像路径以及保存路径即可。
python3 run_face_alignment.py \
--pose_mean models/WIDER_train_pose_mean_v1.npy \
--pose_stddev models/WIDER_train_pose_stddev_v1.npy \
--pretrained_path models/img2pose_v1.pth \
--images_path image_path_or_list \
--output_path path_to_save_aligned_faces
资源
许可证
许可证详情请参阅[license.md]文件。
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。