lighttrack

GitHub
733 141 较难 1 次阅读 2周前MIT图像
AI 解读 由 AI 自动生成,仅供参考

LightTrack 是一个轻量级且通用的在线人体姿态跟踪框架,专为“自顶向下”的跟踪任务设计。它主要解决了在视频流或实时监控中,如何高效、稳定地持续锁定并追踪多人身体关键点(如关节位置)的难题。与传统目标跟踪方法不同,LightTrack 创新性地利用人体关键点作为显式特征来递归更新检测框,这种机制不仅让跟踪过程更具可解释性,还大幅降低了计算成本,从而实现了真正的实时在线跟踪。

该工具非常适合计算机视觉领域的研究人员和开发者使用。研究人员可以利用其模块化设计,灵活替换检测器、姿态估计器或匹配算法,以开展新的学术实验;开发者则能基于现有代码,快速将其部署于安防监控、体育动作分析、自动驾驶感知或短视频特效等实际应用场景中。LightTrack 的核心亮点在于其高效的“显式特征”跟踪策略,即直接利用预测出的人体骨骼点来约束跟踪区域,既保证了身份识别的准确性,又无需额外的昂贵计算开销,是构建高性能人体分析系统的理想基础框架。

使用场景

某智慧体育科技公司正在开发一套基于普通摄像头的篮球训练分析系统,需要实时捕捉多名球员在快速跑动和对抗中的骨骼动作以评估战术执行。

没有 lighttrack 时

  • 身份频繁丢失:当球员发生遮挡或快速交叉跑位时,传统目标跟踪算法极易混淆个体,导致 A 球员的动作数据被错误标记为 B 球员。
  • 计算资源消耗大:为了维持跟踪精度,往往需要依赖庞大的模型或离线批处理,无法在边缘设备上实现低延迟的实时反馈。
  • 动作关联断裂:检测框与人体关键点缺乏显式约束,导致在剧烈运动中出现“框在人不在”或关键点漂移现象,战术分析图表失真。
  • 部署成本高昂:若要达到可用精度,通常需要多视角昂贵的高速摄像机配合,难以在普通球馆普及。

使用 lighttrack 后

  • 抗遮挡能力显著增强:lighttrack 利用人体关键点作为显式特征递归更新边界框,即使球员短暂互相遮挡,也能精准锁定并延续其身份 ID。
  • 真正实现在线实时追踪:得益于轻量级框架设计,lighttrack 可直接在直播摄像头或普通视频流中运行,毫秒级输出每位球员的 pose 数据。
  • 时空一致性大幅提升:通过自顶向下的跟踪机制,确保边界框严格受关键点约束,生成的运球、投篮等动作轨迹平滑且符合物理规律。
  • 硬件门槛大幅降低:无需专用高速设备,仅凭单目普通摄像头即可复现专业级的姿态跟踪效果,极大降低了系统落地成本。

lighttrack 通过将人体姿态转化为显式跟踪特征,成功解决了复杂动态场景下多人身份易丢失的难题,让高精度动作分析得以在低成本设备上实时运行。

运行环境要求

操作系统
  • Linux
GPU

需要 NVIDIA GPU (用于运行 PyTorch 和 TensorFlow 模型),具体型号和显存未说明,需支持 CUDA (版本未明确,依赖 TF 1.12 和 PT 1.0)

内存

未说明 (建议 16GB+ 以处理视频流和大型数据集)

依赖
notes该项目同时依赖 TensorFlow 1.12 (用于姿态估计) 和 PyTorch 1.0+ (用于图卷积匹配模块),不支持 TensorFlow 2.0。官方推荐使用提供的 anaconda 环境文件 (environment.yml) 创建环境。运行前需编译 C++ 扩展 (make) 并安装 torchlight 模块。完整功能需下载 COCO 和 PoseTrack 数据集,其中 COCO 数据集约 21GB。
python3.6 (基于环境文件 py36 及命令 source activate py36)
PyTorch>=1.0.0
TensorFlow==1.12
opencv-python
cython
pillow
matplotlib
TorchVision
lighttrack hero image

快速开始

LightTrack:一种通用的在线自顶向下人体姿态跟踪框架

更新日期:2020年4月19日:

论文将发表于CVPR 2020关于面向以人为中心的图像/视频合成及第四届Look Into Person (LIP)挑战赛的研讨会。

更新日期:2019年5月16日:新增摄像头演示

[项目页面] [论文] [Github] PWC

借助提供的代码,您可以轻松地:

  • 对实时网络摄像头进行在线姿态跟踪。
  • 对任意视频进行在线姿态跟踪。
  • 复现在PoseTrack'18验证集上的消融实验。
  • 在您自己的数据上训练模型。
  • 替换姿态估计器或改进数据关联模块,以支持未来的研究。

实际应用场景:

  • 监控 / 体育分析 / 安全 / 自动驾驶 / 自拍视频 / 短视频(抖音、TikTok等)

目录

概述

LightTrack是一个高效轻量级的人体姿态跟踪框架,真正实现了在线且通用的自顶向下姿态跟踪。为该论文编写的代码不仅包含了LightTrack框架,还提供了可替换的组件模块,包括检测器、姿态估计器和匹配器。这些模块的代码大多借鉴或改编自Cascaded Pyramid Networks [1]、PyTorch-YOLOv3st-gcn以及OpenSVAI [3]。

概述

视觉目标跟踪(VOT)方法不同,在VOT中,视觉特征通常由核函数或CNN特征图隐式表示,而我们则通过递归更新边界框及其对应的姿态来显式地跟踪每个人体姿态。目标的边界框区域是从显式特征——即人体关键点——推断出来的。人体关键点可以被视为一系列特殊的视觉特征。使用姿态作为显式特征的优势包括:

  • (1) 显式特征与人体相关且易于解释,与边界框位置有着非常强且稳定的关系。人体姿态直接约束了边界框区域。

  • (2) 姿态估计和跟踪任务本身就需要首先预测人体关键点。利用这些预测的关键点来跟踪感兴趣区域几乎是免费的,这种机制使得在线跟踪成为可能。

  • (3) 这种方法自然地保持了候选对象的身份,从而大大减轻了系统中数据关联的负担。即使需要进行数据关联,我们也可以重新利用姿态特征进行基于骨骼的姿态匹配。 (在此我们采用**暹罗图卷积网络(SGCN)**来进行高效的身份关联。)

因此,单人姿态跟踪(SPT)和单个视觉目标跟踪(VOT)被整合进一个统一的功能实体中,只需通过一个可替换的单人人体姿态估计模块即可轻松实现。以下是LightTrack框架工作原理的简单步骤说明。

示例1

(1). 仅在第一帧进行检测。蓝色边界框表示从关键点推断出的轨迹片段。

示例0

(2). 每隔10帧进行一次检测。红色边界框表示关键帧检测。

示例2

(3). 多人场景下每隔10帧进行检测:

  • 在非关键帧时,每个人的ID会自然保留;
  • 在关键帧时,通过空间一致性来关联ID。

更多技术细节请参阅我们的arXiv论文。

前提条件

  • 使用提供的Anaconda环境文件设置Python3环境。
    # 此Anaconda环境应包含所有必需的依赖项,包括TensorFlow、PyTorch等。
    conda env create -f environment.yml
    

(可选:自行设置环境)

  • 安装PyTorch 1.0.0(或更高版本)及TorchVision。(暹罗图卷积网络)
  • 安装TensorFlow 1.12。目前尚未测试TensorFlow v2.0。(人体姿态估计器)
  • 安装其他一些包:
    pip install cython opencv-python pillow matplotlib
    

开始使用

  • 克隆此仓库并进入dragon lighttrack文件夹:
    git clone https://github.com/Guanghan/lighttrack.git;
    
    # 构建一些必要的工具
    cd lighttrack/lib;
    make;
    
    cd ../graph/torchlight;
    python setup.py install
    
    # 进入lighttrack
    cd ../../
    
  • 如果您想训练LightTrack,请先下载COCO数据集PoseTrack数据集。请注意,此脚本需要一段时间,并会在./data/coco中生成21GB的文件。对于PoseTrack数据集,您可以在验证集上复现我们的消融实验结果。您需要在官方网站注册并创建条目,以便将测试结果提交到服务器。
    sh data/download_coco.sh
    sh data/download_posetrack17.sh
    sh data/download_posetrack18.sh
    

实时摄像头演示

姿态跟踪框架 关键帧检测器 关键帧重识别模块 姿态估计器 FPS
LightTrack YOLOv3 Siamese GCN MobileNetv1-Deconv 220* / 15
  • 下载权重。

    cd weights;
    bash ./download_weights.sh  # 下载骨干网络(仅用于训练)、检测器、姿态估计器、姿态匹配器等的权重
    cd -;
    
  • 在您的网络摄像头上进行姿态跟踪演示。

    # 进入虚拟环境
    source activate py36;
    
    # 使用轻量级检测器和姿态估计器运行 LightTrack 演示(摄像头)
    python demo_camera_mobile.py
    

任意视频演示

姿态跟踪框架 关键帧检测器 关键帧重识别模块 姿态估计器 FPS
LightTrack YOLOv3 Siamese GCN MobileNetv1-Deconv 220* / 15
  • 下载演示视频。

    cd data/demo;
    bash ./download_demo_video.sh  # 下载演示视频;您之后也可以用自己的视频替换,以增加趣味性
    cd -;
    
  • 运行在线跟踪演示。

    # 进入虚拟环境
    source activate py36;
    
    # 使用轻量级检测器和姿态估计器运行 LightTrack 演示(任意视频)
    python demo_video_mobile.py
    
  • 处理完成后,姿态跟踪结果将以标准化的 OpenSVAI 格式存储为 JSON 文件,位于 [data/demo/jsons/]。

  • 可视化图像和视频已输出至 [data/demo/visualize/] 和 [data/demo/videos/]。请注意,默认情况下视频会以实际平均帧率输出,您可以根据需要将其硬编码为更快或更慢的帧率。

  • 系统还会报告一些统计数据,包括 FPS、遇到的人数等。以下是使用 YOLOv3 作为检测器、MobileNetv1-Deconv 作为姿态估计器时,所提供视频的统计信息。

total_time_ALL: 19.99s
total_time_DET: 1.32s
total_time_POSE: 18.63s
total_time_LIGHTTRACK: 0.04s
total_num_FRAMES: 300
total_num_PERSONS: 600

Average FPS: 15.01fps
Average FPS excluding Pose Estimation: 220.08fps
Average FPS excluding Detection: 16.07fps
Average FPS for framework only: 7261.90fps

您可以将演示视频替换为自己喜欢的视频来体验。也可以尝试不同的检测器或姿态估计器。

在 PoseTrack 2018 数据集上验证

已提供姿态估计模型。在运行 ./download_weights.sh 脚本时,这些模型应已下载到 ./weights 文件夹中。 我们提供了 CPN101 和 MSRA152 的替代方案,分别基于 ResNet101 和 Res152 预训练。

图像尺寸 姿态估计器 权重
384x288 CPN101 [1] CPN_snapshot_293.ckpt
384x288 MSRA152 [2] MSRA_snapshot_285.ckpt

PoseTrack'18 验证集的检测结果已预先计算好。我们在实验中使用了来自 [3] 的相同检测结果。 有两种选择,包括 FPN 和 RFCN 的可变形版本,如 论文 中所述。 这里我们提供的是性能更高的 FPN 检测结果。

检测器 Jsons
ResNet101_Deformable_FPN_RCNN [6] DeformConv_FPN_RCNN_detect.zip
ResNet101_Deformable_RFCN [6] DeformConv_RFCN_detect.zip
真实标注位置 GT_detect.zip
  • 下载预先计算好的检测结果,并将其解压到 ./data 目录。

    cd data;
    bash ./download_dets.sh   
    cd -;
    
  • 使用我们的可变形 FPN 检测结果,在 PoseTrack 2018 验证集上运行 LightTrack。

    python process_posetrack18_with_lighttrack_MSRA152.py
    # 或
    python process_posetrack18_with_lighttrack_CPN101.py
    
  • 或者使用真实标注位置,在 PoseTrack 2018 验证集上运行 LightTrack。

    python process_posetrack18_with_lighttrack_MSRA152_gt.py
    # 或
    python process_posetrack18_with_lighttrack_CPN101_gt.py
    
  • 处理完成后,姿态跟踪结果将以标准化的 OpenSVAI 格式存储为 JSON 文件,位于 [data/Data_2018/posetrack_results/lighttrack/results_openSVAI/]。

  • 可视化图像和视频已输出至 [data/Data_2018/videos/]。

PoseTrack 2018 评估

  • 如果您希望使用检测结果来评估 LightTrack 的预测结果:
    # 在评估之前,将跟踪结果转换为 PoseTrack 格式
    source activate py36;
    python jsonformat_std_to_posetrack18.py -e 0.4 -d lighttrack -m track -f 17 -r 0.80;  # 验证集。用于 DET 位置
    
    # 评估任务 1/2 + 3:使用官方 poseval 工具
    source deactivate;
    cd data/Data_2018/poseval/py && export PYTHONPATH=$PWD/../py-motmetrics:$PYTHONPATH;
    python evaluate.py \
     --groundTruth=/export/LightTrack/data/Data_2018/posetrack_data/annotations/val/ \
     --predictions=/export/LightTrack/data/Data_2018/predictions_lighttrack/ \
     --evalPoseTracking \
     --evalPoseEstimation;
    

对于 mAP,给出了两个值:关键点丢弃前后的平均精度。 对于 FPS,* 表示不包括姿态推理时间。我们的 LightTrack 在真正的在线模式下,在 PoseTrack'18 验证集上的平均帧率为 0.8 fps。

[LightTrack_CPN101] 和 [LightTrack_MSRA152] 均使用 [COCO + PoseTrack'17] 数据集进行训练; [LightTrack_MSRA152 + 辅助数据] 使用 [COCO + PoseTrack'18 + ChallengerAI] 数据集进行训练。

方法 检测模式 FPS mAP MOTA MOTP
LightTrack_CPN101 在线-DET-2F 47* / 0.8 76.0 / 70.3 61.3 85.2
LightTrack_MSRA152 在线-DET-2F 48* / 0.7 77.2 / 72.4 64.6 85.3
LightTrack_MSRA152 + 辅助 在线-DET-2F 48* / 0.7 77.7 / 72.7 65.4 85.1
  • 如果您希望使用真实标注位置来评估 LightTrack 的预测结果。请注意,对于真实标注位置,并非每一帧都有标注。如果关键帧没有标注,则估计结果会缺失。为了成功评估性能,我们专门为使用真实标注位置的预测生成了真实标注 JSON 文件 (gt_locations)。
    # 在评估之前,将跟踪结果转换为 PoseTrack 格式
    source activate py36;
    python jsonformat_std_to_posetrack18.py -e 0.4 -d lighttrack -m track -f 17 -r 0.70;  # 验证集。用于 GT 位置
    
    # 评估任务 1/2 + 3:使用官方 poseval 工具
    source deactivate;
    cd data/Data_2018/poseval/py && export PYTHONPATH=$PWD/../py-motmetrics:$PYTHONPATH;
    python evaluate.py \
     --groundTruth=/export/LightTrack/data/Data_2018/gt_lighttrack/ \
     --predictions=/export/LightTrack/data/Data_2018/predictions_lighttrack/ \
     --evalPoseTracking \
     --evalPoseEstimation;
    
方法 检测模式 FPS mAP MOTA MOTP
LightTrack_CPN101 在线-GT-2F 47* / 0.8 - / 70.1 73.5 94.7
LightTrack_MSRA152 在线-GT-2F 48* / 0.7 - / 73.1 78.0 94.8

定性结果

一些展示定性结果的 gif

  • (1) PoseTrack 测试序列
姿态跟踪框架 关键帧检测器 关键帧 ReID 模块 姿态估计器
LightTrack 可变形 FPN(重型) 连体 GCN MSRA152(重型)

演示 1

  • (2) 潜在应用(监控、体育分析等)
姿态跟踪框架 关键帧检测器 关键帧 ReID 模块 姿态估计器
LightTrack YOLOv3(轻型) 连体 GCN MobileNetv1-Deconv(轻型)

演示 2 演示 3

PoseTrack 上的定量结果

PoseTrack 2017 基准测试(测试集) 上的表现

挑战 3:多人姿态跟踪

方法 模式 FPS mAP MOTA
LightTrack(离线集成) 批处理 - 66.65 58.01
HRNet [4], CVPR'19 批处理 - 74.95 57.93
FlowTrack [2], ECCV'18 批处理 - 74.57 57.81
LightTrack(在线-3F) 在线 47* / 0.8 66.55 55.15
PoseFlow [5], BMVC'18 在线 10* / - 62.95 50.98

对于 FPS,* 表示不包括姿态推理时间,- 表示不适用。我们的 LightTrack 在真正的在线模式下,在 PoseTrack'18 验证集上的平均帧率为 0.8 fps。 (总共遇到了 57,928 人。平均每帧跟踪 6.54 人。)

模型使用 [COCO + PoseTrack'17] 数据集进行训练。

训练

1) 姿态估计模块

  • 要进行训练,请获取一个 ImageNet 预训练模型并将其放入 ./weights 目录中。
    • 对于 Resnet101,从 这里 下载 resnet101.ckpt
    • 对于 Resnet152,从 这里 下载 resnet152.ckpt
  • 运行以下训练命令。
# 使用 COCO+PoseTrack'17 进行训练
python train_PoseTrack_COCO_17_CPN101.py -d 0-3 -c   # 训练 CPN-101
# 或
python train_PoseTrack_COCO_17_MSRA152.py -d 0-3 -c  # 训练 MSRA-152
# 或
python train_PoseTrack_COCO_17_mobile_deconv.py -d 0-3 -c  # 训练 MobileNetv1-Deconv

2) 姿态匹配模块

  • 运行以下训练命令。
# 下载训练和验证数据
cd graph/unit_test;
bash download_data.sh;
cd -;

# 训练暹罗图卷积网络
cd graph;
python main.py processor_siamese_gcn -c config/train.yaml

为了对姿态匹配模块进行消融实验,在不修改现有代码的情况下,最简单的方法是将姿态匹配阈值设置为小于零的值,这样就会使姿态匹配模块失效。此时,PoseTrack'18验证集上的性能将会下降。

方法 检测模式 姿态匹配(阈值) mAP MOTA MOTP
LightTrack_MSRA152 在线检测 否 (0) 77.2 / 72.4 63.3 85.3
LightTrack_MSRA152 在线检测 是 (1.0) 77.2 / 72.4 64.6 85.3
LightTrack_CPN101 在线检测 否 (0) 76.0 / 70.3 60.0 85.2
LightTrack_CPN101 在线检测 是 (1.0) 76.0 / 70.3 61.3 85.2
  • 由于暹罗图卷积模块仅影响身份关联过程,因此只有MOTA指标会受到影响。

  • 具体来说,SGCN有助于减少在相机快速变焦或突然移动时出现的身份错配或身份丢失的情况,在这种情况下,人体可能会发生漂移,空间一致性不再可靠。

  • 如果没有SGCN,当身份丢失时,系统会分配一个新的ID,这会导致与真实标签的身份错配。

局限性

目前,LightTrack框架在处理遮挡情况下的身份切换或丢失问题上表现不佳,原因有以下几点: (1) 数据关联过程中只考虑了单帧的历史信息; (2) 只使用基于骨骼的关键点特征。 然而,这些问题并不是LightTrack框架本身固有的缺陷。 在未来的研究中,可以进一步探索时空姿态匹配方法来缓解遮挡问题。使用更长的历史姿态序列可能会提高性能;同时结合视觉特征和骨骼特征也可能进一步提升数据关联模块的鲁棒性。

引用

如果您觉得LightTrack有所帮助,或者在您的工作中使用了该框架,请考虑引用以下文献:

@article{ning2019lighttrack,
  author    = {Ning, Guanghan and Huang, Heng},
  title     = {LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking,
  journal   = {Proceedings of CVPRW 2020 on Towards Human-Centric Image/Video Synthesis and the 4th Look Into Person (LIP) Challenge},
  year      = {2020},
}

此外,如果您使用了CPN101/MSRA152模型,也请参考以下文献:

@inproceedings{xiao2018simple,
    author={Xiao, Bin and Wu, Haiping and Wei, Yichen},
    title={Simple Baselines for Human Pose Estimation and Tracking},
    booktitle = {ECCV},
    year = {2018}
}
@article{Chen2018CPN,
    Author = {Chen, Yilun and Wang, Zhicheng and Peng, Yuxiang and Zhang, Zhiqiang and Yu, Gang and Sun, Jian},
    Title = {{Cascaded Pyramid Network for Multi-Person Pose Estimation}},
    Conference = {CVPR},
    Year = {2018}
}

参考文献

[1] Chen, Yilun, et al. "多人体姿态估计的级联金字塔网络." CVPR (2018).

[2] Xiao, Bin, Haiping Wu, and Yichen Wei. "人体姿态估计与跟踪的简单基线." ECCV (2018).

[3] Ning, Guanghan, et al. "自上而下的关节式人体姿态估计与跟踪方法". ECCVW (2018).

[4] Sun, Ke, et al. "用于人体姿态估计的深度高分辨率表征学习." CVPR (2019).

[5] Xiu, Yuliang, et al. "姿态流:高效在线姿态跟踪." BMVC (2018).

[6] Dai, Jifeng, et al. "可变形卷积网络." ICCV (2017).

联系方式

如有关于我们的论文或代码的问题,请联系 Guanghan Ning

致谢

LOGO设计:Hogen

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|1周前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|1周前
插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|1周前
语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。

88.9k|★★★☆☆|1周前
开发框架图像Agent