Awesome-Temporal-Action-Detection-Temporal-Action-Proposal-Generation

578 43 困难 1 次阅读 3天前视频其他

AI 解读由 AI 自动生成，仅供参考

Awesome-Temporal-Action-Detection-Temporal-Action-Proposal-Generation 是一个专注于视频理解领域的开源资源合集，旨在系统性地整理与时序动作检测、弱监督/半监督检测以及时序动作提案生成相关的顶尖论文、代码实现及预训练模型。

在长视频中精准定位动作发生的起止时间是一项极具挑战的任务，传统方法往往依赖昂贵且繁琐的逐帧标注数据。该资源库通过汇聚前沿研究成果，有效解决了如何在不同监督条件下（包括无标签或仅视频级标签）高效识别动作片段的技术难题。其内容覆盖从基础的提案生成到最新的开放词汇检测，并特别收录了如边界敏感预训练（BSP）、时序敏感预训练（TSP）等独特技术亮点，帮助模型更好地捕捉视频中的时间动态特征。

这份资料非常适合计算机视觉领域的研究人员、算法工程师及高校学生使用。对于希望深入探索视频分析技术、复现经典算法或寻找最新研究灵感的开发者而言，Awesome-Temporal-Action-Detection-Temporal-Action-Proposal-Generation 提供了一条清晰的技术演进路径，是进入该细分领域不可或缺的参考指南。

使用场景

某视频内容平台的技术团队正致力于从海量用户上传的长视频中，自动提取出“烹饪教学”、“健身动作”等关键片段以构建结构化索引。

没有 Awesome-Temporal-Action-Detection-Temporal-Action-Proposal-Generation 时

人工标注成本极高：面对数万小时的未剪辑视频，依赖人工逐帧标记动作起止时间，耗时数月且难以扩展。
传统算法精度不足：现有基础模型难以区分背景噪声与细微动作边界，导致提取的片段往往包含大量无效画面或截断关键步骤。
弱监督场景束手无策：对于仅有视频标题而无详细时间戳标注的数据，缺乏有效的弱监督学习方案，导致大量数据无法被利用。
新类别识别困难：每当需要新增一种动作类型（如“瑜伽拉伸”），必须重新收集大量标注数据训练模型，无法实现开放词汇检测。

使用 Awesome-Temporal-Action-Detection-Temporal-Action-Proposal-Generation 后

自动化提案生成：利用集成的时序动作提案生成（TAPG）算法，自动精准定位潜在动作片段，将人工审核工作量减少 90% 以上。
边界定位更精准：采用如 BCNet 或 SMBG 等先进模型，显著提升了动作开始与结束帧的检测精度，确保提取片段干净完整。
解锁弱监督潜力：直接应用弱监督时序检测方案，仅需视频级标签即可训练高精度模型，盘活了平台存量无细粒度标注数据。
灵活拓展新类别：借助开放词汇检测能力，无需重新训练即可通过文本描述识别新动作类型，大幅缩短业务上线周期。

Awesome-Temporal-Action-Detection-Temporal-Action-Proposal-Generation 通过整合前沿的时序定位与提案生成技术，将非结构化视频转化为高价值结构化数据的效率提升了数量级。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库是一个论文和代码资源的汇总列表（Awesome List），而非单一的独立软件工具。它收录了从 2016 年到 2026 年（预测/占位）的多个关于时序动作检测、提议生成及相关任务的学术项目。每个列出的项目（如 BSN, BMN, RTD-Net 等）都有自己独立的代码仓库链接和技术栈要求（部分基于 TensorFlow，部分基于 PyTorch 或 PaddlePaddle）。因此，本仓库本身没有统一的运行环境、GPU 或依赖库需求。用户需根据具体想要复现的某篇论文，访问其对应的子项目链接以获取详细的环境配置说明。

python未说明

Awesome-Temporal-Action-Detection-Temporal-Action-Proposal-Generation hero image

快速开始

优秀的时间动作检测与时间动作提案生成

时间动作检测 & 弱监督与半监督时间动作检测 & 时间动作提案生成 & 开放词汇时间动作检测

优秀的时间动作检测与时间动作提案生成
关于预训练模型
ActivityNet 挑战赛
时间动作提案生成
- 2023年 - 2022年 - 2021年 - 2020年 - 2019年 - 2018年 - 2017年 - 之前
时间动作检测
- 2026年 - 2025年 - 2024年 - 2023年 - 2022年 - 2021年 - 2020年 - 2019年 - 2018年 - 2017年 - 之前
弱监督时间动作检测
- 2026年 - 2025年 - 2024年 - 2023年 - 2022年 - 2021年 - 2020年 - 2019年 - 2018年 - 2017年
在线动作检测
- 2026年 - 2025年 - 2024年 - 2023年 - 2022年 - 2021年
半监督时间动作检测
- 2024年 - 2023年 - 2022年 - 2021年 - 2019年
开放词汇时间动作检测
- 2026年 - 2025年 - 2024年 - 2023年 - 2022年

关于预训练模型

(BSP) 针对视频中时间定位的边界敏感型预训练 (ICCV 2021)
(TSP) TSP：用于定位任务的视频编码器时间敏感型预训练 (ICCVW 2021)
(UP-TAL) 用于时间动作定位任务的无监督预训练 (CVPR 2022) 代码
用于时间定位的对比语言-动作预训练 (arXiv 2022)
用于时间动作定位的低保真端到端视频编码器预训练 (NeurIPS 2021)

ActivityNet 挑战赛及讲座

(2021年) AcitvityNet 2021
(2021年) Transformer在时序行为检测中的应用 & 基于自监督学习的半监督时序行为检测 (DAMO Academy, 阿里巴巴集团)

论文：时间动作提案生成

2023年

(MIFNet) MIFNet：多实例聚焦的时间动作提案生成 (Neurocomputing 2023)
(SMBG) 通过稀疏多级边界生成器加速时间动作提案的学习 (arXiv 2023) 代码
(MCBD) [用于时间动作提案生成的多级内容感知边界检测](Tip 2023) 代码

2022年

(BCNet) 带有背景约束的时间动作提案生成 (AAAI 2022)
(PRSA-Net) 基于金字塔区域的槽位注意力网络用于时间动作提案生成 (BMVC 2022) 代码
(TDN) 为时间动作提案生成建模长期视频语义分布 (Neurocomputing 2022)
(AOE-Net) AOE-Net：具有适应性注意力机制的实体交互建模用于时间动作提案生成 (IJCV 2022)

2021年

(BSN++) BSN++：具有尺度均衡关系建模的互补边界回归器用于时间动作提案生成 (AAAI 2021) 作者知乎
(RTD-Net) 用于直接动作提案生成的松弛型 Transformer 解码器 (ICCV 2021) 代码知乎
(TCANet) 用于时间动作提案细化的时间上下文聚合网络 (CVPR 2021) 知乎
带有自适应图的增强型 Transformer 用于时间动作提案生成 (arXiv 2021)
(TAPG) 使用 Transformer 进行时间动作提案生成 (arXiv 2021)
(AEN) 用于时间动作提案生成的代理-环境网络 (ICASSP 2021)
(AEI) AEI：具有适应性注意力的动作-环境交互用于时间动作提案生成 (BMVC 2021) 代码

2020年

VALSE 林天伟的演讲 (2020年3月18日) 链接 (7y8g)
(RapNet) [使用关系感知金字塔网络进行精确的时间动作提案生成] (AAAI 2020) 前期论文是2019年 ActivityNet 任务1第2名
(DBG) [通过密集边界生成器快速学习时间动作提案] (AAAI 2020) 论文 TensorFlow 代码
(BC-GNN) [用于时间动作提案生成的边界内容图神经网络] (ECCV 2020) 论文
采用互惠正则化的自下而上时间动作定位 (ECCV 2020) TensorFlow 代码
(TSI) [TSI：用于动作提案生成的时间尺度不变网络] (ACCV 2020) 论文

2019年

(SRG) SRG：基于片段相关性的时序动作提案生成器（IEEE汇刊，2019）论文
(DPP) 用于动作时序提案的深度逐点预测（ICONIP 2019）论文代码.PyTorch
(BMN) BMN：用于时序动作提案生成的边界匹配网络（ICCV 2019）论文代码.PaddlePaddle 代码.PyTorch_非官方
(MGG) 用于时序动作提案的多粒度生成器（CVPR 2019）论文
结合图像数据的3D卷积与光流生成时序动作提案的研究（2019 CVPR Workshop）论文
(CMSN) CMSN：用于时序动作提案生成的连续多阶段网络及可变边距余弦损失（arXiv，2019）论文
一种用于加速时序动作提案生成的高性能计算方法（arXiv，2019）论文
用于提案和活动定位的多粒度融合网络：提交至ActivityNet Challenge 2019任务1和任务2（ActivityNet挑战赛2019）论文
时序动作提案生成中局部与全局上下文的联合学习（TCSVT 2019）

2018年

(CTAP) CTAP：互补性时序动作提案生成（ECCV 2018）论文代码.TensorFlow
(BSN) BSN：用于时序动作提案生成的边界敏感网络（ECCV 2018）论文代码.TensorFlow 代码.PyTorch
(SAP) SAP：基于强化学习的自适应时序动作检测提案模型（AAAI 2018）论文代码.Torch

2017年

(TURN TAP) TURN TAP：用于时序动作提案的时序单元回归网络（ICCV 2017）论文代码.TensorFlow
(SST) SST：单流时序动作提案（CVPR 2017）论文代码.theano 代码.TensorFlow
YoTube：通过循环与静态回归网络搜索动作提案（IEEE汇刊，2017）论文
通用活动检测中时序精度的探索（arXiv，2017）论文代码.PyTorch

之前

(DAPs) DAPs：用于动作理解的深度动作提案（ECCV 2016）论文代码

论文：时序动作检测

2026年

(ActionVLM) [迈向缓解视觉-语言模型在时序动作定位中的模态偏差]（arXiv，2026）论文
[轻量而精准：基于传感器数据的实时动作检测模型SlimSTAD]（AAAI 2026）论文
[场景感知的时空泛化：迈向跨域鲁棒的时序动作检测]（AAAI 2026）论文

2025

(MS-Temba) MS-Temba：用于高效时序动作检测的多尺度时间Mamba（arXiv 2025）代码
(零样本) 基于视觉-语言模型的免训练零样本时序动作检测（arXiv 2025）
(领域自适应) 动态切换教师：如何提升时序动作检测模型的泛化能力（arXiv 2025）
(LoSA) LoSA：用于扩展端到端时序动作定位的长短距离适配器（WACV 2025）
(TimeLoc) TimeLoc：一种统一的端到端框架，用于在长视频中精确地进行时间戳定位（arXiv 2025）代码
通过渐进式模块剪枝压缩时序动作检测模型（CVPR 2025）
(DiGIT) DiGIT：用于时序动作检测Transformer的多膨胀门控编码器与中心相邻区域集成解码器（CVPR 2025）代码
(FDDet) FDDet：用于时序动作检测中边界精炼的频率解耦方法（arXiv 2025）
少样本时序动作定位中的思维链文本推理（arXiv 2025）
ProTAL：一种拖拽式视频编程框架，用于时序动作定位（CHI 2025）
CLIP-AE：CLIP辅助的跨视角音视频增强技术，用于无监督时序动作定位（arXiv 2025）
基于大语言模型的查询扩展，用于提升语言驱动的动作定位中的边界预测
(BRTAL) BRTAL：基于偏移驱动扩散模型的边界精炼时序动作定位（TCSVT 2025）
(EDMP) 能量 vs. 噪声：迈向开放世界中鲁棒的时序动作定位（AAAI 2025）代码
(AdaTAD++) 动作检测的规模化：具有Transformer增强型时空自适应能力的AdaTAD++（ICCV 2025）
(WiFiTAD) 基于双金字塔网络的WiFi时序活动检测（AAAI 2025）代码
(RDFA-S6) 提升时序动作定位：利用循环机制的高级S6建模（arXiv 2025）代码
(MambaTAD) MambaTAD：状态空间模型遇上长时序动作检测（TMM 2025）
(FreETAD) (多标签) 循序渐进，从局部片段预测全局动作性曲线（ACM MM 2025）
(TBT-Former) TBT-Former：学习动作定位的时间边界分布（arXiv 2025）
带有扩展时序移位模块的多任务学习，用于时序动作定位（ICCV 2025 BinEgo-360挑战赛）

2024

(DenoiseLoc) 视频活动定位中的边界去噪（ICLR 2024）代码
(LITA) LITA：语言指导的时序定位助手（arXiv 2024）代码
(PLOT-TAL) (少样本) PLOT-TAL——基于最优传输的提示学习，用于少样本时序动作定位（arXiv 2024）
针对时序扰动的时序动作检测模型鲁棒性基准测试（CVPR 2024）代码
(零样本) (T3AL) 测试时零样本时序动作定位（CVPR 2024）代码
(UniMD) UniMD：迈向统一时刻检索与时序动作检测（ECCV 2024）代码
将短时Transformer适配用于未修剪视频中的动作检测（CVPR 2024）
(AdaTAD) 具有10亿参数、跨1000帧的端到端时序动作检测（CVPR 2024）代码
视频Mamba套件：状态空间模型作为视频理解的多功能替代方案（ECCV 2024）代码
(TE-TAD) TE-TAD：通过时间对齐的坐标表达，迈向完全端到端的时序动作检测（CVPR 2024）代码
(ADI-Diff) 通过图像扩散过程进行动作检测（CVPR 2024）
(DualDETR) 用于多标签时序动作检测的双DETREs（CVPR 2024）代码
一种高效密集型多标签动作检测方法（arXiv 2024）
(时空) 使用视频Transformer进行端到端的时空动作定位（CVPR 2024）
(DyFADet) DyFADet：用于时序动作检测的动态特征聚合（ECCV 2024）代码
(causaltad) 利用时序因果关系进行高级时序动作检测（arXiv 2024）代码
(LTP) 使用Transformer进行时序动作检测的长期预训练（arXiv 2024）
(Pred-DETR) 用于时序动作检测的预测-反馈DETR（arXiv 2024）
在时序动作检测中引入门控机制和上下文信息（ECCV W 2024）
(ContextDet) ContextDet：具有自适应上下文聚合功能的时序动作检测（arXiv 2024）
(LMM：TimeMarker) TimeMarker：一款多功能视频LLM，适用于长短视频理解，并具备卓越的时序定位能力代码

2023年

(AMNet) 基于分组注意力的动作感知掩码网络用于时序动作定位 (WACV 2023)
(ContextLoc++) ContextLoc++：一种用于时序动作定位的统一上下文模型 (TPAMI 2023)
基于课程学习的动态权重时序动作检测 (Neurocomputing 2023)
(GAP) 时序动作检测后处理 (CVPR 2023) 代码
(TriDet) TriDet：基于相对边界建模的时序动作检测 (CVPR 2023) 代码
- 增强瞬间可辨性的时序动作定位（扩展版本）
(TemporalMaxer) TemporalMaxer：仅使用最大池化最大化时序上下文以进行时序动作定位 (ArXiv 2023) 代码
(DiffTAD) DiffTAD：基于提案去噪扩散的时序动作检测 (ICCV 2023) 代码
基于RGB的时序动作检测中的分解式跨模态蒸馏 (CVPR 2023)
视频活动定位中的边界去噪 (ArXiv 2023)
(ASL) 用于时序动作定位的动作敏感性学习 (ICCV 2023)
(MMNet) 用于动作检测的多模态Transformer网络 (Pattern Recognition 2023)
具有多尺度扩张的截断注意力感知提案网络用于时序动作检测 (Pattern Recognition 2023)
(MSST) 用于时序动作定位的多时序尺度与时空Transformer网络 (IEEE Transactions on Human-Machine Systems 2023)
探索动作中心以进行时序动作定位 (TMM 2023)
(ETAD) ETAD：在笔记本电脑上端到端训练动作检测 (CVPRW 2023) 代码
(BasicTAD) BasicTAD：令人惊叹的仅基于RGB的时序动作检测基线 (CVIU 2023) 代码
(Re2TAL) Re2TAL：为可逆时序动作定位重布线预训练视频骨干网络 (CVPR 2023) 代码
(SoLa) 软着陆策略用于缓解时序动作定位任务中的任务差异问题 (CVPR 2023)
(APN) 视频中基于进度引导的时序动作检测 (ArXiv 2023) 代码
(Self-DETR) 用于时序动作检测的自反馈DETR (ICCV 2023)
(UnLoc) UnLoc：一个用于视频定位任务的统一框架 (ICCV 2023) 代码
时序动作定位模型的数据效率与计算效率基准测试 (ICCV 2023研讨会)
(BAPG) 面向时序动作定位的边界感知提案生成方法 (ArXiv 2023)
(MENet) 面向多尺度视频特征表示的运动增强用于时序动作检测 (ICCV 2023)
(MRAV-FF) 用于时序动作定位的多分辨率音视频特征融合 (ArXiv 2023)
(BDRC-Net) 用于时序动作检测的边界离散化与可靠分类网络 (ArXiv 2023) 代码
(STAN) STAN：用于时序动作检测的空间–时间感知网络 (ACM MM W 2023)
(RefineTAD) RefineTAD：学习无提案细化以进行时序动作检测 (ACM MM 2023)
SADA：语义对抗无监督域适应用于时序动作定位 (ArXiv 2023) 代码

2022年

(DCAN) DCAN：通过双上下文聚合提升时序动作检测（AAAI 2022）
(TVNet) TVNet：用于动作定位的时序投票网络（arXiv 2022）代码
(ActionFormer) ActionFormer：基于Transformer的动作时刻定位（ECCV 2022）代码
(SegTAD）SegTAD：基于语义分割的精确时序动作检测（arXiv 2022）
(OpenTAL) OpenTAL：面向开放集时序动作定位（CVPR 2022）代码
(TALLFormer) TALLFormer：基于长记忆Transformer的时序动作定位（CVPR 2022）
端到端时序动作检测的实证研究（CVPR 2022）代码
(BREM) 时序动作检测中可靠提案质量的估计（ACM MM 2022）
用于时序动作定位的结构化注意力组合（Tip 2022）代码
(RCL) RCL：用于时序动作检测的循环连续定位（CVPR 2022）
(RefactorNet) 学习重构动作与共现特征以进行时序动作定位（CVPR 2022）
(MS-TCT) MS-TCT：用于动作检测的多尺度时序卷积Transformer（CVPR 2022）代码
(OATD) 单阶段动作检测Transformer（EPICKITCHENS-100 2022 V. 26.35 N. 25.83）
面向时序动作检测的上下文感知提案网络（CVPR-2022 ActivityNet挑战赛获奖方案）
用于时序动作定位的双关系网络（模式识别2022）
学习解耦分类与定位表示以进行时序动作定位（AAAI 2022）
(DDM) 针对通用事件边界检测的多级密集差异图上的渐进式注意力（CVPR 2022）代码
提交至CVPR 2022通用事件边界检测挑战赛：局部上下文建模与全局边界解码方法（CVPR 2022挑战赛）
(HTNet) HTNet：基于层次化Transformer的无锚点时序动作定位（arXiv 2022）
(STPT) 用于动作检测的高效时空金字塔Transformer（ECCV 2022）
(TAGS) 基于全局分割掩码学习的无提案时序动作检测（ECCV 2022）代码
提示视觉-语言模型以实现高效的视频理解（ECCV 2022）代码
(ReAct) ReAct：基于关系查询的时序动作检测（ECCV 2022）代码
(TadTR) 基于Transformer的端到端时序动作检测（TIP 2022）代码
(TAL-MTS) 基于多时间尺度的时序动作定位（arXiv 2022）
(AdaPerFormer) 用于时序动作定位的自适应感知Transformer（arXiv 2022）代码
(PointTAD) PointTAD：基于可学习查询点的多标签时序动作检测（NeurIPS 2022）代码（多动作检测，例如multiTHUMOS、charades）
(SoLa) 软着陆策略：缓解时序动作定位任务中的任务不匹配问题（arXiv 2022）
(Re2TAL) Re2TAL：重布线预训练视频骨干网络以实现可逆时序动作定位（arXiv 2022）
(MUPPET) 多模态少样本时序动作检测（arXiv 2022）代码
基于深度学习的未修剪视频中的动作检测：综述（TPAMI 2022）

2021年

(活动图变换器) 用于时序动作定位的活动图变换器 (arXiv 2021) 项目代码
用于视频中时序动作检测的粗细网络 (CVPR 2021) 代码
(MLAD) 建模多标签动作依赖关系以进行时序动作定位 (CVPR 2021)
(PcmNet) PcmNet：用于时序动作定位的位置敏感上下文建模网络 (Tip 2021)
(AFSD) 学习无锚框时序动作定位中的显著边界特征 (CVPR 2021) 代码
用于时序动作定位的低保真端到端视频编码器预训练 (arXiv 2021)
读取与注意：手语视频中的时序定位 (CVPR 2021) (手语视频)
用于时序动作定位中抗混叠的低通滤波器 (arXiv 2021)
FineAction：用于时序动作定位的精细视频数据集 (ICCV2021深度行动研讨会的一个赛道) 主页
一石三鸟：通过复用时序标注实现多任务时序动作检测 (CVPR 2021)
用于时序动作检测的提案关系网络 (CVPRW 2021)
探索更强的特征用于时序动作定位 (CVPRW 2021)
(SRF-Net) SRF-Net：用于无锚框时序动作检测的选择性感受野网络 (ICASSP 2021)
仅RGB流就足以进行时序动作检测 (arXiv 2021) 代码
(AVFusion) 请听我说：音频增强型时序动作定位的融合方法 (arXiv 2021) 代码
基于可迁移知识的多粒度聚合网络用于时序动作定位：提交至ActivityNet挑战赛2021 (HACS挑战赛2021)
丰富局部与全局上下文以用于时序动作定位 (ICCV 2021)
(CSA) 基于类别语义的动作检测注意力机制 (ICCV 2021)
(SP-TAD) 迈向高质量的稀疏提案时序动作检测 (arXiv 2021) 代码
基于查询自适应变换器的少样本时序动作定位 (BMVC 2021) 代码 (少样本)
用于视频中时序动作定位的图卷积模块 (TPAMI 2021)
MS-TCT：用于动作检测的多尺度时序卷积变换器 (arXiv 2021)
(VSGN) 用于时序动作定位的视频自拼接图网络 (ICCV 2021) 代码
(MUSES) 多镜头时序事件定位：一个基准 (CVPR 2021) 项目代码数据集

2020年

(G-TAD) G-TAD：用于时序动作检测的子图定位 (CVPR 2020) 论文代码.PyTorch 视频
(AGCN-P-3DCNNs) 基于图注意力的提案3D卷积网络用于动作检测 (AAAI 2020) 论文
(PBRNet) 用于时序动作检测的渐进式边界精炼网络 (AAAI 2020) 论文
(TsaNet) 尺度很重要：用于在未修剪视频中精确动作定位的时序尺度聚合网络 (ICME 2020) 论文
约束动作定位中的时序关系 (arXiv 2020) 论文
(CBR-Net) CBR-Net：用于动作检测的级联边界精炼网络：提交至ActivityNet挑战赛2020（任务1） (ActivityNet挑战赛2020) 论文
基于方差感知网络的时序动作定位 (arXiv 2020)
单阶段时序动作定位网络中的边界不确定性 (arXiv 2020，技术报告)
重新审视时序动作定位中的锚机制 (Tip 2020) 代码.PyTorch
(C-TCN) 用于动作定位的深层概念级时序卷积网络 (ACM MM 2020) 代码.PaddlePaddle
(MLTPN) 用于动作检测的多层级时序金字塔网络 (PRCV 2020)
(SALAD) SALAD：用于动作检测的自我评估学习 (arXiv 2020)

2019年

(CMS-RC3D) 用于行为检测的上下文多尺度区域卷积3D网络（ICCVBIC 2019）论文
(TGM) 用于视频的时序高斯混合层（ICML 2019）论文代码.PyTorch
(Decouple-SSAD) 单阶段时序动作检测中的定位与分类解耦（ICME 2019）论文代码.TensorFlow
时序动作定位中的特征表示与训练策略探索（ICIP 2019）论文
(PGCN) 用于时序动作定位的图卷积网络（ICCV 2019）论文代码.PyTorch
(S-2D-TAN) 学习稀疏2D时序相邻网络以进行时序动作定位（ICCV 2019）（ICCV 2019 HACS时序动作定位挑战赛优胜方案）论文
- (2D-TAN) 学习2D时序相邻网络以实现自然语言描述的动作片段定位（AAAI 2020）论文代码.PyTorch
(LCDC) 在特征空间中学习运动：用于细粒度动作检测的局部一致可变形卷积网络（ICCV 2019）论文幻灯片代码.TensorFlow
(BLP) BLP——边界似然精确定位网络，用于精确的时序动作定位（ICASSP 2019）论文
(GTAN) 用于动作定位的高斯时序感知网络（CVPR 2019）论文
利用长短期依赖关系进行时序动作定位（arXiv 2019）论文
用于时序动作定位的关系注意力机制（IEEE Trans TMM 2019）论文
(AFO-TAD) AFO-TAD：无锚点单阶段时序动作检测器（arXiv 2019）论文
(DBS) 未修剪视频中时序动作检测的视频印记分割（AAAI 2019）论文

2018年

诊断时序动作检测器中的错误（ECCV 2018）论文
(ETP) 通过演化时序提案实现精确的时序动作定位（ICMR 2018）论文
(Action Search) 动作搜索：在视频中识别动作及其在时序动作定位中的应用（ECCV 2018）论文代码.TensorFlow
(TAL-Net) 重新思考用于时序动作定位的Faster R-CNN架构（CVPR 2018）论文
通过学习序列匹配网络实现单次动作定位（CVPR 2018）论文
通过联合识别-验证进行时序动作检测（arXiv 2018）论文
(TPC) 探索时序保持网络以实现精确的时序动作定位（AAAI 2018）论文
(SAP) 基于强化学习的自适应提案模型用于时序动作检测（AAAI 2018）论文代码.Torch

2017年

(TCN) 用于视频中活动定位的时序上下文网络（ICCV 2017）论文代码.caffe
(SSN) 使用结构化片段网络进行时序动作检测（ICCV 2017）论文代码.PyTorch
(R-C3D) R-C3D：用于时序活动检测的区域卷积3D网络（ICCV 2017）论文代码.caffe 代码.PyTorch
(TCNs) 用于动作分割和检测的时序卷积网络（CVPR 2017）论文代码.TensorFlow
(SMS) 通过结构化最大值之和进行时序动作定位（CVPR 2017）论文代码
(SCC) SCC：语义上下文级联以实现高效的动作检测（CVPR 2017）论文
(CDC) CDC：卷积-反卷积网络用于未修剪视频中精确的时序动作定位（CVPR 2017）论文代码项目
(SS-TAD) 端到端、单流的未修剪视频中时序动作检测（BMVC 2017）论文代码.PyTorch
(CBR) 用于时序动作检测的级联边界回归（BMVC 2017）论文代码.TensorFlow
(SSAD) 单次时序动作检测（ACM MM 2017）论文

之前

(PSDF) 基于分数分布金字塔特征的时序动作定位（CVPR 2016）论文
使用统计语言模型进行时序动作检测（CVPR 2016）论文代码
(S-CNN) 通过多阶段CNN在未修剪视频中进行时序动作定位（CVPR 2016）论文代码项目
从视频帧瞥见中端到端学习动作检测（CVPR 2016）论文代码

论文：弱监督时序动作检测

2026年

(VLPO) 弱监督时序动作定位中的视觉-语言偏好优化（提交至ICLR 2026）
通过文本精炼与对齐提升点标注时序动作定位性能（arXiv 2026）
探索点级弱监督时序动作定位中的时间一致性（arXiv 2026）
[MSLU] 为弱监督时序动作定位建模语义与定位不确定性（TCSVT 2026）

2025年

(AAPL) 面向时序动作检测的无关动作点级监督（AAAI 2025）代码
(NoCo) 从噪声校正视角重新思考伪标签引导的弱监督时序动作定位学习（AAAI 2025）
(SAL) 用于弱监督时序动作定位的多级语义与自适应动作性学习（NN 2025）代码
(SDANet) 用于弱监督时序动作定位的片段间差异注意力网络（TMM 2025）
(grounding) 面向点标注自然语言视频定位的协同时间一致性学习（arXiv 2025）
弥合差距：利用PseudoFormer实现从弱监督到全监督的时序动作定位（CVPR 2025）
(MLLM4WTAL) 基于多模态大语言模型引导的双先验协同学习的弱监督时序动作定位（CVPR 2025）
(QROT) 通过整合查询重构与最优传输提升点标注时序动作定位性能（CVPR 2025）
(ActionDiff) 用于弱监督时序动作定位的动作间扩散网络（TMM 2025）
CL-WTAL：基于多尺度对比学习的弱监督复杂时序动作定位（TCSVT 2025）

2024年

(ISSF) 通过推断片段特征亲和力进行弱监督时序动作定位（AAAI 2024）
(HR-Pro) HR-Pro：基于层次可靠性传播的点标注时序动作定位（AAAI 2024）代码
STAT：迈向可泛化的时序动作定位（Arxiv 2024）
(TSPNet) 针对点级弱监督时序动作定位，将置信度与时间显著性信息重新对齐（CVPR 2024）代码
(M2PT) 采用多模态高原Transformer的弱监督时序动作定位（CVPR Workshop 2024）
(EPNet) 用于弱监督时序动作定位的集成原型网络（TNNLS 2024）
(FuSTAL) 用于弱监督时序动作定位的全阶段伪标签质量提升（arXiv 2024）代码
(PVLR) 用于弱监督时序动作定位的概率型视觉-语言表征（ACM MM 2024）代码
(zero-shot) 迈向完备性：面向零样本时序动作定位的可泛化动作提案生成器（ICPR 2024）代码
(SMBD) 用于点标注时序动作定位的分步多粒度边界检测器（ECCV 2024）
基于大型视觉-语言模型置信度的零样本动作定位（arXiv 2024）
MLLM能否指导弱监督时序动作定位任务？（arXiv 2024）
用于弱监督时序动作定位的基于不确定性的广义证据融合与混合多头注意力机制（arXiv 2024）代码
(SQL-Net) (point) SQL-Net：用于点标注时序动作定位的语义查询学习（TMM 2024）
(AFPS) 采用动作性引导的假阳性抑制进行弱监督时序动作定位（NN 2024）代码
(point) 用于单帧监督时序动作定位的邻居引导伪标签生成与精炼（TIP 2024）

2023年

(ASCN) 一种用于弱监督时序动作定位的新型动作显著性和上下文感知网络（TMM 2023）
(TFE-DCN) 用于弱监督时序动作定位的时序特征增强空洞卷积网络（WACV 2023）
(JCDNet) JCDNet：用于弱监督时序动作定位的共性与确定性阶段联合网络（Arxiv 2023）
(P-MIL) 基于提议的多实例学习用于弱监督时序动作定位（CVPR 2023）代码
具有语义感知机制的双流网络用于弱监督时序动作定位（CVPR 2023）
利用文本信息提升弱监督时序动作定位（CVPR 2023）代码
(PivoTAL) PivoTAL：面向弱监督时序动作定位的先验驱动监督（CVPR 2023）
通过弥合伪标签中的训练-测试差距来改进弱监督时序动作定位（CVPR 2023）代码
(MTP) 用于弱监督时序动作定位的多种时序池化机制（TOMM 2023）
(VQK-Net) 用于弱监督时序动作定位的视频特异性查询-键注意力建模
(DFE) 用于弱监督时序动作定位的双重特征增强（ICASSP 2023）
(FBA-Net) 用于弱监督时序动作定位的前景、背景和动作协同建模网络（TCSVT 2023）
(Bi-SCC) 具有双向语义一致性约束的弱监督时序动作定位（TNNLS 2023）
(F3-Net) 用于弱监督时序动作定位的特征弱化、上下文化与判别（TMM 2023）代码
(LPR) 用于弱监督时序动作定位的学习提议感知重新排序（TCSVT 2023）
(STCL-Net) 用于弱监督时序动作定位的语义与时空上下文相关性学习（TPAMI 2023）
将视觉-语言预训练蒸馏以协同弱监督时序动作定位（CVPR 2023）
基于分层结构的潜在注意力建模的弱监督动作定位（ICCV 2023）
跨视频上下文知识的探索与利用以减少弱监督时序动作定位中的歧义（TCSVT 2023）
(SPL-Loc) 用于点级弱监督时序动作定位的子动作原型学习（arXiv 2023）
(DDG-Net) DDG-Net：用于弱监督时序动作定位的可区分性驱动图网络（ICCV 2023）代码
基于提议的时序动作定位，采用点级监督（BMVC 2023）
(LPR) LPR：通过再训练实现点级时序动作定位的学习（MMSJ 2023）
(POTLoc) POTLoc：面向点级监督的时序动作定位的伪标签导向Transformer（arXiv 2023）
(ADM-Loc) ADM-Loc：用于点级监督时序动作定位的动作性分布建模（arXiv 2023）
重新审视弱监督时序动作定位中的前景与背景分离：基于聚类的方法（ICCV 2023）代码
用于点级弱监督时序动作定位的子动作原型学习（arXiv 2023）
(AICL) 用于弱监督时序动作定位的动作性不一致性引导对比学习（AAAI 2023）代码

2022年

(ACGNet) ACGNet：用于弱监督时序动作定位的动作互补图网络（AAAI 2022）
(RSKP) 基于代表性片段知识传播的弱监督时序动作定位（CVPR 2022）代码
(ASM-Loc) ASM-Loc：面向弱监督时序动作定位的动作感知片段建模（CVPR 2022）代码
(FTCL) 用于弱监督时序动作定位的细粒度时序对比学习（CVPR 2022）代码
(C3BN) 邻居之间凸组合一致性用于弱监督动作定位（arXiv 2022）
(DCC) 探索去噪跨视频对比用于弱监督时序动作定位（CVPR 2022）
(HAAN) 基于层次化原子动作的细粒度视频弱监督时序动作检测（ECCV 2022）代码
(STALE) (零样本) 通过视觉-语言提示进行零样本时序动作检测（ECCV 2022）代码
(SMEN) 慢动作很重要：用于弱监督时序动作定位的慢动作增强网络（TCSVT 2022）
用于单帧监督时序动作定位的膨胀-腐蚀方法（arXiv 2022）
(AMS) 自适应互监督用于弱监督时序动作定位（TMM 2022）
(DELU) 用于弱监督时序动作定位的双重证据学习（ECCV 2022）代码

2021年

(HAM-Net) 一种用于弱监督时序动作定位的混合注意力机制。（AAAI 2021）
用于弱监督动作定位的跨注意力音频-视觉融合（ICLR 2021）
基于不确定性建模的弱监督时序动作定位（AAAI 2021）代码
(TS-PCA) 未修剪视频中未标记背景的优势（CVPR 2021）代码
(ACSNet) ACSNet：用于弱监督时序动作定位的动作-上下文分离网络（AAAI 2021）
(CoLA) CoLA：基于片段对比学习的弱监督时序动作定位（CVPR 2021）
通过学习动作与上下文的显式子空间实现弱监督时序动作定位（AAAI 2021）
ACM-Net：用于弱监督时序动作定位的动作上下文建模网络（arXiv 2021，已提交至Tip）代码
(AUMN) 用于弱监督时序动作定位的动作单元记忆网络（CVPR 2021）
(ASL) 视频中的弱监督动作选择学习（CVPR 2021）
(ActShufNet) 用于弱监督时序动作定位的动作洗牌（arXiv 2021）
无需知道边界即可进行少样本动作定位（arXiv 2021）
用于弱监督时序动作检测的不确定性引导协作训练（CVPR 2021）
双流共识网络：提交至HACS挑战赛2021弱监督学习赛道（CVPRW 2021）
通过局部-全局背景建模实现弱监督时序动作定位（CVPRW 2021）
用于弱监督时序动作定位的跨模态共识网络（ACM MM 2021）代码
从点云中学习动作完整性以实现弱监督时序动作定位（ICCV 2021）代码
用于弱监督时序动作定位的深度运动先验（已提交至Tip 2021）项目
用于弱监督时序动作定位的前景-动作一致性网络（ICCV 2021）
(BackTAL) 背景点击监督用于时序动作定位（TPAMI 2021）代码
(ACN) 用于弱监督时序动作定位的动作连贯性网络（TMM 2021）
用于单帧时序动作定位的分而治之法（ICCV 2021）

2020年

(WSGN) 用于动作检测的弱监督高斯网络（WACV 2020）论文
基于深度度量学习的弱监督时序动作定位（WACV 2020）论文
动作图：利用图卷积网络进行弱监督动作定位（WACV 2020）论文
(DGAM) 基于生成式注意力建模的弱监督动作定位（CVPR 2020）论文代码.PyTorch
(EM-MIL) 基于期望-最大化多实例学习的弱监督动作定位（ECCV 2020）论文
用于弱监督时序动作定位的关系原型网络（AAAI 2020）论文
(BaS-Net) 用于弱监督时序动作定位的背景抑制网络（AAAI 2020）论文代码.PyTorch
基于不确定性估计的背景建模用于弱监督动作定位（arXiv 2020）论文代码.PyTorch
(A2CL-PT) 用于弱监督时序活动定位的对抗性背景感知损失（ECCV 2020）论文代码.PyTorch
使用片段级标签的弱监督时序动作定位（arXiv 2020）
(ECM) 等效分类映射用于弱监督时序动作定位（arXiv 2020 → TPAMI 2022）论文
用于弱监督时序动作定位的双流一致性网络（ECCV 2020亮点论文）
无监督视频动作定位中的时序协同注意力模型学习（CVPR 2020）
基于背景感知网络的动作完整性建模用于弱监督时序动作定位（ACM MM 2020）
(D2-Net) [D2-Net：通过判别嵌入和去噪激活实现弱监督动作定位]（arXiv 2020）（THUMOS'14 mAP@0.5：35.9）
(SF-Net) [SF-Net：单帧监督用于时序动作定位]（arXiv 2003.06845）（ECCV 2020）代码.PyTorch
[点级时序动作定位：连接全监督提案与弱监督损失]（arXiv 2012.08236）（arXiv 2020）
[基于可迁移知识的多粒度融合网络用于弱监督时序动作检测]（IEEE Xplore，文档编号：9105103，关键词#keywords）（TMM 2020）
[ActionBytes：从修剪后的视频中学习以定位动作]（CVPR 2020）

2019年

(AdapNet) AdapNet：用于弱监督动作识别与定位的自适应分解编码器-解码器网络（IEEE神经网络与学习系统汇刊）论文
打破赢者通吃：用于弱监督时序动作定位的迭代优胜者剔除网络（IEEE图像处理汇刊）论文
基于发生次数学习的弱监督时序定位（ICML 2019）论文代码.TensorFlow
(MAAN) 用于弱监督学习的边缘化平均注意力网络（ICLR 2019）论文代码.PyTorch
基于背景建模的弱监督动作定位（ICCV 2019）论文
(TSM) 用于弱监督动作检测的时间结构挖掘（ICCV 2019）论文
(CleanNet) 通过对比评估网络实现弱监督时序动作定位（ICCV 2019）论文
(3C-Net) 3C-Net：类别计数与中心损失用于弱监督动作定位（ICCV 2019）论文代码.PyTorch
(CMCS) 用于弱监督时序动作定位的完整性建模与上下文分离（CVPR 2019）论文代码.PyTorch
(RefineLoc) RefineLoc：用于弱监督动作定位的迭代精炼（arXiv 2019）论文主页
(ASSG) 用于弱监督时序动作定位的对抗性种子序列扩展（ACM MM 2019）论文
(TSRNet) 在弱监督下从未修剪视频中学习可迁移的自我注意表征用于动作识别（AAAI 2019）论文
(STAR) 用于弱监督多动作检测的分离式时序组装循环网络（AAAI 2019）论文

2018年

基于片段的时序池化网络的弱监督时序动作检测（ICONIP 2018）
(W-TALC) [W-TALC：弱监督时序活动定位与分类]（ECCV 2018）代码.PyTorch
(AutoLoc) [AutoLoc：弱监督时序动作定位]（ECCV 2018）代码
(STPN) [稀疏时序池化网络的弱监督动作定位]（CVPR 2018）代码
[逐步擦除、逐一收集：一种弱监督时序动作检测器]（ACM MM 2018）
(CPMN) [用于弱监督时序动作定位的级联金字塔挖掘网络]（accv 2018）

2017年

(Hide-and-Seek) [捉迷藏：迫使网络在弱监督目标和动作定位中更加细致]（ICCV 2017）
(UntrimmedNets) [用于弱监督动作识别与检测的UntrimmedNets]（CVPR 2017）代码

论文：在线动作检测

2026年

(COAD) [来自第一人称视频的连续在线动作检测]（即将发表于ICLR 2026）
(MOAD) [回溯Mamba：通过层次化记忆压缩恢复关键时序上下文，用于在线动作检测]（AAAI 2026）

2025年

(TOAD) [文本驱动的在线动作检测]（Integrated Computer-Aided Engineering 2025）代码
(CMeRT) [面向在线动作检测的上下文增强型记忆精炼Transformer]（CVPR 2025）代码
[视觉与意图提升大语言模型在长期动作预测中的表现]（arXiv 2025）
(PTMA) [跨视角在线动作检测中的概率性时序掩码注意力]（TMM 2025）
(CDM-Tr) [用于在线动作检测与预测的长短时协同决策Transformer]（PR 2025）
(TPT) [贯穿式程序化Transformer，用于在线动作检测与预测]（TCSVT 2025）
(BiOMamba) [BiOMamba：基于Mamba的先向后向时序建模，用于在线动作检测与预测]（ACM MM 2025）

2024年

(JOADAA) [JOADAA：联合在线动作检测与动作预测]（WACV 2024）
[对象感知的第一人称在线动作检测]（CVPRW 2024）
[ActionSwitch：流式视频中同时动作的类无关检测]（ECCV 2024）代码
(MATR) [基于记忆增强Transformer的在线时序动作定位]（ECCV 2024）代码
(HAT) [HAT：历史增强锚点Transformer，用于在线时序动作定位]（ECCV 2024）代码
[不同层级教师对在线动作检测的渐进式知识蒸馏]（TMM 2024）
[OnlineTAS：时序动作分割的在线基线]（NeurIPS 2024）
(OV-OAD) [视频-文本预训练是否有助于开放词汇在线动作检测？]（NeurIPS 2024）代码
[贝叶斯证据深度学习用于在线动作检测]（ECCV 2024）

2023年

(recognation) (GliTr) [GliTr：具有时空一致性的瞥视Transformer，用于在线动作预测]（WACV 2023）
(E2E-LOAD) [E2E-LOAD：端到端长视频在线动作检测]（ICCV 2023）代码
(MiniROAD) [MiniROAD：用于在线动作检测的极简RNN框架]（ICCV 2023）代码
(MAT) [用于在线动作理解的记忆与预测Transformer]（ICCV 2023）代码
[通过对比学习学习未来表征的在线动作检测]（ICME 2023）
(HCM) [HCM：基于硬视频片段挖掘的在线动作检测]（TMM 2023）
(DFAformer) [DFAformer：一种双滤波辅助Transformer，用于流式视频中高效的在线动作检测]（PRCV 2023）

2022年

(Colar) Colar：通过参考示例实现高效在线动作检测（CVPR 2022）代码
(GateHUB) GateHUB：带有背景抑制的门控历史单元用于在线动作检测（CVPR 2022）
基于循环窗口的级联Transformer用于在线动作检测（TPAMI 2022）
(TeSTra) 基于时间平滑Transformer的实时在线视频检测（ECCV 2022）代码
(OAT) 用于在线时序动作定位的滑动窗口方案代码
(SimOn) SimOn：一种用于在线时序动作定位的简单框架（arXiv 2022）代码
(survey) 视频中的人类动作在线检测与预测：综述
基于不确定性的时空注意力机制用于在线动作检测（ECCV 2022）
(PPKD) 特权知识蒸馏用于在线动作检测（PR 2022）
信息提升网络用于在线动作检测与预测（CVPR W 2022）
(2PESNet) 2PESNet：迈向时序动作定位的在线处理（PR 2022）

2021年

(WOAD) WOAD：未修剪视频中的弱监督在线动作检测（CVPR 2021）
(OadTR) OadTR：基于Transformer的在线动作检测（ICCV 2021）代码
(CAG-QIL) CAG-QIL：基于Q模仿学习的上下文感知动作分组用于在线时序动作定位（ICCV 2021）
(LSTR) 用于在线动作检测的长短期Transformer（NeurIPS 2021）代码
(TRN) 用于在线动作检测的时序循环网络（ICCV 2019）代码
pre awesome

半监督

2024年

(APL) 面向半监督时序动作定位的自适应伪标签学习（ECCV 2024）

2023年

(NPL) 从噪声伪标签中学习用于半监督时序动作定位（ICCV 2023）代码

2022年

(AL-STAL) 具有有效评分函数的主动学习用于半监督时序动作定位（Displays 2022）
(SPOT) 无提案掩码的半监督时序动作检测（ECCV 2022）代码

2021年

2019年

用更少的标注学习时序动作提案（ICCV 2019）
(TTC-Loc) 迈向半监督时序动作定位的训练-测试一致性（arXiv 2019）

开放词汇时序动作检测

2026年

(PSFTR) 用于零样本时序动作定位的渐进式语义融合Transformer（即将提交至ICLR 2026）
(zero-shot) TF-CADE：面向零样本时序动作检测的前景集中型文本-视频对齐（CVPR 2026）
(zero-shot) 双向时序敏感适配用于广义零样本时序动作定位（TCSVT 2026）
分解与迁移：CoT提示增强的对齐用于开放词汇时序动作检测（CVPR 2026）

2025年

(zero-shot, FreeZAD) 无需训练的零样本时序动作检测，借助视觉-语言模型（arXiv 2025）
(STOV-TAL) 探索自训练在开放词汇时序动作定位中的可扩展性（WACV 2025）代码
用于第一人称视角视频的零样本时序交互定位（arXiv 2025）代码

2024年

利用时间多尺度与动作标签特征的单阶段开放词汇时序动作检测（FG 2024）
(OVFormer) 基于多模态引导的开放词汇时序动作定位（BMVC 2024）
(OV-OAD) 视频-文本预训练是否有助于开放词汇在线动作检测？（NeurIPS 2024）
(DeTAL) DeTAL：采用解耦网络的开放词汇时序动作定位（TPAMI 2024）代码
基于迭代视觉提示的开放词汇动作定位（arXiv 2024）
(T3AL) 测试时零样本时序动作定位（CVPR 2024）代码
(ZEETAD) ZEETAD：将预训练视觉-语言模型适配用于零样本端到端时序动作检测（WACV 2024）
通过大型视觉-语言模型置信度实现零样本动作定位（arXiv 2024）
(Ti-FAD) 面向零样本时序动作检测的文本注入注意力与前景感知建模（NeurIPS 2024）代码
(mProTEA) 通过学习多模态提示和文本增强的动作性实现零样本时序动作检测（TCSVT 2024）
(GRIZAL) GRIZAL：生成式先验引导的零样本时序动作定位（EMNLP 2024）代码

2023年

(CELL) 面向开放世界弱监督时序动作定位的级联证据学习（CVPR 2023）
(OW-TAL) OW-TAL：为开放世界时序动作定位学习未知人类活动（PR 2023）
(TN-ZSTAD) TN-ZSTAD：用于零样本时序活动检测的可迁移网络（TAPMI 2023）
面向低样本时序动作定位的多模态提示（arXiv 2023）

2022年及之前

使用现成图像-文本特征的开放词汇时序动作检测（arxiv 2022）
(OpenTAL) OpenTAL：迈向开放集时序动作定位（CVPR 2022）代码
通过提示视觉-语言模型实现高效视频理解（ECCV 2022）代码
(STALE) (零样本) 通过视觉-语言提示实现零样本时序动作检测（ECCV 2022）代码
零样本自然语言视频定位（ICCV 2021）
(ZSTAD) ZSTAD：零样本时序活动检测（CVPR 2020）

Awesome-Temporal-Action-Detection 快速上手指南

本仓库是一个关于时序动作检测（Temporal Action Detection）、弱监督/半监督检测、时序动作提案生成（TAPG）以及开放词汇检测的论文与资源汇总列表。它本身不是一个单一的可执行软件，而是指向各个具体算法（如 BSN, BMN, RTD-Net 等）的代码库和论文链接。

以下指南将指导你如何利用该列表找到目标模型，并搭建通用的开发环境以运行相关代码。

1. 环境准备

大多数列出的现代时序动作检测模型基于深度学习框架（PyTorch 或 TensorFlow）。以下是推荐的通用环境配置：

操作系统: Linux (Ubuntu 18.04/20.04 推荐) 或 macOS
Python: 3.7 - 3.9 (根据具体模型要求，建议 3.8)
GPU: NVIDIA GPU (推荐显存 >= 8GB)，需安装对应的 CUDA 驱动
核心依赖:
- PyTorch (主流选择) 或 TensorFlow
- NumPy, SciPy
- OpenCV-Python (cv2)
- Pandas, Pickle (用于处理 ActivityNet 等数据集标注)

国内加速建议：推荐使用清华源或阿里源安装 Python 包，以提升下载速度。
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple <package_name>

2. 安装步骤

由于本仓库是资源列表，你需要先从中选择具体的算法项目（例如 BMN 或 RTD-Net），然后进入该项目目录进行安装。以下为基于主流 PyTorch 模型的通用安装流程：

第一步：克隆目标项目代码

在 README 中找到你感兴趣的模型（例如 2019 年的 BMN 或 2021 年的 RTD-Net），点击其对应的 [code] 链接进入官方仓库。

假设我们选择一个典型的 PyTorch 项目：

git clone https://github.com/JJBOY/BMN-Boundary-Matching-Network.git
cd BMN-Boundary-Matching-Network

第二步：创建虚拟环境并安装依赖

# 创建虚拟环境
conda create -n tad_env python=3.8
conda activate tad_env

# 安装 PyTorch (根据CUDA版本选择，此处以CUDA 11.1为例，国内用户可使用清华源)
pip install torch==1.9.0+cu111 torchvision==0.10.0+cu111 -f https://download.pytorch.org/whl/torch_stable.html

# 安装其他依赖 (通常项目根目录有 requirements.txt)
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

# 若没有 requirements.txt，手动安装常用包
pip install opencv-python numpy pandas scipy tensorboardX -i https://pypi.tuna.tsinghua.edu.cn/simple

第三步：准备数据集

时序动作检测通常使用 ActivityNet-1.3 或 THUMOS14 数据集。

下载视频文件和标注文件（JSON格式）。
按照项目说明提取视频特征（如 TSN 特征）或直接使用原始视频（取决于模型架构）。
修改配置文件中的数据路径。

3. 基本使用

以下以典型的训练和评估流程为例（具体命令参数需参考所选项目的 README）：

场景 A：训练模型 (Training)

使用预提取的特征或原始视频开始训练。

# 示例：启动训练脚本，指定配置文件
python main.py --config config/bmn_activitynet.yaml --mode train

场景 B：评估模型 (Evaluation)

加载预训练权重并在测试集上生成检测结果。

# 示例：运行评估脚本
python main.py --config config/bmn_activitynet.yaml --mode eval --checkpoint checkpoints/bmn_best.pth

场景 C：获取预训练模型

本列表在 "about pretrained model" 章节提供了多个强大的预训练编码器，可用于提升下游任务性能：

BSP: Boundary-sensitive Pre-training (ICCV 2021)
TSP: Temporally-Sensitive Pretraining (ICCVW 2021)
UP-TAL: Unsupervised Pre-training (CVPR 2022) - 代码链接

下载相应权重后，将其放入项目的 checkpoints 目录，并在配置文件中指定路径即可微调使用。

提示：由于该列表涵盖了从 2016 年到 2026 年（预测/最新）的众多论文，不同年份的模型架构差异较大（如从 CNN 到 Transformer 再到 Mamba）。请务必进入具体论文的 GitHub 页面查看其特有的依赖和运行指令。

常见问题

该项目是否有计划跟进视频时空动作检测（spatio-temporal action detection）领域？

如何请求更新列表中特定论文（如 MUSES 和 TadTR）的详细信息？

如果发现新的动作检测相关论文被顶级会议（如 ECCV）录用，该如何提交？

相似工具推荐

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|6天前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|昨天

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|3天前

语言模型数据工具其他

cs-video-courses

cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。

★ 79.8k|★☆☆☆☆|3天前

其他图像数据工具

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|1周前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 75.4k|★★★☆☆|今天

语言模型图像开发框架