benchmark_results

4k 1k 困难 1 次阅读 2周前开发框架其他

AI 解读由 AI 自动生成，仅供参考

benchmark_results 是一个专注于视觉目标跟踪领域的学术论文清单库，旨在为研究人员和开发者提供一份系统化的前沿技术导航。在计算机视觉中，让算法在视频序列中持续、精准地锁定移动物体是一项极具挑战的任务，涉及复杂的场景理解与实时计算。该资源通过梳理来自 CVPR、ICCV、AAAI 等顶级会议的最新成果，有效解决了从业者难以快速追踪领域动态、对比不同算法优劣的痛点。

这份清单不仅收录了如 DiMP、PrDiMP、Siam R-CNN 等经典模型，还特别标注了部分论文的口头报告（Oral）身份及官方代码链接，方便用户直接复现或深入研读。其独特的亮点在于按年份和会议分类整理，并附带了针对无人机跟踪、元学习应用等特定场景的推荐论文，极大地提升了文献检索效率。无论是希望跟进最新算法的科研人员，还是正在寻找高性能跟踪方案进行二次开发的工程师，都能从中获得宝贵的参考依据，是进入视觉跟踪领域不可或缺的入门指南。

使用场景

某无人机巡检团队正在开发一套自动跟踪电力线路中绝缘子破损目标的视觉系统，需要从海量最新论文中筛选出最适合嵌入式部署的高精度跟踪算法。

没有 benchmark_results 时

研究人员需在 Google Scholar、arXiv 和各大会议官网间反复跳转，手动搜集分散的视觉跟踪论文，耗时数天仍难保全。
面对 Siam R-CNN、PrDiMP、D3S 等众多模型，缺乏统一的性能对比视图，难以判断哪款算法在遮挡或快速运动场景下表现更优。
许多论文未直接提供代码链接或开源状态不明，团队常花费大量时间验证后发现无法复现，严重拖慢原型开发进度。
无法快速识别如 CVPR 2020 Oral 等高质量推荐成果，容易错过像 MAML 或 DiMP 这类经过顶会背书的关键技术。

使用 benchmark_results 后

团队通过一份清单即可概览从 ICCV 2019 到 CVPR 2020 的主流跟踪算法，瞬间掌握领域发展脉络，调研效率提升十倍。
借助清晰的分类与推荐标记，迅速锁定适合无人机场景的 AutoTrack 和兼顾精度的 PrDiMP，直接针对特定痛点进行选型。
每项条目均附带官方论文与代码仓库链接，开发人员可一键获取资源，当天即完成 SiamBAN 的本地部署与测试。
利用"Recommendations"星标指引，优先复现高潜力模型，避免了在低效算法上的无效投入，显著缩短研发周期。

benchmark_results 将碎片化的学术成果转化为结构化的决策资产，让算法选型从“大海捞针”变为“按图索骥”。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该 README 仅为视觉跟踪（Visual Tracking）领域的论文列表汇总，列出了多篇学术会议（如 CVPR, ICCV, AAAI 等）的论文标题、作者及链接。它本身不是一个可执行的软件工具或代码库，因此不包含任何运行环境需求、依赖库或安装说明。如需运行列表中提到的具体算法（如 SiamRPN++, DiMP, PrDiMP 等），请访问各条目提供的独立代码仓库链接查看其具体的环境配置。

python未说明

快速开始

视觉跟踪论文列表

recent_develop

论文

:star2: 推荐 :star2:

Goutam Bhat, Martin Danelljan, Luc Van Gool, Radu Timofte.
“了解周围环境：利用场景信息进行目标跟踪。” Arxiv (2020)。 [论文]

CVPR2020

MAML: Guangting Wang, Chong Luo, Xiaoyan Sun, Zhiwei Xiong, Wenjun Zeng.
“基于实例检测的跟踪：一种元学习方法。” CVPR (2020 口头报告)。 [论文]
Siam R-CNN: Paul Voigtlaender, Jonathon Luiten, Philip H.S. Torr, Bastian Leibe.
“Siam R-CNN：通过重新检测实现视觉跟踪。” CVPR (2020)。 [论文] [代码]
D3S: Alan Lukežič, Jiří Matas, Matej Kristan.
“D3S——一种判别式单次分割跟踪器。” CVPR (2020)。 [论文] [代码]
PrDiMP: Martin Danelljan, Luc Van Gool, Radu Timofte.
“用于视觉跟踪的概率回归。” CVPR (2020)。 [论文] [代码]
ROAM: Tianyu Yang, Pengfei Xu, Runbo Hu, Hua Chai, Antoni B. Chan.
“ROAM：递归优化跟踪模型。” CVPR (2020)。 [论文]
AutoTrack: Yiming Li, Changhong Fu, Fangqiang Ding, Ziyuan Huang, Geng Lu.
“AutoTrack：面向无人机的高性能视觉跟踪，采用自动时空正则化。” CVPR (2020)。 [论文] [代码]
SiamBAN: Zedu Chen, Bineng Zhong, Guorong Li, Shengping Zhang, Rongrong Ji.
“用于视觉跟踪的暹罗框自适应网络。” CVPR (2020)。 [论文] [代码]
SiamAttn: Yuechen Yu, Yilei Xiong, Weilin Huang, Matthew R. Scott.
“用于视觉目标跟踪的可变形暹罗注意力网络。” CVPR (2020)。 [论文]
CGACD: Fei Du, Peng Liu, Wei Zhao, Xianglong Tang.
“基于角点检测的关联引导注意力视觉跟踪。” CVPR (2020)。

AAAI 2020

SiamFC++: Yinda Xu, Zeyu Wang, Zuoxin Li, Ye Yuan, Gang Yu.
“SiamFC++：基于目标估计指导的鲁棒且精确的视觉跟踪。” AAAI (2020)。 [论文] [代码]

ICCV2019

DiMP: Goutam Bhat, Martin Danelljan, Luc Van Gool, Radu Timofte.
“用于跟踪的判别模型预测学习。” ICCV (2019 口头报告)。 [论文] [代码]
GradNet: Peixia Li, Boyu Chen, Wanli Ouyang, Dong Wang, Xiaoyun Yang, Huchuan Lu.
“GradNet：用于视觉目标跟踪的梯度引导网络。” ICCV (2019 口头报告)。 [论文] [代码]
MLT: Janghoon Choi, Junseok Kwon, Kyoung Mu Lee.
“用于实时目标感知视觉跟踪的深度元学习。” ICCV (2019)。 [论文]
SPLT: Bin Yan, Haojie Zhao, Dong Wang, Huchuan Lu, Xiaoyun Yang
“‘略读—细看’跟踪：一种用于实时且鲁棒的长期跟踪的框架。” ICCV (2019)。 [论文] [代码]
ARCF: Ziyuan Huang, Changhong Fu, Yiming Li, Fuling Lin, Peng Lu.
“用于实时无人机跟踪的异常抑制相关滤波器学习。” ICCV (2019)。 [论文] [代码]
Lianghua Huang, Xin Zhao, Kaiqi Huang.
“弥合检测与跟踪之间的鸿沟：一种统一的方法。” ICCV (2019)。 [论文]
UpdateNet: Lichao Zhang, Abel Gonzalez-Garcia, Joost van de Weijer, Martin Danelljan, Fahad Shahbaz Khan.
“暹罗跟踪器的模型更新学习。” ICCV (2019)。 [论文] [代码]
PAT: Rey Reza Wiyatno, Anqi Xu.
“能够欺骗视觉目标跟踪的物理对抗纹理。” ICCV (2019)。 [论文]
GFS-DCF: Tianyang Xu, Zhen-Hua Feng, Xiao-Jun Wu, Josef Kittler.
“联合组特征选择与判别滤波器学习，用于鲁棒的视觉目标跟踪。” ICCV (2019)。 [论文] [代码]
CDTB: Alan Lukežič, Ugur Kart, Jani Käpylä, Ahmed Durmush, Joni-Kristian Kämäräinen, Jiří Matas, Matej Kristan.

“CDTB：一个颜色与深度的视觉目标跟踪数据集及基准测试。” ICCV (2019)。 [论文]
VOT2019: Kristan, Matej, 等。
“第七届视觉目标跟踪VOT2019挑战赛结果。” ICCV研讨会 (2019)。 [论文]

CVPR2019

SiamMask: 王强、张立、卢卡·贝尔蒂内托、胡伟明、菲利普·H·S·托尔。
“快速在线目标跟踪与分割：一种统一的方法。” CVPR（2019）。 [论文] [项目] [代码]
SiamRPN++: 李博、吴伟、王强、张方毅、邢俊亮、闫军杰。
“SiamRPN++：基于超深度网络的孪生视觉跟踪进化。” CVPR（2019 口头报告）。 [论文] [项目]
ATOM: 马丁·丹内尔扬、古塔姆·巴特、法哈德·沙赫巴兹·汗、迈克尔·费尔斯贝格。
“ATOM：通过最大化重叠实现精确跟踪。” CVPR（2019 口头报告）。 [论文] [代码]
SiamDW: 张志鹏、彭厚文。
“用于实时视觉跟踪的更深更宽的孪生网络。” CVPR（2019 口头报告）。 [论文] [代码]
GCT: 高俊宇、张天柱、徐长胜。
“图卷积跟踪。” CVPR（2019 口头报告）。 [论文] [代码]
ASRCF: 戴可楠、王栋、陆虎川、孙冲、李建华。
“基于自适应空间正则化相关滤波器的视觉跟踪。” CVPR（2019 口头报告）。 [论文] [代码]
UDT: 王宁、宋义兵、马超、周文刚、刘伟、李厚强。
“无监督深度跟踪。” CVPR（2019）。 [论文] [代码]
TADT: 李欣、马超、吴宝元、何振宇、杨明轩。
“目标感知深度跟踪。” CVPR（2019）。 [论文] [项目] [代码]
C-RPN: 范恒、凌海斌。
“用于实时视觉跟踪的孪生级联区域建议网络。” CVPR（2019）。 [论文]
SPM: 王广亭、罗冲、熊志伟、曾文俊。
“SPM-Tracker：用于实时视觉目标跟踪的串并联匹配。” CVPR（2019）。 [论文]
OTR: 乌古尔·卡尔特、艾伦·卢凯齐奇、马泰伊·克里斯坦、乔尼-克里斯蒂安·卡马拉伊宁、季里·马塔斯。
“基于视点特定判别相关滤波器的重建式目标跟踪。” CVPR（2019）。 [论文] [代码]
RPCF: 孙宇轩、孙冲、王栋、陆虎川、何友。
“用于视觉跟踪的ROI池化相关滤波器。” CVPR（2019）。 [论文]
LaSOT: 范恒、林丽婷、杨帆、楚鹏、邓戈、于思嘉、白和欣、徐勇、廖春元、凌海斌。
“LaSOT：大规模单目标跟踪的高质量基准。” CVPR（2019）。 [论文] [项目]

AAAI2019

LDES: 李阳、朱建科、史蒂文·C·H·霍伊、宋文杰、王哲峰、刘汉唐。
“用于视觉目标跟踪的相似变换鲁棒估计。” AAAI（2019）。 [论文] [代码]

NIPS2018

DAT: 普石、宋义兵、马超、张洪刚、杨明轩。
“基于互惠学习的深度注意力跟踪。” NIPS（2018）。 [论文] [项目] [代码]

ECCV2018

UPDT: Goutam Bhat, Joakim Johnander, Martin Danelljan, Fahad Shahbaz Khan, Michael Felsberg。
“揭示深度跟踪的力量”。ECCV（2018）。 [论文]
DaSiamRPN: Zheng Zhu, Qiang Wang, Bo Li, Wu Wei, Junjie Yan, Weiming Hu。
“用于视觉目标跟踪的干扰物感知孪生网络”。ECCV（2018）。 [论文] [GitHub]
SACF: Mengdan Zhang, Qiang Wang, Junliang Xing, Jin Gao, Peixi Peng, Weiming Hu, Steve Maybank。
“基于空间对齐相关滤波器网络的视觉跟踪”。ECCV（2018）。 [论文]
RTINet: Yingjie Yao, Xiaohe Wu, Lei Zhang, Shiguang Shan, Wangmeng Zuo。
“基于相关滤波器跟踪的联合表示与截断推理学习”。ECCV（2018）。 [论文]
Meta-Tracker: Eunbyung Park, Alexander C. Berg。
“Meta-Tracker：快速且鲁棒的视觉目标跟踪器在线自适应”。 [论文] [GitHub]
DSLT: Xiankai Lu, Chao Ma*, Bingbing Ni, Xiaokang Yang, Ian Reid, Ming-Hsuan Yang。
“带有收缩损失的深度回归跟踪”。ECCV（2018）。 [论文] [GitHub]
DRL-IS: Liangliang Ren, Xin Yuan, Jiwen Lu, Ming Yang, Jie Zhou。
“用于视觉跟踪的迭代偏移深度强化学习”。ECCV（2018）。 [论文]
RT-MDNet: Ilchae Jung, Jeany Son, Mooyeol Baek, Bohyung Han。
“实时MDNet”。ECCV（2018）。 [论文]
ACT: Boyu Chen, Dong Wang, Peixia Li, Huchuan Lu。
“实时‘演员—评论家’跟踪”。ECCV（2018）。 [论文] [GitHub]
StructSiam: Yunhua Zhang, Lijun Wang, Dong Wang, Mengyang Feng, Huchuan Lu, Jinqing Qi。
“用于实时视觉跟踪的结构化孪生网络”。ECCV（2018）。 [论文]
MemTrack: Tianyu Yang, Antoni B. Chan。
“用于目标跟踪的动态记忆网络学习”。ECCV（2018）。 [论文]
SiamFC-tri: Xingping Dong, Jianbing Shen。
“孪生网络中用于目标跟踪的三元组损失”。ECCV（2018）。 [论文] [GitHub]
OxUvA长期数据集+基准测试: Jack Valmadre, Luca Bertinetto, João F. Henriques, Ran Tao, Andrea Vedaldi, Arnold Smeulders, Philip Torr, Efstratios Gavves。
“野外长期跟踪：一项基准测试”。ECCV（2018）。 [论文] [项目]
TrackingNet: Matthias Müller, Adel Bibi, Silvio Giancola, Salman Al-Subaihi, Bernard Ghanem。
“TrackingNet：一个大规模的野外目标跟踪数据集和基准测试”。ECCV（2018）。 [论文] [项目]

CVPR2018

VITAL: Yibing Song, Chao Ma, Xiaohe Wu, Lijun Gong, Linchao Bao, Wangmeng Zuo, Chunhua Shen, Rynson Lau, and Ming-Hsuan Yang. “VITAL：基于对抗学习的视觉跟踪。” CVPR（2018年 Spotlight）。 [项目] [论文] [GitHub]
LSART: Chong Sun, Dong Wang, Huchuan Lu, Ming-Hsuan Yang。 “用于视觉跟踪的空间感知回归学习。” CVPR（2018年 Spotlight）。 [论文]
SiamRPN: Bo Li, Wei Wu, Zheng Zhu, Junjie Yan。 “基于暹罗区域建议网络的高性能视觉跟踪。” CVPR（2018年 Spotlight）。 [论文]
TRACA: Jongwon Choi, Hyung Jin Chang, Tobias Fischer, Sangdoo Yun, Kyuewang Lee, Jiyeoup Jeong, Yiannis Demiris, Jin Young Choi。 “面向高速视觉跟踪的上下文感知深度特征压缩。” CVPR（2018年）。 [项目] [论文]
RASNet: Qiang Wang, Zhu Teng, Junliang Xing, Jin Gao, Weiming Hu, Stephen Maybank。 “学习注意力：用于高性能在线视觉跟踪的残差注意力暹罗网络。” CVPR 2018。 [论文]
SA-Siam: Anfeng He, Chong Luo, Xinmei Tian, Wenjun Zeng。 “一种用于实时目标跟踪的双重暹罗网络。” CVPR（2018年）。 [论文]
STRCF: Feng Li, Cheng Tian, Wangmeng Zuo, Lei Zhang, Ming-Hsuan Yang。 “用于视觉跟踪的时空正则化相关滤波器学习。” CVPR（2018年）。 [论文] [GitHub]
FlowTrack: Zheng Zhu, Wei Wu, Wei Zou, Junjie Yan。 “具有时空注意力的端到端流相关跟踪。” CVPR（2018年）。 [论文]
DEDT: Kourosh Meshgi, Shigeyuki Oba, Shin Ishii。 “用于判别式协同跟踪的高效多样集成。” CVPR（2018年）。 [论文]
SINT++: Xiao Wang, Chenglong Li, Bin Luo, Jin Tang。 “SINT++：通过对抗性正样本生成实现鲁棒视觉跟踪。” CVPR（2018年）。 [论文]
DRT: Chong Sun, Dong Wang, Huchuan Lu, Ming-Hsuan Yang。 “基于联合判别与可靠性学习的相关跟踪。” CVPR（2018年）。 [论文]
MCCT: Ning Wang, Wengang Zhou, Qi Tian, Richang Hong, Meng Wang, Houqiang Li。 “用于鲁棒视觉跟踪的多线索相关滤波器。” CVPR（2018年）。 [论文] [GitHub]
MKCF: Ming Tang, Bin Yu, Fan Zhang, Jinqiao Wang。 “基于多核相关滤波器的高速跟踪。” CVPR（2018年）。 [论文]
HP: Xingping Dong, Jianbing Shen, Wenguan Wang, Yu, Liu, Ling Shao, and Fatih Porikli。 “利用连续深度Q学习进行跟踪的超参数优化。” CVPR（2018年）。 [论文]

NIPS2017

HART: Adam R. Kosiorek, Alex Bewley, Ingmar Posner。 “层次化注意力循环跟踪。” NIPS（2017年）。 [论文] [GitHub]

ICCV2017

CREST: Yibing Song, Chao Ma, Lijun Gong, Jiawei Zhang, Rynson Lau, Ming-Hsuan Yang。
“CREST：用于视觉跟踪的卷积残差学习”。ICCV（2017年 Spotlight）。
[论文]
[项目]
[GitHub]
EAST: Chen Huang, Simon Lucey, Deva Ramanan。
“利用深度特征级联学习自适应跟踪策略”。ICCV（2017年 Spotlight）。
[论文]
[补充材料]
PTAV: Heng Fan 和 Haibin Ling。
“并行跟踪与验证：一种实时高精度视觉跟踪框架”。ICCV（2017年）。
[论文]
[补充材料]
[项目]
[代码]
BACF: Hamed Kiani Galoogahi, Ashton Fagg, Simon Lucey。
“用于视觉跟踪的背景感知相关滤波器学习”。ICCV（2017年）。
[论文]
[补充材料]
[代码]
[项目]
TSN: Zhu Teng, Junliang Xing, Qiang Wang, Congyan Lang, Songhe Feng 和 Yi Jin。
“基于时空深度网络的鲁棒目标跟踪”。ICCV（2017年）。
[论文]
p-tracker: James Supančič, III；Deva Ramanan。
“将跟踪视为在线决策：通过强化学习从流式视频中学习策略”。ICCV（2017年）。
[论文]
[补充材料]
DSiam: Qing Guo；Wei Feng；Ce Zhou；Rui Huang；Liang Wan；Song Wang。
“用于视觉目标跟踪的动态暹罗网络学习”。ICCV（2017年）。
[论文]
[GitHub]
SP-KCF: Xin Sun；Ngai-Man Cheung；Hongxun Yao；Yiluan Guo。
“基于形状保持KCF和水平集的可变形补丁实现非刚性目标跟踪”。ICCV（2017年）。
[论文]
UCT: Zheng Zhu, Guan Huang, Wei Zou, Dalong Du, Chang Huang。
“UCT：用于实时视觉跟踪的统一卷积网络学习”。ICCV研讨会（2017年）。
[论文]
Tobias Bottger, Patrick Follmann。
“使用像素级分割评估跟踪器性能的优势”。ICCV研讨会（2017年）。
[论文]
CFWCR: Zhiqun He, Yingruo Fan, Junfei Zhuang, Yuan Dong, HongLiang Bai。
“具有加权卷积响应的相关滤波器”。ICCV研讨会（2017年）。
[论文]
[GitHub]
IBCCF: Feng Li, Yingjie Yao, Peihua Li, David Zhang, Wangmeng Zuo, Ming-Hsuan Yang。
“结合边界与中心相关滤波器以应对宽高比变化的视觉跟踪”。ICCV研讨会（2017年）。
[论文]
[GitHub]
RFL: Tianyu Yang, Antoni B. Chan。
“用于视觉跟踪的循环滤波器学习”。ICCV研讨会（2017年）。
[论文]

CVPR2017

ECO: Martin Danelljan, Goutam Bhat, Fahad Shahbaz Khan, Michael Felsberg。
“ECO：用于目标跟踪的高效卷积算子”。CVPR（2017）。
[论文]
[补充材料]
[项目主页]
[GitHub]
CFNet: Jack Valmadre, Luca Bertinetto, João F. Henriques, Andrea Vedaldi, Philip H. S. Torr。
“基于相关滤波器跟踪的端到端表示学习”。CVPR（2017）。
[论文]
[补充材料]
[项目主页]
[GitHub]
CACF: Matthias Mueller, Neil Smith, Bernard Ghanem。
“上下文感知的相关滤波器跟踪”。CVPR（2017，口头报告）。
[论文]
[补充材料]
[项目主页]
[代码]
RaF: Le Zhang, Jagannadan Varadarajan, Ponnuthurai Nagaratnam Suganthan, Narendra Ahuja 和 Pierre Moulin。
“使用斜向随机森林的鲁棒视觉跟踪”。CVPR（2017）。
[论文]
[补充材料]
[项目主页]
[代码]
MCPF: Tianzhu Zhang, Changsheng Xu, Ming-Hsuan Yang。
“用于鲁棒目标跟踪的多任务相关粒子滤波器”。CVPR（2017）。
[论文]
[项目主页]
[代码]
ACFN: Jongwon Choi, Hyung Jin Chang, Sangdoo Yun, Tobias Fischer, Yiannis Demiris 和 Jin Young Choi。
“用于自适应视觉跟踪的注意力相关滤波网络”。CVPR（2017）。
[论文]
[补充材料]
[项目主页]
[测试代码]
[训练代码]
LMCF: Mengmeng Wang, Yong Liu, Zeyi Huang。
“基于循环特征图的大间隔目标跟踪”。CVPR（2017）。
[论文]
[知乎]
ADNet: Sangdoo Yun, Jongwon Choi, Youngjoon Yoo, Kimin Yun, Jin Young Choi。
“基于深度强化学习的视觉跟踪动作决策网络”。CVPR（2017，亮点论文）。
[论文]
[补充材料]
[项目主页]
CSR-DCF: Alan Lukežič, Tomáš Vojíř, Luka Čehovin, Jiří Matas, Matej Kristan。
“具有通道和空间可靠性的判别相关滤波器”。CVPR（2017）。
[论文]
[补充材料]
[代码]
BranchOut: Bohyung Han, Jack Sim, Hartwig Adam。
“BranchOut：基于卷积神经网络的在线集成跟踪正则化方法”。CVPR（2017）。
[论文]
AMCT: Donghun Yeo, Jeany Son, Bohyung Han, Joonhee Han。
“基于马尔可夫链的超像素分割跟踪”。CVPR（2017）。
[论文]
SANet: Heng Fan, Haibin Ling。
“SANet：面向视觉跟踪的结构感知网络”。CVPRW（2017）。
[论文]
[项目主页]
[代码]

ECCV2016

SiameseFC: Luca Bertinetto、Jack Valmadre、João F. Henriques、Andrea Vedaldi、Philip H.S. Torr。
“用于目标跟踪的全卷积孪生网络”。ECCV研讨会（2016）。
[论文]
[项目]
[GitHub]
GOTURN: David Held、Sebastian Thrun、Silvio Savarese。
“使用深度回归网络以100 FPS学习跟踪”。ECCV（2016）。
[论文]
[项目]
[GitHub]
C-COT: Martin Danelljan、Andreas Robinson、Fahad Khan、Michael Felsberg。
“超越相关滤波器：学习用于视觉跟踪的连续卷积算子”。ECCV（2016）。
[论文]
[项目]
[GitHub]
CF+AT: Adel Bibi、Matthias Mueller、Bernard Ghanem。
“用于相关滤波器跟踪的目标响应自适应”。ECCV（2016）。
[论文]
[项目]
[GitHub]
Yao Sui、Ziming Zhang、Guanghui Wang、Yafei Tang、Li Zhang。
“实时视觉跟踪：提升相关滤波器学习的鲁棒性”。ECCV（2016）。
[论文]
Yao Sui、Guanghui Wang、Yafei Tang、Li Zhang。
“跟踪完成”。ECCV（2016）。
[论文]

CVPR2016

MDNet: Nam, Hyeonseob、Bohyung Han。
“学习用于视觉跟踪的多领域卷积神经网络”。CVPR（2016）。
[论文]
[VOT演示文稿]
[项目]
[GitHub]
SINT: Ran Tao、Efstratios Gavves、Arnold W.M. Smeulders。
“用于跟踪的孪生实例搜索”。CVPR（2016）。
[论文]
[项目]
SCT: Jongwon Choi、Hyung Jin Chang、Jiyeoup Jeong、Yiannis Demiris、Jin Young Choi。
“利用注意力调制的分解与整合进行视觉跟踪”。CVPR（2016）。
[论文]
[项目]
STCT: Lijun Wang、Wanli Ouyang、Xiaogang Wang、Huchuan Lu。
“STCT：用于视觉跟踪的序列式训练卷积网络”。CVPR（2016）。
[论文]
[GitHub]
SRDCFdecon: Martin Danelljan、Gustav Häger、Fahad Khan、Michael Felsberg。
“训练集的自适应去污：判别式视觉跟踪的统一公式”。CVPR（2016）。
[论文]
[项目]
HDT: Yuankai Qi、Shengping Zhang、Lei Qin、Hongxun Yao、Qingming Huang、Jongwoo Lim、Ming-Hsuan Yang。
“有保障的深度跟踪”。CVPR（2016）。
[论文]
[项目]
Staple: Luca Bertinetto、Jack Valmadre、Stuart Golodetz、Ondrej Miksik、Philip H.S. Torr。
“Staple：用于实时跟踪的互补学习器”。CVPR（2016）。
[论文]
[项目]
[GitHub]
EBT: Gao Zhu、Fatih Porikli、Hongdong Li。
“超越局部搜索：通过实例特定提案在任何地方跟踪目标”。CVPR（2016）。
[论文]
[可执行文件]
DLSSVM: Jifeng Ning、Jimei Yang、Shaojie Jiang、Lei Zhang、Ming-Hsuan Yang。
“基于双线性结构化SVM和显式特征映射的目标跟踪”。CVPR（2016）。
[论文]
[代码]
[项目]

NIPS2016

Learnet: Luca Bertinetto、João F. Henriques、Jack Valmadre、Philip H. S. Torr、Andrea Vedaldi。
“学习前馈式一次性学习器”。NIPS（2016）。
[论文]

ICCV2015

FCNT: 王利军、欧阳婉丽、王小刚和陆虎川。
“基于全卷积网络的视觉跟踪”。ICCV（2015）。
[论文]
[项目]
[GitHub]
SRDCF: 马丁·丹内尔扬、古斯塔夫·黑格、法哈德·汗、迈克尔·费尔斯贝格。
“学习空间正则化的相关滤波器用于视觉跟踪”。ICCV（2015）。
[论文]
[项目]
CF2: 马超、黄家彬、杨晓康和杨明轩。
“用于视觉跟踪的层次化卷积特征”。ICCV（2015）
[论文]
[项目]
[GitHub]
王乃延、施健平、叶迪彦和贾佳亚。
“理解和诊断视觉跟踪系统”。ICCV（2015）。
[论文]
[项目]
[代码]
DeepSRDCF: 马丁·丹内尔扬、古斯塔夫·黑格、法哈德·汗、迈克尔·费尔斯贝格。
“基于相关滤波器的视觉跟踪中的卷积特征”。ICCV研讨会（2015）。
[论文]
[项目]
RAJSSC: 张孟丹、邢俊亮、高进、石新初、王强和胡伟明。
“具有自适应旋转估计的联合尺度-空间相关跟踪”。ICCV研讨会（2015）。
[论文]
[海报]

CVPR2015

MUSTer: 洪志斌、陈哲、王超辉、梅雪、达尼尔·普罗霍罗夫和陶大成。
“多存储跟踪器（MUSTer）：受认知心理学启发的目标跟踪方法”。CVPR（2015）。
[论文]
[项目]
LCT: 马超、杨晓康、张崇阳和杨明轩。
“长期相关跟踪”。CVPR（2015）。
[论文]
[项目]
[GitHub]
DAT: 霍斯特·波塞格尔、托马斯·毛特纳和霍斯特·比绍夫。
“为基于颜色的无模型跟踪辩护”。CVPR（2015）。
[论文]
[项目]
[代码]
RPT: 李洋、朱建科和史蒂文·C.H. 霍伊。
“可靠补丁跟踪器：通过利用可靠补丁实现鲁棒的视觉跟踪”。CVPR（2015）。
[论文]
[GitHub]

ICML2015

CNN-SVM: 洪承勋、刘宅根、郭秀河和韩宝亨。
“通过卷积神经网络学习判别性显著图进行在线跟踪”。ICML（2015）
[论文]
[项目]

BMVC2014

DSST: 马丁·丹内尔扬、古斯塔夫·黑格、法哈德·沙赫巴兹·汗和迈克尔·费尔斯贝格。
“用于鲁棒视觉跟踪的精确尺度估计”。BMVC（2014）。
[论文]
[PAMI]
[项目]

ECCV2014

MEEM: 张建明、马树高和斯坦·斯克拉罗夫。
“MEEM：基于熵最小化的多专家鲁棒跟踪”。ECCV（2014）。
[论文]
[项目]
TGPR: 高进、凌海宾、胡伟明和邢俊亮。
“基于高斯过程回归的迁移学习视觉跟踪”。ECCV（2014）。
[论文]
[项目]
STC: 张凯华、张磊、杨明轩和张大卫。
“通过时空上下文学习实现快速跟踪”。ECCV（2014）。
[论文]
[项目]
SAMF: 李洋和朱建科。
“一种融合特征的尺度自适应核相关滤波器跟踪器”。ECCV研讨会（2014）。
[论文]
[GitHub]

NIPS2013

DLT: 王乃延和叶迪彦。
“学习用于视觉跟踪的深度紧凑图像表示”。NIPS（2013）。
[论文]
[项目]
[代码]

PAMI & IJCV & TIP

AOGTracker: Wu Tianfu、Lu Yang 和 Zhu Song-Chun。 “基于与或图的在线目标跟踪、学习与解析。” TPAMI（2017年）。 [论文] [项目] [GitHub]
MCPF: Zhang Tianzhu、Xu Changsheng、Yang Ming-Hsuan。 “用于视觉跟踪的多任务相关性粒子滤波器学习。” TPAMI（2017年）。 [[论文]] [项目] [代码]
RSST: Zhang Tianzhu、Xu Changsheng、Yang Ming-Hsuan。 “鲁棒结构化稀疏跟踪。” TPAMI（2017年）。 [[论文]] [项目] [代码]
fDSST: Danelljan Martin、Häger Gustav、Khan Fahad、Felsberg Michael。 “判别式尺度空间跟踪。” TPAMI（2017年）。 [论文] [项目] [代码]
KCF: Henriques João F.、Caseiro Rui、Martins Pedro、Batista Jorge。 “基于核相关滤波器的高速跟踪。” TPAMI（2015年）。 [论文] [项目]
CLRST: Zhang Tianzhu、Liu Si、Ahuja Narendra、Yang Ming-Hsuan、Ghanem Bernard。
“通过一致低秩稀疏学习实现的鲁棒视觉跟踪。” IJCV（2015年）。 [论文] [项目] [代码]
DNT: Chi Zhizhen、Li Hongyang、Lu Huchuan、Yang Ming-Hsuan。 “用于视觉跟踪的双深度网络。” TIP（2017年）。 [论文]
DRT: Gao Junyu、Zhang Tianzhu、Yang Xiaoshan、Xu Changsheng。 “深度相对跟踪。” TIP（2017年）。 [论文]
BIT: Cai Bolun、Xu Xiangmin、Xing Xiaofen、Jia Kui、Miao Jie、Tao Dacheng。 “BIT：生物启发式跟踪器。” TIP（2016年）。 [论文] [项目] [GitHub]
CNT: Zhang Kaihua、Liu Qingshan、Wu Yi、Yang Minghsuan。 “无需训练的卷积网络鲁棒视觉跟踪。” TIP（2016年）。 [论文] [代码]

ArXiv

MLT: Janghoon Choi、Junseok Kwon、Kyoung Mu Lee。 “基于目标特定特征空间的实时视觉跟踪深度元学习”。arXiv（2017年）。 [论文]
STECF: Yang Li、Jianke Zhu、Wenjie Song、Zhefeng Wang、Hantang Liu、Steven C. H. Hoi。 “利用相关滤波器进行视觉目标跟踪的相似变换鲁棒估计”。arXiv（2017年）。 [论文]
PAWSS: Xiaofei Du、Alessio Dore、Danail Stoyanov。 “基于分割与尺度的补丁自适应加权视觉跟踪方法（PAWSS）”。arXiv（2017年）。 [论文]
SFT: Zhen Cui、You yi Cai、Wen ming Zheng、Jian Yang。 “谱滤波跟踪”。arXiv（2017年）。 [论文]
Re3: Daniel Gordon、Ali Farhadi、Dieter Fox。 “Re3：用于目标跟踪的实时递归回归网络”。arXiv（2017年）。 [论文]
DCFNet: Qiang Wang、Jin Gao、Junliang Xing、Mengdan Zhang、Weiming Hu。 “DCFNet：用于视觉跟踪的判别相关滤波网络”。arXiv（2017年）。 [论文] [代码]
TCNN: Hyeonseob Nam、Mooyeol Baek、Bohyung Han。 “在树状结构中建模并传播卷积神经网络用于视觉跟踪”。arXiv（2016年）。 [论文] [代码]
RDT: Janghoon Choi、Junseok Kwon、Kyoung Mu Lee。 “基于强化决策的视觉跟踪”。arXiv（2017年）。 [论文]
MSDAT: Xinyu Wang、Hanxi Li、Yi Li、Fumin Shen、Fatih Porikli。 “通过多尺度领域适应实现鲁棒且实时的深度跟踪”。arXiv（2017年）。 [论文]
RLT: Da Zhang、Hamid Maei、Xin Wang、Yuan-Fang Wang。 “用于视频中视觉目标跟踪的深度强化学习”。arXiv（2017年）。 [论文]
SCF: Wangmeng Zuo、Xiaohe Wu、Liang Lin、Lei Zhang、Ming-Hsuan Yang。 “用于视觉跟踪的支持相关滤波器学习”。arXiv（2016年）。 [论文] [项目]
CRT: Kai Chen、Wenbing Tao。 “用于视觉跟踪的卷积回归”。arXiv（2016年）。 [论文]
BMR: Kaihua Zhang、Qingshan Liu、Ming-Hsuan Yang。 “基于布尔映射表示的视觉跟踪”。arXiv（2016年）。 [论文]
YCNN: Kai Chen、Wenbing Tao。 “一次到位：一种用于视觉跟踪的双流卷积神经网络”。arXiv（2016年）。 [论文]
ROLO: Guanghan Ning、Zhi Zhang、Chen Huang、Zhihai He、Xiaobo Ren、Haohong Wang。 “用于视觉目标跟踪的空间监督递归卷积神经网络”。arXiv（2016年）。 [论文] [项目] [GitHub]
RATM: Samira Ebrahimi Kahou、Vincent Michalski、Roland Memisevic。 “RATM：递归注意力跟踪模型”。arXiv（2015年）。 [论文] [GitHub]
SO-DLT: Naiyan Wang、Siyi Li、Abhinav Gupta、Dit-Yan Yeung。 “迁移丰富的特征层次结构以实现鲁棒的视觉跟踪”。arXiv（2015年）。 [论文] [代码]
DMSRDCF: Susanna Gladh、Martin Danelljan、Fahad Shahbaz Khan、Michael Felsberg。 “用于视觉跟踪的深度运动特征”。ICPR 最佳论文（2016年）。 [论文]

基准数据集

LaSOT: 范恒、林丽婷、杨帆、楚鹏、邓戈、于思佳、白鹤欣、徐勇、廖春元、凌海斌。
“基于目标特定特征空间的实时视觉跟踪深度元学习”。arXiv（2018年）。
[论文]
[项目]
OxUvA 长期数据集+基准测试: 杰克·瓦尔马德雷、卢卡·贝尔蒂内托、若昂·F·恩里克斯、陶然、安德烈亚·韦达尔迪、阿诺德·斯梅尔德斯、菲利普·托尔、埃夫斯特拉提奥斯·加维斯。
“野外长期跟踪：一个基准测试”。ECCV（2018年）。
[论文]
[项目]
TrackingNet: 马蒂亚斯·穆勒、阿德尔·比比、西尔维奥·詹科拉、萨尔曼·阿尔-苏拜希、伯纳德·加内姆。
“TrackingNet：一个大规模的野外目标跟踪数据集及基准测试”。ECCV（2018年）。
[项目]
[论文]
UAVDT: 杜大伟、齐元凯、于洪洋、杨一芳、段凯文、李国荣、张卫刚、魏海；黄庆明、田琦。
“无人机基准测试：目标检测与跟踪”。ECCV（2018年）。
[论文]
Dataset-AMP: 卢卡·切霍文·扎伊茨；阿兰·卢克日奇；阿莱什·莱昂纳迪斯；马泰伊·克里斯坦。
“超越标准基准：视觉目标跟踪中的性能评估参数化”。ICCV（2017年）。
[论文]
Dataset-Nfs: 哈迈德·基亚尼·加卢加希、阿什顿·法格、陈黄、德瓦·拉马南和西蒙·卢西。
“速度需求：用于更高帧率目标跟踪的基准测试”。ICCV（2017年）。
[论文]
[补充材料]
[项目]
Dataset-DTB70: 李思毅、叶定言。
“无人机视觉目标跟踪：基准测试与新型运动模型”。AAAI（2017年）。
[论文]
[项目]
[数据集]
Dataset-UAV123: 马蒂亚斯·穆勒、尼尔·史密斯和伯纳德·加内姆。
“无人机跟踪的基准测试与模拟器”。ECCV（2016年）。
[论文]
[项目]
[数据集]
Dataset-TColor-128: 梁鹏鹏、埃里克·布拉施、凌海斌。
“为视觉跟踪编码颜色信息：算法与基准测试”。TIP（2015年）。
[论文]
[项目]
[数据集]
Dataset-NUS-PRO: 李安娜、林敏、吴毅、杨明轩和颜水成。
“NUS-PRO：一个新的视觉跟踪挑战”。PAMI（2015年）。
[论文]
[项目]
[360度数据(密码：bf28)]
[百度云数据]
[360度视图(密码：515a)]
[百度云视图]
Dataset-PTB: 宋舒然和肖建雄。
“利用RGBD相机重访跟踪：统一基准与基线”。ICCV（2013年）。
[论文]
[项目]
[5个验证集]
[95个评估集]
Dataset-ALOV300+: 阿诺德·W·M·斯梅尔德斯、钟武中、丽塔·库奇阿拉、西蒙娜·卡尔德拉拉、阿夫辛·德赫甘、穆巴拉克·沙赫。
“视觉跟踪：一项实验性综述”。PAMI（2014年）。
[论文]
[项目]
镜像链接：ALOV300++ 数据集
 镜像链接：ALOV300++ 真值标注
OTB2013: 吴毅、林宗佑和杨明轩。
“在线目标跟踪：一个基准测试”。CVPR（2013年）。
[论文]
OTB2015: 吴毅、林宗佑和杨明轩。
“目标跟踪基准测试”。TPAMI（2015年）。
[论文]
[项目]
Dataset-VOT: [项目]

[VOT13_paper_ICCV]2013年视觉目标跟踪挑战赛结果

[VOT14_paper_ECCV]2014年视觉目标跟踪挑战赛结果

[VOT15_paper_ICCV]2015年视觉目标跟踪挑战赛结果

[VOT16_paper_ECCV]2016年视觉目标跟踪挑战赛结果

[VOT17_paper_ICCV]2017年视觉目标跟踪挑战赛结果

杰出研究者与团队

在视觉跟踪领域发表了3篇以上对学科产生重大影响的论文、且目前仍在该领域活跃的杰出视觉跟踪研究者。（名单按字母顺序排列，不分先后。）

Visual Tracking Paper List 快速上手指南

本仓库是一个视觉目标跟踪（Visual Object Tracking）领域的论文与代码资源清单，汇集了 CVPR、ICCV、AAAI 等顶级会议的经典算法（如 SiamRPN++, DiMP, PrDiMP, SiamMask 等）。它本身不是一个单一的可执行工具，而是指向各个具体算法实现的索引。

以下是如何利用该清单快速开始探索和使用相关跟踪算法的指南。

环境准备

由于清单中包含多种不同架构的跟踪器（基于 PyTorch, TensorFlow 或纯 MATLAB），建议先配置一个通用的深度学习开发环境。大多数现代跟踪器（2019-2020 年后的作品）主要依赖 PyTorch。

系统要求

操作系统: Linux (推荐 Ubuntu 18.04/20.04) 或 macOS
GPU: NVIDIA GPU (推荐显存 ≥ 8GB)，需安装对应的 CUDA 驱动
Python: 3.6 - 3.8 (多数旧版代码对 Python 3.9+ 支持尚不完善)

前置依赖

建议创建一个独立的 Conda 环境以避免冲突：

conda create -n tracking python=3.7
conda activate tracking

安装核心深度学习框架及常用计算机视觉库（推荐使用国内镜像源加速）：

# 配置清华源
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/

# 安装 PyTorch (根据实际 CUDA 版本调整，此处以 CUDA 11.1 为例)
pip install torch==1.9.0+cu111 torchvision==0.10.0+cu111 -f https://download.pytorch.org/whl/torch_stable.html

# 安装通用依赖
pip install opencv-python numpy matplotlib scipy tensorboardx easydict

注意：具体某个算法（如 GradNet 需要 TensorFlow，LDES 可能需要 MATLAB）可能有特殊依赖，请在点击对应论文的 [code] 链接后，查阅其原始仓库的 requirements.txt。

获取资源与安装

本仓库没有统一的安装命令。使用流程是：在列表中选定算法 -> 跳转至对应代码仓库 -> 克隆并安装。

1. 浏览与选择

访问该仓库的 README 页面，根据需求选择算法。例如，若你需要一个高精度且实时的跟踪器，可以选择 SiamRPN++ 或 PrDiMP。

2. 克隆具体算法代码

以 PrDiMP (Probabilistic Regression for Visual Tracking) 为例，其代码托管在 pytracking 库中：

# 进入工作目录
cd ~/projects

# 克隆 pytracking 仓库 (包含 PrDiMP, DiMP, ATOM 等)
git clone https://github.com/visionml/pytracking.git
cd pytracking

注：如果 GitHub 连接缓慢，可尝试使用国内镜像（如 Gitee 上的同步镜像，若有）或配置 Git 代理。

3. 安装算法依赖

进入具体目录后，通常有独立的安装脚本或 requirements 文件。以 pytracking 为例：

# 安装该库所需的特定依赖
pip install -r requirements.txt

# 部分项目需要编译扩展模块 (如有 setup.py)
python setup.py develop

对于其他独立仓库（如 SiamMask 或 AutoTrack），请遵循其各自 README 中的 "Installation" 章节，通常步骤类似：

git clone <对应论文的 code 链接>
cd <项目文件夹>
pip install -r requirements.txt

基本使用

大多数现代跟踪器提供了统一的推理接口或演示脚本。以下以 pytracking 框架（集成多种 SOTA 算法）为例，展示如何运行一个简单的跟踪任务。

准备测试视频

确保你有一个测试视频文件（如 test_video.mp4）或图像序列。

运行跟踪演示

pytracking 提供了一个方便的运行脚本 run_tracker.py。

# 基本用法：指定算法名称和模型名称
# 格式：python run_tracker.py <algorithm_name> <model_name> --input <video_path>

# 示例：运行 PrDiMP 算法，使用 mp18 模型
python run_tracker.py prdimp mp18 --input test_video.mp4 --debug

输出结果

运行成功后，程序通常会：

弹出窗口实时显示跟踪效果（带边界框）。
在 results 目录下生成跟踪坐标文件（用于计算精度指标）。
保存带有可视化边框的视频文件。

自定义开发

若要将其集成到自己的项目中，通常导入核心模块即可：

from pytracking.lib.tracker.prdimp import prdimp
from pytracking.lib.utils.video_utils import frames_to_video

# 初始化跟踪器
tracker = prdimp.MP18()

# 初始化第一帧 (bbox 格式通常为 [x, y, width, height])
tracker.initialize(frame_1, bbox=[100, 100, 50, 50])

# 在后续帧中进行跟踪
for frame in video_frames:
    output_state = tracker.track(frame)
    # output_state 包含最新的目标位置

提示：对于列表中其他独立仓库（如 SiamMask），请参照其根目录下的 demo.py 或 test.py 脚本，命令格式通常为 python demo.py --config <config_file> --weights <model_path>。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 158.1k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|6天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架