deep_learning_object_detection

11.4k 2.8k 困难 1 次阅读今天开发框架图像

AI 解读由 AI 自动生成，仅供参考

deep_learning_object_detection 是一个专注于深度学习目标检测领域的论文清单资源库。它系统地梳理了从 2014 年至今该方向的重要学术成果，旨在解决研究人员和开发者在面对海量文献时难以快速定位核心论文、对比算法性能以及查找对应代码实现的痛点。

该项目不仅按年份详细罗列了包括 R-CNN、YOLO、Faster R-CNN 等经典及前沿模型的研究论文，还特别标注了作者推荐的“必读”篇目，帮助读者高效把握技术演进脉络。其独特亮点在于提供了直观的技术发展历史图谱、详尽的多数据集（如 VOC、COCO）性能对比表格，并附带了各论文的官方或非官方代码链接，极大地降低了复现与学习的门槛。

deep_learning_object_detection 非常适合计算机视觉领域的研究人员、算法工程师以及高校学生使用。无论是希望深入了解目标检测技术发展史，还是需要为最新研究寻找基准参考，亦或是寻求具体算法的代码实现，这个资源库都能提供极具价值的指引。它就像一位博学的向导，协助用户在复杂的学术海洋中快速锚定关键信息，是进入和深耕目标检测领域不可或缺的案头工具。

使用场景

某自动驾驶初创公司的算法团队正致力于提升车辆对行人和障碍物的识别精度，急需从海量学术成果中筛选出最适合实时部署的目标检测模型。

没有 deep_learning_object_detection 时

研究人员需在 Google Scholar、arXiv 和各大会议官网间反复跳转，耗时数周才能拼凑出 2014 年至 2020 年的关键论文列表，极易遗漏如 ICLR 或 CVPR 的最新突破。
面对数百篇论文，团队难以快速辨别哪些是必须精读的奠基性工作（如 R-CNN 系列），哪些是次要改进，导致大量时间浪费在低价值文献上。
缺乏统一的性能对比视角，无法直观判断 YOLO v1 与 Faster R-CNN 在 VOC 或 COCO 数据集上的 mAP 差异及推理速度（FPS）权衡，选型全靠经验猜测。
寻找复现代码如同大海捞针，经常遇到论文链接失效或只有官方代码而无社区优化版本的情况，严重拖慢原型验证进度。

使用 deep_learning_object_detection 后

团队直接访问该清单，一键获取按年份梳理的完整论文脉络，迅速锁定 2019-2020 年 NeurIPS 和 CVPR 上的前沿成果，调研周期从数周缩短至半天。
借助红色高亮标记的“必读论文”指引，新人能快速掌握领域发展主线，将精力集中在最具影响力的算法演进上，避免盲目阅读。
通过内置的性能对照表，工程师清晰看到不同模型在特定硬件下的精度与速度数据，科学地为公司边缘计算设备选定了平衡点最佳的检测器。
每个条目均附带经过验证的官方及非官方代码链接，开发人员能立即拉取项目进行测试，大幅加速了从理论到实车的落地过程。

deep_learning_object_detection 通过将分散的学术资源结构化与可视化，成为了连接前沿理论与工程落地的最高效桥梁。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库是一个深度学习目标检测的论文列表和资源汇总，并非一个可直接运行的软件工具或代码库。README 中列出了多篇论文及其对应的官方或非官方代码链接（涉及 Caffe, Torch, TensorFlow, PyTorch, Matlab 等不同框架），因此没有统一的运行环境、依赖库或硬件需求。用户需根据具体想要复现的某篇论文，前往其对应的代码仓库查看具体的环境配置要求。

python未说明

deep_learning_object_detection hero image

快速开始

深度学习目标检测

这是一份使用深度学习进行目标检测的论文列表。我参考了这篇综述论文，并经过反复搜索整理而成。

最后更新：2020年9月22日

更新记录

2018年9月18日 - 更新所有最新论文，并制作了一张关于深度学习目标检测发展历程的图表。 2018年9月26日 - 更新论文的代码链接（官方和非官方）。 2018年10月 - 更新5篇论文及性能表格。 2018年11月 - 更新9篇论文。 2018年12月 - 更新8篇论文和性能表格，并新增一张图表（2019版！！）。 2019年1月 - 更新4篇论文，并添加常用的数据集。 2019年2月 - 更新3篇论文。 2019年3月 - 更新图表和代码链接。 2019年4月 - 去掉作者姓名，更新ICLR 2019和CVPR 2019的论文。 2019年5月 - 更新CVPR 2019的论文。 2019年6月 - 更新CVPR 2019的论文以及数据集相关的论文。 2019年7月 - 更新BMVC 2019的论文以及部分ICCV 2019的论文。 2019年9月 - 更新NeurIPS 2019和ICCV 2019的论文。 2019年11月 - 更新部分AAAI 2020的论文及其他论文。 2020年1月 - 更新ICLR 2020的论文及其他论文。 2020年5月 - 更新CVPR 2020的论文及其他论文。 2020年6月 - 更新arXiv上的论文。 2020年8月 - 更新论文链接。

2014年至2019年的论文列表

用红色标注的部分是我认为“必读”的论文。不过，这只是我个人的观点，其他论文同样重要，如果有时间的话也建议阅读。

性能表格

FPS（速度）指标与硬件规格（如CPU、GPU、内存等）密切相关，因此很难进行公平的比较。解决方案是在配置相同的硬件上测量所有模型的性能，但这样做非常困难且耗时。

检测器	VOC07 (mAP@IoU=0.5)	VOC12 (mAP@IoU=0.5)	COCO (mAP@IoU=0.5:0.95)	发表于
R-CNN	58.5	-	-	CVPR'14
SPP-Net	59.2	-	-	ECCV'14
MR-CNN	78.2 (07+12)	73.9 (07+12)	-	ICCV'15
Fast R-CNN	70.0 (07+12)	68.4 (07++12)	19.7	ICCV'15
Faster R-CNN	73.2 (07+12)	70.4 (07++12)	21.9	NIPS'15
YOLO v1	66.4 (07+12)	57.9 (07++12)	-	CVPR'16
G-CNN	66.8	66.4 (07+12)	-	CVPR'16
AZNet	70.4	-	22.3	CVPR'16
ION	80.1	77.9	33.1	CVPR'16
HyperNet	76.3 (07+12)	71.4 (07++12)	-	CVPR'16
OHEM	78.9 (07+12)	76.3 (07++12)	22.4	CVPR'16
MPN	-	-	33.2	BMVC'16
SSD	76.8 (07+12)	74.9 (07++12)	31.2	ECCV'16
GBDNet	77.2 (07+12)	-	27.0	ECCV'16
CPF	76.4 (07+12)	72.6 (07++12)	-	ECCV'16
R-FCN	79.5 (07+12)	77.6 (07++12)	29.9	NIPS'16
DeepID-Net	69.0	-	-	PAMI'16
NoC	71.6 (07+12)	68.8 (07+12)	27.2	TPAMI'16
DSSD	81.5 (07+12)	80.0 (07++12)	33.2	arXiv'17
TDM	-	-	37.3	CVPR'17
FPN	-	-	36.2	CVPR'17
YOLO v2	78.6 (07+12)	73.4 (07++12)	-	CVPR'17
RON	77.6 (07+12)	75.4 (07++12)	27.4	CVPR'17
DeNet	77.1 (07+12)	73.9 (07++12)	33.8	ICCV'17
CoupleNet	82.7 (07+12)	80.4 (07++12)	34.4	ICCV'17
RetinaNet	-	-	39.1	ICCV'17
DSOD	77.7 (07+12)	76.3 (07++12)	-	ICCV'17
SMN	70.0	-	-	ICCV'17
Light-Head R-CNN	-	-	41.5	arXiv'17
YOLO v3	-	-	33.0	arXiv'18
SIN	76.0 (07+12)	73.1 (07++12)	23.2	CVPR'18
STDN	80.9 (07+12)	-	-	CVPR'18
RefineDet	83.8 (07+12)	83.5 (07++12)	41.8	CVPR'18
SNIP	-	-	45.7	CVPR'18
Relation-Network	-	-	32.5	CVPR'18
Cascade R-CNN	-	-	42.8	CVPR'18
MLKP	80.6 (07+12)	77.2 (07++12)	28.6	CVPR'18
Fitness-NMS	-	-	41.8	CVPR'18
RFBNet	82.2 (07+12)	-	-	ECCV'18
CornerNet	-	-	42.1	ECCV'18
PFPNet	84.1 (07+12)	83.7 (07++12)	39.4	ECCV'18
Pelee	70.9 (07+12)	-	-	NIPS'18
HKRM	78.8 (07+12)	-	37.8	NIPS'18
M2Det	-	-	44.2	AAAI'19
R-DAD	81.2 (07++12)	82.0 (07++12)	43.1	AAAI'19
ScratchDet	84.1 (07++12)	83.6 (07++12)	39.1	CVPR'19
Libra R-CNN	-	-	43.0	CVPR'19
Reasoning-RCNN	82.5 (07++12)	-	43.2	CVPR'19
FSAF	-	-	44.6	CVPR'19
AmoebaNet + NAS-FPN	-	-	47.0	CVPR'19
Cascade-RetinaNet	-	-	41.1	CVPR'19
HTC	-	-	47.2	CVPR'19
TridentNet	-	-	48.4	ICCV'19
DAFS	85.3 (07+12)	83.1 (07++12)	40.5	ICCV'19
Auto-FPN	81.8 (07++12)	-	40.5	ICCV'19
FCOS	-	-	44.7	ICCV'19
FreeAnchor	-	-	44.8	NeurIPS'19
DetNAS	81.5 (07++12)	-	42.0	NeurIPS'19
NATS	-	-	42.0	NeurIPS'19
AmoebaNet + NAS-FPN + AA	-	-	50.7	arXiv'19
SpineNet	-	-	52.1	arXiv'19
CBNet	-	-	53.3	AAAI'20
EfficientDet	-	-	52.6	CVPR'20
DetectoRS	-	-	54.7	arXiv'20

2014年

[R-CNN] 用于精确目标检测和语义分割的丰富特征层次结构 | [CVPR' 14] |[pdf] [官方代码 - caffe]
[OverFeat] OverFeat：使用卷积网络实现集成识别、定位与检测 | [ICLR' 14] |[pdf] [官方代码 - torch]
[MultiBox] 使用深度神经网络进行可扩展的目标检测 | [CVPR' 14] |[pdf]
[SPP-Net] 深度卷积网络中的空间金字塔池化用于视觉识别 | [ECCV' 14] |[pdf] [官方代码 - caffe] [非官方代码 - keras] [非官方代码 - tensorflow]

2015年

通过贝叶斯优化和结构化预测改进基于深度卷积网络的目标检测 | [CVPR' 15] |[pdf] [官方代码 - matlab]
[MR-CNN] 基于多区域及语义分割感知的CNN模型进行目标检测 | [ICCV' 15] |[pdf] [官方代码 - caffe]
[DeepBox] DeepBox：利用卷积网络学习目标性 | [ICCV' 15] |[pdf] [官方代码 - caffe]
[AttentionNet] AttentionNet：聚合弱方向以实现精确的目标检测 | [ICCV' 15] |[pdf]
[Fast R-CNN] Fast R-CNN | [ICCV' 15] |[pdf] [官方代码 - caffe]
[DeepProposal] DeepProposal：通过级联深度卷积层猎取目标 | [ICCV' 15] |[pdf] [官方代码 - matconvnet]
[Faster R-CNN, RPN] Faster R-CNN：借助区域建议网络实现实时目标检测 | [NIPS' 15] |[pdf] [官方代码 - caffe] [非官方代码 - tensorflow] [非官方代码 - pytorch]

2016年

[YOLO v1] You Only Look Once：统一的实时目标检测 | [CVPR' 16] |[pdf] [官方代码 - c]
[G-CNN] G-CNN：一种基于迭代网格的目标检测器 | [CVPR' 16] |[pdf]
[AZNet] 利用邻接关系与缩放预测实现自适应目标检测 | [CVPR' 16] |[pdf]
[ION] Inside-Outside Net：结合跳跃池化与循环神经网络在上下文中检测目标 | [CVPR' 16] |[pdf]
[HyperNet] HyperNet：迈向精确的区域建议生成与联合目标检测 | [CVPR' 16] |[pdf]
[OHEM] 使用在线难例挖掘训练基于区域的目标检测器 | [CVPR' 16] |[pdf] [官方代码 - caffe]
[CRAPF] CRAFT从图像中提取物体 | [CVPR' 16] |[pdf] [官方代码 - caffe]
[MPN] 用于目标检测的多路径网络 | [BMVC' 16] |[pdf] [官方代码 - torch]
[SSD] SSD：单次多框检测器 | [ECCV' 16] |[pdf] [官方代码 - caffe] [非官方代码 - tensorflow] [非官方代码 - pytorch]
[GBDNet] 为目标检测打造GBD-Net | [ECCV' 16] |[pdf] [官方代码 - caffe]
[CPF] 上下文引导与反馈助力Faster R-CNN | [ECCV' 16] |[pdf]
[MS-CNN] 用于快速目标检测的统一多尺度深度卷积神经网络 | [ECCV' 16] |[pdf] [官方代码 - caffe]
[R-FCN] R-FCN：基于区域的全卷积网络进行目标检测 | [NIPS' 16] |[pdf] [官方代码 - caffe] [非官方代码 - caffe]
[PVANET] PVANET：轻量级深度神经网络，适用于实时目标检测 | [NIPSW' 16] |[pdf] [官方代码 - caffe]
[DeepID-Net] DeepID-Net：用于目标检测的可变形深度卷积神经网络 | [PAMI' 16] |[pdf]
[NoC] 基于卷积特征图的目标检测网络 | [TPAMI' 16] |[pdf]

2017年

[DSSD] DSSD：反卷积单次检测器 | [arXiv' 17] |[pdf] [官方代码 - caffe]
[TDM] 超越跳跃连接：用于目标检测的自顶向下调制 | [CVPR' 17] |[pdf]
[FPN] 用于目标检测的特征金字塔网络 | [CVPR' 17] |[pdf] [非官方代码 - caffe]
[YOLO v2] YOLO9000：更好、更快、更强 | [CVPR' 17] |[pdf] [官方代码 - c] [非官方代码 - caffe] [非官方代码 - tensorflow] [非官方代码 - tensorflow] [非官方代码 - pytorch]
[RON] RON：带有目标先验信息的反向连接网络，用于目标检测 | [CVPR' 17] |[pdf] [官方代码 - caffe] [非官方代码 - tensorflow]
[RSA] CNN中用于目标检测的循环尺度近似 | | [ICCV' 17] |[pdf] [官方代码 - caffe]
[DCN] 可变形卷积网络 | [ICCV' 17] |[pdf] [官方代码 - mxnet] [非官方代码 - tensorflow] [非官方代码 - pytorch]
[DeNet] DeNet：基于定向稀疏采样的可扩展实时目标检测 | [ICCV' 17] |[pdf] [官方代码 - theano]
[CoupleNet] CoupleNet：将全局结构与局部部件相结合用于目标检测 | [ICCV' 17] |[pdf] [官方代码 - caffe]
[RetinaNet] 用于密集目标检测的焦点损失 | [ICCV' 17] |[pdf] [官方代码 - keras] [非官方代码 - pytorch] [非官方代码 - mxnet] [非官方代码 - tensorflow]
[Mask R-CNN] Mask R-CNN | [ICCV' 17] |[pdf] [官方代码 - caffe2] [非官方代码 - tensorflow] [非官方代码 - tensorflow] [非官方代码 - pytorch]
[DSOD] DSOD：从零开始学习深度监督的目标检测器 | [ICCV' 17] |[pdf] [官方代码 - caffe] [非官方代码 - pytorch]
[SMN] 用于目标检测中上下文推理的空间记忆 | [ICCV' 17] |[pdf]
[Light-Head R-CNN] Light-Head R-CNN：为两阶段目标检测器辩护 | [arXiv' 17] |[pdf] [官方代码 - tensorflow]
[Soft-NMS] 用一行代码改进目标检测 | [ICCV' 17] |[pdf] [官方代码 - caffe]

2018年

[YOLO v3] YOLOv3：一项渐进式改进 | [arXiv' 18] |[pdf] [官方代码 - c] [非官方代码 - pytorch] [非官方代码 - pytorch] [非官方代码 - keras] [非官方代码 - tensorflow]
[ZIP] 具有递归训练的对象提议网络 | [IJCV' 18] |[pdf] [官方代码 - caffe]
[SIN] 结构推理网络：利用场景级上下文和实例级关系进行目标检测 | [CVPR' 18] |[pdf] [官方代码 - tensorflow]
[STDN] 尺度可迁移的目标检测 | [CVPR' 18] |[pdf]
[RefineDet] 单次精炼神经网络用于目标检测 | [CVPR' 18] |[pdf] [官方代码 - caffe] [非官方代码 - chainer] [非官方代码 - pytorch]
[MegDet] MegDet：一种大规模小批量目标检测器 | [CVPR' 18] |[pdf]
[DA Faster R-CNN] 面向野外目标检测的领域自适应Faster R-CNN | [CVPR' 18] |[pdf] [官方代码 - caffe]
[SNIP] 目标检测中尺度不变性的分析——SNIP | [CVPR' 18] |[pdf]
[Relation-Network] 用于目标检测的关系网络 | [CVPR' 18] |[pdf] [官方代码 - mxnet]
[Cascade R-CNN] 级联R-CNN：深入高质量目标检测 | [CVPR' 18] |[pdf] [官方代码 - caffe]
使用生成对抗网络在野外寻找微小人脸 | [CVPR' 18] |[pdf]
[MLKP] 多尺度位置感知核表示用于目标检测 | [CVPR' 18] |[pdf] [官方代码 - caffe]
通过渐进式领域适应实现跨域弱监督目标检测 | [CVPR' 18] |[pdf] [官方代码 - chainer]
[Fitness NMS] 利用Fitness NMS和有界IoU损失提升目标定位精度 | [CVPR' 18] |[pdf]
[STDnet] STDnet：用于小目标检测的卷积网络 | [BMVC' 18] |[pdf]
[RFBNet] 感受野块网络用于准确快速的目标检测 | [ECCV' 18] |[pdf] [官方代码 - pytorch]
借助网络知识迁移实现零标注目标检测 | [ECCV' 18] |[pdf]
[CornerNet] CornerNet：将目标检测为成对关键点 | [ECCV' 18] |[pdf] [官方代码 - pytorch]
[PFPNet] 并行特征金字塔网络用于目标检测 | [ECCV' 18] |[pdf]
[Softer-NMS] Softer-NMS：重新思考边界框回归以实现精确目标检测 | [arXiv' 18] |[pdf]
[ShapeShifter] ShapeShifter：针对Faster R-CNN目标检测器的鲁棒物理对抗攻击 | [ECML-PKDD' 18] |[pdf] [官方代码 - tensorflow]
[Pelee] Pelee：移动端实时目标检测系统 | [NIPS' 18] |[pdf] [官方代码 - caffe]
[HKRM] 用于大规模目标检测的混合知识路由模块 | [NIPS' 18] |[pdf]
[MetaAnchor] MetaAnchor：学习使用自定义锚框进行目标检测 | [NIPS' 18] |[pdf]
[SNIPER] SNIPER：高效的多尺度训练 | [NIPS' 18] |[pdf]

2019年

[M2Det] M2Det：基于多级特征金字塔网络的单次目标检测器 | [AAAI' 19] |[pdf] [官方代码 - pytorch]
[R-DAD] 基于区域分解与组装的目标检测 | [AAAI' 19] |[pdf]
[CAMOU] CAMOU：学习物理车辆伪装以对抗野外检测器 | [ICLR' 19] |[pdf]
用于目标检测的特征交织器 | [ICLR' 19] |[pdf]
[GIoU] 广义交并比：一种用于边界框回归的度量和损失 | [CVPR' 19] |[pdf]
利用自训练使目标检测器自动适应新领域 | [CVPR' 19] |[pdf]
[Libra R-CNN] Libra R-CNN：面向目标检测的平衡学习 | [CVPR' 19] |[pdf]
[FSAF] 用于单阶段目标检测的特征选择无锚框模块 | [CVPR' 19] |[pdf]
[ExtremeNet] 基于极端点和中心点分组的自底向上目标检测 | [CVPR' 19] |[pdf] | [官方代码 - PyTorch]
[C-MIL] C-MIL：用于弱监督目标检测的延续型多实例学习 | [CVPR' 19] |[pdf] | [官方代码 - PyTorch]
[ScratchDet] ScratchDet：从零开始训练单阶段目标检测器 | [CVPR' 19] |[pdf]
带有不确定性的边界框回归用于精确目标检测 | [CVPR' 19] |[pdf] | [官方代码 - Caffe2]
活动驱动的弱监督目标检测 | [CVPR' 19] |[pdf]
基于AP损失实现精确的一阶段目标检测 | [CVPR' 19] |[pdf]
强弱分布对齐用于自适应目标检测 | [CVPR' 19] |[pdf] | [官方代码 - PyTorch]
[NAS-FPN] NAS-FPN：为目标检测学习可扩展的特征金字塔架构 | [CVPR' 19] |[pdf]
[Adaptive NMS] 自适应NMS：改进人群中的行人检测 | [CVPR' 19] |[pdf]
点入，框出：超越人群计数 | [CVPR' 19] |[pdf]
无需边界框的目标定位 | [CVPR' 19] |[pdf]
面向大规模目标检测的稀疏标注采样技术 | [CVPR' 19] |[pdf]
基于领域注意力实现通用目标检测 | [CVPR' 19] |[pdf]
探索上下文信息在目标检测中的效用边界 | [CVPR' 19] |[pdf]
我应该使用哪种目标？——任务驱动的目标检测 | [CVPR' 19] |[pdf]
基于相异度系数的弱监督目标检测 | [CVPR' 19] |[pdf]
通过选择性跨域对齐来适应目标检测器 | [CVPR' 19] |[pdf]
用于目标检测的全量化网络 | [CVPR' 19] |[pdf]
基于细粒度特征模仿的模型蒸馏用于目标检测 | [CVPR' 19] |[pdf]
利用边界框标注进行多任务自监督目标检测 | [CVPR' 19] |[pdf]
[Reasoning-RCNN] Reasoning-RCNN：将自适应全局推理统一到大规模目标检测中 | [CVPR' 19] |[pdf]
具有自适应文本区域表示的任意形状场景文本检测 | [CVPR' 19] |[pdf]
辅助激活激励：一种提升目标检测器性能的学习方法 | [CVPR' 19] |[pdf]
用于大规模目标检测的空间感知图关系网络 | [CVPR' 19] |[pdf]
[MaxpoolNMS] MaxpoolNMS：消除两阶段目标检测中的NMS瓶颈 | [CVPR' 19] |[pdf]
种瓜得瓜，种豆得豆：为弱监督目标检测生成高精度目标候选框 | [CVPR' 19] |[pdf]
基于位置感知可变形卷积和反向注意力过滤的目标检测 | [CVPR' 19] |[pdf]
多元化与匹配：一种用于目标检测的领域自适应表征学习范式 | [CVPR' 19] |[pdf]
用于实例分割的混合任务级联 | [CVPR' 19] |[pdf]
[GFR] 通过门控特征复用从零开始改进目标检测 | [BMVC' 19] |[pdf] | [官方代码 - PyTorch]
[Cascade RetinaNet] 级联RetinaNet：保持单阶段目标检测的一致性 | [BMVC' 19] |[pdf]
用于鲁棒目标检测的软采样 | [BMVC' 19] |[pdf]
用于无限制目标检测的多对抗Faster-RCNN | [ICCV' 19] |[pdf]
向对抗鲁棒的目标检测迈进 | [ICCV' 19] |[pdf]
一种用于领域自适应目标检测的鲁棒学习方法 | [ICCV' 19] |[pdf]
视频目标检测的延迟指标：平均精度无法揭示的内容 | [ICCV' 19] |[pdf]
深入研究来自无人机的鲁棒目标检测：一种深度干扰因素解耦方法 | [ICCV' 19] |[pdf]
利用深度部件-目标关系进行显著性目标检测 | [ICCV' 19] |[pdf]
为单阶段目标检测学习高速丰富的特征 | [ICCV' 19] |[pdf]
显著性目标检测中联合深度特征与预测精炼的结构化建模 | [ICCV' 19] |[pdf]
选择性还是不变性：边界感知的显著性目标检测 | [ICCV' 19] |[pdf]
用于视频目标检测的渐进式稀疏局部注意力 | [ICCV' 19] |[pdf]
视频中的最小延迟目标检测 | [ICCV' 19] |[pdf]
通过展开潜在结构实现可解释的目标检测 | [ICCV' 19] |[pdf]
通过迁移分类权重扩展目标检测 | [ICCV' 19] |[pdf]
[TridentNet] 尺度感知的三叉戟网络用于目标检测 | [ICCV' 19] |[pdf]
面向小数据集的目标检测的生成式建模 | [ICCV' 19] |[pdf]
用于零样本目标检测的直推式学习 | [ICCV' 19] |[pdf]
用于无监督域适应单阶段目标检测的自训练与对抗背景正则化 | [ICCV' 19] |[pdf]
[CenterNet] CenterNet：基于关键点三元组的目标检测 | [ICCV' 19] |[pdf]
[DAFS] 单阶段目标检测中的动态锚点特征选择 | [ICCV' 19] |[pdf]
[Auto-FPN] Auto-FPN：超越分类的自动网络架构适配用于目标检测 | [ICCV' 19] |[pdf]
多对抗 Faster-RCNN 用于无限制的目标检测 | [ICCV' 19] |[pdf]
面向视频目标检测的对象引导外部记忆网络 | [ICCV' 19] |[pdf]
[ThunderNet] ThunderNet：面向移动设备的实时通用目标检测 | [ICCV' 19] |[pdf]
[RDN] 关系蒸馏网络用于视频目标检测 | [ICCV' 19] |[pdf]
[MMNet] 压缩视频中的快速目标检测 | [ICCV' 19] |[pdf]
向高分辨率显著性目标检测迈进 | [ICCV' 19] |[pdf]
[SCAN] 用于边缘感知显著性目标检测的堆叠交叉精炼网络 | [ICCV' 19] |[官方代码] |[pdf]
用于视频显著性目标检测的运动引导注意力 | [ICCV' 19] |[pdf]
使用伪标签的半监督视频显著性目标检测 | [ICCV' 19] |[pdf]
学习对目标检测候选框进行排序 | [ICCV' 19] |[pdf]
[WSOD2] WSOD2：为弱监督目标检测学习自下而上与自上而下的对象性蒸馏 | [ICCV' 19] |[pdf]
[ClusDet] 航拍图像中的聚类目标检测 | [ICCV' 19] |[pdf]
向精确的端到端弱监督目标检测网络迈进 | [ICCV' 19] |[pdf]
通过特征重加权实现少样本目标检测 | [ICCV' 19] |[pdf]
[Objects365] Objects365：大规模高质量目标检测数据集 | [ICCV' 19] |[pdf]
[EGNet] EGNet：用于显著性目标检测的边缘引导网络 | [ICCV' 19] |[pdf]
优化 F-Measure 以实现无阈值的显著性目标检测 | [ICCV' 19] |[pdf]
用于视频目标检测的序列级语义聚合 | [ICCV' 19] |[pdf]
[NOTE-RCNN] NOTE-RCNN：用于半监督目标检测的耐噪声集成 RCNN | [ICCV' 19] |[pdf]
丰富特征引导的精炼网络用于目标检测 | [ICCV' 19] |[pdf]
[POD] POD：具有尺度敏感网络的实际目标检测 | [ICCV' 19] |[pdf]
[FCOS] FCOS：全卷积单阶段目标检测 | [ICCV' 19] |[pdf]
[RepPoints] RepPoints：用于目标检测的点集表示 | [ICCV' 19] |[pdf]
更好地跟随，才能更好地提升：迈向小目标检测中特征超分辨率的精准监督 | [ICCV' 19] |[pdf]
结合分割的弱监督目标检测 | [ICCV' 19] |[pdf]
利用提案之间的长时序关系进行视频目标检测 | [ICCV' 19] |[pdf]
检测11K类：无需细粒度边界框的大规模目标检测 | [ICCV' 19] |[pdf]
[C-MIDN] C-MIDN：具有分割指导的耦合多实例检测网络，用于弱监督目标检测 | [ICCV' 19] |[pdf]
元学习以检测稀有目标 | [ICCV' 19] |[pdf]
[Cap2Det] Cap2Det：学习增强弱字幕监督以进行目标检测 | [ICCV' 19] |[pdf]
[Gaussian YOLOv3] Gaussian YOLOv3：一种利用定位不确定性实现高精度、快速目标检测的自动驾驶检测器 | [ICCV' 19] |[pdf] [官方代码 - c]
[FreeAnchor] FreeAnchor：为视觉目标检测学习匹配锚点 | [NeurIPS' 19] |[pdf]
面向记忆的解码器用于光场显著目标检测 | [NeurIPS' 19] |[pdf]
基于协同注意力和协同激励的一次性目标检测 | [NeurIPS' 19] |[pdf]
[DetNAS] DetNAS：目标检测中的骨干网络搜索 | [NeurIPS' 19] |[pdf]
基于一致性的小样本半监督目标检测 | [NeurIPS' 19] |[pdf]
[NATS] 针对目标检测的通道级高效神经架构转换搜索 | [NeurIPS' 19] |[pdf]
[AA] 学习目标检测的数据增强策略 | [arXiv' 19] |[pdf]
[Spinenet] Spinenet：学习尺度可变的骨干网络，用于识别和定位 | [arXiv' 19] |[pdf]
二十年来的目标检测：综述 | [arXiv' 19] |[pdf]

2020

[Spiking-YOLO] Spiking-YOLO：用于实时目标检测的脉冲神经网络 | [AAAI' 20] |[pdf]
告诉我他们拿着什么：基于人类-物体交互的可迁移知识的弱监督目标检测 | [AAAI' 20] |[pdf]
[CBnet] Cbnet：一种用于目标检测的新颖复合骨干网络架构 | [AAAI' 20] |[pdf]
[Distance-IoU Loss] 距离IoU损失：更快、更好的边界框回归学习 | [AAAI' 20] |[pdf]
目标检测中的计算重分配 | [ICLR' 20] |[pdf]
[YOLOv4] YOLOv4：目标检测的最佳速度与精度 | [arXiv' 20] |[pdf]
基于注意力RPN和多关系检测器的少样本目标检测 | [CVPR' 20] |[pdf]
来自不平衡多标签的大规模野外目标检测 | [CVPR' 20] |[pdf]
通过自适应训练样本选择弥合基于锚点与无锚点检测之间的差距 | [CVPR' 20] |[pdf]
重新思考目标检测中的分类与定位 | [CVPR' 20] |[pdf]
视觉目标检测中的多锚点学习 | [CVPR' 20] |[pdf]
[CentripetalNet] CentripetalNet：追求高质量关键点对以进行目标检测 | [CVPR' 20] |[pdf]
从噪声锚点中学习以进行单阶段目标检测 | [CVPR' 20] |[pdf]
[EfficientDet] EfficientDet：可扩展且高效的目标检测 | [CVPR' 20] |[pdf]
使用平衡组Softmax克服长尾目标检测中的分类器不平衡 | [CVPR' 20] |[pdf]
用于定向和密集排列目标检测的动态精炼网络 | [CVPR' 20] |[pdf]
噪声感知的完全弱监督目标检测 | [CVPR' 20] |[pdf]
[Hit-Detector] Hit-Detector：面向目标检测的层次三元架构搜索 | [CVPR' 20] |[pdf]
[D2Det] D2Det：迈向高质量的目标检测和实例分割 | [CVPR' 20] |[pdf]
目标检测中的优质样本注意力 | [CVPR' 20] |[pdf]
根本不用看一眼：为零样本检测合成特征 | [CVPR' 20] |[pdf]
探索用于领域自适应目标检测的类别正则化 | [CVPR' 20] |[pdf]
[SP-NAS] SP-NAS：面向目标检测的串并行骨干网络搜索 | [CVPR' 20] |[pdf]
[NAS-FCOS] NAS-FCOS：面向目标检测的快速神经架构搜索 | [CVPR' 20] |[pdf]
[DR Loss] DR损失：通过分布排名改进目标检测 | [CVPR' 20] |[pdf]
狭窄场景下的检测：一个提案，多重预测 | [CVPR' 20] |[pdf]
[AugFPN] AugFPN：改进目标检测的多尺度特征学习 | [CVPR' 20] |[pdf]
基于上下文感知组合网络的遮挡下鲁棒目标检测 | [CVPR' 20] |[pdf]
跨域文档目标检测：基准测试套件与方法 | [CVPR' 20] |[pdf]
利用注意力学习探索自底向上和自顶向下的线索，用于弱监督目标检测 | [CVPR' 20] |[pdf]
[SLV] SLV：用于弱监督目标检测的空间似然投票法 | [CVPR' 20] |[pdf]
[HAMBox] HAMBox：深入挖掘人脸检测中的高质量锚框 | [CVPR' 20] |[pdf]
[Context R-CNN] Context R-CNN：针对每台相机的目标检测的长期时间上下文 | [CVPR' 20] |[pdf]
用于目标检测和人体姿态估计的混合密集回归 | [CVPR' 20] |[pdf]
用于精确目标检测的偏移二分类网络 | [CVPR' 20] |[pdf]
[NETNet] NETNet：用于更好单次目标检测的邻居擦除与迁移网络 | [CVPR' 20] |[pdf]
用于目标检测的比例均衡金字塔卷积 | [CVPR' 20] |[pdf]
基于时间上下文增强的严重遮挡行人检测 | [CVPR' 20] |[pdf]
[MnasFPN] MnasFPN：为移动设备上的目标检测学习延迟感知金字塔架构 | [CVPR' 20] |[pdf]
针对激光雷达目标检测的物理可实现对抗样本 | [CVPR' 20] |[pdf]
通过粗粒度到细粒度的特征适应进行跨域目标检测 | [CVPR' 20] |[pdf]
增量式少样本目标检测 | [CVPR' 20] |[pdf]
哪里、什么、是否：多模态学习与行人检测的结合 | [CVPR' 20] |[pdf]
用于联合目标检测和视角估计的圆柱形卷积网络 | [CVPR' 20] |[pdf]
学习用于目标检测的统一样本权重网络 | [CVPR' 20] |[pdf]
不用看就能“看见”：为最大化平均精度而进行的上下文重排序 | [CVPR' 20] |[pdf]
DetectoRS：使用递归特征金字塔和可切换空洞卷积进行目标检测 | [arXiv' 20] |[pdf]
[DETR] 基于Transformer的端到端目标检测 | [ECCV' 20] |[pdf]
抑制与平衡：用于显著性目标检测的简单门控网络 | [ECCV' 20] |[code]
[BorderDet] BorderDet：用于密集目标检测的边界特征 | [ECCV' 20] |[pdf]
用于无锚框两阶段目标检测的角点提案网络 | [ECCV' 20] |[pdf]
用于理解目标检测中错误的一般工具箱 | [ECCV' 20] |[pdf]
[Chained-Tracker] 链式跟踪器：将成对注意力回归结果串联起来，实现端到端的多目标检测与跟踪 | [ECCV' 20] |[pdf]
基于侧边信息的边界定位，以实现更精确的目标检测 | [ECCV' 20] |[pdf]
[PIoU] PIoU损失：迈向复杂环境下精确的定向目标检测 | [ECCV' 20] |[pdf]
[AABO] AABO：通过贝叶斯子采样优化目标检测的自适应锚框 | [ECCV' 20] |[pdf]
仅需10万个参数即可实现高效显著性目标检测 | [ECCV' 20] |[pdf]
[GeoGraph] GeoGraph：端到端学习基于图的多视角目标检测，并结合几何线索 | [ECCV' 20] |[pdf]
从低样本到多样本：利用混合监督进行目标检测的标注学习 | [ECCV' 20] |[pdf]
更廉价的预训练午餐：一种高效的目标检测范式 | [ECCV' 20] |[pdf]
使用圆形平滑标签进行任意方向目标检测 | [ECCV' 20] |[pdf]
软锚点目标检测 | [ECCV' 20] |[pdf]
使用来自多个数据集的统一标签空间进行目标检测 | [ECCV' 20] |[pdf]
[MimicDet] MimicDet：弥合单阶段与两阶段目标检测之间的差距 | [ECCV' 20] |[pdf]
基于先验知识的雾霾和雨天条件下的领域自适应目标检测 | [ECCV' 20] |[pdf]
[Dynamic R-CNN] 动态R-CNN：通过动态训练迈向高质量目标检测 | [ECCV' 20] |[pdf]
[OS2D] OS2D：通过匹配锚框特征实现单阶段单次目标检测 | [ECCV' 20] |[pdf]
用于少样本目标检测的多尺度正样本精炼 | [ECCV' 20] |[pdf]
野外场景下的少样本目标检测与视角估计 | [ECCV' 20] |[pdf]
领域自适应目标检测中的区域建议定位与分类协同训练 | [ECCV' 20] |[pdf]
用于连接组学大规模目标检测的双流主动查询建议 | [ECCV' 20] |[pdf]
[FDTS] FDTS：面向目标检测及其他任务的快速多样化变换搜索 | [ECCV' 20]
双重细化水下目标检测网络 | [ECCV' 20] |[pdf]
[APRICOT] APRICOT：目标检测物理对抗攻击数据集 | [ECCV' 20] |[pdf]
目标检测的大批量优化：12分钟内训练COCO数据集 | [ECCV' 20] |[pdf]
基于区域的目标检测的层次化上下文嵌入 | [ECCV' 20] |[pdf]
用于自动驾驶的基于柱体的目标检测 | [ECCV' 20] |[pdf]
深入研究边界框以提升目标检测性能 | [ECCV' 20] |[pdf]
基于非对称三路Faster R-CNN的领域自适应目标检测 | [ECCV' 20] |[pdf]
基于IoU预测的概率性锚点分配用于目标检测 | [ECCV' 20] |[pdf]
[HoughNet] HoughNet：整合近程和远程证据实现自底向上的目标检测 | [ECCV' 20] |[pdf]
[LabelEnc] LabelEnc：一种新的目标检测中间监督方法 | [ECCV' 20] |[pdf]
通过渐进式知识迁移提升弱监督目标检测性能 | [ECCV' 20] |[pdf]
数据增强在目标检测中的重要性 | [ECCV' 20] |[pdf]
基于双重多标签预测的自适应目标检测 | [ECCV' 20] |[pdf]
量子软QUBO抑制技术用于精确目标检测 | [ECCV' 20] |[pdf]
通过选择性自监督自训练提升目标检测性能 | [ECCV' 20] |[pdf]

数据集论文

常用目标检测数据集的统计信息。该表格摘自这篇综述论文。

挑战	目标类别	图像数量			标注图像数量
挑战	目标类别	训练集	验证集	测试集	训练集	验证集
PASCAL VOC 目标检测挑战
VOC07	20	2,501	2,510	4,952	6,301 (7,844)	6,307 (7,818)
VOC08	20	2,111	2,221	4,133	5,082 (6,337)	5,281 (6,347)
VOC09	20	3,473	3,581	6,650	8,505 (9,760)	8,713 (9,779)
VOC10	20	4,998	5,105	9,637	11,577 (13,339)	11,797 (13,352)
VOC11	20	5,717	5,823	10,994	13,609 (15,774)	13,841 (15,787)
VOC12	20	5,717	5,823	10,991	13,609 (15,774)	13,841 (15,787)
ILSVRC 目标检测挑战
ILSVRC13	200	395,909	20,121	40,152	345,854	55,502
ILSVRC14	200	456,567	20,121	40,152	478,807	55,502
ILSVRC15	200	456,567	20,121	51,294	478,807	55,502
ILSVRC16	200	456,567	20,121	60,000	478,807	55,502
ILSVRC17	200	456,567	20,121	65,500	478,807	55,502
MS COCO 目标检测挑战
MS COCO15	80	82,783	40,504	81,434	604,907	291,875
MS COCO16	80	82,783	40,504	81,434	604,907	291,875	MS COCO17	80	118,287	5,000	40,670	860,001	36,781	MS COCO18	80	118,287	5,000	40,670	860,001	36,781
Open Images 目标检测挑战
OID18	500	1,743,042	41,620	125,436	12,195,144	―

主要用于目标检测的数据集相关论文如下：

[PASCAL VOC] PASCAL 视觉目标类别（VOC）挑战 | [IJCV' 10] | [pdf]
[PASCAL VOC] PASCAL 视觉目标类别挑战：回顾 | [IJCV' 15] | [pdf] | [链接]
[ImageNet] ImageNet：一个大规模分层图像数据库| [CVPR' 09] | [pdf]
[ImageNet] ImageNet 大规模视觉识别挑战 | [IJCV' 15] | [pdf] | [链接]
[COCO] Microsoft COCO：上下文中常见物体 | [ECCV' 14] | [pdf] | [链接]
[Open Images] Open Images 数据集 V4：大规模统一的图像分类、目标检测和视觉关系检测 | [arXiv' 18] | [pdf] | [链接]
[DOTA] DOTA：用于航空影像中目标检测的大规模数据集 | [CVPR' 18] | [pdf] | [链接]
[Objects365] Objects365：用于目标检测的大规模高质量数据集 | [ICCV' 19] | [链接]

联系与反馈

如果您对论文有任何建议，欢迎随时给我发邮件 :)

deep_learning_object_detection 快速上手指南

注意：本项目是一个深度学习目标检测论文列表与资源汇总库，而非一个可直接运行的单一检测模型代码库。它整理了从 2014 年至今的经典论文、性能对比表以及对应的官方/非官方代码链接。以下指南将指导你如何利用该资源找到并运行你需要的目标检测算法。

环境准备

由于本仓库汇总了多种不同时期、不同框架（Caffe, TensorFlow, PyTorch, MXNet 等）实现的算法，没有统一的前置依赖。你需要根据想运行的具体论文代码来配置环境。

通用建议配置

为了能够运行大多数现代（2018-2020）的目标检测代码，建议准备以下基础环境：

操作系统: Linux (Ubuntu 18.04/20.04 推荐) 或 macOS
Python: 3.6 - 3.8 (视具体模型而定)
GPU: NVIDIA GPU (推荐显存 8GB 以上)
CUDA & cuDNN: 根据所选框架版本安装对应驱动
核心框架 (任选其一，或全部安装):
- PyTorch (目前最主流)
- TensorFlow / Keras
- Caffe / Caffe2 (针对 2014-2017 年的经典论文如 Faster R-CNN 原版)

国内加速方案

在安装 Python 依赖时，推荐使用清华源或阿里源以提升下载速度：

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

安装步骤

由于本项目是索引列表，安装步骤取决于你选择的具体算法。以下是两种常见的获取与安装路径：

路径一：运行现代算法（以 PyTorch 实现的 Faster R-CNN 或 YOLO 为例）

大多数 2018 年后的论文都有 PyTorch 复现版本。

克隆一个具体的实现仓库（例如从本 README 表格中找到的 faster-rcnn.pytorch）：
```
git clone https://github.com/jwyang/faster-rcnn.pytorch.git
cd faster-rcnn.pytorch
```

创建虚拟环境并安装依赖：

conda create -n obj_det python=3.7
conda activate obj_det

# 安装 PyTorch (示例为 CUDA 11.1 版本，请根据实际情况调整)
pip install torch==1.9.0+cu111 torchvision==0.10.0+cu111 -f https://download.pytorch.org/whl/torch_stable.html

# 安装其他依赖
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

编译 CUDA 扩展（如果需要）：
```
bash make.sh
```

路径二：复现经典论文（查阅本仓库链接）

如果你想复现 README 中列出的特定论文（如 2015 年的 Fast R-CNN）：

在本项目的 Paper list 部分找到对应年份和论文名称。
点击 [official code] 或 [unofficial code] 链接跳转到具体代码仓库。
遵循该具体仓库的 README 进行安装（旧项目可能依赖 Caffe 或 TensorFlow 1.x）。

基本使用

以下以通用的 PyTorch 目标检测流程为例，展示如何使用从本资源库中找到的代码进行推理。

1. 准备数据集

大多数模型需要 VOC 或 COCO 格式的数据集。

# 示例：创建数据目录
mkdir data
cd data
# 下载 VOC2007 或 COCO2017 数据集 (建议使用国内镜像源下载)

2. 下载预训练模型

在具体代码仓库中下载作者提供的预训练权重文件（.pth 或 .caffemodel），通常放在 weights/ 或 checkpoints/ 目录下。

3. 运行推理 (Inference)

执行检测脚本对单张图片或文件夹进行测试。

示例命令 (基于典型 PyTorch 实现):

python demo.py \
    --cuda \
    --model_path weights/res101_faster_rcnn.pth \
    --image_dir data/images \
    --classes_num 21

示例命令 (基于 Darknet/YOLO):

./darknet detector test cfg/coco.data cfg/yolov3.cfg weights/yolov3.weights data/dog.jpg

4. 查看结果

程序运行结束后，通常会在输出目录生成带有检测框的图片，或在终端打印出类别与置信度信息。你可以参考本仓库中的 Performance table 来对比你所运行模型的 mAP 指标是否符合预期。

常见问题

性能表中的 '++' 符号（例如 '(07++12)'）是什么意思？

论文列表中为什么有些模型（如 SSD 和 YOLO）是用红色字体标注的？

哪些模型更适合小目标检测（small object detection）？

有语义分割（semantic segmentation）和实例分割（instance segmentation）类似的论文列表推荐吗？

为什么性能表中没有包含 FPS（帧率）数据？

能否给论文列表添加星级评分以标识重要性？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 158.1k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|6天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架