awesome-tiny-object-detection

1.6k 209 困难 1 次阅读 4天前图像

AI 解读由 AI 自动生成，仅供参考

awesome-tiny-object-detection 是一个专注于“微小目标检测”领域的精选资源库，系统整理了相关的学术论文、开源代码、数据集及行业竞赛信息。在计算机视觉中，当目标物体在图像中占比极小（如航拍图中的车辆、远距离的人脸或鸟类）时，传统检测算法往往难以识别或漏检率极高。该资源库正是为了解决这一痛点而生，汇聚了从基础理论到前沿应用的各类解决方案。

这里不仅收录了利用 Swin Transformer、高斯感受野标签分配（RFLA）以及切片辅助推理（Slicing Aided Hyper Inference）等创新技术来提升小目标识别率的最新论文，还涵盖了针对鸟类、行人等特定场景的检测挑战与基准测试。无论是希望快速了解领域动态的研究人员，还是正在寻找高效算法落地方案的开发者，都能在此找到极具价值的参考依据。通过整合 ECCV、CVPR、MVA 等顶级会议的成果，awesome-tiny-object-detection 为用户搭建了一座连接学术研究与工程实践的桥梁，帮助社区更高效地攻克微小目标检测难题。

使用场景

某遥感科技公司正在开发一套基于无人机航拍图像的森林火灾早期预警系统，核心难点在于从高空视角精准识别极小的烟雾点和初期火苗。

没有 awesome-tiny-object-detection 时

技术选型盲目：团队在海量论文中大海捞针，难以区分哪些算法是专门针对“微小目标”优化的，误用了通用检测模型导致漏报率极高。
数据评估缺失：缺乏针对低分辨率输入的专业评测基准，无法量化模型在远距离小目标上的真实性能，迭代方向模糊。
复现成本高昂：找不到经过验证的代码实现和配套数据集，工程师需从零复现前沿算法，耗费数周时间却因细节缺失而失败。
场景适配困难：面对航拍图像中密集且微小的火点，缺乏如切片推理（Slicing Aided）等特定策略指导，模型极易将背景噪声误判为火情。

使用 awesome-tiny-object-detection 后

精准锁定方案：直接获取经筛选的 Tiny Object Detection 顶会论文列表，快速定位到适合航拍场景的 Swin Transformer 或 QueryDet 等 SOTA 模型。
对标权威基准：利用收录的 ECCV 和 MVA 挑战赛资源及 RLQ 基准，建立了符合实际低质输入环境的评估体系，明确优化指标。
加速落地进程：通过链接直接访问开源代码库（如 SAHI、RFLA）和专用数据集，将算法验证周期从数周缩短至几天。
策略有的放矢：参考列表中关于高倍率缩放、高斯接收场标签分配等具体技术文章，针对性解决了小目标特征丢失问题，显著降低误报。

awesome-tiny-object-detection 将原本分散杂乱的学术资源转化为结构化的工程指南，帮助团队在微小目标检测难题上实现了从“盲目试错”到“精准打击”的跨越。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库是一个论文和资源列表（Awesome List），并非一个可直接运行的单一软件工具。README 中列出的每个项目（如 SAHI, QueryDet, ReDet 等）都有各自独立的代码仓库和运行环境需求。用户需根据具体想复现的论文，前往其对应的代码链接查看具体的操作系统、GPU、Python 版本及依赖库要求。

python未说明

awesome-tiny-object-detection hero image

快速开始

令人惊叹的小目标检测

一份精心整理的小目标检测论文及相关资源列表。

Activities

2023年鸟类小目标检测挑战赛 [项目] [代码]
- MVA 2023, 2023年7月23日至25日，日本滨松ACT CITY
首届小目标检测（TOD）挑战赛：低质量输入下的真实世界识别（RLQ） [项目]
- ECCV 2020, 2020年8月23日至28日，格拉斯哥SEC会议中心

Papers

小目标检测

用于小目标检测的集成融合 [论文] [代码]
- 侯浩宇、沈牧毅、许家齐、黄恩明、黄昱辰、夏宇成、王建尧、李春义 MVA 2023
基于Swin Transformer的鸟类小目标检测 [论文]
- 阮达、马克·A·卡斯特纳、刘廷伟、川西康友、平山隆次、驹水隆弘、井出一郎 MVA 2023
BandRe：重新思考带通滤波器在尺度感知目标检测评估中的应用 [论文] [代码]
- 真矢洋介 MVA 2023
推进普通视觉Transformer迈向遥感基础模型 [论文] [代码]
- 王迪、张启明、徐宇飞、张静、杜波、陶大程、张良培 IEEE TGRS 2022
RFLA：基于高斯感受野的小目标检测标签分配方法 [论文] [代码]
- 徐畅、王金旺、杨文、于怀、于雷、夏桂松 ECCV 2022
切片辅助的超推理与微调在小目标检测中的应用 [论文] [代码] [基准测试]
- 法提赫·恰加泰·阿基永、希南·奥努尔·阿尔图努奇、阿尔普特金·特米泽尔 ICIP 2022
交互式多类别小目标检测 [论文] [代码]
- 李忠基、朴宣旭、宋宪、柳正云、金尚勋、金海俊、塞尔吉奥·佩雷拉、柳东根 CVPR 2022
QueryDet：级联稀疏查询加速高分辨率小目标检测 [论文] [代码]
- 杨晨鸿毅、黄哲浩、王乃彦 CVPR 2022
航空影像中的目标检测：大规模基准与挑战 [论文]
- 丁健、薛楠、夏桂松、白翔、杨文、杨英迈克尔、贝隆吉、罗杰博、达特库米哈伊、佩利洛马塞洛、张良培 TPAMI 2021
MRDet：用于航空影像中精确定向目标检测的多头网络 [论文]
- 秦然、刘庆杰、高广帅、黄迪、王云宏 TGRS 2021
用于合成孔径雷达图像中飞机检测的注意力特征精炼与对齐网络 [论文]
- 赵燕、赵玲君、刘忠、胡德文、匡刚耀、刘莉 已提交至TGRS
用于小目标检测的归一化高斯Wasserstein距离 [论文]
- 王金旺、徐畅、杨文、于雷 arXiv 2021
基于边界感知向量的航空影像定向目标检测 [论文] [代码]
- 易静如、吴鹏翔、刘博、黄巧英、曲辉、梅塔克萨斯 WACV 2021
TPH-YOLOv5：基于Transformer预测头改进的YOLOv5，适用于无人机拍摄场景下的目标检测 [论文]
- 朱兴奎、吕书昌、王旭、赵琪 ICCV Workshop 2021
用于小型及自由旋转物体的定向边界框 [论文]
- 扎德莫森、埃特马德阿里、格林斯潘迈克尔 TGRS 2021
学习校准引导用于航空影像中的目标检测 [论文] [代码]
- 梁东、魏宗琦、张栋、耿其祥、张丽艳、孙汉、周慧宇、魏明强、高攀 arXiv 2021
ReDet：一种旋转等变检测器，用于航空目标检测 [论文] [代码]
- 韩佳明、丁健、薛楠、夏桂松 CVPR 2021
航空影像中的目标检测：大规模基准与挑战 [论文] [代码]
- 丁健、薛楠、夏桂松、白翔、杨文、杨英迈克尔、贝隆吉、罗杰博、达特库米哈伊、佩利洛马塞洛、张良培 arXiv 2021
FPN中用于小目标检测的有效融合因子 [论文]
- 龚宇琪、于雪辉、丁瑶、彭晓科、赵建、韩振军 WACV 2021
基于Transformer的端到端目标检测 [论文] [代码]
- 卡里翁尼古拉斯、马萨弗朗西斯科、辛纳耶夫加布里埃尔、乌苏涅尔尼古拉斯、基里洛夫亚历山大、扎戈鲁伊科谢尔盖 ECCV 2020
无锚点两阶段目标检测的角点提案网络 [论文] [代码]
- 段凯文、谢凌溪、齐洪刚、白松、黄清明、田奇 ECCV 2020
HoughNet：整合近距与远距证据进行自底向上目标检测 [论文] [代码]
- 萨梅特内尔敏、希乔恩梅兹萨梅特、阿克巴斯埃姆雷 ECCV 2020
高效检测：可扩展且高效的目标检测 [论文] [代码] [PyTorch] [PyTorch] [PyTorch] [TensorFlow]
- 谭铭星、庞若明、黎国权 CVPR 2020
利用深度强化学习在大图像中高效目标检测 [论文]
- 布拉克·乌兹肯特、克里斯托弗·叶、斯特凡诺·埃尔蒙 WACV 2020
小人检测的尺度匹配 [论文] [基准测试]
- 于雪辉、龚宇琪、江楠、叶其祥、韩振军 WACV 2020
用于小目标检测的多分辨率注意力提取器 [论文]
- 张帆、焦立成、李玲玲、刘芳、刘旭 arXiv 2020
小目标检测中的内在关系推理 [论文]
- 傅奎、李嘉、马林、穆凯、田永红 arXiv 2020
HRDNet：用于小对象的高分辨率检测网络 [论文]
- 刘子明、高光宇、孙琳、方志远 arXiv 2020
用于小目标检测的扩展特征金字塔网络 [论文]
- 邓春芳、王梦梦、刘亮和刘勇 arXiv 2020
MatrixNets：一种新的尺度与宽高比感知架构，用于目标检测 [论文] [代码]
- 阿卜杜拉·拉什万、里沙夫·阿加瓦尔、阿加斯塔·卡尔拉、帕斯卡尔·普帕特 arXiv 2020
跨数据集训练以增加类别数量的目标检测 [论文]
- 姚永强、王燕、郭宇、林娇娇、秦宏伟、严俊杰 arXiv 2020
TBC-Net：基于语义约束的红外小目标实时检测器 [论文]
- 赵明鑫、程力、杨旭、冯鹏、刘丽媛、吴南健 arXiv 2020
RepPoints V2：验证与回归结合的目标检测 [论文] [代码]
- 陈义宏、张正、曹悦、王立伟、林史蒂芬、胡汉 arXiv 2020
M2Det：基于多级特征金字塔网络的单阶段目标检测器 [论文] [代码]
- 赵启杰、盛涛、王永涛、唐志、陈英、蔡玲、凌海斌 AAAI 2019
跟随以求更好：迈向小目标检测中特征超分辨率的精准监督 [论文] [项目]
- 卢俊亨、裴元浩、李元熙、徐仁焕、金根熙 ICCV 2019
丰富特征引导的精炼网络用于目标检测 [论文] [代码]
- 倪晶、穆罕默德·安瓦尔、乔拉卡尔希沙姆、沙赫巴兹·法哈德、庞延伟、邵玲 ICCV 2019
RepPoints：用于目标检测的点集表示 [论文] [代码]
- 杨泽、刘绍辉、胡汉、王立伟、林史蒂芬 ICCV 2019
尺度感知三叉戟网络用于目标检测 [论文] [代码]
- 李阳浩、陈云涛、王乃彦、张兆祥 ICCV 2019
SCRDet：迈向更鲁棒的小型、杂乱及旋转物体检测 [论文]
- 杨雪、杨继睿、严俊驰、张月、张腾飞、郭志、孙贤、傅坤 ICCV 2019
航空影像中的聚类目标检测 [论文]
- 杨凡、恒凡、楚鹏、布拉施埃里克、凌海斌 ICCV 2019
拼贴技术在小目标检测中的力量 [论文]
- 乌内尔F·厄兹格、厄卡尔艾伊·布拉克、齐瓦希尔·齐格拉 CVPR Workshop 2019
学习对象级语义表示用于遥感影像中的检测 [论文]
- 李成正、徐春燕、崔珍、王丹、解泽群、张同、杨建 CVPR Workshop 2019
AugFPN：改进多尺度特征学习用于目标检测 [论文]
- 郭超旭、范彬、张茜、向士明、潘春红 CoRR 2019，CVPR2020
R2-CNN：快速检测大型遥感影像中的小型目标 [论文]
- 庞江淼、李聪、石建平、徐志海、冯华军 TGRS 2019
R3Det：带有特征精炼的单阶段精炼检测器，用于旋转物体 [论文] [代码]
- 杨、薛和刘、青青以及严、俊驰、李、张志强、于刚 AAAI 2021
SpineNet：学习尺度置换主干网络，用于识别与定位 [论文]
- 杜显志、林宗义、金鹏冲、吉亚斯戈尔娜兹、谭铭星、崔银、黎国权、宋晓丹 arXiv 2019
学习空间融合用于单阶段目标检测 [论文] [代码]
- 刘松涛、黄迪、王云宏 arXiv 2019
用于小目标检测的数据增强 [论文] [代码]
- 基桑塔尔马特、沃伊纳兹比格涅夫、穆拉夫斯基雅库布、纳鲁涅茨雅切克、赵京贤 arXiv 2019
利用上下文与注意力进行小目标检测 [论文]
- 林正善、阿斯特里德玛塞拉、尹贤珍、李承益 arXiv 2019
用于目标检测的单阶段精炼神经网络 [论文] [代码] [PyTorch]
- 张世峰、温龙寅、边晓、雷震、李斯坦 CVPR 2018
目标检测中尺度不变性的分析——SNIP [论文]
- 辛格巴拉特、戴维斯拉里 CVPR 2018
深入高质量目标检测的级联R-CNN [论文] [代码]
- 蔡昭伟、瓦斯科塞洛斯努诺 CVPR 2018
具有丰富语义的单阶段目标检测 [论文]
- 张志帅、乔思源、谢慈航、申威、王博、尤伊勒艾伦 CVPR 2018
尺度可迁移的目标检测 [论文] [代码]
- 周鹏、倪冰冰、耿聪、胡建国、徐毅 CVPR 2018
用于目标检测的深层特征金字塔重配置 [论文]
- 孔涛、孙富春、黄文兵、刘华萍 ECCV 2018
DetNet：用于目标检测的骨干网络 [论文] [代码]
- 李泽明、彭超、于刚、张翔宇、邓扬东、孙健 ECCV 2018
SOD-MTGAN：通过多任务生成对抗网络进行小目标检测 [论文]
- 白燕城、张永强、丁明丽、加内姆伯纳德 ECCV 2018
SNIPER：高效多尺度训练 [论文] [代码]
- 辛格巴拉特、纳吉比马赫亚尔、戴维斯拉里 NeurIPS 2018
YOLOv3：一次增量改进 [论文] [项目] [代码]
- 红蒙约瑟夫、法哈迪阿里 arXiv 2018
你只需看两次：卫星影像中快速多尺度目标检测 [论文] [代码]
- 亚当·范·埃滕 arXiv 2018
MSDNN：用于显著性目标检测的多尺度深度神经网络 [论文]
- 肖芬、邓文政、彭梁灿、曹春红、胡凯、高谢平 arXiv 2018
MDSSD：用于小目标的多尺度反卷积单阶段检测器 [论文]
- 许明亮、崔丽莎、吕沛、蒋晓恒、牛建伟、周炳、王孟 arXiv 2018
用于小目标检测的感知生成对抗网络 [论文]
- 李建安、梁晓丹、魏云超、徐廷发、冯嘉仕、颜水成 CVPR 2017
用于目标检测的特征金字塔网络 [论文]
- 林宗义、多拉尔皮奥特、吉尔希克罗斯、何凯明、哈里哈兰巴拉特、贝隆吉塞尔吉 CVPR 2017
DSSD：反卷积单阶段检测器 [论文] [代码]
- 傅成阳、刘伟、兰加阿南特、泰吉阿姆布里什、贝尔亚历山大 CVPR 2017
使用循环滚动卷积的精确单阶段检测器 [论文] [代码]
- 任吉米、陈晓浩、刘建波、孙文秀、庞家豪、严琼、太玉宇、徐立 CVPR 2017
密集目标检测中的焦点损失 [论文] [PyTorch]
- 林宗义、戈亚尔普里亚、吉尔希克罗斯、何凯明、多拉尔皮奥特 ICCV 2017
可变形卷积网络 [论文] [代码]
- 戴继峰、齐浩志、熊宇文、李毅、张国栋、胡汉、魏一臣 ICCV 2017
特征融合SSD：快速检测小型物体 [论文] [代码]
- 曹桂梅、谢雪梅、杨文哲、廖全、石光明、吴金建 ICGIP 2017
FSSD：特征融合单阶段多框检测器 [论文] [代码]
- 李作新、周富强 arXiv 2017
内外网：利用跳跃池和循环神经网络在上下文中检测物体 [论文]
- 贝尔肖恩、齐特尼克C·劳伦斯、巴拉卡维塔、吉尔希克罗斯 CVPR 2016

微小人脸检测

TinaFace：强大而简单的人脸检测基线 [论文] [代码]
- 樊佳 Zhu, Hongxiang Cai, Shuhan Zhang, Chenhao Wang, Yichao Xiong arXiv 2020
通过在困难图像上学习小人脸实现鲁棒的人脸检测 [论文] [代码]
- Zhishuai Zhang, Wei Shen, Siyuan Qiao, Yan Wang, Bo Wang, Alan Yuille WACV 2020
利用生成对抗网络在野外寻找微小人脸 [论文]
- Yancheng Bai, Yongqiang Zhang, Mingli Ding, Bernard Ghanem CVPR 2018
从鲁棒锚框的角度看小人脸 [论文]
- Chenchen Zhu, Ran Tao, Khoa Luu, Marios Savvides CVPR 2018
Face-MagNet：放大特征图以检测小人脸 [论文]
- Pouya Samangouei, Mahyar Najibi, Larry Davis, Rama Chellappa WACV 2018
寻找微小人脸 [论文] [项目] [代码]
- Peiyun Hu, Deva Ramanan CVPR 2017
S3FD：单次尺度不变人脸检测器 [论文]
- Shifeng Zhang Xiangyu Zhu Zhen Lei∗ Hailin Shi Xiaobo Wang Stan Z. Li ICCV 2017
检测并计数微小人脸 [论文]
- Alexandre Attia, Sharone Dayan arXiv 2018

微小行人检测

高层语义特征检测：行人检测的新视角 [论文] [代码]
- Wei Liu, ShengCai Liao, Weiqiang Ren, Weidong Hu, Yinan Yu CVPR 2019
用于单阶段目标检测的特征选择无锚模块 [论文] [PyTorch] [TensorFlow]
- Chenchen Zhu, Yihui He, Marios Savvides CVPR 2019
寻之则得：一种用于高效行人检测的新优化框架 [论文]
- Sudip Das, Partha Sarathi Mukherjee, Ujjwal Bhattacharya arXiv 2019
基于体表拓扑定位与时间特征聚合的小尺度行人检测 [论文]
- Tao Song, Leiyu Sun, Di Xie, Haiming Sun, Shiliang Pu ECCV 2018

数据集

MVA2023 鸟类检测小型目标挑战：数据集、方法与结果 [论文] [项目] [代码]
- Yuki Kondo, Norimichi Ukita, Takayuki Yamaguchi, Hao-Yu Hou, Mu-Yi Shen, Chia-Chi Hsu, En-Ming Huang, Yu-Chen Huang, Yu-Cheng Xia, Chien-Yao Wang, Chun-Yi Lee, Da Huo, Marc A. Kastner, Tingwei Liu, Yasutomo Kawanishi, Takatsugu Hirayama, Takahiro Komamizu, Ichiro Ide, Yosuke Shinya, Xinyao Liu, Guang Liang, Syusuke Yasui MVA 2023
检测与跟踪无人机挑战 [论文] [项目] [代码]
- Pengfei Zhu, Longyin Wen, Dawei Du, Xiao Bian, Heng Fan, Qinghua Hu, Haibin Ling TPAMI 2021
航空影像中的微小目标检测 [论文] [代码]
- Jinwang Wang, Wen Yang, Haowen Guo, Ruixiang Zhang, Gui-Song Xia ICPR 2021
iSAID：航空影像实例分割的大规模数据集 [论文] [项目]
- Syed Waqas Zamir, Aditya Arora, Akshita Gupta, Salman Khan, Guolei Sun, Fahad Shahbaz Khan, Fan Zhu, Ling Shao, Gui-Song Xia, Xiang Bai CVPRW 2019
BIRDSAI：航空热红外视频中的检测与跟踪数据集 [论文] [项目]
- Elizabeth Bondi, Raghav Jain, Palash Aggrawal, Saket Anand, Robert Hannaford, Ashish Kapoor, Jim Piavis, Shital Shah, Lucas Joppa, Bistra Dilkina, Milind Tambe WACV 2020
TinyPerson 数据集：用于微小人体检测 [论文] [项目]
- Yu, Xuehui and Gong, Yuqi and Jiang, Nan and Ye, Qixiang and Han, Zhenjun WACV 2020
EuroCity Persons 数据集：目标检测的新基准 [论文] [项目]
- Braun, Markus and Krebs, Sebastian and Flohr, Fabian B. and Gavrila, Dariu M. TPAMI 2019
WiderPerson：野外密集行人检测的多样化数据集 [论文] [项目]
- Shifeng Zhang, Yiliang Xie, Jun Wan, Hansheng Xia, Stan Z. Li, Guodong Guo TMM 2019
DOTA：航空影像目标检测的大规模数据集 [论文] [项目]
- Gui-Song Xia, Xiang Bai, Jian Ding, Zhen Zhu, Serge Belongie, Jiebo Luo, Mihai Datcu, Marcello Pelillo, Liangpei Zhang CVPR 2018
NightOwls：夜间行人数据集 [论文] [项目]
- Lukáš Neumann, Michelle Karg, Shanshan Zhang, Christian Scharfenberger, Eric Piegert, Sarah Mistr, Olga Prokofyeva, Robert Thiel, Andrea Vedaldi, Andrew Zisserman, and Bernt Schiele ACCV 2018
DeepScores——微小目标分割、检测与分类的数据集 [论文] [项目] [代码]
- Lukas Tuggener, Ismail Elezi, Jurgen Schmidhuber, Marcello Pelillo, Thilo Stadelmann ICPR 2018
博世小型交通信号灯数据集 [论文] [项目] [代码]
- Karsten Behrendt, Libor Novak, Rami Botros ICRA 2017
CityPersons：行人检测的多样化数据集 [论文]
- Shanshan Zhang, Rodrigo Benenson, Bernt Schiele arXiv 2017
WIDER FACE：人脸检测基准 [论文] [项目]
- Shuo Yang, Ping Luo, Chen Change Loy, Xiaoou Tang CVPR 2016
小型目标数据集 [论文] [项目]
- Zheng Ma, Lei Yu, Antoni B. Chan CVPR 2015
加州理工学院行人检测基准 [论文] [论文] [项目]
- Piotr Dollár, Christian Wojek, Bernt Schiele, Pietro Perona CVPR 2009，TPAMI 2012
宾夕法尼亚大学-复旦大学行人检测与分割数据库 [论文] [项目]
- Liming Wang, Jianbo Shi, Gang Song, I-fan Shen ACCV 2007

调查研究

模型魔方：为 TinyNet 调整分辨率、深度与宽度 [论文] [代码]
- Kai Han, Yunhe Wang, Qiulin Zhang, Wei Zhang, Chunjing Xu, Tong Zhang NeurIPS 2020
基于深度学习的目标检测综述 [论文]
- Licheng Jiao, Fan Zhang, Fang Liu, Shuyuan Yang, Lingling Li, Zhixi Feng, Rong Qu IEEE Access 2019
目标检测深度学习的最新进展 [论文]
- Xiongwei Wu, Doyen Sahoo, Steven C.H. Hoi CoRR 2019
目标检测中的类别不平衡问题：综述 [论文] [项目]
- Kemal Oksuz, Baris Can Cam, Sinan Kalkan, Emre Akbas TPAMI 2020
二十年来的目标检测：综述 [论文]
- Zhengxia Zou, Zhenwei Shi, Yuhong Guo, Jieping Ye 已提交至 TPAMI 2019
现代卷积神经网络目标检测器的速度与精度权衡 [论文]
- Jonathan Huang, Vivek Rathod, Chen Sun, Menglong Zhu, Anoop Korattikara, Alireza Fathi, Ian Fischer, Zbigniew Wojna, Yang Song, Sergio Guadarrama, Kevin Murphy CVPR 2017

文章

Awesome Tiny Object Detection 快速上手指南

awesome-tiny-object-detection 并非一个单一的独立软件库，而是一个精选资源列表，汇集了针对“微小目标检测”（Tiny Object Detection）的论文、代码库、数据集和相关竞赛。

要开始使用其中的技术，您需要根据具体需求选择列表中推荐的某个算法项目（如 SAHI, QueryDet, ReDet 等）进行部署。以下指南以列表中广泛适用且易于集成的 SAHI (Slicing Aided Hyper Inference) 为例，演示如何搭建微小目标检测环境并运行基础示例。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu 18.04+), macOS, 或 Windows (WSL2 推荐)
Python 版本: 3.7 - 3.9
硬件要求:
- 推荐使用 NVIDIA GPU (CUDA 11.0+) 以加速推理。
- 若无 GPU，可在 CPU 上运行，但速度较慢。
前置依赖:
- PyTorch (深度学习框架)
- torchvision
- opencv-python

安装步骤

1. 创建虚拟环境（推荐）

python -m venv tiny-det-env
source tiny-det-env/bin/activate  # Windows 用户请使用: tiny-det-env\Scripts\activate

2. 安装 PyTorch

访问 PyTorch 官网获取适合您环境的命令。若需使用国内镜像加速，推荐以下命令（以 CUDA 11.8 为例）：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
# 或使用清华镜像源
pip install torch torchvision torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 安装 SAHI 及相关依赖

SAHI 是列表中专门用于提升小目标检测效果的推理工具，支持多种模型后端（Yolov5, MMDetection, Detectron2 等）。

# 使用 pip 直接安装
pip install sahi

# 若需完整功能（包含可视化等），可安装额外依赖
pip install "sahi[all]"

提示：如果您想尝试列表中的其他特定模型（如 ReDet 或 QueryDet），请前往其对应的 GitHub 仓库（见原文 Papers 部分链接）按照各自的 requirements.txt 进行安装。

基本使用

以下示例展示如何使用 SAHI 对一张包含微小目标的图片进行切片推理（这是解决小目标检测最通用的方法之一）。

1. 准备预训练模型

首先下载一个针对小目标优化过的模型权重（例如 YOLOv5 或 YOLOv8 的 nano/small 版本），或者使用列表中提到的高精度模型权重。此处以自动下载 YOLOv5 为例：

from sahi import AutoDetectionModel

# 加载检测模型
detection_model = AutoDetectionModel.from_pretrained(
    model_type='yolov5',
    model_path='yolov5n.pt',  # 可替换为本地路径或列表中的其他模型权重
    confidence_threshold=0.25,
    device="cuda",  # 或 "cpu"
)

2. 执行切片推理

对于微小目标，直接全图推理效果往往不佳。SAHI 会将图像切割成重叠的小块分别检测，然后合并结果。

from sahi.predict import get_sliced_prediction
from sahi.utils.cv import read_image

# 读取图像
image_path = "tiny_objects.jpg"  # 替换为您的图片路径
image = read_image(image_path)

# 执行切片预测
result = get_sliced_prediction(
    image,
    detection_model,
    slice_height=512,  # 切片高度
    slice_width=512,   # 切片宽度
    overlap_height_ratio=0.2, # 高度重叠率
    overlap_width_ratio=0.2   # 宽度重叠率
)

# 导出结果
result.export_visuals(export_dir="./output")
print(f"检测到 {len(result.object_prediction_list)} 个目标")

3. 查看结果

运行结束后，检查 ./output 目录，您将看到带有检测框的图片以及预测结果的 JSON 文件。

进阶指引：若要探索 README 中列出的其他前沿算法（如基于 Transformer 的方法或遥感专用检测器），请访问原文 Papers 章节中对应论文的 [Code] 链接，克隆仓库后通常遵循 pip install -r requirements.txt 和 python demo.py 的标准流程即可运行。

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

tesseract

Tesseract 是一款历史悠久且备受推崇的开源光学字符识别（OCR）引擎，最初由惠普实验室开发，后由 Google 维护，目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据，有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题，是数字化归档和信息自动化的重要基础工具。在技术层面，Tesseract 展现了强大的适应能力。从版本 4 开始，它引入了基于长短期记忆网络（LSTM）的神经网络 OCR 引擎，显著提升了行识别的准确率；同时，为了兼顾旧有需求，它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码，开箱即用即可识别超过 100 种语言，并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面，它灵活支持纯文本、hOCR、PDF、TSV 等多种格式，方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库（libtesseract），不包含图形用户界面（GUI），因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中

★ 73.3k|★★☆☆☆|3天前

开发框架图像