yolov3
YOLOv3 是由 Ultralytics 基于 PyTorch 框架打造的高效计算机视觉模型,专注于解决实时物体检测难题。它能在单张图像中快速、精准地识别并定位多个目标对象,显著提升了检测速度与准确率,是连接算法研究与实际落地的重要桥梁。
这款工具特别适合开发者、人工智能研究人员以及需要部署视觉应用的企业团队使用。无论是构建安防监控系统、开发自动驾驶辅助功能,还是进行学术实验,YOLOv3 都能提供坚实的技术支撑。其核心亮点在于卓越的跨平台兼容性:模型不仅支持在 PyTorch 环境中训练与推理,还能无缝导出为 ONNX、CoreML 及 TFLite 格式。这意味着用户可以轻松将模型部署到服务器、iOS 设备或移动端边缘计算设备上,极大地降低了工程化门槛。作为经典架构的现代化实现,YOLOv3 融合了多项最佳实践,既保留了原版的速度优势,又增强了稳定性,是探索目标检测领域值得信赖的开源选择。
使用场景
某智慧物流园区的技术团队正致力于升级其包裹分拣系统,需要实时识别传送带上不同尺寸和类型的快递包裹以引导机械臂抓取。
没有 yolov3 时
- 依赖传统图像处理算法,难以应对包裹堆叠、遮挡或光照变化,导致识别率低下且误报频繁。
- 现有模型体积庞大,无法部署在边缘计算设备(如 Jetson Nano)上,必须将所有视频流传回云端处理,网络延迟高达数百毫秒。
- 模型格式单一,缺乏从训练框架到终端推理引擎的流畅转换工具,工程师需花费数周手动重写代码以适配不同硬件。
- 检测速度跟不上高速传送带的节奏,经常出现包裹已过站但系统尚未完成识别的情况,造成分拣错误。
使用 yolov3 后
- 利用 yolov3 强大的多尺度预测能力,精准识别各种角度和遮挡情况下的包裹,将复杂场景下的检出率提升至 98% 以上。
- 借助 yolov3 原生支持的 PyTorch 到 TFLite/CoreML 一键导出功能,成功将模型压缩并部署至边缘端,实现毫秒级本地实时推理。
- 依托其高效的架构设计,单帧处理时间缩短至 20 毫秒以内,完美匹配高速流水线的节拍,彻底消除分拣滞后现象。
- 社区提供的丰富预训练权重和文档支持,让团队仅用三天就完成了从模型微调到产线联调的全流程,大幅降低开发成本。
yolov3 通过兼顾高精度与跨平台部署效率,帮助物流团队以极低的成本实现了从“云端滞后判断”到“边缘实时决策”的关键转型。
运行环境要求
- Linux
- macOS
- Windows
- 未明确说明具体型号,但基于 PyTorch 框架,训练和推理通常建议使用支持 CUDA 的 NVIDIA GPU
- 显存需求取决于模型大小(yolov3-tiny, yolov3, yolov3-spp)和 batch size,官方示例中最大 batch size 为 64,建议显存 8GB+ 以获得较好性能
未说明

快速开始
中文 | 한국어 | 日本語 | Русский | Deutsch | Français | Español | Português | Türkçe | Tiếng Việt | العربية
Ultralytics YOLOv3 是由 Ultralytics 开发的一款强大且高效的 计算机视觉 模型。该模型基于 PyTorch 框架构建,扩展了原始的 YOLOv3 架构,以其在 目标检测 方面的速度和精度提升而闻名。它融合了大量研究中的最佳实践与洞见,使其成为各种视觉 AI 应用的理想选择。
如需深入了解,请访问 Ultralytics 文档(虽然 YOLOv3 的专用文档可能有限,但通用的 YOLO 原则同样适用)。如果您需要支持,欢迎在 GitHub 上提交问题;同时,也欢迎您加入我们的 Discord 社区,与大家交流讨论!
如需企业许可,请填写 Ultralytics 许可页面上的表格。
🚀 YOLO11:下一代进化
我们非常高兴地推出 Ultralytics YOLO11 🚀,这是我们最先进的视觉模型的最新成果!现在即可在 Ultralytics YOLO GitHub 仓库 中获取 YOLO11,它延续了我们在速度、精度和用户友好设计方面的传统。无论您从事的是 目标检测、实例分割、姿态估计、图像分类,还是 定向目标检测 (OBB),YOLO11 都能为现代计算机视觉任务提供所需的性能与灵活性。
立即开始使用 YOLO11,释放其全部潜力吧!访问 Ultralytics 文档 获取全面的指南和资源:
# 安装 ultralytics 包
pip install ultralytics
📚 文档
有关使用 Ultralytics 框架进行训练、测试和部署的完整文档,请参阅 Ultralytics YOLOv3 文档。虽然 YOLOv3 特有的文档可能较为有限,但 YOLO 的通用原则仍然适用。以下是一些针对 YOLOv3 概念改编的快速入门示例。
安装
克隆仓库,并在 Python>=3.8.0 环境中安装 requirements.txt 中的依赖项。请确保已安装 PyTorch>=1.8。(注意:此仓库最初是 YOLOv5 的,依赖项应兼容,但仍建议针对 YOLOv3 进行专门测试。)
# 克隆 YOLOv3 仓库
git clone https://github.com/ultralytics/yolov3
# 进入克隆后的目录
cd yolov3
# 安装所需包
pip install -r requirements.txt
通过 PyTorch Hub 进行推理
使用 PyTorch Hub 通过 YOLOv3 进行推理。可以加载诸如 yolov3.pt、yolov3-spp.pt、yolov3-tiny.pt 等模型。
import torch
# 加载 YOLOv3 模型(例如 yolov3、yolov3-spp)
model = torch.hub.load("ultralytics/yolov3", "yolov3", pretrained=True) # 指定 'yolov3' 或其他变体
# 定义输入图像来源(URL、本地文件、PIL 图像、OpenCV 帧、numpy 数组或列表)
img = "https://ultralytics.com/images/zidane.jpg" # 示例图像
# 进行推理
results = model(img)
# 处理结果(选项:.print()、.show()、.save()、.crop()、.pandas())
results.print() # 打印结果到控制台
results.show() # 在窗口中显示结果
results.save() # 将结果保存到 runs/detect/exp
通过 detect.py 进行推理
detect.py 脚本可对多种来源执行推理。使用 --weights yolov3.pt 或其他 YOLOv3 变体即可。它会自动下载模型并将结果保存到 runs/detect。
# 使用 yolov3-tiny 对摄像头视频进行推理
python detect.py --weights yolov3-tiny.pt --source 0
# 使用 yolov3 对本地图像文件进行推理
python detect.py --weights yolov3.pt --source img.jpg
# 使用 yolov3-spp 对本地视频文件进行推理
python detect.py --weights yolov3-spp.pt --source vid.mp4
# 对屏幕截图进行推理
python detect.py --weights yolov3.pt --source screen
# 对包含图像路径的目录进行推理
python detect.py --weights yolov3.pt --source path/to/images/
# 对包含图像路径列表的文本文件进行推理
python detect.py --weights yolov3.pt --source list.txt
# 对包含流 URL 列表的文本文件进行推理
python detect.py --weights yolov3.pt --source list.streams
# 使用 glob 模式对图像进行推理
python detect.py --weights yolov3.pt --source 'path/to/*.jpg'
# 对 YouTube 视频 URL 进行推理
python detect.py --weights yolov3.pt --source 'https://youtu.be/LNwODJXcvt4'
# 对 RTSP、RTMP 或 HTTP 流进行推理
python detect.py --weights yolov3.pt --source 'rtsp://example.com/media.mp4'
训练
以下命令展示了如何在 COCO 数据集 上训练 YOLOv3 模型。模型和数据集会自动下载。请根据硬件能力选择最大的 --batch-size。
# 在 COCO 数据集上训练 YOLOv3-tiny,共 300 个 epoch(示例设置)
python train.py --data coco.yaml --epochs 300 --weights '' --cfg yolov3-tiny.yaml --batch-size 64
# 在 COCO 数据集上训练 YOLOv3,共 300 个 epoch(示例设置)
python train.py --data coco.yaml --epochs 300 --weights '' --cfg yolov3.yaml --batch-size 32
# 在 COCO 数据集上训练 YOLOv3-SPP,共 300 个 epoch(示例设置)
python train.py --data coco.yaml --epochs 300 --weights '' --cfg yolov3-spp.yaml --batch-size 16
教程
注意:这些教程主要基于 YOLOv5 的示例,但在 Ultralytics 框架内,其原理通常也适用于 YOLOv3。
- 训练自定义数据 🚀 推荐:学习如何在自己的数据集上训练模型。
- 获得最佳训练效果的技巧 ☘️:借助专家提示提升模型性能。
- 多 GPU 训练:利用多个 GPU 加速训练。
- PyTorch Hub 集成 🌟 新功能:轻松通过 PyTorch Hub 加载模型。
- 模型导出(TFLite、ONNX、CoreML、TensorRT) 🚀:将模型转换为多种部署格式。
- NVIDIA Jetson 部署指南 🌟 新功能:在 NVIDIA Jetson 设备上部署模型。
- 测试时增强(TTA):通过 TTA 提高预测准确率。
- 模型集成:结合多个模型以获得更好性能。
- 模型剪枝/稀疏化:优化模型的大小和速度。
- 超参数进化:自动寻找最佳训练超参数。
- 冻结层迁移学习:高效地将预训练模型适应新任务。
- 架构概览 🌟 新功能:了解模型架构(重点关注 YOLOv3 原则)。
- Ultralytics 平台训练 🚀 推荐:使用 Ultralytics 平台训练和部署 YOLO 模型。
- ClearML 日志记录:与 ClearML 集成以跟踪实验。
- Neural Magic DeepSparse 集成:借助 DeepSparse 加速推理。
- Comet 日志记录集成 🌟 新功能:使用 Comet ML 记录实验。
🧩 集成
Ultralytics 提供与领先 AI 平台的强大集成,以提升您的工作流,涵盖数据集标注、训练、可视化和模型管理。了解 Ultralytics 如何与 Weights & Biases、Comet ML、Roboflow 和 Intel OpenVINO 等合作伙伴携手,优化您的 AI 项目。更多内容请访问 Ultralytics 集成。
| Ultralytics Platform 🌟 | Weights & Biases | Comet | Neural Magic |
|---|---|---|---|
| 简化 YOLO 工作流:通过 Ultralytics Platform 轻松标注、训练和部署。立即试用! | 使用 Weights & Biases 跟踪实验、超参数和结果。 | Comet ML 永久免费,可保存 YOLO 模型、恢复训练并交互式地可视化预测结果。 | 使用 Neural Magic DeepSparse 将 YOLO 推理速度提升至原来的 6 倍。 |
⭐ Ultralytics Platform
借助 Ultralytics Platform⭐,体验无缝的 AI 开发——这是构建、训练和部署计算机视觉模型的终极平台。无需编写任何代码,即可可视化数据集、训练 YOLOv3、YOLOv5 和 YOLOv8 🚀 模型,并将其部署到实际应用中。利用我们的先进工具和用户友好的 Ultralytics App,将图像转化为可操作的洞察。今天就免费开始您的旅程吧!
🤔 为什么选择 YOLOv3?
YOLOv3 在发布时标志着实时目标检测领域的一次重大飞跃。其主要优势包括:
- 更高的准确性: 相较于 YOLOv2,对小物体的检测能力显著提升。
- 多尺度预测: 能够在三个不同尺度上检测目标,从而在各种尺寸的目标上均表现出色。
- 类别预测: 使用逻辑分类器来预测目标类别,支持多标签分类。
- 特征提取器: 采用更深的网络(Darknet-53),而 YOLOv2 则使用 Darknet-19。
尽管更新的模型如 YOLOv5 和 YOLO11 提供了进一步的改进,但 YOLOv3 仍然是一个可靠且广泛采用的基准,由 Ultralytics 在 PyTorch 中高效实现。
☁️ 运行环境
使用我们预配置的环境,快速入门。点击下方图标查看设置详情。
🤝 贡献
我们欢迎您的贡献!让 YOLO 模型更易用、更高效是一项社区共同的事业。请参阅我们的贡献指南开始参与。您也可以通过Ultralytics 调查分享您的反馈。感谢所有贡献者,让 Ultralytics YOLO 不断进步!
📜 许可证
Ultralytics 提供两种许可证选项,以满足不同需求:
- AGPL-3.0 许可证:这是一份OSI 批准的开源许可证,非常适合学术研究、个人项目和测试。它鼓励开放协作与知识共享。详细信息请参阅LICENSE文件。
- 企业许可证:专为商业应用设计,该许可证允许将 Ultralytics 的软件和 AI 模型无缝集成到商业产品和服务中,同时规避 AGPL-3.0 的开源要求。如需用于商业用途,请通过Ultralytics 许可联系我们。
📧 联系方式
如有关于 Ultralytics YOLO 实现的错误报告或功能请求,请访问Github Issues。如有其他问题、讨论或社区支持需求,请加入我们的Discord 服务器!
版本历史
v9.6.02021/11/14v9.5.02021/04/12v9.12021/01/13v9.02020/12/06v82020/11/18v72020/05/04v62019/04/24v52019/04/03v42019/03/31v3.02019/03/20v2.02019/02/11v1.02018/12/11常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器




















