[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-bubbliiiing--yolov5-pytorch":3,"tool-bubbliiiing--yolov5-pytorch":64},[4,17,26,35,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,2,"2026-04-03T11:11:01",[13,14,15],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":10,"last_commit_at":32,"category_tags":33,"status":16},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[13,14,15,34],"视频",{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,43,34,44,15,45,46,13,47],"数据工具","插件","其他","语言模型","音频",{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":10,"last_commit_at":54,"category_tags":55,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,46,45],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",74939,"2026-04-05T23:16:38",[46,14,13,45],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":79,"owner_twitter":79,"owner_website":80,"owner_url":81,"languages":82,"stars":87,"forks":88,"last_commit_at":89,"license":90,"difficulty_score":10,"env_os":91,"env_gpu":92,"env_ram":91,"env_deps":93,"category_tags":97,"github_topics":79,"view_count":23,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":98,"updated_at":99,"faqs":100,"releases":141},4221,"bubbliiiing\u002Fyolov5-pytorch","yolov5-pytorch","这是一个YoloV5-pytorch的源码，可以用于训练自己的模型。","yolov5-pytorch 是基于 PyTorch 框架实现的 YOLOv5 目标检测开源项目，旨在帮助开发者高效地训练和部署自定义物体识别模型。它解决了从零复现经典算法难度大、环境配置复杂以及难以适配个人数据集等痛点，让用户能够专注于业务逻辑而非底层代码构建。\n\n该项目非常适合计算机视觉领域的研究人员、AI 工程师以及希望入门深度学习的学生使用。无论是需要快速验证算法效果，还是致力于将检测模型应用于安防、工业质检等实际场景，yolov5-pytorch 都提供了清晰的路径。其技术亮点显著：不仅完整支持 s、m、l、x 四种不同规模的模型以适应速度与精度的权衡，还集成了多 GPU 训练加速、EMA（指数移动平均）优化策略以及自适应学习率调整机制。此外，项目对 VOC 等主流数据集格式提供了完善的预处理脚本，并详细文档化了从数据标注、模型训练到推理预测的全流程，即使是初学者也能轻松上手，快速获得可用的检测权重。","## YOLOV5：You Only Look Once目标检测模型在pytorch当中的实现（edition v5.0 in Ultralytics）\n---\n\n## 目录\n1. [仓库更新 Top News](#仓库更新)\n2. [相关仓库 Related code](#相关仓库)\n3. [性能情况 Performance](#性能情况)\n4. [所需环境 Environment](#所需环境)\n5. [文件下载 Download](#文件下载)\n6. [训练步骤 How2train](#训练步骤)\n7. [预测步骤 How2predict](#预测步骤)\n8. [评估步骤 How2eval](#评估步骤)\n9. [参考资料 Reference](#Reference)\n\n## Top News\n**`2022-04`**:**支持多GPU训练，新增各个种类目标数量计算，新增heatmap；将正样本匹配过程加入dataloader，加快了运算速度；加入EMA效果变好。**  \nBiliBili视频中的原仓库地址为：https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov5-pytorch\u002Ftree\u002Fbilibili\n\n**`2022-02`**:**仓库创建，支持不同尺寸模型训练，分别为s、m、l、x版本的yolov5、支持step、cos学习率下降法、支持adam、sgd优化器选择、支持学习率根据batch_size自适应调整、新增图片裁剪。**  \n\n## 相关仓库\n| 模型 | 路径 |\n| :----- | :----- |\nYoloV3 | https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolo3-pytorch  \nEfficientnet-Yolo3 | https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fefficientnet-yolo3-pytorch  \nYoloV4 | https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov4-pytorch\nYoloV4-tiny | https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov4-tiny-pytorch\nMobilenet-Yolov4 | https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fmobilenet-yolov4-pytorch\nYoloV5-V5.0 | https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov5-pytorch\nYoloV5-V6.1 | https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov5-v6.1-pytorch\nYoloX | https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolox-pytorch\nYoloV7 | https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov7-pytorch\nYoloV7-tiny | https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov7-tiny-pytorch\n\n## 性能情况\n| 训练数据集 | 权值文件名称 | 测试数据集 | 输入图片大小 | mAP 0.5:0.95 | mAP 0.5 |\n| :-----: | :-----: | :------: | :------: | :------: | :-----: |\n| COCO-Train2017 | [yolov5_s.pth](https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov5-pytorch\u002Freleases\u002Fdownload\u002Fv1.0\u002Fyolov5_s.pth) | COCO-Val2017 | 640x640 | 35.6 | 53.9\n| COCO-Train2017 | [yolov5_m.pth](https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov5-pytorch\u002Freleases\u002Fdownload\u002Fv1.0\u002Fyolov5_m.pth) | COCO-Val2017 | 640x640 | 43.9 | 62.6 \n| COCO-Train2017 | [yolov5_l.pth](https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov5-pytorch\u002Freleases\u002Fdownload\u002Fv1.0\u002Fyolov5_l.pth) | COCO-Val2017 | 640x640 | 47.4 | 66.2 \n| COCO-Train2017 | [yolov5_x.pth](https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov5-pytorch\u002Freleases\u002Fdownload\u002Fv1.0\u002Fyolov5_x.pth) | COCO-Val2017 | 640x640 | 49.4 | 67.9 \n\nYoloV5官方保存的是半精度模型，本仓库保存的是全精度模型，所以权值的大小有所差异。   \n\n## 所需环境\ntorch==1.2.0\n\n## 文件下载\n训练所需的权值可在百度网盘中下载。  \n链接: https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1gPDsDVX1lbcSNqCKsvzz0A   \n提取码: 3mjs   \n\nVOC数据集下载地址如下，里面已经包括了训练集、测试集、验证集（与测试集一样），无需再次划分：  \n链接: https:\u002F\u002Fpan.baidu.com\u002Fs\u002F19Mw2u_df_nBzsC2lg20fQA    \n提取码: j5ge   \n\n## 训练步骤\n### a、训练VOC07+12数据集\n1. 数据集的准备   \n**本文使用VOC格式进行训练，训练前需要下载好VOC07+12的数据集，解压后放在根目录**  \n\n2. 数据集的处理   \n修改voc_annotation.py里面的annotation_mode=2，运行voc_annotation.py生成根目录下的2007_train.txt和2007_val.txt。   \n\n3. 开始网络训练   \ntrain.py的默认参数用于训练VOC数据集，直接运行train.py即可开始训练。   \n\n4. 训练结果预测   \n训练结果预测需要用到两个文件，分别是yolo.py和predict.py。我们首先需要去yolo.py里面修改model_path以及classes_path，这两个参数必须要修改。   \n**model_path指向训练好的权值文件，在logs文件夹里。   \nclasses_path指向检测类别所对应的txt。**   \n完成修改后就可以运行predict.py进行检测了。运行后输入图片路径即可检测。   \n\n### b、训练自己的数据集\n1. 数据集的准备  \n**本文使用VOC格式进行训练，训练前需要自己制作好数据集，**    \n训练前将标签文件放在VOCdevkit文件夹下的VOC2007文件夹下的Annotation中。   \n训练前将图片文件放在VOCdevkit文件夹下的VOC2007文件夹下的JPEGImages中。   \n\n2. 数据集的处理  \n在完成数据集的摆放之后，我们需要利用voc_annotation.py获得训练用的2007_train.txt和2007_val.txt。   \n修改voc_annotation.py里面的参数。第一次训练可以仅修改classes_path，classes_path用于指向检测类别所对应的txt。   \n训练自己的数据集时，可以自己建立一个cls_classes.txt，里面写自己所需要区分的类别。   \nmodel_data\u002Fcls_classes.txt文件内容为：      \n```python\ncat\ndog\n...\n```\n修改voc_annotation.py中的classes_path，使其对应cls_classes.txt，并运行voc_annotation.py。  \n\n3. 开始网络训练  \n**训练的参数较多，均在train.py中，大家可以在下载库后仔细看注释，其中最重要的部分依然是train.py里的classes_path。**  \n**classes_path用于指向检测类别所对应的txt，这个txt和voc_annotation.py里面的txt一样！训练自己的数据集必须要修改！**  \n修改完classes_path后就可以运行train.py开始训练了，在训练多个epoch后，权值会生成在logs文件夹中。  \n\n4. 训练结果预测  \n训练结果预测需要用到两个文件，分别是yolo.py和predict.py。在yolo.py里面修改model_path以及classes_path。  \n**model_path指向训练好的权值文件，在logs文件夹里。  \nclasses_path指向检测类别所对应的txt。**  \n完成修改后就可以运行predict.py进行检测了。运行后输入图片路径即可检测。  \n\n## 预测步骤\n### a、使用预训练权重\n1. 下载完库后解压，在百度网盘下载权值，放入model_data，运行predict.py，输入  \n```python\nimg\u002Fstreet.jpg\n```\n2. 在predict.py里面进行设置可以进行fps测试和video视频检测。  \n### b、使用自己训练的权重\n1. 按照训练步骤训练。  \n2. 在yolo.py文件里面，在如下部分修改model_path和classes_path使其对应训练好的文件；**model_path对应logs文件夹下面的权值文件，classes_path是model_path对应分的类**。  \n```python\n_defaults = {\n    #--------------------------------------------------------------------------#\n    #   使用自己训练好的模型进行预测一定要修改model_path和classes_path！\n    #   model_path指向logs文件夹下的权值文件，classes_path指向model_data下的txt\n    #\n    #   训练好后logs文件夹下存在多个权值文件，选择验证集损失较低的即可。\n    #   验证集损失较低不代表mAP较高，仅代表该权值在验证集上泛化性能较好。\n    #   如果出现shape不匹配，同时要注意训练时的model_path和classes_path参数的修改\n    #--------------------------------------------------------------------------#\n    \"model_path\"        : 'model_data\u002Fyolov5_s.pth',\n    \"classes_path\"      : 'model_data\u002Fcoco_classes.txt',\n    #---------------------------------------------------------------------#\n    #   anchors_path代表先验框对应的txt文件，一般不修改。\n    #   anchors_mask用于帮助代码找到对应的先验框，一般不修改。\n    #---------------------------------------------------------------------#\n    \"anchors_path\"      : 'model_data\u002Fyolo_anchors.txt',\n    \"anchors_mask\"      : [[6, 7, 8], [3, 4, 5], [0, 1, 2]],\n    #---------------------------------------------------------------------#\n    #   输入图片的大小，必须为32的倍数。\n    #---------------------------------------------------------------------#\n    \"input_shape\"       : [640, 640],\n    #------------------------------------------------------#\n    #   所使用的YoloV5的版本。s、m、l、x\n    #------------------------------------------------------#\n    \"phi\"               : 's',\n    #---------------------------------------------------------------------#\n    #   只有得分大于置信度的预测框会被保留下来\n    #---------------------------------------------------------------------#\n    \"confidence\"        : 0.5,\n    #---------------------------------------------------------------------#\n    #   非极大抑制所用到的nms_iou大小\n    #---------------------------------------------------------------------#\n    \"nms_iou\"           : 0.3,\n    #---------------------------------------------------------------------#\n    #   该变量用于控制是否使用letterbox_image对输入图像进行不失真的resize，\n    #   在多次测试后，发现关闭letterbox_image直接resize的效果更好\n    #---------------------------------------------------------------------#\n    \"letterbox_image\"   : True,\n    #-------------------------------#\n    #   是否使用Cuda\n    #   没有GPU可以设置成False\n    #-------------------------------#\n    \"cuda\"              : True,\n}\n```\n3. 运行predict.py，输入  \n```python\nimg\u002Fstreet.jpg\n```\n4. 在predict.py里面进行设置可以进行fps测试和video视频检测。  \n\n## 评估步骤 \n### a、评估VOC07+12的测试集\n1. 本文使用VOC格式进行评估。VOC07+12已经划分好了测试集，无需利用voc_annotation.py生成ImageSets文件夹下的txt。\n2. 在yolo.py里面修改model_path以及classes_path。**model_path指向训练好的权值文件，在logs文件夹里。classes_path指向检测类别所对应的txt。**  \n3. 运行get_map.py即可获得评估结果，评估结果会保存在map_out文件夹中。\n\n### b、评估自己的数据集\n1. 本文使用VOC格式进行评估。  \n2. 如果在训练前已经运行过voc_annotation.py文件，代码会自动将数据集划分成训练集、验证集和测试集。如果想要修改测试集的比例，可以修改voc_annotation.py文件下的trainval_percent。trainval_percent用于指定(训练集+验证集)与测试集的比例，默认情况下 (训练集+验证集):测试集 = 9:1。train_percent用于指定(训练集+验证集)中训练集与验证集的比例，默认情况下 训练集:验证集 = 9:1。\n3. 利用voc_annotation.py划分测试集后，前往get_map.py文件修改classes_path，classes_path用于指向检测类别所对应的txt，这个txt和训练时的txt一样。评估自己的数据集必须要修改。\n4. 在yolo.py里面修改model_path以及classes_path。**model_path指向训练好的权值文件，在logs文件夹里。classes_path指向检测类别所对应的txt。**  \n5. 运行get_map.py即可获得评估结果，评估结果会保存在map_out文件夹中。\n\n## Reference\nhttps:\u002F\u002Fgithub.com\u002Fqqwweee\u002Fkeras-yolo3\u002F  \nhttps:\u002F\u002Fgithub.com\u002FCartucho\u002FmAP  \nhttps:\u002F\u002Fgithub.com\u002FMa-Dan\u002Fkeras-yolo4  \nhttps:\u002F\u002Fgithub.com\u002Fultralytics\u002Fyolov5   \n","## YOLOv5：在PyTorch中的实现（Ultralytics v5.0版）\n---\n\n## 目录\n1. [仓库更新 Top News](#仓库更新)\n2. [相关仓库 Related code](#相关仓库)\n3. [性能情况 Performance](#性能情况)\n4. [所需环境 Environment](#所需环境)\n5. [文件下载 Download](#文件下载)\n6. [训练步骤 How2train](#训练步骤)\n7. [预测步骤 How2predict](#预测步骤)\n8. [评估步骤 How2eval](#评估步骤)\n9. [参考资料 Reference](#Reference)\n\n## Top News\n**`2022-04`**:**支持多GPU训练，新增各个种类目标数量计算，新增heatmap；将正样本匹配过程加入dataloader，加快了运算速度；加入EMA效果变好。**  \nBiliBili视频中的原仓库地址为：https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov5-pytorch\u002Ftree\u002Fbilibili\n\n**`2022-02`**:**仓库创建，支持不同尺寸模型训练，分别为s、m、l、x版本的yolov5、支持step、cos学习率下降法、支持adam、sgd优化器选择、支持学习率根据batch_size自适应调整、新增图片裁剪。**  \n\n## 相关仓库\n| 模型 | 路径 |\n| :----- | :----- |\nYoloV3 | https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolo3-pytorch  \nEfficientnet-Yolo3 | https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fefficientnet-yolo3-pytorch  \nYoloV4 | https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov4-pytorch\nYoloV4-tiny | https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov4-tiny-pytorch\nMobilenet-Yolov4 | https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fmobilenet-yolov4-pytorch\nYoloV5-V5.0 | https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov5-pytorch\nYoloV5-V6.1 | https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov5-v6.1-pytorch\nYoloX | https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolox-pytorch\nYoloV7 | https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov7-pytorch\nYoloV7-tiny | https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov7-tiny-pytorch\n\n## 性能情况\n| 训练数据集 | 权值文件名称 | 测试数据集 | 输入图片大小 | mAP 0.5:0.95 | mAP 0.5 |\n| :-----: | :-----: | :------: | :------: | :------: | :-----: |\n| COCO-Train2017 | [yolov5_s.pth](https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov5-pytorch\u002Freleases\u002Fdownload\u002Fv1.0\u002Fyolov5_s.pth) | COCO-Val2017 | 640x640 | 35.6 | 53.9\n| COCO-Train2017 | [yolov5_m.pth](https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov5-pytorch\u002Freleases\u002Fdownload\u002Fv1.0\u002Fyolov5_m.pth) | COCO-Val2017 | 640x640 | 43.9 | 62.6 \n| COCO-Train2017 | [yolov5_l.pth](https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov5-pytorch\u002Freleases\u002Fdownload\u002Fv1.0\u002Fyolov5_l.pth) | COCO-Val2017 | 640x640 | 47.4 | 66.2 \n| COCO-Train2017 | [yolov5_x.pth](https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov5-pytorch\u002Freleases\u002Fdownload\u002Fv1.0\u002Fyolov5_x.pth) | COCO-Val2017 | 640x640 | 49.4 | 67.9 \n\nYoloV5官方保存的是半精度模型，本仓库保存的是全精度模型，所以权值的大小有所差异。   \n\n## 所需环境\ntorch==1.2.0\n\n## 文件下载\n训练所需的权值可在百度网盘中下载。  \n链接: https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1gPDsDVX1lbcSNqCKsvzz0A   \n提取码: 3mjs   \n\nVOC数据集下载地址如下，里面已经包括了训练集、测试集、验证集（与测试集一样），无需再次划分：  \n链接: https:\u002F\u002Fpan.baidu.com\u002Fs\u002F19Mw2u_df_nBzsC2lg20fQA    \n提取码: j5ge   \n\n## 训练步骤\n### a、训练VOC07+12数据集\n1. 数据集的准备   \n**本文使用VOC格式进行训练，训练前需要下载好VOC07+12的数据集，解压后放在根目录**  \n\n2. 数据集的处理   \n修改voc_annotation.py里面的annotation_mode=2，运行voc_annotation.py生成根目录下的2007_train.txt和2007_val.txt。   \n\n3. 开始网络训练   \ntrain.py的默认参数用于训练VOC数据集，直接运行train.py即可开始训练。   \n\n4. 训练结果预测   \n训练结果预测需要用到两个文件，分别是yolo.py和predict.py。我们首先需要去yolo.py里面修改model_path以及classes_path，这两个参数必须要修改。   \n**model_path指向训练好的权值文件，在logs文件夹里。   \nclasses_path指向检测类别所对应的txt。**   \n完成修改后就可以运行predict.py进行检测了。运行后输入图片路径即可检测。   \n\n### b、训练自己的数据集\n1. 数据集的准备  \n**本文使用VOC格式进行训练，训练前需要自己制作好数据集，**    \n训练前将标签文件放在VOCdevkit文件夹下的VOC2007文件夹下的Annotation中。   \n训练前将图片文件放在VOCdevkit文件夹下的VOC2007文件夹下的JPEGImages中。   \n\n2. 数据集的处理  \n在完成数据集的摆放之后，我们需要利用voc_annotation.py获得训练用的2007_train.txt和2007_val.txt。   \n修改voc_annotation.py里面的参数。第一次训练可以仅修改classes_path，classes_path用于指向检测类别所对应的txt。   \n训练自己的数据集时，可以自己建立一个cls_classes.txt，里面写自己所需要区分的类别。   \nmodel_data\u002Fcls_classes.txt文件内容为：      \n```python\ncat\ndog\n...\n```\n修改voc_annotation.py中的classes_path，使其对应cls_classes.txt，并运行voc_annotation.py。  \n\n3. 开始网络训练  \n**训练的参数较多，均在train.py中，大家可以在下载库后仔细看注释，其中最重要的部分依然是train.py里的classes_path。**  \n**classes_path用于指向检测类别所对应的txt，这个txt和voc_annotation.py里面的txt一样！训练自己的数据集必须要修改！**  \n修改完classes_path后就可以运行train.py开始训练了，在训练多个epoch后，权值会生成在logs文件夹中。  \n\n4. 训练结果预测  \n训练结果预测需要用到两个文件，分别是yolo.py和predict.py。在yolo.py里面修改model_path以及classes_path。  \n**model_path指向训练好的权值文件，在logs文件夹里。  \nclasses_path指向检测类别所对应的txt。**  \n完成修改后就可以运行predict.py进行检测了。运行后输入图片路径即可检测。  \n\n## 预测步骤\n### a、使用预训练权重\n1. 下载完库后解压，在百度网盘下载权值，放入model_data，运行predict.py，输入  \n```python\nimg\u002Fstreet.jpg\n```\n2. 在predict.py里面进行设置可以进行fps测试和video视频检测。  \n### b、使用自己训练的权重\n1. 按照训练步骤训练。  \n2. 在yolo.py文件里面，在如下部分修改model_path和classes_path使其对应训练好的文件；**model_path对应logs文件夹下面的权值文件，classes_path是model_path对应分的类**。  \n```python\n_defaults = {\n    #--------------------------------------------------------------------------#\n    #   使用自己训练好的模型进行预测一定要修改model_path和classes_path！\n    #   model_path指向logs文件夹下的权值文件，classes_path指向model_data下的txt\n    #\n    #   训练好后logs文件夹下存在多个权值文件，选择验证集损失较低的即可。\n    #   验证集损失较低不代表mAP较高，仅代表该权值在验证集上泛化性能较好。\n    #   如果出现shape不匹配，同时要注意训练时的model_path和classes_path参数的修改\n    #--------------------------------------------------------------------------#\n    \"model_path\"        : 'model_data\u002Fyolov5_s.pth',\n    \"classes_path\"      : 'model_data\u002Fcoco_classes.txt',\n    #---------------------------------------------------------------------#\n    #   anchors_path代表先验框对应的txt文件，一般不修改。\n    #   anchors_mask用于帮助代码找到对应的先验框，一般不修改。\n    #---------------------------------------------------------------------#\n    \"anchors_path\"      : 'model_data\u002Fyolo_anchors.txt',\n    \"anchors_mask\"      : [[6, 7, 8], [3, 4, 5], [0, 1, 2]],\n    #---------------------------------------------------------------------#\n    #   输入图片的大小，必须为32的倍数。\n    #---------------------------------------------------------------------#\n    \"input_shape\"       : [640, 640],\n    #------------------------------------------------------#\n    #   所使用的YoloV5的版本。s、m、l、x\n    #------------------------------------------------------#\n    \"phi\"               : 's',\n    #---------------------------------------------------------------------#\n    #   只有得分大于置信度的预测框会被保留下来\n    #---------------------------------------------------------------------#\n    \"confidence\"        : 0.5,\n    #---------------------------------------------------------------------#\n    #   非极大抑制所用到的nms_iou大小\n    #---------------------------------------------------------------------#\n    \"nms_iou\"           : 0.3,\n    #---------------------------------------------------------------------#\n    #   该变量用于控制是否使用letterbox_image对输入图像进行不失真的resize，\n    #   在多次测试后，发现关闭letterbox_image直接resize的效果更好\n    #---------------------------------------------------------------------#\n    \"letterbox_image\"   : True,\n    #-------------------------------#\n    #   是否使用Cuda\n    #   没有GPU可以设置成False\n    #-------------------------------#\n    \"cuda\"              : True,\n}\n```\n3. 运行predict.py，输入  \n```python\nimg\u002Fstreet.jpg\n```\n4. 在predict.py里面进行设置可以进行fps测试和video视频检测。  \n\n## 评估步骤 \n### a、评估VOC07+12的测试集\n1. 本文使用VOC格式进行评估。VOC07+12已经划分好了测试集，无需利用voc_annotation.py生成ImageSets文件夹下的txt。\n2. 在yolo.py里面修改model_path以及classes_path。**model_path指向训练好的权值文件，在logs文件夹里。classes_path指向检测类别所对应的txt。**  \n3. 运行get_map.py即可获得评估结果，评估结果会保存在map_out文件夹中。\n\n### b、评估自己的数据集\n1. 本文使用VOC格式进行评估。  \n2. 如果在训练前已经运行过voc_annotation.py文件，代码会自动将数据集划分成训练集、验证集和测试集。如果想要修改测试集的比例，可以修改voc_annotation.py文件下的trainval_percent。trainval_percent用于指定(训练集+验证集)与测试集的比例，默认情况下 (训练集+验证集):测试集 = 9:1。train_percent用于指定(训练集+验证集)中训练集与验证集的比例，默认情况下 训练集:验证集 = 9:1。\n3. 利用voc_annotation.py划分测试集后，前往get_map.py文件修改classes_path，classes_path用于指向检测类别所对应的txt，这个txt和训练时的txt一样。评估自己的数据集必须要修改。\n4. 在yolo.py里面修改model_path以及classes_path。**model_path指向训练好的权值文件，在logs文件夹里。classes_path指向检测类别所对应的txt。**  \n5. 运行get_map.py即可获得评估结果，评估结果会保存在map_out文件夹中。\n\n## 参考资料\nhttps:\u002F\u002Fgithub.com\u002Fqqwweee\u002Fkeras-yolo3\u002F  \nhttps:\u002F\u002Fgithub.com\u002FCartucho\u002FmAP  \nhttps:\u002F\u002Fgithub.com\u002FMa-Dan\u002Fkeras-yolo4  \nhttps:\u002F\u002Fgithub.com\u002Fultralytics\u002Fyolov5","# YOLOv5-PyTorch 快速上手指南\n\n本指南基于 `bubbliiiing\u002Fyolov5-pytorch` 仓库，帮助开发者快速在 PyTorch 环境中部署和运行 YOLOv5 目标检测模型。\n\n## 1. 环境准备\n\n### 系统要求\n- **操作系统**: Windows \u002F Linux \u002F MacOS\n- **Python**: 建议 Python 3.6 - 3.8\n- **GPU**: 推荐使用 NVIDIA GPU（需安装 CUDA），若无 GPU 可设置为 CPU 模式运行。\n\n### 前置依赖\n核心依赖为 PyTorch。根据原文要求，基础版本需满足：\n```bash\ntorch==1.2.0\n```\n*注：实际使用中建议使用较新的稳定版 PyTorch（如 1.7+ 或 2.0+）以获得更好的性能支持，但需确保代码兼容性。*\n\n其他依赖库通常包含在 `requirements.txt` 中（若仓库提供），或通过以下命令安装常用图像处理库：\n```bash\npip install opencv-python pillow numpy matplotlib\n```\n\n## 2. 安装步骤\n\n### 第一步：克隆仓库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov5-pytorch.git\ncd yolov5-pytorch\n```\n\n### 第二步：下载预训练权重\n本项目提供百度网盘下载链接，国内用户下载速度更快。\n- **链接**: https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1gPDsDVX1lbcSNqCKsvzz0A\n- **提取码**: `3mjs`\n\n下载完成后，将权值文件（如 `yolov5_s.pth`）放入项目根目录下的 `model_data` 文件夹中。\n\n### 第三步：配置预测参数\n打开 `predict.py` 文件（或根据新版结构修改 `yolo.py` 中的 `_defaults` 字典），确保以下关键路径配置正确：\n\n```python\n_defaults = {\n    # 指向下载的权值文件\n    \"model_path\"        : 'model_data\u002Fyolov5_s.pth',\n    # 指向类别文件，COCO 数据集使用 coco_classes.txt，VOC 使用 voc_classes.txt\n    \"classes_path\"      : 'model_data\u002Fcoco_classes.txt',\n    # 输入图片大小，必须为 32 的倍数\n    \"input_shape\"       : [640, 640],\n    # 模型版本：s, m, l, x\n    \"phi\"               : 's',\n    # 是否使用 CUDA，无 GPU 请设为 False\n    \"cuda\"              : True,\n}\n```\n\n## 3. 基本使用\n\n### 单张图片预测\n完成上述配置后，直接运行预测脚本。程序会提示输入图片路径。\n\n```bash\npython predict.py\n```\n\n当出现 `Input img location:` 提示时，输入图片相对路径，例如：\n```text\nimg\u002Fstreet.jpg\n```\n程序将在控制台输出检测结果，并在 `img` 目录下保存标注后的图片。\n\n### 视频检测与 FPS 测试\n在 `predict.py` 源码中修改相关标志位（通常涉及 `video_path` 或 `fps_test` 参数），即可对视频文件进行检测或测算帧率。\n\n### 训练自己的数据集（简述）\n若需训练自定义数据（VOC 格式）：\n1. 将图片放入 `VOCdevkit\u002FVOC2007\u002FJPEGImages`，标签放入 `VOCdevkit\u002FVOC2007\u002FAnnotations`。\n2. 修改 `model_data\u002Fcls_classes.txt` 填入你的类别名称。\n3. 修改 `voc_annotation.py` 中的 `classes_path` 指向该 txt 文件，并运行生成数据集列表：\n   ```bash\n   python voc_annotation.py\n   ```\n4. 确认 `train.py` 中的 `classes_path` 已更新，开始训练：\n   ```bash\n   python train.py\n   ```\n5. 训练产生的权值位于 `logs` 文件夹，将其路径更新至 `predict.py` 即可进行自定义预测。","某智慧农业团队需要开发一套系统，自动识别温室大棚中番茄植株的叶片病害（如早疫病、斑枯病），以便指导精准喷药。\n\n### 没有 yolov5-pytorch 时\n- **算法复现门槛高**：团队需从零编写复杂的 YOLOv5 网络结构、损失函数及锚框计算逻辑，极易因代码错误导致模型不收敛。\n- **训练配置繁琐**：缺乏现成的多 GPU 加速和自适应学习率调整机制，训练大尺寸数据集耗时极长且显存容易溢出。\n- **自定义数据困难**：将自采的田间照片转换为模型可训练的 VOC 格式缺乏自动化脚本，人工标注与格式转换耗费数周时间。\n- **部署验证周期长**：缺少标准化的预测接口（predict.py），每次验证新模型效果都需要重新编写推理代码，难以快速迭代。\n\n### 使用 yolov5-pytorch 后\n- **开箱即用架构**：直接调用仓库中成熟的 s\u002Fm\u002Fl\u002Fx 各版本源码，无需关注底层数学推导，当天即可启动首个 baseline 模型训练。\n- **高效训练加速**：利用内置的多 GPU 支持、EMA（指数移动平均）及根据 batch_size 自适应调整学习率的功能，训练速度提升显著且模型精度更高。\n- **便捷数据接入**：通过修改 `voc_annotation.py` 脚本，快速将自定义的番茄病害图片集转化为标准训练列表，半天内完成数据准备。\n- **标准化推理流程**：仅需在 `yolo.py` 中指定训练好的权重路径和类别文件，运行 `predict.py` 即可立即输出带框检测结果，支持视频流实时测试。\n\nyolov5-pytorch 将原本需要数月研发的算法工程压缩至数天完成，让团队能专注于业务数据优化而非重复造轮子。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbubbliiiing_yolov5-pytorch_9209a16f.png","bubbliiiing","Bubbliiiing","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fbubbliiiing_ad57dd39.jpg","Bubbliiiing哔哩哔哩空间： \r\nhttps:\u002F\u002Fspace.bilibili.com\u002F472467171   ",null,"https:\u002F\u002Fblog.csdn.net\u002Fweixin_44791964","https:\u002F\u002Fgithub.com\u002Fbubbliiiing",[83],{"name":84,"color":85,"percentage":86},"Python","#3572A5",100,1153,187,"2026-03-30T03:36:48","GPL-3.0","未说明","非必需（代码中 cuda 参数可设为 False），若使用 GPU 需支持 CUDA（具体版本未说明，但依赖 torch==1.2.0，通常对应 CUDA 10.0\u002F10.1）",{"notes":94,"python":91,"dependencies":95},"该仓库基于 YOLOV5 v5.0 版本实现。官方权值为半精度，本仓库提供全精度权值。训练和预测支持 VOC 格式数据集，需自行准备或下载提供的百度网盘资源。若无 GPU，可在配置中将 'cuda' 设置为 False 运行。",[96],"torch==1.2.0",[14],"2026-03-27T02:49:30.150509","2026-04-06T14:05:08.682761",[101,106,111,116,121,126,131,136],{"id":102,"question_zh":103,"answer_zh":104,"source_url":105},19237,"运行 train.py 时提示找不到 tensorboard 模块或报错 ImportError，如何解决？","这是因为环境中未安装 tensorboard。请执行命令 `pip install tensorboard` 进行安装。如果问题依旧，建议升级环境，推荐使用 PyTorch 1.8.0 和 Python 3.8.5 及以上版本。","https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov5-pytorch\u002Fissues\u002F18",{"id":107,"question_zh":108,"answer_zh":109,"source_url":110},19238,"训练自己的数据集时损失值（loss）变为 nan，即使调小学习率也无法解决，怎么办？","出现 nan 通常是因为学习率过大导致梯度爆炸。尝试将学习率进一步调小一个数量级（例如从 0.01 调整为 0.001 或更小）。同时检查数据标注是否有异常值。","https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov5-pytorch\u002Fissues\u002F15",{"id":112,"question_zh":113,"answer_zh":114,"source_url":115},19239,"代码中的锚框（Anchors）是自适应生成的吗？如何设置适合自己的数据集？","代码中默认使用的锚框是预设的，并非完全自适应。所谓的“自适应”通常指使用 K-Means 聚类算法。用户可以在训练前对自己的数据集运行 K-Means 算法生成新的锚框，并替换代码中的默认值以获得更好的效果。","https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov5-pytorch\u002Fissues\u002F3",{"id":117,"question_zh":118,"answer_zh":119,"source_url":120},19240,"为什么提供的预训练模型文件（.pth）比官方 YOLOv5 的模型文件（.pt）大很多？","文件大小差异主要是因为保存精度不同。官方模型通常保存为半精度（FP16），而本项目提供的模型默认为单精度（FP32），因此体积较大。这不影响使用，如需减小体积可自行转换为半精度保存。","https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov5-pytorch\u002Fissues\u002F30",{"id":122,"question_zh":123,"answer_zh":124,"source_url":125},19241,"在 VOC 数据集上该模型的 mAP 是多少？为什么我自己跑出来的分数较低？","在 VOC 数据集上，该模型的 mAP 大约在 85% 左右。如果你从头训练只跑到 78% 左右，可能是因为没有使用预训练权重。建议使用作者提供的预训练模型进行微调（Transfer Learning），通常能获得更高的精度。","https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov5-pytorch\u002Fissues\u002F38",{"id":127,"question_zh":128,"answer_zh":129,"source_url":130},19242,"Mosaic 数据增强代码中 `box[:, [0,2]] = iw - box[:, [2,0]]` 这一行是什么意思？","这行代码的作用是进行图像的左右翻转（水平镜像）。它通过交换边界框的 xmin 和 xmax 坐标，并用图像宽度（iw）减去它们，来实现翻转后边界框位置的重新计算。","https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov5-pytorch\u002Fissues\u002F88",{"id":132,"question_zh":133,"answer_zh":134,"source_url":135},19243,"训练过程正常且 Loss 很低，但使用 predict.py 预测时检测不到任何目标，可能是什么原因？","这是一个已知问题，通常由以下原因导致：1. 预测脚本中的模型路径或类别文件路径配置错误；2. 训练生成的权重文件与预测代码中的模型结构定义不匹配（如 key 不匹配）；3. 阈值设置过高。请仔细检查 `model_path` 和 `classes_path` 是否指向正确，并确认权重文件已正确加载。","https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov5-pytorch\u002Fissues\u002F23",{"id":137,"question_zh":138,"answer_zh":139,"source_url":140},19244,"训练过程中因 callbacks.py 文件报错，涉及 tensorboard 绘图或 dummy_input 定义错误，如何处理？","如果在服务器端训练并遇到 tensorboard 相关报错，确保已安装 tensorboard。如果是 `dummy_input` 维度导致的 graph 绘制错误，可以尝试注释掉 `self.writer.add_graph` 相关代码，或者调整 `dummy_input` 的尺寸以匹配当前模型的输入要求。这通常不影响核心训练逻辑。","https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fyolov5-pytorch\u002Fissues\u002F2",[142,147,152,157],{"id":143,"version":144,"summary_zh":145,"released_at":146},117251,"v2.2","## 重要更新\n- 增加了训练时的评估功能，可在train.py中开关该功能或调整评估周期。\n- 更新了评估代码，支持设置计算召回率（Recall）和精确率（Precision）的阈值。\n- 在summary.py中新增了网络各类参数的计算功能。\n- 增加了保存模型权重的方法，包括保存损失最低时的权重、最近一次保存的权重等。\n- 新增了大量注释。","2022-07-16T08:18:21",{"id":148,"version":149,"summary_zh":150,"released_at":151},117252,"v2.1","## 更新特点\n- 支持多GPU训练，DP和DDP均可。\n- 新增各个种类目标数量计算，在predict.py中的count开启。\n- 新增heatmap，支持热力图预测。\n- 将正样本匹配过程加入dataloader，加快正样本匹配速度，加强训练速度。\n- 加入EMA，训练效果得到提升。\n- 修复EMA在Init_epoch不为0时的bug。","2022-04-17T02:23:24",{"id":153,"version":154,"summary_zh":155,"released_at":156},117253,"v1.3","## 仓库特点\n- 支持不同尺寸模型训练，分别为s、m、l、x版本的yolov5。\n- 支持step、cos学习率下降法。\n- 支持adam、sgd优化器选择。\n- 支持学习率根据batch_size自适应调整。\n- 支持不同预测模式的选择，单张图片预测、文件夹预测、视频预测、图片裁剪。\n- 更新summary.py文件，用于观看网络结构。\n- 增加了.gitignore。","2022-02-19T12:28:54",{"id":158,"version":159,"summary_zh":79,"released_at":160},117254,"v1.0","2022-01-15T10:42:54"]