[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-airctic--icevision":3,"tool-airctic--icevision":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",155373,2,"2026-04-14T11:34:08",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":72,"owner_avatar_url":73,"owner_bio":74,"owner_company":75,"owner_location":75,"owner_email":76,"owner_twitter":75,"owner_website":75,"owner_url":77,"languages":78,"stars":91,"forks":92,"last_commit_at":93,"license":94,"difficulty_score":32,"env_os":95,"env_gpu":96,"env_ram":96,"env_deps":97,"category_tags":106,"github_topics":107,"view_count":32,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":124,"updated_at":125,"faqs":126,"releases":156},7438,"airctic\u002Ficevision","icevision","An Agnostic Computer Vision Framework - Pluggable to any Training Library: Fastai, Pytorch-Lightning with more to come","IceVision 是一个灵活的计算机视觉框架，旨在简化从数据准备到模型训练的全流程。它解决了开发者在不同深度学习库之间切换困难、模型复用性差以及数据清洗繁琐等痛点。通过提供统一的接口，IceVision 让用户能够轻松调用来自 Torchvision、MMDetection、YOLOv5 和 EfficientDet 等主流库的数百个高质量预训练模型，并无缝衔接 PyTorch-Lightning 或 Fastai 等训练引擎进行高效开发。\n\n这款工具特别适合计算机视觉领域的研究人员、算法工程师及开发者使用，尤其是那些希望快速验证想法、对比不同模型性能或构建多任务（如同时进行检测、分割和分类）系统的团队。IceVision 的独特亮点在于其“框架无关”的设计理念，不仅支持插件式的数据变换以增强模型泛化能力，还内置了自动数据修复功能和探索性数据分析仪表盘，帮助用户更直观地理解数据分布。无论是初学者还是资深专家，都能借助 IceVision 降低技术门槛，专注于核心算法的创新与优化，从而更高效地完成视觉任务的原型开发与落地应用。","\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fairctic_icevision_readme_35af6183dce0.png\" alt=\"logo\" width=\"535px\" style=\"display: block; margin-left: auto; margin-right: auto\"\u002F>\n  \u003Ch2>\u003Cb>An Agnostic Computer Vision Framework\u003C\u002Fb>\u003C\u002Fh2>\n\u003C\u002Fdiv>\n\n* * * * *\n\n    \n[![tests](https:\u002F\u002Fgithub.com\u002Fairctic\u002Ficevision\u002Fworkflows\u002Ftests\u002Fbadge.svg?event=push)](https:\u002F\u002Fgithub.com\u002Fairctic\u002Ficevision\u002Factions?query=workflow%3Atests)\n[![docs](https:\u002F\u002Fgithub.com\u002Fairctic\u002Ficevision\u002Fworkflows\u002Fdocs\u002Fbadge.svg)](https:\u002F\u002Fairctic.com)\n[![codecov](https:\u002F\u002Fcodecov.io\u002Fgh\u002Fairctic\u002Ficevision\u002Fbranch\u002Fmaster\u002Fgraph\u002Fbadge.svg)](https:\u002F\u002Fcodecov.io\u002Fgh\u002Fairctic\u002Ficevision)\n[![PyPI version](https:\u002F\u002Fbadge.fury.io\u002Fpy\u002Ficevision.svg)](https:\u002F\u002Fbadge.fury.io\u002Fpy\u002Ficevision)\n[![Downloads](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fairctic_icevision_readme_75a79299fd9d.png)](https:\u002F\u002Fpepy.tech\u002Fproject\u002Ficevision)\n\n[![black](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fcode%20style-black-000000.svg)](https:\u002F\u002Fgithub.com\u002Fpsf\u002Fblack)\n[![license](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache%202.0-blue.svg)](https:\u002F\u002Fgithub.com\u002Fairctic\u002Ficevision\u002Fblob\u002Fmaster\u002FLICENSE)\n[![Discord](https:\u002F\u002Fimg.shields.io\u002Fdiscord\u002F735877944085446747?label=Discord&logo=Discord)](https:\u002F\u002Fdiscord.gg\u002F2jqrwrQ)\n\n\u003C\u002Fdiv>\n\n\n* * * * *\n\nIceVision is the first agnostic computer vision framework to offer a curated collection with hundreds of high-quality pre-trained models from [Torchvision](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Fvision), Open MMLab's [MMDetection](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmdetection), Ultralytic's [YOLOv5](https:\u002F\u002Fgithub.com\u002Fultralytics\u002Fyolov5), Ross Wightman's [EfficientDet](https:\u002F\u002Fgithub.com\u002Frwightman\u002Fefficientdet-pytorch) and soon PyTorch Image Models. It orchestrates the end-to-end deep learning workflow allowing to train networks with easy-to-use robust high-performance libraries such as [PyTorch-Lightning](https:\u002F\u002Fgithub.com\u002FPyTorchLightning\u002Fpytorch-lightning) and [Fastai](https:\u002F\u002Fgithub.com\u002Ffastai\u002Ffastai).\n\n**IceVision Unique Features:**\n\n- Data curation\u002Fcleaning with auto-fix\n\n- Access to an exploratory data analysis dashboard\n\n- Pluggable transforms for better model generalization \n\n- Access to hundreds of neural net models\n\n- Access to multiple training loop libraries\n\n- Multi-task training to efficiently combine object detection, segmentation, and classification models \n\n\u003C!-- Not included in docs - start -->\n\n## Installation\n\n```bash\npip install icevision[all]\n```\n\nFor more installation options, check our [docs](https:\u002F\u002Fairctic.com\u002F0.7.0\u002Finstall\u002F).\n\n**Important:** We currently only support Linux\u002FMacOS.\n\u003C!-- Not included in docs - end -->\n\n## Quick Example: How to train the **Fridge Objects Dataset**\n\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fairctic\u002Ficevision\u002Fblob\u002Fmaster\u002Fnotebooks\u002Fgetting_started_object_detection.ipynb\" target=\"_parent\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"Open In Colab\"\u002F>\u003C\u002Fa>\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fairctic_icevision_readme_c508fce5acf4.png)\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fairctic_icevision_readme_58db8f01831d.gif)\n\n## Happy Learning!\nIf you need any assistance, feel free to:\n\n[Join our Forum](https:\u002F\u002Fdiscord.gg\u002FJDBeZYK)\n","\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fairctic_icevision_readme_35af6183dce0.png\" alt=\"logo\" width=\"535px\" style=\"display: block; margin-left: auto; margin-right: auto\"\u002F>\n  \u003Ch2>\u003Cb>一种agnostic的计算机视觉框架\u003C\u002Fb>\u003C\u002Fh2>\n\u003C\u002Fdiv>\n\n* * * * *\n\n    \n[![tests](https:\u002F\u002Fgithub.com\u002Fairctic\u002Ficevision\u002Fworkflows\u002Ftests\u002Fbadge.svg?event=push)](https:\u002F\u002Fgithub.com\u002Fairctic\u002Ficevision\u002Factions?query=workflow%3Atests)\n[![docs](https:\u002F\u002Fgithub.com\u002Fairctic\u002Ficevision\u002Fworkflows\u002Fdocs\u002Fbadge.svg)](https:\u002F\u002Fairctic.com)\n[![codecov](https:\u002F\u002Fcodecov.io\u002Fgh\u002Fairctic\u002Ficevision\u002Fbranch\u002Fmaster\u002Fgraph\u002Fbadge.svg)](https:\u002F\u002Fcodecov.io\u002Fgh\u002Fairctic\u002Ficevision)\n[![PyPI version](https:\u002F\u002Fbadge.fury.io\u002Fpy\u002Ficevision.svg)](https:\u002F\u002Fbadge.fury.io\u002Fpy\u002Ficevision)\n[![Downloads](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fairctic_icevision_readme_75a79299fd9d.png)](https:\u002F\u002Fpepy.tech\u002Fproject\u002Ficevision)\n\n[![black](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fcode%20style-black-000000.svg)](https:\u002F\u002Fgithub.com\u002Fpsf\u002Fblack)\n[![license](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache%202.0-blue.svg)](https:\u002F\u002Fgithub.com\u002Fairctic\u002Ficevision\u002Fblob\u002Fmaster\u002FLICENSE)\n[![Discord](https:\u002F\u002Fimg.shields.io\u002Fdiscord\u002F735877944085446747?label=Discord&logo=Discord)](https:\u002F\u002Fdiscord.gg\u002F2jqrwrQ)\n\n\u003C\u002Fdiv>\n\n\n* * * * *\n\nIceVision 是首个agnostic的计算机视觉框架，提供由数百个高质量预训练模型组成的精选集合，这些模型来自 [Torchvision](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Fvision)、Open MMLab 的 [MMDetection](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmdetection)、Ultralytic 的 [YOLOv5](https:\u002F\u002Fgithub.com\u002Fultralytics\u002Fyolov5)、Ross Wightman 的 [EfficientDet](https:\u002F\u002Fgithub.com\u002Frwightman\u002Fefficientdet-pytorch)，以及即将加入的 PyTorch Image Models。它协调端到端的深度学习工作流，允许使用易于使用、健壮且高性能的库（如 [PyTorch-Lightning](https:\u002F\u002Fgithub.com\u002FPyTorchLightning\u002Fpytorch-lightning) 和 [Fastai](https:\u002F\u002Fgithub.com\u002Ffastai\u002Ffastai)）来训练网络。\n\n**IceVision 独特功能：**\n\n- 自动修复的数据整理\u002F清洗\n- 可访问的探索性数据分析仪表板\n- 可插拔的变换以提高模型泛化能力\n- 可访问数百种神经网络模型\n- 可访问多种训练循环库\n- 多任务训练，可高效地结合目标检测、分割和分类模型\n\n\u003C!-- 未包含在文档中 - 开始 -->\n\n## 安装\n\n```bash\npip install icevision[all]\n```\n\n更多安装选项，请查看我们的 [文档](https:\u002F\u002Fairctic.com\u002F0.7.0\u002Finstall\u002F)。\n\n**重要提示：** 我们目前仅支持 Linux\u002FMacOS。\n\u003C!-- 未包含在文档中 - 结束 -->\n\n## 快速示例：如何训练“冰箱物体数据集”\n\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fairctic\u002Ficevision\u002Fblob\u002Fmaster\u002Fnotebooks\u002Fgetting_started_object_detection.ipynb\" target=\"_parent\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"在 Colab 中打开\"\u002F>\u003C\u002Fa>\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fairctic_icevision_readme_c508fce5acf4.png)\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fairctic_icevision_readme_58db8f01831d.gif)\n\n## 祝您学习愉快！\n如果您需要任何帮助，请随时：\n\n[加入我们的论坛](https:\u002F\u002Fdiscord.gg\u002FJDBeZYK)","# IceVision 快速上手指南\n\nIceVision 是一个通用的计算机视觉框架，集成了来自 Torchvision、MMDetection、YOLOv5、EfficientDet 等库的数百个高质量预训练模型。它支持使用 PyTorch-Lightning 和 Fastai 进行端到端的深度学习工作流，涵盖数据清洗、探索性分析、数据增强及多任务训练（检测、分割、分类）。\n\n## 环境准备\n\n在开始之前，请确保满足以下系统要求：\n\n*   **操作系统**：仅支持 **Linux** 或 **macOS**（暂不支持 Windows）。\n*   **Python 版本**：建议 Python 3.7+。\n*   **前置依赖**：已安装 `pip` 包管理工具。\n\n> **提示**：国内开发者若遇到网络连接问题，建议在安装前配置国内镜像源（如清华源或阿里源）以加速下载。\n\n## 安装步骤\n\n### 1. 基础安装\n运行以下命令安装包含所有核心依赖的完整版本：\n\n```bash\npip install icevision[all]\n```\n\n### 2. 使用国内镜像加速（推荐）\n如果直接安装速度较慢或失败，请使用以下命令通过清华镜像源安装：\n\n```bash\npip install icevision[all] -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n> 更多详细的安装选项（如仅安装特定后端），请参阅官方文档：https:\u002F\u002Fairctic.com\u002F0.7.0\u002Finstall\u002F\n\n## 基本使用\n\nIceVision 的核心优势在于统一的接口。以下以训练经典的 **Fridge Objects Dataset**（冰箱物体检测数据集）为例，展示最简化的工作流程。\n\n### 快速体验 (Google Colab)\n您可以直接在浏览器中运行完整的示例 Notebook，无需本地配置环境：\n\n[![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fairctic\u002Ficevision\u002Fblob\u002Fmaster\u002Fnotebooks\u002Fgetting_started_object_detection.ipynb)\n\n### 本地代码示例逻辑\n\n在本地环境中，典型的使用流程如下：\n\n1.  **导入模块**：引入 `icevision` 及相关后端（如 `mmdet` 或 `torchvision`）。\n2.  **数据解析**：使用内置解析器加载数据集（自动处理标注格式）。\n3.  **数据增强**：应用预设的变换管道（Transforms）。\n4.  **模型构建**：选择预训练模型并实例化。\n5.  **训练启动**：调用训练器开始训练。\n\n以下是概念性代码结构（具体类名需根据所选后端导入）：\n\n```python\nfrom icevision.all import *\n\n# 1. 解析数据 (以 COCO 格式为例)\nparser = parsers.COCODatasetParser(...)\nrecords = parser.parse()\n\n# 2. 划分数据集\ntrain_records, valid_records = split_ds(records)\n\n# 3. 定义数据增强\ntfms = tfms_from_model(model_type, image_size, aug_tfms=...)\n\n# 4. 创建 DataLoaders\ntrain_dl = model_type.train_dl(train_records, batch_size=8, num_workers=4, tfms=tfms)\nvalid_dl = model_type.valid_dl(valid_records, batch_size=8, num_workers=4, tfms=tfms)\n\n# 5. 初始化模型\nmodel = model_type.model(num_classes=len(parser.class_map))\n\n# 6. 开始训练 (基于 PyTorch Lightning 或 Fastai)\ntrainer = pl.Trainer(max_epochs=10)\ntrainer.fit(model, train_dl, valid_dl)\n```\n\n祝您学习愉快！如需更多帮助，欢迎加入社区论坛交流。","某电商初创公司的算法工程师需要在两周内构建一个能同时识别商品类别、定位位置并分割瑕疵区域的智能质检系统。\n\n### 没有 icevision 时\n- **模型选型困难**：团队需在 Torchvision、MMDetection 和 YOLOv5 等多个独立库中反复切换测试，环境配置冲突频发，难以快速对比不同架构的效果。\n- **数据清洗耗时**：面对标注格式混乱的历史数据，工程师需手动编写大量脚本进行格式转换和错误修复，占据了 60% 的开发时间。\n- **多任务开发割裂**：想要同时训练检测、分割和分类模型，必须分别搭建三套完全不同的训练流水线，代码复用率极低且维护成本高昂。\n- **实验迭代缓慢**：由于缺乏统一的探索性数据分析（EDA）看板，难以直观发现数据分布问题，导致模型调优如同“盲人摸象”。\n\n### 使用 icevision 后\n- **一站式模型调用**：icevision 直接集成了数百个来自主流库的预训练模型，工程师只需几行代码即可无缝切换 backbone，在统一环境中高效完成架构选型。\n- **自动化数据治理**：利用其内置的数据清洗与自动修复功能，杂乱的历史标注被瞬间标准化，并通过可视化仪表盘快速定位异常样本，数据准备时间缩短至原来的 1\u002F5。\n- **统一多任务训练**：借助 icevision 的多任务训练特性，团队在一个框架内即可组合对象检测、实例分割和图像分类任务，共享数据加载与增强逻辑，大幅精简了代码结构。\n- **灵活训练后端**：通过插拔式适配 PyTorch-Lightning 或 Fastai，工程师能直接复用成熟的高性能训练循环，专注于策略优化而非底层工程实现。\n\nicevision 通过屏蔽底层框架差异与提供端到端工作流，让团队将精力从繁琐的工程整合回归到核心的算法创新上。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fairctic_icevision_35af6183.png","airctic","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fairctic_17fdf1ca.png","ice simple",null,"icevision@arctic.com","https:\u002F\u002Fgithub.com\u002Fairctic",[79,83,87],{"name":80,"color":81,"percentage":82},"Python","#3572A5",99.5,{"name":84,"color":85,"percentage":86},"Shell","#89e051",0.4,{"name":88,"color":89,"percentage":90},"Dockerfile","#384d54",0.1,868,148,"2026-04-09T14:10:32","Apache-2.0","Linux, macOS","未说明",{"notes":98,"python":96,"dependencies":99},"目前仅支持 Linux 和 macOS 系统，不支持 Windows。该框架集成了多个主流计算机视觉库（如 Torchvision, MMDetection, YOLOv5 等）及训练框架（PyTorch-Lightning, Fastai）。具体安装选项需参考官方文档。",[100,101,102,103,104,105],"torchvision","mmdetection","yolov5","efficientdet-pytorch","pytorch-lightning","fastai",[16,15,13,14],[108,109,110,104,111,105,112,113,114,115,116,117,118,119,120,121,122,123],"object-detection","deep-learning","pytorch","python","ai","computer-vision","effecientdet","faster-rcnn","mask-rcnn","annotation-parsers","tutorials","coco-parser","voc-parser","pycocotools","coco-dataset","voc-dataset","2026-03-27T02:49:30.150509","2026-04-14T20:36:44.473355",[127,132,137,142,146,151],{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},33378,"遇到 'ValueError: Caught ValueError in DataLoader worker process 0' 错误，且提示边界框坐标问题，该如何解决？","该错误通常由 albumentations 库抛出，原因是数据集中至少有一个边界框（bbox）的坐标超出了图像的实际尺寸。albumentations 期望归一化的坐标（0 到 1.0 之间），如果原始坐标大于图像宽高会导致此错误。\n\n解决步骤：\n1. 检查所有图像尺寸是否一致。如果一致，查找 xmax 或 ymax 超过图像宽高的边界框。\n2. 如果图像尺寸不一致，需要逐个打开图像，检查对应的边界框是否超出该图像的尺寸。\n3. 对边界框坐标进行裁剪（clip），确保它们始终在图像尺寸范围内。","https:\u002F\u002Fgithub.com\u002Fairctic\u002Ficevision\u002Fissues\u002F365",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},33379,"在进行预测时遇到内存泄漏或 CUDA OOM（显存溢出）错误，应该如何处理？","预测对象如果包含对图像数组的引用，并在工作流中累积（例如在 COCOMetric 中），会导致内存泄漏。\n\n解决方案是改用 `predict_from_dl` 方法代替 `predict_batch`。示例代码如下：\n\n```python\npreds = model_type.predict_from_dl(model, infer_dl, keep_images=True)\n```\n\n许多用户反馈切换到该方法后，CUDA OOM 错误完全消失。","https:\u002F\u002Fgithub.com\u002Fairctic\u002Ficevision\u002Fissues\u002F692",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},33380,"如何在使用 EfficientDet 模型进行迁移学习时，解决加载预训练模型时的维度不匹配或 RuntimeError 错误？","在 EfficientDet 的验证批次构建中，需要传递变换后的图像尺寸而不是原始记录中的尺寸，以适配 EfficientDet 内部的缩放和重置大小逻辑。\n\n请修改 `build_valid_batch` 函数，将 `img_size` 的设置改为获取变换后图像的形状：\n\n```python\ndef build_valid_batch(records, batch_tfms=None):\n    (images, targets), records = build_train_batch(\n        records=records, batch_tfms=batch_tfms\n    )\n\n    # 传递变换后的图像尺寸给 efficientdet，这是其内部缩放所必需的\n    targets[\"img_size\"] = tensor([image.shape[-2:] for image in images], dtype=torch.float)\n    targets[\"img_scale\"] = tensor([1] * len(records), dtype=torch.float)\n\n    return (images, targets), records\n```\n\n注意不要使用记录中的 `height` 和 `width`，因为那可能未反映当前的变换状态。","https:\u002F\u002Fgithub.com\u002Fairctic\u002Ficevision\u002Fissues\u002F615",{"id":143,"question_zh":144,"answer_zh":145,"source_url":131},33381,"使用 BBox.fromxywh 创建的边界框在显示时无法贴合物体，但使用 BBox.fromxyxy 却正常，这是为什么？","这通常是因为坐标格式混淆导致的。`fromxywh` 接受的是 (xmin, ymin, width, height)，而 `fromxyxy` 接受的是 (xmin, ymin, xmax, ymax)。\n\n如果在调用 `fromxywh` 时误传了 (xmin, ymin, xmax, ymax) 格式的数据，会导致计算出的边界框范围错误（例如 xmax 被当作宽度），从而无法贴合物体。请确保传入 `fromxywh` 的参数确实是宽度和高度，或者直接使用 `fromxyxy` 如果你已有左上角和右下角坐标。此外，还需检查是否有坐标超出图像尺寸（参考 ValueError 相关问题的解决方案）。",{"id":147,"question_zh":148,"answer_zh":149,"source_url":150},33382,"IceVision 是否支持自动缓存解析后的数据集记录以避免每次重复解析？","是的，项目决定默认启用保存\u002F缓存功能，不再提供可选开关。维护者认为：如果数据集很大，保存缓存非常有意义；如果数据集很小，保存带来的开销也很小。因此策略是“直接保存”（We save, period），以简化用户操作并提升大数据集的加载效率。用户无需额外配置，解析后的数据会被自动缓存。","https:\u002F\u002Fgithub.com\u002Fairctic\u002Ficevision\u002Fissues\u002F4",{"id":152,"question_zh":153,"answer_zh":154,"source_url":155},33383,"在使用 RandomSplitter 分割 WheatParser 数据集时遇到 'TypeError: Can't instantiate abstract class' 错误，该怎么办？","该错误表明自定义 Parser 类（如 WheatParser）未正确实现所有必需的抽象方法（如 `bboxes` 和 `labels`）。\n\n虽然具体修复代码需参考相关 PR 或 Issue #222，但通用解决方法是：\n1. 确保你的 Parser 类继承自正确的基类。\n2. 必须实现基类中定义的所有抽象方法，特别是 `bboxes()` 和 `labels()`，即使它们返回空列表也要定义。\n3. 检查 `filepath` 方法的返回类型是否正确（应为 str 或 Path）。\n\n建议查看官方文档或 Issue #222 中的讨论，获取针对 WheatParser 的具体修复代码示例。","https:\u002F\u002Fgithub.com\u002Fairctic\u002Ficevision\u002Fissues\u002F214",[157,161,165,169,173,178,182,186,191,195,199,203,207,211,216,220,225,229,234,239],{"id":158,"version":159,"summary_zh":75,"released_at":160},255577,"0.12.0","2022-02-10T15:53:08",{"id":162,"version":163,"summary_zh":75,"released_at":164},255578,"0.11.0","2021-11-19T20:15:58",{"id":166,"version":167,"summary_zh":75,"released_at":168},255579,"0.9.0a1","2021-09-09T18:27:32",{"id":170,"version":171,"summary_zh":75,"released_at":172},255580,"0.8.1","2021-07-06T16:22:32",{"id":174,"version":175,"summary_zh":176,"released_at":177},255581,"0.8.0","支持 PyTorch 1.8\n### 新增\n- `COCOMetric` 中的 `iou_thresholds` 参数\n- `SimpleConfusionMatrix` 指标\n- YOLOv5 的负样本支持\n- MMDetection 目标检测模型的负样本支持\n\n### 变更\n- **破坏性变更：** Albumentations 的 `aug_tfms` 默认值。\n  - `rotate_limit` 由 45 度改为 15 度\n  - `rgb_shift_limit` 由 20 改为 10\n  - VOC 数据集解析器现在使用标注文件中的图像尺寸，而非图像本身的尺寸\n  - 将 FastAI 升级到最新版本（低于 2.4）","2021-05-12T15:29:33",{"id":179,"version":180,"summary_zh":75,"released_at":181},255582,"0.8.0rc1","2021-05-12T14:35:27",{"id":183,"version":184,"summary_zh":75,"released_at":185},255583,"0.7.1a1","2021-04-29T00:38:39",{"id":187,"version":188,"summary_zh":189,"released_at":190},255584,"0.7.0","## [0.7.0]\n**重大变更**：API 重构\n\n### 新增\n- mmdetection 模型的指标\n\n### 变更\n- **重大变更**：将任务名称 `default,detect,classif` 重命名为 `common,detection,classification`\n- **重大变更**：将 `imageid` 重命名为 `record_id`\n- **重大变更**：在 `Parser.parse_fields` 中新增参数 `is_new`\n- 移除了可视化功能中对 `cv2` 的所有依赖\n- 使用新的复合 API 进行可视化——支持用户自定义任务名称及多任务场景\n- 向 `icevision.visualize.draw_data.draw_sample` 添加了大量可视化增强功能，用户现在可以：\n  - 使用自定义字体\n  - 控制掩码的粗细\n  - 控制掩码的混合程度\n  - 美化标签——显示置信度分数并使标签首字母大写\n  - 绘制特定标签或排除特定标签\n  - 传入一个将标签映射到特定颜色的字典\n  - 控制标签相对于边界框边缘的高度和宽度间距\n  - 为标签添加边框以提高可读性（边框颜色可配置）\n\n**重大变更**：在 `LabelsRecordComponent` 中将 `labels->label_ids`、`labels_names->labels` 重命名\n- 重命名了 torchvision 中的 ResNet 主干网络：\n  - `resnet_fpn.resnet18` -> `resnet18_fpn`\n  - `resnest_fpn.resnest18` -> `resnest18_fpn`\n\n**重大变更**：向 `convert_raw_prediction` 添加了参数 `sample` 和 `keep_image`\n**重大变更**：将 `VocXmlParser` 重命名为 `VOCBBoxParser`，将 `VocMaskParser` 重命名为 `VOCMaskParser`\n**重大变更**：将 `predict_dl` 重命名为 `predict_from_dl`","2021-04-19T16:50:30",{"id":192,"version":193,"summary_zh":75,"released_at":194},255585,"0.7.0rc4","2021-04-14T22:54:34",{"id":196,"version":197,"summary_zh":75,"released_at":198},255586,"0.7.0rc3","2021-04-13T12:16:20",{"id":200,"version":201,"summary_zh":75,"released_at":202},255587,"0.7.0rc2","2021-03-29T22:58:55",{"id":204,"version":205,"summary_zh":75,"released_at":206},255588,"0.7.0rc1","2021-03-24T12:39:01",{"id":208,"version":209,"summary_zh":75,"released_at":210},255589,"0.6.0b1","2021-01-27T00:48:23",{"id":212,"version":213,"summary_zh":214,"released_at":215},255590,"0.5.2","## [0.5.2]\n\n### 新增\n- `aggregate_records_objects` 函数\n\n### 变更\n- 向 VIA 解析器添加了 `label_field`，以支持使用替代的 `region_attribute` 名称。","2021-01-03T13:21:13",{"id":217,"version":218,"summary_zh":75,"released_at":219},255591,"0.5.1","2020-12-11T00:27:57",{"id":221,"version":222,"summary_zh":223,"released_at":224},255592,"0.5.0","## [0.5.0]\n\n### 新增\n- 关键点全面支持：数据 API、模型和训练\n- VGG 图像标注工具 v2 JSON 格式边界框解析器\n- `show_record` 和 `show_sample` 添加 `figsize` 参数\n\n### 变更\n- 改进了小边界框的可视化效果\n- `COCOMetric` 现在返回 pycocotools 中的所有指标\n- 使 torchvision 模型可被 TorchScript 编译","2020-12-09T15:12:55",{"id":226,"version":227,"summary_zh":75,"released_at":228},255593,"0.4.0post1","2020-11-17T23:56:17",{"id":230,"version":231,"summary_zh":232,"released_at":233},255594,"0.4.0","## [0.4.0]\n\n### 新增\n- retinanet：模型、数据加载器、预测功能等\n\n### 变更\n- **破坏性变更**：将 models\u002Frcnn 重命名为 models\u002Ftorchvision_models\n- 将 tests\u002Fmodels\u002Frcnn 重命名为 tests\u002Fmodels\u002Ftorchvision_models","2020-11-14T14:45:28",{"id":235,"version":236,"summary_zh":237,"released_at":238},255595,"0.3.0","### 新增\n- 支持 PyTorch 1.7，所有依赖库已更新\n- 添加包含难负样本的教程\n- 增加解析时跳过记录的功能\n\n### 变更\n- `show_preds` 的可视化效果优化","2020-11-10T15:29:46",{"id":240,"version":241,"summary_zh":75,"released_at":242},255596,"0.2.2.post2","2020-11-03T02:07:20"]