[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-om-ai-lab--OmDet":3,"tool-om-ai-lab--OmDet":61},[4,18,28,37,45,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},9989,"n8n","n8n-io\u002Fn8n","n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。\n\nn8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。",184740,2,"2026-04-19T23:22:26",[16,14,13,15,27],"插件",{"id":29,"name":30,"github_repo":31,"description_zh":32,"stars":33,"difficulty_score":10,"last_commit_at":34,"category_tags":35,"status":17},10095,"AutoGPT","Significant-Gravitas\u002FAutoGPT","AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台，核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点，让用户只需设定目标，AI 即可自主规划步骤、调用工具并持续运行直至完成任务。\n\n无论是开发者、研究人员，还是希望提升工作效率的普通用户，都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体；研究人员能基于开源架构探索多智能体协作机制；而非技术背景用户也可直接选用预置的智能体模板，立即投入实际工作场景。\n\nAutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑，每个块负责单一动作，灵活且易于调试。同时，平台支持本地自托管与云端部署两种模式，兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本，即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛，让人人都能成为 AI 的创造者与受益者。",183572,"2026-04-20T04:47:55",[13,36,27,14,15],"语言模型",{"id":38,"name":39,"github_repo":40,"description_zh":41,"stars":42,"difficulty_score":10,"last_commit_at":43,"category_tags":44,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":46,"name":47,"github_repo":48,"description_zh":49,"stars":50,"difficulty_score":24,"last_commit_at":51,"category_tags":52,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":24,"last_commit_at":59,"category_tags":60,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[27,13,15,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":77,"owner_website":76,"owner_url":78,"languages":79,"stars":84,"forks":85,"last_commit_at":86,"license":87,"difficulty_score":10,"env_os":88,"env_gpu":89,"env_ram":88,"env_deps":90,"category_tags":96,"github_topics":97,"view_count":24,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":107,"updated_at":108,"faqs":109,"releases":149},10070,"om-ai-lab\u002FOmDet","OmDet","Real-time and accurate open-vocabulary end-to-end object detection","OmDet-Turbo 是一款基于 Transformer 架构的开源实时开放词汇目标检测模型。它旨在解决传统检测器只能识别固定类别的局限，让用户能够自由输入文本描述来检测图像中从未见过的物体，同时克服了以往开放词汇模型推理速度慢、计算成本高的问题。\n\n这款工具特别适合计算机视觉开发者、AI 研究人员以及需要构建灵活感知系统的工程师使用。无论是开发智能监控、机器人导航，还是进行多模态算法研究，OmDet-Turbo 都能提供强大的支持。\n\n其核心技术亮点在于引入了“高效融合头（Efficient Fusion Head）”模块。这一创新设计显著减轻了编码器的计算负担，在保持高精度检测性能的同时，大幅提升了推理速度。在 A100 GPU 上，其基础模型的帧率可达 100.2 FPS，真正实现了实时检测。此外，OmDet-Turbo 在零样本检测任务中表现卓越，已在 ODinW 和 OVDEval 等权威基准测试中取得领先成绩，并无缝集成于 Hugging Face Transformers 库中，方便用户快速调用与部署。","# OmDet-Turbo\n\n\u003Cp align=\"center\">\n \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.06892\">\u003Cstrong> [Paper 📄] \u003C\u002Fstrong>\u003C\u002Fa> \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fomlab\u002FOmDet-Turbo_tiny_SWIN_T\">\u003Cstrong> [HuggingFace Model 🗂️] \u003C\u002Fstrong>\u003C\u002Fa> \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOm_AI_Lab\u002Fomdet-turbo-swin-tiny-hf\">\u003Cstrong> [ModelScope Model 🗂️] \u003C\u002Fstrong>\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\nFast and accurate open-vocabulary end-to-end object detection\n\u003C\u002Fp>\n\n***\n## 🗓️ Updates\n* 03\u002F12\u002F2026：We are excited to announce that our models are now available on [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOm_AI_Lab\u002Fomdet-turbo-swin-tiny-hf)!\n* 09\u002F26\u002F2024：OmDet-Turbo has been integrated into Transformers version 4.45.0. The code is available at [here](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers\u002Ftree\u002Fmain\u002Fsrc\u002Ftransformers\u002Fmodels\u002Fomdet_turbo), and the Hugging Face model is available at [here](https:\u002F\u002Fhuggingface.co\u002Fomlab\u002Fomdet-turbo-swin-tiny-hf).\n* 07\u002F05\u002F2024: Our new open-source project, [OmAget: A multimodal agent framework for solving complex tasks](https:\u002F\u002Fgithub.com\u002Fom-ai-lab\u002FOmAgent) is available !!! Additionally, OmDet has been seamlessly integrated as an OVD tool within it. Feel free to delve into our innovative multimodal agent framework. \n* 06\u002F24\u002F2024: Guidance for [converting OmDet-Turbo to ONNX](https:\u002F\u002Fgithub.com\u002Fom-ai-lab\u002FOmDet#:~:text=How%20To%20Export%20ONNX%20Model)\n* 03\u002F25\u002F2024: Inference code and a pretrained OmDet-Turbo-Tiny model released.\n* 03\u002F12\u002F2024: Github open-source project created\n\n***\n## 🔗 Related Works\nIf you are interested in our research, we welcome you to explore our other wonderful projects.\n\n🔆 [How to Evaluate the Generalization of Detection? A Benchmark for Comprehensive Open-Vocabulary Detection](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.13177)(AAAI24) &nbsp;🏠[Github Repository](https:\u002F\u002Fgithub.com\u002Fom-ai-lab\u002FOVDEval\u002Ftree\u002Fmain)\n\n🔆 [OmDet: Large-scale vision-language multi-dataset pre-training with multimodal detection network](https:\u002F\u002Fietresearch.onlinelibrary.wiley.com\u002Fdoi\u002Ffull\u002F10.1049\u002Fcvi2.12268)(IET Computer Vision)\n\n***\n## 📖 Introduction\nThis repository is the official PyTorch implementation for **OmDet-Turbo**, a fast transformer-based open-vocabulary object detection model.\n\n**⭐️Highlights**\n1. **OmDet-Turbo** is a transformer-based real-time open-vocabulary\ndetector that combines strong OVD capabilities with fast inference speed.\nThis model addresses the challenges of efficient detection in open-vocabulary\nscenarios while maintaining high detection performance.\n2. We introduce the **Efficient Fusion Head**, a swift multimodal fusion module\ndesigned to alleviate the computational burden on the encoder and reduce\nthe time consumption of the head with ROI. \n3. OmDet-Turbo-Base model, achieves state-of-the-art zero-shot performance on the ODinW and OVDEval datasets, with AP scores\nof **30.1** and **26.86**, respectively. \n4. The inference speed of OmDetTurbo-Base on the COCO val2017 dataset reach **100.2** FPS on an A100 GPU.\n\nFor more details, check out our paper **[Real-time Transformer-based Open-Vocabulary Detection with Efficient Fusion Head](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.06892)**\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fom-ai-lab_OmDet_readme_a4e58bee01a7.jpeg\" alt=\"model_structure\" width=\"100%\">\n\n\n***\n## ⚡️ Inference Speed\nComparison of inference speeds for each component in tiny-size model.\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fom-ai-lab_OmDet_readme_4e7eb2f8c918.jpeg\" alt=\"speed\" width=\"100%\">\n\n***\n## 🛠️ How To Install \nFollow the [Installation Instructions](install.md) to set up the environments for OmDet-Turbo\n\n***\n## 🚀 How To Run\n### Local Inference\n1. Download our pretrained model and the [CLIP](https:\u002F\u002Fhuggingface.co\u002Fomlab\u002FOmDet-Turbo_tiny_SWIN_T\u002Fresolve\u002Fmain\u002FViT-B-16.pt?download=true) checkpoints.\n2. Create a folder named **resources**, put downloaded models into this folder.\n3. Run **run_demo.py**, the images with predicted results will be saved at **.\u002Foutputs** folder.\n### Run as a API Server\n1. Download our pretrained model and the [CLIP](https:\u002F\u002Fhuggingface.co\u002Fomlab\u002FOmDet-Turbo_tiny_SWIN_T\u002Fresolve\u002Fmain\u002FViT-B-16.pt?download=true) checkpoints.\n2. Create a folder named **resources**, put downloaded models into this folder.\n3. Run **run_wsgi.py**, the API server will be started at **http:\u002F\u002Fhost_ip:8000\u002Finf_predict**, check **http:\u002F\u002Fhost_ip:8000\u002Fdocs** to have a try.\n\nWe already added language cache while inferring with **run_demo.py**. For more details, please open and check **run_demo.py** scripts. \n\n\n***\n## ⚙️ How To Export ONNX Model\n1. Replace **OmDetV2Turbo** in **OmDet-Turbo_tiny_SWIN_T.yaml** with **OmDetV2TurboInfer**\n2. Run **export.py**, and the omdet.onnx will be exported.\n   \nIn the above example, post processing is not included in onnx model , and all input size are fixed. You can add more post processing and change the input size according to your needs.\n\n\n***\n## 📦 Model Zoo\nThe performance of COCO and LVIS are evaluated under zero-shot setting.\n\nModel | Backbone | Pre-Train Data  | COCO | LVIS | FPS (pytorch\u002Ftrt) |Weight \n-- |--------|-----------------| -- | -- |-------------------| --\nOmDet-Turbo-Tiny| Swin-T | O365,GoldG | 42.5 | 30.3 | 21.5\u002F140.0 |  [weight](https:\u002F\u002Fhuggingface.co\u002Fomlab\u002FOmDet-Turbo_tiny_SWIN_T\u002Ftree\u002Fmain)     \n\n***\n## 📝 Main Results\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fom-ai-lab_OmDet_readme_8291276223a7.png\" alt=\"main_result\" width=\"100%\">\n\n***\n## Citation\nPlease consider citing our papers if you use our projects:\n\n```\n@article{zhao2024real,\n  title={Real-time Transformer-based Open-Vocabulary Detection with Efficient Fusion Head},\n  author={Zhao, Tiancheng and Liu, Peng and He, Xuan and Zhang, Lu and Lee, Kyusong},\n  journal={arXiv preprint arXiv:2403.06892},\n  year={2024}\n}\n```\n\n```\n@article{zhao2024omdet,\n  title={OmDet: Large-scale vision-language multi-dataset pre-training with multimodal detection network},\n  author={Zhao, Tiancheng and Liu, Peng and Lee, Kyusong},\n  journal={IET Computer Vision},\n  year={2024},\n  publisher={Wiley Online Library}\n}\n```\n","# OmDet-Turbo\n\n\u003Cp align=\"center\">\n \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.06892\">\u003Cstrong> [论文 📄] \u003C\u002Fstrong>\u003C\u002Fa> \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fomlab\u002FOmDet-Turbo_tiny_SWIN_T\">\u003Cstrong> [HuggingFace 模型 🗂️] \u003C\u002Fstrong>\u003C\u002Fa> \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOm_AI_Lab\u002Fomdet-turbo-swin-tiny-hf\">\u003Cstrong> [ModelScope 模型 🗂️] \u003C\u002Fstrong>\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n快速且准确的开放词汇端到端目标检测\n\u003C\u002Fp>\n\n***\n## 🗓️ 更新\n* 2026年3月12日：我们很高兴地宣布，我们的模型现已在[ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOm_AI_Lab\u002Fomdet-turbo-swin-tiny-hf)上发布！\n* 2024年9月26日：OmDet-Turbo 已集成到 Transformers 4.45.0 版本中。代码可在[这里](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers\u002Ftree\u002Fmain\u002Fsrc\u002Ftransformers\u002Fmodels\u002Fomdet_turbo)找到，Hugging Face 模型可在[这里](https:\u002F\u002Fhuggingface.co\u002Fomlab\u002Fomdet-turbo-swin-tiny-hf)获取。\n* 2024年7月5日：我们全新的开源项目，[OmAget：用于解决复杂任务的多模态智能体框架](https:\u002F\u002Fgithub.com\u002Fom-ai-lab\u002FOmAgent)，现已上线！！！此外，OmDet 已无缝集成为其内部的 OVD 工具。欢迎深入了解我们的创新多模态智能体框架。\n* 2024年6月24日：关于[将 OmDet-Turbo 转换为 ONNX 的指南](https:\u002F\u002Fgithub.com\u002Fom-ai-lab\u002FOmDet#:~:text=How%20To%20Export%20ONNX%20Model)\n* 2024年3月25日：发布了推理代码和一个预训练的 OmDet-Turbo-Tiny 模型。\n* 2024年3月12日：创建了 Github 开源项目\n\n***\n## 🔗 相关工作\n如果您对我们的研究感兴趣，欢迎您探索我们其他精彩的项目。\n\n🔆 [如何评估检测的泛化能力？全面的开放词汇检测基准](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.13177)(AAAI24) &nbsp;🏠[Github 仓库](https:\u002F\u002Fgithub.com\u002Fom-ai-lab\u002FOVDEval\u002Ftree\u002Fmain)\n\n🔆 [OmDet：基于多模态检测网络的大规模视觉-语言多数据集预训练](https:\u002F\u002Fietresearch.onlinelibrary.wiley.com\u002Fdoi\u002Ffull\u002F10.1049\u002Fcvi2.12268)(IET 计算机视觉)\n\n***\n## 📖 简介\n本仓库是 **OmDet-Turbo** 的官方 PyTorch 实现，它是一种基于 Transformer 的快速开放词汇目标检测模型。\n\n**⭐️亮点**\n1. **OmDet-Turbo** 是一种基于 Transformer 的实时开放词汇检测器，兼具强大的 OVD 能力与快速的推理速度。该模型解决了开放词汇场景下高效检测的难题，同时保持了较高的检测性能。\n2. 我们引入了 **高效融合头**，这是一个快速的多模态融合模块，旨在减轻编码器的计算负担，并缩短 ROI 头部的耗时。\n3. OmDet-Turbo-Base 模型在 ODinW 和 OVDEval 数据集上实现了最先进的零样本性能，AP 分别达到 **30.1** 和 **26.86**。\n4. 在 COCO val2017 数据集上，OmDetTurbo-Base 在 A100 GPU 上的推理速度可达 **100.2** FPS。\n\n更多详情，请参阅我们的论文 **[具有高效融合头的实时 Transformer 基础开放词汇检测](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.06892)**。\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fom-ai-lab_OmDet_readme_a4e58bee01a7.jpeg\" alt=\"model_structure\" width=\"100%\">\n\n***\n## ⚡️ 推理速度\n小型号各组件的推理速度对比。\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fom-ai-lab_OmDet_readme_4e7eb2f8c918.jpeg\" alt=\"speed\" width=\"100%\">\n\n***\n## 🛠️ 安装方法\n请按照[安装说明](install.md)设置 OmDet-Turbo 的运行环境。\n\n***\n## 🚀 使用方法\n### 本地推理\n1. 下载我们的预训练模型以及 [CLIP](https:\u002F\u002Fhuggingface.co\u002Fomlab\u002FOmDet-Turbo_tiny_SWIN_T\u002Fresolve\u002Fmain\u002FViT-B-16.pt?download=true) 检查点。\n2. 创建一个名为 **resources** 的文件夹，将下载的模型放入该文件夹。\n3. 运行 **run_demo.py**，预测结果图像将保存在 **.\u002Foutputs** 文件夹中。\n### 作为 API 服务器运行\n1. 下载我们的预训练模型以及 [CLIP](https:\u002F\u002Fhuggingface.co\u002Fomlab\u002FOmDet-Turbo_tiny_SWIN_T\u002Fresolve\u002Fmain\u002FViT-B-16.pt?download=true) 检查点。\n2. 创建一个名为 **resources** 的文件夹，将下载的模型放入该文件夹。\n3. 运行 **run_wsgi.py**，API 服务器将在 **http:\u002F\u002Fhost_ip:8000\u002Finf_predict** 启动，您可以通过访问 **http:\u002F\u002Fhost_ip:8000\u002Fdocs** 来试用。\n\n我们在使用 **run_demo.py** 进行推理时已添加了语言缓存。更多细节，请打开并查看 **run_demo.py** 脚本。\n\n\n***\n## ⚙️ 如何导出 ONNX 模型\n1. 将 **OmDet-Turbo_tiny_SWIN_T.yaml** 中的 **OmDetV2Turbo** 替换为 **OmDetV2TurboInfer**。\n2. 运行 **export.py**，即可导出 omdet.onnx 文件。\n\n在上述示例中，ONNX 模型未包含后处理步骤，且所有输入尺寸均为固定值。您可以根据需要添加更多的后处理步骤或调整输入尺寸。\n\n\n***\n## 📦 模型库\nCOCO 和 LVIS 数据集上的性能均在零样本设置下进行评估。\n\n模型 | 骨干网络 | 预训练数据 | COCO | LVIS | FPS (pytorch\u002Ftrt) |权重 \n-- |--------|-----------------| -- | -- |-------------------| --\nOmDet-Turbo-Tiny| Swin-T | O365,GoldG | 42.5 | 30.3 | 21.5\u002F140.0 |  [权重](https:\u002F\u002Fhuggingface.co\u002Fomlab\u002FOmDet-Turbo_tiny_SWIN_T\u002Ftree\u002Fmain)     \n\n***\n## 📝 主要结果\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fom-ai-lab_OmDet_readme_8291276223a7.png\" alt=\"main_result\" width=\"100%\">\n\n***\n## 引用\n如果您使用了我们的项目，请考虑引用我们的论文：\n\n```\n@article{zhao2024real,\n  title={具有高效融合头的实时 Transformer 基础开放词汇检测},\n  author={Zhao, Tiancheng and Liu, Peng and He, Xuan and Zhang, Lu and Lee, Kyusong},\n  journal={arXiv 预印本 arXiv:2403.06892},\n  year={2024}\n}\n```\n\n```\n@article{zhao2024omdet,\n  title={OmDet：基于多模态检测网络的大规模视觉-语言多数据集预训练},\n  author={Zhao, Tiancheng and Liu, Peng and Lee, Kyusong},\n  journal={IET 计算机视觉},\n  year={2024},\n  publisher={Wiley Online Library}\n}\n```","# OmDet-Turbo 快速上手指南\n\nOmDet-Turbo 是一款基于 Transformer 的实时开放词汇（Open-Vocabulary）目标检测模型。它结合了强大的检测能力与极快的推理速度，支持在未见过的类别上进行零样本检测。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 18.04+)\n*   **Python**: 3.8 或更高版本\n*   **GPU**: 支持 CUDA 的 NVIDIA 显卡（推荐 A100\u002FV100\u002F3090 等以获得最佳 FPS）\n*   **前置依赖**:\n    *   PyTorch (建议 1.10+)\n    *   Transformers >= 4.45.0 (OmDet-Turbo 已集成至此版本)\n    *   CLIP 模型权重 (ViT-B-16)\n\n> **提示**：该项目已正式集成到 Hugging Face `transformers` 库中，同时也提供了 ModelScope（魔搭社区）镜像，国内开发者可优先使用 ModelScope 下载模型以加速体验。\n\n## 安装步骤\n\n### 1. 创建虚拟环境并安装基础依赖\n\n```bash\npython -m venv omdet-env\nsource omdet-env\u002Fbin\u002Factivate  # Windows 用户使用: omdet-env\\Scripts\\activate\n\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\npip install transformers>=4.45.0\npip install opencv-python pillow\n```\n\n### 2. 获取源代码\n\n克隆官方仓库：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fom-ai-lab\u002FOmDet.git\ncd OmDet\n```\n\n### 3. 下载预训练模型\n\n您可以选择从 Hugging Face 或 ModelScope 下载模型。将下载的模型文件放入项目根目录下的 `resources` 文件夹中。\n\n**所需文件：**\n1.  OmDet-Turbo 预训练权重\n2.  CLIP 权重 (`ViT-B-16.pt`)\n\n**下载链接 (任选其一)：**\n*   **ModelScope (国内推荐)**: [omdet-turbo-swin-tiny-hf](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOm_AI_Lab\u002Fomdet-turbo-swin-tiny-hf)\n*   **Hugging Face**: [OmDet-Turbo_tiny_SWIN_T](https:\u002F\u002Fhuggingface.co\u002Fomlab\u002FOmDet-Turbo_tiny_SWIN_T)\n*   **CLIP 权重**: [ViT-B-16.pt](https:\u002F\u002Fhuggingface.co\u002Fomlab\u002FOmDet-Turbo_tiny_SWIN_T\u002Fresolve\u002Fmain\u002FViT-B-16.pt?download=true)\n\n**整理目录结构：**\n```bash\nmkdir resources\n# 将下载好的 .bin\u002F.pt 等模型文件移动到此文件夹\nmv \u003Cdownloaded_model_files> resources\u002F\n```\n\n## 基本使用\n\n### 方式一：本地脚本推理 (最简单)\n\n运行官方提供的演示脚本，模型会自动加载 `resources` 目录下的权重，并对示例图片进行检测，结果保存至 `.\u002Foutputs` 目录。\n\n```bash\npython run_demo.py\n```\n\n> **说明**：该脚本已内置语言缓存机制以优化推理速度。您可以编辑 `run_demo.py` 来修改输入图片或检测类别。\n\n### 方式二：启动 API 服务\n\n如果您需要将模型部署为后端服务，可以运行以下命令启动 WSGI 服务器：\n\n```bash\npython run_wsgi.py\n```\n\n服务启动后：\n*   **预测接口**: `http:\u002F\u002Fhost_ip:8000\u002Finf_predict`\n*   **在线调试文档**: `http:\u002F\u002Fhost_ip:8000\u002Fdocs` (Swagger UI)\n\n### 进阶：导出 ONNX 模型\n\n如需在生产环境中部署（如使用 TensorRT 加速），可按以下步骤导出 ONNX 模型：\n\n1.  修改配置文件 `OmDet-Turbo_tiny_SWIN_T.yaml`，将模型类型 `OmDetV2Turbo` 替换为 `OmDetV2TurboInfer`。\n2.  执行导出脚本：\n\n```bash\npython export.py\n```\n\n执行成功后，将在当前目录生成 `omdet.onnx` 文件。\n*(注意：默认导出的 ONNX 模型不包含后处理逻辑，且输入尺寸固定，可根据需求自行调整)*","某大型物流分拣中心需要实时识别传送带上成千上万种不同规格、甚至从未在训练集中出现过的异形包裹，以自动规划机械臂抓取路径。\n\n### 没有 OmDet 时\n- **无法识别新物种**：传统检测模型只能识别预先定义好的几十类固定标签，一旦遇到新型包装或未登记的商品，系统直接报错或漏检。\n- **迭代周期漫长**：每新增一种货物类型，数据团队需重新采集数千张图片、标注并耗时数天重新训练模型，严重拖慢业务上线速度。\n- **实时性不足**：现有的开放词汇检测方案通常计算量巨大，在高分辨率视频流中帧率极低，导致机械臂反应滞后，造成包裹堆积。\n- **多模型维护复杂**：为了覆盖更多品类，不得不并行运行多个专用小模型，导致显存占用爆炸且调度逻辑极其复杂。\n\n### 使用 OmDet 后\n- **零样本即时泛化**：利用 OmDet 的开放词汇能力，操作人员只需输入文本描述（如“红色易碎陶瓷罐”），模型即可立即精准定位，无需任何额外训练。\n- **毫秒级实时响应**：得益于其高效的融合头设计，OmDet 在 A100 GPU 上推理速度突破 100 FPS，完美匹配高速传送带节奏，确保机械臂抓取流畅无卡顿。\n- **端到端简化部署**：单个 OmDet 模型即可替代原本庞大的模型集群，统一处理所有长尾类别检测，大幅降低服务器资源成本和运维复杂度。\n- **动态适应业务变化**：面对促销季突发的新奇商品，系统能通过自然语言指令瞬间调整检测目标，实现真正的“即插即用”。\n\nOmDet 通过将自然语言理解与实时目标检测深度融合，彻底解决了物流场景中“未知物体不可检”与“高速流转难兼顾”的核心矛盾。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fom-ai-lab_OmDet_2834cb95.png","om-ai-lab","Om AI Lab","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fom-ai-lab_520db257.jpg","Open Multimodal AGI Research ",null,"OmAI_lab","https:\u002F\u002Fgithub.com\u002Fom-ai-lab",[80],{"name":81,"color":82,"percentage":83},"Python","#3572A5",100,1371,114,"2026-04-09T13:56:10","Apache-2.0","未说明","需要 NVIDIA GPU（文中提及在 A100 GPU 上测试），显存大小未说明，CUDA 版本未说明",{"notes":91,"python":88,"dependencies":92},"该工具已集成至 Hugging Face Transformers 4.45.0+ 版本。运行前需手动下载预训练模型及 CLIP 检查点并放入 'resources' 文件夹。支持导出为 ONNX 格式（需修改配置文件并运行 export.py，导出的模型不包含后处理且输入尺寸固定）。在 COCO 数据集上，Base 模型在 A100 GPU 上的推理速度可达 100.2 FPS。",[93,94,95],"PyTorch","transformers>=4.45.0","CLIP (ViT-B-16)",[15],[98,99,100,101,102,103,104,105,106],"object-detection","open-vocabulary","vision-and-language","zero-shot-object-detection","computer-vision","zero-shot","coco","lvis","real-time","2026-03-27T02:49:30.150509","2026-04-20T19:32:37.599093",[110,115,120,125,130,135,140,144],{"id":111,"question_zh":112,"answer_zh":113,"source_url":114},45236,"是否会开源训练代码？","目前团队没有开源训练代码的计划。未来的重点将是开源更多功能更强大、规模更大的预训练模型权重。请关注 GitHub 仓库以获取最新更新。","https:\u002F\u002Fgithub.com\u002Fom-ai-lab\u002FOmDet\u002Fissues\u002F3",{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},45237,"OmDet-Turbo 相比 OmDetV2 性能提升显著的原因是什么？","性能提升主要得益于三点：1. 加入了更多的训练数据并延长了训练时间；2. 采用了更统一的多任务学习（Multi-task Learning）策略；3. 新的 DINO 架构本身比 OmDetV2 使用的 Sparse-RCNN 架构更具优势。","https:\u002F\u002Fgithub.com\u002Fom-ai-lab\u002FOmDet\u002Fissues\u002F2",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},45234,"如何查看或设置模型的检测词汇表？能否像 YOLO-World 那样直接预测而不预设词汇表？","词表可以预设，例如设定 COCO 或 O365 的词表，模型即可直接输出检测结果。目前不支持完全不带词汇表的直接预测，需要预先定义好目标类别列表。","https:\u002F\u002Fgithub.com\u002Fom-ai-lab\u002FOmDet\u002Fissues\u002F5",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},45235,"是否支持将模型导出为 ONNX 格式？是否有示例代码？","项目已支持 ONNX 模型转换。具体的转换方法和示例代码请查阅项目根目录下的 README.md 文件。对于文本骨干网络（language_backbone）的转换，需注意避免使用 torch.where 等操作引发的错误，维护者已对相关代码进行了修复以支持顺利转换。","https:\u002F\u002Fgithub.com\u002Fom-ai-lab\u002FOmDet\u002Fissues\u002F9",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},45238,"如何进行批量推理（Batch Inference）？遇到形状不一致的问题怎么办？","这是一个已知问题。模型编码器中的 MultiHeadAttention 层需要初始化为 `batch_first=True`，因为自注意力层的输入形状是 (batch_size, ...)。维护者已确认该问题并更新了代码，修复后权重无需更改即可正确支持批量推理。","https:\u002F\u002Fgithub.com\u002Fom-ai-lab\u002FOmDet\u002Fissues\u002F19",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},45239,"如何将 Grounding DINO 模型转换为 TensorRT 格式以提升推理速度？","项目文档中已更新详细的转换指南。请参考 docs 目录下的 `cvt_grounding_dino-en.md` 文件，其中解释了具体的转换方法和步骤，可解决在 A100 等显卡上使用 trtexec 转换时的性能瓶颈问题。","https:\u002F\u002Fgithub.com\u002Fom-ai-lab\u002FOmDet\u002Fissues\u002F1",{"id":141,"question_zh":142,"answer_zh":143,"source_url":124},45240,"能否使用自定义的 CLIP 权重和数据集来训练 OmDet 模型？","可以更换其他的 CLIP 模型作为骨干网络，但这意味着模型需要从头开始重新进行预训练，无法直接使用现有的预训练权重进行微调。",{"id":145,"question_zh":146,"answer_zh":147,"source_url":148},45241,"论文中提到的预训练数据集清单是否准确？是否存在数据泄露？","维护者承认论文中列出的预训练数据清单有误（为历史版本）。实际评估用的 OmDet-Turbo-B 模型额外使用了 V3Det 数据集以及在 CC12M 数据集上生成的伪标签子集。维护者确认训练过程中明确未使用 COCO 数据集，不存在数据泄露，并承诺开源模型权重以供复现验证。","https:\u002F\u002Fgithub.com\u002Fom-ai-lab\u002FOmDet\u002Fissues\u002F8",[]]