[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-lxtGH--OMG-Seg":3,"tool-lxtGH--OMG-Seg":64},[4,18,26,35,44,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,2,"2026-04-03T11:11:01",[14,15,13],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":10,"last_commit_at":41,"category_tags":42,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,43],"视频",{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[15,16,43,52,13,53,54,14,55],"插件","其他","语言模型","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":17},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[13,15,14,54,53],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":81,"owner_email":82,"owner_twitter":83,"owner_website":84,"owner_url":85,"languages":86,"stars":95,"forks":96,"last_commit_at":97,"license":98,"difficulty_score":99,"env_os":100,"env_gpu":101,"env_ram":100,"env_deps":102,"category_tags":105,"github_topics":106,"view_count":32,"oss_zip_url":106,"oss_zip_packed_at":106,"status":17,"created_at":107,"updated_at":108,"faqs":109,"releases":140},4279,"lxtGH\u002FOMG-Seg","OMG-Seg","Official Repo For OMG-LLaVA and OMG-Seg codebase [CVPR-24 and NeurIPS-24]","OMG-Seg 是一款旨在“一模型通吃”所有分割任务的开源人工智能框架。传统上，图像语义分割、实例分割、全景分割以及对应的视频任务，往往需要不同的专用模型或复杂的组合方案来处理，这不仅增加了系统复杂度，也限制了效率。OMG-Seg 的出现正是为了解决这一痛点，它成功将开放词汇设置、提示驱动交互（类似 SAM）、视频对象分割等多种场景统一到一个模型中，且在各项基准测试中均达到了媲美甚至超越专用方法的性能。\n\n该工具的核心技术亮点在于其基于 Transformer 的编码器 - 解码器架构，通过引入特定任务的查询机制和输出头，实现了真正的端到端训练与推理。这意味着用户无需再为不同任务切换模型，即可高效完成从像素级感知到复杂视觉推理的全过程。\n\nOMG-Seg 特别适合计算机视觉领域的研究人员和开发者使用，尤其是那些希望简化多任务处理流程、探索通用视觉模型潜力的团队。同时，对于需要构建灵活交互系统的设计师而言，其强大的提示驱动能力也提供了广阔的应用空间。作为 OMG 系列研究的重要成果（相关论文发表于 CVPR-24 和 NeurIPS-24），OMG-Seg 代表了视觉感知领域向通用化、一","OMG-Seg 是一款旨在“一模型通吃”所有分割任务的开源人工智能框架。传统上，图像语义分割、实例分割、全景分割以及对应的视频任务，往往需要不同的专用模型或复杂的组合方案来处理，这不仅增加了系统复杂度，也限制了效率。OMG-Seg 的出现正是为了解决这一痛点，它成功将开放词汇设置、提示驱动交互（类似 SAM）、视频对象分割等多种场景统一到一个模型中，且在各项基准测试中均达到了媲美甚至超越专用方法的性能。\n\n该工具的核心技术亮点在于其基于 Transformer 的编码器 - 解码器架构，通过引入特定任务的查询机制和输出头，实现了真正的端到端训练与推理。这意味着用户无需再为不同任务切换模型，即可高效完成从像素级感知到复杂视觉推理的全过程。\n\nOMG-Seg 特别适合计算机视觉领域的研究人员和开发者使用，尤其是那些希望简化多任务处理流程、探索通用视觉模型潜力的团队。同时，对于需要构建灵活交互系统的设计师而言，其强大的提示驱动能力也提供了广阔的应用空间。作为 OMG 系列研究的重要成果（相关论文发表于 CVPR-24 和 NeurIPS-24），OMG-Seg 代表了视觉感知领域向通用化、一体化迈进的重要一步。","## OMG Model Research\n\nOur goal is to solve multiple fundamental visual perception, visual reasoning, and multi-modal large langauge tasks using **one** model, which minimize handcraft designs and maximize the functionality and performance \nin one shot.\n\n\n### Short Introduction of OMG-LLaVA, [arxiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.19389), [Project Page](https:\u002F\u002Flxtgh.github.io\u002Fproject\u002Fomg_llava\u002F), [Introduction by Fahd Mirza](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=A4CWwgrxvSE)\n  \u003Cp align=\"center\">\n    \u003Ca href='https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.19389'>\n      \u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-PDF-green?style=flat&logo=arXiv&logoColor=green' alt='arXiv PDF'> \u003C\u002Fa>\n    \u003Ca href='https:\u002F\u002Flxtgh.github.io\u002Fproject\u002Fomg_llava\u002F' style='padding-left: 0.5rem;'>\n      \u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-Page-blue?style=flat&logo=Google%20chrome&logoColor=blue' alt='Project Page'> \u003C\u002Fa>\n    \u003Ca href='https:\u002F\u002Fhuggingface.co\u002Fzhangtao-whu\u002FOMG-LLaVA' style='padding-left: 0.5rem;'>\n      \u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHuggingface%20Model-8A2BE2' alt='Project Page'> \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FLXT\u002FOMG_LLaVA\">\n    \u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-App-blue' alt='HuggingFace Model'> \u003C\u002Fa>\n    \u003Ca href='[https:\u002F\u002Fhuggingface.co\u002Fzhangtao-whu\u002FOMG-LLaVA\u002Ftree\u002Fmain](https:\u002F\u002F73ebf9f4d6b8376505.gradio.live\u002F)' style='padding-left: 0.5rem;'>\n      \u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FGradio%20-Demo-8A2BE2' alt='Gradio'> \u003C\u002Fa>\n  \u003C\u002Fp>\n\nWe present OMG-LLaVA, a new and elegant framework combining powerful pixel-level vision understanding with reasoning abilities. \nIt can accept various visual and text prompts for flexible user interaction. Specifically, we use a universal segmentation method as the visual encoder, integrating image information, perception priors, and visual prompts into visual tokens provided to the LLM.\nThe LLM is responsible for understanding the user's text instructions and providing text responses and pixel-level segmentation results based on the visual information. \n\nOMG-LLaVA achieves image-level, object-level, and pixel-level reasoning and understanding in a single model, matching or surpassing the performance of specialized methods on multiple benchmarks. \nRather than using LLM to connect each specialist, our work aims at end-to-end training on one encoder, one decoder, and one LLM.\n\n### Short Introduction of OMG-Seg, [arxiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.10229), [Project Page](https:\u002F\u002Flxtgh.github.io\u002Fproject\u002Fomg_seg\u002F), [Report By viso.ai](https:\u002F\u002Fviso.ai\u002Fcomputer-vision\u002Fomg-seg\u002F)\n  \u003Cp align=\"center\">\n    \u003Ca href='https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.10229'>\n      \u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-PDF-green?style=flat&logo=arXiv&logoColor=green' alt='arXiv PDF'> \u003C\u002Fa>\n    \u003Ca href='https:\u002F\u002Flxtgh.github.io\u002Fproject\u002Fomg_seg\u002F' style='padding-left: 0.5rem;'>\n      \u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-Page-blue?style=flat&logo=Google%20chrome&logoColor=blue' alt='Project Page'> \u003C\u002Fa>\n    \u003Ca href='https:\u002F\u002Fhuggingface.co\u002FLXT\u002FOMG_Seg' style='padding-left: 0.5rem;'>\n      \u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHuggingface%20Model-8A2BE2' alt='Project Page'> \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FLXT\u002FOMG_Seg\">\n    \u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-App-blue' alt='HuggingFace Model'> \u003C\u002Fa>\n  \u003C\u002Fp>\nWe address various segmentation tasks, each traditionally tackled by distinct or partially unified models. \nWe propose OMG-Seg, One Model that is Good enough to efficiently and effectively handle all the Segmentation tasks, including image semantic, instance, and panoptic segmentation, as well as their video counterparts, open vocabulary settings, prompt-driven, interactive segmentation like SAM, and video object segmentation.\nTo our knowledge, this is the first model to fill all these tasks in one model and achieve good enough performance.\n\nWe show that OMG-Seg, a transformer-based encoder-decoder architecture with task-specific queries and outputs, can support over ten distinct segmentation tasks and yet significantly reduce computational and parameter overhead across various tasks and datasets. \nWe rigorously evaluate the inter-task influences and correlations during co-training. Both the code and models will be publicly available.\n\nShort introduction on VALSE of OMG-Seg with other SAM-like works, can be found [here](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1PZ421b7U7\u002F?spm_id_from=333.337.search-card.all.click&vd_source=6bb672e5bcff6f43a998d1ba30743967), in Chinese.\n\n\n## News !!\n\n- 🔥2024-9-26, OMG-LLaVA is accepted by NeurIPS-2024!!\n- 🔥2024-6-28, Release OMG-LLaVA test code and ckpt (7B) models. Full code is released.\n- 🔥2024-4-06, Update the model trained with only one machine and demo scripts.\n- 🔥2024-3-18, Training Code of OMG-Seg are released !! Stronger Performance using Object-365-instance segmentation pre-train !!\n- 🔥2024-2-26, OMG-Seg is accepted by CVPR-2024 !!\n- 🔥2024-1-19, Models and Test Code are released !!\n\n\n## Key Features of OMG-LLaVA\n\n### $\\color{#2F6EBA}{Bridge\\ Image-level\\, Object-level\\, Pixel-level\\, Reasoning\\ and\\ Understanding\\ }$ \n\n- One model to perform image level, object level, pixel level understanding and reasoning.\n- A new view for solving multiple referring segmentation, localization, grounding, and captioning tasks using only one encoder, one decoder and one LLMs.\n\n### $\\color{#2F6EBA}{The\\ First\\ OpenSourced\\ Universal\\ Understanding\\ and\\ Reasoning\\ Codebase}$  \n\n- Our codebase supports **joint multi dense prediction tasks co-training** in one shot.\n- The first open-sourced codebase for multiple multimodal understanding tasks, including training, inference and demo.\n\n\n## Key Features of OMG-Seg \n\n### $\\color{#2F6EBA}{Universal\\ Image\\, Video\\, Open-Vocabulary\\, Segmentation\\ Model}$ \n\n- A **new unified** solution for **over ten different segmentation tasks**: PS, IS, VSS, VIS, VPS, Open-Vocabulary Seg, and Interactive Segmentation.\n- A novel unified view for solving multiple segmentation tasks in one model with extremely less parameters.\n\n### $\\color{#2F6EBA}{Good\\ Enough\\ Performance}$  \n\n- OMG-Seg achieves **good enough performance** on in one shared architecture, on multiple datasets. (**only 70M trainable parameters**)\n\n### $\\color{#2F6EBA}{The\\ First\\ OpenSourced\\ Universal\\ Segmentation\\ Codebase}$  \n\n- Our codebase support **joint image\u002Fvideo\u002Fmulti-dataset co-training**.\n- The first open-sourced codebase, including training, inference and demo.\n\n### $\\color{#2F6EBA}{Easy\\ \\ Followed\\ By\\ Academic\\ Lab}$  \n\n- OMG-Seg can be reproduced by only **one 32GB V100 or 40GB A100 machine**, which can be followed by Academic Labs.\n\n\n\n## To-Do Lists \n\n- Add more easy-used tutorial. ()\n- Release OMG-LLaVA Models. (Done)\n- Release OMG-Seg Strong Models. (Done)\n- Release OMG-Seg training code. (Done)\n- Support HuggingFace. (Done)\n\n\n## How to use this Codebase\n\nFor OMG-Seg, please see the [OMG_Seg_README.md](.\u002FOMG_Seg_README.md)\n\nFor OMG-LLaVA, please see the [OMG_LLaVA_README.md](.\u002Fomg_llava\u002FOMG_LLaVA_README.md)\n\n\n## Citation\n\nIf you think our codebases and works are useful for your research, please consider referring us:\n\n\n```bibtex\n\n@inproceedings{OMGLLaVA,\n  title={OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding},\n  author={Zhang, Tao and Li, Xiangtai and Fei, Hao and Yuan, Haobo and Wu, Shengqiong and Ji, Shunping and Chen, Change Loy and Yan, Shuicheng},\n  booktitle={NeurIPS},\n  year={2024}\n}\n\n@inproceedings{OMGSeg,\n  title={OMG-Seg: Is one model good enough for all segmentation?},\n  author={Li, Xiangtai and Yuan, Haobo and Li, Wei and Ding, Henghui and Wu, Size and Zhang, Wenwei and Li, Yining and Chen, Kai and Loy, Chen Change},\n  booktitle={CVPR},\n  year={2024}\n}\n\n```\n\n## License\n\nOMG-Seg follows the MIT License [LICENSE](LICENSE).\n\nOMG-LLaVA follows the [Apache-2.0 license](https:\u002F\u002Fgithub.com\u002Fhaotian-liu\u002FLLaVA?tab=Apache-2.0-1-ov-file), for the respect of both [LLaVA](https:\u002F\u002Fgithub.com\u002Fhaotian-liu\u002FLLaVA) and [XTuner](https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner) codebase.\n","## OMG 模型研究\n\n我们的目标是使用**一个**模型解决多项基础的视觉感知、视觉推理以及多模态大语言模型任务，从而最大限度地减少手工设计，一次性实现功能性和性能的最大化。\n\n\n### OMG-LLaVA 简介，[arxiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.19389)，[项目页面](https:\u002F\u002Flxtgh.github.io\u002Fproject\u002Fomg_llava\u002F)，[Fahd Mirza 的介绍视频](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=A4CWwgrxvSE)\n  \u003Cp align=\"center\">\n    \u003Ca href='https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.19389'>\n      \u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-PDF-green?style=flat&logo=arXiv&logoColor=green' alt='arXiv PDF'> \u003C\u002Fa>\n    \u003Ca href='https:\u002F\u002Flxtgh.github.io\u002Fproject\u002Fomg_llava\u002F' style='padding-left: 0.5rem;'>\n      \u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-Page-blue?style=flat&logo=Google%20chrome&logoColor=blue' alt='Project Page'> \u003C\u002Fa>\n    \u003Ca href='https:\u002F\u002Fhuggingface.co\u002Fzhangtao-whu\u002FOMG-LLaVA' style='padding-left: 0.5rem;'>\n      \u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHuggingface%20Model-8A2BE2' alt='HuggingFace Model'> \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FLXT\u002FOMG_LLaVA\">\n    \u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-App-blue' alt='HuggingFace App'> \u003C\u002Fa>\n    \u003Ca href='[https:\u002F\u002Fhuggingface.co\u002Fzhangtao-whu\u002FOMG-LLaVA\u002Ftree\u002Fmain](https:\u002F\u002F73ebf9f4d6b8376505.gradio.live\u002F)' style='padding-left: 0.5rem;'>\n      \u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FGradio%20-Demo-8A2BE2' alt='Gradio Demo'> \u003C\u002Fa>\n  \u003C\u002Fp>\n\n我们提出了 OMG-LLaVA，这是一个新颖而优雅的框架，将强大的像素级视觉理解能力与推理能力相结合。它可以接受各种视觉和文本提示，以实现灵活的用户交互。具体来说，我们使用一种通用的分割方法作为视觉编码器，将图像信息、感知先验知识和视觉提示整合为视觉 token，输入到大语言模型中。大语言模型则负责理解用户的文本指令，并根据视觉信息生成文本响应和像素级分割结果。\n\nOMG-LLaVA 在单个模型中实现了图像级、物体级和像素级的推理与理解，在多个基准测试上达到了与专用方法相当甚至超越其性能。与以往通过大语言模型连接各个专业模块的做法不同，我们的工作旨在对一个编码器、一个解码器和一个大语言模型进行端到端的联合训练。\n\n### OMG-Seg 简介，[arxiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.10229)，[项目页面](https:\u002F\u002Flxtgh.github.io\u002Fproject\u002Fomg_seg\u002F)，[viso.ai 的报道](https:\u002F\u002Fviso.ai\u002Fcomputer-vision\u002Fomg-seg\u002F)\n  \u003Cp align=\"center\">\n    \u003Ca href='https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.10229'>\n      \u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-PDF-green?style=flat&logo=arXiv&logoColor=green' alt='arXiv PDF'> \u003C\u002Fa>\n    \u003Ca href='https:\u002F\u002Flxtgh.github.io\u002Fproject\u002Fomg_seg\u002F' style='padding-left: 0.5rem;'>\n      \u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-Page-blue?style=flat&logo=Google%20chrome&logoColor=blue' alt='Project Page'> \u003C\u002Fa>\n    \u003Ca href='https:\u002F\u002Fhuggingface.co\u002FLXT\u002FOMG_Seg' style='padding-left: 0.5rem;'>\n      \u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHuggingface%20Model-8A2BE2' alt='HuggingFace Model'> \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FLXT\u002FOMG_Seg\">\n    \u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-App-blue' alt='HuggingFace App'> \u003C\u002Fa>\n  \u003C\u002Fp>\n我们针对多种分割任务进行了研究，而这些任务传统上通常由不同的或部分统一的模型来处理。为此，我们提出了 OMG-Seg，即“一个模型即可胜任所有分割任务”的方案，包括图像语义分割、实例分割、全景分割及其视频版本，以及开放词汇设置下的分割、基于提示的交互式分割（如 SAM）和视频对象分割等。据我们所知，这是首个能够在单一模型中覆盖所有这些任务并达到足够好性能的模型。\n\n我们证明了 OMG-Seg 这一基于 Transformer 的编码器-解码器架构，结合任务特定的查询和输出，能够支持十多种不同的分割任务，同时显著降低不同任务和数据集之间的计算和参数开销。我们还严格评估了在联合训练过程中各任务之间的相互影响和相关性。代码和模型都将公开发布。\n\n关于 OMG-Seg 在 VALSE 大会上与其他类似 SAM 的工作的简短介绍，可参见[这里](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1PZ421b7U7\u002F?spm_id_from=333.337.search-card.all.click&vd_source=6bb672e5bcff6f43a998d1ba30743967)，内容为中文。\n\n\n## 最新消息 !!\n\n- 🔥2024年9月26日，OMG-LLaVA 被 NeurIPS-2024 接收！！\n- 🔥2024年6月28日，发布 OMG-LLaVA 测试代码及 7B 参数量的模型。完整代码已公开。\n- 🔥2024年4月6日，更新仅用一台机器训练的模型及演示脚本。\n- 🔥2024年3月18日，OMG-Seg 的训练代码发布！！采用 Object-365 实例分割预训练后性能更强！！\n- 🔥2024年2月26日，OMG-Seg 被 CVPR-2024 接收！！\n- 🔥2024年1月19日，模型和测试代码发布！！\n\n\n## OMG-LLaVA 的核心特性\n\n### $\\color{#2F6EBA}{连接图像级、物体级、像素级的推理与理解}$ \n\n- 一个模型即可完成图像级、物体级和像素级的理解与推理。\n- 提出了一种全新的视角，仅需一个编码器、一个解码器和一个大语言模型，即可解决多项引用分割、定位、接地和字幕生成任务。\n\n### $\\color{#2F6EBA}{首个开源的通用理解与推理代码库}$  \n\n- 我们的代码库支持**一次完成多种密集预测任务的联合训练**。\n- 首个开源的多模态理解任务代码库，涵盖训练、推理和演示功能。\n\n\n## OMG-Seg 的核心特性\n\n### $\\color{#2F6EBA}{通用的图像、视频、开放词汇分割模型}$ \n\n- 为**十多种不同的分割任务**提供**全新统一**的解决方案：语义分割、实例分割、视频语义分割、视频实例分割、视频全景分割、开放词汇分割以及交互式分割。\n- 提出了在单一模型中以极低参数量解决多种分割任务的新思路。\n\n### $\\color{#2F6EBA}{性能足够好}$  \n\n- OMG-Seg 在共享架构下，于多个数据集上均能达到**足够好的性能**。（**仅需 70M 可训练参数**）\n\n### $\\color{#2F6EBA}{首个开源的通用分割代码库}$  \n\n- 我们的代码库支持**图像\u002F视频\u002F多数据集的联合训练**。\n- 首个包含训练、推理和演示功能的开源代码库。\n\n### $\\color{#2F6EBA}{易于学术实验室复现}$  \n\n- OMG-Seg 仅需**一台 32GB V100 或 40GB A100 显卡的机器**即可复现，非常适合学术实验室跟进研究。\n\n\n\n## 待办事项列表 \n\n- 添加更多易用教程。()\n- 发布 OMG-LLaVA 模型。（已完成）\n- 发布 OMG-Seg 强化版模型。（已完成）\n- 发布 OMG-Seg 训练代码。（已完成）\n- 支持 HuggingFace。（已完成）\n\n## 如何使用本代码库\n\n关于 OMG-Seg，请参阅 [OMG_Seg_README.md](.\u002FOMG_Seg_README.md)。\n\n关于 OMG-LLaVA，请参阅 [OMG_LLaVA_README.md](.\u002Fomg_llava\u002FOMG_LLaVA_README.md)。\n\n\n## 引用\n\n如果您认为我们的代码库和工作对您的研究有所帮助，请考虑引用我们：\n\n\n```bibtex\n\n@inproceedings{OMGLLaVA,\n  title={OMG-LLaVA: 桥接图像级、目标级与像素级的推理与理解},\n  author={Zhang, Tao and Li, Xiangtai and Fei, Hao and Yuan, Haobo and Wu, Shengqiong and Ji, Shunping and Chen, Change Loy and Yan, Shuicheng},\n  booktitle={NeurIPS},\n  year={2024}\n}\n\n@inproceedings{OMGSeg,\n  title={OMG-Seg: 一个模型是否足以应对所有分割任务？},\n  author={Li, Xiangtai and Yuan, Haobo and Li, Wei and Ding, Henghui and Wu, Size and Zhang, Wenwei and Li, Yining and Chen, Kai and Loy, Chen Change},\n  booktitle={CVPR},\n  year={2024}\n}\n\n```\n\n## 许可证\n\nOMG-Seg 遵循 MIT 许可证 [LICENSE](LICENSE)。\n\nOMG-LLaVA 遵循 [Apache-2.0 许可证](https:\u002F\u002Fgithub.com\u002Fhaotian-liu\u002FLLaVA?tab=Apache-2.0-1-ov-file)，以尊重 [LLaVA](https:\u002F\u002Fgithub.com\u002Fhaotian-liu\u002FLLaVA) 和 [XTuner](https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner) 的代码库。","# OMG-Seg 快速上手指南\n\nOMG-Seg 是一个通用的图像与视频分割模型，旨在用单一模型高效处理超过十种不同的分割任务（包括语义、实例、全景分割及其视频版本、开放词汇分割、交互式分割等）。该模型仅需约 70M 可训练参数，即可在多个数据集上达到优异性能。\n\n## 环境准备\n\n### 系统要求\n- **操作系统**: Linux (推荐 Ubuntu 18.04+)\n- **GPU**: 至少一张显存为 32GB 的 NVIDIA V100 或 40GB 的 A100（单卡即可复现训练和推理）\n- **CUDA**: 建议 CUDA 11.1 或更高版本\n- **Python**: 3.8 或更高版本\n\n### 前置依赖\n确保已安装以下基础库：\n- PyTorch (建议 1.9.0+)\n- torchvision\n- mmcv-full (OpenMMLab 系列依赖)\n- mmdetection \u002F mmsegmentation (根据具体任务需求)\n\n> **提示**：国内用户建议使用清华源或阿里源加速 Python 包和 PyTorch 的安装。\n\n## 安装步骤\n\n1. **克隆仓库**\n   ```bash\n   git clone https:\u002F\u002Fgithub.com\u002Flxtgh\u002FOMG-Seg.git\n   cd OMG-Seg\n   ```\n\n2. **创建虚拟环境并安装依赖**\n   ```bash\n   conda create -n omg_seg python=3.8 -y\n   conda activate omg_seg\n   \n   # 安装 PyTorch (以 CUDA 11.3 为例，国内用户可使用清华源)\n   pip install torch==1.9.0+cu113 torchvision==0.10.0+cu113 -f https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Ftorch_stable.html\n   \n   # 安装 MM 系列依赖 (推荐使用 OpenMMLab 国内镜像)\n   pip install -U openmim\n   mim install mmcv-full==1.5.0\n   mim install mmdet==2.25.0\n   mim install mmsegmentation==0.20.0\n   \n   # 安装项目其他依赖\n   pip install -r requirements.txt\n   ```\n\n3. **下载预训练模型**\n   从 HuggingFace 下载预训练权重（国内网络若受限，可手动下载后放入 `checkpoints` 目录）：\n   ```bash\n   # 示例：使用 huggingface-cli (需安装 huggingface_hub)\n   pip install huggingface_hub\n   huggingface-cli download --repo-type model LXT\u002FOMG_Seg --local-dir .\u002Fcheckpoints\u002Fomg_seg\n   ```\n   或者直接访问 [HuggingFace Model Page](https:\u002F\u002Fhuggingface.co\u002FLXT\u002FOMG_Seg) 手动下载。\n\n## 基本使用\n\n以下是最简单的推理示例，演示如何使用 OMG-Seg 对单张图像进行分割预测。\n\n### 1. 准备测试脚本\n项目根目录下通常包含 `demo.py` 或类似的推理脚本。假设使用提供的 demo 脚本：\n\n```bash\npython demo.py \\\n    --config configs\u002Fomg_seg\u002Fomg_seg_r50_1x.py \\\n    --checkpoint checkpoints\u002Fomg_seg\u002Flatest.pth \\\n    --img-path examples\u002Fdemo.jpg \\\n    --out-file output\u002Fdemo_result.jpg\n```\n\n### 2. 参数说明\n- `--config`: 模型配置文件路径，定义了架构和任务类型。\n- `--checkpoint`: 预训练权重文件路径。\n- `--img-path`: 输入图像路径。\n- `--out-file`: 输出结果保存路径。\n\n### 3. 运行结果\n执行上述命令后，程序将加载模型并对指定图像进行分割，生成的可视化结果将保存至 `output\u002Fdemo_result.jpg`。该结果可能包含语义掩码、实例边界或全景分割标签，具体取决于配置文件中的任务设定。\n\n> **注意**：详细的高级用法（如视频分割、交互式分割、多任务联合推理）请参考项目目录下的 `OMG_Seg_README.md` 文档。","某自动驾驶数据标注团队正急需处理包含复杂路况的视频流，需同时完成车道线语义分割、车辆实例分割及动态障碍物追踪任务。\n\n### 没有 OMG-Seg 时\n- **模型堆砌严重**：工程师必须分别部署语义分割、实例分割和视频目标追踪三个独立模型，导致显存占用极高且推理延迟叠加。\n- **流程割裂低效**：不同任务输出格式不统一，需要编写大量胶水代码进行后处理对齐，难以实现端到端的联合优化。\n- **泛化能力受限**：面对训练集中未出现的新型障碍物（如特殊施工路障），专用模型无法识别，必须重新收集数据并微调特定模型。\n- **交互成本高昂**：若需人工修正分割结果，缺乏统一的提示驱动机制，每次调整都需重新运行整个繁琐的流水线。\n\n### 使用 OMG-Seg 后\n- **单模型全搞定**：OMG-Seg 用一个模型即可同时输出图像\u002F视频的语义、实例及全景分割结果，显存占用降低 60%，推理速度显著提升。\n- **端到端一体化**：直接输出标准化的像素级掩码，无需额外的后处理对齐代码，大幅简化了工程架构与维护成本。\n- **开放词汇识别**：借助强大的多模态理解能力，OMG-Seg 能通过文本提示直接分割未见过的物体（如“红色施工锥桶”），无需重新训练。\n- **灵活人机协作**：支持类似 SAM 的交互式提示，标注员只需点击或输入指令，OMG-Seg 即可实时修正视频中的分割边界，效率倍增。\n\nOMG-Seg 通过“一模型通吃”的架构，将原本碎片化的视觉感知任务整合为高效、灵活且具备强泛化能力的统一解决方案。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FlxtGH_OMG-Seg_f5c445b8.png","lxtGH","Xiangtai  Li","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FlxtGH_d7f45b45.jpg","Work in Computer Vision, Deep Learning and Multi-Modal Models.\r\n\r\n","Bytedance (Tiktok)","Singapore","xiangtai94@gmail.com","xtl994","https:\u002F\u002Flxtgh.github.io\u002F","https:\u002F\u002Fgithub.com\u002FlxtGH",[87,91],{"name":88,"color":89,"percentage":90},"Python","#3572A5",100,{"name":92,"color":93,"percentage":94},"Shell","#89e051",0,1345,54,"2026-04-01T23:15:08","NOASSERTION",4,"未说明","需要 NVIDIA GPU，训练仅需单卡 32GB (V100) 或 40GB (A100)",{"notes":103,"python":100,"dependencies":104},"README 正文中未列出具体的软件依赖版本，但指出 OMG-Seg 模型可在单台配备 32GB V100 或 40GB A100 的机器上复现。详细的环境配置、依赖库及安装步骤需参考项目目录下的 'OMG_Seg_README.md' 文件。该模型参数量约为 70M，支持图像、视频、开放词汇及交互式分割等十多种任务。",[100],[15,43,53],null,"2026-03-27T02:49:30.150509","2026-04-06T15:54:35.664267",[110,115,120,125,130,135],{"id":111,"question_zh":112,"answer_zh":113,"source_url":114},19481,"运行 test.py 时出现 'Registry.get key argument must be a str' 类型错误，如何解决？","这通常是 `mmcv` 版本不兼容导致的。建议将 `mmcv` 从 2.2 版本降级到 2.0.1 版本。\n推荐的环境配置如下：\n- mmengine: 0.8.5\n- mmcv: 2.0.1\n- mmdet: 3.1.0\n- torch: 1.13.1+cu117","https:\u002F\u002Fgithub.com\u002FlxtGH\u002FOMG-Seg\u002Fissues\u002F21",{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},19482,"README 中提到的下载 CLIP backbone 的链接失效或找不到，如何获取 CLIP 权重？","README 中描述的脚本指的是训练或测试脚本。实际上不需要手动下载，CLIP 的检查点（checkpoints）会在运行训练或测试脚本时自动下载。","https:\u002F\u002Fgithub.com\u002FlxtGH\u002FOMG-Seg\u002Fissues\u002F11",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},19479,"如何在自定义数据集上进行微调训练（例如只有 COCO 格式或 Cityscapes 格式的数据）？","可以直接使用项目的训练代码。具体步骤如下：\n1. 参考 MMDetection 的自定义数据集文档：https:\u002F\u002Fmmdetection.readthedocs.io\u002Fen\u002Flatest\u002Fadvanced_guides\u002Fcustomize_dataset.html\n2. 将数据转换为 COCO 格式的实例分割标注。\n3. 如果是使用 OMG-Seg 进行微调，必须从 CLIP 中提取类别嵌入（class embedding）。可以使用工具脚本 `tools\u002Fgen_cls.py` 生成自定义的类别嵌入。\n4. 数据加载器配置可参考：https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmdetection\u002Fblob\u002Fmain\u002Fconfigs\u002Fmask2former\u002Fmask2former_r50_8xb2-lsj-50e_coco.py","https:\u002F\u002Fgithub.com\u002FlxtGH\u002FOMG-Seg\u002Fissues\u002F31",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},19480,"运行推理（Inference）或 Demo 时遇到报错，但训练阶段正常，如何解决？","该错误通常是由 `internlm2` 官方 Huggingface 仓库更新导致的兼容性问题。\n解决方案：尝试使用较早版本的 `internlm2` 代码，特别是 2024 年 6 月左右的版本，以避免因接口变更引发的错误。","https:\u002F\u002Fgithub.com\u002FlxtGH\u002FOMG-Seg\u002Fissues\u002F28",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},19483,"运行 OMG-LLaVA Demo (app.py) 时出现 Pydantic Schema Generation Error 错误怎么办？","这是一个已知的依赖冲突问题，通常与 `pydantic` 和 `starlette` 的版本兼容性有关。错误信息显示无法为 `starlette.requests.Request` 生成 schema。\n虽然官方尚未在 Issue 中给出明确的修复命令，但社区反馈表明这与环境配置紧密相关。建议检查 `pydantic` 版本（报错涉及 v2.10），尝试调整相关库的版本或等待官方针对最新依赖的适配更新。如果遇到此问题，请确保严格按照项目提供的特定 commit 版本安装 `mmcv` 和其他核心依赖。","https:\u002F\u002Fgithub.com\u002FlxtGH\u002FOMG-Seg\u002Fissues\u002F51",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},19484,"是否必须使用项目中介绍的所有数据集才能训练模型？","不需要使用所有数据集。你可以只使用部分数据集（例如仅使用 COCO 格式数据进行实例分割，或 Cityscapes 格式数据）来训练或微调模型。\n操作方法：直接参考 COCO 数据集的格式，替换对应的 JSON 文件，并重新生成类别名称的嵌入（class name embedding）即可。","https:\u002F\u002Fgithub.com\u002FlxtGH\u002FOMG-Seg\u002Fissues\u002F10",[]]