[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-hkchengrex--Tracking-Anything-with-DEVA":3,"tool-hkchengrex--Tracking-Anything-with-DEVA":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",144730,2,"2026-04-07T23:26:32",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":78,"owner_twitter":76,"owner_website":79,"owner_url":80,"languages":81,"stars":90,"forks":91,"last_commit_at":92,"license":93,"difficulty_score":94,"env_os":95,"env_gpu":96,"env_ram":97,"env_deps":98,"category_tags":108,"github_topics":110,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":120,"updated_at":121,"faqs":122,"releases":152},5500,"hkchengrex\u002FTracking-Anything-with-DEVA","Tracking-Anything-with-DEVA","[ICCV 2023] Tracking Anything with Decoupled Video Segmentation","Tracking-Anything-with-DEVA 是一款专为视频分割设计的开源 AI 工具，旨在实现对视频中任意目标的精准、长期跟踪。它主要解决了传统方法难以兼顾开放词汇识别（即通过文字描述定位未知物体）与长时序一致性的难题，无需针对特定任务重新训练即可处理多样化的视频内容。\n\n该工具特别适合计算机视觉研究人员、开发者以及需要处理复杂视频分析任务的专业人士使用。其核心亮点在于采用了“解耦”架构：将负责识别具体目标的图像级模型，与通用的双向时间传播模块分离。这意味着用户只需接入现有的图像分割模型（如 Segment Anything），DEVA 便能自动将其能力延伸至视频领域，实现跨任务的泛化应用，且无需微调。此外，它支持开箱即用的文本提示功能，允许用户通过输入自然语言（如“豚鼠”或“水豚”）直接锁定并跟踪视频中的特定对象。凭借高效的在线融合机制，Tracking-Anything-with-DEVA 在保持画面连贯性的同时，显著提升了在大词汇量视频全景分割和开放世界场景下的表现，是探索视频理解前沿技术的得力助手。","# DEVA: Tracking Anything with Decoupled Video Segmentation\n\n![titlecard](https:\u002F\u002Fimgur.com\u002Flw15BGH.png)\n\n[Ho Kei Cheng](https:\u002F\u002Fhkchengrex.github.io\u002F), [Seoung Wug Oh](https:\u002F\u002Fsites.google.com\u002Fview\u002Fseoungwugoh\u002F), [Brian Price](https:\u002F\u002Fwww.brianpricephd.com\u002F), [Alexander Schwing](https:\u002F\u002Fwww.alexander-schwing.de\u002F), [Joon-Young Lee](https:\u002F\u002Fjoonyoung-cv.github.io\u002F)\n\nUniversity of Illinois Urbana-Champaign and Adobe\n\nICCV 2023\n\n[[arXiV]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.03903) [[PDF]](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.03903.pdf) [[Project Page]](https:\u002F\u002Fhkchengrex.github.io\u002FTracking-Anything-with-DEVA\u002F) [![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1OsyNVoV_7ETD1zIE8UWxL3NXxu12m_YZ?usp=sharing)\n\n## Highlights\n1. Provide long-term, open-vocabulary video segmentation with text-prompts out-of-the-box.\n2. Fairly easy to **integrate your own image model**! Wouldn't you or your reviewers be interested in seeing examples where your image model also works well on videos :smirk:? No finetuning is needed!\n\n***Note (Mar 6 2024):*** We have fixed a major bug (introduced in the last update) that prevented the deletion of unmatched segments in text\u002Feval_with_detections modes. This should greatly reduce the amount of accumulated noisy detection\u002Ffalse positives, especially for long videos. See [#64](https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA\u002Fissues\u002F64).\n\n***Note (Sep 12 2023):*** We have improved automatic video segmentation by not querying the points in segmented regions. We correspondingly increased the number of query points per side to 64 and deprecated the \"engulf\" mode. The old code can be found in the \"legacy_engulf\" branch. The new code should run a lot faster and capture smaller objects. The text-prompted mode is still recommended for better results.\n\n***Note (Sep 11 2023):*** We have removed the \"pluralize\" option as it works weirdly sometimes with GroundingDINO. If needed, please pluralize the prompt yourself.\n\n## Abstract\n\nWe develop a decoupled video segmentation approach (**DEVA**), composed of task-specific image-level segmentation and class\u002Ftask-agnostic bi-directional temporal propagation.\nDue to this design, we only need an image-level model for the target task and a universal temporal propagation model which is trained once and generalizes across tasks.\nTo effectively combine these two modules, we propose a (semi-)online fusion of segmentation hypotheses from different frames to generate a coherent segmentation.\nWe show that this decoupled formulation compares favorably to end-to-end approaches in several tasks, most notably in large-vocabulary video panoptic segmentation and open-world video segmentation.\n\n## Demo Videos\n\n### Demo with Grounded Segment Anything (text prompt: \"guinea pigs\" and \"chicken\"):\n\nhttps:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA\u002Fassets\u002F7107196\u002F457a9a6a-86c3-4c5a-a3cc-25199427cd11\n\nSource: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=FM9SemMfknA\n\n### Demo with Grounded Segment Anything (text prompt: \"pigs\"):\n\nhttps:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA\u002Fassets\u002F7107196\u002F9a6dbcd1-2c84-45c8-ac0a-4ad31169881f\n\nSource: https:\u002F\u002Fyoutu.be\u002FFbK3SL97zf8\n\n### Demo with Grounded Segment Anything (text prompt: \"capybara\"):\n\nhttps:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA\u002Fassets\u002F7107196\u002F2ac5acc2-d160-49be-a013-68ad1d4074c5\n\nSource: https:\u002F\u002Fyoutu.be\u002Fcouz1CrlTdQ\n\n### Demo with Segment Anything (automatic points-in-grid prompting); original video follows DEVA result overlaying the video:\n\nhttps:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA\u002Fassets\u002F7107196\u002Fac6ab425-2f49-4438-bcd4-16e4ccfb0d98\n\nSource: DAVIS 2017 validation set \"soapbox\"\n\n### Demo with Segment Anything on a out-of-domain example; original video follows DEVA result overlaying the video:\n\nhttps:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA\u002Fassets\u002F7107196\u002F48542bcd-113c-4454-b512-030df26def08\n\nSource: https:\u002F\u002Fyoutu.be\u002FFQQaSyH9hZI\n\n## Installation\n\nTested on Ubuntu only. For installation on Windows WSL2, refer to https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA\u002Fissues\u002F20 (thanks @21pl).\n\n**Prerequisite:**\n- Python 3.9+\n- PyTorch 1.12+ and corresponding torchvision\n\n**Clone our repository:**\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA.git\n```\n\n**Install with pip:**\n```bash\ncd Tracking-Anything-with-DEVA\npip install -e .\n```\n(If you encounter the `File \"setup.py\" not found` error, upgrade your pip with `pip install --upgrade pip`)\n\n**Download the pretrained models:**\n```bash\nbash scripts\u002Fdownload_models.sh\n```\n\n**Required for the text-prompted\u002Fautomatic demo:**\n\nInstall [our fork of Grounded-Segment-Anything](https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FGrounded-Segment-Anything). Follow its instructions.\n\nGrounding DINO installation might fail silently.\nTry `python -c \"from groundingdino.util.inference import Model as GroundingDINOModel\"`.\nIf you get a warning about running on CPU mode only, make sure you have `CUDA_HOME` set during Grounding DINO installation.\n\n**(Optional) For fast integer program solving in the semi-online setting:** \n\nGet your [gurobi](https:\u002F\u002Fwww.gurobi.com\u002F) licence which is free for academic use. \nIf a license is not found, we fall back to using [PuLP](https:\u002F\u002Fgithub.com\u002Fcoin-or\u002Fpulp) which is slower and is not rigorously tested by us. All experiments are conducted with gurobi.\n\n\n## Quick Start\n\n[DEMO.md](docs\u002FDEMO.md) contains more details on the input arguments and tips on speeding up inference.\nYou can always look at `deva\u002Finference\u002Feval_args.py` and `deva\u002Fext\u002Fext_eval_args.py` for a full list of arguments.\n\n**With gradio:**\n```bash\npython demo\u002Fdemo_gradio.py\n```\nThen visit the link that popped up on the terminal. If executing on a remote server, try [port forwarding](https:\u002F\u002Funix.stackexchange.com\u002Fquestions\u002F115897\u002Fwhats-ssh-port-forwarding-and-whats-the-difference-between-ssh-local-and-remot).\n\nWe have prepared an example in `example\u002Fvipseg\u002F12_1mWNahzcsAc` (a clip from the VIPSeg dataset).\nThe following two scripts segment the example clip using either Grounded Segment Anything with text prompts or SAM with automatic (points in grid) prompting.\n\n**Script (text-prompted):**\n```bash\npython demo\u002Fdemo_with_text.py --chunk_size 4 \\\n--img_path .\u002Fexample\u002Fvipseg\u002Fimages\u002F12_1mWNahzcsAc \\\n--amp --temporal_setting semionline \\\n--size 480 \\\n--output .\u002Fexample\u002Foutput --prompt person.hat.horse\n```\n\nWe support different SAM variants in **text-prompted modes**, by default we use original sam version. For **higher-quality** masks prediction, you specify `--sam_variant sam_hq`. For **running efficient** sam usage, you can specify `--sam_variant sam_hq_light` or `--sam_variant mobile`.\n\n**Script (automatic):**\n```bash\npython demo\u002Fdemo_automatic.py --chunk_size 4 \\\n--img_path .\u002Fexample\u002Fvipseg\u002Fimages\u002F12_1mWNahzcsAc \\\n--amp --temporal_setting semionline \\\n--size 480 \\\n--output .\u002Fexample\u002Foutput\n```\n\n## Training and Evaluation\n\n1. [Running DEVA with your own detection model.](docs\u002FCUSTOM.md)\n2. [Running DEVA with detections to reproduce the benchmark results.](docs\u002FEVALUATION.md)\n3. [Training the DEVA model.](docs\u002FTRAINING.md)\n\n## Limitations\n\n- On closed-set data, DEVA most likely does not work as well as end-to-end approaches. Joint training is (for now) still a better idea when you have enough target data.\n- Positive detections are amplified temporally due to propagation. Having a detector with a lower false positive rate (i.e., a higher threshold) helps.\n- If new objects are coming in and out all the time (e.g., in driving scenes), we will keep a lot of objects in the memory bank which unfortunately increases the false positive rate. Decreasing `max_missed_detection_count` might help since we delete objects from memory more eagerly.\n\n\u003Cpicture>\n  \u003Csource media=\"(prefers-color-scheme: dark)\" srcset=\"https:\u002F\u002Fimgur.com\u002FaouI1WU.png\">\n  \u003Csource media=\"(prefers-color-scheme: light)\" srcset=\"https:\u002F\u002Fimgur.com\u002FaCbrA9S.png\">\n  \u003Cimg alt=\"separator\" src=\"https:\u002F\u002Fimgur.com\u002FaCbrA9S.png\">\n\u003C\u002Fpicture>\n\n\n## Citation\n\n```bibtex\n@inproceedings{cheng2023tracking,\n  title={Tracking Anything with Decoupled Video Segmentation},\n  author={Cheng, Ho Kei and Oh, Seoung Wug and Price, Brian and Schwing, Alexander and Lee, Joon-Young},\n  booktitle={ICCV},\n  year={2023}\n}\n```\n\n## References\n\nThe demo would not be possible without :heart: from the community:\n\nGrounded Segment Anything: https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FGrounded-Segment-Anything\n\nSegment Anything: https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fsegment-anything\n\nXMem: https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FXMem\n\nTitle card generated with OpenPano: https:\u002F\u002Fgithub.com\u002Fppwwyyxx\u002FOpenPano\n","# DEVA：通过解耦视频分割追踪任何目标\n\n![titlecard](https:\u002F\u002Fimgur.com\u002Flw15BGH.png)\n\n[Ho Kei Cheng](https:\u002F\u002Fhkchengrex.github.io\u002F)、[Seoung Wug Oh](https:\u002F\u002Fsites.google.com\u002Fview\u002Fseoungwugoh\u002F)、[Brian Price](https:\u002F\u002Fwww.brianpricephd.com\u002F)、[Alexander Schwing](https:\u002F\u002Fwww.alexander-schwing.de\u002F)、[Joon-Young Lee](https:\u002F\u002Fjoonyoung-cv.github.io\u002F)\n\n伊利诺伊大学厄巴纳-香槟分校与Adobe公司\n\nICCV 2023\n\n[[arXiV]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.03903) [[PDF]](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.03903.pdf) [[项目页面]](https:\u002F\u002Fhkchengrex.github.io\u002FTracking-Anything-with-DEVA\u002F) [![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1OsyNVoV_7ETD1zIE8UWxL3NXxu12m_YZ?usp=sharing)\n\n## 亮点\n1. 提供开箱即用的长时、开放词汇视频分割功能，支持文本提示。\n2. 非常容易**集成您自己的图像模型**！您或审稿人难道不希望看到您的图像模型在视频上也能表现出色的例子吗？:smirk: 完全无需微调！\n\n***注（2024年3月6日）：*** 我们修复了一个重大错误（在上次更新中引入），该错误会导致在文本模式和eval_with_detections模式下无法删除未匹配的片段。这将大大减少累积的噪声检测和假阳性，尤其是在处理长视频时。详情请参见[#64](https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA\u002Fissues\u002F64)。\n\n***注（2023年9月12日）：*** 我们改进了自动视频分割算法，不再对已分割区域内的点进行查询。相应地，我们将每边的查询点数量增加到64个，并弃用了“engulf”模式。旧代码可在“legacy_engulf”分支中找到。新代码运行速度更快，能够捕捉更小的目标物体。为了获得更好的效果，仍建议使用文本提示模式。\n\n***注（2023年9月11日）：*** 我们移除了“pluralize”选项，因为它有时与GroundingDINO配合时会出现奇怪的行为。如果需要，请您自行将提示词复数化。\n\n## 摘要\n\n我们提出了一种解耦视频分割方法（**DEVA**），由特定任务的图像级分割模块和类\u002F任务无关的双向时间传播模块组成。由于这种设计，我们只需一个针对目标任务的图像级模型，以及一个经过一次性训练、可跨任务泛化的通用时间传播模型。为了有效结合这两个模块，我们提出了一种（半）在线融合不同帧分割假设的方法，以生成连贯的分割结果。实验表明，在多个任务中，这种解耦式方法的表现优于端到端方法，尤其是在大词汇量的视频全景分割和开放世界视频分割任务中。\n\n## 演示视频\n\n### 使用Grounded Segment Anything的演示（文本提示：“豚鼠”和“鸡”）：\n\nhttps:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA\u002Fassets\u002F7107196\u002F457a9a6a-86c3-4c5a-a3cc-25199427cd11\n\n来源：https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=FM9SemMfknA\n\n### 使用Grounded Segment Anything的演示（文本提示：“猪”）：\n\nhttps:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA\u002Fassets\u002F7107196\u002F9a6dbcd1-2c84-45c8-ac0a-4ad31169881f\n\n来源：https:\u002F\u002Fyoutu.be\u002FFbK3SL97zf8\n\n### 使用Grounded Segment Anything的演示（文本提示：“水豚”）：\n\nhttps:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA\u002Fassets\u002F7107196\u002F2ac5acc2-d160-49be-a013-68ad1d4074c5\n\n来源：https:\u002F\u002Fyoutu.be\u002Fcouz1CrlTdQ\n\n### 使用Segment Anything的演示（自动网格点提示）；原始视频跟随DEVA结果叠加显示：\n\nhttps:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA\u002Fassets\u002F7107196\u002Fac6ab425-2f49-4438-bcd4-16e4ccfb0d98\n\n来源：DAVIS 2017验证集“soapbox”\n\n### 使用Segment Anything处理域外示例的演示；原始视频跟随DEVA结果叠加显示：\n\nhttps:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA\u002Fassets\u002F7107196\u002F48542bcd-113c-4454-b512-030df26def08\n\n来源：https:\u002F\u002Fyoutu.be\u002FFQQaSyH9hZI\n\n## 安装说明\n\n目前仅在Ubuntu上测试通过。如需在Windows WSL2上安装，请参考https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA\u002Fissues\u002F20（感谢@21pl）。\n\n**先决条件：**\n- Python 3.9及以上版本\n- PyTorch 1.12及以上版本及对应的torchvision\n\n**克隆我们的仓库：**\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA.git\n```\n\n**使用pip安装：**\n```bash\ncd Tracking-Anything-with-DEVA\npip install -e .\n```\n（若遇到`File \"setup.py\" not found`错误，请先运行`pip install --upgrade pip`升级pip）\n\n**下载预训练模型：**\n```bash\nbash scripts\u002Fdownload_models.sh\n```\n\n**文本提示\u002F自动演示所需：**\n\n安装[我们fork的Grounded-Segment-Anything](https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FGrounded-Segment-Anything)。请按照其说明进行操作。\n\nGrounding DINO的安装可能会静默失败。请尝试运行`python -c \"from groundingdino.util.inference import Model as GroundingDINOModel\"`。若出现仅能在CPU模式下运行的警告，请确保在安装Grounding DINO时已设置好`CUDA_HOME`环境变量。\n\n**(可选) 在半在线设置中快速求解整数规划：**\n\n获取您的[Gurobi](https:\u002F\u002Fwww.gurobi.com\u002F)许可证，学术用户可免费使用。若未找到许可证，我们将回退至使用[PuLP](https:\u002F\u002Fgithub.com\u002Fcoin-or\u002Fpulp)，但后者速度较慢且未经我们严格测试。所有实验均采用Gurobi完成。\n\n## 快速入门\n\n[DEMO.md](docs\u002FDEMO.md)包含更多关于输入参数的详细信息以及加速推理的技巧。您也可以查看`deva\u002Finference\u002Feval_args.py`和`deva\u002Fext\u002Fext_eval_args.py`以获取完整的参数列表。\n\n**使用Gradio：**\n```bash\npython demo\u002Fdemo_gradio.py\n```\n然后访问终端弹出的链接。若在远程服务器上运行，可尝试[端口转发](https:\u002F\u002Funix.stackexchange.com\u002Fquestions\u002F115897\u002Fwhats-ssh-port-forwarding-and-whats-the-difference-between-ssh-local-and-remot)。\n\n我们在`example\u002Fvipseg\u002F12_1mWNahzcsAc`准备了一个示例（来自VIPSeg数据集的一段视频）。以下两个脚本分别使用Grounded Segment Anything结合文本提示，或使用SAM结合自动网格点提示来分割该示例视频。\n\n**文本提示脚本：**\n```bash\npython demo\u002Fdemo_with_text.py --chunk_size 4 \\\n--img_path .\u002Fexample\u002Fvipseg\u002Fimages\u002F12_1mWNahzcsAc \\\n--amp --temporal_setting semionline \\\n--size 480 \\\n--output .\u002Fexample\u002Foutput --prompt person.hat.horse\n```\n\n在**文本提示模式**下，我们支持不同的SAM变体，默认使用原始SAM版本。若需更高**质量的掩码预测**，可指定`--sam_variant sam_hq`。若希望**更高效地运行SAM**，可选择`--sam_variant sam_hq_light`或`--sam_variant mobile`。\n\n**自动提示脚本：**\n```bash\npython demo\u002Fdemo_automatic.py --chunk_size 4 \\\n--img_path .\u002Fexample\u002Fvipseg\u002Fimages\u002F12_1mWNahzcsAc \\\n--amp --temporal_setting semionline \\\n--size 480 \\\n--output .\u002Fexample\u002Foutput\n```\n\n## 训练与评估\n\n1. [使用您自己的检测模型运行 DEVA。](docs\u002FCUSTOM.md)\n2. [使用检测结果运行 DEVA 以复现基准测试结果。](docs\u002FEVALUATION.md)\n3. [训练 DEVA 模型。](docs\u002FTRAINING.md)\n\n## 局限性\n\n- 在封闭集数据上，DEVA 的表现很可能不如端到端方法。当目标数据足够时，联合训练（目前）仍然是更好的选择。\n- 由于传播效应，正向检测会在时间上被放大。因此，使用误检率较低的检测器（即设置较高的阈值）会有所帮助。\n- 如果场景中不断有新物体出现又消失（例如在驾驶场景中），内存库中会保留大量对象，这不幸会增加误检率。适当降低 `max_missed_detection_count` 参数可能会有所帮助，因为这样我们会更积极地从内存中删除对象。\n\n\u003Cpicture>\n  \u003Csource media=\"(prefers-color-scheme: dark)\" srcset=\"https:\u002F\u002Fimgur.com\u002FaouI1WU.png\">\n  \u003Csource media=\"(prefers-color-scheme: light)\" srcset=\"https:\u002F\u002Fimgur.com\u002FaCbrA9S.png\">\n  \u003Cimg alt=\"分隔线\" src=\"https:\u002F\u002Fimgur.com\u002FaCbrA9S.png\">\n\u003C\u002Fpicture>\n\n\n## 引用\n\n```bibtex\n@inproceedings{cheng2023tracking,\n  title={Tracking Anything with Decoupled Video Segmentation},\n  author={Cheng, Ho Kei and Oh, Seoung Wug and Price, Brian and Schwing, Alexander and Lee, Joon-Young},\n  booktitle={ICCV},\n  year={2023}\n}\n```\n\n## 参考文献\n\n如果没有社区的支持，这个演示将无法实现：❤️\n\nGrounded Segment Anything：https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FGrounded-Segment-Anything\n\nSegment Anything：https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fsegment-anything\n\nXMem：https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FXMem\n\n标题卡片由 OpenPano 生成：https:\u002F\u002Fgithub.com\u002Fppwwyyxx\u002FOpenPano","# Tracking-Anything-with-DEVA 快速上手指南\n\nDEVA (Decoupled Video Segmentation) 是一个强大的视频分割工具，支持通过文本提示（Text Prompts）或自动网格点提示实现长时、开放词汇的视频目标跟踪与分割。其核心优势在于解耦了图像级分割模型与时序传播模型，无需微调即可集成各类图像分割模型（如 SAM、Grounded-SAM）。\n\n## 环境准备\n\n**系统要求：**\n- 操作系统：推荐 **Ubuntu**（Windows 用户建议使用 WSL2）\n- Python 版本：3.9 及以上\n- PyTorch 版本：1.12 及以上（需匹配对应的 torchvision）\n- GPU：推荐具备 CUDA 环境的 NVIDIA 显卡（用于加速 Grounding DINO 和推理）\n\n**前置依赖检查：**\n确保已安装基础开发工具及 CUDA 环境。若需使用文本提示功能，必须正确配置 `CUDA_HOME` 环境变量以支持 Grounding DINO 的 GPU 加速。\n\n## 安装步骤\n\n### 1. 克隆仓库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA.git\ncd Tracking-Anything-with-DEVA\n```\n\n### 2. 安装核心依赖\n建议使用国内镜像源加速安装（如清华源）：\n```bash\npip install -e . -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n*注：若遇到 `File \"setup.py\" not found` 错误，请先执行 `pip install --upgrade pip` 升级 pip。*\n\n### 3. 下载预训练模型\n运行官方脚本下载必要的权重文件：\n```bash\nbash scripts\u002Fdownload_models.sh\n```\n\n### 4. 安装扩展功能（文本提示\u002F自动演示必备）\n若需使用文本提示（Text-prompted）功能，需安装 Grounded-Segment-Anything 的分支版本：\n1. 克隆并安装 [Grounded-Segment-Anything](https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FGrounded-Segment-Anything)（请参照该仓库说明）。\n2. **重要验证**：安装后运行以下命令检查 Grounding DINO 是否正常加载且启用了 CUDA：\n   ```bash\n   python -c \"from groundingdino.util.inference import Model as GroundingDINOModel\"\n   ```\n   若出现仅支持 CPU 的警告，请检查安装时 `CUDA_HOME` 是否设置正确。\n\n### 5. (可选) 安装求解器加速\n为了在半在线（semi-online）模式下加速整数规划求解：\n- 推荐申请免费的学术版 [Gurobi](https:\u002F\u002Fwww.gurobi.com\u002F) 许可证。\n- 若无许可证，系统将自动回退到较慢的 [PuLP](https:\u002F\u002Fgithub.com\u002Fcoin-or\u002Fpulp)（未经严格测试）。\n\n## 基本使用\n\n本项目提供 Gradio 交互式界面和命令行脚本两种使用方式。以下示例基于项目自带的 VIPSeg 数据集片段。\n\n### 方式一：启动 Gradio 交互界面\n最直观的试用方式，启动后可在浏览器中上传视频或图片序列进行操作。\n\n```bash\npython demo\u002Fdemo_gradio.py\n```\n启动后，终端会显示访问链接（如 `http:\u002F\u002F127.0.0.1:7860`）。若在远程服务器运行，请使用 SSH 端口转发访问。\n\n### 方式二：命令行脚本运行\n\n#### 1. 文本提示模式 (Text-Prompted)\n使用自然语言描述目标（如 \"person.hat.horse\"），结合 Grounded-SAM 进行分割跟踪。\n\n```bash\npython demo\u002Fdemo_with_text.py --chunk_size 4 \\\n--img_path .\u002Fexample\u002Fvipseg\u002Fimages\u002F12_1mWNahzcsAc \\\n--amp --temporal_setting semionline \\\n--size 480 \\\n--output .\u002Fexample\u002Foutput --prompt person.hat.horse\n```\n*提示：如需更高质量掩码，添加 `--sam_variant sam_hq`；如需高效运行，添加 `--sam_variant mobile`。*\n\n#### 2. 自动模式 (Automatic)\n不使用文本提示，利用 SAM 的自动网格点提示进行全图分割跟踪。\n\n```bash\npython demo\u002Fdemo_automatic.py --chunk_size 4 \\\n--img_path .\u002Fexample\u002Fvipseg\u002Fimages\u002F12_1mWNahzcsAc \\\n--amp --temporal_setting semionline \\\n--size 480 \\\n--output .\u002Fexample\u002Foutput\n```\n\n**参数说明：**\n- `--chunk_size`: 处理块大小，影响显存占用与速度。\n- `--amp`: 启用混合精度推理，节省显存并加速。\n- `--temporal_setting`: 时序设置，`semionline` 为半在线模式。\n- `--size`: 输入图像长边缩放尺寸。\n- `--output`: 结果输出目录。","某野生动物保护团队正在处理数百小时红外相机拍摄的野外视频，需要统计特定珍稀动物（如“水豚”或“豚鼠”）的出现频率和活动轨迹。\n\n### 没有 Tracking-Anything-with-DEVA 时\n- **人工标注成本极高**：面对长视频序列，分析师必须逐帧手动勾勒动物轮廓，耗时数周且极易疲劳出错。\n- **难以应对复杂场景**：当动物被植被遮挡、快速移动或光线变化时，传统跟踪算法容易丢失目标，导致数据中断。\n- **泛化能力受限**：若要识别新物种，必须重新收集数据并训练专用模型，无法直接通过文字指令快速切换检测对象。\n- **噪声累积严重**：旧版方案在长视频中容易产生误检积累，导致背景被错误标记为前景，后期清洗数据工作量巨大。\n\n### 使用 Tracking-Anything-with-DEVA 后\n- **零样本即时启动**：只需输入\"water capybara\"等文本提示，无需任何微调即可自动分割并跟踪视频中的目标，将准备时间从数周缩短至几分钟。\n- **鲁棒的长时跟踪**：凭借解耦的双向时间传播机制，即使动物长时间被遮挡或走出画面再返回，也能保持 ID 一致性和掩膜连贯性。\n- **灵活的任务扩展**：利用其开放词汇特性，同一套流程可立即复用于识别“鸟类”或“野猪”，无需为每个新任务重新训练模型。\n- **精准的去噪机制**：修复后的版本能有效删除未匹配的片段，显著减少长视频中的误检和噪点，直接输出高质量的分析数据。\n\nTracking-Anything-with-DEVA 通过将图像分割能力与通用时序传播解耦，让研究人员能用自然语言瞬间解锁对任意视频目标的长期精准追踪。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fhkchengrex_Tracking-Anything-with-DEVA_d1369cbe.png","hkchengrex","Rex Cheng","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fhkchengrex_01ff6c35.jpg","Ph.D. student at the University of Illinois Urbana-Champaign.\r\nOxygen consuming.",null,"Champaign, IL","hkchengrex@gmail.com","https:\u002F\u002Fhkchengrex.com","https:\u002F\u002Fgithub.com\u002Fhkchengrex",[82,86],{"name":83,"color":84,"percentage":85},"Python","#3572A5",99.8,{"name":87,"color":88,"percentage":89},"Shell","#89e051",0.2,1489,139,"2026-04-08T04:37:41","NOASSERTION",4,"Linux","需要 NVIDIA GPU (PyTorch CUDA 支持)，具体型号和显存未说明，但 Grounding DINO 需正确设置 CUDA_HOME 以启用 GPU 加速","未说明",{"notes":99,"python":100,"dependencies":101},"仅在 Ubuntu 上经过测试；Windows 用户可尝试 WSL2。若使用文本提示或自动演示功能，必须安装指定的 Grounded-Segment-Anything 分支。安装 Grounding DINO 时若静默失败，需检查是否设置了 CUDA_HOME 环境变量。学术用户可免费获取 Gurobi 许可证以提升整数规划求解速度，否则将回退到较慢且未经严格测试的 PuLP。首次运行前需执行脚本下载预训练模型。","3.9+",[102,103,104,105,106,107],"torch>=1.12","torchvision","Grounded-Segment-Anything (fork 版本)","GroundingDINO","gurobi (可选，用于加速)","PuLP (无 gurobi 时的备选)",[109,14,15],"视频",[111,112,113,114,115,116,117,118,119],"deep-learning","object-tracking","open-vocabulary-segmentation","video-editing","video-object-segmentation","video-segmentation","open-vocabulary-video-segmentation","open-world-video-segmentation","iccv2023","2026-03-27T02:49:30.150509","2026-04-08T19:17:13.770897",[123,128,133,138,143,148],{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},24947,"训练时遇到 CUDA 显存不足（Out of Memory）错误怎么办？","可以尝试以下几种方法解决显存不足问题：\n1. 减小批次大小（batch size），但这可能会在一定程度上影响性能；\n2. 使用更多的 GPU 进行分布式训练；\n3. 实现梯度累积（gradient accumulation），但请注意该功能在当前代码库中尚未实现。\n如果是在训练特定阶段（如 stage=3）报错，也可以尝试重新下载训练集或调整相关数据加载参数。","https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA\u002Fissues\u002F48",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},24948,"运行 demo_automatic.py 时出现\"Trying to segment without any memory\"警告且输出未分割，如何解决？","这通常是由于 PyTorch 版本兼容性问题导致的。建议将 torch 和 torchvision 升级到 2.1.2 版本来解决此问题。可以使用以下命令进行安装（以 CUDA 11.8 为例）：\npip install torch==2.1.2+cu118 torchvision==0.16.2+cu118 --extra-index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n升级后重新运行脚本即可正常分割。","https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA\u002Fissues\u002F90",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},24949,"如何正确评估 DAVIS2016\u002F2017 数据集的 J 和 F 值？","官方强烈建议使用文档中提供的评估脚本，而不是手动实现或混用其他评估工具。请参考官方评估指南：\nhttps:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA\u002Fblob\u002Fmain\u002Fdocs\u002FEVALUATION.md\n如果坚持自行实现评估流程，则需要自行解决目录结构和标注文件匹配等问题，官方不提供相关支持。对于 DAVIS2016，也可参考 vos-benchmark 项目，但首选仍是官方文档中的方法。","https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA\u002Fissues\u002F45",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},24950,"使用掩码跟踪物体时，初始掩码质量高但后续帧掩码质量下降或消失，原因是什么？","DEVA 模型结合了检测（detections）和传播（propagated masks）两种机制来生成最终掩码。如果第一帧效果好但后续帧变差，说明问题可能出在“传播”环节而非“检测”环节。建议检查视频序列中是否存在快速运动、遮挡或光照剧烈变化等情况，这些会影响传播效果。也可以通过对比纯检测结果和传播结果来进一步定位问题是来自合并策略还是传播算法本身。","https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA\u002Fissues\u002F101",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},24951,"如何在 Windows 系统上运行 DEVA 的示例或评估脚本？","虽然官方不正式支持 Windows 系统，但维护者已推送了一些修复补丁可能有助于解决问题。在运行示例（如 EVALUATION.md 中的 DEMO 项）时，请确保路径格式正确（Windows 下注意反斜杠转义或使用正斜杠），并确认所有依赖项（如 Python 环境、CUDA、PyTorch 等）已正确安装。若遇到具体错误，可尝试将路径改为相对路径或检查目录权限。如有新问题，请单独提交 Issue 以便追踪。","https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA\u002Fissues\u002F79",{"id":149,"question_zh":150,"answer_zh":151,"source_url":147},24952,"如何使用 U-Net 生成符合 DEVA 要求的数据格式（如 example\u002Fvipseg\u002Fsource\u002F...）？","目前 DEVA 项目并未提供直接使用 U-Net 生成其所需数据格式的官方教程或脚本。用户需要自行编写预处理代码，将 U-Net 输出的分割结果转换为 DEVA 所需的目录结构和文件命名规范（例如按视频序列组织，每帧对应一个掩码图像）。建议参考 example\u002Fvipseg 目录下的样例数据结构进行模仿构建。如有特殊需求，可考虑在社区中寻求自定义脚本支持。",[153],{"id":154,"version":155,"summary_zh":156,"released_at":157},154406,"v1.0","- Mobile SAM 的权重以镜像形式提供。https:\u002F\u002Fgithub.com\u002FChaoningZhang\u002FMobileSAM\u002Fblob\u002Fmaster\u002Fweights\u002Fmobile_sam.pt","2023-09-02T21:03:48"]