[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-hkchengrex--XMem":3,"tool-hkchengrex--XMem":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",153609,2,"2026-04-13T11:34:59",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":78,"owner_twitter":76,"owner_website":79,"owner_url":80,"languages":81,"stars":102,"forks":103,"last_commit_at":104,"license":105,"difficulty_score":10,"env_os":106,"env_gpu":107,"env_ram":106,"env_deps":108,"category_tags":113,"github_topics":115,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":124,"updated_at":125,"faqs":126,"releases":161},7159,"hkchengrex\u002FXMem","XMem","[ECCV 2022] XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model","XMem 是一款专注于长视频对象分割的开源 AI 模型，曾在 ECCV 2022 上发表。它的核心任务是在视频中精准地追踪并分离出特定物体，即使面对长达数万帧的视频或物体长时间被遮挡的复杂场景，也能保持稳定的分割效果。\n\n传统方法往往难以平衡记忆长度与计算资源：短期记忆易受干扰，而长期记忆则会导致显存爆炸或特征细节丢失。XMem 创造性地引入了心理学中的\"Atkinson-Shiffrin\"人类记忆模型，构建了包含感觉记忆、工作记忆和长期记忆的多层架构。这种设计让不同时间尺度的信息互补，既解决了长视频处理中的显存瓶颈，又避免了特征压缩带来的精度下降，实现了在有限硬件资源下的高效运行（约 20 FPS）。\n\n这款工具非常适合计算机视觉研究人员、视频算法开发者以及需要处理长视频分析项目的工程师使用。项目不仅提供了完整的训练与推理代码，还配备了交互式图形界面（GUI），方便用户直观演示和调试。此外，基于 XMem 衍生的“跟踪万物”（Tracking Anything）等扩展项目，也展示了其在开放世界视频分割领域的强大潜力。","# XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model\n\n## New VOS project: Putting the Object Back into Video Object Segmentation: https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FCutie\n\n## New project: Open-world video segmentation with XMem: https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA\n\n[Ho Kei Cheng](https:\u002F\u002Fhkchengrex.github.io\u002F), [Alexander Schwing](https:\u002F\u002Fwww.alexander-schwing.de\u002F)\n\nUniversity of Illinois Urbana-Champaign\n\n[[arXiv]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.07115) [[PDF]](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2207.07115.pdf) [[Project Page]](https:\u002F\u002Fhkchengrex.github.io\u002FXMem\u002F) [![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1RXK5QsUo2-CnOiy5AOSjoZggPVHOPh1m?usp=sharing)\n\n## Demo\n\nHandling long-term occlusion:\n\nhttps:\u002F\u002Fuser-images.githubusercontent.com\u002F7107196\u002F177921527-7a1bd593-2162-4598-9adf-f2112763fccf.mp4\n\nVery-long video; masked layer insertion:\n\nhttps:\u002F\u002Fuser-images.githubusercontent.com\u002F7107196\u002F179089789-3d69adea-0405-4c83-ac28-45f59fe1e1c1.mp4\n\nSource: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=q5Xr0F4a0iU\n\nOut-of-domain case:\n\nhttps:\u002F\u002Fuser-images.githubusercontent.com\u002F7107196\u002F177920383-161f1da1-33f9-48b3-b8b2-09e450432e2b.mp4\n\nSource: かぐや様は告らせたい ～天才たちの恋愛頭脳戦～ Ep.3; A-1 Pictures\n\n### [[Failure Cases]](docs\u002FFAILURE_CASES.md)\n\n## Features\n\n* Handle very long videos with limited GPU memory usage.\n* Quite fast. Expect ~20 FPS even with long videos (hardware dependent).\n* Come with a GUI (modified from [MiVOS](https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FMiVOS\u002Ftree\u002FMiVOS-STCN)).\n\n### Table of Contents\n\n1. [Introduction](#introduction)\n2. [Results](docs\u002FRESULTS.md)\n3. [Interactive GUI demo](docs\u002FDEMO.md)\n4. [Training\u002Finference](#traininginference)\n5. [Citation](#citation)\n\n### Introduction\n\n![framework](https:\u002F\u002Fimgur.com\u002FToE2frx.jpg)\n\nWe frame Video Object Segmentation (VOS), first and foremost, as a *memory* problem.\nPrior works mostly use a single type of feature memory. This can be in the form of network weights (i.e., online learning), last frame segmentation (e.g., MaskTrack), spatial hidden representation (e.g., Conv-RNN-based methods), spatial-attentional features (e.g., STM, STCN, AOT), or some sort of long-term compact features (e.g., AFB-URR).\n\nMethods with a short memory span are not robust to changes, while those with a large memory bank are subject to a catastrophic increase in computation and GPU memory usage. Attempts at long-term attentional VOS like AFB-URR compress features eagerly as soon as they are generated, leading to a loss of feature resolution.\n\nOur method is inspired by the Atkinson-Shiffrin human memory model, which has a *sensory memory*, a *working memory*, and a *long-term memory*. These memory stores have different temporal scales and complement each other in our memory reading mechanism. It performs well in both short-term and long-term video datasets, handling videos with more than 10,000 frames with ease.\n\n### Training\u002Finference\n\nFirst, install the required python packages and datasets following [GETTING_STARTED.md](docs\u002FGETTING_STARTED.md).\n\nFor training, see [TRAINING.md](docs\u002FTRAINING.md).\n\nFor inference, see [INFERENCE.md](docs\u002FINFERENCE.md).\n\n\n### Related projects\u002Fextensions:\n1. [Track Anything](https:\u002F\u002Fgithub.com\u002Fgaomingqi\u002FTrack-Anything)\n2. [DEVA](https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA)\n3. [AutoTrackAnything](https:\u002F\u002Fgithub.com\u002Flicksylick\u002FAutoTrackAnything)\n\n### Citation\n\nPlease cite our paper if you find this repo useful!\n\n```bibtex\n@inproceedings{cheng2022xmem,\n  title={{XMem}: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model},\n  author={Cheng, Ho Kei and Alexander G. Schwing},\n  booktitle={ECCV},\n  year={2022}\n}\n```\n\nRelated projects that this paper is developed upon:\n```bibtex\n@inproceedings{cheng2021stcn,\n  title={Rethinking Space-Time Networks with Improved Memory Coverage for Efficient Video Object Segmentation},\n  author={Cheng, Ho Kei and Tai, Yu-Wing and Tang, Chi-Keung},\n  booktitle={NeurIPS},\n  year={2021}\n}\n\n@inproceedings{cheng2021mivos,\n  title={Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion},\n  author={Cheng, Ho Kei and Tai, Yu-Wing and Tang, Chi-Keung},\n  booktitle={CVPR},\n  year={2021}\n}\n```\n\nWe use f-BRS in the interactive demo: https:\u002F\u002Fgithub.com\u002Fsaic-vul\u002Ffbrs_interactive_segmentation\n\nAnd if you want to cite the datasets:\n\n\u003Cdetails> \n\u003Csummary>\n\nbibtex\n\n\u003C\u002Fsummary>\n\n```bibtex\n@inproceedings{shi2015hierarchicalECSSD,\n  title={Hierarchical image saliency detection on extended CSSD},\n  author={Shi, Jianping and Yan, Qiong and Xu, Li and Jia, Jiaya},\n  booktitle={TPAMI},\n  year={2015},\n}\n\n@inproceedings{wang2017DUTS,\n  title={Learning to Detect Salient Objects with Image-level Supervision},\n  author={Wang, Lijun and Lu, Huchuan and Wang, Yifan and Feng, Mengyang \n  and Wang, Dong, and Yin, Baocai and Ruan, Xiang}, \n  booktitle={CVPR},\n  year={2017}\n}\n\n@inproceedings{FSS1000,\n  title = {FSS-1000: A 1000-Class Dataset for Few-Shot Segmentation},\n  author = {Li, Xiang and Wei, Tianhan and Chen, Yau Pun and Tai, Yu-Wing and Tang, Chi-Keung},\n  booktitle={CVPR},\n  year={2020}\n}\n\n@inproceedings{zeng2019towardsHRSOD,\n  title = {Towards High-Resolution Salient Object Detection},\n  author = {Zeng, Yi and Zhang, Pingping and Zhang, Jianming and Lin, Zhe and Lu, Huchuan},\n  booktitle = {ICCV},\n  year = {2019}\n}\n\n@inproceedings{cheng2020cascadepsp,\n  title={{CascadePSP}: Toward Class-Agnostic and Very High-Resolution Segmentation via Global and Local Refinement},\n  author={Cheng, Ho Kei and Chung, Jihoon and Tai, Yu-Wing and Tang, Chi-Keung},\n  booktitle={CVPR},\n  year={2020}\n}\n\n@inproceedings{xu2018youtubeVOS,\n  title={Youtube-vos: A large-scale video object segmentation benchmark},\n  author={Xu, Ning and Yang, Linjie and Fan, Yuchen and Yue, Dingcheng and Liang, Yuchen and Yang, Jianchao and Huang, Thomas},\n  booktitle = {ECCV},\n  year={2018}\n}\n\n@inproceedings{perazzi2016benchmark,\n  title={A benchmark dataset and evaluation methodology for video object segmentation},\n  author={Perazzi, Federico and Pont-Tuset, Jordi and McWilliams, Brian and Van Gool, Luc and Gross, Markus and Sorkine-Hornung, Alexander},\n  booktitle={CVPR},\n  year={2016}\n}\n\n@inproceedings{denninger2019blenderproc,\n  title={BlenderProc},\n  author={Denninger, Maximilian and Sundermeyer, Martin and Winkelbauer, Dominik and Zidan, Youssef and Olefir, Dmitry and Elbadrawy, Mohamad and Lodhi, Ahsan and Katam, Harinandan},\n  booktitle={arXiv:1911.01911},\n  year={2019}\n}\n\n@inproceedings{shapenet2015,\n  title       = {{ShapeNet: An Information-Rich 3D Model Repository}},\n  author      = {Chang, Angel Xuan and Funkhouser, Thomas and Guibas, Leonidas and Hanrahan, Pat and Huang, Qixing and Li, Zimo and Savarese, Silvio and Savva, Manolis and Song, Shuran and Su, Hao and Xiao, Jianxiong and Yi, Li and Yu, Fisher},\n  booktitle   = {arXiv:1512.03012},\n  year        = {2015}\n}\n```\n\u003C\u002Fdetails>\n\nContact: \u003Chkchengrex@gmail.com>\n","# XMem：基于阿特金森-希夫林记忆模型的长时视频目标分割\n\n## 新的VOS项目：让目标回归视频目标分割：https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FCutie\n\n## 新项目：使用XMem进行开放世界视频分割：https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA\n\n[Ho Kei Cheng](https:\u002F\u002Fhkchengrex.github.io\u002F)，[Alexander Schwing](https:\u002F\u002Fwww.alexander-schwing.de\u002F)\n\n伊利诺伊大学厄巴纳-香槟分校\n\n[[arXiv]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.07115) [[PDF]](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2207.07115.pdf) [[项目页面]](https:\u002F\u002Fhkchengrex.github.io\u002FXMem\u002F) [![在Colab中打开](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1RXK5QsUo2-CnOiy5AOSjoZggPVHOPh1m?usp=sharing)\n\n## 演示\n\n处理长期遮挡：\n\nhttps:\u002F\u002Fuser-images.githubusercontent.com\u002F7107196\u002F177921527-7a1bd593-2162-4598-9adf-f2112763fccf.mp4\n\n超长视频；插入掩码层：\n\nhttps:\u002F\u002Fuser-images.githubusercontent.com\u002F7107196\u002F179089789-3d69adea-0405-4c83-ac28-45f59fe1e1c1.mp4\n\n来源：https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=q5Xr0F4a0iU\n\n域外案例：\n\nhttps:\u002F\u002Fuser-images.githubusercontent.com\u002F7107196\u002F177920383-161f1da1-33f9-48b3-b8b2-09e450432e2b.mp4\n\n来源：《辉夜大小姐想让我告白～天才们的恋爱头脑战～》第3集；A-1 Pictures\n\n### [[失败案例]](docs\u002FFAILURE_CASES.md)\n\n## 特性\n\n* 能够在有限的GPU内存占用下处理超长视频。\n* 速度较快。即使是长视频，也能达到约20 FPS（取决于硬件）。\n* 自带GUI界面（基于[MiVOS](https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FMiVOS\u002Ftree\u002FMiVOS-STCN)修改而来）。\n\n### 目录\n\n1. [简介](#introduction)\n2. [结果](docs\u002FRESULTS.md)\n3. [交互式GUI演示](docs\u002FDEMO.md)\n4. [训练\u002F推理](#traininginference)\n5. [引用](#citation)\n\n### 简介\n\n![框架](https:\u002F\u002Fimgur.com\u002FToE2frx.jpg)\n\n我们将视频目标分割（VOS）首先视为一个*记忆*问题。以往的工作大多只使用单一类型的特征记忆，例如网络权重（即在线学习）、上一帧分割结果（如MaskTrack）、空间隐藏表示（如基于Conv-RNN的方法）、空间注意力特征（如STM、STCN、AOT），或某种长期紧凑特征（如AFB-URR）。\n\n记忆跨度较短的方法对变化不够鲁棒，而拥有庞大记忆库的方法则会导致计算量和GPU内存占用急剧增加。像AFB-URR这样尝试实现长期注意力机制的算法，会在特征生成后立即对其进行压缩，从而导致特征分辨率的损失。\n\n我们的方法受到阿特金森-希夫林人类记忆模型的启发，该模型包含*感觉记忆*、*工作记忆*和*长期记忆*。这些记忆存储具有不同的时间尺度，并在我们的记忆读取机制中相互补充。它在短期和长期视频数据集上均表现出色，能够轻松处理超过1万帧的视频。\n\n### 训练\u002F推理\n\n首先，请按照[GETTING_STARTED.md](docs\u002FGETTING_STARTED.md)安装所需的Python包和数据集。\n\n关于训练，请参阅[TRAINING.md](docs\u002FTRAINING.md)。\n\n关于推理，请参阅[INFERENCE.md](docs\u002FINFERENCE.md)。\n\n\n### 相关项目\u002F扩展：\n1. [Track Anything](https:\u002F\u002Fgithub.com\u002Fgaomingqi\u002FTrack-Anything)\n2. [DEVA](https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA)\n3. [AutoTrackAnything](https:\u002F\u002Fgithub.com\u002Flicksylick\u002FAutoTrackAnything)\n\n### 引用\n\n如果您觉得本仓库有用，请引用我们的论文！\n\n```bibtex\n@inproceedings{cheng2022xmem,\n  title={{XMem}: 基于阿特金森-希夫林记忆模型的长期视频目标分割},\n  author={程浩基和亚历山大·G·施温},\n  booktitle={ECCV},\n  year={2022}\n}\n```\n\n本文所基于的相关项目如下：\n\n```bibtex\n@inproceedings{cheng2021stcn,\n  title={重新思考时空网络：通过改进的记忆覆盖实现高效的视频目标分割},\n  author={程浩基、戴宇颖和唐志强},\n  booktitle={NeurIPS},\n  year={2021}\n}\n\n@inproceedings{cheng2021mivos,\n  title={模块化交互式视频目标分割：从交互到掩码、传播与差异感知融合},\n  author={程浩基、戴宇颖和唐志强},\n  booktitle={CVPR},\n  year={2021}\n}\n```\n\n我们在交互式演示中使用了 f-BRS：https:\u002F\u002Fgithub.com\u002Fsaic-vul\u002Ffbrs_interactive_segmentation\n\n如果您需要引用数据集，可以参考以下 BibTeX 格式：\n\n\u003Cdetails> \n\u003Csummary>\n\nBibTeX\n\n\u003C\u002Fsummary>\n\n```bibtex\n@inproceedings{shi2015hierarchicalECSSD,\n  title={在扩展 CSSD 数据集上进行分层图像显著性检测},\n  author={史建平、严琼、徐立和贾佳亚},\n  booktitle={TPAMI},\n  year={2015},\n}\n\n@inproceedings{wang2017DUTS,\n  title={利用图像级监督学习检测显著物体},\n  author={王丽君、陆虎川、王一凡、冯孟阳、王东、尹宝才和阮翔},\n  booktitle={CVPR},\n  year={2017}\n}\n\n@inproceedings{FSS1000,\n  title = {FSS-1000：用于少样本分割的1000类数据集},\n  author = {李翔、魏天涵、陈耀鹏、戴宇颖和唐志强},\n  booktitle={CVPR},\n  year={2020}\n}\n\n@inproceedings{zeng2019towardsHRSOD,\n  title = {迈向高分辨率显著物体检测},\n  author = {曾毅、张萍萍、张建明、林哲和陆虎川},\n  booktitle = {ICCV},\n  year = {2019}\n}\n\n@inproceedings{cheng2020cascadepsp,\n  title={{CascadePSP}：通过全局与局部细化实现类别无关且超高分辨率的分割},\n  author={程浩基、郑智勋、戴宇颖和唐志强},\n  booktitle={CVPR},\n  year={2020}\n}\n\n@inproceedings{xu2018youtubeVOS,\n  title={YouTube-VOS：大规模视频目标分割基准},\n  author={许宁、杨林杰、范雨辰、岳丁成、梁雨辰、杨建超和黄泰华},\n  booktitle={ECCV},\n  year={2018}\n}\n\n@inproceedings{perazzi2016benchmark,\n  title={视频目标分割的基准数据集与评估方法},\n  author={佩拉齐、蓬特-图塞特、麦克威廉姆斯、范古尔、格罗斯和索尔金-霍恩堡},\n  booktitle={CVPR},\n  year={2016}\n}\n\n@inproceedings{denninger2019blenderproc,\n  title={BlenderProc},\n  author={登宁格、桑德迈耶、温克尔鲍尔、齐丹、奥列菲尔、埃尔巴德拉维、洛迪、卡塔姆},\n  booktitle={arXiv:1911.01911},\n  year={2019}\n}\n\n@inproceedings{shapenet2015,\n  title       = {{ShapeNet：一个信息丰富的3D模型库}},\n  author      = {张安吉尔轩、芬克豪瑟、圭巴斯、汉拉汉、黄启星、李子墨、萨瓦雷斯、萨瓦、宋书然、苏浩、肖建雄、易莉和余费舍尔},\n  booktitle   = {arXiv:1512.03012},\n  year        = {2015}\n}\n```\n\u003C\u002Fdetails>\n\n联系邮箱：\u003Chkchengrex@gmail.com>","# XMem 快速上手指南\n\nXMem 是一个基于 Atkinson-Shiffrin 人类记忆模型的长时视频目标分割（VOS）工具。它能够以极低的显存占用处理超长视频（超过 10,000 帧），推理速度可达约 20 FPS，并提供交互式 GUI 支持。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 18.04\u002F20.04)\n*   **Python**: 3.7 或更高版本\n*   **GPU**: 支持 CUDA 的 NVIDIA 显卡（建议显存 ≥ 4GB，处理长视频建议更大）\n*   **CUDA**: 已安装与 PyTorch 版本匹配的 CUDA 驱动\n\n**前置依赖库**:\n主要依赖 `torch`, `torchvision`, `opencv-python`, `numpy`, `Pillow` 等。\n\n> **国内加速建议**：\n> 建议使用清华源或阿里源安装 Python 依赖，以提升下载速度：\n> ```bash\n> pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n## 安装步骤\n\n1.  **克隆仓库**\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FXMem.git\n    cd XMem\n    ```\n\n2.  **安装 Python 依赖**\n    首先安装基础包（请确保已安装 PyTorch，若未安装请参考 PyTorch 官网选择对应命令）：\n    ```bash\n    pip install torch torchvision opencv-python numpy pillow scipy tqdm\n    ```\n    \n    如果项目根目录包含 `requirements.txt`，可直接运行：\n    ```bash\n    pip install -r requirements.txt\n    ```\n\n3.  **下载预训练模型**\n    从官方发布页或 Google Drive 下载预训练权重文件（通常为 `XMem-s012.pth` 或类似名称），并将其放置在项目根目录或指定的 `weights` 文件夹下。\n    \n    *注：由于网络原因，国内用户可通过相关技术社区或镜像站寻找预训练模型资源。*\n\n4.  **准备数据集（可选，仅用于训练或评测）**\n    如需复现结果或训练，请按照 `docs\u002FGETTING_STARTED.md` 中的说明下载 DAVIS 或 YouTube-VOS 数据集并配置路径。仅进行推理则无需此步。\n\n## 基本使用\n\n### 1. 命令行推理 (Inference)\n\n最简单的使用方式是通过命令行对视频进行自动分割。假设你有一个输入视频 `input.mp4` 和第一帧的掩码标注（或使用内置演示数据）。\n\n运行以下命令进行推理（具体参数请参考 `docs\u002FINFERENCE.md`）：\n\n```bash\npython inference_video.py --config config\u002Fxmem.yaml --weights weights\u002FXMem-s012.pth --video_path data\u002Fdemo\u002FJPEGImages --mask_path data\u002Fdemo\u002FAnnotations --output output\n```\n\n*   `--config`: 配置文件路径。\n*   `--weights`: 预训练模型路径。\n*   `--video_path`: 输入视频帧序列文件夹。\n*   `--mask_path`: 首帧标注掩码文件夹。\n*   `--output`: 输出结果保存路径。\n\n### 2. 交互式 GUI 演示\n\nXMem 提供了一个修改自 MiVOS 的图形界面，支持人工交互修正分割结果，非常适合处理复杂场景。\n\n启动 GUI：\n```bash\npython demo_gui.py --config config\u002Fxmem.yaml --weights weights\u002FXMem-s012.pth\n```\n\n**操作简述**：\n1.  加载视频文件。\n2.  在第一帧使用画笔工具标记前景（绿色）和背景（红色）。\n3.  点击 \"Propagate\" 按钮，算法将自动分割后续所有帧。\n4.  若中间某帧效果不佳，可在该帧补充标记并重新传播。\n\n### 3. Colab 在线体验\n\n如果您没有本地 GPU 环境，可以直接使用官方提供的 Google Colab 笔记本快速体验：\n\n[![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1RXK5QsUo2-CnOiy5AOSjoZggPVHOPh1m?usp=sharing)\n\n---\n*更多高级用法（如训练自定义模型、长视频优化策略）请参阅项目文档 `docs\u002FTRAINING.md` 和 `docs\u002FDEMO.md`。*","某影视后期团队正在处理一段长达 20 分钟的纪录片素材，需要对画面中频繁被前景遮挡并长时间消失的野生动物进行高精度逐帧抠像。\n\n### 没有 XMem 时\n- **长时记忆丢失**：当动物被树木完全遮挡超过数十秒后，传统算法因缺乏长期记忆机制，在目标重现时无法识别，导致跟踪中断需人工重新标注。\n- **显存资源爆炸**：试图通过增加历史帧缓存来提升鲁棒性时，GPU 显存占用随视频时长线性激增，导致长视频处理直接崩溃。\n- **细节特征模糊**：现有的压缩记忆方案为了节省空间过早丢弃特征分辨率，使得动物毛发等细微边缘在长序列后变得模糊不清。\n- **交互效率低下**：剪辑师不得不每隔几分钟就暂停视频进行手动修正，原本自动化的流程变成了繁琐的人工接力赛。\n\n### 使用 XMem 后\n- **超长程稳定跟踪**：XMem 模拟人类“感觉 - 工作 - 长期”三级记忆模型，即使目标消失数千帧，重现瞬间也能精准唤醒记忆，实现无缝续接。\n- **恒定低显存占用**：凭借高效的记忆管理机制，处理万帧级长视频时显存占用保持平稳，普通消费级显卡即可流畅运行。\n- **高保真边缘还原**：多级记忆互补机制保留了关键的空间注意力特征，确保动物在长镜头运动中的毛发边缘依然锐利清晰。\n- **全流程自动化**：支持以约 20 FPS 的速度实时推理，配合 GUI 工具，剪辑师只需在首帧标注，即可一次性生成全片高质量蒙版。\n\nXMem 通过将视频分割重构为记忆问题，彻底解决了长视频中目标长期遮挡与资源受限难以兼得的核心痛点。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fhkchengrex_XMem_75774512.png","hkchengrex","Rex Cheng","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fhkchengrex_01ff6c35.jpg","Ph.D. student at the University of Illinois Urbana-Champaign.\r\nOxygen consuming.",null,"Champaign, IL","hkchengrex@gmail.com","https:\u002F\u002Fhkchengrex.com","https:\u002F\u002Fgithub.com\u002Fhkchengrex",[82,86,90,94,98],{"name":83,"color":84,"percentage":85},"Python","#3572A5",95.4,{"name":87,"color":88,"percentage":89},"Cuda","#3A4E3A",2.3,{"name":91,"color":92,"percentage":93},"C++","#f34b7d",1.7,{"name":95,"color":96,"percentage":97},"Cython","#fedf5b",0.5,{"name":99,"color":100,"percentage":101},"Shell","#89e051",0.1,1965,207,"2026-04-10T19:12:29","MIT","未说明","需要 NVIDIA GPU（文中提及受硬件影响及显存限制），具体型号、显存大小及 CUDA 版本未说明",{"notes":109,"python":106,"dependencies":110},"该工具专注于在有限显存下处理长视频分割。详细的环境安装步骤（包括 Python 包和数据集）需参考项目文档中的 GETTING_STARTED.md 文件，README 正文中未直接列出具体的版本号或依赖列表。项目包含一个基于 MiVOS 修改的图形用户界面 (GUI)。",[111,112],"torch (推断)","f-BRS (用于交互式演示)",[15,114,14],"视频",[116,117,118,119,120,121,122,123],"computer-vision","deep-learning","eccv-2022","eccv2022","pytorch","segmentation","video-object-segmentation","video-segmentation","2026-03-27T02:49:30.150509","2026-04-14T00:11:10.662677",[127,132,137,142,147,151,156],{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},32149,"如何在推理时使用自定义掩码（Custom Mask）？调色板部分应该如何处理？","可以使用自定义的灰度对象掩码进行推理。关于调色板部分，确保使用的工具生成的掩码具有离散的边缘（discrete edges），不要使用边缘平滑（smoothing）或羽化（feathering）效果。任何绘图工具（甚至 MS Paint）都可以，只要禁用平滑功能即可。输出中 `np.unique` 的结果应为 [0, 1]。如果需要参考实现，可以查看基于 Streamlit 的代码示例。","https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FXMem\u002Fissues\u002F64",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},32150,"在自定义数据集上推理时没有结果，或者结果全黑\u002F全白，可能是什么原因？","这通常是因为掩码图像的值不是严格的 0 和 1。请检查您的掩码文件，确保 `np.unique` 的输出仅包含 [0, 1]。如果您使用绘图软件（如 GIMP）绘制掩码，请务必禁用“边缘平滑”或“羽化”功能，否则会产生中间值导致模型无法识别。推荐使用 labelme 等标注工具，或者确保保存为二值图像。","https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FXMem\u002Fissues\u002F161",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},32151,"在处理多个不同分辨率的视频时，遇到张量不匹配（tensor mismatch）错误怎么办？","这是因为在推理循环中，前一个视频的内存状态被保留到了下一个不同分辨率的视频中。解决方案是在 `eval.py` 中，对于每一个新视频，应该重新创建内存存储（memory storage），而不需要手动调用清除内存的操作。确保在处理新视频序列时初始化新的处理器实例。","https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FXMem\u002Fissues\u002F87",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},32152,"在 Web 应用或多线程环境中遇到 CUDA 显存溢出（OOM）或显存未释放的问题如何解决？","如果您在多线程环境中使用（例如 Web 应用），请注意 `torch.set_grad_enabled(False)` 是线程局部的。如果在加载模型的线程中禁用了梯度计算，但在执行推理的另一个线程中没有禁用，仍然会导致显存占用过高。请确保在执行预测（predict）的线程中也显式调用了 `torch.set_grad_enabled(False)` 或使用 `with torch.no_grad():` 包裹推理代码。","https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FXMem\u002Fissues\u002F106",{"id":148,"question_zh":149,"answer_zh":150,"source_url":141},32153,"如何在训练数据集中配置医学或手术视频数据？训练阶段代表什么？","XMem 的训练阶段（Stage 0-3）分别代表：静态图像训练、BL30K 数据集训练、长序列主训练、短序列主训练。对于自定义的医学手术视频数据，您可以将其视为视频序列数据进行训练。如果是单帧图片，可归入 Stage 0；如果是连续视频，可用于 Stage 2 或 Stage 3 的微调。无需特意转换为静态图像，保持视频的时间序列特性即可利用模型的时空记忆能力。",{"id":152,"question_zh":153,"answer_zh":154,"source_url":155},32154,"是否支持动态添加或删除跟踪对象？显存占用会随对象数量增加吗？","XMem 本身主要设计用于固定对象的跟踪。如果您需要频繁动态添加或删除大量对象，或者需要更灵活的“跟踪一切”的功能，建议关注作者的新项目 DEVA (Tracking Anything with DEVA)，它在这方面进行了专门的优化和新论文发布。在 XMem 中，增加跟踪对象数量确实会增加显存和计算负担。","https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FXMem\u002Fissues\u002F92",{"id":157,"question_zh":158,"answer_zh":159,"source_url":160},32155,"复现论文成绩时，在 YouTubeVOS2018 验证集上得分偏低（如 82.6 而非 84.0+），可能是什么原因？","请检查数据集路径配置。一个常见错误是在评估新机器上的检查点时，没有下载完整的 \"all_frames\" 数据集文件夹，或者在 `test_datasets.py` 中错误地修改了 `self.image_dir` 路径（例如指向了错误的 JPEGImages 子目录）。确保数据路径正确指向包含所有帧的完整目录，修正后通常能复现 84.0 左右的分数。","https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FXMem\u002Fissues\u002F32",[162],{"id":163,"version":164,"summary_zh":165,"released_at":166},239414,"v1.0","预训练模型","2022-07-06T23:00:21"]