[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-xuxw98--ESAM":3,"tool-xuxw98--ESAM":62},[4,18,26,35,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,2,"2026-04-18T11:18:24",[14,15,13],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":32,"last_commit_at":41,"category_tags":42,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[43,13,15,14],"插件",{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[52,15,13,14],"语言模型",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,61],"视频",{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":78,"owner_email":79,"owner_twitter":80,"owner_website":81,"owner_url":82,"languages":83,"stars":92,"forks":93,"last_commit_at":94,"license":95,"difficulty_score":96,"env_os":97,"env_gpu":98,"env_ram":97,"env_deps":99,"category_tags":102,"github_topics":104,"view_count":32,"oss_zip_url":114,"oss_zip_packed_at":114,"status":17,"created_at":115,"updated_at":116,"faqs":117,"releases":148},9132,"xuxw98\u002FESAM","ESAM","[ICLR 2025, Oral] EmbodiedSAM: Online Segment Any 3D Thing in Real Time","ESAM（EmbodiedSAM）是一款专为实时 3D 场景理解打造的开源框架，荣获 ICLR 2025 口头报告奖。它致力于解决传统 3D 分割方法依赖离线处理、速度缓慢且难以适应新类别的痛点，实现了在动态环境中对任意 3D 物体进行在线、实时且细粒度的实例分割。\n\n不同于以往需要等待数据全部采集完毕才能处理的方案，ESAM 能够随着传感器数据的流入即时完成分割任务，并支持开放词汇查询，意味着用户可以自由指定想要分割的物体类型，而无需重新训练模型。其核心技术亮点在于巧妙融合了视觉基础模型（如 SAM 或 FastSAM），在保持高精度的同时大幅提升了推理速度，最快仅需约 100 毫秒即可完成一帧处理，显著优于同类在线方法。\n\n这款工具非常适合机器人开发者、计算机视觉研究人员以及从事自动驾驶或增强现实（AR）应用的工程师使用。无论是希望让机器人实时识别并操作未知物体，还是需要在复杂场景中快速构建语义地图，ESAM 都能提供强大的技术支撑。目前项目已开放代码、预训练模型及自定义数据集演示，方便用户快速上手验证效果。","# EmbodiedSAM: Online Segment Any 3D Thing in Real Time\r\n### [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.11811) | [Project Page](https:\u002F\u002Fxuxw98.github.io\u002FESAM\u002F) | [Video](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F000910bee9d5476db250\u002F?dl=1) | [中文解读](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F23105869992)\r\n\r\n> EmbodiedSAM: Online Segment Any 3D Thing in Real Time  \r\n> [Xiuwei Xu](https:\u002F\u002Fxuxw98.github.io\u002F), Huangxing Chen, [Linqing Zhao](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=ypxt5UEAAAAJ&hl=zh-CN&oi=ao), [Ziwei Wang](https:\u002F\u002Fziweiwangthu.github.io\u002F), [Jie Zhou](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=6a79aPwAAAAJ&hl=en&authuser=1), [Jiwen Lu](http:\u002F\u002Fivg.au.tsinghua.edu.cn\u002FJiwen_Lu\u002F)\r\n\r\n\r\nIn this work, we presented ESAM, an efficient framework that leverages vision foundation models for \u003Cb>online\u003C\u002Fb>, \u003Cb>real-time\u003C\u002Fb>, \u003Cb>fine-grained\u003C\u002Fb>, \u003Cb>generalized\u003C\u002Fb> and \u003Cb>open-vocabulary\u003C\u002Fb> 3D instance segmentation. \r\n\r\n\r\n## News\r\n- [2025\u002F4\u002F03]: Custom dataset is supported! Users can run EmbodiedSAM on their own data following [here](.\u002Fdocs\u002Fdemo.md).\r\n- [2025\u002F2\u002F11]: EmbodiedSAM is selected as an \u003Cb>oral presentation\u003C\u002Fb> in ICLR 2025!\r\n- [2025\u002F1\u002F23]: EmbodiedSAM is accepted to ICLR 2025 with a top 2% rating!\r\n- [2024\u002F8\u002F22]: Code and demo released.\r\n\r\n\r\n## Demo\r\n### Real-world:\r\n![demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxuxw98_ESAM_readme_debabb735c95.gif)\r\n\r\n### Bedroom:\r\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxuxw98_ESAM_readme_dd888817eae3.gif\" width=\"450\" \u002F>\r\n\r\n### Office:\r\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxuxw98_ESAM_readme_0f9b00efb82b.gif\" width=\"450\" \u002F>\r\n\r\nDemos are a little bit large; please wait a moment to load them. Welcome to the home page for more complete demos and detailed introductions.\r\n\r\n\r\n## Method \r\n\r\nMethod Pipeline:\r\n![overview](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxuxw98_ESAM_readme_9ffa9b816457.png)\r\n\r\n## Getting Started\r\nFor environment setup and dataset preparation, please follow:\r\n* [Installation](.\u002Fdocs\u002Finstallation.md)\r\n* [Dataset Preparation](.\u002Fdocs\u002Fdataset_preparation.md)\r\n\r\nFor training and evaluation, please follow:\r\n* [Train and Evaluation](.\u002Fdocs\u002Frun.md)\r\n  \r\nFor visualization on the provided datasets or **your own data**, please follow:\r\n* [Visualization Demo](.\u002Fdocs\u002Fdemo.md)\r\n\r\n\r\n## Main Results\r\nWe provide the checkpoints for quick reproduction of the results reported in the paper. In addition to Tsinghua Cloud, we also upload the checkpoints and processed data to HuggingFace. Click [here](https:\u002F\u002Fhuggingface.co\u002FXXXCARREY\u002FEmbodiedSAM\u002Ftree\u002Fmain) for more details.\r\n\r\n**Class-agnostic 3D instance segmentation results on ScanNet200 dataset:**\r\n\r\n|  Method  |   Type  |     VFM     |  AP  | AP@50 | AP@25 | Speed(ms) | Downloads |\r\n|:--------:|:-------:|:-----------:|:----:|:-----:|:-----:|:---------:|:---------:|\r\n| [SAMPro3D](https:\u002F\u002Fgithub.com\u002FGAP-LAB-CUHK-SZ\u002FSAMPro3D) | Offline |     [SAM](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fsegment-anything)     | 18.0 |  32.8 |  56.1 |     --    |     --    |\r\n|   [SAI3D](https:\u002F\u002Fgithub.com\u002Fyd-yin\u002FSAI3D)  | Offline | [SemanticSAM](https:\u002F\u002Fgithub.com\u002FUX-Decoder\u002FSemantic-SAM) | 30.8 |  50.5 |  70.6 |     --    |     --    |\r\n|   [SAM3D](https:\u002F\u002Fgithub.com\u002FPointcept\u002FSegmentAnything3D)  |  Online |     SAM     | 20.6 |  35.7 |  55.5 | 1369+1518 |     --    |\r\n|   ESAM   |  Online |     SAM     | 42.2 |  63.7 |  79.6 |  1369+**80**  |   [model](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F426d6eb693ff4b1fa04b\u002F?dl=1)   |\r\n|  ESAM-E  |  Online |   [FastSAM](https:\u002F\u002Fgithub.com\u002FCASIA-IVA-Lab\u002FFastSAM)   | **43.4** |  **65.4** |  **80.9** |   **20**+**80**   |   [model](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F7578d7e3d6764f6a93ee\u002F?dl=1)   |\r\n\r\n**Dataset transfer results from ScanNet200 to SceneNN and 3RScan:**\r\n\u003Ctable class=\"tg\">\u003Cthead>\r\n  \u003Ctr>\r\n    \u003Cth class=\"tg-b2st\" rowspan=\"2\">Method\u003C\u002Fth>\r\n    \u003Cth class=\"tg-b2st\" rowspan=\"2\">Type \u003C\u002Fth>\r\n    \u003Cth class=\"tg-b2st\" colspan=\"3\">ScanNet200--&gt;SceneNN\u003C\u002Fth>\r\n    \u003Cth class=\"tg-b2st\" colspan=\"3\">ScanNet200--&gt;3RScan\u003C\u002Fth>\r\n  \u003C\u002Ftr>\r\n  \u003Ctr>\r\n    \u003Cth class=\"tg-wa1i\">AP\u003C\u002Fth>\r\n    \u003Cth class=\"tg-wa1i\">AP@50\u003C\u002Fth>\r\n    \u003Cth class=\"tg-wa1i\">AP@25\u003C\u002Fth>\r\n    \u003Cth class=\"tg-wa1i\">AP\u003C\u002Fth>\r\n    \u003Cth class=\"tg-wa1i\">AP@50\u003C\u002Fth>\r\n    \u003Cth class=\"tg-wa1i\">AP@25\u003C\u002Fth>\r\n  \u003C\u002Ftr>\u003C\u002Fthead>\r\n\u003Ctbody>\r\n  \u003Ctr>\r\n    \u003Ctd class=\"tg-nrix\">SAMPro3D\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">Offline\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">12.6\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">25.8\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">53.2\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">3.9\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">8.0\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">21.0\u003C\u002Ftd>\r\n  \u003C\u002Ftr>\r\n  \u003Ctr>\r\n    \u003Ctd class=\"tg-nrix\">SAI3D\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">Offline\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">18.6\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">34.7\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">65.7\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">5.4\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">11.8\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">27.4\u003C\u002Ftd>\r\n  \u003C\u002Ftr>\r\n  \u003Ctr>\r\n    \u003Ctd class=\"tg-nrix\">SAM3D\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">Online\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">15.1\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">30.0\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">51.8\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">6.2\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">13.0\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">33.9\u003C\u002Ftd>\r\n  \u003C\u002Ftr>\r\n  \u003Ctr>\r\n    \u003Ctd class=\"tg-nrix\">ESAM\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">Online\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">\u003Cb>28.8\u003C\u002Fb>\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">\u003Cb>52.2\u003C\u002Fb>\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">69.3\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">\u003Cb>14.1\u003C\u002Fb>\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">\u003Cb>31.2\u003C\u002Fb>\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">\u003Cb>59.6\u003C\u002Fb>\u003C\u002Ftd>\r\n  \u003C\u002Ftr>\r\n  \u003Ctr>\r\n    \u003Ctd class=\"tg-nrix\">ESAM-E\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">Online\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">28.6\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">50.4\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">\u003Cb>71.0\u003C\u002Fb>\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">13.9\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">29.4\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">58.8\u003C\u002Ftd>\r\n  \u003C\u002Ftr>\r\n\u003C\u002Ftbody>\u003C\u002Ftable>\r\n\r\n**3D instance segmentation results on ScanNet dataset:**\r\n\u003Ctable class=\"tg\">\u003Cthead>\r\n  \u003Ctr>\r\n    \u003Cth class=\"tg-gabo\" rowspan=\"2\">Method\u003C\u002Fth>\r\n    \u003Cth class=\"tg-gabo\" rowspan=\"2\">Type\u003C\u002Fth>\r\n    \u003Cth class=\"tg-gabo\" colspan=\"3\">ScanNet\u003C\u002Fth>\r\n    \u003Cth class=\"tg-gabo\" colspan=\"3\">SceneNN\u003C\u002Fth>\r\n    \u003Cth class=\"tg-gabo\" rowspan=\"2\">FPS\u003C\u002Fth>\r\n    \u003Cth class=\"tg-gabo\" rowspan=\"2\">Download\u003C\u002Fth>\r\n  \u003C\u002Ftr>\r\n  \u003Ctr>\r\n    \u003Cth class=\"tg-uzvj\">AP\u003C\u002Fth>\r\n    \u003Cth class=\"tg-uzvj\">AP@50\u003C\u002Fth>\r\n    \u003Cth class=\"tg-uzvj\">AP@25\u003C\u002Fth>\r\n    \u003Cth class=\"tg-uzvj\">AP\u003C\u002Fth>\r\n    \u003Cth class=\"tg-uzvj\">AP@50\u003C\u002Fth>\r\n    \u003Cth class=\"tg-uzvj\">AP@25\u003C\u002Fth>\r\n  \u003C\u002Ftr>\u003C\u002Fthead>\r\n\u003Ctbody>\r\n  \u003Ctr>\r\n    \u003Ctd class=\"tg-9wq8\">\u003Ca href=https:\u002F\u002Fgithub.com\u002FSamsungLabs\u002Ftd3d>TD3D\u003C\u002Fa>\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">offline\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">46.2\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">71.1\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">81.3\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\r\n  \u003C\u002Ftr>\r\n  \u003Ctr>\r\n    \u003Ctd class=\"tg-9wq8\">\u003Ca href=https:\u002F\u002Fgithub.com\u002Foneformer3d\u002Foneformer3d>Oneformer3D\u003C\u002Fa>\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">offline\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">59.3\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">78.8\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">86.7\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\r\n  \u003C\u002Ftr>\r\n  \u003Ctr>\r\n    \u003Ctd class=\"tg-9wq8\">\u003Ca href=https:\u002F\u002Fgithub.com\u002FTHU-luvision\u002FINS-Conv>INS-Conv\u003C\u002Fa>\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">online\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">57.4\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\r\n  \u003C\u002Ftr>\r\n  \u003Ctr>\r\n    \u003Ctd class=\"tg-9wq8\">\u003Ca href=https:\u002F\u002Fgithub.com\u002Fxuxw98\u002FOnline3D>TD3D-MA\u003C\u002Fa>\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">online\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">39.0\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">60.5\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">71.3\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">26.0\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">42.8\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">59.2\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">3.5\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\r\n  \u003C\u002Ftr>\r\n  \u003Ctr>\r\n    \u003Ctd class=\"tg-9wq8\">ESAM-E\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">online\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">41.6\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">60.1\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">75.6\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">27.5\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">48.7\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-uzvj\">\u003Cb>64.6\u003C\u002Fb>\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-uzvj\">\u003Cb>10\u003C\u002Fb>\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-9wq8\">\u003Ca href=https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F1eeff1152a5f4d4989da\u002F?dl=1>model\u003C\u002Fa>\u003C\u002Ftd>\r\n  \u003C\u002Ftr>\r\n  \u003Ctr>\r\n    \u003Ctd class=\"tg-nrix\">ESAM-E+FF\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">online\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-wa1i\">\u003Cb>42.6\u003C\u002Fb>\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-wa1i\">\u003Cb>61.9\u003C\u002Fb>\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-wa1i\">\u003Cb>77.1\u003C\u002Fb>\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-wa1i\">\u003Cb>33.3\u003C\u002Fb>\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-wa1i\">\u003Cb>53.6\u003C\u002Fb>\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">62.5\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">9.8\u003C\u002Ftd>\r\n    \u003Ctd class=\"tg-nrix\">\u003Ca href=https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F4c2dd1559e854f48be76\u002F?dl=1>model\u003C\u002Fa>\u003C\u002Ftd>\r\n  \u003C\u002Ftr>\r\n\u003C\u002Ftbody>\u003C\u002Ftable>\r\n\r\n**Open-Vocabulary 3D instance segmentation results on ScanNet200 dataset:**\r\n| Method |  AP  | AP@50 | AP@25 |\r\n|:------:|:----:|:-----:|:-----:|\r\n|  SAI3D |  9.6 |  14.7 |  19.0 |\r\n|  ESAM  | **13.7** |  **19.2** |  **23.9** |\r\n\r\n\r\n## TODO List\r\n- [x] Release code and checkpoints.\r\n- [x] Release the demo code to directly run ESAM on streaming RGB-D video.\r\n\r\n## Contributors\r\nBoth students below contributed equally and the order is determined by random draw.\r\n- [Xiuwei Xu](https:\u002F\u002Fxuxw98.github.io\u002F)\r\n- Huangxing Chen\r\n\r\nBoth advised by [Jiwen Lu](https:\u002F\u002Fivg.au.tsinghua.edu.cn\u002FJiwen_Lu\u002F).\r\n\r\n## Acknowledgement\r\nWe thank a lot for the flexible codebase of [Oneformer3D](https:\u002F\u002Fgithub.com\u002Foneformer3d\u002Foneformer3d) and [Online3D](https:\u002F\u002Fgithub.com\u002Fxuxw98\u002FOnline3D), as well as the valuable datasets provided by [ScanNet](https:\u002F\u002Fgithub.com\u002FScanNet\u002FScanNet), [SceneNN](https:\u002F\u002Fgithub.com\u002Fhkust-vgd\u002Fscenenn) and [3RScan](https:\u002F\u002Fgithub.com\u002FWaldJohannaU\u002F3RScan).\r\n\r\n\r\n## Citation\r\n```\r\n@article{xu2024esam, \r\n      title={EmbodiedSAM: Online Segment Any 3D Thing in Real Time}, \r\n      author={Xiuwei Xu and Huangxing Chen and Linqing Zhao and Ziwei Wang and Jie Zhou and Jiwen Lu},\r\n      journal={arXiv preprint arXiv:2408.11811},\r\n      year={2024}\r\n}\r\n```\r\n","# EmbodiedSAM：实时在线分割任意3D物体\n### [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.11811) | [项目主页](https:\u002F\u002Fxuxw98.github.io\u002FESAM\u002F) | [视频](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F000910bee9d5476db250\u002F?dl=1) | [中文解读](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F23105869992)\n\n> EmbodiedSAM：实时在线分割任意3D物体  \n> [Xiuwei Xu](https:\u002F\u002Fxuxw98.github.io\u002F)、Huangxing Chen、[Linqing Zhao](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=ypxt5UEAAAAJ&hl=zh-CN&oi=ao)、[Ziwei Wang](https:\u002F\u002Fziweiwangthu.github.io\u002F)、[Jie Zhou](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=6a79aPwAAAAJ&hl=en&authuser=1)、[Jiwen Lu](http:\u002F\u002Fivg.au.tsinghua.edu.cn\u002FJiwen_Lu\u002F)\n\n\n在本工作中，我们提出了ESAM，这是一个高效的框架，利用视觉基础模型实现\u003Cb>在线\u003C\u002Fb>、\u003Cb>实时\u003C\u002Fb>、\u003Cb>细粒度\u003C\u002Fb>、\u003Cb>通用\u003C\u002Fb>且\u003Cb>开放词汇\u003C\u002Fb>的3D实例分割。\n\n\n## 新闻\n- [2025年4月3日]：支持自定义数据集！用户可按照[这里](.\u002Fdocs\u002Fdemo.md)在自己的数据上运行EmbodiedSAM。\n- [2025年2月11日]：EmbodiedSAM被ICLR 2025选为\u003Cb>口头报告\u003C\u002Fb>！\n- [2025年1月23日]：EmbodiedSAM以前2%的评分被ICLR 2025接收！\n- [2024年8月22日]：代码和演示发布。\n\n\n## 演示\n### 现实场景：\n![demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxuxw98_ESAM_readme_debabb735c95.gif)\n\n### 卧室：\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxuxw98_ESAM_readme_dd888817eae3.gif\" width=\"450\" \u002F>\n\n### 办公室：\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxuxw98_ESAM_readme_0f9b00efb82b.gif\" width=\"450\" \u002F>\n\n演示文件稍大，请稍等片刻加载。欢迎访问主页，获取更完整的演示和详细介绍。\n\n\n## 方法\n\n方法流程图：\n![overview](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxuxw98_ESAM_readme_9ffa9b816457.png)\n\n## 快速入门\n关于环境搭建和数据集准备，请参考：\n* [安装指南](.\u002Fdocs\u002Finstallation.md)\n* [数据集准备](.\u002Fdocs\u002Fdataset_preparation.md)\n\n关于训练与评估，请参考：\n* [训练与评估](.\u002Fdocs\u002Frun.md)\n\n关于在提供的数据集或**您自己的数据**上进行可视化，请参考：\n* [可视化演示](.\u002Fdocs\u002Fdemo.md)\n\n## 主要结果\n我们提供了用于快速复现论文中报告结果的检查点。除了清华云之外，我们还将检查点和处理后的数据上传到了HuggingFace。点击[这里](https:\u002F\u002Fhuggingface.co\u002FXXXCARREY\u002FEmbodiedSAM\u002Ftree\u002Fmain)了解更多详情。\n\n**ScanNet200数据集上的类无关3D实例分割结果：**\n\n| 方法 | 类型 | VFM | AP | AP@50 | AP@25 | 速度(ms) | 下载 |\n|:--------:|:-------:|:-----------:|:----:|:-----:|:-----:|:---------:|:---------:|\n| [SAMPro3D](https:\u002F\u002Fgithub.com\u002FGAP-LAB-CUHK-SZ\u002FSAMPro3D) | 离线 | [SAM](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fsegment-anything) | 18.0 | 32.8 | 56.1 | -- | -- |\n| [SAI3D](https:\u002F\u002Fgithub.com\u002Fyd-yin\u002FSAI3D) | 离线 | [SemanticSAM](https:\u002F\u002Fgithub.com\u002FUX-Decoder\u002FSemantic-SAM) | 30.8 | 50.5 | 70.6 | -- | -- |\n| [SAM3D](https:\u002F\u002Fgithub.com\u002FPointcept\u002FSegmentAnything3D) | 在线 | SAM | 20.6 | 35.7 | 55.5 | 1369+1518 | -- |\n| ESAM | 在线 | SAM | 42.2 | 63.7 | 79.6 | 1369+**80** | [模型](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F426d6eb693ff4b1fa04b\u002F?dl=1) |\n| ESAM-E | 在线 | [FastSAM](https:\u002F\u002Fgithub.com\u002FCASIA-IVA-Lab\u002FFastSAM) | **43.4** | **65.4** | **80.9** | **20**+**80** | [模型](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F7578d7e3d6764f6a93ee\u002F?dl=1) |\n\n**从ScanNet200到SceneNN和3RScan的数据集迁移结果：**\n\u003Ctable class=\"tg\">\u003Cthead>\n  \u003Ctr>\n    \u003Cth class=\"tg-b2st\" rowspan=\"2\">方法\u003C\u002Fth>\n    \u003Cth class=\"tg-b2st\" rowspan=\"2\">类型\u003C\u002Fth>\n    \u003Cth class=\"tg-b2st\" colspan=\"3\">ScanNet200--&gt;SceneNN\u003C\u002Fth>\n    \u003Cth class=\"tg-b2st\" colspan=\"3\">ScanNet200--&gt;3RScan\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Cth class=\"tg-wa1i\">AP\u003C\u002Fth>\n    \u003Cth class=\"tg-wa1i\">AP@50\u003C\u002Fth>\n    \u003Cth class=\"tg-wa1i\">AP@25\u003C\u002Fth>\n    \u003Cth class=\"tg-wa1i\">AP\u003C\u002Fth>\n    \u003Cth class=\"tg-wa1i\">AP@50\u003C\u002Fth>\n    \u003Cth class=\"tg-wa1i\">AP@25\u003C\u002Fth>\n  \u003C\u002Ftr>\u003C\u002Fthead>\n\u003Ctbody>\n  \u003Ctr>\n    \u003Ctd class=\"tg-nrix\">SAMPro3D\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">离线\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">12.6\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">25.8\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">53.2\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">3.9\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">8.0\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">21.0\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-nrix\">SAI3D\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">离线\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">18.6\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">34.7\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">65.7\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">5.4\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">11.8\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">27.4\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-nrix\">SAM3D\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">在线\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">15.1\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">30.0\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">51.8\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">6.2\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">13.0\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">33.9\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-nrix\">ESAM\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">在线\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">\u003Cb>28.8\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">\u003Cb>52.2\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">69.3\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">\u003Cb>14.1\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">\u003Cb>31.2\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">\u003Cb>59.6\u003C\u002Fb>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-nrix\">ESAM-E\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">在线\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">28.6\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">50.4\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">\u003Cb>71.0\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">13.9\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">29.4\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">58.8\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftbody>\u003C\u002Ftable>\n\n**ScanNet数据集上的3D实例分割结果：**\n\u003Ctable class=\"tg\">\u003Cthead>\n  \u003Ctr>\n    \u003Cth class=\"tg-gabo\" rowspan=\"2\">方法\u003C\u002Fth>\n    \u003Cth class=\"tg-gabo\" rowspan=\"2\">类型\u003C\u002Fth>\n    \u003Cth class=\"tg-gabo\" colspan=\"3\">ScanNet\u003C\u002Fth>\n    \u003Cth class=\"tg-gabo\" colspan=\"3\">SceneNN\u003C\u002Fth>\n    \u003Cth class=\"tg-gabo\" rowspan=\"2\">FPS\u003C\u002Fth>\n    \u003Cth class=\"tg-gabo\" rowspan=\"2\">下载\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Cth class=\"tg-uzvj\">AP\u003C\u002Fth>\n    \u003Cth class=\"tg-uzvj\">AP@50\u003C\u002Fth>\n    \u003Cth class=\"tg-uzvj\">AP@25\u003C\u002Fth>\n    \u003Cth class=\"tg-uzvj\">AP\u003C\u002Fth>\n    \u003Cth class=\"tg-uzvj\">AP@50\u003C\u002Fth>\n    \u003Cth class=\"tg-uzvj\">AP@25\u003C\u002Fth>\n  \u003C\u002Ftr>\u003C\u002Fthead>\n\u003Ctbody>\n  \u003Ctr>\n    \u003Ctd class=\"tg-9wq8\">\u003Ca href=https:\u002F\u002Fgithub.com\u002FSamsungLabs\u002Ftd3d>TD3D\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">离线\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">46.2\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">71.1\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">81.3\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-9wq8\">\u003Ca href=https:\u002F\u002Fgithub.com\u002Foneformer3d\u002Foneformer3d>Oneformer3D\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">离线\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">59.3\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">78.8\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">86.7\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-9wq8\">\u003Ca href=https:\u002F\u002Fgithub.com\u002FTHU-luvision\u002FINS-Conv>INS-Conv\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">在线\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">57.4\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-9wq8\">\u003Ca href=https:\u002F\u002Fgithub.com\u002Fxuxw98\u002FOnline3D>TD3D-MA\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">在线\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">39.0\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">60.5\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">71.3\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">26.0\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">42.8\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">59.2\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">3.5\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">--\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-9wq8\">ESAM-E\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">在线\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">41.6\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">60.1\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">75.6\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">27.5\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">48.7\u003C\u002Ftd>\n    \u003Ctd class=\"tg-uzvj\">\u003Cb>64.6\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd class=\"tg-uzvj\">\u003Cb>10\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd class=\"tg-9wq8\">\u003Ca href=https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F1eeff1152a5f4d4989da\u002F?dl=1>模型\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-nrix\">ESAM-E+FF\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">在线\u003C\u002Ftd>\n    \u003Ctd class=\"tg-wa1i\">\u003Cb>42.6\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd class=\"tg-wa1i\">\u003Cb>61.9\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd class=\"tg-wa1i\">\u003Cb>77.1\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd class=\"tg-wa1i\">\u003Cb>33.3\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd class=\"tg-wa1i\">\u003Cb>53.6\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">62.5\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">9.8\u003C\u002Ftd>\n    \u003Ctd class=\"tg-nrix\">\u003Ca href=https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F4c2dd1559e854f48be76\u002F?dl=1>模型\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftbody>\u003C\u002Ftable>\n\n**ScanNet200数据集上的开放词汇3D实例分割结果：**\n| 方法 | AP | AP@50 | AP@25 |\n|:------:|:----:|:-----:|:-----:|\n| SAI3D | 9.6 | 14.7 | 19.0 |\n| ESAM | **13.7** | **19.2** | **23.9** |\n\n## 待办事项清单\n- [x] 发布代码和检查点。\n- [x] 发布演示代码，以便直接在流式 RGB-D 视频上运行 ESAM。\n\n## 贡献者\n以下两位同学贡献相当，排名顺序由随机抽签决定：\n- [Xiuwei Xu](https:\u002F\u002Fxuxw98.github.io\u002F)\n- Huangxing Chen\n\n两人均由 [Jiwen Lu](https:\u002F\u002Fivg.au.tsinghua.edu.cn\u002FJiwen_Lu\u002F) 指导。\n\n## 致谢\n我们衷心感谢 [Oneformer3D](https:\u002F\u002Fgithub.com\u002Foneformer3d\u002Foneformer3d) 和 [Online3D](https:\u002F\u002Fgithub.com\u002Fxuxw98\u002FOnline3D) 提供的灵活代码库，以及 [ScanNet](https:\u002F\u002Fgithub.com\u002FScanNet\u002FScanNet)、[SceneNN](https:\u002F\u002Fgithub.com\u002Fhkust-vgd\u002Fscenenn) 和 [3RScan](https:\u002F\u002Fgithub.com\u002FWaldJohannaU\u002F3RScan) 提供的宝贵数据集。\n\n\n## 引用\n```bibtex\n@article{xu2024esam, \n      title={EmbodiedSAM: 在线实时分割任意 3D 物体}, \n      author={Xiuwei Xu 和 Huangxing Chen 和 Linqing Zhao 和 Ziwei Wang 和 Jie Zhou 和 Jiwen Lu},\n      journal={arXiv 预印本 arXiv:2408.11811},\n      year={2024}\n}\n```","# ESAM (EmbodiedSAM) 快速上手指南\n\nESAM 是一个高效的框架，利用视觉基础模型实现**在线**、**实时**、**细粒度**且支持**开放词汇**的 3D 实例分割。该项目已入选 ICLR 2025 Oral。\n\n## 1. 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 18.04\u002F20.04\u002F22.04)\n*   **GPU**: NVIDIA GPU (建议显存 ≥ 16GB，支持 CUDA 11.x 或更高版本)\n*   **Python**: Python 3.8 - 3.10\n*   **前置依赖**:\n    *   PyTorch (与您的 CUDA 版本匹配)\n    *   MMDetection3D \u002F MMSegmentation (通常包含在 requirements 中)\n    *   Git, CMake, GCC\n\n> **提示**：本项目依赖较多，强烈建议使用 `conda` 创建独立的虚拟环境。\n\n## 2. 安装步骤\n\n### 2.1 克隆项目\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fxuxw98\u002FESAM.git\ncd ESAM\n```\n\n### 2.2 创建并激活环境\n```bash\nconda create -n esam python=3.9 -y\nconda activate esam\n```\n\n### 2.3 安装依赖\n根据官方文档指引，安装核心依赖库。如果遇到网络问题，可配置国内镜像源（如清华源）加速。\n\n```bash\n# 配置 pip 国内镜像（可选，推荐国内用户）\npip config set global.index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n\n# 安装 PyTorch (请根据实际 CUDA 版本选择，以下为示例)\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n\n# 安装项目其他依赖\npip install -r requirements.txt\n```\n\n### 2.4 编译扩展模块 (如有)\n如果项目包含自定义 CUDA 算子，通常需要编译：\n```bash\npython setup.py develop\n```\n*(注：具体编译命令请以仓库根目录下的 `setup.py` 或 `docs\u002Finstallation.md` 为准)*\n\n### 2.5 下载预训练模型\n您可以从清华大学云盘或 HuggingFace 下载检查点。国内用户推荐使用清华云盘链接。\n\n*   **ESAM (基于 SAM)**: [下载链接](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F426d6eb693ff4b1fa04b\u002F?dl=1)\n*   **ESAM-E (基于 FastSAM, 速度更快)**: [下载链接](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F7578d7e3d6764f6a93ee\u002F?dl=1)\n\n将下载的 `.pth` 文件放置在项目指定的 `checkpoints` 目录下。\n\n## 3. 基本使用\n\n### 3.1 数据集准备\n在使用前，需按照 [Dataset Preparation](.\u002Fdocs\u002Fdataset_preparation.md) 指南准备数据（如 ScanNet200）。若仅需测试演示效果，可先跳过此步，直接使用提供的 Demo 脚本。\n\n### 3.2 运行可视化 Demo (最简单示例)\n\n#### 场景 A：在自有数据\u002F视频流上运行\n项目已支持直接对 RGB-D 视频流或自定义数据进行推理。请参考 [Demo 指南](.\u002Fdocs\u002Fdemo.md)。\n\n假设您有一个 RGB-D 视频序列或文件夹，运行命令如下（具体参数需根据实际脚本调整）：\n\n```bash\n# 示例：运行自定义数据 Demo\npython demo\u002Fdemo_custom.py \\\n    --config configs\u002Fesam_demo.py \\\n    --checkpoint checkpoints\u002Fesam_e.pth \\\n    --input data\u002Fmy_custom_scene \\\n    --output results\u002Fmy_custom_scene\n```\n\n#### 场景 B：在标准数据集上评估\n若要复现论文结果或在 ScanNet200 上进行评估：\n\n```bash\npython tools\u002Ftest.py \\\n    configs\u002Fesam_scannet200.py \\\n    checkpoints\u002Fesam.pth \\\n    --eval segm\n```\n\n### 3.3 关键参数说明\n*   `--config`: 模型配置文件路径。\n*   `--checkpoint`: 预训练权重路径。\n*   `--input`: 输入数据路径（支持单帧、序列或视频）。\n*   `--online`: 启用在线模式（默认通常为 True，体现 ESAM 实时特性）。\n\n> **注意**：ESAM-E 版本速度极快（约 20ms + 80ms），适合对实时性要求高的应用场景；标准 ESAM 版本精度略高但速度稍慢。请根据硬件条件选择合适的模型。","某智能家居机器人研发团队正在开发一款能在动态家庭环境中自主导航并整理物品的服务机器人，需要实时识别并分割场景中任意未知的 3D 物体。\n\n### 没有 ESAM 时\n- **感知延迟高**：传统离线算法处理单帧点云需数秒，机器人移动时必须频繁急停等待建图，导致行动卡顿且不连贯。\n- **泛化能力弱**：模型仅能识别训练过的固定类别（如“椅子”、“桌子”），遇到未见过的新奇玩具或异形杂物时直接“视而不见”。\n- **分割粒度粗**：难以区分紧密堆叠的物体（如书架上紧挨的书本），常将多个独立物体误判为一个大整体，导致抓取失败。\n- **词汇限制死板**：无法响应“把那个红色的杯子拿给我”这类开放词汇指令，必须依赖预定义的类别 ID 进行硬编码控制。\n\n### 使用 ESAM 后\n- **真实时响应**：ESAM 将 3D 实例分割速度提升至毫秒级（最低约 20ms），机器人在高速移动中也能流畅地完成环境感知与避障。\n- **零样本泛化**：依托视觉基础模型，ESAM 能即时分割从未见过的 3D 物体，无论是新买的玩偶还是临时放置的快递箱都能精准识别。\n- **细粒度区分**：即使物体紧密接触，ESAM 也能输出高精度的独立实例掩码，确保机械臂能准确规划路径抓取单个目标。\n- **开放语义交互**：支持自然语言驱动的开放词汇分割，用户可直接下达模糊指令，机器人即可理解并定位对应的 3D 实体。\n\nESAM 通过赋予机器人实时、通用且精细的 3D 感知能力，彻底打破了服务机器人在非结构化家庭中自主作业的最后一道壁垒。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxuxw98_ESAM_f33f4995.png","xuxw98","Xiuwei Xu","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fxuxw98_61c06c58.jpg","PhD candidate. Interested in 3D vision and robotics.","Tsinghua University","China","xxw21@mails.tsinghua.edu.cn","xxw21_thu","https:\u002F\u002Fxuxw98.github.io","https:\u002F\u002Fgithub.com\u002Fxuxw98",[84,88],{"name":85,"color":86,"percentage":87},"Python","#3572A5",99.9,{"name":89,"color":90,"percentage":91},"Shell","#89e051",0.1,628,32,"2026-04-15T05:46:05","MIT",4,"未说明","需要 NVIDIA GPU（基于在线实时 3D 分割及 SAM\u002FFastSAM 基础模型推断，通常需支持 CUDA），具体型号和显存大小未说明",{"notes":100,"python":97,"dependencies":101},"README 中未直接列出环境配置详情，明确指引用户参考 '.\u002Fdocs\u002Finstallation.md' 文档以获取操作系统、GPU、内存、Python 版本及依赖库的具体安装要求。该工具支持在流式 RGB-D 视频上运行，并提供 ScanNet200 等数据集的预训练模型。",[97],[61,103,15],"其他",[105,106,107,108,109,110,111,112,113],"3d-scene-understanding","embodied-vision","real-time","segment-anything","streaming-video","3d-instance-segmentation","semi-supervised","iclr","iclr2025",null,"2026-03-27T02:49:30.150509","2026-04-18T22:33:50.536637",[118,123,128,133,138,143],{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},40987,"为什么在 ScanNet 数据集上的 3D 实例分割结果与论文报告的 AP 性能不一致？","性能差异可能由以下原因导致：1. 数据处理过程中存在随机性（如深度点云采样的随机性）；2. ESAM 与 OneFormer3D 在指标计算和流水线格式上存在差异。建议将 ESAM 代码库克隆为独立文件夹，不要与 OneFormer3D 混合使用。如果复现结果仍偏低，建议重新生成在线训练集（Online training set）并重新训练。","https:\u002F\u002Fgithub.com\u002Fxuxw98\u002FESAM\u002Fissues\u002F9",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},40988,"运行测试或训练时遇到 KeyError: 'ScanNet200MixFormer3D_Online is not in the mmdet3d::model registry' 错误怎么办？","该错误通常由环境配置或模块注册问题引起。请尝试以下解决方案：1. 检查 `ESAM\u002Foneformer3d\u002Fmixformer3d.py` 和 `ESAM\u002Foneformer3d\u002F__init__.py` 文件，确认模型类是否正确注册和导入；2. 确保在一个全新的环境中安装 mmdet3d，之前的 mmdet3d 项目可能会干扰环境变量；3. 尝试设置 PYTHONPATH 运行命令：`PYTHONPATH=\"$(dirname $0)\u002F..\":$PYTHONPATH CUDA_VISIBLE_DEVICES=0 python tools\u002Ftrain.py ...`。","https:\u002F\u002Fgithub.com\u002Fxuxw98\u002FESAM\u002Fissues\u002F23",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},40989,"使用 SceneNN 数据进行评估或训练时，是否必须依赖 label.npy 和 ins.npy 文件？","不需要。ESAM 在进行评估（甚至训练）时，仅依赖 depth（深度）、image（图像）、pose（姿态）、ply 和 xml 文件以及由它们生成的数据。官方提供的预处理数据中的 label.npy 和 ins.npy 文件对于运行 ESAM 来说是不必要的。","https:\u002F\u002Fgithub.com\u002Fxuxw98\u002FESAM\u002Fissues\u002F29",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},40990,"运行时遇到 'Undefined symbol: _ZNK2at6Tensor6deviceEv' 或 torch_scatter 相关报错如何解决？","这是 `torch_scatter` 库的兼容性问题。建议参考 pytorch_scatter 官方 Issue #370 中的解决方案（通常涉及重新编译或与当前 PyTorch\u002FCUDA 版本匹配的预编译包）。确保安装的 `torch_scatter` 版本与当前的 PyTorch 和 CUDA 版本完全匹配。","https:\u002F\u002Fgithub.com\u002Fxuxw98\u002FESAM\u002Fissues\u002F13",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},40991,"自己训练的 scannet200-mv 模型结果比论文低约 10%，但使用官方权重结果正常，可能是什么原因？","如果数据集处理和验证集结果正常，但训练结果偏低，问题很可能出在在线训练集（Online training set）上。维护者建议重新生成在线训练集数据，然后再次进行训练，这通常能解决复现结果不一致的问题。","https:\u002F\u002Fgithub.com\u002Fxuxw98\u002FESAM\u002Fissues\u002F19",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},40992,"在 scannet-mv_fast 数据集上训练时报 IndexError，提示 instance_mask 和 semantic_mask 长度不匹配怎么办？","该错误是由于修改代码后，instance_mask 文件长度（20000）与 semantic_mask 文件长度（40000）不一致导致的。需要检查数据预处理脚本或配置文件，确保生成的实例掩码和语义掩码在维度上保持一致，或者回退到未修改的代码版本以使用正确的数据对齐逻辑。","https:\u002F\u002Fgithub.com\u002Fxuxw98\u002FESAM\u002Fissues\u002F8",[]]