[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-youquanl--Segment-Any-Point-Cloud":3,"tool-youquanl--Segment-Any-Point-Cloud":65},[4,23,32,40,49,57],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":22},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,2,"2026-04-05T10:45:23",[13,14,15,16,17,18,19,20,21],"图像","数据工具","视频","插件","Agent","其他","语言模型","开发框架","音频","ready",{"id":24,"name":25,"github_repo":26,"description_zh":27,"stars":28,"difficulty_score":29,"last_commit_at":30,"category_tags":31,"status":22},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,3,"2026-04-04T04:44:48",[17,13,20,19,18],{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":29,"last_commit_at":38,"category_tags":39,"status":22},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",74913,"2026-04-05T10:44:17",[19,13,20,18],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":46,"last_commit_at":47,"category_tags":48,"status":22},3215,"awesome-machine-learning","josephmisiti\u002Fawesome-machine-learning","awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。\n\n它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。\n\n其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。",72149,1,"2026-04-03T21:50:24",[20,18],{"id":50,"name":51,"github_repo":52,"description_zh":53,"stars":54,"difficulty_score":46,"last_commit_at":55,"category_tags":56,"status":22},2234,"scikit-learn","scikit-learn\u002Fscikit-learn","scikit-learn 是一个基于 Python 构建的开源机器学习库，依托于 SciPy、NumPy 等科学计算生态，旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口，涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具，内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。\n\n对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言，scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点，让用户无需重复造轮子，只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。\n\n其核心技术亮点在于高度一致的 API 设计风格，所有估算器（Estimator）均遵循相同的调用逻辑，极大地降低了学习成本并提升了代码的可读性与可维护性。此外，它还提供了强大的模型选择与评估工具，如交叉验证和网格搜索，帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目，scikit-learn 以其稳定性、详尽的文档和活跃的社区支持，成为连接理论学习与工业级应用的最",65628,"2026-04-05T10:10:46",[20,18,14],{"id":58,"name":59,"github_repo":60,"description_zh":61,"stars":62,"difficulty_score":10,"last_commit_at":63,"category_tags":64,"status":22},3364,"keras","keras-team\u002Fkeras","Keras 是一个专为人类设计的深度学习框架，旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。\n\n无论是刚入门的学生、专注算法的研究人员，还是需要快速落地产品的工程师，都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。\n\nKeras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码，即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性，还允许开发者根据需求自由选择：利用 JAX 或 PyTorch 的即时执行模式进行高效调试，或切换至速度最快的后端以获得最高 350% 的性能提升。此外，Keras 具备强大的扩展能力，能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群，是连接原型开发与生产部署的理想桥梁。",63927,"2026-04-04T15:24:37",[20,14,18],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":79,"owner_location":79,"owner_email":79,"owner_twitter":79,"owner_website":79,"owner_url":80,"languages":81,"stars":113,"forks":114,"last_commit_at":115,"license":79,"difficulty_score":116,"env_os":117,"env_gpu":118,"env_ram":117,"env_deps":119,"category_tags":123,"github_topics":79,"view_count":10,"oss_zip_url":79,"oss_zip_packed_at":79,"status":22,"created_at":124,"updated_at":125,"faqs":126,"releases":154},3155,"youquanl\u002FSegment-Any-Point-Cloud","Segment-Any-Point-Cloud","[NeurIPS'23 Spotlight] Segment Any Point Cloud Sequences by Distilling Vision Foundation Models","Segment-Any-Point-Cloud（简称 Seal）是一个专为自动驾驶场景设计的自监督学习框架，旨在实现对任意点云序列的精准分割。它主要解决了传统 3D 点云处理严重依赖昂贵人工标注数据，以及在动态场景中难以保持时空一致性的难题。\n\nSeal 的核心创新在于“知识蒸馏”技术：它能直接将成熟的 2D 视觉基础模型（VFMs）中蕴含的丰富语义知识，迁移到 3D 点云领域。通过构建摄像头与激光雷达之间的 2D-3D 对应关系，并在预训练阶段强制约束空间与时间的一致性，Seal 无需任何 2D 或 3D 标注即可进行高效学习。这使得它不仅具备极强的可扩展性，还能轻松适应不同分辨率、规模甚至含有噪声的真实或合成数据集，展现出卓越的泛化能力。\n\n该工具特别适合从事自动驾驶感知、机器人导航及计算机视觉研究的研究人员与开发者使用。如果你正在探索如何利用海量无标签数据提升 3D 感知性能，或者需要构建对复杂环境具有强鲁棒性的分割系统，Seal 提供了一个无需标注、开箱即用的强大基线方案，能显著降低数据准备成本并加速研发进程。","\u003Cp align=\"right\">English | \u003Ca href=\"docs\u002FREADME_CN.md\">简体中文\u003C\u002Fa>\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_fdeb4f8414b1.png\" align=\"center\" width=\"44%\">\n  \n  \u003Ch3 align=\"center\">\u003Cstrong>Segment Any Point Cloud Sequences by Distilling Vision Foundation Models\u003C\u002Fstrong>\u003C\u002Fh3>\n\n  \u003Cp align=\"center\">\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fyouquanl\">Youquan Liu\u003C\u002Fa>\u003Csup>1,*\u003C\u002Fsup>&nbsp;&nbsp;&nbsp;\n    \u003Ca href=\"https:\u002F\u002Fldkong.com\">Lingdong Kong\u003C\u002Fa>\u003Csup>1,2,*\u003C\u002Fsup>&nbsp;&nbsp;&nbsp;\n    \u003Ca href=\"http:\u002F\u002Fcen-jun.com\">Jun Cen\u003C\u002Fa>\u003Csup>3\u003C\u002Fsup>&nbsp;&nbsp;&nbsp;\n    \u003Ca href=\"https:\u002F\u002Fscholar.google.com\u002Fcitations?user=Uq2DuzkAAAAJ\">Runnan Chen\u003C\u002Fa>\u003Csup>4\u003C\u002Fsup>&nbsp;&nbsp;&nbsp;\n    \u003Ca href=\"http:\u002F\u002Fzhangwenwei.cn\">Wenwei Zhang\u003C\u002Fa>\u003Csup>1,5\u003C\u002Fsup>\u003Cbr>\n    \u003Ca href=\"https:\u002F\u002Fscholar.google.com\u002Fcitations?user=lSDISOcAAAAJ\">Liang Pan\u003C\u002Fa>\u003Csup>5\u003C\u002Fsup>&nbsp;&nbsp;&nbsp;\n    \u003Ca href=\"http:\u002F\u002Fchenkai.site\">Kai Chen\u003C\u002Fa>\u003Csup>1\u003C\u002Fsup>&nbsp;&nbsp;&nbsp;\n    \u003Ca href=\"https:\u002F\u002Fliuziwei7.github.io\">Ziwei Liu\u003C\u002Fa>\u003Csup>5\u003C\u002Fsup>\n    \u003Cbr>\n    \u003Csup>1\u003C\u002Fsup>Shanghai AI Laboratory&nbsp;&nbsp;&nbsp;\n    \u003Csup>2\u003C\u002Fsup>National University of Singapore&nbsp;&nbsp;&nbsp;\n    \u003Csup>3\u003C\u002Fsup>The Hong Kong University of Science and Technology&nbsp;&nbsp;&nbsp;\n    \u003Csup>4\u003C\u002Fsup>The University of Hong Kong&nbsp;&nbsp;&nbsp;\n    \u003Csup>5\u003C\u002Fsup>S-Lab, Nanyang Technological University\n  \u003C\u002Fp>\n\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.09347\" target='_blank'>\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-%F0%9F%93%83-purple\">\n  \u003C\u002Fa>\n  \n  \u003Ca href=\"https:\u002F\u002Fldkong.com\u002FSeal\" target='_blank'>\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-%F0%9F%94%97-violet\">\n  \u003C\u002Fa>\n  \n  \u003Ca href=\"https:\u002F\u002Fyoutu.be\u002FS0q2-nQdwSs\" target='_blank'>\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDemo-%F0%9F%8E%AC-purple\">\n  \u003C\u002Fa>\n  \n  \u003Ca href=\"\" target='_blank'>\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%E4%B8%AD%E8%AF%91%E7%89%88-%F0%9F%90%BC-violet\">\n  \u003C\u002Fa>\n  \n  \u003Ca href=\"\" target='_blank'>\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_5263b6f69075.png\">\n  \u003C\u002Fa>\n\u003C\u002Fp>\n\n\n# Seal :seal:\n`Seal` is a versatile self-supervised learning framework capable of segmenting *any* automotive point clouds by leveraging off-the-shelf knowledge from vision foundation models (VFMs) and encouraging spatial and temporal consistency from such knowledge during the representation learning stage.\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_8f0636381a61.jpg\" align=\"center\" width=\"95%\">\n\u003C\u002Fp>\n\n### :sparkles: Highlight\n- :rocket: **Scalability:** `Seal` directly distills the knowledge from VFMs into point clouds, eliminating the need for annotations in either 2D or 3D during pretraining.\n- :balance_scale: **Consistency:** `Seal` enforces the spatial and temporal relationships at both the camera-to-LiDAR and point-to-segment stages, facilitating cross-modal representation learning.\n- :rainbow: **Generalizability:** `Seal` enables knowledge transfer in an off-the-shelf manner to downstream tasks involving diverse point clouds, including those from real\u002Fsynthetic, low\u002Fhigh-resolution, large\u002Fsmall-scale, and clean\u002Fcorrupted datasets.\n\n### :oncoming_automobile: 2D-3D Correspondence\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_2714a19e265f.gif\" align=\"center\" width=\"95%\">\n\u003C\u002Fp>\n\n\n### :movie_camera: Video Demo\n| Demo 1 | Demo 2| Demo 3|\n| :-: | :-: | :-: |\n| \u003Cimg width=\"100%\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_00df2d6ccf40.jpg\"> | \u003Cimg width=\"100%\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_52dba7f88e7c.jpg\"> | \u003Cimg width=\"100%\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_eaeef4c34561.jpg\"> | \n| [Link](https:\u002F\u002Fyoutu.be\u002FS0q2-nQdwSs) \u003Csup>:arrow_heading_up:\u003C\u002Fsup> | [Link](https:\u002F\u002Fyoutu.be\u002Fyoon3uiRnY8) \u003Csup>:arrow_heading_up:\u003C\u002Fsup> | [Link]() \u003Csup>:arrow_heading_up:\u003C\u002Fsup> |\n\n\n## Updates\n- \\[2023.12\\] - We are hosting [The RoboDrive Challenge](https:\u002F\u002Frobodrive-24.github.io\u002F) at [ICRA 2024](https:\u002F\u002F2024.ieee-icra.org\u002F). :blue_car:\n- \\[2023.09\\] - `Seal` was selected as a :sparkles: spotlight :sparkles: at [NeurIPS 2023](https:\u002F\u002Fneurips.cc\u002F).\n- \\[2023.09\\] - `Seal` was accepted to [NeurIPS 2023](https:\u002F\u002Fneurips.cc\u002F)! :tada:\n- \\[2023.07\\] - We release the [code](docs\u002Fdocument\u002FSUPERPOINT.md) for generating semantic superpixel & superpoint by [SLIC](https:\u002F\u002Fscikit-image.org\u002Fdocs\u002Fstable\u002Fapi\u002Fskimage.segmentation.html#skimage.segmentation.slic), [SAM](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fsegment-anything), and [SEEM](https:\u002F\u002Fscikit-image.org\u002Fdocs\u002Fstable\u002Fapi\u002Fskimage.segmentation.html#skimage.segmentation.slic). More VFMs coming on the way!\n- \\[2023.06\\] - Our paper is available on arXiv, click [here](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.09347) to check it out. Code will be available later!\n\n\n## Outline\n- [Installation](#installation)\n- [Data Preparation](#data-preparation)\n- [Superpoint Generation](#superpoint-generation)\n- [Getting Started](#getting-started)\n- [Main Result](#main-result)\n- [TODO List](#todo-list)\n- [License](#license)\n- [Acknowledgement](#acknowledgement)\n- [Citation](#citation)\n\n\n## Installation\nPlease refer to [INSTALL.md](docs\u002Fdocument\u002FINSTALL.md) for the installation details.\n\n\n## Data Preparation\n\n| [**nuScenes**](https:\u002F\u002Fwww.nuscenes.org\u002Fnuscenes) | [**SemanticKITTI**](http:\u002F\u002Fsemantic-kitti.org\u002F) | [**Waymo Open**](https:\u002F\u002Fwaymo.com\u002Fopen) | [**ScribbleKITTI**](https:\u002F\u002Fgithub.com\u002Fouenal\u002Fscribblekitti) |\n| :-: | :-: | :-: | :-: |\n| \u003Cimg width=\"115\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_081d35115fcb.png\"> | \u003Cimg width=\"115\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_cdc54add1d2a.png\"> | \u003Cimg width=\"115\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_1fa7dc994269.png\"> | \u003Cimg width=\"115\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_878f8943d54e.png\"> | \n| [**RELLIS-3D**](http:\u002F\u002Fwww.unmannedlab.org\u002Fresearch\u002FRELLIS-3D) | [**SemanticPOSS**](http:\u002F\u002Fwww.poss.pku.edu.cn\u002Fsemanticposs.html) | [**SemanticSTF**](https:\u002F\u002Fgithub.com\u002Fxiaoaoran\u002FSemanticSTF) | [**DAPS-3D**](https:\u002F\u002Fgithub.com\u002Fsubake\u002FDAPS3D) |\n| \u003Cimg width=\"115\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_b78fe8768ddf.png\"> | \u003Cimg width=\"115\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_5dfc55e0324c.png\"> | \u003Cimg width=\"115\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_918db843c5de.png\"> | \u003Cimg width=\"115\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_982b40d247ab.png\"> | \n| [**SynLiDAR**](https:\u002F\u002Fgithub.com\u002Fxiaoaoran\u002FSynLiDAR) | [**Synth4D**](https:\u002F\u002Fgithub.com\u002Fsaltoricristiano\u002Fgipso-sfouda) | [**nuScenes-C**](https:\u002F\u002Fgithub.com\u002Fldkong1205\u002FRobo3D) |\n| \u003Cimg width=\"115\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_adb64b8d4482.png\"> | \u003Cimg width=\"115\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_bb207bdc014f.png\"> | \u003Cimg width=\"115\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_a3ea4783f8e5.png\"> |\n\nPlease refer to [DATA_PREPARE.md](docs\u002Fdocument\u002FDATA_PREPARE.md) for the details to prepare these datasets.\n\n\n## Superpoint Generation\n\n| Raw Point Cloud | Semantic Superpoint | Groundtruth |\n| :-: | :-: | :-: |\n| \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_dd50c444f53b.gif\" align=\"center\" width=\"240\"> | \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_5172c5a7cce9.gif\" align=\"center\" width=\"240\"> | \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_319b859e3ad3.gif\" align=\"center\" width=\"240\"> | \n| |\n| \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_7619217eb4c4.gif\" align=\"center\" width=\"240\"> | \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_e7034dbac85e.gif\" align=\"center\" width=\"240\"> | \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_71170f4a0bd4.gif\" align=\"center\" width=\"240\"> |\n| |\n| \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_c6dca006490e.gif\" align=\"center\" width=\"240\"> | \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_f106bc72c60c.gif\" align=\"center\" width=\"240\"> | \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_184273b9e64f.gif\" align=\"center\" width=\"240\"> |\n| |\n| \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_0d0e4b2bba81.gif\" align=\"center\" width=\"240\"> | \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_1f6735e37e9d.gif\" align=\"center\" width=\"240\"> | \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_7afcd09b848e.gif\" align=\"center\" width=\"240\"> |\n\nKindly refer to [SUPERPOINT.md](docs\u002Fdocument\u002FSUPERPOINT.md) for the details to generate the semantic superpixels & superpoints with vision foundation models.\n\n\n## Getting Started\nKindly refer to [GET_STARTED.md](docs\u002Fdocument\u002FGET_STARTED.md) to learn more usage of this codebase.\n\n\n## Main Result\n\n### :unicorn: Framework Overview\n\n| \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_18123ace77b1.jpg\" align=\"center\" width=\"99%\"> |\n| :-: |\n| Overview of the **Seal :seal:** framework. We generate, for each {LiDAR, camera} pair at timestamp t and another LiDAR frame at timestamp t + n, the semantic superpixel and superpoint by VFMs. Two pertaining objectives are then formed, including *spatial contrastive learning* between paired LiDAR and camera features and *temporal consistency regularization* between segments at different timestamps. |\n\n### :car: Cosine Similarity\n\n| \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_1efd22d43319.jpg\" align=\"center\" width=\"99%\"> |\n| :-: |\n| The cosine similarity between a query point (red dot) and the feature learned with SLIC and different VFMs in our **Seal :seal:** framework. The queried semantic classes from top to bottom examples are: “car”, “manmade”, and “truck”. The color goes from violet to yellow denoting low and high similarity scores, respectively. |\n\n### :blue_car: Benchmark\n\n\u003Ctable class=\"center\">\n   \u003Ctr>\n      \u003Cth rowspan=\"2\">Method\u003C\u002Fth>\n      \u003Cth colspan=\"6\">nuScenes\u003C\u002Fth>\n      \u003Cth colspan=\"1\">KITTI\u003C\u002Fth>\n      \u003Cth colspan=\"1\">Waymo\u003C\u002Fth>\n      \u003Cth colspan=\"1\">Synth4D\u003C\u002Fth>\n   \u003C\u002Ftr>\n   \u003Ctr>\n      \u003Ctd>LP\u003C\u002Ftd> \u003Ctd>1%\u003C\u002Ftd> \u003Ctd>5%\u003C\u002Ftd> \u003Ctd>10%\u003C\u002Ftd> \u003Ctd>25%\u003C\u002Ftd> \u003Ctd>Full\u003C\u002Ftd>\n      \u003Ctd>1%\u003C\u002Ftd> \u003Ctd>1%\u003C\u002Ftd> \u003Ctd>1%\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n      \u003Ctd>Random\u003C\u002Ftd>\n      \u003Ctd>8.10\u003C\u002Ftd> \u003Ctd>30.30\u003C\u002Ftd> \u003Ctd>47.84\u003C\u002Ftd> \u003Ctd>56.15\u003C\u002Ftd> \u003Ctd>65.48\u003C\u002Ftd> \u003Ctd>74.66\u003C\u002Ftd>\n      \u003Ctd>39.50\u003C\u002Ftd> \u003Ctd>39.41\u003C\u002Ftd> \u003Ctd>20.22\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n      \u003Ctd>PointContrast\u003C\u002Ftd>\n      \u003Ctd>21.90\u003C\u002Ftd> \u003Ctd>32.50\u003C\u002Ftd> \u003Ctd >-\u003C\u002Ftd> \u003Ctd>-\u003C\u002Ftd> \u003Ctd>-\u003C\u002Ftd> \u003Ctd>-\u003C\u002Ftd>\n      \u003Ctd>41.10\u003C\u002Ftd> \u003Ctd>-\u003C\u002Ftd> \u003Ctd>-\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n      \u003Ctd>DepthContrast\u003C\u002Ftd>\n      \u003Ctd>22.10\u003C\u002Ftd> \u003Ctd>31.70\u003C\u002Ftd> \u003Ctd>-\u003C\u002Ftd> \u003Ctd>-\u003C\u002Ftd> \u003Ctd>-\u003C\u002Ftd> \u003Ctd>-\u003C\u002Ftd>\n      \u003Ctd>41.50\u003C\u002Ftd> \u003Ctd>-\u003C\u002Ftd> \u003Ctd>-\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n      \u003Ctd>PPKT\u003C\u002Ftd>\n      \u003Ctd>35.90\u003C\u002Ftd> \u003Ctd>37.80\u003C\u002Ftd> \u003Ctd>53.74\u003C\u002Ftd> \u003Ctd>60.25\u003C\u002Ftd> \u003Ctd>67.14\u003C\u002Ftd> \u003Ctd>74.52\u003C\u002Ftd>\n      \u003Ctd>44.00\u003C\u002Ftd> \u003Ctd>47.60\u003C\u002Ftd> \u003Ctd>61.10\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n      \u003Ctd>SLidR\u003C\u002Ftd>\n      \u003Ctd>38.80\u003C\u002Ftd> \u003Ctd>38.30\u003C\u002Ftd> \u003Ctd>52.49\u003C\u002Ftd> \u003Ctd>59.84\u003C\u002Ftd> \u003Ctd>66.91\u003C\u002Ftd> \u003Ctd>74.79\u003C\u002Ftd>\n      \u003Ctd>44.60\u003C\u002Ftd> \u003Ctd>47.12\u003C\u002Ftd> \u003Ctd>63.10\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n      \u003Ctd>ST-SLidR\u003C\u002Ftd>\n      \u003Ctd>40.48\u003C\u002Ftd> \u003Ctd>40.75\u003C\u002Ftd> \u003Ctd>54.69\u003C\u002Ftd> \u003Ctd>60.75\u003C\u002Ftd> \u003Ctd>67.70\u003C\u002Ftd> \u003Ctd>75.14\u003C\u002Ftd>\n      \u003Ctd>44.72\u003C\u002Ftd> \u003Ctd>44.93\u003C\u002Ftd> \u003Ctd>-\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n      \u003Ctd>\u003Cstrong>Seal :seal:\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>44.95\u003C\u002Ftd> \u003Ctd>45.84\u003C\u002Ftd> \u003Ctd>55.64\u003C\u002Ftd> \u003Ctd>62.97\u003C\u002Ftd> \u003Ctd>68.41\u003C\u002Ftd> \u003Ctd>75.60\u003C\u002Ftd>\n      \u003Ctd>46.63\u003C\u002Ftd> \u003Ctd>49.34\u003C\u002Ftd> \u003Ctd>64.50\u003C\u002Ftd>\n   \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### :bus: Linear Probing\n\n| \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_1156ed830c5d.gif\" align=\"center\" width=\"99%\"> |\n| :-: |\n| The qualitative results of our **Seal :seal:** framework pretrained on nuScenes (without using groundtruth labels) and linear probed with a frozen backbone and a linear classification head. To highlight the differences, the correct \u002F incorrect predictions are painted in gray \u002F red, respectively. |\n\n### :articulated_lorry: Downstream Generalization\n\n\u003Ctable class=\"center\">\n   \u003Ctr>\n      \u003Cth rowspan=\"2\">Method\u003C\u002Fth>\n      \u003Cth colspan=\"2\">ScribbleKITTI\u003C\u002Fth>\n      \u003Cth colspan=\"2\">RELLIS-3D\u003C\u002Fth>\n      \u003Cth colspan=\"2\">SemanticPOSS\u003C\u002Fth>\n      \u003Cth colspan=\"2\">SemanticSTF\u003C\u002Fth>\n      \u003Cth colspan=\"2\">SynLiDAR\u003C\u002Fth>\n      \u003Cth colspan=\"2\">DAPS-3D\u003C\u002Fth>\n   \u003C\u002Ftr>\n   \u003Ctr>\n      \u003Ctd>1%\u003C\u002Ftd> \u003Ctd>10%\u003C\u002Ftd> \u003Ctd>1%\u003C\u002Ftd> \u003Ctd>10%\u003C\u002Ftd> \u003Ctd>Half\u003C\u002Ftd> \u003Ctd>Full\u003C\u002Ftd>\n      \u003Ctd>Half\u003C\u002Ftd> \u003Ctd>Full\u003C\u002Ftd> \u003Ctd>1%\u003C\u002Ftd> \u003Ctd>10%\u003C\u002Ftd> \u003Ctd>Half\u003C\u002Ftd> \u003Ctd>Full\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd>Random\u003C\u002Ftd>\n     \u003Ctd>23.81\u003C\u002Ftd> \u003Ctd>47.60\u003C\u002Ftd> \u003Ctd>38.46\u003C\u002Ftd> \u003Ctd>53.60\u003C\u002Ftd> \u003Ctd>46.26\u003C\u002Ftd> \u003Ctd>54.12\u003C\u002Ftd> \u003Ctd>48.03\u003C\u002Ftd> \u003Ctd>48.15\u003C\u002Ftd> \u003Ctd>19.89\u003C\u002Ftd> \u003Ctd>44.74\u003C\u002Ftd> \u003Ctd>74.32\u003C\u002Ftd> \u003Ctd>79.38\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd>PPKT\u003C\u002Ftd>\n     \u003Ctd>36.50\u003C\u002Ftd> \u003Ctd>51.67\u003C\u002Ftd> \u003Ctd>49.71\u003C\u002Ftd> \u003Ctd>54.33\u003C\u002Ftd> \u003Ctd>50.18\u003C\u002Ftd> \u003Ctd>56.00\u003C\u002Ftd> \u003Ctd>50.92\u003C\u002Ftd> \u003Ctd>54.69\u003C\u002Ftd> \u003Ctd>37.57\u003C\u002Ftd> \u003Ctd>46.48\u003C\u002Ftd> \u003Ctd>78.90\u003C\u002Ftd> \u003Ctd>84.00\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd>SLidR\u003C\u002Ftd>\n     \u003Ctd>39.60\u003C\u002Ftd> \u003Ctd>50.45\u003C\u002Ftd> \u003Ctd>49.75\u003C\u002Ftd> \u003Ctd>54.57\u003C\u002Ftd> \u003Ctd>51.56\u003C\u002Ftd> \u003Ctd>55.36\u003C\u002Ftd> \u003Ctd>52.01\u003C\u002Ftd> \u003Ctd>54.35\u003C\u002Ftd> \u003Ctd>42.05\u003C\u002Ftd> \u003Ctd>47.84\u003C\u002Ftd> \u003Ctd>81.00\u003C\u002Ftd> \u003Ctd>85.40\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n      \u003Ctd>\u003Cstrong>Seal :seal:\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>40.64\u003C\u002Ftd> \u003Ctd>52.77\u003C\u002Ftd> \u003Ctd>51.09\u003C\u002Ftd> \u003Ctd>55.03\u003C\u002Ftd> \u003Ctd>53.26\u003C\u002Ftd> \u003Ctd>56.89\u003C\u002Ftd> \u003Ctd>53.46\u003C\u002Ftd> \u003Ctd>55.36\u003C\u002Ftd> \u003Ctd>43.58\u003C\u002Ftd> \u003Ctd>49.26\u003C\u002Ftd> \u003Ctd>81.88\u003C\u002Ftd> \u003Ctd>85.90\u003C\u002Ftd>\n   \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### :truck: Robustness Probing\n\n| Init | Backbone | mCE | mRR | Fog | Wet | Snow | Motion | Beam | Cross | Echo | Sensor |\n| :--: | :--: | :--: | :--: | :--: | :--: | :--: | :--: | :--: | :--: | :--: | :--: \n| Random | [PolarNet](https:\u002F\u002Fgithub.com\u002Fedwardzhou130\u002FPolarSeg) | 115.09 | 76.34 | 58.23 | 69.91 | 64.82 | 44.60 | 61.91 | 40.77 | 53.64 | 42.01 |\n| Random | [CENet](https:\u002F\u002Fgithub.com\u002Fhuixiancheng\u002FCENet) | 112.79 | 76.04 | 67.01 | 69.87 | 61.64 | 58.31 | 49.97 | 60.89 | 53.31 | 24.78 |\n| Random | [WaffleIron](https:\u002F\u002Fgithub.com\u002Fvaleoai\u002FWaffleIron) | 106.73 | 72.78 | 56.07 | 73.93 | 49.59 | 59.46 | 65.19 | 33.12 | 61.51 | 44.01 |\n| Random | [Cylinder3D](https:\u002F\u002Fgithub.com\u002Fxinge008\u002FCylinder3D) | 105.56 | 78.08 | 61.42 | 71.02 | 58.40 | 56.02 | 64.15 | 45.36 | 59.97 | 43.03 |\n| Random | [SPVCNN](https:\u002F\u002Fgithub.com\u002Fmit-han-lab\u002Fspvnas) | 106.65 | 74.70 | 59.01 | 72.46 | 41.08 | 58.36 | 65.36 | 36.83 | 62.29 | 49.21 |\n| Random | [MinkUNet](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FMinkowskiEngine) | 112.20 | 72.57 | 62.96 | 70.65 | 55.48 | 51.71 | 62.01 | 31.56 | 59.64 | 39.41 |\n| PPKT | [MinkUNet](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FMinkowskiEngine) | 105.64 | 76.06 | 64.01 | 72.18 | 59.08 | 57.17 | 63.88 | 36.34 | 60.59 | 39.57 |\n| SLidR | [MinkUNet](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FMinkowskiEngine) | 106.08 | 75.99 | 65.41 | 72.31 | 56.01 | 56.07 | 62.87 | 41.94 | 61.16 | 38.90 |\n| **Seal :seal:** | [MinkUNet](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FMinkowskiEngine) | 92.63 | 83.08 | 72.66 | 74.31 | 66.22 | 66.14 | 65.96 | 57.44 | 59.87 | 39.85 |\n\n### :tractor: Qualitative Assessment\n\n| \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_f099f4bae65d.jpg\" align=\"center\" width=\"99%\"> |\n| :-: |\n| The qualitative results of **Seal :seal:** and prior methods pretrained on nuScenes (without using groundtruth labels) and fine-tuned with 1% labeled data. To highlight the differences, the correct \u002F incorrect predictions are painted in gray \u002F red, respectively. |\n\n\n## TODO List\n\n- [x] Initial release. :rocket:\n- [x] Add license. See [here](#license) for more details.\n- [x] Add video demos :movie_camera:\n- [x] Add installation details.\n- [x] Add data preparation details.\n- [x] Support semantic superpixel generation.\n- [x] Support semantic superpoint generation.\n- [ ] Add evaluation details.\n- [ ] Add training details.\n\n\n## Citation\n\nIf you find this work helpful, please kindly consider citing our paper:\n\n```bibtex\n@inproceedings{liu2023segment,\n  title = {Segment Any Point Cloud Sequences by Distilling Vision Foundation Models},\n  author = {Liu, Youquan and Kong, Lingdong and Cen, Jun and Chen, Runnan and Zhang, Wenwei and Pan, Liang and Chen, Kai and Liu, Ziwei},\n  booktitle = {Advances in Neural Information Processing Systems}, \n  year = {2023},\n}\n```\n\n```bibtex\n@misc{liu2023segment_any_point_cloud,\n  title = {The Segment Any Point Cloud Codebase},\n  author = {Liu, Youquan and Kong, Lingdong and Cen, Jun and Chen, Runnan and Zhang, Wenwei and Pan, Liang and Chen, Kai and Liu, Ziwei},\n  howpublished = {\\url{https:\u002F\u002Fgithub.com\u002Fyouquanl\u002FSegment-Any-Point-Cloud}},\n  year = {2023},\n}\n```\n\n## License\n\u003Ca rel=\"license\" href=\"http:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F\">\u003Cimg alt=\"Creative Commons License\" style=\"border-width:0\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_8a4e76cf0ed2.png\" \u002F>\u003C\u002Fa>\n\u003Cbr \u002F>\nThis work is under the \u003Ca rel=\"license\" href=\"http:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F\">Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License\u003C\u002Fa>.\n\n\n## Acknowledgement\nThis work is developed based on the [MMDetection3D](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmdetection3d) codebase.\n\n>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_bc52b0de66dc.png\" width=\"30%\"\u002F>\u003Cbr>\n> MMDetection3D is an open-source object detection toolbox based on PyTorch, towards the next-generation platform for general 3D detection. It is a part of the OpenMMLab project developed by MMLab.\n\nPart of this codebase has been adapted from [SLidR](https:\u002F\u002Fgithub.com\u002Fvaleoai\u002FSLidR), [Segment Anything](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fsegment-anything), [X-Decoder](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FX-Decoder), [OpenSeeD](https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FOpenSeeD), [Segment Everything Everywhere All at Once](https:\u002F\u002Fgithub.com\u002FUX-Decoder\u002FSegment-Everything-Everywhere-All-At-Once), [LaserMix](https:\u002F\u002Fgithub.com\u002Fldkong1205\u002FLaserMix), and [Robo3D](https:\u002F\u002Fgithub.com\u002Fldkong1205\u002FRobo3D).\n\n:heart: We thank the exceptional contributions from the above open-source repositories!\n","\u003Cp align=\"right\">English | \u003Ca href=\"docs\u002FREADME_CN.md\">简体中文\u003C\u002Fa>\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_fdeb4f8414b1.png\" align=\"center\" width=\"44%\">\n  \n  \u003Ch3 align=\"center\">\u003Cstrong>通过蒸馏视觉基础模型实现任意点云序列的分割\u003C\u002Fstrong>\u003C\u002Fh3>\n\n  \u003Cp align=\"center\">\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fyouquanl\">刘友权\u003C\u002Fa>\u003Csup>1,*\u003C\u002Fsup>&nbsp;&nbsp;&nbsp;\n    \u003Ca href=\"https:\u002F\u002Fldkong.com\">孔令东\u003C\u002Fa>\u003Csup>1,2,*\u003C\u002Fsup>&nbsp;&nbsp;&nbsp;\n    \u003Ca href=\"http:\u002F\u002Fcen-jun.com\">岑俊\u003C\u002Fa>\u003Csup>3\u003C\u002Fsup>&nbsp;&nbsp;&nbsp;\n    \u003Ca href=\"https:\u002F\u002Fscholar.google.com\u002Fcitations?user=Uq2DuzkAAAAJ\">陈润楠\u003C\u002Fa>\u003Csup>4\u003C\u002Fsup>&nbsp;&nbsp;&nbsp;\n    \u003Ca href=\"http:\u002F\u002Fzhangwenwei.cn\">张文伟\u003C\u002Fa>\u003Csup>1,5\u003C\u002Fsup>\u003Cbr>\n    \u003Ca href=\"https:\u002F\u002Fscholar.google.com\u002Fcitations?user=lSDISOcAAAAJ\">潘亮\u003C\u002Fa>\u003Csup>5\u003C\u002Fsup>&nbsp;&nbsp;&nbsp;\n    \u003Ca href=\"http:\u002F\u002Fchenkai.site\">陈凯\u003C\u002Fa>\u003Csup>1\u003C\u002Fsup>&nbsp;&nbsp;&nbsp;\n    \u003Ca href=\"https:\u002F\u002Fliuziwei7.github.io\">刘子威\u003C\u002Fa>\u003Csup>5\u003C\u002Fsup>\n    \u003Cbr>\n    \u003Csup>1\u003C\u002Fsup>上海人工智能实验室&nbsp;&nbsp;&nbsp;\n    \u003Csup>2\u003C\u002Fsup>新加坡国立大学&nbsp;&nbsp;&nbsp;\n    \u003Csup>3\u003C\u002Fsup>香港科技大学&nbsp;&nbsp;&nbsp;\n    \u003Csup>4\u003C\u002Fsup>香港大学&nbsp;&nbsp;&nbsp;\n    \u003Csup>5\u003C\u002Fsup>南洋理工大学S-Lab\n  \u003C\u002Fp>\n\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.09347\" target='_blank'>\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-%F0%9F%93%83-purple\">\n  \u003C\u002Fa>\n  \n  \u003Ca href=\"https:\u002F\u002Fldkong.com\u002FSeal\" target='_blank'>\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-%F0%9F%94%97-violet\">\n  \u003C\u002Fa>\n  \n  \u003Ca href=\"https:\u002F\u002Fyoutu.be\u002FS0q2-nQdwSs\" target='_blank'>\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDemo-%F0%9F%8E%AC-purple\">\n  \u003C\u002Fa>\n  \n  \u003Ca href=\"\" target='_blank'>\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%E4%B8%AD%E8%AF%91%E7%89%88-%F0%9F%90%BC-violet\">\n  \u003C\u002Fa>\n  \n  \u003Ca href=\"\" target='_blank'>\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_5263b6f69075.png\">\n  \u003C\u002Fa>\n\u003C\u002Fp>\n\n\n# Seal :seal:\n`Seal`是一个多功能的自监督学习框架，能够利用现成的视觉基础模型（VFM）知识，并在表征学习阶段鼓励这些知识的空间和时间一致性，从而对*任意*汽车点云进行分割。\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_8f0636381a61.jpg\" align=\"center\" width=\"95%\">\n\u003C\u002Fp>\n\n### :sparkles: 亮点\n- :rocket: **可扩展性：** `Seal`直接将VFM的知识蒸馏到点云中，无需在预训练阶段进行2D或3D标注。\n- :balance_scale: **一致性：** `Seal`在相机到LiDAR以及点到分割两个阶段都强制执行空间和时间关系，从而促进跨模态表征学习。\n- :rainbow: **通用性：** `Seal`以即插即用的方式实现知识迁移，适用于涉及多种点云的下游任务，包括真实\u002F合成、低\u002F高分辨率、大\u002F小规模以及干净\u002F损坏的数据集。\n\n### :oncoming_automobile: 2D-3D对应关系\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_2714a19e265f.gif\" align=\"center\" width=\"95%\">\n\u003C\u002Fp>\n\n\n### :movie_camera: 视频演示\n| 演示1 | 演示2| 演示3|\n| :-: | :-: | :-: |\n| \u003Cimg width=\"100%\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_00df2d6ccf40.jpg\"> | \u003Cimg width=\"100%\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_52dba7f88e7c.jpg\"> | \u003Cimg width=\"100%\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_eaeef4c34561.jpg\"> | \n| [链接](https:\u002F\u002Fyoutu.be\u002FS0q2-nQdwSs) \u003Csup>:arrow_heading_up:\u003C\u002Fsup> | [链接](https:\u002F\u002Fyoutu.be\u002Fyoon3uiRnY8) \u003Csup>:arrow_heading_up:\u003C\u002Fsup> | [链接]() \u003Csup>:arrow_heading_up:\u003C\u002Fsup> |\n\n\n## 更新\n- \\[2023.12\\] - 我们将在[ICRA 2024](https:\u002F\u002F2024.ieee-icra.org\u002F)上举办[RoboDrive挑战赛](https:\u002F\u002Frobodrive-24.github.io\u002F)。:blue_car:\n- \\[2023.09\\] - `Seal`被选为[NeurIPS 2023](https:\u002F\u002Fneurips.cc\u002F)的:sparkles:亮点:sparkles:。\n- \\[2023.09\\] - `Seal`已被[NeurIPS 2023](https:\u002F\u002Fneurips.cc\u002F)接受！:tada:\n- \\[2023.07\\] - 我们发布了用于生成语义超像素和超点的[代码](docs\u002Fdocument\u002FSUPERPOINT.md)，基于[SLIC](https:\u002F\u002Fscikit-image.org\u002Fdocs\u002Fstable\u002Fapi\u002Fskimage.segmentation.html#skimage.segmentation.slic)、[SAM](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fsegment-anything)和[SEEM](https:\u002F\u002Fscikit-image.org\u002Fdocs\u002Fstable\u002Fapi\u002Fskimage.segmentation.html#skimage.segmentation.slic)。更多VFM即将推出！\n- \\[2023.06\\] - 我们的论文已在arXiv上发布，点击[这里](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.09347)查看。代码稍后会公开！\n\n\n## 大纲\n- [安装](#installation)\n- [数据准备](#data-preparation)\n- [超点生成](#superpoint-generation)\n- [开始使用](#getting-started)\n- [主要结果](#main-result)\n- [待办事项](#todo-list)\n- [许可证](#license)\n- [致谢](#acknowledgement)\n- [引用](#citation)\n\n\n## 安装\n请参阅[INSTALL.md](docs\u002Fdocument\u002FINSTALL.md)以获取安装详情。\n\n\n## 数据准备\n\n| [**nuScenes**](https:\u002F\u002Fwww.nuscenes.org\u002Fnuscenes) | [**SemanticKITTI**](http:\u002F\u002Fsemantic-kitti.org\u002F) | [**Waymo Open**](https:\u002F\u002Fwaymo.com\u002Fopen) | [**ScribbleKITTI**](https:\u002F\u002Fgithub.com\u002Fouenal\u002Fscribblekitti) |\n| :-: | :-: | :-: | :-: |\n| \u003Cimg width=\"115\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_081d35115fcb.png\"> | \u003Cimg width=\"115\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_cdc54add1d2a.png\"> | \u003Cimg width=\"115\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_1fa7dc994269.png\"> | \u003Cimg width=\"115\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_878f8943d54e.png\"> | \n| [**RELLIS-3D**](http:\u002F\u002Fwww.unmannedlab.org\u002Fresearch\u002FRELLIS-3D) | [**SemanticPOSS**](http:\u002F\u002Fwww.poss.pku.edu.cn\u002Fsemanticposs.html) | [**SemanticSTF**](https:\u002F\u002Fgithub.com\u002Fxiaoaoran\u002FSemanticSTF) | [**DAPS-3D**](https:\u002F\u002Fgithub.com\u002Fsubake\u002FDAPS3D) |\n| \u003Cimg width=\"115\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_b78fe8768ddf.png\"> | \u003Cimg width=\"115\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_5dfc55e0324c.png\"> | \u003Cimg width=\"115\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_918db843c5de.png\"> | \u003Cimg width=\"115\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_982b40d247ab.png\"> | \n| [**SynLiDAR**](https:\u002F\u002Fgithub.com\u002Fxiaoaoran\u002FSynLiDAR) | [**Synth4D**](https:\u002F\u002Fgithub.com\u002Fsaltoricristiano\u002Fgipso-sfouda) | [**nuScenes-C**](https:\u002F\u002Fgithub.com\u002Fldkong1205\u002FRobo3D) |\n| \u003Cimg width=\"115\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_adb64b8d4482.png\"> | \u003Cimg width=\"115\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_bb207bdc014f.png\"> | \u003Cimg width=\"115\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_a3ea4783f8e5.png\"> |\n\n请参阅[DATA_PREPARE.md](docs\u002Fdocument\u002FDATA_PREPARE.md)以获取准备这些数据集的详细信息。\n\n## 超像素生成\n\n| 原始点云 | 语义超像素 | 真值 |\n| :-: | :-: | :-: |\n| \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_dd50c444f53b.gif\" align=\"center\" width=\"240\"> | \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_5172c5a7cce9.gif\" align=\"center\" width=\"240\"> | \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_319b859e3ad3.gif\" align=\"center\" width=\"240\"> | \n| |\n| \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_7619217eb4c4.gif\" align=\"center\" width=\"240\"> | \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_e7034dbac85e.gif\" align=\"center\" width=\"240\"> | \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_71170f4a0bd4.gif\" align=\"center\" width=\"240\"> |\n| |\n| \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_c6dca006490e.gif\" align=\"center\" width=\"240\"> | \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_f106bc72c60c.gif\" align=\"center\" width=\"240\"> | \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_184273b9e64f.gif\" align=\"center\" width=\"240\"> |\n| |\n| \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_0d0e4b2bba81.gif\" align=\"center\" width=\"240\"> | \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_1f6735e37e9d.gif\" align=\"center\" width=\"240\"> | \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_7afcd09b848e.gif\" align=\"center\" width=\"240\"> |\n\n有关如何使用视觉基础模型生成语义超像素和超点的详细信息，请参阅 [SUPERPOINT.md](docs\u002Fdocument\u002FSUPERPOINT.md)。\n\n\n## 入门指南\n有关本代码库的更多用法，请参阅 [GET_STARTED.md](docs\u002Fdocument\u002FGET_STARTED.md)。\n\n\n## 主要结果\n\n### :unicorn: 框架概述\n\n| \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_18123ace77b1.jpg\" align=\"center\" width=\"99%\"> |\n| :-: |\n| **Seal :seal:** 框架的概览。我们针对每个时间戳 t 的 {激光雷达, 摄像头} 对以及时间戳 t + n 的另一帧激光雷达，利用视觉基础模型生成语义超像素和超点。随后形成两个相关目标：配对的激光雷达和摄像头特征之间的*空间对比学习*，以及不同时间戳片段之间的*时间一致性正则化*。|\n\n### :car: 余弦相似度\n\n| \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_1efd22d43319.jpg\" align=\"center\" width=\"99%\"> |\n| :-: |\n| 在我们的 **Seal :seal:** 框架中，查询点（红点）与使用 SLIC 和不同视觉基础模型学习到的特征之间的余弦相似度。从上到下示例中的查询语义类别分别为：“汽车”、“人造物”和“卡车”。颜色由紫色渐变至黄色，分别表示低和高的相似度分数。|\n\n### :blue_car: 基准测试\n\n\u003Ctable class=\"center\">\n   \u003Ctr>\n      \u003Cth rowspan=\"2\">方法\u003C\u002Fth>\n      \u003Cth colspan=\"6\">nuScenes\u003C\u002Fth>\n      \u003Cth colspan=\"1\">KITTI\u003C\u002Fth>\n      \u003Cth colspan=\"1\">Waymo\u003C\u002Fth>\n      \u003Cth colspan=\"1\">Synth4D\u003C\u002Fth>\n   \u003C\u002Ftr>\n   \u003Ctr>\n      \u003Ctd>LP\u003C\u002Ftd> \u003Ctd>1%\u003C\u002Ftd> \u003Ctd>5%\u003C\u002Ftd> \u003Ctd>10%\u003C\u002Ftd> \u003Ctd>25%\u003C\u002Ftd> \u003Ctd>Full\u003C\u002Ftd>\n      \u003Ctd>1%\u003C\u002Ftd> \u003Ctd>1%\u003C\u002Ftd> \u003Ctd>1%\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n      \u003Ctd>Random\u003C\u002Ftd>\n      \u003Ctd>8.10\u003C\u002Ftd> \u003Ctd>30.30\u003C\u002Ftd> \u003Ctd>47.84\u003C\u002Ftd> \u003Ctd>56.15\u003C\u002Ftd> \u003Ctd>65.48\u003C\u002Ftd> \u003Ctd>74.66\u003C\u002Ftd>\n      \u003Ctd>39.50\u003C\u002Ftd> \u003Ctd>39.41\u003C\u002Ftd> \u003Ctd>20.22\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n      \u003Ctd>PointContrast\u003C\u002Ftd>\n      \u003Ctd>21.90\u003C\u002Ftd> \u003Ctd>32.50\u003C\u002Ftd> \u003Ctd >-\u003C\u002Ftd> \u003Ctd>-\u003C\u002Ftd> \u003Ctd>-\u003C\u002Ftd> \u003Ctd>-\u003C\u002Ftd>\n      \u003Ctd>41.10\u003C\u002Ftd> \u003Ctd>-\u003C\u002Ftd> \u003Ctd>-\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n      \u003Ctd>DepthContrast\u003C\u002Ftd>\n      \u003Ctd>22.10\u003C\u002Ftd> \u003Ctd>31.70\u003C\u002Ftd> \u003Ctd>-\u003C\u002Ftd> \u003Ctd>-\u003C\u002Ftd> \u003Ctd>-\u003C\u002Ftd> \u003Ctd>-\u003C\u002Ftd>\n      \u003Ctd>41.50\u003C\u002Ftd> \u003Ctd>-\u003C\u002Ftd> \u003Ctd>-\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n      \u003Ctd>PPKT\u003C\u002Ftd>\n      \u003Ctd>35.90\u003C\u002Ftd> \u003Ctd>37.80\u003C\u002Ftd> \u003Ctd>53.74\u003C\u002Ftd> \u003Ctd>60.25\u003C\u002Ftd> \u003Ctd>67.14\u003C\u002Ftd> \u003Ctd>74.52\u003C\u002Ftd>\n      \u003Ctd>44.00\u003C\u002Ftd> \u003Ctd>47.60\u003C\u002Ftd> \u003Ctd>61.10\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n      \u003Ctd>SLidR\u003C\u002Ftd>\n      \u003Ctd>38.80\u003C\u002Ftd> \u003Ctd>38.30\u003C\u002Ftd> \u003Ctd>52.49\u003C\u002Ftd> \u003Ctd>59.84\u003C\u002Ftd> \u003Ctd>66.91\u003C\u002Ftd> \u003Ctd>74.79\u003C\u002Ftd>\n      \u003Ctd>44.60\u003C\u002Ftd> \u003Ctd>47.12\u003C\u002Ftd> \u003Ctd>63.10\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n      \u003Ctd>ST-SLidR\u003C\u002Ftd>\n      \u003Ctd>40.48\u003C\u002Ftd> \u003Ctd>40.75\u003C\u002Ftd> \u003Ctd>54.69\u003C\u002Ftd> \u003Ctd>60.75\u003C\u002Ftd> \u003Ctd>67.70\u003C\u002Ftd> \u003Ctd>75.14\u003C\u002Ftd>\n      \u003Ctd>44.72\u003C\u002Ftd> \u003Ctd>44.93\u003C\u002Ftd> \u003Ctd>-\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n      \u003Ctd>\u003Cstrong>Seal :seal:\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>44.95\u003C\u002Ftd> \u003Ctd>45.84\u003C\u002Ftd> \u003Ctd>55.64\u003C\u002Ftd> \u003Ctd>62.97\u003C\u002Ftd> \u003Ctd>68.41\u003C\u002Ftd> \u003Ctd>75.60\u003C\u002Ftd>\n      \u003Ctd>46.63\u003C\u002Ftd> \u003Ctd>49.34\u003C\u002Ftd> \u003Ctd>64.50\u003C\u002Ftd>\n   \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### :bus: 线性探测\n\n| \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_1156ed830c5d.gif\" align=\"center\" width=\"99%\"> |\n| :-: |\n| 我们 **Seal :seal:** 框架在 nuScenes 数据集上预训练（未使用真值标签），并使用冻结的主干网络和线性分类头进行线性探测后的定性结果。为突出差异，正确\u002F错误的预测分别以灰色\u002F红色标注。|\n\n### :articulated_lorry: 下游泛化能力\n\n\u003Ctable class=\"center\">\n   \u003Ctr>\n      \u003Cth rowspan=\"2\">方法\u003C\u002Fth>\n      \u003Cth colspan=\"2\">ScribbleKITTI\u003C\u002Fth>\n      \u003Cth colspan=\"2\">RELLIS-3D\u003C\u002Fth>\n      \u003Cth colspan=\"2\">SemanticPOSS\u003C\u002Fth>\n      \u003Cth colspan=\"2\">SemanticSTF\u003C\u002Fth>\n      \u003Cth colspan=\"2\">SynLiDAR\u003C\u002Fth>\n      \u003Cth colspan=\"2\">DAPS-3D\u003C\u002Fth>\n   \u003C\u002Ftr>\n   \u003Ctr>\n      \u003Ctd>1%\u003C\u002Ftd> \u003Ctd>10%\u003C\u002Ftd> \u003Ctd>1%\u003C\u002Ftd> \u003Ctd>10%\u003C\u002Ftd> \u003Ctd>Half\u003C\u002Ftd> \u003Ctd>Full\u003C\u002Ftd>\n      \u003Ctd>Half\u003C\u002Ftd> \u003Ctd>Full\u003C\u002Ftd> \u003Ctd>1%\u003C\u002Ftd> \u003Ctd>10%\u003C\u002Ftd> \u003Ctd>Half\u003C\u002Ftd> \u003Ctd>Full\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd>Random\u003C\u002Ftd>\n     \u003Ctd>23.81\u003C\u002Ftd> \u003Ctd>47.60\u003C\u002Ftd> \u003Ctd>38.46\u003C\u002Ftd> \u003Ctd>53.60\u003C\u002Ftd> \u003Ctd>46.26\u003C\u002Ftd> \u003Ctd>54.12\u003C\u002Ftd> \u003Ctd>48.03\u003C\u002Ftd> \u003Ctd>48.15\u003C\u002Ftd> \u003Ctd>19.89\u003C\u002Ftd> \u003Ctd>44.74\u003C\u002Ftd> \u003Ctd>74.32\u003C\u002Ftd> \u003Ctd>79.38\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd>PPKT\u003C\u002Ftd>\n     \u003Ctd>36.50\u003C\u002Ftd> \u003Ctd>51.67\u003C\u002Ftd> \u003Ctd>49.71\u003C\u002Ftd> \u003Ctd>54.33\u003C\u002Ftd> \u003Ctd>50.18\u003C\u002Ftd> \u003Ctd>56.00\u003C\u002Ftd> \u003Ctd>50.92\u003C\u002Ftd> \u003Ctd>54.69\u003C\u002Ftd> \u003Ctd>37.57\u003C\u002Ftd> \u003Ctd>46.48\u003C\u002Ftd> \u003Ctd>78.90\u003C\u002Ftd> \u003Ctd>84.00\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n     \u003Ctd>SLidR\u003C\u002Ftd>\n     \u003Ctd>39.60\u003C\u002Ftd> \u003Ctd>50.45\u003C\u002Ftd> \u003Ctd>49.75\u003C\u002Ftd> \u003Ctd>54.57\u003C\u002Ftd> \u003Ctd>51.56\u003C\u002Ftd> \u003Ctd>55.36\u003C\u002Ftd> \u003Ctd>52.01\u003C\u002Ftd> \u003Ctd>54.35\u003C\u002Ftd> \u003Ctd>42.05\u003C\u002Ftd> \u003Ctd>47.84\u003C\u002Ftd> \u003Ctd>81.00\u003C\u002Ftd> \u003Ctd>85.40\u003C\u002Ftd>\n   \u003C\u002Ftr>\n   \u003Ctr>\n      \u003Ctd>\u003Cstrong>Seal :seal:\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>40.64\u003C\u002Ftd> \u003Ctd>52.77\u003C\u002Ftd> \u003Ctd>51.09\u003C\u002Ftd> \u003Ctd>55.03\u003C\u002Ftd> \u003Ctd>53.26\u003C\u002Ftd> \u003Ctd>56.89\u003C\u002Ftd> \u003Ctd>53.46\u003C\u002Ftd> \u003Ctd>55.36\u003C\u002Ftd> \u003Ctd>43.58\u003C\u002Ftd> \u003Ctd>49.26\u003C\u002Ftd> \u003Ctd>81.88\u003C\u002Ftd> \u003Ctd>85.90\u003C\u002Ftd>\n   \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### :truck: 鲁棒性探测\n\n| 初始化 | 主干网络 | mCE | mRR | 雾 | 湿 | 雪 | 运动 | 光束 | 交叉 | 回波 | 传感器 |\n| :--: | :--: | :--: | :--: | :--: | :--: | :--: | :--: | :--: | :--: | :--: | :--: \n| 随机 | [PolarNet](https:\u002F\u002Fgithub.com\u002Fedwardzhou130\u002FPolarSeg) | 115.09 | 76.34 | 58.23 | 69.91 | 64.82 | 44.60 | 61.91 | 40.77 | 53.64 | 42.01 |\n| 随机 | [CENet](https:\u002F\u002Fgithub.com\u002Fhuixiancheng\u002FCENet) | 112.79 | 76.04 | 67.01 | 69.87 | 61.64 | 58.31 | 49.97 | 60.89 | 53.31 | 24.78 |\n| 随机 | [WaffleIron](https:\u002F\u002Fgithub.com\u002Fvaleoai\u002FWaffleIron) | 106.73 | 72.78 | 56.07 | 73.93 | 49.59 | 59.46 | 65.19 | 33.12 | 61.51 | 44.01 |\n| 随机 | [Cylinder3D](https:\u002F\u002Fgithub.com\u002Fxinge008\u002FCylinder3D) | 105.56 | 78.08 | 61.42 | 71.02 | 58.40 | 56.02 | 64.15 | 45.36 | 59.97 | 43.03 |\n| 随机 | [SPVCNN](https:\u002F\u002Fgithub.com\u002Fmit-han-lab\u002Fspvnas) | 106.65 | 74.70 | 59.01 | 72.46 | 41.08 | 58.36 | 65.36 | 36.83 | 62.29 | 49.21 |\n| 随机 | [MinkUNet](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FMinkowskiEngine) | 112.20 | 72.57 | 62.96 | 70.65 | 55.48 | 51.71 | 62.01 | 31.56 | 59.64 | 39.41 |\n| PPKT | [MinkUNet](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FMinkowskiEngine) | 105.64 | 76.06 | 64.01 | 72.18 | 59.08 | 57.17 | 63.88 | 36.34 | 60.59 | 39.57 |\n| SLidR | [MinkUNet](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FMinkowskiEngine) | 106.08 | 75.99 | 65.41 | 72.31 | 56.01 | 56.07 | 62.87 | 41.94 | 61.16 | 38.90 |\n| **Seal :seal:** | [MinkUNet](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FMinkowskiEngine) | 92.63 | 83.08 | 72.66 | 74.31 | 66.22 | 66.14 | 65.96 | 57.44 | 59.87 | 39.85 |\n\n### :tractor: 定性评估\n\n| \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_f099f4bae65d.jpg\" align=\"center\" width=\"99%\"> |\n| :-: |\n| **Seal :seal:** 与先前在 nuScenes 上预训练（未使用真实标签）并用 1% 标注数据微调的方法的定性结果。为了突出差异，正确\u002F错误的预测分别以灰色\u002F红色标出。 |\n\n\n## 待办事项清单\n\n- [x] 初始发布。 :rocket:\n- [x] 添加许可证。更多详情请参见 [此处](#license)。\n- [x] 添加视频演示 :movie_camera:\n- [x] 添加安装说明。\n- [x] 添加数据准备说明。\n- [x] 支持语义超像素生成。\n- [x] 支持语义超点生成。\n- [ ] 添加评估说明。\n- [ ] 添加训练说明。\n\n\n## 引用\n\n如果您觉得这项工作有帮助，请考虑引用我们的论文：\n\n```bibtex\n@inproceedings{liu2023segment,\n  title = {通过蒸馏视觉基础模型分割任意点云序列},\n  author = {刘友权、孔令东、岑俊、陈润楠、张文伟、潘亮、陈凯、刘子威},\n  booktitle = {神经信息处理系统进展}, \n  year = {2023},\n}\n```\n\n```bibtex\n@misc{liu2023segment_any_point_cloud,\n  title = {任意点云分割代码库},\n  author = {刘友权、孔令东、岑俊、陈润楠、张文伟、潘亮、陈凯、刘子威},\n  howpublished = {\\url{https:\u002F\u002Fgithub.com\u002Fyouquanl\u002FSegment-Any-Point-Cloud}},\n  year = {2023},\n}\n```\n\n## 许可证\n\u003Ca rel=\"license\" href=\"http:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F\">\u003Cimg alt=\"知识共享许可\" style=\"border-width:0\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_8a4e76cf0ed2.png\" \u002F>\u003C\u002Fa>\n\u003Cbr \u002F>\n本作品采用 \u003Ca rel=\"license\" href=\"http:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F\">知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议\u003C\u002Fa>。\n\n\n\n## 致谢\n本项目基于 [MMDetection3D](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmdetection3d) 代码库开发。\n\n>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_readme_bc52b0de66dc.png\" width=\"30%\"\u002F>\u003Cbr>\n> MMDetection3D 是一个基于 PyTorch 的开源目标检测工具箱，旨在打造下一代通用 3D 目标检测平台。它是 MMLab 开发的 OpenMMLab 项目的一部分。\n\n本代码库的部分内容改编自 [SLidR](https:\u002F\u002Fgithub.com\u002Fvaleoai\u002FSLidR)、[Segment Anything](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fsegment-anything)、[X-Decoder](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FX-Decoder)、[OpenSeeD](https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FOpenSeeD)、[Segment Everything Everywhere All at Once](https:\u002F\u002Fgithub.com\u002FUX-Decoder\u002FSegment-Everything-Everywhere-All-At-Once)、[LaserMix](https:\u002F\u002Fgithub.com\u002Fldkong1205\u002FLaserMix) 和 [Robo3D](https:\u002F\u002Fgithub.com\u002Fldkong1205\u002FRobo3D)。\n\n:heart: 我们感谢上述开源项目作出的杰出贡献！","# Segment-Any-Point-Cloud (Seal) 快速上手指南\n\n`Seal` 是一个通用的自监督学习框架，旨在通过蒸馏视觉基础模型（VFMs）的知识，实现对任意汽车点云序列的分割。该框架无需 2D 或 3D 标注即可进行预训练，并支持跨模态表示学习。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 18.04\u002F20.04\u002F22.04)\n*   **Python**: >= 3.8\n*   **GPU**: NVIDIA GPU (支持 CUDA)，显存建议 16GB 以上以处理大规模点云\n*   **核心依赖**:\n    *   PyTorch >= 1.10\n    *   CUDA Toolkit (版本需与 PyTorch 匹配)\n    *   MMDetection3D (可选，用于部分下游任务评估)\n\n> **国内加速建议**：\n> 安装 Python 依赖时，推荐使用清华或阿里镜像源以提升下载速度：\n> ```bash\n> pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n## 2. 安装步骤\n\n请按照以下步骤克隆代码库并安装依赖。详细的环境配置说明可参考官方文档 `docs\u002Fdocument\u002FINSTALL.md`。\n\n### 2.1 克隆仓库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fyouquanl\u002FSegment-Any-Point-Cloud.git\ncd Segment-Any-Point-Cloud\n```\n\n### 2.2 创建虚拟环境并安装依赖\n建议使用 Conda 管理环境：\n\n```bash\n# 创建环境\nconda create -n seal python=3.8 -y\nconda activate seal\n\n# 安装 PyTorch (示例为 CUDA 11.3，请根据实际情况调整)\npip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu113\n\n# 安装项目依赖\npip install -r requirements.txt\n```\n\n### 2.3 编译扩展模块 (如有)\n如果项目中包含自定义 CUDA 算子，可能需要执行编译命令（具体视 `requirements.txt` 或 `setup.py` 而定）：\n```bash\npython setup.py develop\n```\n\n## 3. 数据准备\n\n在运行模型前，需准备数据集。`Seal` 支持多种主流点云数据集，包括 nuScenes, SemanticKITTI, Waymo Open 等。\n\n1.  下载所需数据集（如 [nuScenes](https:\u002F\u002Fwww.nuscenes.org\u002Fnuscenes)）。\n2.  按照目录结构组织数据。\n3.  生成语义超像素（Superpoint）：利用视觉基础模型（如 SAM, SEEM）预处理数据。\n\n详细的数据集下载链接及预处理脚本请参考 `docs\u002Fdocument\u002FDATA_PREPARE.md` 和 `docs\u002Fdocument\u002FSUPERPOINT.md`。\n\n```bash\n# 示例：生成超点（具体参数需根据数据集调整）\npython tools\u002Fgenerate_superpoint.py --dataset nuscenes --split train\n```\n\n## 4. 基本使用\n\n完成环境和数据准备后，即可开始训练或评估。\n\n### 4.1 训练模型\n使用配置文件启动训练。以下是在 nuScenes 数据集上进行预训练的示例：\n\n```bash\n# 单卡训练示例\npython train.py --config configs\u002Fseal_nuscenes.py --work-dir work_dirs\u002Fseal_nuscenes\n\n# 多卡训练示例 (8 张 GPU)\n.\u002Ftools\u002Fdist_train.sh configs\u002Fseal_nuscenes.py 8 --work-dir work_dirs\u002Fseal_nuscenes\n```\n\n### 4.2 评估模型\n使用预训练权重在验证集上进行评估：\n\n```bash\npython test.py --config configs\u002Fseal_nuscenes.py --checkpoint work_dirs\u002Fseal_nuscenes\u002Flatest.pth --eval mIoU\n```\n\n### 4.3 线性探测 (Linear Probing)\n冻结骨干网络，仅训练分类头以评估特征质量：\n\n```bash\npython train.py --config configs\u002Flinear_probe_nuscenes.py --pretrained work_dirs\u002Fseal_nuscenes\u002Flatest.pth\n```\n\n> **注意**：具体的配置文件路径和参数请以仓库中 `configs\u002F` 目录下的实际文件为准。更多高级用法请参阅 `docs\u002Fdocument\u002FGET_STARTED.md`。","某自动驾驶初创公司的感知团队正致力于提升其激光雷达系统在复杂城市路况下的动态物体分割能力，以支持更精准的路径规划。\n\n### 没有 Segment-Any-Point-Cloud 时\n- **标注成本高昂**：团队需耗费数周时间人工标注海量 3D 点云数据中的车辆与行人，严重拖慢模型迭代速度。\n- **跨模态对齐困难**：难以将摄像头采集的丰富 2D 视觉语义有效迁移到稀疏的 3D 点云上，导致小目标检测漏检率高。\n- **时序一致性差**：在处理连续帧点云序列时，分割结果常出现闪烁或跳变，影响追踪算法的稳定性。\n- **泛化能力受限**：针对雨天、夜间等特定场景训练的模型，一旦遇到未见过的腐蚀数据或不同分辨率雷达，性能急剧下降。\n\n### 使用 Segment-Any-Point-Cloud 后\n- **实现零标注预训练**：直接利用现成的视觉基础模型（VFMs）知识蒸馏到点云领域，无需任何 2D 或 3D 人工标注即可完成预训练。\n- **强化时空一致性**：通过强制约束相机到激光雷达的空间关系及点云序列的时间关系，显著提升了跨模态表征学习的鲁棒性。\n- **无缝迁移下游任务**：能够以“开箱即用”的方式将知识迁移至各类下游任务，无论是合成数据还是真实低分辨率数据均表现稳定。\n- **抗干扰能力增强**：在面对噪声干扰或不同规模的点云输入时，依然能保持高精度的分割效果，大幅减少了场景适配工作。\n\nSegment-Any-Point-Cloud 通过蒸馏视觉大模型知识，彻底解决了 3D 点云分割对昂贵标注的依赖，并实现了跨模态、跨场景的通用感知能力。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyouquanl_Segment-Any-Point-Cloud_fdeb4f84.png","youquanl","Youquan Liu","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fyouquanl_737c0dc0.png",null,"https:\u002F\u002Fgithub.com\u002Fyouquanl",[82,86,90,93,97,101,105,109],{"name":83,"color":84,"percentage":85},"Python","#3572A5",87.9,{"name":87,"color":88,"percentage":89},"Cuda","#3A4E3A",8.2,{"name":91,"color":92,"percentage":10},"TypeScript","#3178c6",{"name":94,"color":95,"percentage":96},"C++","#f34b7d",0.9,{"name":98,"color":99,"percentage":100},"JavaScript","#f1e05a",0.5,{"name":102,"color":103,"percentage":104},"Shell","#89e051",0.4,{"name":106,"color":107,"percentage":108},"HTML","#e34c26",0.1,{"name":110,"color":111,"percentage":112},"SCSS","#c6538c",0,636,31,"2026-04-04T02:15:09",4,"未说明","未说明 (项目涉及视觉基础模型蒸馏和点云处理，通常隐含需要 NVIDIA GPU，但 README 正文未明确具体型号或显存要求)",{"notes":120,"python":117,"dependencies":121},"README 中未直接包含具体的运行环境配置（如 OS、GPU、Python 版本等），所有安装细节均指向外部文档 `docs\u002Fdocument\u002FINSTALL.md`。该项目依赖视觉基础模型（VFMs，如 SAM、SEEM）进行知识蒸馏，并支持多种点云数据集（nuScenes, Waymo 等）。建议查阅 `INSTALL.md` 获取准确的依赖列表和环境配置。",[122],"未说明 (README 指出详情见 INSTALL.md，此处未列出具体库及版本)",[18],"2026-03-27T02:49:30.150509","2026-04-06T07:13:58.542666",[127,132,137,142,146,150],{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},14540,"该项目是否支持直接对点云数据进行标注？","项目本身不直接提供数据标注功能。其核心在于点云分割的表征学习与预测，通过在无标注数据上预训练及少量标注数据微调来实现高性能分割。训练好的模型可用于对无标注点云进行“粗打标”，随后结合人工标注即可获得更精细的标注结果。","https:\u002F\u002Fgithub.com\u002Fyouquanl\u002FSegment-Any-Point-Cloud\u002Fissues\u002F5",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},14541,"在哪里可以找到可视化代码？","可视化代码已上传至项目的 visualization 目录，访问地址为：https:\u002F\u002Fgithub.com\u002Fyouquanl\u002FSegment-Any-Point-Cloud\u002Ftree\u002Fmain\u002Fvisualization","https:\u002F\u002Fgithub.com\u002Fyouquanl\u002FSegment-Any-Point-Cloud\u002Fissues\u002F6",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},14542,"C2L（相机到激光雷达蒸馏）中 2D-3D 对应关系质量差（如时间偏移导致的不匹配）会对性能产生什么影响？有相关消融实验吗？","目前尚未针对 C2L 不同质量进行专门的消融实验，默认映射时对应关系是准确的。但团队已意识到该问题并尝试通过仅在 LiDAR 数据上提出“时间一致性正则化”来缓解低质量 2D-3D 对应关系的负面影响。未来计划进行更多实验以深入探究此问题。","https:\u002F\u002Fgithub.com\u002Fyouquanl\u002FSegment-Any-Point-Cloud\u002Fissues\u002F4",{"id":143,"question_zh":144,"answer_zh":145,"source_url":141},14543,"如果激光雷达和相机之间存在较大的时间偏移导致超点（superpoints）数量极少，该项目如何解决？","针对传感器间时间或空间对齐不佳（如扫描频率不同、标定误差）导致的 2D-3D 不匹配问题，项目采用了“时间一致性正则化”技术，该技术仅作用于 LiDAR 数据，旨在减轻潜在的低质量 2D-3D 对应关系带来的负面影响，从而在自定义数据集上更好地复现性能。",{"id":147,"question_zh":148,"answer_zh":149,"source_url":131},14544,"如何利用该项目的模型辅助进行点云数据标注？","可以利用在无标注点云数据上预训练并经少量标注数据微调后的模型，先对新的无标注点云数据进行自动化的“粗打标”（生成初步分割结果），然后再通过人工介入对这些粗略标签进行修正和细化，从而高效地获得高质量标注数据。",{"id":151,"question_zh":152,"answer_zh":153,"source_url":141},14545,"在自定义数据集上复现性能时，遇到相机内参、外参标定不准或时间同步问题该怎么办？","这是常见难题，因为获取完美的 2D-3D 对应关系成本很高。建议在数据收集时尽量做好六相机的内外参标定及时间戳对齐。若无法避免误差，可依赖项目中提出的“时间一致性正则化”方法来 mitigating（减轻）由对齐不佳引起的性能下降，同时关注后续关于 C2L 质量影响的进一步实验更新。",[]]