[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-pengsongyou--openscene":3,"tool-pengsongyou--openscene":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":80,"owner_email":81,"owner_twitter":82,"owner_website":83,"owner_url":84,"languages":85,"stars":94,"forks":95,"last_commit_at":96,"license":97,"difficulty_score":98,"env_os":99,"env_gpu":100,"env_ram":101,"env_deps":102,"category_tags":106,"github_topics":107,"view_count":23,"oss_zip_url":81,"oss_zip_packed_at":81,"status":16,"created_at":118,"updated_at":119,"faqs":120,"releases":150},3441,"pengsongyou\u002Fopenscene","openscene","[CVPR'23] OpenScene: 3D Scene Understanding with Open Vocabularies","OpenScene 是一款基于 CVPR 2023 研究成果的开源项目，旨在实现利用开放词汇对 3D 场景进行深度理解。传统 3D 分析工具通常只能识别预先定义好的固定类别（如“椅子”、“墙壁”），而 OpenScene 突破了这一限制，解决了无法灵活查询未知物体、材质、属性甚至抽象概念的难题。\n\n用户只需输入任意自然语言描述，无论是具体的稀有物品（如“史努比玩偶”）、物理属性（如“柔软的地方”）、材料质地（如“金属制成”），还是功能场景（如“哪里可以做饭”）乃至抽象氛围（如“节日气氛”），OpenScene 都能实时在 3D 空间中定位并高亮显示对应区域。其核心技术亮点在于采用了零样本（zero-shot）学习方法，结合多视图特征融合技术，无需针对新类别重新训练模型即可泛化到无限多的查询概念中。\n\n这款工具非常适合计算机视觉研究人员探索开放词汇场景理解的前沿算法，也适合开发者将其集成到机器人导航、智能家居交互或虚拟现实应用中。此外，提供无需 GPU 即可运行的实时交互演示，让设计师和普通用户也能直观体验如何用自然语言与 3D 世界“对话”，极大地降低了 3D 语义理解的门槛。","\u003C!-- PROJECT LOGO -->\n\n\u003Cp align=\"center\">\n\n  \u003Ch1 align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fpengsongyou_openscene_readme_470db2150f1c.png\" width=\"40\">OpenScene: 3D Scene Understanding with Open Vocabularies\u003C\u002Fh1>\n  \u003Cp align=\"center\">\n    \u003Ca href=\"https:\u002F\u002Fpengsongyou.github.io\">\u003Cstrong>Songyou Peng\u003C\u002Fstrong>\u003C\u002Fa>\n    ·\n    \u003Ca href=\"https:\u002F\u002Fwww.kylegenova.com\u002F\">\u003Cstrong>Kyle Genova\u003C\u002Fstrong>\u003C\u002Fa>\n    ·\n    \u003Ca href=\"https:\u002F\u002Fwww.maxjiang.ml\u002F\">\u003Cstrong>Chiyu \"Max\" Jiang\u003C\u002Fstrong>\u003C\u002Fa>\n    ·\n    \u003Ca href=\"https:\u002F\u002Ftaiya.github.io\u002F\">\u003Cstrong>Andrea Tagliasacchi\u003C\u002Fstrong>\u003C\u002Fa>\n    \u003Cbr>\n    \u003Ca href=\"https:\u002F\u002Fpeople.inf.ethz.ch\u002Fpomarc\u002F\">\u003Cstrong>Marc Pollefeys\u003C\u002Fstrong>\u003C\u002Fa>\n    ·\n    \u003Ca href=\"https:\u002F\u002Fwww.cs.princeton.edu\u002F~funk\u002F\">\u003Cstrong>Thomas Funkhouser\u003C\u002Fstrong>\u003C\u002Fa>\n  \u003C\u002Fp>\n  \u003Ch2 align=\"center\">CVPR 2023\u003C\u002Fh2>\n  \u003Ch3 align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.15654\">Paper\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fyoutu.be\u002FjZxCLHyDJf8\">Video\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fpengsongyou.github.io\u002Fopenscene\">Project Page\u003C\u002Fa>\u003C\u002Fh3>\n  \u003Cdiv align=\"center\">\u003C\u002Fdiv>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n  \u003Ca href=\"\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fpengsongyou_openscene_readme_9ade16638b8e.jpg\" alt=\"Logo\" width=\"100%\">\n  \u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n\u003Cstrong>OpenScene\u003C\u002Fstrong> is a zero-shot approach to perform a series of novel 3D scene understanding tasks using open-vocabulary queries.\n\u003C\u002Fp>\n\u003Cbr>\n\n\u003C!-- TABLE OF CONTENTS -->\n\u003Cdetails open=\"open\" style='padding: 10px; border-radius:5px 30px 30px 5px; border-style: solid; border-width: 1px;'>\n  \u003Csummary>Table of Contents\u003C\u002Fsummary>\n  \u003Col>\n    \u003Cli>\n      \u003Ca href=\"#interactive-demo\">Interactive Demo\u003C\u002Fa>\n    \u003C\u002Fli>\n    \u003Cli>\n      \u003Ca href=\"#installation\">Installation\u003C\u002Fa>\n    \u003C\u002Fli>\n    \u003Cli>\n      \u003Ca href=\"#data-preparation\">Data Preparation\u003C\u002Fa>\n    \u003C\u002Fli>\n    \u003Cli>\n      \u003Ca href=\"#run\">Run\u003C\u002Fa>\n    \u003C\u002Fli>\n    \u003Cli>\n      \u003Ca href=\"#applications\">Applications\u003C\u002Fa>\n    \u003C\u002Fli>\n    \u003Cli>\n      \u003Ca href=\"#todo\">TODO\u003C\u002Fa>\n    \u003C\u002Fli>\n    \u003Cli>\n      \u003Ca href=\"#acknowledgement\">Acknowledgement\u003C\u002Fa>\n    \u003C\u002Fli>\n    \u003Cli>\n      \u003Ca href=\"#citation\">Citation\u003C\u002Fa>\n    \u003C\u002Fli>\n  \u003C\u002Fol>\n\u003C\u002Fdetails>\n\n## News :triangular_flag_on_post:\n\n- [2023\u002F10\u002F27] Add the code for LSeg per-pixel feature extraction and multi-view fusion. Check [this repo](https:\u002F\u002Fgithub.com\u002Fpengsongyou\u002Flseg_feature_extraction).\n- [2023\u002F03\u002F31] Code is released.\n\n## Interactive Demo\n### No GPU is needed! Follow **[this instruction](.\u002Fdemo)** to set up and play with the real-time demo yourself.\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fpengsongyou_openscene_readme_fb1c5234dba9.gif\" width=\"75%\" \u002F>\n\u003C\u002Fp>\n\n\nHere we present a **real-time**, **interactive**, **open-vocabulary** scene understanding tool. A user can type in an arbitrary query phrase like **`snoopy`** (rare object), **`somewhere soft`** (property), **`made of metal`** (material), **`where can I cook?`** (activity), **`festive`** (abstract concept) etc, and the correponding regions are highlighted.\n\n\n## Installation\nFollow the [installation.md](installation.md) to install all required packages so you can do the evaluation & distillation afterwards.\n\n## Data Preparation\n\nWe provide the **pre-processed 3D&2D data** and **multi-view fused features** for the following datasets:\n- ScanNet\n- Matterport3D\n- nuScenes\n- Replica\n### Pre-processed 3D&2D Data\nYou can preprocess the dataset yourself, see the [data pre-processing instruction](scripts\u002Fpreprocess\u002FREADME.md).\n\n\nAlternatively, we have provided the preprocessed datasets. One can download the pre-processed datasets by running the script below, and following the command line instruction to download the corresponding datasets:\n```bash\nbash scripts\u002Fdownload_dataset.sh\n```\nThe script will download and unpack data into the folder `data\u002F`. One can also download the dataset somewhere else, but link to the corresponding folder with the symbolic link:\n```bash\nln -s \u002FPATH\u002FTO\u002FDOWNLOADED\u002FFOLDER data\n```\n\u003Cdetails>\n  \u003Csummary>\u003Cstrong>List of provided processed data\u003C\u002Fstrong> (click to expand):\u003C\u002Fsummary>\n  \n  - ScanNet 3D (point clouds with GT semantic labels)\n  - ScanNet 2D (RGB-D images with camera poses)\n  - Matterport 3D (point clouds with GT semantic labels)\n  - Matterport 2D (RGB-D images with camera poses)\n  - nuScenes 3D (lidar point clouds with GT semantic labels)\n  - nuScenes 2D (RGB images with camera poses)\n  - Replica 3D (point clouds)\n  - Replica 2D (RGB-D images)\n  - Matterport 3D with top 40 NYU classes\n  - Matterport 3D with top 80 NYU classes\n  - Matterport 3D with top 160 NYU classes\n\u003C\u002Fdetails>\n\n**Note**: 2D processed datasets (e.g. `scannet_2d`) are only needed if you want to do multi-view feature fusion on your own. If so, please follow the [instruction for multi-view fusion](.\u002Fscripts\u002Ffeature_fusion\u002FREADME.md).\n\n### Multi-view Fused Features\nTo evaluate our OpenScene model or distill a 3D model, one needs to have the multi-view fused image feature for each 3D point (see method in Sec. 3.1 in the paper).\n\nYou can run the following to directly download provided fused features:\n\n```bash\nbash scripts\u002Fdownload_fused_features.sh\n```\n\u003Cdetails>\n  \u003Csummary>\u003Cstrong>List of provided fused features\u003C\u002Fstrong> (click to expand):\u003C\u002Fsummary>\n  \n  - ScanNet - Multi-view fused OpenSeg features, train\u002Fval (234.8G)\n  - ScanNet - Multi-view fused LSeg features, train\u002Fval (175.8G)\n  - Matterport - Multi-view fused OpenSeg features, train\u002Fval (198.3G)\n  - Matterport - Multi-view fused OpenSeg features, test set (66.7G)\n  - Replica - Multi-view fused OpenSeg features (9.0G)\n  - Matterport - Multi-view fused LSeg features (coming)\n  - nuScenes - Multi-view fused OpenSeg features (coming)\n  - nuScenes - Multi-view fused LSeg features (coming)\n\u003C\u002Fdetails>\n\n\nAlternatively, you can also generate multi-view features yourself following the [instruction](.\u002Fscripts\u002Ffeature_fusion\u002FREADME.md).\n\n\n## Run\nWhen you have installed the environment and obtained the **processed 3D data** and **multi-view fused features**, you are ready to run our OpenScene disilled\u002Fensemble model for 3D semantic segmentation, or distill your own model from scratch.\n\n### Evaluation for 3D Semantic Segmentation with a Pre-defined Labelsets\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fpengsongyou_openscene_readme_f9eff38c5f34.jpg\" width=\"80%\" \u002F>\n\u003C\u002Fp>\n\nHere you can evaluate OpenScene features on different dataset (ScanNet\u002FMatterport3D\u002FnuScenes\u002FReplica) that have pre-defined labelsets.\nWe already include the following labelsets in [label_constants.py](dataset\u002Flabel_constants.py):\n- ScanNet 20 classes (`wall`, `door`, `chair`, ...)\n- Matterport3D 21 classes (ScanNet 20 classes + `floor`)\n- Matterport top 40, 80, 160 NYU classes (more rare object classes)\n- nuScenes 16 classes (`road`, `bicycle`, `sidewalk`, ...)\n\nThe general command to run evaluation:\n```bash\nsh run\u002Feval.sh EXP_DIR CONFIG.yaml feature_type\n```\nwhere you specify your experiment directory `EXP_DIR`, and replace `CONFIG.yaml` with the correct config file under [`config\u002F`](.\u002Fconfig\u002F). **`feature_type`** corresponds to per-point OpenScene features:\n- `fusion`: The 2D multi-view fused features\n- `distill`: features from 3D distilled model \n- `ensemble`: Our 2D-3D ensemble features\n\nTo evaluate with `distill` and `ensemble`, the easiest way is to use a pre-trained 3D distilled model. You can do this by using one of the config files with postfix `_pretrained`. \n\nFor example, to evaluate the semantic segmentation on Replica, you can simply run:\n```bash\n# 2D-3D ensemble\nsh run\u002Feval.sh out\u002Freplica_openseg config\u002Freplica\u002Fours_openseg_pretrained.yaml ensemble\n\n# Run 3D distilled model\nsh run\u002Feval.sh out\u002Freplica_openseg config\u002Freplica\u002Fours_openseg_pretrained.yaml distill\n\n# Evaluate with 2D fused features\nsh run\u002Feval.sh out\u002Freplica_openseg config\u002Freplica\u002Fours_openseg_pretrained.yaml fusion\n```\nThe script will automatically download the pretrained 3D model and run the evaluation for Matterport 21 classes.\nYou can find all outputs in the `out\u002Freplica_openseg`.\n\nFor evaluation options, see under `TEST` inside `config\u002Freplica\u002Fours_openseg_pretrained.yaml`. Below are important evaluation options that you might want to modify:\n- `labelset` (default: None, `scannet`| `matterport` | `matterport40`| `matterport80`|`matterport160`): Evaluate on a specific pre-defined labelset in [label_constants.py](.\u002Fdataset\u002Flabel_constants.py). If not specified, same as your 3D point cloud folder name\n- `eval_iou` (default: True): whether evaluating the mIoU. Set to `False` if there is no GT labels\n- `save_feature_as_numpy` (default: False): save the per-point features as `.npy`\n- `prompt_eng` (default: True): input class name X -> \"a X in a scene\"\n- `vis_gt` (default: True):  visualize point clouds with GT semantic labels\n- `vis_pred` (default: True): visualize point clouds with our predicted semantic labels\n- `vis_input` (default: True): visualize input point clouds\n\nIf you want to use a 3D model distilled from scratch, specify the `model_path` to the correponding checkpoints `EXP\u002Fmodel\u002Fmodel_best.pth.tar`.\n\n\n### Distillation\nFinally, if you want to distill a new 3D model from scratch, run:\n\n- Start distilling:\n```sh run\u002Fdistill.sh EXP_NAME CONFIG.yaml```\n\n- Resume: \n```sh run\u002Fresume_distill.sh EXP_NAME CONFIG.yaml```\n\nFor available distillation options, please take a look at `DISTILL` inside `config\u002Fmatterport\u002Fours_openseg.yaml`\n\n\n### Using Your Own Datasets\n1. Follow the [data preprocessing instruction](.\u002Fscripts\u002Fpreprocess\u002FREADME.md), modify codes accordingly to obtain the processed 2D&3D data\n2. Follow the [feature fusion instruction](.\u002Fscripts\u002Ffeature_fusion\u002FREADME.md), modify codes to obtain multi-view fused features.\n3. You can distill a model on your own, or take our provided 3D distilled model weights (e.g. our 3D model for ScanNet or Matterport3D), and modify the `model_path` accordingly.\n4. If you want to evaluate on a specific labelset, change the `labelset` in config.\n\n\n## Applications\nBesides the zero-shot 3D semantic segmentation, we can perform also the following tasks:\n- **Open-vocabulary 3D scene understanding and exploration**: query a 3D scene to understand properties that extend beyond fixed category labels, e.g. materials, activity, affordances, room type, abstract concepts...\n- **Rare object search**: query a 3D scene database to find rare examples based on their names\n- **Image-based 3D object detection**: query a 3D scene database to retrieve examples based on similarities to a given input image\n\n## Acknowledgement\nWe sincerely thank Golnaz Ghiasi for providing guidance on using OpenSeg model. Our appreciation extends to Huizhong Chen, Yin Cui, Tom Duerig, Dan Gnanapragasam, Xiuye Gu, Leonidas Guibas, Nilesh Kulkarni, Abhijit Kundu, Hao-Ning Wu, Louis Yang, Guandao Yang, Xiaoshuai Zhang, Howard Zhou, and Zihan Zhu for helpful discussion. We are also grateful to Charles R. Qi and Paul-Edouard Sarlin for their proofreading.\n\nWe build some parts of our code on top of the [BPNet repository](https:\u002F\u002Fgithub.com\u002Fwbhu\u002FBPNet).\n\n\n## TODO\n- [ ] Support demo for arbitrary scenes\n- [ ] Support in-webiste demo\n- [x] Support multi-view feature fusion with LSeg\n- [x] Add missing multi-view fusion LSeg feature for Matterport & nuScenes\n- [x] Add missing multi-view fusion OpenSeg feature for nuScenes\n- [x] Multi-view feature fusion code for nuScenes\n- [ ] Support the latest PyTorch version\n\nWe are very much welcome all kinds of contributions to the project.\n\n## Citation\nIf you find our code or paper useful, please cite\n```bibtex\n@inproceedings{Peng2023OpenScene,\n  title     = {OpenScene: 3D Scene Understanding with Open Vocabularies},\n  author    = {Peng, Songyou and Genova, Kyle and Jiang, Chiyu \"Max\" and Tagliasacchi, Andrea and Pollefeys, Marc and Funkhouser, Thomas},\n  booktitle = {Proceedings of the IEEE\u002FCVF Conference on Computer Vision and Pattern Recognition (CVPR)},\n  year      = {2023}\n```\n","\u003C!-- 项目Logo -->\n\n\u003Cp align=\"center\">\n\n  \u003Ch1 align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fpengsongyou_openscene_readme_470db2150f1c.png\" width=\"40\">OpenScene：基于开放词汇表的3D场景理解\u003C\u002Fh1>\n  \u003Cp align=\"center\">\n    \u003Ca href=\"https:\u002F\u002Fpengsongyou.github.io\">\u003Cstrong>彭松友\u003C\u002Fstrong>\u003C\u002Fa>\n    ·\n    \u003Ca href=\"https:\u002F\u002Fwww.kylegenova.com\u002F\">\u003Cstrong>凯尔·杰诺瓦\u003C\u002Fstrong>\u003C\u002Fa>\n    ·\n    \u003Ca href=\"https:\u002F\u002Fwww.maxjiang.ml\u002F\">\u003Cstrong>蒋驰宇（“Max”）\u003C\u002Fstrong>\u003C\u002Fa>\n    ·\n    \u003Ca href=\"https:\u002F\u002Ftaiya.github.io\u002F\">\u003Cstrong>安德烈亚·塔利亚萨基\u003C\u002Fstrong>\u003C\u002Fa>\n    \u003Cbr>\n    \u003Ca href=\"https:\u002F\u002Fpeople.inf.ethz.ch\u002Fpomarc\u002F\">\u003Cstrong>马克·波勒费伊斯\u003C\u002Fstrong>\u003C\u002Fa>\n    ·\n    \u003Ca href=\"https:\u002F\u002Fwww.cs.princeton.edu\u002F~funk\u002F\">\u003Cstrong>托马斯·芬克豪瑟\u003C\u002Fstrong>\u003C\u002Fa>\n  \u003C\u002Fp>\n  \u003Ch2 align=\"center\">CVPR 2023\u003C\u002Fh2>\n  \u003Ch3 align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.15654\">论文\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fyoutu.be\u002FjZxCLHyDJf8\">视频\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fpengsongyou.github.io\u002Fopenscene\">项目主页\u003C\u002Fa>\u003C\u002Fh3>\n  \u003Cdiv align=\"center\">\u003C\u002Fdiv>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n  \u003Ca href=\"\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fpengsongyou_openscene_readme_9ade16638b8e.jpg\" alt=\"Logo\" width=\"100%\">\n  \u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n\u003Cstrong>OpenScene\u003C\u002Fstrong> 是一种零样本方法，能够使用开放词汇查询执行一系列新颖的3D场景理解任务。\n\u003C\u002Fp>\n\u003Cbr>\n\n\u003C!-- 目录 -->\n\u003Cdetails open=\"open\" style='padding: 10px; border-radius:5px 30px 30px 5px; border-style: solid; border-width: 1px;'>\n  \u003Csummary>目录\u003C\u002Fsummary>\n  \u003Col>\n    \u003Cli>\n      \u003Ca href=\"#interactive-demo\">交互式演示\u003C\u002Fa>\n    \u003C\u002Fli>\n    \u003Cli>\n      \u003Ca href=\"#installation\">安装\u003C\u002Fa>\n    \u003C\u002Fli>\n    \u003Cli>\n      \u003Ca href=\"#data-preparation\">数据准备\u003C\u002Fa>\n    \u003C\u002Fli>\n    \u003Cli>\n      \u003Ca href=\"#run\">运行\u003C\u002Fa>\n    \u003C\u002Fli>\n    \u003Cli>\n      \u003Ca href=\"#applications\">应用\u003C\u002Fa>\n    \u003C\u002Fli>\n    \u003Cli>\n      \u003Ca href=\"#todo\">待办事项\u003C\u002Fa>\n    \u003C\u002Fli>\n    \u003Cli>\n      \u003Ca href=\"#acknowledgement\">致谢\u003C\u002Fa>\n    \u003C\u002Fli>\n    \u003Cli>\n      \u003Ca href=\"#citation\">引用\u003C\u002Fa>\n    \u003C\u002Fli>\n  \u003C\u002Fol>\n\u003C\u002Fdetails>\n\n## 新闻 :triangular_flag_on_post:\n\n- [2023\u002F10\u002F27] 添加了LSeg逐像素特征提取和多视角融合的代码。请查看[此仓库](https:\u002F\u002Fgithub.com\u002Fpengsongyou\u002Flseg_feature_extraction)。\n- [2023\u002F03\u002F31] 代码已发布。\n\n## 交互式演示\n### 无需GPU！请按照**[这篇说明](.\u002Fdemo)**自行设置并体验实时演示。\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fpengsongyou_openscene_readme_fb1c5234dba9.gif\" width=\"75%\" \u002F>\n\u003C\u002Fp>\n\n\n在这里，我们展示了一个**实时**、**交互式**、**开放词汇**的场景理解工具。用户可以输入任意查询短语，例如**`史努比`**（稀有物体）、**`柔软的地方`**（属性）、**`由金属制成`**（材料）、**`哪里可以做饭？`**（活动）、**`喜庆的`**（抽象概念）等，相应的区域就会被高亮显示。\n\n\n## 安装\n请按照[installation.md](installation.md)中的说明安装所有必需的软件包，以便后续进行评估和蒸馏。\n\n## 数据准备\n\n我们为以下数据集提供了**预处理过的3D和2D数据**以及**多视角融合特征**：\n- ScanNet\n- Matterport3D\n- nuScenes\n- Replica\n### 预处理过的3D和2D数据\n您可以自行对数据集进行预处理，具体请参阅[数据预处理说明](scripts\u002Fpreprocess\u002FREADME.md)。\n\n\n或者，我们已经提供了预处理好的数据集。您可以通过运行以下脚本下载预处理数据，并按照命令行提示完成相应数据集的下载：\n```bash\nbash scripts\u002Fdownload_dataset.sh\n```\n该脚本会将数据下载并解压到`data\u002F`文件夹中。您也可以将数据下载到其他位置，但需要通过符号链接将其指向对应的文件夹：\n```bash\nln -s \u002FPATH\u002FTO\u002FDOWNLOADED\u002FFOLDER data\n```\n\u003Cdetails>\n  \u003Csummary>\u003Cstrong>提供的预处理数据列表\u003C\u002Fstrong>（点击展开）：\u003C\u002Fsummary>\n  \n  - ScanNet 3D（带有GT语义标签的点云）\n  - ScanNet 2D（带有相机位姿的RGB-D图像）\n  - Matterport 3D（带有GT语义标签的点云）\n  - Matterport 2D（带有相机位姿的RGB-D图像）\n  - nuScenes 3D（带有GT语义标签的激光雷达点云）\n  - nuScenes 2D（带有相机位姿的RGB图像）\n  - Replica 3D（点云）\n  - Replica 2D（RGB-D图像）\n  - Matterport 3D（包含前40类NYU标签）\n  - Matterport 3D（包含前80类NYU标签）\n  - Matterport 3D（包含前160类NYU标签）\n\u003C\u002Fdetails>\n\n**注意**：2D预处理数据集（如`scannet_2d`）仅在您希望自行进行多视角特征融合时才需要。如果是这样，请按照[多视角融合说明](.\u002Fscripts\u002Ffeature_fusion\u002FREADME.md)操作。\n\n### 多视角融合特征\n要评估我们的OpenScene模型或蒸馏一个3D模型，您需要为每个3D点获取多视角融合后的图像特征（详见论文第3.1节的方法）。\n\n您可以直接运行以下命令下载提供的融合特征：\n\n```bash\nbash scripts\u002Fdownload_fused_features.sh\n```\n\u003Cdetails>\n  \u003Csummary>\u003Cstrong>提供的融合特征列表\u003C\u002Fstrong>（点击展开）：\u003C\u002Fsummary>\n  \n  - ScanNet - 多视角融合的OpenSeg特征，训练\u002F验证集（234.8G）\n  - ScanNet - 多视角融合的LSeg特征，训练\u002F验证集（175.8G）\n  - Matterport - 多视角融合的OpenSeg特征，训练\u002F验证集（198.3G）\n  - Matterport - 多视角融合的OpenSeg特征，测试集（66.7G）\n  - Replica - 多视角融合的OpenSeg特征（9.0G）\n  - Matterport - 多视角融合的LSeg特征（即将提供）\n  - nuScenes - 多视角融合的OpenSeg特征（即将提供）\n  - nuScenes - 多视角融合的LSeg特征（即将提供）\n\u003C\u002Fdetails>\n\n\n或者，您也可以按照[说明](.\u002Fscripts\u002Ffeature_fusion\u002FREADME.md)自行生成多视角特征。\n\n\n## 运行\n当您完成环境安装，并获得了**预处理过的3D数据**和**多视角融合特征**后，就可以运行我们经过蒸馏或集成的OpenScene模型来进行3D语义分割，或者从头开始蒸馏您自己的模型了。\n\n### 基于预定义标签集的3D语义分割评估\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fpengsongyou_openscene_readme_f9eff38c5f34.jpg\" width=\"80%\" \u002F>\n\u003C\u002Fp>\n\n在这里，您可以在具有预定义标签集的不同数据集（ScanNet\u002FMatterport3D\u002FnuScenes\u002FReplica）上评估OpenScene的功能。我们已经在[**label_constants.py**](dataset\u002Flabel_constants.py)中包含了以下标签集：\n- ScanNet 20类（`wall`、`door`、`chair`等）\n- Matterport3D 21类（ScanNet 20类 + `floor`）\n- Matterport前40、80、160个NYU类别（包含更多稀有物体类别）\n- nuScenes 16类（`road`、`bicycle`、`sidewalk`等）\n\n运行评估的一般命令如下：\n```bash\nsh run\u002Feval.sh EXP_DIR CONFIG.yaml feature_type\n```\n其中，您需要指定实验目录`EXP_DIR`，并将`CONFIG.yaml`替换为[`config\u002F`](.\u002Fconfig\u002F)目录下的正确配置文件。**`feature_type`** 对应于逐点的OpenScene特征：\n- `fusion`：2D多视角融合特征\n- `distill`：来自3D蒸馏模型的特征\n- `ensemble`：我们的2D-3D集成特征\n\n要使用`distill`和`ensemble`进行评估，最简单的方法是使用预先训练好的3D蒸馏模型。您可以选择带有后缀 `_pretrained` 的配置文件来实现这一点。\n\n例如，要在Replica数据集上评估语义分割，您可以直接运行：\n```bash\n# 2D-3D集成\nsh run\u002Feval.sh out\u002Freplica_openseg config\u002Freplica\u002Fours_openseg_pretrained.yaml ensemble\n\n# 运行3D蒸馏模型\nsh run\u002Feval.sh out\u002Freplica_openseg config\u002Freplica\u002Fours_openseg_pretrained.yaml distill\n\n# 使用2D融合特征进行评估\nsh run\u002Feval.sh out\u002Freplica_openseg config\u002Freplica\u002Fours_openseg_pretrained.yaml fusion\n```\n脚本会自动下载预训练的3D模型，并针对Matterport的21个类别运行评估。所有输出结果都将保存在`out\u002Freplica_openseg`目录中。\n\n有关评估选项，请参阅`config\u002Freplica\u002Fours_openseg_pretrained.yaml`文件中的`TEST`部分。以下是一些您可能希望修改的重要评估选项：\n- `labelset`（默认：无，可选值：`scannet`、`matterport`、`matterport40`、`matterport80`、`matterport160`）：在[**label_constants.py**](.\u002Fdataset\u002Flabel_constants.py)中指定的特定预定义标签集上进行评估。若未指定，则默认与您的3D点云文件夹名称相同。\n- `eval_iou`（默认：True）：是否计算mIoU指标。如果没有GT标签，请将其设置为`False`。\n- `save_feature_as_numpy`（默认：False）：将逐点特征保存为`.npy`格式。\n- `prompt_eng`（默认：True）：输入类别名X -> “场景中的一个X”。\n- `vis_gt`（默认：True）：可视化带有GT语义标签的点云。\n- `vis_pred`（默认：True）：可视化带有我们预测的语义标签的点云。\n- `vis_input`（默认：True）：可视化输入点云。\n\n如果您想从头开始蒸馏一个新的3D模型，请将`model_path`指定为相应的检查点文件`EXP\u002Fmodel\u002Fmodel_best.pth.tar`。\n\n### 蒸馏\n最后，如果您想从零开始蒸馏一个新的3D模型，请执行以下操作：\n\n- 开始蒸馏：\n```sh run\u002Fdistill.sh EXP_NAME CONFIG.yaml```\n\n- 继续蒸馏：\n```sh run\u002Fresume_distill.sh EXP_NAME CONFIG.yaml```\n\n有关可用的蒸馏选项，请查看`config\u002Fmatterport\u002Fours_openseg.yaml`文件中的`DISTILL`部分。\n\n### 使用您自己的数据集\n1. 按照[数据预处理说明](.\u002Fscripts\u002Fpreprocess\u002FREADME.md)，相应地修改代码以获取处理后的2D和3D数据。\n2. 按照[特征融合说明](.\u002Fscripts\u002Ffeature_fusion\u002FREADME.md)，修改代码以获得多视角融合特征。\n3. 您可以自行蒸馏模型，或者使用我们提供的3D蒸馏模型权重（例如，我们为ScanNet或Matterport3D训练的模型），并相应地修改`model_path`。\n4. 如果您想在特定标签集上进行评估，请在配置文件中更改`labelset`。\n\n## 应用\n除了零样本3D语义分割之外，我们还可以执行以下任务：\n- **开放词汇的3D场景理解与探索**：查询3D场景以了解超出固定类别标签的属性，例如材料、活动、可供性、房间类型、抽象概念等。\n- **稀有物体搜索**：根据名称查询3D场景数据库，查找稀有示例。\n- **基于图像的3D目标检测**：根据与给定输入图像的相似性，从3D场景数据库中检索示例。\n\n## 致谢\n我们衷心感谢Golnaz Ghiasi在使用OpenSeg模型方面提供的指导。同时，我们也感谢Huizhong Chen、Yin Cui、Tom Duerig、Dan Gnanapragasam、Xiuye Gu、Leonidas Guibas、Nilesh Kulkarni、Abhijit Kundu、Hao-Ning Wu、Louis Yang、Guandao Yang、Xiaoshuai Zhang、Howard Zhou以及Zihan Zhu的有益讨论。此外，我们还感谢Charles R. Qi和Paul-Edouard Sarlin的校对工作。\n\n我们的部分代码是在[BPNet仓库](https:\u002F\u002Fgithub.com\u002Fwbhu\u002FBPNet)的基础上构建的。\n\n## 待办事项\n- [ ] 支持任意场景的演示\n- [ ] 支持在线网站演示\n- [x] 支持与LSeg的多视角特征融合\n- [x] 为Matterport和nuScenes添加缺失的多视角融合LSeg特征\n- [x] 为nuScenes添加缺失的多视角融合OpenSeg特征\n- [x] 为nuScenes编写多视角特征融合代码\n- [ ] 支持最新的PyTorch版本\n\n我们非常欢迎各种形式的项目贡献。\n\n## 引用\n如果您觉得我们的代码或论文有用，请引用以下内容：\n```bibtex\n@inproceedings{Peng2023OpenScene,\n  title     = {OpenScene: 3D Scene Understanding with Open Vocabularies},\n  author    = {Peng, Songyou and Genova, Kyle and Jiang, Chiyu \"Max\" and Tagliasacchi, Andrea and Pollefeys, Marc and Funkhouser, Thomas},\n  booktitle = {Proceedings of the IEEE\u002FCVF Conference on Computer Vision and Pattern Recognition (CVPR)},\n  year      = {2023}\n}\n```","# OpenScene 快速上手指南\n\nOpenScene 是一个基于零样本（Zero-shot）学习的 3D 场景理解工具，支持使用开放词汇（Open Vocabularies）对 3D 场景进行查询和理解。用户可以输入任意文本（如物体名称、材质、属性甚至抽象概念），系统即可高亮显示对应的 3D 区域。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 18.04\u002F20.04)\n*   **Python**: 3.8+\n*   **GPU**: 支持 CUDA 的 NVIDIA 显卡（用于模型训练和推理；交互式 Demo 可在无 GPU 环境下运行）\n*   **依赖管理**: 建议使用 `conda` 创建独立虚拟环境\n\n> **注意**：具体的 Python 包依赖列表请参考项目根目录下的 `installation.md` 文件。国内用户若遇到 pip 下载缓慢问题，建议临时切换至清华或阿里镜像源：\n> ```bash\n> pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n## 安装步骤\n\n### 1. 克隆代码库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fpengsongyou\u002Fopenscene.git\ncd openscene\n```\n\n### 2. 安装依赖\n请严格按照官方提供的 `installation.md` 文档安装所有必要的软件包，以便后续进行评估和蒸馏操作。\n```bash\n# 具体命令请参阅 installation.md，通常包含 torch, torchvision 等核心库的安装\n```\n\n### 3. 数据准备\nOpenScene 需要预处理好的 3D\u002F2D 数据以及多视图融合特征。您可以选择自动下载或使用符号链接指向已有数据。\n\n**自动下载预处理数据集：**\n运行以下脚本，根据命令行提示下载所需数据集（支持 ScanNet, Matterport3D, nuScenes, Replica）。\n```bash\nbash scripts\u002Fdownload_dataset.sh\n```\n数据将默认解压至 `data\u002F` 文件夹。若需自定义路径，可建立软链接：\n```bash\nln -s \u002FPATH\u002FTO\u002FYOUR\u002FDATA data\n```\n\n**下载多视图融合特征（必需）：**\n为了直接运行评估或使用预训练模型，需要下载预先计算好的多视图融合特征。\n```bash\nbash scripts\u002Fdownload_fused_features.sh\n```\n*注：特征文件较大（如 ScanNet OpenSeg 特征约 235GB），请确保磁盘空间充足。*\n\n## 基本使用\n\n完成环境和数据准备后，您可以直接使用预训练模型进行 3D 语义分割评估，或尝试开放词汇查询。\n\n### 场景一：运行预训练模型评估\n以下命令以 **Replica** 数据集为例，分别测试“集成模型（Ensemble）”、“蒸馏模型（Distill）”和\"2D 融合特征（Fusion）”的效果。\n\n**1. 测试 2D-3D 集成模型 (推荐，效果最佳)**\n```bash\nsh run\u002Feval.sh out\u002Freplica_openseg config\u002Freplica\u002Fours_openseg_pretrained.yaml ensemble\n```\n\n**2. 测试 3D 蒸馏模型**\n```bash\nsh run\u002Feval.sh out\u002Freplica_openseg config\u002Freplica\u002Fours_openseg_pretrained.yaml distill\n```\n\n**3. 仅测试 2D 融合特征**\n```bash\nsh run\u002Feval.sh out\u002Freplica_openseg config\u002Freplica\u002Fours_openseg_pretrained.yaml fusion\n```\n\n*执行后，结果和可视化点云将保存在 `out\u002Freplica_openseg` 目录下。*\n\n**配置说明：**\n您可以在 `config\u002Freplica\u002Fours_openseg_pretrained.yaml` 的 `TEST` 部分修改以下参数：\n*   `labelset`: 指定评估标签集 (如 `scannet`, `matterport`, `matterport40` 等)。\n*   `prompt_eng`: 是否启用提示词工程 (默认 True，将类别名转换为 \"a X in a scene\")。\n*   `vis_pred`: 是否可视化预测结果的点云。\n\n### 场景二：开放词汇场景探索\nOpenScene 的核心优势在于无需重新训练即可识别新类别。虽然命令行主要用于基准测试，但您可以修改配置文件中的 `labelset` 或直接利用生成的特征进行自定义查询。\n\n支持的查询类型示例：\n*   **稀有物体**: `snoopy`\n*   **属性**: `somewhere soft` (柔软的地方)\n*   **材质**: `made of metal` (金属制成)\n*   **活动**: `where can I cook?` (哪里可以做饭)\n*   **抽象概念**: `festive` (节日气氛)\n\n> **提示**：若想体验实时交互演示（无需本地 GPU），请参考项目目录下的 `.\u002Fdemo` 文件夹说明搭建 Web Demo。\n\n### 进阶：从头蒸馏模型\n如果您希望在自定义数据上训练，可使用以下命令启动蒸馏过程：\n```bash\n# 开始蒸馏\nsh run\u002Fdistill.sh EXP_NAME CONFIG.yaml\n\n# 中断后恢复训练\nsh run\u002Fresume_distill.sh EXP_NAME CONFIG.yaml\n```","某智能家居机器人开发团队正在构建一款能理解复杂指令的家庭服务机器人，需要让机器人在未知的 3D 家庭环境中精准定位用户口语化描述的物品或区域。\n\n### 没有 openscene 时\n- **词汇受限严重**：机器人只能识别训练集中预定义的几个固定类别（如“椅子”、“桌子”），一旦用户说“找一下那个史努比玩偶”或“哪里可以做饭”，系统直接无法响应。\n- **开发成本高昂**：每增加一个新概念（如“金属材质”或“节日装饰”），都需要重新收集大量 3D 标注数据并重新训练模型，迭代周期长达数周。\n- **抽象概念盲区**：完全无法理解“柔软的地方”或“适合阅读的区域”等涉及属性、功能或抽象语义的查询，导致交互体验生硬且机械。\n- **泛化能力差**：遇到未见过的物体形状或罕见物品时，系统往往给出错误分类或直接忽略，难以适应真实家庭环境的多样性。\n\n### 使用 openscene 后\n- **开放词汇查询**：利用零样本（Zero-shot）能力，机器人能直接理解“史努比”、“金属制”甚至“哪里能烹饪”等任意自然语言短语，并高亮显示对应的 3D 空间区域。\n- **无需重新训练**：引入新概念时无需采集新数据或微调模型，直接通过文本提示词即可扩展机器人的认知边界，新功能上线缩短至分钟级。\n- **深层语义理解**：不仅能识别具体物体，还能基于材质、功能和抽象概念（如“喜庆的氛围”）进行推理，精准定位符合描述的复杂场景区域。\n- **强大的泛化性**：面对从未见过的罕见物体或新颖布局，依然能凭借开放的语义空间做出准确判断，显著提升了在未知环境中的适应性。\n\nopenscene 通过将 3D 几何信息与开放词汇语义对齐，彻底打破了传统 3D 感知对固定类别的依赖，让机器人真正具备了像人一样“听懂话、看懂图”的通用场景理解能力。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fpengsongyou_openscene_9ade1663.jpg","pengsongyou","Songyou Peng","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fpengsongyou_e137d632.jpg","Research Scientist at Google DeepMind","Google DeepMind","San Francisco",null,"songyoupeng","pengsongyou.github.io","https:\u002F\u002Fgithub.com\u002Fpengsongyou",[86,90],{"name":87,"color":88,"percentage":89},"Python","#3572A5",96.2,{"name":91,"color":92,"percentage":93},"Shell","#89e051",3.8,810,67,"2026-04-04T14:02:02","Apache-2.0",4,"未说明","评估演示无需 GPU；但进行模型蒸馏 (Distillation) 或特征融合需 NVIDIA GPU（具体型号和显存未说明，因涉及大型 3D 点云和多视图特征处理，建议高性能显卡）","未说明（注意：提供的预融合特征文件极大，ScanNet 数据集可达 234.8GB，需充足存储空间）",{"notes":103,"python":99,"dependencies":104},"1. 交互式演示模式无需 GPU。2. 核心功能依赖预处理的 3D\u002F2D 数据及多视图融合特征，官方提供的大规模特征文件下载量巨大（单个数据集可达数百 GB），需确保磁盘空间充足。3. 详细的环境安装步骤（包括 PyTorch 版本等具体依赖）需查阅项目中的 installation.md 文件，README 中未直接列出。4. 支持 ScanNet, Matterport3D, nuScenes, Replica 等数据集。",[105],"未说明 (参考 installation.md)",[13,53,54,26,14],[108,109,110,111,112,113,114,115,116,117],"3d-scene-understanding","clip","semantic-segmentation","llm","cvpr2023","point-cloud-segmentation","point-clouds","scannet","matterport3d","nuscenes","2026-03-27T02:49:30.150509","2026-04-06T05:37:56.949916",[121,126,131,136,141,146],{"id":122,"question_zh":123,"answer_zh":124,"source_url":125},15796,"为什么使用提供的检查点评估 nuScenes 数据集时，mIoU 只有 29%，而论文中声称是 42%？","这通常是因为使用了错误的预处理数据或特征文件。维护者已更新并修复了 nuScenes 的 3D LiDAR 点云数据和多视图融合的 OpenSeg 特征。请重新运行以下脚本下载最新的数据和特征：\n1. 下载融合特征：https:\u002F\u002Fgithub.com\u002Fpengsongyou\u002Fopenscene\u002Fblob\u002Fmain\u002Fscripts\u002Fdownload_fused_features.sh\n2. 下载修正后的 3D 数据集：https:\u002F\u002Fgithub.com\u002Fpengsongyou\u002Fopenscene\u002Fblob\u002Fmain\u002Fscripts\u002Fdownload_dataset.sh\n使用这些更新后的文件后，应该能够复现论文中的结果（约 42% mIoU）。","https:\u002F\u002Fgithub.com\u002Fpengsongyou\u002Fopenscene\u002Fissues\u002F2",{"id":127,"question_zh":128,"answer_zh":129,"source_url":130},15797,"nuScenes 数据集中提到的 'scene.ply' 文件是如何生成的？原始数据集中没有这个文件。","'scene.ply' 文件是经过预处理的 3D 点云数据。由于原始的预处理管道依赖内部 Google 数据格式且未开源，维护者直接提供了处理好的文件供下载。\n- 对于验证集（val），可以直接从项目提供的下载链接获取。\n- 对于训练集（train），维护者已将其添加到 `nuscenes_3d_train.zip` 中。\n请查看并运行此脚本以下载包含训练集和验证集的完整预处理数据：https:\u002F\u002Fgithub.com\u002Fpengsongyou\u002Fopenscene\u002Fblob\u002Fmain\u002Fscripts\u002Fdownload_dataset.sh","https:\u002F\u002Fgithub.com\u002Fpengsongyou\u002Fopenscene\u002Fissues\u002F16",{"id":132,"question_zh":133,"answer_zh":134,"source_url":135},15798,"在 nuScenes 训练中，参数 `num_rand_file_per_scene=5` 是什么意思？是否意味着每个场景只使用 5 个对象？","不是只使用 5 个对象。这个参数仅用于训练阶段的数据采样策略：\n1. **训练时**：为了节省内存和加快训练，代码会从整个场景的点云中随机采样生成 5 个分块文件（chunk files），每次训练迭代使用其中一个。\n2. **评估\u002F测试时**：会使用场景中的所有点（例如 200K 个点），不进行随机采样分割。\n如果您想使用整个场景的特征进行评估，无需手动合并这 5 个文件，评估代码会自动加载场景下的所有点数据。采样逻辑可参考代码：https:\u002F\u002Fgithub.com\u002Fpengsongyou\u002Fopenscene\u002Fblob\u002Fmain\u002Fscripts\u002Ffeature_fusion\u002Ffusion_util.py#L79","https:\u002F\u002Fgithub.com\u002Fpengsongyou\u002Fopenscene\u002Fissues\u002F61",{"id":137,"question_zh":138,"answer_zh":139,"source_url":140},15799,"在 nuScenes 上进行多视图融合时，输入点云和图像帧的具体配置是什么？","为了获得最佳效果，输入配置如下：\n1. **点云输入**：应包含整个 0.5 秒序列的所有点云（通常包括 1 个带标注的关键帧和 4 个未标注的相邻扫描帧\u002Fsweeps）。\n2. **监督信号**：虽然输入了多帧点云，但语义标注和监督损失仅应用于最后一个时间戳（关键帧）的点。\n3. **图像融合**：特征融合仅使用与最后一个时间戳同步的图像及其对应的 LiDAR 点。\n这种设置利用了邻近帧的信息来增强特征表示，但只在最后一帧上进行评估。","https:\u002F\u002Fgithub.com\u002Fpengsongyou\u002Fopenscene\u002Fissues\u002F23",{"id":142,"question_zh":143,"answer_zh":144,"source_url":145},15800,"如果想将 2D 特征提取器替换为 OV-Seg 或其他模型，应该如何提取每像素特征？","OpenScene 需要分辨率为 [240, 320] 的每像素特征图。\n1. **特征来源**：通常使用骨干网络（backbone）输出的图像嵌入，或者经过头部（head）处理后的特征。\n2. **分辨率不匹配处理**：如果使用如 ViT 等输出特征分辨率较小的模型，需要通过上采样（upsampling）将特征图插值到目标分辨率 [240, 320]。\n3. **语言感知特征**：确保提取的特征层包含足够的语义信息以支持语言查询。具体实现需根据新模型的架构调整特征提取脚本来输出符合维度要求的张量。","https:\u002F\u002Fgithub.com\u002Fpengsongyou\u002Fopenscene\u002Fissues\u002F31",{"id":147,"question_zh":148,"answer_zh":149,"source_url":140},15801,"为什么仅使用 2D OpenSeg 特征在 nuScenes 验证集上的 mIoU 只有 32% 左右，而不是预期的 34%？","结果差异通常源于预处理脚本的细节或数据版本不同。\n1. **确认脚本**：确保使用的是项目提供的 `scripts\u002Ffeature_fusion\u002Fnuscenes_openseg.py` 脚本，并且正确加载了原始 nuScenes 数据。\n2. **数据一致性**：检查是否使用了与维护者相同的预处理点云和特征版本。维护者曾提到重新下载最新的融合特征和点云数据可以解决性能下降的问题。\n3. **多视图数量**：默认配置是每个扫描融合 6 张图像。尝试增加相邻帧的数量（如使用相邻 5 个 LiDAR 扫描对应的 30 张图像）可能会提升鲁棒性，但这需要修改预处理逻辑。",[]]