[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-QingyongHu--RandLA-Net":3,"tool-QingyongHu--RandLA-Net":64},[4,17,26,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,2,"2026-04-03T11:11:01",[13,14,15],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":23,"last_commit_at":32,"category_tags":33,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,34,35,36,15,37,38,13,39],"数据工具","视频","插件","其他","语言模型","音频",{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":10,"last_commit_at":46,"category_tags":47,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,38,37],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":10,"last_commit_at":54,"category_tags":55,"status":16},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",74939,"2026-04-05T23:16:38",[38,14,13,37],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":23,"last_commit_at":62,"category_tags":63,"status":16},2471,"tesseract","tesseract-ocr\u002Ftesseract","Tesseract 是一款历史悠久且备受推崇的开源光学字符识别（OCR）引擎，最初由惠普实验室开发，后由 Google 维护，目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据，有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题，是数字化归档和信息自动化的重要基础工具。\n\n在技术层面，Tesseract 展现了强大的适应能力。从版本 4 开始，它引入了基于长短期记忆网络（LSTM）的神经网络 OCR 引擎，显著提升了行识别的准确率；同时，为了兼顾旧有需求，它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码，开箱即用即可识别超过 100 种语言，并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面，它灵活支持纯文本、hOCR、PDF、TSV 等多种格式，方便后续数据处理。\n\nTesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库（libtesseract），不包含图形用户界面（GUI），因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中",73286,"2026-04-03T01:56:45",[13,14],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":80,"owner_email":81,"owner_twitter":82,"owner_website":83,"owner_url":84,"languages":85,"stars":94,"forks":95,"last_commit_at":96,"license":97,"difficulty_score":98,"env_os":99,"env_gpu":100,"env_ram":101,"env_deps":102,"category_tags":109,"github_topics":110,"view_count":23,"oss_zip_url":82,"oss_zip_packed_at":82,"status":16,"created_at":117,"updated_at":118,"faqs":119,"releases":155},2119,"QingyongHu\u002FRandLA-Net","RandLA-Net","🔥RandLA-Net in Tensorflow (CVPR 2020, Oral & IEEE TPAMI 2021)","RandLA-Net 是一款专为大规模 3D 点云数据设计的高效语义分割深度学习模型。在自动驾驶、智慧城市建模及机器人导航等领域，处理包含数百万甚至数十亿个点的大型 3D 场景时，传统方法往往面临计算资源消耗巨大、处理速度慢的难题。RandLA-Net 正是为了解决这一痛点而生，它能够在保持高精度的同时，显著提升对超大尺度点云的处理效率。\n\n该工具特别适合从事计算机视觉研究的研究人员、需要部署 3D 感知算法的开发者，以及关注空间智能应用的技术团队使用。其核心技术创新在于引入了“随机采样”策略与“局部特征聚合”模块。不同于以往依赖复杂且耗时的下采样方法，RandLA-Net 通过随机选取关键点，并利用轻量级的神经网络层层累积局部几何特征，从而以极低的计算成本捕捉到丰富的细节信息。作为 CVPR 2020 的口头报告论文成果，它在 Semantic3D 和 S3DIS 等权威数据集上均取得了领先的性能表现，并提供了基于 TensorFlow 的官方开源实现，方便用户快速复现结果或进行二次开发，是探索高效 3D 场景理解的有力工具。","[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002F191111236\u002Fsemantic-segmentation-on-semantic3d)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fsemantic-segmentation-on-semantic3d?p=191111236)\n[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002F191111236\u002F3d-semantic-segmentation-on-semantickitti)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002F3d-semantic-segmentation-on-semantickitti?p=191111236)\n[![License CC BY-NC-SA 4.0](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-CC4.0-blue.svg)](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002Flegalcode)\n\n# RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds (CVPR 2020)\n\nThis is the official implementation of **RandLA-Net** (CVPR2020, Oral presentation), a simple and efficient neural architecture for semantic segmentation of large-scale 3D point clouds. For technical details, please refer to:\n \n**RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds** \u003Cbr \u002F>\n[Qingyong Hu](https:\u002F\u002Fwww.cs.ox.ac.uk\u002Fpeople\u002Fqingyong.hu\u002F), [Bo Yang*](https:\u002F\u002Fyang7879.github.io\u002F), [Linhai Xie](https:\u002F\u002Fwww.cs.ox.ac.uk\u002Fpeople\u002Flinhai.xie\u002F), [Stefano Rosa](https:\u002F\u002Fwww.cs.ox.ac.uk\u002Fpeople\u002Fstefano.rosa\u002F), [Yulan Guo](http:\u002F\u002Fyulanguo.me\u002F), [Zhihua Wang](https:\u002F\u002Fwww.cs.ox.ac.uk\u002Fpeople\u002Fzhihua.wang\u002F), [Niki Trigoni](https:\u002F\u002Fwww.cs.ox.ac.uk\u002Fpeople\u002Fniki.trigoni\u002F), [Andrew Markham](https:\u002F\u002Fwww.cs.ox.ac.uk\u002Fpeople\u002Fandrew.markham\u002F). \u003Cbr \u002F>\n**[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1911.11236)] [[Video](https:\u002F\u002Fyoutu.be\u002FAr3eY_lwzMk)] [[Blog](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F105433460)] [[Project page](http:\u002F\u002Frandla-net.cs.ox.ac.uk\u002F)]** \u003Cbr \u002F>\n \n \n\u003Cp align=\"center\"> \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQingyongHu_RandLA-Net_readme_f3c887354bd3.png\" width=\"100%\"> \u003C\u002Fp>\n\n\n\t\n### (1) Setup\nThis code has been tested with Python 3.5, Tensorflow 1.11, CUDA 9.0 and cuDNN 7.4.1 on Ubuntu 16.04.\n \n- Clone the repository \n```\ngit clone --depth=1 https:\u002F\u002Fgithub.com\u002FQingyongHu\u002FRandLA-Net && cd RandLA-Net\n```\n- Setup python environment\n```\nconda create -n randlanet python=3.5\nsource activate randlanet\npip install -r helper_requirements.txt\nsh compile_op.sh\n```\n\n**Update 03\u002F21\u002F2020, pre-trained models and results are available now.** \nYou can download the pre-trained models and results [here](https:\u002F\u002Fdrive.google.com\u002Fopen?id=1iU8yviO3TP87-IexBXsu13g6NklwEkXB).\nNote that, please specify the model path in the main function (e.g., `main_S3DIS.py`) if you want to use the pre-trained model and have a quick try of our RandLA-Net.\n\n### (2) S3DIS\nS3DIS dataset can be found \n\u003Ca href=\"https:\u002F\u002Fdocs.google.com\u002Fforms\u002Fd\u002Fe\u002F1FAIpQLScDimvNMCGhy_rmBA2gHfDu3naktRm6A8BPwAWWDv-Uhm6Shw\u002Fviewform?c=0&w=1\">here\u003C\u002Fa>. \nDownload the files named \"Stanford3dDataset_v1.2_Aligned_Version.zip\". Uncompress the folder and move it to \n`\u002Fdata\u002FS3DIS`.\n\n- Preparing the dataset:\n```\npython utils\u002Fdata_prepare_s3dis.py\n```\n- Start 6-fold cross validation:\n```\nsh jobs_6_fold_cv_s3dis.sh\n```\n- Move all the generated results (*.ply) in `\u002Ftest` folder to `\u002Fdata\u002FS3DIS\u002Fresults`, calculate the final mean IoU results:\n```\npython utils\u002F6_fold_cv.py\n```\n\nQuantitative results of different approaches on S3DIS dataset (6-fold cross-validation):\n\n![a](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQingyongHu_RandLA-Net_readme_4360fa25761f.png)\n\nQualitative results of our RandLA-Net:\n\n| ![2](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQingyongHu_RandLA-Net_readme_fe43226bc589.gif)   | ![z](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQingyongHu_RandLA-Net_readme_637e1825f654.gif) |\n| ------------------------------ | ---------------------------- |\n\n\n\n### (3) Semantic3D\n7zip is required to uncompress the raw data in this dataset, to install p7zip:\n```\nsudo apt-get install p7zip-full\n```\n- Download and extract the dataset. First, please specify the path of the dataset by changing the `BASE_DIR` in \"download_semantic3d.sh\"    \n```\nsh utils\u002Fdownload_semantic3d.sh\n```\n- Preparing the dataset:\n```\npython utils\u002Fdata_prepare_semantic3d.py\n```\n- Start training:\n```\npython main_Semantic3D.py --mode train --gpu 0\n```\n- Evaluation:\n```\npython main_Semantic3D.py --mode test --gpu 0\n```\nQuantitative results of different approaches on Semantic3D (reduced-8):\n\n![a](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQingyongHu_RandLA-Net_readme_6ed955513b7a.png)\n\nQualitative results of our RandLA-Net:\n\n| ![z](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQingyongHu_RandLA-Net_readme_7839ab4b35ea.gif)    | ![z](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQingyongHu_RandLA-Net_readme_b99524485953.gif)   |\n| -------------------------------- | ------------------------------- |\n| ![z](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQingyongHu_RandLA-Net_readme_160ee0c8de86.gif)    | ![z](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQingyongHu_RandLA-Net_readme_02c3cf3adfe6.gif)   |\n\n\n\n**Note:** \n- Preferably with more than 64G RAM to process this dataset due to the large volume of point cloud\n\n\n### (4) SemanticKITTI\n\nSemanticKITTI dataset can be found \u003Ca href=\"http:\u002F\u002Fsemantic-kitti.org\u002Fdataset.html#download\">here\u003C\u002Fa>. Download the files\n related to semantic segmentation and extract everything into the same folder. Uncompress the folder and move it to \n`\u002Fdata\u002Fsemantic_kitti\u002Fdataset`.\n \n- Preparing the dataset:\n```\npython utils\u002Fdata_prepare_semantickitti.py\n```\n\n- Start training:\n```\npython main_SemanticKITTI.py --mode train --gpu 0\n```\n\n- Evaluation:\n```\nsh jobs_test_semantickitti.sh\n```\n\nQuantitative results of different approaches on SemanticKITTI dataset:\n\n![s](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQingyongHu_RandLA-Net_readme_8e1e6dc90c70.png)\n\nQualitative results of our RandLA-Net:\n\n![zzz](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQingyongHu_RandLA-Net_readme_e2eed80074eb.gif)    \n\n\n### (5) Demo\n\n\u003Cp align=\"center\"> \u003Ca href=\"https:\u002F\u002Fyoutu.be\u002FAr3eY_lwzMk\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQingyongHu_RandLA-Net_readme_e7b406c0b06b.png\" width=\"80%\">\u003C\u002Fa> \u003C\u002Fp>\n\n\n### Citation\nIf you find our work useful in your research, please consider citing:\n\n\t@article{hu2019randla,\n\t  title={RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds},\n\t  author={Hu, Qingyong and Yang, Bo and Xie, Linhai and Rosa, Stefano and Guo, Yulan and Wang, Zhihua and Trigoni, Niki and Markham, Andrew},\n\t  journal={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},\n\t  year={2020}\n\t}\n\t\n\t@article{hu2021learning,\n\t  title={Learning Semantic Segmentation of Large-Scale Point Clouds with Random Sampling},\n\t  author={Hu, Qingyong and Yang, Bo and Xie, Linhai and Rosa, Stefano and Guo, Yulan and Wang, Zhihua and Trigoni, Niki and Markham, Andrew},\n\t  journal={IEEE Transactions on Pattern Analysis and Machine Intelligence},\n\t  year={2021},\n\t  publisher={IEEE}\n\t}\n\n\n### Acknowledgment\n-  Part of our code refers to \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fjlblancoc\u002Fnanoflann\">nanoflann\u003C\u002Fa> library and the the recent work \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FHuguesTHOMAS\u002FKPConv\">KPConv\u003C\u002Fa>.\n-  We use \u003Ca href=\"https:\u002F\u002Fwww.blender.org\u002F\">blender\u003C\u002Fa> to make the video demo.\n\n\n### License\nLicensed under the CC BY-NC-SA 4.0 license, see [LICENSE](.\u002FLICENSE).\n\n\n### Updates\n* 21\u002F03\u002F2020: Updating all experimental results\n* 21\u002F03\u002F2020: Adding pretrained models and results\n* 02\u002F03\u002F2020: Code available!\n* 15\u002F11\u002F2019: Initial release！\n\n## Related Repos\n1. [SoTA-Point-Cloud: Deep Learning for 3D Point Clouds: A Survey](https:\u002F\u002Fgithub.com\u002FQingyongHu\u002FSoTA-Point-Cloud) ![GitHub stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FQingyongHu\u002FSoTA-Point-Cloud.svg?style=flat&label=Star)\n2. [SensatUrban: Learning Semantics from Urban-Scale Photogrammetric Point Clouds](https:\u002F\u002Fgithub.com\u002FQingyongHu\u002FSpinNet) ![GitHub stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FQingyongHu\u002FSensatUrban.svg?style=flat&label=Star)\n3. [3D-BoNet: Learning Object Bounding Boxes for 3D Instance Segmentation on Point Clouds](https:\u002F\u002Fgithub.com\u002FYang7879\u002F3D-BoNet) ![GitHub stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FYang7879\u002F3D-BoNet.svg?style=flat&label=Star)\n4. [SpinNet: Learning a General Surface Descriptor for 3D Point Cloud Registration](https:\u002F\u002Fgithub.com\u002FQingyongHu\u002FSpinNet) ![GitHub stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FQingyongHu\u002FSpinNet.svg?style=flat&label=Star)\n5. [SQN: Weakly-Supervised Semantic Segmentation of Large-Scale 3D Point Clouds with 1000x Fewer Labels](https:\u002F\u002Fgithub.com\u002FQingyongHu\u002FSQN) ![GitHub stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FQingyongHu\u002FSQN.svg?style=flat&label=Star)\n\n\n","[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002F191111236\u002Fsemantic-segmentation-on-semantic3d)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fsemantic-segmentation-on-semantic3d?p=191111236)\n[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002F191111236\u002F3d-semantic-segmentation-on-semantickitti)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002F3d-semantic-segmentation-on-semantickitti?p=191111236)\n[![License CC BY-NC-SA 4.0](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-CC4.0-blue.svg)](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002Flegalcode)\n\n# RandLA-Net: 大规模点云的高效语义分割（CVPR 2020）\n\n这是**RandLA-Net**（CVPR2020，口头报告）的官方实现，它是一种简单高效的神经网络架构，用于大规模3D点云的语义分割。有关技术细节，请参阅：\n\n**RandLA-Net：大规模点云的高效语义分割** \u003Cbr \u002F>\n胡庆勇（Qingyong Hu）\u003Csup>1\u003C\u002Fsup>, 杨博*（Bo Yang）\u003Csup>2\u003C\u002Fsup>, 谢林海（Linhai Xie）\u003Csup>3\u003C\u002Fsup>, 斯特凡诺·罗萨（Stefano Rosa）\u003Csup>4\u003C\u002Fsup>, 郭玉兰（Yulan Guo）\u003Csup>5\u003C\u002Fsup>, 王志华（Zhihua Wang）\u003Csup>6\u003C\u002Fsup>, 尼基·特里戈尼（Niki Trigoni）\u003Csup>7\u003C\u002Fsup>, 安德鲁·马卡姆（Andrew Markham）\u003Csup>8\u003C\u002Fsup>。\u003Cbr \u002F>\n**[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1911.11236)] [[视频](https:\u002F\u002Fyoutu.be\u002FAr3eY_lwzMk)] [[博客](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F105433460)] [[项目页面](http:\u002F\u002Frandla-net.cs.ox.ac.uk\u002F)]** \u003Cbr \u002F>\n\n\n\u003Cp align=\"center\"> \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQingyongHu_RandLA-Net_readme_f3c887354bd3.png\" width=\"100%\"> \u003C\u002Fp>\n\n\n\t\n### (1) 环境搭建\n该代码已在Ubuntu 16.04系统上使用Python 3.5、TensorFlow 1.11、CUDA 9.0和cuDNN 7.4.1进行了测试。\n \n- 克隆仓库\n```\ngit clone --depth=1 https:\u002F\u002Fgithub.com\u002FQingyongHu\u002FRandLA-Net && cd RandLA-Net\n```\n- 搭建Python环境\n```\nconda create -n randlanet python=3.5\nsource activate randlanet\npip install -r helper_requirements.txt\nsh compile_op.sh\n```\n\n**更新：2020年3月21日，预训练模型和结果现已可用。** \n您可以在[这里](https:\u002F\u002Fdrive.google.com\u002Fopen?id=1iU8yviO3TP87-IexBXsu13g6NklwEkXB)下载预训练模型和结果。\n请注意，如果您想使用预训练模型并快速体验我们的RandLA-Net，请在主函数中指定模型路径（例如`main_S3DIS.py`）。\n\n### (2) S3DIS\nS3DIS数据集可以在此处找到：\n\u003Ca href=\"https:\u002F\u002Fdocs.google.com\u002Fforms\u002Fd\u002Fe\u002F1FAIpQLScDimvNMCGhy_rmBA2gHfDu3naktRm6A8BPwAWWDv-Uhm6Shw\u002Fviewform?c=0&w=1\">链接\u003C\u002Fa>。\n下载名为“Stanford3dDataset_v1.2_Aligned_Version.zip”的文件，解压后将其移动到\n`\u002Fdata\u002FS3DIS`。\n\n- 准备数据集：\n```\npython utils\u002Fdata_prepare_s3dis.py\n```\n- 开始6折交叉验证：\n```\nsh jobs_6_fold_cv_s3dis.sh\n```\n- 将`\u002Ftest`文件夹中生成的所有结果（*.ply）移动到`\u002Fdata\u002FS3DIS\u002Fresults`，计算最终的平均IoU结果：\n```\npython utils\u002F6_fold_cv.py\n```\n\nS3DIS数据集上不同方法的定量结果（6折交叉验证）：\n\n![a](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQingyongHu_RandLA-Net_readme_4360fa25761f.png)\n\n我们RandLA-Net的定性结果：\n\n| ![2](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQingyongHu_RandLA-Net_readme_fe43226bc589.gif)   | ![z](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQingyongHu_RandLA-Net_readme_637e1825f654.gif) |\n| ------------------------------ | ---------------------------- |\n\n\n\n### (3) Semantic3D\n解压该数据集中的原始数据需要7zip，安装p7zip：\n```\nsudo apt-get install p7zip-full\n```\n- 下载并解压数据集。首先，请通过更改“download_semantic3d.sh”中的`BASE_DIR`来指定数据集路径。\n```\nsh utils\u002Fdownload_semantic3d.sh\n```\n- 准备数据集：\n```\npython utils\u002Fdata_prepare_semantic3d.py\n```\n- 开始训练：\n```\npython main_Semantic3D.py --mode train --gpu 0\n```\n- 评估：\n```\npython main_Semantic3D.py --mode test --gpu 0\n```\nSemantic3D（reduced-8）上不同方法的定量结果：\n\n![a](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQingyongHu_RandLA-Net_readme_6ed955513b7a.png)\n\n我们RandLA-Net的定性结果：\n\n| ![z](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQingyongHu_RandLA-Net_readme_7839ab4b35ea.gif)    | ![z](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQingyongHu_RandLA-Net_readme_b99524485953.gif)   |\n| -------------------------------- | ------------------------------- |\n| ![z](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQingyongHu_RandLA-Net_readme_160ee0c8de86.gif)    | ![z](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQingyongHu_RandLA-Net_readme_02c3cf3adfe6.gif)   |\n\n\n\n**注意：**\n- 由于点云数据量巨大，建议使用64G以上的内存来处理该数据集。\n\n\n### (4) SemanticKITTI\n\nSemanticKITTI数据集可以在此处找到：\u003Ca href=\"http:\u002F\u002Fsemantic-kitti.org\u002Fdataset.html#download\">链接\u003C\u002Fa>。下载与语义分割相关的文件，并将所有内容解压到同一文件夹中。解压后将其移动到\n`\u002Fdata\u002Fsemantic_kitti\u002Fdataset`。\n \n- 准备数据集：\n```\npython utils\u002Fdata_prepare_semantickitti.py\n```\n\n- 开始训练：\n```\npython main_SemanticKITTI.py --mode train --gpu 0\n```\n\n- 评估：\n```\nsh jobs_test_semantickitti.sh\n```\n\nSemanticKITTI数据集上不同方法的定量结果：\n\n![s](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQingyongHu_RandLA-Net_readme_8e1e6dc90c70.png)\n\n我们RandLA-Net的定性结果：\n\n![zzz](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQingyongHu_RandLA-Net_readme_e2eed80074eb.gif)    \n\n\n### (5) 演示\n\n\u003Cp align=\"center\"> \u003Ca href=\"https:\u002F\u002Fyoutu.be\u002FAr3eY_lwzMk\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQingyongHu_RandLA-Net_readme_e7b406c0b06b.png\" width=\"80%\">\u003C\u002Fa> \u003C\u002Fp>\n\n\n### 引用\n如果您在研究中使用了我们的工作，请考虑引用以下文献：\n\n\t@article{hu2019randla,\n\t  title={RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds},\n\t  author={Hu, Qingyong and Yang, Bo and Xie, Linhai and Rosa, Stefano and Guo, Yulan and Wang, Zhihua and Trigoni, Niki and Markham, Andrew},\n\t  journal={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},\n\t  year={2020}\n\t}\n\t\n\t@article{hu2021learning,\n\t  title={Learning Semantic Segmentation of Large-Scale Point Clouds with Random Sampling},\n\t  author={Hu, Qingyong and Yang, Bo and Xie, Linhai and Rosa, Stefano and Guo, Yulan and Wang, Zhihua and Trigoni, Niki and Markham, Andrew},\n\t  journal={IEEE Transactions on Pattern Analysis and Machine Intelligence},\n\t  year={2021},\n\t  publisher={IEEE}\n\t}\n\n\n### 致谢\n- 我们的部分代码参考了\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fjlblancoc\u002Fnanoflann\">nanoflann\u003C\u002Fa>库以及最近的工作\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FHuguesTHOMAS\u002FKPConv\">KPConv\u003C\u002Fa>。\n- 我们使用\u003Ca href=\"https:\u002F\u002Fwww.blender.org\u002F\">Blender\u003C\u002Fa>制作了视频演示。\n\n\n### 许可证\n根据CC BY-NC-SA 4.0许可证授权，详情请参见[LICENSE](.\u002FLICENSE)。\n\n\n### 更新\n* 2020年3月21日：更新所有实验结果\n* 2020年3月21日：添加预训练模型和结果\n* 2020年3月2日：代码发布！\n* 2019年11月15日：首次发布！\n\n## 相关仓库\n1. [SoTA-Point-Cloud：面向三维点云的深度学习：综述](https:\u002F\u002Fgithub.com\u002FQingyongHu\u002FSoTA-Point-Cloud) ![GitHub 星标](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FQingyongHu\u002FSoTA-Point-Cloud.svg?style=flat&label=Star)\n2. [SensatUrban：从城市尺度摄影测量点云中学习语义信息](https:\u002F\u002Fgithub.com\u002FQingyongHu\u002FSpinNet) ![GitHub 星标](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FQingyongHu\u002FSensatUrban.svg?style=flat&label=Star)\n3. [3D-BoNet：用于点云上 3D 实例分割的目标边界框学习](https:\u002F\u002Fgithub.com\u002FYang7879\u002F3D-BoNet) ![GitHub 星标](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FYang7879\u002F3D-BoNet.svg?style=flat&label=Star)\n4. [SpinNet：学习用于 3D 点云配准的通用表面描述符](https:\u002F\u002Fgithub.com\u002FQingyongHu\u002FSpinNet) ![GitHub 星标](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FQingyongHu\u002FSpinNet.svg?style=flat&label=Star)\n5. [SQN：仅需千分之一标注量的弱监督大规模 3D 点云语义分割](https:\u002F\u002Fgithub.com\u002FQingyongHu\u002FSQN) ![GitHub 星标](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FQingyongHu\u002FSQN.svg?style=flat&label=Star)","# RandLA-Net 快速上手指南\n\nRandLA-Net 是一个用于大规模 3D 点云语义分割的高效神经网络架构（CVPR 2020 Oral）。本指南将帮助你快速搭建环境并运行模型。\n\n## 1. 环境准备\n\n本项目官方测试环境如下，建议尽量保持一致以避免兼容性问题：\n\n*   **操作系统**: Ubuntu 16.04 (推荐)\n*   **Python**: 3.5\n*   **深度学习框架**: TensorFlow 1.11\n*   **GPU 驱动**: CUDA 9.0 + cuDNN 7.4.1\n*   **硬件建议**: 处理大规模数据集（如 Semantic3D）时，建议内存大于 64GB。\n\n**前置依赖工具**:\n*   Git\n*   Conda (推荐用于管理 Python 环境)\n*   p7zip-full (仅在处理 Semantic3D 数据集时需要): `sudo apt-get install p7zip-full`\n\n## 2. 安装步骤\n\n### 2.1 克隆代码库\n```bash\ngit clone --depth=1 https:\u002F\u002Fgithub.com\u002FQingyongHu\u002FRandLA-Net && cd RandLA-Net\n```\n\n### 2.2 配置 Python 环境与编译算子\n执行以下命令创建虚拟环境、安装依赖并编译自定义操作符：\n\n```bash\nconda create -n randlanet python=3.5\nsource activate randlanet\npip install -r helper_requirements.txt\nsh compile_op.sh\n```\n\n> **提示**: 如果 `pip` 下载速度慢，可临时使用国内镜像源（如清华源）：\n> `pip install -r helper_requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n\n### 2.3 获取预训练模型（可选）\n若想快速测试效果，可下载官方提供的预训练模型和结果：\n*   **下载地址**: [Google Drive](https:\u002F\u002Fdrive.google.com\u002Fopen?id=1iU8yviO3TP87-IexBXsu13g6NklwEkXB)\n*   **使用方法**: 下载后解压，并在主函数文件（如 `main_S3DIS.py`）中指定模型路径。\n\n## 3. 基本使用\n\n以下以 **S3DIS** 数据集为例，展示从数据准备到评估的完整流程。其他数据集（Semantic3D, SemanticKITTI）流程类似，具体脚本请参考项目目录。\n\n### 3.1 准备数据集\n1. 手动下载 S3DIS 数据集 (`Stanford3dDataset_v1.2_Aligned_Version.zip`)。\n2. 解压并将文件夹移动至项目根目录下的 `\u002Fdata\u002FS3DIS`。\n3. 运行数据预处理脚本：\n```bash\npython utils\u002Fdata_prepare_s3dis.py\n```\n\n### 3.2 开始训练\n运行 6 折交叉验证训练脚本：\n```bash\nsh jobs_6_fold_cv_s3dis.sh\n```\n\n### 3.3 评估结果\n训练完成后，将生成的 `.ply` 结果文件从 `\u002Ftest` 文件夹移动至 `\u002Fdata\u002FS3DIS\u002Fresults`，然后运行评估脚本计算平均 IoU：\n```bash\npython utils\u002F6_fold_cv.py\n```\n\n---\n*注：对于 Semantic3D 和 SemanticKITTI 数据集，请参照 README 中对应的 `data_prepare_*.py` 和 `main_*.py` 脚本进行调整。*","某智慧城市测绘团队正利用车载激光雷达采集的数亿级点云数据，构建城市级三维语义地图以支持自动驾驶仿真测试。\n\n### 没有 RandLA-Net 时\n- **显存爆炸导致无法运行**：传统点云网络需要密集采样或分块处理，面对城市级大规模点云时，GPU 显存迅速溢出，迫使团队将数据切割成无数小块，破坏了场景的整体上下文信息。\n- **细节特征严重丢失**：为了降低计算量而采用的过度下采样策略，导致路灯、交通标志等细小但关键的物体几何特征被抹除，分割精度大幅下降。\n- **推理速度无法满足实时性**：处理单帧大规模点云耗时过长，无法支持自动驾驶系统所需的实时环境感知与动态更新需求。\n- **工程部署极其复杂**：现有的高效方案往往依赖复杂的预处理流水线或特制的硬件加速，增加了算法落地到边缘计算设备的难度。\n\n### 使用 RandLA-Net 后\n- **直接处理海量原始数据**：RandLA-Net 凭借轻量级的局部特征聚合机制，无需繁琐的分块即可直接在整幅大规模点云上运行，完整保留了城市场景的全局空间结构。\n- **精准识别微小目标**：其独特的随机采样结合局部特征学习策略，在大幅降低计算量的同时，依然能敏锐捕捉并准确分类电线杆、路沿等细微结构。\n- **实现高效实时推理**：架构设计极度精简，显著提升了前向传播速度，使得在大规模场景下的语义分割能够接近实时完成，满足动态建图需求。\n- **简化部署流程**：作为端到端的简单神经网络，RandLA-Net 减少了对复杂预处理和后处理的依赖，更易于集成到现有的自动驾驶感知栈中。\n\nRandLA-Net 通过创新的随机采样与局部特征聚合技术，完美解决了大规模点云处理中“效率”与“精度”难以兼得的行业痛点。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQingyongHu_RandLA-Net_6ed95551.png","QingyongHu","Qingyong","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FQingyongHu_def74497.jpg","Ph.D. student :man_student:\tin the Department of Computer Science at the University of Oxford :cn:","University of Oxford","Oxford, UK","huqingyong15@outlook.com",null,"https:\u002F\u002Fqingyonghu.github.io\u002F","https:\u002F\u002Fgithub.com\u002FQingyongHu",[86,90],{"name":87,"color":88,"percentage":89},"Python","#3572A5",93.9,{"name":91,"color":92,"percentage":93},"C++","#f34b7d",6.1,1530,335,"2026-04-03T07:15:00","NOASSERTION",4,"Linux","需要 NVIDIA GPU，CUDA 9.0，cuDNN 7.4.1（具体显存大小未说明，但处理大数据集建议高显存）","推荐 64GB+（特别是处理 Semantic3D 数据集时）",{"notes":103,"python":104,"dependencies":105},"代码已在 Ubuntu 16.04 上测试通过。处理 Semantic3D 数据集时需要安装 p7zip-full 来解压数据。建议使用 conda 创建虚拟环境。对于大规模点云数据处理，强烈建议使用超过 64GB 的内存。","3.5",[106,107,108],"tensorflow==1.11","cuda==9.0","cudnn==7.4.1",[14,37],[111,112,113,114,115,116],"semantic-segmentation","3d-vision","computer-vision","semantic3d","s3dis","semantickitti","2026-03-27T02:49:30.150509","2026-04-06T08:42:05.932021",[120,125,130,135,140,145,150],{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},9746,"如何获取预训练模型并在自定义数据集上进行推理？","维护者建议从提供的 Google Drive 链接下载结果文件，然后运行 `6_fold_cv.py` 脚本来评估或查看输出。对于自定义数据集的推理，用户通常需要编写自定义实现来加载点云数据并适配 `init_input_pipeline` 函数，因为默认流程假设可以访问原始训练数据集结构。","https:\u002F\u002Fgithub.com\u002FQingyongHu\u002FRandLA-Net\u002Fissues\u002F10",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},9747,"运行 S3DIS 数据准备脚本时出现 'FileNotFoundError' 或数组拼接错误怎么办？","这通常是由于路径配置错误或数据未正确放置导致的。解决方案是检查并修改代码中的路径变量（如 `original_pc_folder` 和 `sub_pc_folder`），确保它们指向正确的绝对路径。有用户反馈手动创建文件夹无效，必须直接在代码中将路径硬编码为实际数据存放位置才能跑通。此外，需确保输入数据不是空的，否则 `np.concatenate` 会报错。","https:\u002F\u002Fgithub.com\u002FQingyongHu\u002FRandLA-Net\u002Fissues\u002F78",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},9748,"如何在没有原始训练数据的情况下对新的单一点云进行推理？","虽然论文提到可以直接处理点云，但官方代码的 `init_input_pipeline` 依赖原始数据集结构。要在单机上新数据上推理，需要自定义实现：1. 不需要 KDTree 即可运行，但需自行构建输入批次生成器 (`get_batch_gen`)；2. 可以参考 PyTorch 版本的实现（如 aRI0U\u002FRandLA-Net-pytorch），其在 CPU 上执行 KNN 操作，不依赖原始数据集的索引结构；3. 大多数用户选择编写自定义脚本来加载新点云并绕过默认的数据管道。","https:\u002F\u002Fgithub.com\u002FQingyongHu\u002FRandLA-Net\u002Fissues\u002F56",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},9749,"点云预测\u002F推理速度过慢（例如需要 20 秒）是否正常？如何优化？","默认情况下推理较慢可能是因为使用了投票机制。官方解释参考 Issue #65，用户可以通过将 `num_votes` 参数设置为 1 来显著减少推理时间。虽然设置该参数可能不会提升精度，但能大幅加快速度。论文中提到的毫秒级速度通常是在特定优化或不同硬件配置下测得的百万点推理时间（约 1.15 秒），若遇到 20 秒的情况，请检查是否开启了多重投票或批次处理设置不当。","https:\u002F\u002Fgithub.com\u002FQingyongHu\u002FRandLA-Net\u002Fissues\u002F55",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},9750,"训练时忽略了标签 0，导致推理结果缺少背景类（只有 4 个标签而不是 5 个），如何解决？","这是因为在 Semantic3D 和 SemanticKITTI 数据集中，标签 '0' 通常代表未分类或无效点，因此默认在计算损失时被忽略。如果你的数据中标签 '0' 代表真实的背景类且有实际意义，你不应该将其设置为忽略标签（ignore label）。解决方法是修改配置，不要将 '0' 加入忽略列表，这样模型就会输出包含背景类在内的所有 5 个类别的概率。如果设置了 `ignore_label=[0]`，则训练和推理都会跳过该类。","https:\u002F\u002Fgithub.com\u002FQingyongHu\u002FRandLA-Net\u002Fissues\u002F47",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},9751,"如何可视化 S3DIS 数据集的语义分割结果？生成的 .ply 文件缺少坐标信息怎么办？","默认输出的 .ply 文件可能只包含预测标签和真实标签，缺少 x, y, z 坐标，导致无法直接可视化。解决方法是修改保存结果的代码，在写入 .ply 文件时，将原始点云的坐标信息（x, y, z）与预测结果合并后再保存。社区中有多人询问此问题，建议参考相关可视化工具或修改源码中的输出逻辑，确保保存的文件包含几何坐标字段，以便用 CloudCompare 或其他软件打开。","https:\u002F\u002Fgithub.com\u002FQingyongHu\u002FRandLA-Net\u002Fissues\u002F12",{"id":151,"question_zh":152,"answer_zh":153,"source_url":154},9752,"RandLA-Net 能处理的最大点云数据量级是多少？上亿级别的点云需要抽稀吗？","该算法设计用于处理大规模点云，理论上可以处理百万级（10^6）甚至更多的点。对于上亿级别的点云，虽然网络具有处理大场景的能力，但在实际训练前，通常建议根据显存限制进行适当的抽稀或分块处理，以确保训练过程的稳定性和效率。具体最大量级取决于硬件资源，但无需强制抽稀到百万级以下，可利用其局部聚合特性处理较大密度数据。","https:\u002F\u002Fgithub.com\u002FQingyongHu\u002FRandLA-Net\u002Fissues\u002F27",[]]