[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-NVlabs--SegFormer":3,"tool-NVlabs--SegFormer":61},[4,18,26,36,44,52],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",145895,2,"2026-04-08T11:32:59",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108111,"2026-04-08T11:23:26",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":53,"name":54,"github_repo":55,"description_zh":56,"stars":57,"difficulty_score":10,"last_commit_at":58,"category_tags":59,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,60],"视频",{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":77,"owner_url":78,"languages":79,"stars":92,"forks":93,"last_commit_at":94,"license":95,"difficulty_score":96,"env_os":97,"env_gpu":98,"env_ram":97,"env_deps":99,"category_tags":109,"github_topics":110,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":115,"updated_at":116,"faqs":117,"releases":153},5518,"NVlabs\u002FSegFormer","SegFormer","Official PyTorch implementation of SegFormer","SegFormer 是一款基于 Transformer 架构的语义分割开源模型，由 NVIDIA 研究团队推出并发表于 NeurIPS 2021。它的核心任务是对图像中的每个像素进行分类，从而精准识别出物体边界与类别，广泛应用于自动驾驶、医疗影像分析及场景理解等领域。\n\n传统语义分割方法往往依赖复杂的位置编码或繁琐的多尺度特征融合设计，导致计算成本高且难以部署。SegFormer 通过简洁高效的设计解决了这一痛点：它摒弃了位置编码，采用轻量级的混合注意力机制和分层变压器结构，在大幅降低计算资源消耗的同时，依然保持了卓越的分割精度。从轻量级的 B0 到高性能的 B5，该系列模型提供了灵活的尺寸选择，以适应不同硬件环境的需求。\n\n这款工具非常适合计算机视觉领域的研究人员、算法工程师以及希望将先进 AI 技术落地应用的开发者使用。由于官方代码基于成熟的 MMSegmentation 框架构建，并提供了完整的训练、评估脚本及预训练权重，用户能够快速复现论文结果或在此基础上进行二次开发。对于需要平衡性能与效率的项目团队而言，SegFormer 是一个兼具学术前沿性与工程实用性的理想选择。","[![NVIDIA Source Code License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-NSCL-blue.svg)](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FSegFormer\u002Fblob\u002Fmaster\u002FLICENSE)\n![Python 3.8](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpython-3.8-green.svg)\n\n# SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers\n\n\u003C!-- ![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVlabs_SegFormer_readme_791ac0e60147.png) -->\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\".\u002Fhttps:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVlabs_SegFormer_readme_791ac0e60147.png\" height=\"400\">\n\u003C\u002Fdiv>\n\u003Cp align=\"center\">\n  Figure 1: Performance of SegFormer-B0 to SegFormer-B5.\n\u003C\u002Fp>\n\n### [Project page](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FSegFormer) | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2105.15203) | [Demo (Youtube)](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=J0MoRQzZe8U) | [Demo (Bilibili)](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1MV41147Ko\u002F) | [Intro Video](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=nBjXyoltCHU)\n\nSegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers.\u003Cbr>\n[Enze Xie](https:\u002F\u002Fxieenze.github.io\u002F), [Wenhai Wang](https:\u002F\u002Fwhai362.github.io\u002F), [Zhiding Yu](https:\u002F\u002Fchrisding.github.io\u002F), [Anima Anandkumar](http:\u002F\u002Ftensorlab.cms.caltech.edu\u002Fusers\u002Fanima\u002F), [Jose M. Alvarez](https:\u002F\u002Frsu.data61.csiro.au\u002Fpeople\u002Fjalvarez\u002F), and [Ping Luo](http:\u002F\u002Fluoping.me\u002F).\u003Cbr>\nNeurIPS 2021.\n\nThis repository contains the official Pytorch implementation of training & evaluation code and the pretrained models for [SegFormer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2105.15203).\n\nSegFormer is a simple, efficient and powerful semantic segmentation method, as shown in Figure 1.\n\nWe use [MMSegmentation v0.13.0](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmsegmentation\u002Ftree\u002Fv0.13.0) as the codebase.\n\n🔥🔥 SegFormer is on [MMSegmentation](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmsegmentation\u002Ftree\u002Fmaster\u002Fconfigs\u002Fsegformer). 🔥🔥 \n\n\n## Installation\n\nFor install and data preparation, please refer to the guidelines in [MMSegmentation v0.13.0](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmsegmentation\u002Ftree\u002Fv0.13.0).\n\nOther requirements:\n```pip install timm==0.3.2```\n\nAn example (works for me): ```CUDA 10.1``` and  ```pytorch 1.7.1``` \n\n```\npip install torchvision==0.8.2\npip install timm==0.3.2\npip install mmcv-full==1.2.7\npip install opencv-python==4.5.1.48\ncd SegFormer && pip install -e . --user\n```\n\n## Evaluation\n\nDownload `trained weights`. \n(\n[google drive](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1GAku0G0iR9DsBxCbfENWMJ27c5lYUeQA?usp=sharing) | \n[onedrive](https:\u002F\u002Fconnecthkuhk-my.sharepoint.com\u002F:f:\u002Fg\u002Fpersonal\u002Fxieenze_connect_hku_hk\u002FEpt_oetyUGFCsZTKiL_90kUBy5jmPV65O5rJInsnRCDWJQ?e=CvGohw)\n)\n\nExample: evaluate ```SegFormer-B1``` on ```ADE20K```:\n\n```\n# Single-gpu testing\npython tools\u002Ftest.py local_configs\u002Fsegformer\u002FB1\u002Fsegformer.b1.512x512.ade.160k.py \u002Fpath\u002Fto\u002Fcheckpoint_file\n\n# Multi-gpu testing\n.\u002Ftools\u002Fdist_test.sh local_configs\u002Fsegformer\u002FB1\u002Fsegformer.b1.512x512.ade.160k.py \u002Fpath\u002Fto\u002Fcheckpoint_file \u003CGPU_NUM>\n\n# Multi-gpu, multi-scale testing\ntools\u002Fdist_test.sh local_configs\u002Fsegformer\u002FB1\u002Fsegformer.b1.512x512.ade.160k.py \u002Fpath\u002Fto\u002Fcheckpoint_file \u003CGPU_NUM> --aug-test\n```\n\n## Training\n\nDownload `weights` \n(\n[google drive](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1b7bwrInTW4VLEm27YawHOAMSMikga2Ia?usp=sharing) | \n[onedrive](https:\u002F\u002Fconnecthkuhk-my.sharepoint.com\u002F:f:\u002Fg\u002Fpersonal\u002Fxieenze_connect_hku_hk\u002FEvOn3l1WyM5JpnMQFSEO5b8B7vrHw9kDaJGII-3N9KNhrg?e=cpydzZ)\n) \npretrained on ImageNet-1K, and put them in a folder ```pretrained\u002F```.\n\nExample: train ```SegFormer-B1``` on ```ADE20K```:\n\n```\n# Single-gpu training\npython tools\u002Ftrain.py local_configs\u002Fsegformer\u002FB1\u002Fsegformer.b1.512x512.ade.160k.py \n\n# Multi-gpu training\n.\u002Ftools\u002Fdist_train.sh local_configs\u002Fsegformer\u002FB1\u002Fsegformer.b1.512x512.ade.160k.py \u003CGPU_NUM>\n```\n\n## Visualize\n\nHere is a demo script to test a single image. More details refer to [MMSegmentation's Doc](https:\u002F\u002Fmmsegmentation.readthedocs.io\u002Fen\u002Flatest\u002Fget_started.html).\n\n```shell\npython demo\u002Fimage_demo.py ${IMAGE_FILE} ${CONFIG_FILE} ${CHECKPOINT_FILE} [--device ${DEVICE_NAME}] [--palette-thr ${PALETTE}]\n```\n\nExample: visualize ```SegFormer-B1``` on ```CityScapes```: \n\n```shell\npython demo\u002Fimage_demo.py demo\u002Fdemo.png local_configs\u002Fsegformer\u002FB1\u002Fsegformer.b1.512x512.ade.160k.py \\\n\u002Fpath\u002Fto\u002Fcheckpoint_file --device cuda:0 --palette cityscapes\n```\n\n\n\n\n\n## License\nPlease check the LICENSE file. SegFormer may be used non-commercially, meaning for research or \nevaluation purposes only. For business inquiries, please visit our website and submit the form: [NVIDIA Research Licensing](https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fresearch\u002Finquiries\u002F).\n\n\n## Citation\n```\n@inproceedings{xie2021segformer,\n  title={SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers},\n  author={Xie, Enze and Wang, Wenhai and Yu, Zhiding and Anandkumar, Anima and Alvarez, Jose M and Luo, Ping},\n  booktitle={Neural Information Processing Systems (NeurIPS)},\n  year={2021}\n}\n```\n","[![NVIDIA源代码许可证](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-NSCL-blue.svg)](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FSegFormer\u002Fblob\u002Fmaster\u002FLICENSE)\n![Python 3.8](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpython-3.8-green.svg)\n\n# SegFormer：基于Transformer的语义分割的简单高效设计\n\n\u003C!-- ![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVlabs_SegFormer_readme_791ac0e60147.png) -->\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\".\u002Fhttps:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVlabs_SegFormer_readme_791ac0e60147.png\" height=\"400\">\n\u003C\u002Fdiv>\n\u003Cp align=\"center\">\n  图1：SegFormer-B0至SegFormer-B5的性能对比。\n\u003C\u002Fp>\n\n### [项目主页](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FSegFormer) | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2105.15203) | [演示视频（YouTube）](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=J0MoRQzZe8U) | [演示视频（B站）](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1MV41147Ko\u002F) | [介绍视频](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=nBjXyoltCHU)\n\nSegFormer：基于Transformer的语义分割的简单高效设计。\u003Cbr>\n[谢恩泽](https:\u002F\u002Fxieenze.github.io\u002F)、[王文海](https:\u002F\u002Fwhai362.github.io\u002F)、[于志鼎](https:\u002F\u002Fchrisding.github.io\u002F)、[阿尼玛·阿南德库马尔](http:\u002F\u002Ftensorlab.cms.caltech.edu\u002Fusers\u002Fanima\u002F)、[何塞·M·阿尔瓦雷斯](https:\u002F\u002Frsu.data61.csiro.au\u002Fpeople\u002Fjalvarez\u002F)以及[罗平](http:\u002F\u002Fluoping.me\u002F)。\u003Cbr>\nNeurIPS 2021。\n\n本仓库包含[SegFormer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2105.15203)的官方PyTorch训练与评估代码实现，以及预训练模型。\n\n如图1所示，SegFormer是一种简单、高效且强大的语义分割方法。\n\n我们以[MMSegmentation v0.13.0](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmsegmentation\u002Ftree\u002Fv0.13.0)作为代码基底。\n\n🔥🔥 SegFormer已集成到[MMSegmentation](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmsegmentation\u002Ftree\u002Fmaster\u002Fconfigs\u002Fsegformer)中。🔥🔥\n\n\n## 安装\n\n关于安装和数据准备，请参考[MMSegmentation v0.13.0](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmsegmentation\u002Ftree\u002Fv0.13.0)中的指南。\n\n其他依赖：\n```pip install timm==0.3.2```\n\n示例（对我有效）：```CUDA 10.1``` 和 ```pytorch 1.7.1```\n\n```\npip install torchvision==0.8.2\npip install timm==0.3.2\npip install mmcv-full==1.2.7\npip install opencv-python==4.5.1.48\ncd SegFormer && pip install -e . --user\n```\n\n## 评估\n\n下载“训练好的权重”。\n(\n[Google Drive](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1GAku0G0iR9DsBxCbfENWMJ27c5lYUeQA?usp=sharing) | \n[OneDrive](https:\u002F\u002Fconnecthkuhk-my.sharepoint.com\u002F:f:\u002Fg\u002Fpersonal\u002Fxieenze_connect_hku_hk\u002FEpt_oetyUGFCsZTKiL_90kUBy5jmPV65O5rJInsnRCDWJQ?e=CvGohw)\n)\n\n示例：在ADE20K数据集上评估```SegFormer-B1```：\n\n```\n# 单GPU测试\npython tools\u002Ftest.py local_configs\u002Fsegformer\u002FB1\u002Fsegformer.b1.512x512.ade.160k.py \u002Fpath\u002Fto\u002Fcheckpoint_file\n\n# 多GPU测试\n.\u002Ftools\u002Fdist_test.sh local_configs\u002Fsegformer\u002FB1\u002Fsegformer.b1.512x512.ade.160k.py \u002Fpath\u002Fto\u002Fcheckpoint_file \u003CGPU_NUM>\n\n# 多GPU、多尺度测试\ntools\u002Fdist_test.sh local_configs\u002Fsegformer\u002FB1\u002Fsegformer.b1.512x512.ade.160k.py \u002Fpath\u002Fto\u002Fcheckpoint_file \u003CGPU_NUM> --aug-test\n```\n\n## 训练\n\n下载“权重”\n(\n[Google Drive](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1b7bwrInTW4VLEm27YawHOAMSMikga2Ia?usp=sharing) | \n[OneDrive](https:\u002F\u002Fconnecthkuhk-my.sharepoint.com\u002F:f:\u002Fg\u002Fpersonal\u002Fxieenze_connect_hku_hk\u002FEvOn3l1WyM5JpnMQFSEO5b8B7vrHw9kDaJGII-3N9KNhrg?e=cpydzZ)\n) \n这些权重是在ImageNet-1K上预训练得到的，并将其放置在文件夹```pretrained\u002F```中。\n\n示例：在ADE20K数据集上训练```SegFormer-B1```：\n\n```\n# 单GPU训练\npython tools\u002Ftrain.py local_configs\u002Fsegformer\u002FB1\u002Fsegformer.b1.512x512.ade.160k.py \n\n# 多GPU训练\n.\u002Ftools\u002Fdist_train.sh local_configs\u002Fsegformer\u002FB1\u002Fsegformer.b1.512x512.ade.160k.py \u003CGPU_NUM>\n```\n\n## 可视化\n\n以下是一个用于测试单张图像的演示脚本。更多细节请参阅[MMSegmentation文档](https:\u002F\u002Fmmsegmentation.readthedocs.io\u002Fen\u002Flatest\u002Fget_started.html)。\n\n```shell\npython demo\u002Fimage_demo.py ${IMAGE_FILE} ${CONFIG_FILE} ${CHECKPOINT_FILE} [--device ${DEVICE_NAME}] [--palette-thr ${PALETTE}]\n```\n\n示例：在CityScapes数据集上可视化```SegFormer-B1```：\n\n```shell\npython demo\u002Fimage_demo.py demo\u002Fdemo.png local_configs\u002Fsegformer\u002FB1\u002Fsegformer.b1.512x512.ade.160k.py \\\n\u002Fpath\u002Fto\u002Fcheckpoint_file --device cuda:0 --palette cityscapes\n```\n\n\n\n\n\n## 许可证\n请查看LICENSE文件。SegFormer仅可用于非商业用途，即仅限于研究或评估目的。如需商业合作，请访问我们的官网并提交表格：[NVIDIA Research Licensing](https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fresearch\u002Finquiries\u002F)。\n\n\n## 引用\n```\n@inproceedings{xie2021segformer,\n  title={SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers},\n  author={Xie, Enze and Wang, Wenhai and Yu, Zhiding and Anandkumar, Anima and Alvarez, Jose M and Luo, Ping},\n  booktitle={Neural Information Processing Systems (NeurIPS)},\n  year={2021}\n}\n```","# SegFormer 快速上手指南\n\nSegFormer 是一种简单、高效且强大的基于 Transformer 的语义分割方法。本指南基于官方实现（依赖 MMSegmentation v0.13.0），帮助开发者快速完成环境搭建与模型推理。\n\n## 1. 环境准备\n\n在开始之前，请确保满足以下系统与依赖要求：\n\n*   **操作系统**: Linux\n*   **Python**: 3.8\n*   **CUDA**: 推荐 10.1 (示例环境)\n*   **PyTorch**: 1.7.1\n*   **核心依赖库**:\n    *   `torchvision` == 0.8.2\n    *   `timm` == 0.3.2\n    *   `mmcv-full` == 1.2.7\n    *   `opencv-python` == 4.5.1.48\n*   **代码库**: 本项目基于 [MMSegmentation v0.13.0](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmsegmentation\u002Ftree\u002Fv0.13.0)，请先参考其官方文档完成基础数据准备和环境配置。\n\n> **提示**：国内用户安装 `mmcv-full` 时，建议前往 [OpenMMLB 镜像站](https:\u002F\u002Fmmengine.org\u002Fzh-CN\u002Fget_started\u002Finstallation.html) 选择对应 CUDA 和 PyTorch 版本的预编译包进行安装，以避免编译报错。\n\n## 2. 安装步骤\n\n请依次执行以下命令安装所需依赖并配置 SegFormer：\n\n```bash\n# 安装基础视觉库\npip install torchvision==0.8.2\n\n# 安装 timm 库\npip install timm==0.3.2\n\n# 安装 mmcv-full (若国内网络较慢，请使用 OpenMMLAB 镜像源指定版本安装)\npip install mmcv-full==1.2.7\n\n# 安装 opencv\npip install opencv-python==4.5.1.48\n\n# 克隆或进入 SegFormer 目录并进行可编辑安装\ncd SegFormer && pip install -e . --user\n```\n\n## 3. 基本使用\n\n### 3.1 下载预训练权重\n从以下任一地址下载预训练模型权重，并记录文件路径：\n*   [Google Drive](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1GAku0G0iR9DsBxCbfENWMJ27c5lYUeQA?usp=sharing)\n*   [OneDrive](https:\u002F\u002Fconnecthkuhk-my.sharepoint.com\u002F:f:\u002Fg\u002Fpersonal\u002Fxieenze_connect_hku_hk\u002FEpt_oetyUGFCsZTKiL_90kUBy5jmPV65O5rJInsnRCDWJQ?e=CvGohw)\n\n### 3.2 单图可视化推理\n这是最简单的使用方式，可直接对单张图片进行语义分割并可视化结果。\n\n**命令格式：**\n```shell\npython demo\u002Fimage_demo.py ${IMAGE_FILE} ${CONFIG_FILE} ${CHECKPOINT_FILE} [--device ${DEVICE_NAME}] [--palette-thr ${PALETTE}]\n```\n\n**示例：使用 SegFormer-B1 模型对 CityScapes 数据集风格的图片进行推理**\n假设你已下载好权重文件 `\u002Fpath\u002Fto\u002Fcheckpoint_file`，且当前目录下有一张测试图 `demo\u002Fdemo.png`：\n\n```shell\npython demo\u002Fimage_demo.py demo\u002Fdemo.png local_configs\u002Fsegformer\u002FB1\u002Fsegformer.b1.512x512.ade.160k.py \\\n\u002Fpath\u002Fto\u002Fcheckpoint_file --device cuda:0 --palette cityscapes\n```\n\n运行后，程序将输出分割结果图像。如需更多高级功能（如多卡测试、训练等），请参考项目根目录下的 `tools` 文件夹脚本。","某自动驾驶初创公司的算法团队正在开发城市道路感知系统，需要实时精准地分割路面、车辆、行人及交通标志，以辅助车辆决策。\n\n### 没有 SegFormer 时\n- **细节丢失严重**：传统 CNN 模型感受野有限，难以同时兼顾远处小物体（如交通灯）和近处大区域（如车道线）的分割精度，导致边缘模糊。\n- **推理速度瓶颈**：为了提升精度堆叠深层网络，导致计算量剧增，在车载嵌入式设备上帧率低下，无法满足实时性要求。\n- **多尺度适配困难**：面对城市中远近高低各异的物体，原有模型缺乏灵活的多尺度特征融合机制，需针对不同场景反复调整参数。\n- **训练部署复杂**：现有方案依赖复杂的解码器设计和繁琐的后处理步骤，增加了工程落地和维护的难度。\n\n### 使用 SegFormer 后\n- **全局上下文捕捉**：SegFormer 利用 Transformer 架构自注意力机制，有效建模长距离依赖，显著提升了细小物体和复杂边界的分割清晰度。\n- **高效轻量运行**：其简单的分层设计大幅减少了计算冗余，在保持高精度的同时，将推理速度提升至实时标准，完美适配车载芯片。\n- **自适应多尺度处理**：内置的多尺度特征聚合能力，让模型能自动适应不同大小的目标，无需针对特定距离进行额外调优。\n- **极简工程落地**：去除了复杂的位置编码和解码器，代码结构简洁，直接基于 MMSegmentation 即可快速完成训练与部署，降低了开发成本。\n\nSegFormer 通过“简单而高效”的设计，成功解决了自动驾驶场景中精度与速度的矛盾，让高阶感知算法在边缘设备上真正变得可用且好用。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVlabs_SegFormer_791ac0e6.png","NVlabs","NVIDIA Research Projects","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FNVlabs_fc20d641.jpg","",null,"http:\u002F\u002Fresearch.nvidia.com","https:\u002F\u002Fgithub.com\u002FNVlabs",[80,84,88],{"name":81,"color":82,"percentage":83},"Python","#3572A5",99.8,{"name":85,"color":86,"percentage":87},"Shell","#89e051",0.2,{"name":89,"color":90,"percentage":91},"Dockerfile","#384d54",0.1,3424,427,"2026-04-08T02:28:52","NOASSERTION",4,"未说明","需要 NVIDIA GPU (示例使用 CUDA 10.1)，具体显存大小未说明",{"notes":100,"python":101,"dependencies":102},"该项目基于 MMSegmentation v0.13.0 代码库。训练前需下载在 ImageNet-1K 上预训练的权重并放入 'pretrained\u002F' 文件夹。许可证为 NVIDIA Source Code License，仅限非商业用途（研究或评估）。","3.8",[103,104,105,106,107,108],"torch==1.7.1","torchvision==0.8.2","timm==0.3.2","mmcv-full==1.2.7","opencv-python==4.5.1.48","MMSegmentation==0.13.0",[15,35],[111,112,113,114],"semantic-segmentation","transformer","ade20k","cityscapes","2026-03-27T02:49:30.150509","2026-04-08T20:38:25.993513",[118,123,128,133,138,143,148],{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},25034,"遇到 'No module named mmseg' 错误怎么办？","这通常是因为环境配置问题或未正确安装本地模块。解决方法是重新以可编辑模式安装 mmsegmentation：\n1. 进入项目目录。\n2. 运行命令：pip install -v -e .\n如果仍然报错提示缺少 mmcv，请确保先安装了正确版本的 mmcv 和 mmsegmentation 依赖库。","https:\u002F\u002Fgithub.com\u002FNVlabs\u002FSegFormer\u002Fissues\u002F68",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},25035,"运行代码时报错 'mit_b1 is not in the models registry' 如何解决？","该错误通常是因为缺少必要的依赖库导致模型无法注册。请检查是否已安装 timm 库以及其他指定依赖。解决方案：\n1. 安装 timm 库：pip install timm\n2. 确保按照项目文档的步骤完整安装所有依赖库后再运行代码。","https:\u002F\u002Fgithub.com\u002FNVlabs\u002FSegFormer\u002Fissues\u002F40",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},25036,"预训练模型文件报错 'xxx.pth is not a checkpoint file' 是怎么回事？","这通常是因为预训练权重文件下载不完整或损坏，或者未正确放置。请确认：\n1. 已从官方源完整下载对应的 .pth 预训练权重文件。\n2. 将文件正确放入项目的 pretrained 目录中。\n3. 如果是自定义数据集训练，确保已正确配置数据集路径（参考 mmsegmentation 文档下载 ADE20K 等数据集）。","https:\u002F\u002Fgithub.com\u002FNVlabs\u002FSegFormer\u002Fissues\u002F7",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},25037,"在 Mapillary 数据集上评估时遇到内存不足或类映射问题如何处理？","Mapillary 图像分辨率很高，直接评估可能导致显存\u002F内存溢出。建议方案：\n1. 如果仅需预训练，可以在 Cityscapes 数据集上进行评估，或者直接跳过评估步骤。\n2. 若必须在 Mapillary 上评估，需使用大内存机器（如 400G 物理内存）。\n3. 注意 Mapillary 标签存储为 RGB 格式，可能需要转换为灰度图以节省空间或适配管道。","https:\u002F\u002Fgithub.com\u002FNVlabs\u002FSegFormer\u002Fissues\u002F16",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},25038,"SegFormer-B3 在某些自定义数据集上表现不如 HRNet-18-OCR 的原因及优化方法？","性能差异可能与类别不平衡有关。尝试使用类别权重（class weight）进行优化：\n1. 训练初期设置类别权重（例如 [1, 2]）。\n2. 在特定迭代次数后（如 2000 iter）将权重调整为 [1, 1]。\n这种方法在处理背景与前景比例悬殊的数据集（如裂缝检测）时能显著提升 mIoU 和召回率。","https:\u002F\u002Fgithub.com\u002FNVlabs\u002FSegFormer\u002Fissues\u002F6",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},25039,"SegFormer 模型的推理速度是多少？能在移动设备上运行吗？","论文中未详细列出具体设备的推理速度测试数据。关于移动端部署：\n1. 作者未在移动设备上进行测试，但认为这是一个重要方向。\n2. 若要在移动端（如 Snapdragon 662）达到实时帧率（如 20 FPS），建议对轻量级模型（如 SegFormer-B0）应用模型压缩技术，包括剪枝（pruning）或量化（quantization）。\n3. 减小输入图像尺寸（如 256x256）也有助于提升速度。","https:\u002F\u002Fgithub.com\u002FNVlabs\u002FSegFormer\u002Fissues\u002F17",{"id":149,"question_zh":150,"answer_zh":151,"source_url":152},25040,"如何计算并可视化有效感受野（Effective Receptive Fields）？","官方未提供直接的计算代码，但可以通过以下原理自行实现：\n计算输出特征图相对于输入图像的导数（梯度）。\n具体技术手段：使用 PyTorch 的 callbacks 机制配合 autograd.grad 函数来计算梯度映射，从而可视化为感受野图。","https:\u002F\u002Fgithub.com\u002FNVlabs\u002FSegFormer\u002Fissues\u002F64",[]]