[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-OpenGVLab--Vision-RWKV":3,"tool-OpenGVLab--Vision-RWKV":64},[4,17,26,35,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,2,"2026-04-03T11:11:01",[13,14,15],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":10,"last_commit_at":32,"category_tags":33,"status":16},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[13,14,15,34],"视频",{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,43,34,44,15,45,46,13,47],"数据工具","插件","其他","语言模型","音频",{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":10,"last_commit_at":54,"category_tags":55,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,46,45],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",74939,"2026-04-05T23:16:38",[46,14,13,45],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":75,"owner_avatar_url":76,"owner_bio":77,"owner_company":78,"owner_location":78,"owner_email":79,"owner_twitter":80,"owner_website":78,"owner_url":81,"languages":82,"stars":98,"forks":99,"last_commit_at":100,"license":101,"difficulty_score":102,"env_os":103,"env_gpu":104,"env_ram":105,"env_deps":106,"category_tags":114,"github_topics":78,"view_count":23,"oss_zip_url":78,"oss_zip_packed_at":78,"status":16,"created_at":115,"updated_at":116,"faqs":117,"releases":147},4134,"OpenGVLab\u002FVision-RWKV","Vision-RWKV","[ICLR 2025 Spotlight] Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures","Vision-RWKV 是一款基于 RWKV 架构的高效视觉感知模型，旨在为计算机视觉任务提供强大的骨干网络支持。它主要解决了传统 Vision Transformer (ViT) 在处理高分辨率图像时计算成本高、显存占用大以及难以线性扩展的痛点。通过引入类似 RNN 的线性注意力机制，Vision-RWKV 在保持全局感受野的同时，显著降低了计算复杂度，实现了更流畅的高清图像处理能力。\n\n该工具特别适合人工智能研究人员、算法工程师及深度学习开发者使用，尤其是那些需要在分类、目标检测和密集预测等任务中追求更高推理速度或受限于硬件资源的团队。其核心亮点在于卓越的“可扩展性”与“效率”：在大规模数据集预训练下表现稳定，且在分类任务中精度超越 ViT；在密集预测场景中，它以更低的浮点运算量（FLOPs）和更快的速度，达到了甚至优于全局注意力机制 ViT 的性能。作为 ViT 的高效替代方案，Vision-RWKV 已提供从轻量级到大型等多种预训练模型，方便用户根据实际需求灵活部署，助力构建更快、更省资源的视觉应用。","# Vision-RWKV\nThe official implementation of \"[Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.02308)\".\n\n## News🚀🚀🚀\n- `2025\u002F02\u002F18`: A new version of the CUDA code has been added in the `cuda_new` folder to eliminate the hardcoding of `T_MAX`.\n- `2025\u002F02\u002F11`: 🎊🎊 Vison-RWKV is accepted by ICLR 2025!\n- `2024\u002F04\u002F14`: We support rwkv6 in classification task, higher performance!\n- `2024\u002F03\u002F04`: We release the code and models of Vision-RWKV.\n\n## Highlights\n\n- **High-Resolution Efficiency**: Processed high-resolution images smoothly with a global receptive field.\n- **Scalability**: Pre-trained with large-scale datasets and posses scale up stablity.\n- **Superior Performance**: Achieved a better performance in classfication tasks than ViTs. Surpassed window-based ViTs and comparabled to global attention ViTs with lower flops and higher speed in dense prediction tasks.\n- **Efficient Alternative**: Capability to be an alternative backbone to ViT in comprehensive vision tasks.\n\n\u003Cimg width=\"1238\" alt=\"image\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_Vision-RWKV_readme_fd9b906371b8.png\">\n\n\n## Overview\n\n\u003Cimg width=\"1238\" alt=\"image\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_Vision-RWKV_readme_9f7331d81778.png\">\n\n## Schedule\n- [x] Support RWKV6 as VRWKV6\n- [x] Release VRWKV-L\n- [x] Release VRWKV-T\u002FS\u002FB\n\n## Model Zoo\n\n### Pretrained Models\n|  Model  |   Size   |   Pretrain   |       Download       |\n|:-------:|:--------:|:------------:|:--------------------:|\n| VRWKV-L |    192   | ImageNet-22K | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fvrwkv_l_in22k_192.pth) |\n\n### Image Classification (ImageNet-1K)\n\n|  Model   |   Size   | #Param | #FLOPs |  Top-1 Acc |       Download       |\n|:--------:|:--------:| ------:| ------:|:----------:|:--------------------:|\n| VRWKV-T  |    224   |   6.2M |   1.2G |    75.1    | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fvrwkv_t_in1k_224.pth)    \\| [cfg](classification\u002Fconfigs\u002Fvrwkv\u002Fvrwkv_tiny_8xb128_in1k.py)        |\n| VRWKV-S  |    224   |  23.8M |   4.6G |    80.1    | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fvrwkv_s_in1k_224.pth)    \\| [cfg](classification\u002Fconfigs\u002Fvrwkv\u002Fvrwkv_small_8xb128_in1k.py)       |\n| VRWKV-B  |    224   |  93.7M |  18.2G |    82.0    | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fvrwkv_b_in1k_224.pth)    \\| [cfg](classification\u002Fconfigs\u002Fvrwkv\u002Fvrwkv_base_16xb64_in1k.py)        |\n| VRWKV-L  |    384   | 334.9M | 189.5G |    86.0    | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fvrwkv_l_22kto1k_384.pth) \\| [cfg](classification_internimage\u002Fconfigs\u002Fvrwkv_l_22kto1k_384.yaml) |\n| VRWKV6-T |    224   |   7.6M |   1.6G |    76.6    | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fvrwkv6_t_in1k_224.pth)    \\| [cfg](classification\u002Fconfigs\u002Fvrwkv6\u002Fvrwkv6_tiny_8xb128_in1k.py)        |\n| VRWKV6-S |    224   |  27.7M |   5.6G |    81.1    | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fvrwkv6_s_in1k_224.pth)    \\| [cfg](classification\u002Fconfigs\u002Fvrwkv6\u002Fvrwkv6_small_8xb128_in1k.py)       |\n| VRWKV6-B |    224   | 104.9M |  20.9G |    82.6    | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fvrwkv6_b_in1k_224.pth)    \\| [cfg](classification\u002Fconfigs\u002Fvrwkv6\u002Fvrwkv6_base_16xb64_in1k.py)        |\n\n- VRWKV-L is pretrained on ImageNet-22K and then finetuned on ImageNet-1K.\n- We train VRWKV-L with the internimage codebase for a higher speed.\n\n### Object Detection with Mask-RCNN head (COCO)\n\n\n|  Model  | #Param |  #FLOPs | box AP |  mask AP |       Download       |\n|:-------:| ------:| -------:|:------:|:--------:|:--------------------:|\n| VRWKV-T |   8.4M |   67.9G |  41.7  |   38.0   | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fmask_rcnn_vrwkv_adapter_tiny_fpn_1x_coco.pth)  \\| [cfg](detection\u002Fconfigs\u002Fmask_rcnn\u002Fmask_rcnn_vrwkv_adapter_tiny_fpn_1x_coco.py)  |\n| VRWKV-S |  29.3M |  189.9G |  44.8  |   40.2   | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fmask_rcnn_vrwkv_adapter_small_fpn_1x_coco.pth) \\| [cfg](detection\u002Fconfigs\u002Fmask_rcnn\u002Fmask_rcnn_vrwkv_adapter_small_fpn_1x_coco.py) |\n| VRWKV-B | 106.6M |  599.0G |  46.8  |   41.7   | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fmask_rcnn_vrwkv_adapter_base_fpn_1x_coco.pth)  \\| [cfg](detection\u002Fconfigs\u002Fmask_rcnn\u002Fmask_rcnn_vrwkv_adapter_base_fpn_1x_coco.py)  |\n| VRWKV-L | 351.9M | 1730.6G |  50.6  |   44.9   | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fmask_rcnn_vrwkv_adapter_large_fpn_1x_coco.pth) \\| [cfg](detection\u002Fconfigs\u002Fmask_rcnn\u002Fmask_rcnn_vrwkv_adapter_large_fpn_1x_coco.py) |\n\n- We report the \\#Param and \\#FLOPs of the backbone in this table.\n\n### Semantic Segmentation with UperNet head (ADE20K)\n\n\n|  Model  | #Param | #FLOPs |   mIoU   |       Download       |\n|:-------:| ------:| ------:|:--------:|:--------------------:|\n| VRWKV-T |   8.4M |  16.6G |   43.3   | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fupernet_vrwkv_adapter_tiny_512_160k_ade20k.pth)  \\| [cfg](segmentation\u002Fconfigs\u002Fade20k\u002Fupernet_vrwkv_adapter_tiny_512_160k_ade20k.py)  |\n| VRWKV-S |  29.3M |  46.3G |   47.2   | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fupernet_vrwkv_adapter_small_512_160k_ade20k.pth) \\| [cfg](segmentation\u002Fconfigs\u002Fade20k\u002Fupernet_vrwkv_adapter_small_512_160k_ade20k.py) |\n| VRWKV-B | 106.6M | 146.0G |   49.2   | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fupernet_vrwkv_adapter_base_512_160k_ade20k.pth)  \\| [cfg](segmentation\u002Fconfigs\u002Fade20k\u002Fupernet_vrwkv_adapter_base_512_160k_ade20k.py)  |\n| VRWKV-L | 351.9M | 421.9G |   53.5   | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fupernet_vrwkv_adapter_large_512_160k_ade20k.pth) \\| [cfg](segmentation\u002Fconfigs\u002Fade20k\u002Fupernet_vrwkv_adapter_large_512_160k_ade20k.py) |\n\n- We report the \\#Param and \\#FLOPs of the backbone in this table.\n\n## Citation\nIf this work is helpful for your research, please consider citing the following BibTeX entry.\n```BibTeX\n@article{duan2024vrwkv,\n  title={Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures},\n  author={Duan, Yuchen and Wang, Weiyun and Chen, Zhe and Zhu, Xizhou and Lu, Lewei and Lu, Tong and Qiao, Yu and Li, Hongsheng and Dai, Jifeng and Wang, Wenhai},\n  journal={arXiv preprint arXiv:2403.02308},\n  year={2024}\n}\n```\n\n## License\nThis repository is released under the Apache 2.0 license as found in the [LICENSE](LICENSE) file.\n\n## Acknowledgement\n\nVision-RWKV is built with reference to the code of the following projects:  [RWKV](https:\u002F\u002Fgithub.com\u002FBlinkDL\u002FRWKV-LM), [MMPretrain](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmpretrain), [MMDetection](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmdetection), [MMSegmentation](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmsegmentation), [ViT-Adapter](https:\u002F\u002Fgithub.com\u002Fczczup\u002FViT-Adapter), [InternImage](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternImage). Thanks for their awesome work!","# Vision-RWKV\n“Vision-RWKV：基于RWKV类似架构的高效可扩展视觉感知”（[arXiv:2403.02308](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.02308)）的官方实现。\n\n## 新闻🚀🚀🚀\n- `2025\u002F02\u002F18`：在`cuda_new`文件夹中新增了CUDA代码版本，以消除`T_MAX`的硬编码。\n- `2025\u002F02\u002F11`：🎊🎊 Vision-RWKV已被ICLR 2025接收！\n- `2024\u002F04\u002F14`：我们在分类任务中支持rwkv6，性能更高！\n- `2024\u002F03\u002F04`：我们发布了Vision-RWKV的代码和模型。\n\n## 亮点\n\n- **高分辨率效率**：以全局感受野流畅处理高分辨率图像。\n- **可扩展性**：基于大规模数据集预训练，并具备良好的规模扩展稳定性。\n- **卓越性能**：在分类任务中表现优于ViT；在密集预测任务中，其FLOPs更低、速度更快，超越了基于窗口的ViT，与全局注意力ViT相当。\n- **高效替代方案**：可在综合性视觉任务中作为ViT的替代骨干网络。\n\n\u003Cimg width=\"1238\" alt=\"image\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_Vision-RWKV_readme_fd9b906371b8.png\">\n\n\n## 概述\n\n\u003Cimg width=\"1238\" alt=\"image\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_Vision-RWKV_readme_9f7331d81778.png\">\n\n## 进度计划\n- [x] 支持RWKV6作为VRWKV6\n- [x] 发布VRWKV-L\n- [x] 发布VRWKV-T\u002FS\u002FB\n\n## 模型库\n\n### 预训练模型\n| 模型   | 尺寸   | 预训练数据集   | 下载链接       |\n|:-------:|:--------:|:------------:|:--------------------:|\n| VRWKV-L |    192   | ImageNet-22K | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fvrwkv_l_in22k_192.pth) |\n\n### 图像分类（ImageNet-1K）\n\n| 模型   | 尺寸   | 参数量 | FLOPs | Top-1准确率 | 下载链接       |\n|:--------:|:--------:| ------:| ------:|:----------:|:--------------------:|\n| VRWKV-T  |    224   |   6.2M |   1.2G |    75.1    | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fvrwkv_t_in1k_224.pth)    \\| [配置文件](classification\u002Fconfigs\u002Fvrwkv\u002Fvrwkv_tiny_8xb128_in1k.py)        |\n| VRWKV-S  |    224   |  23.8M |   4.6G |    80.1    | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fvrwkv_s_in1k_224.pth)    \\| [配置文件](classification\u002Fconfigs\u002Fvrwkv\u002Fvrwkv_small_8xb128_in1k.py)       |\n| VRWKV-B  |    224   |  93.7M |  18.2G |    82.0    | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fvrwkv_b_in1k_224.pth)    \\| [配置文件](classification\u002Fconfigs\u002Fvrwkv\u002Fvrwkv_base_16xb64_in1k.py)        |\n| VRWKV-L  |    384   | 334.9M | 189.5G |    86.0    | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fvrwkv_l_22kto1k_384.pth) \\| [配置文件](classification_internimage\u002Fconfigs\u002Fvrwkv_l_22kto1k_384.yaml) |\n| VRWKV6-T |    224   |   7.6M |   1.6G |    76.6    | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fvrwkv6_t_in1k_224.pth)    \\| [配置文件](classification\u002Fconfigs\u002Fvrwkv6\u002Fvrwkv6_tiny_8xb128_in1k.py)        |\n| VRWKV6-S |    224   |  27.7M |   5.6G |    81.1    | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fvrwkv6_s_in1k_224.pth)    \\| [配置文件](classification\u002Fconfigs\u002Fvrwkv6\u002Fvrwkv6_small_8xb128_in1k.py)       |\n| VRWKV6-B |    224   | 104.9M |  20.9G |    82.6    | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fvrwkv6_b_in1k_224.pth)    \\| [配置文件](classification\u002Fconfigs\u002Fvrwkv6\u002Fvrwkv6_base_16xb64_in1k.py)        |\n\n- VRWKV-L先在ImageNet-22K上预训练，随后在ImageNet-1K上进行微调。\n- 我们使用internimage代码库训练VRWKV-L，以提升速度。\n\n### 目标检测（带Mask-RCNN头，COCO数据集）\n\n\n| 模型  | 参数量 | FLOPs | box AP | mask AP | 下载链接       |\n|:-------:| ------:| -------:|:------:|:--------:|:--------------------:|\n| VRWKV-T |   8.4M |   67.9G |  41.7  |   38.0   | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fmask_rcnn_vrwkv_adapter_tiny_fpn_1x_coco.pth)  \\| [配置文件](detection\u002Fconfigs\u002Fmask_rcnn\u002Fmask_rcnn_vrwkv_adapter_tiny_fpn_1x_coco.py)  |\n| VRWKV-S |  29.3M |  189.9G |  44.8  |   40.2   | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fmask_rcnn_vrwkv_adapter_small_fpn_1x_coco.pth) \\| [配置文件](detection\u002Fconfigs\u002Fmask_rcnn\u002Fmask_rcnn_vrwkv_adapter_small_fpn_1x_coco.py) |\n| VRWKV-B | 106.6M |  599.0G |  46.8  |   41.7   | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fmask_rcnn_vrwkv_adapter_base_fpn_1x_coco.pth)  \\| [配置文件](detection\u002Fconfigs\u002Fmask_rcnn\u002Fmask_rcnn_vrwkv_adapter_base_fpn_1x_coco.py)  |\n| VRWKV-L | 351.9M | 1730.6G |  50.6  |   44.9   | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fmask_rcnn_vrwkv_adapter_large_fpn_1x_coco.pth) \\| [配置文件](detection\u002Fconfigs\u002Fmask_rcnn\u002Fmask_rcnn_vrwkv_adapter_large_fpn_1x_coco.py) |\n\n- 本表报告的是骨干网络的参数量和FLOPs。\n\n### 语义分割（带UperNet头，ADE20K数据集）\n\n\n| 模型  | 参数量 | FLOPs | mIoU | 下载链接       |\n|:-------:| ------:| ------:|:--------:|:--------------------:|\n| VRWKV-T |   8.4M |  16.6G |   43.3   | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fupernet_vrwkv_adapter_tiny_512_160k_ade20k.pth)  \\| [配置文件](segmentation\u002Fconfigs\u002Fade20k\u002Fupernet_vrwkv_adapter_tiny_512_160k_ade20k.py)  |\n| VRWKV-S |  29.3M |  46.3G |   47.2   | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fupernet_vrwkv_adapter_small_512_160k_ade20k.pth) \\| [配置文件](segmentation\u002Fconfigs\u002Fade20k\u002Fupernet_vrwkv_adapter_small_512_160k_ade20k.py) |\n| VRWKV-B | 106.6M | 146.0G |   49.2   | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fupernet_vrwkv_adapter_base_512_160k_ade20k.pth)  \\| [配置文件](segmentation\u002Fconfigs\u002Fade20k\u002Fupernet_vrwkv_adapter_base_512_160k_ade20k.py)  |\n| VRWKV-L | 351.9M | 421.9G |   53.5   | [ckpt](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fupernet_vrwkv_adapter_large_512_160k_ade20k.pth) \\| [配置文件](segmentation\u002Fconfigs\u002Fade20k\u002Fupernet_vrwkv_adapter_large_512_160k_ade20k.py) |\n\n- 本表报告的是骨干网络的参数量和FLOPs。\n\n## 引用\n如果本工作对您的研究有所帮助，请考虑引用以下BibTeX条目。\n```BibTeX\n@article{duan2024vrwkv,\n  title={Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures},\n  author={Duan, Yuchen and Wang, Weiyun and Chen, Zhe and Zhu, Xizhou and Lu, Lewei and Lu, Tong and Qiao, Yu and Li, Hongsheng and Dai, Jifeng and Wang, Wenhai},\n  journal={arXiv preprint arXiv:2403.02308},\n  year={2024}\n}\n```\n\n## 许可证\n本仓库采用Apache 2.0许可证发布，详情请参阅[LICENSE](LICENSE)文件。\n\n## 致谢\n\nVision-RWKV 的构建参考了以下项目的代码：[RWKV](https:\u002F\u002Fgithub.com\u002FBlinkDL\u002FRWKV-LM)、[MMPretrain](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmpretrain)、[MMDetection](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmdetection)、[MMSegmentation](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmsegmentation)、[ViT-Adapter](https:\u002F\u002Fgithub.com\u002Fczczup\u002FViT-Adapter)、[InternImage](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternImage)。感谢这些项目团队的出色工作！","# Vision-RWKV 快速上手指南\n\nVision-RWKV 是一种基于 RWKV 架构的高效视觉感知模型，具备高分辨率处理能力、优秀的扩展性以及在分类、检测和分割任务中超越传统 ViT 的性能。本指南将帮助您快速部署并使用该工具。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 18.04+)\n*   **Python**: 3.8 或更高版本\n*   **GPU**: NVIDIA GPU (支持 CUDA)，显存建议 8GB 以上（根据模型大小而定）\n*   **核心依赖**:\n    *   PyTorch (建议 1.12+)\n    *   CUDA Toolkit (需与 PyTorch 版本匹配)\n    *   MMPretrain, MMDetection, MMSegmentation (用于下游任务)\n\n> **提示**：本项目依赖特定的 CUDA 算子。如果您在中国大陆，建议在安装 Python 依赖时使用国内镜像源（如清华源或阿里源）以加速下载。\n\n## 安装步骤\n\n### 1. 克隆项目代码\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FVision-RWKV.git\ncd Vision-RWKV\n```\n\n### 2. 创建虚拟环境并安装基础依赖\n```bash\nconda create -n vrwkv python=3.9 -y\nconda activate vrwkv\n\n# 安装 PyTorch (请根据您的 CUDA 版本选择对应的安装命令，此处以 CUDA 11.8 为例)\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n\n# 安装其他 Python 依赖 (推荐使用国内镜像加速)\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n### 3. 编译 CUDA 算子\nVision-RWKV 需要编译自定义 CUDA 内核以支持高效推理。\n```bash\n# 进入 cuda 目录并编译\ncd cuda\npython setup.py install\ncd ..\n\n# 如果使用最新的 cuda_new 版本 (消除 T_MAX 硬编码限制)\ncd cuda_new\npython setup.py install\ncd ..\n```\n\n### 4. 安装下游任务框架 (可选)\n如果您计划进行目标检测或语义分割，需安装 OpenMMLab 系列库：\n```bash\n# 安装 MMPretrain (分类)\npip install mmpretrain -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n\n# 安装 MMDetection (检测) 和 MMSegmentation (分割)\n# 请参考各官方仓库的安装指南，或使用项目提供的 requirements 文件\npip install -U openmim\nmim install mmdet\nmim install mmsegmentation\n```\n\n## 基本使用\n\n以下示例展示如何加载预训练模型并进行图像分类推理。\n\n### 1. 下载预训练模型\n从 Model Zoo 中选择适合您任务的模型，例如 `VRWKV-T` (Tiny 版本)：\n```bash\nmkdir checkpoints\nwget https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVision-RWKV\u002Fresolve\u002Fmain\u002Fvrwkv_t_in1k_224.pth -O checkpoints\u002Fvrwkv_t_in1k_224.pth\n```\n*(注：如果 HuggingFace 下载缓慢，可尝试使用国内镜像站或代理)*\n\n### 2. Python 推理示例\n创建一个 `demo.py` 文件，运行以下代码：\n\n```python\nimport torch\nfrom PIL import Image\nfrom torchvision import transforms\nfrom classification.models.vrwkv import VRWKV\n\n# 配置设备\ndevice = torch.device(\"cuda\" if torch.cuda.is_available() else \"cpu\")\n\n# 初始化模型 (以 VRWKV-Tiny 为例)\n# 具体参数需参考对应的配置文件 (.py)\nmodel = VRWKV(\n    img_size=224,\n    patch_size=16,\n    embed_dims=192,\n    depth=12,\n    num_heads=6,\n    # ... 其他参数请参考源码或配置文件\n)\n\n# 加载权重\ncheckpoint = torch.load('checkpoints\u002Fvrwkv_t_in1k_224.pth', map_location=device)\nmodel.load_state_dict(checkpoint['state_dict'], strict=False)\nmodel.to(device)\nmodel.eval()\n\n# 图像预处理\ntransform = transforms.Compose([\n    transforms.Resize((224, 224)),\n    transforms.ToTensor(),\n    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),\n])\n\n# 加载图片\nimage = Image.open(\"your_image.jpg\").convert(\"RGB\")\ninput_tensor = transform(image).unsqueeze(0).to(device)\n\n# 推理\nwith torch.no_grad():\n    output = model(input_tensor)\n    prediction = torch.argmax(output, dim=1)\n\nprint(f\"预测类别索引: {prediction.item()}\")\n```\n\n### 3. 使用配置文件运行 (推荐)\n对于标准的分类、检测和分割任务，建议使用项目提供的配置文件和训练\u002F测试脚本，以确保参数对齐。\n\n**图像分类测试示例：**\n```bash\npython classification\u002Ftools\u002Ftest.py \\\n    classification\u002Fconfigs\u002Fvrwkv\u002Fvrwkv_tiny_8xb128_in1k.py \\\n    checkpoints\u002Fvrwkv_t_in1k_224.pth \\\n    --eval accuracy\n```\n\n**目标检测测试示例 (Mask R-CNN):**\n```bash\npython detection\u002Ftools\u002Ftest.py \\\n    detection\u002Fconfigs\u002Fmask_rcnn\u002Fmask_rcnn_vrwkv_adapter_tiny_fpn_1x_coco.py \\\n    checkpoints\u002Fmask_rcnn_vrwkv_adapter_tiny_fpn_1x_coco.pth \\\n    --eval bbox segm\n```","某自动驾驶初创团队正在开发一套车载实时路况感知系统，需要在嵌入式设备上对高分辨率摄像头画面进行毫秒级的物体检测与分割。\n\n### 没有 Vision-RWKV 时\n- **高分辨率处理卡顿**：传统的 ViT 模型在处理 4K 高清路面图像时，因全局注意力机制计算量过大，导致推理延迟严重，无法满足实时性要求。\n- **细节丢失严重**：为了追求速度被迫降低输入分辨率或采用窗口化注意力（Window-based ViT），导致远处小目标（如交通标志、行人）的特征提取不准确。\n- **硬件资源受限**：现有方案浮点运算数（FLOPs）过高，车载芯片算力吃紧，难以同时运行多个感知任务，且功耗超出预算。\n- **扩展性差**：当试图通过增加数据量或模型层数来提升精度时，训练过程不稳定，性能提升遭遇瓶颈。\n\n### 使用 Vision-RWKV 后\n- **流畅处理高清图**：利用 Vision-RWKV 的线性复杂度优势，系统能直接以高分辨率输入图像，在保持全局感受野的同时实现低延迟推理。\n- **精准捕捉小目标**：凭借卓越的高分辨率效率，模型在密集预测任务中表现优异，显著提升了远处行人和细小障碍物的检测精度（Box AP 与 Mask AP 双升）。\n- **降本增效明显**：在同等甚至更高精度下，Vision-RWKV 的 FLOPs 远低于全局注意力 ViT，大幅降低了车载芯片的算力负载与能耗。\n- **稳定规模扩展**：基于大规模数据集预训练的稳定性，团队轻松将模型扩展至更大参数量版本，进一步压榨性能上限而未出现训练震荡。\n\nVision-RWKV 成功将原本只能在云端运行的重型视觉感知能力，高效、稳定地部署到了资源受限的边缘端设备上。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_Vision-RWKV_fd9b9063.png","OpenGVLab","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FOpenGVLab_4422f20f.jpg","General Vision Team of Shanghai AI Laboratory",null,"opengvlab@gmail.com","opengvlab","https:\u002F\u002Fgithub.com\u002FOpenGVLab",[83,87,91,94],{"name":84,"color":85,"percentage":86},"Python","#3572A5",65.8,{"name":88,"color":89,"percentage":90},"Cuda","#3A4E3A",30.1,{"name":92,"color":93,"percentage":10},"C++","#f34b7d",{"name":95,"color":96,"percentage":97},"Shell","#89e051",1.1,545,24,"2026-04-01T15:28:21","Apache-2.0",4,"未说明","需要 NVIDIA GPU（提及了 CUDA 代码及 cuda_new 文件夹），具体显存需求取决于模型大小（VRWKV-L 在检测任务中 FLOPs 高达 1730.6G，建议大显存），CUDA 版本未明确指定但需支持自定义 CUDA 扩展","未说明（大型模型如 VRWKV-L 参数量达 3.5 亿+，建议 32GB 或以上）",{"notes":107,"python":103,"dependencies":108},"该项目依赖 OpenMMLab 系列框架（MMPretrain, MMDetection, MMSegmentation）及 InternImage 代码库。包含自定义 CUDA 算子（支持 RWKV6 及消除 T_MAX 硬编码的新版本），编译环境需配备完整的 CUDA 工具链。不同任务（分类、检测、分割）需安装对应的 MM 系列组件。",[109,110,111,112,113],"torch","mmcv","mmpretrain","mmdetection","mmsegmentation",[14,45],"2026-03-27T02:49:30.150509","2026-04-06T11:55:17.688752",[118,123,128,133,138,143],{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},18831,"运行 RWKV6 测试时遇到 'CUDA error: an illegal memory access was encountered' 错误如何解决？","该错误通常可以通过增加 `vrwkv6.py` 文件中的 `T_MAX` 参数值来解决。请尝试调大该数值以匹配你的输入序列长度或分辨率需求。","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FVision-RWKV\u002Fissues\u002F13",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},18832,"将 VRWKV 模块作为 Attention 的替代品直接替换后，模型性能下降，有哪些关键参数需要调整？","VRWKV 旨在提供与 ViT 相当的性能和扩展稳定性，特别是在大规模预训练下表现更好。如果在小规模数据集或非分层架构中直接替换导致性能下降，建议关注模型训练在扩展后的稳定性。此外，社区指出类似 VMamba 的项目使用了更多技巧来提升性能，直接替换可能需要结合特定的训练策略或架构调整（如分层设计）才能达到最佳效果。","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FVision-RWKV\u002Fissues\u002F10",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},18833,"在非方形图像输入或分布式训练时报错 'CUDA illegal memory access' 且调整 T_MAX 无效怎么办？","如果调整 `T_MAX` 无效，特别是当网络必须接收方形图像输入或在分布式环境下运行时，可以尝试在 `wkv6_op.cpp` 文件中注释掉 `TORCH_LIBRARY` 的注册代码。具体操作是注释掉以下部分：\n\u002F\u002F TORCH_LIBRARY(wkv6, m) {\n\u002F\u002F     m.def(\"forward\", forward);\n\u002F\u002F     m.def(\"backward\", backward);\n\u002F\u002F }\n这有助于解决某些自定义 PyTorch 操作注册引起的兼容性问题。","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FVision-RWKV\u002Fissues\u002F20",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},18834,"如果输入图像尺寸不固定或不能被 patch_size 整除，如何在图像复原任务中使用 VRWKV？","通常可以通过填充（padding）或裁剪（crop）将输入图像调整为相同尺寸（需能被 patch_size 整除）。如果训练集和测试集尺寸差异较大，也可以通过插值或下采样调整图像大小。VRWKV 支持处理不同分辨率的输入（通过位置嵌入的插值实现），输出尺寸将与输入尺寸保持一致（H\u002Fpatch_size, W\u002Fpatch_size）。即使模型是在特定尺寸（如 512x512）下训练的，通常也可以直接用于测试不同尺寸（如 1024x1024）的图像。","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FVision-RWKV\u002Fissues\u002F26",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},18835,"项目是否会发布预训练模型（checkpoint）？有人体姿态估计任务的预训练模型吗？","目前项目方未专门进行人体姿态估计任务的预训练。如果需要使用 VRWKV 作为骨干网络进行该任务，建议使用 [MMPose](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmpose) 框架对模型进行微调。","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FVision-RWKV\u002Fissues\u002F19",{"id":144,"question_zh":145,"answer_zh":146,"source_url":127},18836,"VRWKV 与 Vision Mamba (VMamba) 相比性能如何？为什么基线只用了 ViT？","VRWKV 的设计目标是拥有与最常用的模型（如 ViT）相当的性能和扩展稳定性，重点在于线性注意力模型在视觉领域的探索及大规模训练后的稳定性。虽然 VMamba 在某些基准上表现更好，但这部分归因于其使用了更多的工程技巧。维护者表示，如果将同样的技巧应用到 RWKV6 上，也能获得更好的性能。两者通常在分层与非分层架构的对比中分别进行评估。",[]]