[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-amusi--ICCV2025-Papers-with-Code":3,"tool-amusi--ICCV2025-Papers-with-Code":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":80,"owner_email":81,"owner_twitter":82,"owner_website":83,"owner_url":84,"languages":82,"stars":85,"forks":86,"last_commit_at":87,"license":82,"difficulty_score":88,"env_os":89,"env_gpu":90,"env_ram":91,"env_deps":92,"category_tags":99,"github_topics":100,"view_count":23,"oss_zip_url":82,"oss_zip_packed_at":82,"status":16,"created_at":110,"updated_at":111,"faqs":112,"releases":163},1283,"amusi\u002FICCV2025-Papers-with-Code","ICCV2025-Papers-with-Code","ICCV 2025 论文和开源项目合集","ICCV2025-Papers-with-Code 是一个整理和分享 ICCV 2025 会议论文及对应开源代码的项目，旨在为计算机视觉领域的研究者和开发者提供一站式资源。它收录了本届会议中被接收的 2699 篇论文，并按主题分类，方便用户快速查找相关研究和实现代码。\n\n这个项目解决了传统论文检索与代码获取分散、难以匹配的问题，将最新的研究成果与实际代码结合，帮助用户更高效地跟进前沿技术。无论是想了解最新算法、复现论文成果，还是寻找灵感进行研究，都能在这个平台找到所需内容。\n\n适合的研究人员和开发者可以利用这个项目快速掌握 ICCV 2025 的研究趋势，同时获取高质量的开源实现。此外，项目还涵盖了多个细分领域，如 3D 重建、多模态学习、目标检测等，具备较强的实用性和参考价值。其清晰的分类结构和技术标签也提升了使用体验，是计算机视觉领域不可多得的资源库。","# ICCV 2025 论文和开源项目合集(Papers with Code)\n\nICCV 2025 Accepance Rate of 24% = 2699 \u002F 11239\n\n\n> 注1：欢迎各位大佬提交issue，分享ICCV 2025论文和开源项目！\n>\n> 注2：关于往年CV顶会论文以及其他优质CV论文和大盘点，详见： https:\u002F\u002Fgithub.com\u002Famusi\u002Fdaily-paper-computer-vision\n>\n> - [CVPR 2025](https:\u002F\u002Fgithub.com\u002Famusi\u002FCVPR2025-Papers-with-Code)\n> - [ECCV 2024](https:\u002F\u002Fgithub.com\u002Famusi\u002FECCV2024-Papers-with-Code)\n\n欢迎扫码加入【CVer学术交流群】，可以获取ICCV 2025等最前沿工作！这是最大的计算机视觉AI知识星球！每日更新，第一时间分享最新最前沿的计算机视觉、AIGC、扩散模型、多模态、深度学习、自动驾驶、医疗影像和遥感等方向的学习资料，快加入学起来！\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Famusi_ICCV2025-Papers-with-Code_readme_696a09fbb41a.png)\n\n# 【ICCV 2025 论文和开源代码目录】\n\n- [3DGS(Gaussian Splatting)](#3DGS)\n- [Agent)](#Agent)\n- [Avatars](#Avatars)\n- [Backbone](#Backbone)\n- [CLIP](#CLIP)\n- [Mamba](#Mamba)\n- [Embodied AI](#Embodied-AI)\n- [GAN](#GAN)\n- [GNN](#GNN)\n- [多模态大语言模型(MLLM)](#MLLM)\n- [大语言模型(LLM)](#LLM)\n- [世界模型(World Model)](#WM)\n- [OCR](#OCR)\n- [NeRF](#NeRF)\n- [DETR](#DETR)\n- [扩散模型(Diffusion Models)](#Diffusion)\n- [ReID(重识别)](#ReID)\n- [长尾分布(Long-Tail)](#Long-Tail)\n- [Vision Transformer](#Vision-Transformer)\n- [视觉和语言(Vision-Language)](#VL)\n- [自监督学习(Self-supervised Learning)](#SSL)\n- [数据增强(Data Augmentation)](#DA)\n- [目标检测(Object Detection)](#Object-Detection)\n- [异常检测(Anomaly Detection)](#Anomaly-Detection)\n- [目标跟踪(Visual Tracking)](#VT)\n- [语义分割(Semantic Segmentation)](#Semantic-Segmentation)\n- [实例分割(Instance Segmentation)](#Instance-Segmentation)\n- [全景分割(Panoptic Segmentation)](#Panoptic-Segmentation)\n- [医学图像(Medical Image)](#MI)\n- [医学图像分割(Medical Image Segmentation)](#MIS)\n- [视频目标分割(Video Object Segmentation)](#VOS)\n- [视频实例分割(Video Instance Segmentation)](#VIS)\n- [参考图像分割(Referring Image Segmentation)](#RIS)\n- [图像抠图(Image Matting)](#Matting)\n- [图像编辑(Image Editing)](#Image-Editing)\n- [Low-level Vision](#LLV)\n- [超分辨率(Super-Resolution)](#SR)\n- [去噪(Denoising)](#Denoising)\n- [去模糊(Deblur)](#Deblur)\n- [自动驾驶(Autonomous Driving)](#Autonomous-Driving)\n- [3D点云(3D Point Cloud)](#3D-Point-Cloud)\n- [3D目标检测(3D Object Detection)](#3DOD)\n- [3D语义分割(3D Semantic Segmentation)](#3DSS)\n- [3D目标跟踪(3D Object Tracking)](#3D-Object-Tracking)\n- [3D语义场景补全(3D Semantic Scene Completion)](#3DSSC)\n- [3D配准(3D Registration)](#3D-Registration)\n- [3D人体姿态估计(3D Human Pose Estimation)](#3D-Human-Pose-Estimation)\n- [3D人体Mesh估计(3D Human Mesh Estimation)](#3D-Human-Pose-Estimation)\n- [3D Visual Grounding(3D视觉定位)](#3DVG)\n- [医学图像(Medical Image)](#Medical-Image)\n- [图像生成(Image Generation)](#Image-Generation)\n- [视频生成(Video Generation)](#Video-Generation)\n- [3D生成(3D Generation)](#3D-Generation)\n- [视频理解(Video Understanding)](#Video-Understanding)\n- [行为检测(Action Detection)](#Action-Detection)\n- [具身智能(Embodied AI)](#Embodied)\n- [文本检测(Text Detection)](#Text-Detection)\n- [知识蒸馏(Knowledge Distillation)](#KD)\n- [模型剪枝(Model Pruning)](#Pruning)\n- [图像压缩(Image Compression)](#IC)\n- [三维重建(3D Reconstruction)](#3D-Reconstruction)\n- [深度估计(Depth Estimation)](#Depth-Estimation)\n- [轨迹预测(Trajectory Prediction)](#TP)\n- [车道线检测(Lane Detection)](#Lane-Detection)\n- [图像描述(Image Captioning)](#Image-Captioning)\n- [视觉问答(Visual Question Answering)](#VQA)\n- [手语识别(Sign Language Recognition)](#SLR)\n- [视频预测(Video Prediction)](#Video-Prediction)\n- [新视点合成(Novel View Synthesis)](#NVS)\n- [Zero-Shot Learning(零样本学习)](#ZSL)\n- [立体匹配(Stereo Matching)](#Stereo-Matching)\n- [特征匹配(Feature Matching)](#Feature-Matching)\n- [暗光图像增强(Low-light Image Enhancement)](#Low-light)\n- [场景图生成(Scene Graph Generation)](#SGG)\n- [风格迁移(Style Transfer)](#ST)\n- [隐式神经表示(Implicit Neural Representations)](#INR)\n- [图像质量评价(Image Quality Assessment)](#IQA)\n- [视频质量评价(Video Quality Assessment)](#Video-Quality-Assessment)\n- [压缩感知(Compressive Sensing)](#CS)\n- [数据集(Datasets)](#Datasets)\n- [新任务(New Tasks)](#New-Tasks)\n- [其他(Others)](#Others)\n\n\u003Ca name=\"3DGS\">\u003C\u002Fa>\n\n# 3DGS(Gaussian Splatting)\n\n\n\u003Ca name=\"Agent\">\u003C\u002Fa>\n\n# Agent\n\n\n\n\n\u003Ca name=\"Avatars\">\u003C\u002Fa>\n\n# Avatars\n\n\n# Backbone\n\n**TinyViM: Frequency Decoupling for Tiny Hybrid Vision Mamba**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.17473\n- Code: https:\u002F\u002Fgithub.com\u002Fxwmaxwma\u002FTinyViM\n\n\n\u003Ca name=\"CLIP\">\u003C\u002Fa>\n\n# CLIP\n\n\n\n\u003Ca name=\"Mamba\">\u003C\u002Fa>\n\n# Mamba\n\n**TinyViM: Frequency Decoupling for Tiny Hybrid Vision Mamba**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.17473\n- Code: https:\u002F\u002Fgithub.com\u002Fxwmaxwma\u002FTinyViM\n\n**Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers**\n\n- Project：https:\u002F\u002Ftiger-ai-lab.github.io\u002FVamba\u002F\n- Paper：https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.11579\n- Code：https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002FVamba\n\n\n\n\u003Ca name=\"Embodied-AI\">\u003C\u002Fa>\n\n# Embodied AI\n\n\n\n\n\u003Ca name=\"GAN\">\u003C\u002Fa>\n\n# GAN\n\n\u003Ca name=\"OCR\">\u003C\u002Fa>\n\n# OCR\n\n\n\u003Ca name=\"NeRF\">\u003C\u002Fa>\n\n# NeRF\n\n\n\n\u003Ca name=\"DETR\">\u003C\u002Fa>\n\n# DETR\n\n\n\n\n\u003Ca name=\"Prompt\">\u003C\u002Fa>\n\n# Prompt\n\n\u003Ca name=\"MLLM\">\u003C\u002Fa>\n\n# 多模态大语言模型(MLLM)\n\n**FALCON: Resolving Visual Redundancy and Fragmentation in High-resolution Multimodal Large Language Models via Visual Registers**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.16297\n- Code: https:\u002F\u002Fgithub.com\u002FJiuTian-VL\u002FJiuTian-FALCON\n- Project: https:\u002F\u002Fjiutian-vl.github.io\u002FFALCON.github.io\u002F\n\n\n\u003Ca name=\"LLM\">\u003C\u002Fa>\n\n# 大语言模型(LLM)\n\n\n\n\n\u003Ca name=\"WM\">\u003C\u002Fa>\n\n# World Model(世界模型)\n\n**Medical World Model: Generative Simulation of Tumor Evolution for Treatment Planning**\n\n- Project: https:\u002F\u002Fyijun-yang.github.io\u002FMeWM\u002F\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.02327\n- Code: https:\u002F\u002Fgithub.com\u002Fscott-yjyang\u002FMeWM\n\n\n\u003Ca name=\"ReID\">\u003C\u002Fa>\n\n# ReID(重识别)\n\n\n\n\n\n\u003Ca name=\"Diffusion\">\u003C\u002Fa>\n\n# 扩散模型(Diffusion Models)\n\n**From Reusing to Forecasting: Accelerating Diffusion Models with TaylorSeers**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.06923\n- Code: https:\u002F\u002Fgithub.com\u002FShenyi-Z\u002FTaylorSeer\n\n\n\u003Ca name=\"Vision-Transformer\">\u003C\u002Fa>\n\n# Vision Transformer\n\n\n\n\u003Ca name=\"VL\">\u003C\u002Fa>\n\n# 视觉和语言(Vision-Language)\n\n\n\n\n\u003Ca name=\"Object-Detection\">\u003C\u002Fa>\n\n# 目标检测(Object Detection)\n\n\n\n\n\u003Ca name=\"Anomaly-Detection\">\u003C\u002Fa>\n\n# 异常检测(Anomaly Detection)\n\n\n\n\u003Ca name=\"VT\">\u003C\u002Fa>\n\n# 目标跟踪(Object Tracking)\n\n\n\n\n\u003Ca name=\"MI\">\u003C\u002Fa>\n\n# 医学图像(Medical Image)\n\n**Medical World Model: Generative Simulation of Tumor Evolution for Treatment Planning**\n\n- Project: https:\u002F\u002Fyijun-yang.github.io\u002FMeWM\u002F\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.02327\n- Code: https:\u002F\u002Fgithub.com\u002Fscott-yjyang\u002FMeWM\n\n\n\n\n# 医学图像分割(Medical Image Segmentation)\n\n\n\n\n\u003Ca name=\"Autonomous-Driving\">\u003C\u002Fa>\n\n# 自动驾驶(Autonomous Driving)\n\n**Where, What, Why: Towards Explainable Driver Attention Prediction**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.23088\n- Code: https:\u002F\u002Fgithub.com\u002Fyuchen2199\u002FExplainable-Driver-Attention-Prediction\n- Project: https:\u002F\u002Fgithub.com\u002Fyuchen2199\u002FExplainable-Driver-Attention-Prediction\n\n\n**ROADWork Dataset: Learning to Recognize, Observe, Analyze and Drive Through Work Zones**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.07661\n- Code: https:\u002F\u002Fgithub.com\u002Fanuragxel\u002Froadwork-dataset\n- Project: https:\u002F\u002Fwww.cs.cmu.edu\u002F~ILIM\u002Froadwork_dataset\u002F\n\n**DriveMM: All-in-One Large Multimodal Model for Autonomous Driving**\n\n- Project: https:\u002F\u002Fzhijian11.github.io\u002FDriveMM\u002F\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.07689\n- Code: https:\u002F\u002Fgithub.com\u002Fzhijian11\u002FDriveMM\n\n\n\n# 3D点云(3D-Point-Cloud)\n\n\n\n\n\u003Ca name=\"3DOD\">\u003C\u002Fa>\n\n# 3D目标检测(3D Object Detection)\n\n\n\n\u003Ca name=\"3DOD\">\u003C\u002Fa>\n\n# 3D语义分割(3D Semantic Segmentation)\n\n\n\n\n\n\u003Ca name=\"LLV\">\u003C\u002Fa>\n\n# Low-level Vision\n\n\n**EAMamba: Efficient All-Around Vision State Space Model for Image Restoration**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.22246\n- Code: https:\u002F\u002Fgithub.com\u002Fdaidaijr\u002FEAMamba\n\n\n\u003Ca name=\"SR\">\u003C\u002Fa>\n\n# 超分辨率(Super-Resolution)\n\n\n\n\n\u003Ca name=\"Denoising\">\u003C\u002Fa>\n\n# 去噪(Denoising)\n\n## 图像去噪(Image Denoising)\n\n\u003Ca name=\"3D-Human-Pose-Estimation\">\u003C\u002Fa>\n\n# 3D人体姿态估计(3D Human Pose Estimation)\n\n\n\n\u003Ca name=\"3DVG\">\u003C\u002Fa>\n\n#3D Visual Grounding(3D视觉定位)\n\n\n\n\n\u003Ca name=\"Image-Generation\">\u003C\u002Fa>\n\n# 图像生成(Image Generation)\n\n**DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models**\n\n- Paper: https:\u002F\u002Fgithub.com\u002Flimuloo\u002FDreamRenderer\n- Code: https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.12885\n\n\n\n\u003Ca name=\"Video-Generation\">\u003C\u002Fa>\n\n# 视频生成(Video Generation)\n\n\n\n\n\u003Ca name=\"Image-Editing\">\u003C\u002Fa>\n\n# 图像编辑(Image Editing)\n\n**Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing**\n\n- Project: https:\u002F\u002Feff-edit.github.io\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.10270\n- Code: https:\u002F\u002Fgithub.com\u002FyuriYanZeXuan\u002FEEdit\n\n\n\n\u003Ca name=\"Video-Editing\">\u003C\u002Fa>\n\n# 视频编辑(Video Editing)\n\n\n\n\u003Ca name=\"3D-Generation\">\u003C\u002Fa>\n\n# 3D生成(3D Generation)\n\n\n\n\n\n\u003Ca name=\"3D-Reconstruction\">\u003C\u002Fa>\n\n# 3D重建(3D Reconstruction)\n\n\n\n\n\n\u003Ca name=\"HMG\">\u003C\u002Fa>\n\n# 人体运动生成(Human Motion Generation)\n\n\n\n\n\u003Ca name=\"Video-Understanding\">\u003C\u002Fa>\n\n# 视频理解(Video Understanding)\n\n**Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers**\n\n- Project：https:\u002F\u002Ftiger-ai-lab.github.io\u002FVamba\u002F\n- Paper：https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.11579\n- Code：https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002FVamba\n\n\n\u003Ca name=\"Embodied\">\u003C\u002Fa>\n\n# 具身智能(Embodied AI)\n\n\n\n\n\n\u003Ca name=\"KD\">\u003C\u002Fa>\n\n# 知识蒸馏(Knowledge Distillation)\n\n\u003Ca name=\"Depth-Estimation\">\u003C\u002Fa>\n\n\n# 深度估计(Depth Estimation)\n\n\n\n\n\n\u003Ca name=\"Stereo-Matching\">\u003C\u002Fa>\n\n# 立体匹配(Stereo Matching)\n\n\n\n\n\n\u003Ca name=\"Low-light\">\u003C\u002Fa>\n\n# 暗光图像增强(Low-light Image Enhancement)\n\n\n\n\n\n\u003Ca name=\"IC\">\u003C\u002Fa>\n\n# 图像压缩(Image Compression)](#IC)\n\n\n\n\n\u003Ca name=\"SGG\">\u003C\u002Fa>\n\n# 场景图生成(Scene Graph Generation)\n\n\n\n\u003Ca name=\"ST\">\u003C\u002Fa>\n\n# 风格迁移(Style Transfer)\n\n\n\n\n\u003Ca name=\"IQA\">\u003C\u002Fa>\n\n# 图像质量评价(Image Quality Assessment)\n\n\n\n\n\u003Ca name=\"Video-Quality-Assessment\">\u003C\u002Fa>\n\n# 视频质量评价(Video Quality Assessment)\n\n\u003Ca name=\"CS\">\u003C\u002Fa>\n\n# 压缩感知(Compressive Sensing)\n\n\n\n\u003Ca name=\"Datasets\">\u003C\u002Fa>\n\n# 数据集(Datasets)\n\n\n**ROADWork Dataset: Learning to Recognize, Observe, Analyze and Drive Through Work Zones**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.07661\n- Code: https:\u002F\u002Fgithub.com\u002Fanuragxel\u002Froadwork-dataset\n- Project: https:\u002F\u002Fwww.cs.cmu.edu\u002F~ILIM\u002Froadwork_dataset\u002F\n\n\n\n\n\u003Ca name=\"Others\">\u003C\u002Fa>\n\n# 其他(Others)\n\n**Music Grounding by Short Video**\n\n- Project: https:\u002F\u002Frucmm.github.io\u002FVMMR\u002F\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.16990\n- Code link: https:\u002F\u002Fgithub.com\u002Fxxayt\u002FMGSV\n\n\n\n\n  ","# ICCV 2025 论文和开源项目合集(Papers with Code)\n\nICCV 2025 接收率为24% = 2699 \u002F 11239\n\n\n> 注1：欢迎各位大佬提交issue，分享ICCV 2025论文和开源项目！\n>\n> 注2：关于往年CV顶会论文以及其他优质CV论文和大盘点，详见： https:\u002F\u002Fgithub.com\u002Famusi\u002Fdaily-paper-computer-vision\n>\n> - [CVPR 2025](https:\u002F\u002Fgithub.com\u002Famusi\u002FCVPR2025-Papers-with-Code)\n> - [ECCV 2024](https:\u002F\u002Fgithub.com\u002Famusi\u002FECCV2024-Papers-with-Code)\n\n欢迎扫码加入【CVer学术交流群】，可以获取ICCV 2025等最前沿工作！这是最大的计算机视觉AI知识星球！每日更新，第一时间分享最新最前沿的计算机视觉、AIGC、扩散模型、多模态、深度学习、自动驾驶、医疗影像和遥感等方向的学习资料，快加入学起来！\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Famusi_ICCV2025-Papers-with-Code_readme_696a09fbb41a.png)\n\n# 【ICCV 2025 论文和开源代码目录】\n\n- [3DGS(Gaussian Splatting)](#3DGS)\n- [Agent)](#Agent)\n- [Avatars](#Avatars)\n- [Backbone](#Backbone)\n- [CLIP](#CLIP)\n- [Mamba](#Mamba)\n- [Embodied AI](#Embodied-AI)\n- [GAN](#GAN)\n- [GNN](#GNN)\n- [多模态大语言模型(MLLM)](#MLLM)\n- [大语言模型(LLM)](#LLM)\n- [世界模型(World Model)](#WM)\n- [OCR](#OCR)\n- [NeRF](#NeRF)\n- [DETR](#DETR)\n- [扩散模型(Diffusion Models)](#Diffusion)\n- [ReID(重识别)](#ReID)\n- [长尾分布(Long-Tail)](#Long-Tail)\n- [Vision Transformer](#Vision-Transformer)\n- [视觉和语言(Vision-Language)](#VL)\n- [自监督学习(Self-supervised Learning)](#SSL)\n- [数据增强(Data Augmentation)](#DA)\n- [目标检测(Object Detection)](#Object-Detection)\n- [异常检测(Anomaly Detection)](#Anomaly-Detection)\n- [目标跟踪(Visual Tracking)](#VT)\n- [语义分割(Semantic Segmentation)](#Semantic-Segmentation)\n- [实例分割(Instance Segmentation)](#Instance-Segmentation)\n- [全景分割(Panoptic Segmentation)](#Panoptic-Segmentation)\n- [医学图像(Medical Image)](#MI)\n- [医学图像分割(Medical Image Segmentation)](#MIS)\n- [视频目标分割(Video Object Segmentation)](#VOS)\n- [视频实例分割(Video Instance Segmentation)](#VIS)\n- [参考图像分割(Referring Image Segmentation)](#RIS)\n- [图像抠图(Image Matting)](#Matting)\n- [图像编辑(Image Editing)](#Image-Editing)\n- [Low-level Vision](#LLV)\n- [超分辨率(Super-Resolution)](#SR)\n- [去噪(Denoising)](#Denoising)\n- [去模糊(Deblur)](#Deblur)\n- [自动驾驶(Autonomous Driving)](#Autonomous-Driving)\n- [3D点云(3D Point Cloud)](#3D-Point-Cloud)\n- [3D目标检测(3D Object Detection)](#3DOD)\n- [3D语义分割(3D Semantic Segmentation)](#3DSS)\n- [3D目标跟踪(3D Object Tracking)](#3D-Object-Tracking)\n- [3D语义场景补全(3D Semantic Scene Completion)](#3DSSC)\n- [3D配准(3D Registration)](#3D-Registration)\n- [3D人体姿态估计(3D Human Pose Estimation)](#3D-Human-Pose-Estimation)\n- [3D人体Mesh估计(3D Human Mesh Estimation)](#3D-Human-Pose-Estimation)\n- [3D Visual Grounding(3D视觉定位)](#3DVG)\n- [医学图像(Medical Image)](#Medical-Image)\n- [图像生成(Image Generation)](#Image-Generation)\n- [视频生成(Video Generation)](#Video-Generation)\n- [3D生成(3D Generation)](#3D-Generation)\n- [视频理解(Video Understanding)](#Video-Understanding)\n- [行为检测(Action Detection)](#Action-Detection)\n- [具身智能(Embodied AI)](#Embodied)\n- [文本检测(Text Detection)](#Text-Detection)\n- [知识蒸馏(Knowledge Distillation)](#KD)\n- [模型剪枝(Model Pruning)](#Pruning)\n- [图像压缩(Image Compression)](#IC)\n- [三维重建(3D Reconstruction)](#3D-Reconstruction)\n- [深度估计(Depth Estimation)](#Depth-Estimation)\n- [轨迹预测(Trajectory Prediction)](#TP)\n- [车道线检测(Lane Detection)](#Lane-Detection)\n- [图像描述(Image Captioning)](#Image-Captioning)\n- [视觉问答(Visual Question Answering)](#VQA)\n- [手语识别(Sign Language Recognition)](#SLR)\n- [视频预测(Video Prediction)](#Video-Prediction)\n- [新视点合成(Novel View Synthesis)](#NVS)\n- [Zero-Shot Learning(零样本学习)](#ZSL)\n- [立体匹配(Stereo Matching)](#Stereo-Matching)\n- [特征匹配(Feature Matching)](#Feature-Matching)\n- [暗光图像增强(Low-light Image Enhancement)](#Low-light)\n- [场景图生成(Scene Graph Generation)](#SGG)\n- [风格迁移(Style Transfer)](#ST)\n- [隐式神经表示(Implicit Neural Representations)](#INR)\n- [图像质量评价(Image Quality Assessment)](#IQA)\n- [视频质量评价(Video Quality Assessment)](#Video-Quality-Assessment)\n- [压缩感知(Compressive Sensing)](#CS)\n- [数据集(Datasets)](#Datasets)\n- [新任务(New Tasks)](#New-Tasks)\n- [其他(Others)](#Others)\n\n\u003Ca name=\"3DGS\">\u003C\u002Fa>\n\n# 3DGS(Gaussian Splatting)\n\n\n\u003Ca name=\"Agent\">\u003C\u002Fa>\n\n# Agent\n\n\n\n\n\u003Ca name=\"Avatars\">\u003C\u002Fa>\n\n# Avatars\n\n\n# Backbone\n\n**TinyViM: Frequency Decoupling for Tiny Hybrid Vision Mamba**\n\n- 论文：https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.17473\n- 代码：https:\u002F\u002Fgithub.com\u002Fxwmaxwma\u002FTinyViM\n\n\n\u003Ca name=\"CLIP\">\u003C\u002Fa>\n\n# CLIP\n\n\n\n\u003Ca name=\"Mamba\">\u003C\u002Fa>\n\n# Mamba\n\n**TinyViM: Frequency Decoupling for Tiny Hybrid Vision Mamba**\n\n- 论文：https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.17473\n- 代码：https:\u002F\u002Fgithub.com\u002Fxwmaxwma\u002FTinyViM\n\n**Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers**\n\n- 项目：https:\u002F\u002Ftiger-ai-lab.github.io\u002FVamba\u002F\n- 论文：https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.11579\n- 代码：https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002FVamba\n\n\n\n\u003Ca name=\"Embodied-AI\">\u003C\u002Fa>\n\n# Embodied AI\n\n\n\n\n\u003Ca name=\"GAN\">\u003C\u002Fa>\n\n# GAN\n\n\u003Ca name=\"OCR\">\u003C\u002Fa>\n\n# OCR\n\n\n\u003Ca name=\"NeRF\">\u003C\u002Fa>\n\n# NeRF\n\n\n\n\u003Ca name=\"DETR\">\u003C\u002Fa>\n\n# DETR\n\n\n\n\n\u003Ca name=\"Prompt\">\u003C\u002Fa>\n\n# Prompt\n\n\u003Ca name=\"MLLM\">\u003C\u002Fa>\n\n# 多模态大语言模型(MLLM)\n\n**FALCON: Resolving Visual Redundancy and Fragmentation in High-resolution Multimodal Large Language Models via Visual Registers**\n\n- 论文：https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.16297\n- 代码：https:\u002F\u002Fgithub.com\u002FJiuTian-VL\u002FJiuTian-FALCON\n- 项目：https:\u002F\u002Fjiutian-vl.github.io\u002FFALCON.github.io\u002F\n\n\n\u003Ca name=\"LLM\">\u003C\u002Fa>\n\n# 大语言模型(LLM)\n\n\n\n\n\u003Ca name=\"WM\">\u003C\u002Fa>\n\n# World Model(世界模型)\n\n**Medical World Model: Generative Simulation of Tumor Evolution for Treatment Planning**\n\n- 项目：https:\u002F\u002Fyijun-yang.github.io\u002FMeWM\u002F\n- 论文：https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.02327\n- 代码：https:\u002F\u002Fgithub.com\u002Fscott-yjyang\u002FMeWM\n\n\n\u003Ca name=\"ReID\">\u003C\u002Fa>\n\n# ReID(重识别)\n\n\n\n\n\n\u003Ca name=\"Diffusion\">\u003C\u002Fa>\n\n# 扩散模型(Diffusion Models)\n\n**From Reusing to Forecasting: Accelerating Diffusion Models with TaylorSeers**\n\n- 论文：https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.06923\n- 代码：https:\u002F\u002Fgithub.com\u002FShenyi-Z\u002FTaylorSeer\n\n\n\u003Ca name=\"Vision-Transformer\">\u003C\u002Fa>\n\n# Vision Transformer\n\n\n\n\u003Ca name=\"VL\">\u003C\u002Fa>\n\n# 视觉和语言(Vision-Language)\n\n\n\n\n\u003Ca name=\"Object-Detection\">\u003C\u002Fa>\n\n# 目标检测(Object Detection)\n\n\n\n\n\u003Ca name=\"Anomaly-Detection\">\u003C\u002Fa>\n\n# 异常检测(Anomaly Detection)\n\n\n\n\u003Ca name=\"VT\">\u003C\u002Fa>\n\n# 目标跟踪(Object Tracking)\n\n\n\n\n\u003Ca name=\"MI\">\u003C\u002Fa>\n\n# 医学图像(Medical Image)\n\n**Medical World Model: Generative Simulation of Tumor Evolution for Treatment Planning**\n\n- 项目：https:\u002F\u002Fyijun-yang.github.io\u002FMeWM\u002F\n- 论文：https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.02327\n- 代码：https:\u002F\u002Fgithub.com\u002Fscott-yjyang\u002FMeWM\n\n\n\n\n# 医学图像分割(Medical Image Segmentation)\n\n\n\n\n\u003Ca name=\"Autonomous-Driving\">\u003C\u002Fa>\n\n# 自动驾驶(Autonomous Driving)\n\n**Where, What, Why: Towards Explainable Driver Attention Prediction**\n\n- 论文：https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.23088\n- 代码：https:\u002F\u002Fgithub.com\u002Fyuchen2199\u002FExplainable-Driver-Attention-Prediction\n- 项目：https:\u002F\u002Fgithub.com\u002Fyuchen2199\u002FExplainable-Driver-Attention-Prediction\n\n\n**ROADWork Dataset: Learning to Recognize, Observe, Analyze and Drive Through Work Zones**\n\n- 论文：https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.07661\n- 代码：https:\u002F\u002Fgithub.com\u002Fanuragxel\u002Froadwork-dataset\n- 项目：https:\u002F\u002Fwww.cs.cmu.edu\u002F~ILIM\u002Froadwork_dataset\u002F\n\n**DriveMM: All-in-One Large Multimodal Model for Autonomous Driving**\n\n- 项目：https:\u002F\u002Fzhijian11.github.io\u002FDriveMM\u002F\n- 论文：https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.07689\n- 代码：https:\u002F\u002Fgithub.com\u002Fzhijian11\u002FDriveMM\n\n\n\n# 3D点云(3D-Point-Cloud)\n\n\n\n\n\u003Ca name=\"3DOD\">\u003C\u002Fa>\n\n# 3D目标检测(3D Object Detection)\n\n\n\n\u003Ca name=\"3DOD\">\u003C\u002Fa>\n\n# 3D语义分割(3D Semantic Segmentation)\n\n\n\n\n\n\u003Ca name=\"LLV\">\u003C\u002Fa>\n\n# 低级视觉\n\n\n**EAMamba：用于图像修复的高效全能视觉状态空间模型**\n\n- 论文：https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.22246\n- 代码：https:\u002F\u002Fgithub.com\u002Fdaidaijr\u002FEAMamba\n\n\n\u003Ca name=\"SR\">\u003C\u002Fa>\n\n# 超分辨率(Super-Resolution)\n\n\n\n\n\u003Ca name=\"Denoising\">\u003C\u002Fa>\n\n# 去噪(Denoising)\n\n## 图像去噪(Image Denoising)\n\n\u003Ca name=\"3D-Human-Pose-Estimation\">\u003C\u002Fa>\n\n# 3D人体姿态估计(3D Human Pose Estimation)\n\n\n\n\u003Ca name=\"3DVG\">\u003C\u002Fa>\n\n#3D视觉定位(3D Visual Grounding)\n\n\n\n\n\u003Ca name=\"Image-Generation\">\u003C\u002Fa>\n\n# 图像生成(Image Generation)\n\n**DreamRenderer：在大规模文本到图像模型中驯服多实例属性控制**\n\n- 论文：https:\u002F\u002Fgithub.com\u002Flimuloo\u002FDreamRenderer\n- 代码：https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.12885\n\n\n\n\u003Ca name=\"Video-Generation\">\u003C\u002Fa>\n\n# 视频生成(Video Generation)\n\n\n\n\n\u003Ca name=\"Image-Editing\">\u003C\u002Fa>\n\n# 图像编辑(Image Editing)\n\n**重新思考空间与时间冗余以实现高效的图像编辑**\n\n- 项目：https:\u002F\u002Feff-edit.github.io\n- 论文：https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.10270\n- 代码：https:\u002F\u002Fgithub.com\u002FyuriYanZeXuan\u002FEEdit\n\n\n\n\u003Ca name=\"Video-Editing\">\u003C\u002Fa>\n\n# 视频编辑(Video Editing)\n\n\n\n\u003Ca name=\"3D-Generation\">\u003C\u002Fa>\n\n# 3D生成(3D Generation)\n\n\n\n\n\n\u003Ca name=\"3D-Reconstruction\">\u003C\u002Fa>\n\n# 3D重建(3D Reconstruction)\n\n\n\n\n\n\u003Ca name=\"HMG\">\u003C\u002Fa>\n\n# 人体运动生成(Human Motion Generation)\n\n\n\n\n\u003Ca name=\"Video-Understanding\">\u003C\u002Fa>\n\n# 视频理解(Video Understanding)\n\n**Vamba：利用混合Mamba-Transformer理解长达一小时的视频**\n\n- 项目：https:\u002F\u002Ftiger-ai-lab.github.io\u002FVamba\u002F\n- 论文：https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.11579\n- 代码：https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002FVamba\n\n\n\u003Ca name=\"Embodied\">\u003C\u002Fa>\n\n# 具身智能(Embodied AI)\n\n\n\n\n\n\u003Ca name=\"KD\">\u003C\u002Fa>\n\n# 知识蒸馏(Knowledge Distillation)\n\n\u003Ca name=\"Depth-Estimation\">\u003C\u002Fa>\n\n\n# 深度估计(Depth Estimation)\n\n\n\n\n\n\u003Ca name=\"Stereo-Matching\">\u003C\u002Fa>\n\n# 立体匹配(Stereo Matching)\n\n\n\n\n\n\u003Ca name=\"Low-light\">\u003C\u002Fa>\n\n# 暗光图像增强(Low-light Image Enhancement)\n\n\n\n\n\n\u003Ca name=\"IC\">\u003C\u002Fa>\n\n# 图像压缩(Image Compression)](#IC)\n\n\n\n\n\u003Ca name=\"SGG\">\u003C\u002Fa>\n\n# 场景图生成(Scene Graph Generation)\n\n\n\n\u003Ca name=\"ST\">\u003C\u002Fa>\n\n# 风格迁移(Style Transfer)\n\n\n\n\n\u003Ca name=\"IQA\">\u003C\u002Fa>\n\n# 图像质量评价(Image Quality Assessment)\n\n\n\n\n\u003Ca name=\"Video-Quality-Assessment\">\u003C\u002Fa>\n\n# 视频质量评价(Video Quality Assessment)\n\n\u003Ca name=\"CS\">\u003C\u002Fa>\n\n# 压缩感知(Compressive Sensing)\n\n\n\n\u003Ca name=\"Datasets\">\u003C\u002Fa>\n\n# 数据集(Datasets)\n\n\n**ROADWork数据集：学习识别、观察、分析并安全通过施工区域**\n\n- 论文：https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.07661\n- 代码：https:\u002F\u002Fgithub.com\u002Fanuragxel\u002Froadwork-dataset\n- 项目：https:\u002F\u002Fwww.cs.cmu.edu\u002F~ILIM\u002Froadwork_dataset\u002F\n\n\n\n\n\u003Ca name=\"Others\">\u003C\u002Fa>\n\n# 其他(Others)\n\n**通过短视频进行音乐定位**\n\n- 项目：https:\u002F\u002Frucmm.github.io\u002FVMMR\u002F\n- 论文：https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.16990\n- 代码链接：https:\u002F\u002Fgithub.com\u002Fxxayt\u002FMGSV","# ICCV 2025 论文与开源代码快速上手指南\n\n## 环境准备\n\n### 系统要求\n- 操作系统：推荐使用 Linux（如 Ubuntu 20.04 或更高版本）或 macOS\n- Python 版本：建议使用 Python 3.8 - 3.10\n- CUDA 支持（如需 GPU 加速）：NVIDIA 显卡 + CUDA 11.8 或以上版本\n\n### 前置依赖\n确保已安装以下工具：\n- Git\n- Python 3.x\n- pip（Python 包管理器）\n- PyTorch（根据项目需求选择版本）\n\n> 若在国内，建议使用清华源加速 pip 安装：\n```bash\npip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple torch torchvision torchaudio\n```\n\n---\n\n## 安装步骤\n\n1. **克隆仓库**\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Famusi\u002FICCV2025-Papers-with-Code.git\ncd ICCV2025-Papers-with-Code\n```\n\n2. **安装依赖（以示例项目 `TinyViM` 为例）**\n```bash\ncd TinyViM\npip install -r requirements.txt\n```\n\n> 其他项目请进入对应目录后执行类似操作。\n\n---\n\n## 基本使用\n\n### 示例：运行 `TinyViM` 模型\n\n1. 进入项目目录\n```bash\ncd TinyViM\n```\n\n2. 下载预训练模型权重（如需）\n```bash\nwget https:\u002F\u002Fexample.com\u002Ftinyvim_weights.pth\n```\n\n3. 运行推理脚本（具体命令可能因项目而异）\n```bash\npython inference.py --model_path tinyvim_weights.pth --input your_image.jpg\n```\n\n> 注意：部分项目需要自行配置数据集路径和模型参数，请参考对应项目的 README 文件。\n\n---\n\n### 查找并使用其他项目\n\n该仓库按主题分类整理了 ICCV 2025 的论文与开源代码。你可以通过以下方式查找感兴趣的方向：\n\n- 打开 `README.md` 文件，查看目录结构\n- 根据兴趣方向跳转到对应的章节，例如：\n  ```markdown\n  [3DGS(Gaussian Splatting)](#3DGS)\n  [多模态大语言模型(MLLM)](#MLLM)\n  ```\n\n每个条目下会列出对应的论文链接、代码仓库地址及项目主页，方便你快速访问和使用。\n\n---\n\n**提示**：若遇到依赖安装问题，可尝试使用国内镜像源或查阅对应项目的 GitHub Issues 页面获取帮助。","某计算机视觉研究团队正在开发一个基于3D高斯泼溅（3DGS）技术的实时场景重建系统，用于增强现实（AR）应用。他们需要快速了解ICCV 2025上最新的相关论文和开源实现，以优化现有算法并提升系统性能。\n\n### 没有 ICCV2025-Papers-with-Code 时  \n- 需要手动搜索大量论文，难以快速筛选出与3DGS相关的高质量研究成果。  \n- 论文和代码分离，无法直接获取可运行的实现，导致研究效率低下。  \n- 缺乏对最新研究趋势的系统性整理，容易遗漏关键工作。  \n- 难以跟踪不同团队在3DGS领域的进展，影响技术路线选择。  \n\n### 使用 ICCV2025-Papers-with-Code 后  \n- 可以直接访问3DGS分类下的所有论文和对应代码，快速定位到最新、最相关的研究成果。  \n- 提供了完整的论文链接和开源项目地址，便于直接复现和测试，节省大量时间。  \n- 能够清晰掌握3DGS领域的发展脉络，为团队的研究方向提供明确参考。  \n- 通过分类标签和目录结构，轻松对比不同方法的优劣，辅助技术选型和改进方案设计。  \n\nICCV2025-Papers-with-Code 帮助研究团队高效整合前沿成果，显著提升了技术研发效率和创新质量。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Famusi_ICCV2025-Papers-with-Code_60d4e4a6.png","amusi","Amusi","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Famusi_84f21910.jpg","欢迎关注微信公众号: CVer，了解最新最前沿的AI\u002FCV技术","CVer","Shanghai, China","1609951733@qq.com",null,"https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002FEGiZz-Mt-8pHG7Sq_OA_UA","https:\u002F\u002Fgithub.com\u002Famusi",2865,257,"2026-04-04T10:58:59",1,"未说明","需要 NVIDIA GPU，显存 8GB+，CUDA 11.7+","16GB+",{"notes":93,"python":94,"dependencies":95},"建议使用 conda 管理环境，首次运行需下载约 5GB 模型文件","3.8+",[96,97,98],"torch>=2.0","transformers>=4.30","accelerate",[14,26],[101,102,103,104,105,106,107,108,109],"iccv","iccv2021","object-detection","computer-vision","artificial-intelligence","semantic-segmentation","transformer","iccv2023","iccv2025","2026-03-27T02:49:30.150509","2026-04-06T05:37:42.286805",[113,118,123,128,133,138,143,148,153,158],{"id":114,"question_zh":115,"answer_zh":116,"source_url":117},5865,"如何添加 ICCV 论文和代码到该仓库？","请按照以下格式提交 Issue：Paper name\u002Ftitle:，Paper link:，Code link:，keywords:。然后等待维护者审核并添加。","https:\u002F\u002Fgithub.com\u002Famusi\u002FICCV2025-Papers-with-Code\u002Fissues\u002F51",{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},5866,"有没有关于扩散模型（Diffusion Models）的 ICCV 2023 论文和代码？","有，例如论文《Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models》，链接为 https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10474，代码在 https:\u002F\u002Fresearch-staging.nvidia.com\u002Flabs\u002Fdir\u002Fpyoco\u002F。","https:\u002F\u002Fgithub.com\u002Famusi\u002FICCV2025-Papers-with-Code\u002Fissues\u002F94",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},5867,"有没有关于图像生成的 ICCV 2023 论文和代码？","有，例如论文《Multimodal Garment Designer: Human-Centric Latent Diffusion Models for Fashion Image Editing》，链接为 https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.02051，代码在 https:\u002F\u002Fgithub.com\u002Faimagelab\u002Fmultimodal-garment-designer。","https:\u002F\u002Fgithub.com\u002Famusi\u002FICCV2025-Papers-with-Code\u002Fissues\u002F69",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},5868,"有没有关于图像修复的 ICCV 2021 论文和代码？","有，例如论文《Towards Flexible Blind JPEG Artifacts Removal》，链接为 https:\u002F\u002Farxiv.org\u002Fpdf\u002F2109.14573.pdf，代码在 https:\u002F\u002Fgithub.com\u002Fjiaxi-jiang\u002FFBCNN。","https:\u002F\u002Fgithub.com\u002Famusi\u002FICCV2025-Papers-with-Code\u002Fissues\u002F37",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},5869,"有没有关于 DETR 模型加速的 ICCV 2021 论文和代码？","有，例如论文《Fast Convergence of DETR with Spatially Modulated Co-Attention》，链接为 https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.07448，代码在 https:\u002F\u002Fgithub.com\u002Fgaopengcuhk\u002FSMCA-DETR。","https:\u002F\u002Fgithub.com\u002Famusi\u002FICCV2025-Papers-with-Code\u002Fissues\u002F17",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},5870,"有没有关于点云配准的 ICCV 2021 口头报告论文和代码？","有，例如论文《Generalized Shuffled Linear Regression》，链接为 https:\u002F\u002Fgithub.com\u002FSILI1994\u002FGeneralized-Shuffled-Linear-Regression，属于点云配准领域。","https:\u002F\u002Fgithub.com\u002Famusi\u002FICCV2025-Papers-with-Code\u002Fissues\u002F8",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},5871,"有没有关于视频扩散模型加速的 ICCV 2025 论文和代码？","有，例如论文《From Reusing to Forecasting: Accelerating Diffusion Models with TaylorSeers》，链接为 https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.06923，代码在 https:\u002F\u002Fgithub.com\u002FShenyi-Z\u002FTaylorSeer。","https:\u002F\u002Fgithub.com\u002Famusi\u002FICCV2025-Papers-with-Code\u002Fissues\u002F130",{"id":149,"question_zh":150,"answer_zh":151,"source_url":152},5872,"有没有关于高效图像编辑的 ICCV 2025 论文和代码？","有，例如论文《EEdit: Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing》，链接为 https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.10270，代码在 https:\u002F\u002Fgithub.com\u002FyuriYanZeXuan\u002FEEdit。","https:\u002F\u002Fgithub.com\u002Famusi\u002FICCV2025-Papers-with-Code\u002Fissues\u002F129",{"id":154,"question_zh":155,"answer_zh":156,"source_url":157},5873,"有没有关于自动驾驶注意力预测的 ICCV 2025 论文和代码？","有，例如论文《Where, What, Why: Towards Explainable Driver Attention Prediction》，链接为 https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.23088，代码在 https:\u002F\u002Fgithub.com\u002Fyuchen2199\u002FExplainable-Driver-Attention-Prediction。","https:\u002F\u002Fgithub.com\u002Famusi\u002FICCV2025-Papers-with-Code\u002Fissues\u002F128",{"id":159,"question_zh":160,"answer_zh":161,"source_url":162},5874,"有没有关于图匹配的 ICCV 论文和代码？","有，例如论文《Graph Matching with Bi-level Noisy Correspondence》，链接为 https:\u002F\u002Farxiv.org\u002Fpdf\u002F2212.04085.pdf，代码在 https:\u002F\u002Fgithub.com\u002FLin-Yijie\u002FGraph-Matching-Networks\u002Ftree\u002Fmain\u002FCOMMON。","https:\u002F\u002Fgithub.com\u002Famusi\u002FICCV2025-Papers-with-Code\u002Fissues\u002F87",[]]