ICCV2025-Papers-with-Code

2.9k 257 非常简单 1 次阅读昨天图像语言模型

AI 解读由 AI 自动生成，仅供参考

ICCV2025-Papers-with-Code 是一个整理和分享 ICCV 2025 会议论文及对应开源代码的项目，旨在为计算机视觉领域的研究者和开发者提供一站式资源。它收录了本届会议中被接收的 2699 篇论文，并按主题分类，方便用户快速查找相关研究和实现代码。

这个项目解决了传统论文检索与代码获取分散、难以匹配的问题，将最新的研究成果与实际代码结合，帮助用户更高效地跟进前沿技术。无论是想了解最新算法、复现论文成果，还是寻找灵感进行研究，都能在这个平台找到所需内容。

适合的研究人员和开发者可以利用这个项目快速掌握 ICCV 2025 的研究趋势，同时获取高质量的开源实现。此外，项目还涵盖了多个细分领域，如 3D 重建、多模态学习、目标检测等，具备较强的实用性和参考价值。其清晰的分类结构和技术标签也提升了使用体验，是计算机视觉领域不可多得的资源库。

使用场景

某计算机视觉研究团队正在开发一个基于3D高斯泼溅（3DGS）技术的实时场景重建系统，用于增强现实（AR）应用。他们需要快速了解ICCV 2025上最新的相关论文和开源实现，以优化现有算法并提升系统性能。

没有 ICCV2025-Papers-with-Code 时

需要手动搜索大量论文，难以快速筛选出与3DGS相关的高质量研究成果。
论文和代码分离，无法直接获取可运行的实现，导致研究效率低下。
缺乏对最新研究趋势的系统性整理，容易遗漏关键工作。
难以跟踪不同团队在3DGS领域的进展，影响技术路线选择。

使用 ICCV2025-Papers-with-Code 后

可以直接访问3DGS分类下的所有论文和对应代码，快速定位到最新、最相关的研究成果。
提供了完整的论文链接和开源项目地址，便于直接复现和测试，节省大量时间。
能够清晰掌握3DGS领域的发展脉络，为团队的研究方向提供明确参考。
通过分类标签和目录结构，轻松对比不同方法的优劣，辅助技术选型和改进方案设计。

ICCV2025-Papers-with-Code 帮助研究团队高效整合前沿成果，显著提升了技术研发效率和创新质量。

运行环境要求

操作系统

未说明

GPU

需要 NVIDIA GPU，显存 8GB+，CUDA 11.7+

内存

16GB+

依赖

notes建议使用 conda 管理环境，首次运行需下载约 5GB 模型文件

python3.8+

torch>=2.0

transformers>=4.30

accelerate

快速开始

ICCV 2025 论文和开源项目合集(Papers with Code)

ICCV 2025 接收率为24% = 2699 / 11239

注1：欢迎各位大佬提交issue，分享ICCV 2025论文和开源项目！

注2：关于往年CV顶会论文以及其他优质CV论文和大盘点，详见： https://github.com/amusi/daily-paper-computer-vision

CVPR 2025

ECCV 2024

欢迎扫码加入【CVer学术交流群】，可以获取ICCV 2025等最前沿工作！这是最大的计算机视觉AI知识星球！每日更新，第一时间分享最新最前沿的计算机视觉、AIGC、扩散模型、多模态、深度学习、自动驾驶、医疗影像和遥感等方向的学习资料，快加入学起来！

【ICCV 2025 论文和开源代码目录】

3DGS(Gaussian Splatting)
Agent)
Avatars
Backbone
CLIP
Mamba
Embodied AI
GAN
GNN
多模态大语言模型(MLLM)
大语言模型(LLM)
世界模型(World Model)
OCR
NeRF
DETR
扩散模型(Diffusion Models)
ReID(重识别)
长尾分布(Long-Tail)
Vision Transformer
视觉和语言(Vision-Language)
自监督学习(Self-supervised Learning)
数据增强(Data Augmentation)
目标检测(Object Detection)
异常检测(Anomaly Detection)
目标跟踪(Visual Tracking)
语义分割(Semantic Segmentation)
实例分割(Instance Segmentation)
全景分割(Panoptic Segmentation)
医学图像(Medical Image)
医学图像分割(Medical Image Segmentation)
视频目标分割(Video Object Segmentation)
视频实例分割(Video Instance Segmentation)
参考图像分割(Referring Image Segmentation)
图像抠图(Image Matting)
图像编辑(Image Editing)
Low-level Vision
超分辨率(Super-Resolution)
去噪(Denoising)
去模糊(Deblur)
自动驾驶(Autonomous Driving)
3D点云(3D Point Cloud)
3D目标检测(3D Object Detection)
3D语义分割(3D Semantic Segmentation)
3D目标跟踪(3D Object Tracking)
3D语义场景补全(3D Semantic Scene Completion)
3D配准(3D Registration)
3D人体姿态估计(3D Human Pose Estimation)
3D人体Mesh估计(3D Human Mesh Estimation)
3D Visual Grounding(3D视觉定位)
医学图像(Medical Image)
图像生成(Image Generation)
视频生成(Video Generation)
3D生成(3D Generation)
视频理解(Video Understanding)
行为检测(Action Detection)
具身智能(Embodied AI)
文本检测(Text Detection)
知识蒸馏(Knowledge Distillation)
模型剪枝(Model Pruning)
图像压缩(Image Compression)
三维重建(3D Reconstruction)
深度估计(Depth Estimation)
轨迹预测(Trajectory Prediction)
车道线检测(Lane Detection)
图像描述(Image Captioning)
视觉问答(Visual Question Answering)
手语识别(Sign Language Recognition)
视频预测(Video Prediction)
新视点合成(Novel View Synthesis)
Zero-Shot Learning(零样本学习)
立体匹配(Stereo Matching)
特征匹配(Feature Matching)
暗光图像增强(Low-light Image Enhancement)
场景图生成(Scene Graph Generation)
风格迁移(Style Transfer)
隐式神经表示(Implicit Neural Representations)
图像质量评价(Image Quality Assessment)
视频质量评价(Video Quality Assessment)
压缩感知(Compressive Sensing)
数据集(Datasets)
新任务(New Tasks)
其他(Others)

3DGS(Gaussian Splatting)

Agent

Avatars

Backbone

TinyViM: Frequency Decoupling for Tiny Hybrid Vision Mamba

论文：https://arxiv.org/abs/2411.17473
代码：https://github.com/xwmaxwma/TinyViM

CLIP

Mamba

TinyViM: Frequency Decoupling for Tiny Hybrid Vision Mamba

论文：https://arxiv.org/abs/2411.17473
代码：https://github.com/xwmaxwma/TinyViM

Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers

项目：https://tiger-ai-lab.github.io/Vamba/
论文：https://arxiv.org/abs/2503.11579
代码：https://github.com/TIGER-AI-Lab/Vamba

Embodied AI

GAN

OCR

NeRF

DETR

Prompt

多模态大语言模型(MLLM)

FALCON: Resolving Visual Redundancy and Fragmentation in High-resolution Multimodal Large Language Models via Visual Registers

论文：https://arxiv.org/abs/2501.16297
代码：https://github.com/JiuTian-VL/JiuTian-FALCON
项目：https://jiutian-vl.github.io/FALCON.github.io/

大语言模型(LLM)

World Model(世界模型)

Medical World Model: Generative Simulation of Tumor Evolution for Treatment Planning

ReID(重识别)

扩散模型(Diffusion Models)

From Reusing to Forecasting: Accelerating Diffusion Models with TaylorSeers

论文：https://arxiv.org/abs/2503.06923
代码：https://github.com/Shenyi-Z/TaylorSeer

Vision Transformer

视觉和语言(Vision-Language)

目标检测(Object Detection)

异常检测(Anomaly Detection)

目标跟踪(Object Tracking)

医学图像(Medical Image)

Medical World Model: Generative Simulation of Tumor Evolution for Treatment Planning

医学图像分割(Medical Image Segmentation)

自动驾驶(Autonomous Driving)

Where, What, Why: Towards Explainable Driver Attention Prediction

论文：https://arxiv.org/abs/2506.23088
代码：https://github.com/yuchen2199/Explainable-Driver-Attention-Prediction
项目：https://github.com/yuchen2199/Explainable-Driver-Attention-Prediction

ROADWork Dataset: Learning to Recognize, Observe, Analyze and Drive Through Work Zones

论文：https://arxiv.org/abs/2406.07661
代码：https://github.com/anuragxel/roadwork-dataset
项目：https://www.cs.cmu.edu/~ILIM/roadwork_dataset/

DriveMM: All-in-One Large Multimodal Model for Autonomous Driving

3D点云(3D-Point-Cloud)

3D目标检测(3D Object Detection)

3D语义分割(3D Semantic Segmentation)

低级视觉

EAMamba：用于图像修复的高效全能视觉状态空间模型

论文：https://arxiv.org/abs/2506.22246
代码：https://github.com/daidaijr/EAMamba

超分辨率(Super-Resolution)

去噪(Denoising)

图像去噪(Image Denoising)

3D人体姿态估计(3D Human Pose Estimation)

#3D视觉定位(3D Visual Grounding)

图像生成(Image Generation)

DreamRenderer：在大规模文本到图像模型中驯服多实例属性控制

论文：https://github.com/limuloo/DreamRenderer
代码：https://arxiv.org/abs/2503.12885

视频生成(Video Generation)

图像编辑(Image Editing)

重新思考空间与时间冗余以实现高效的图像编辑

项目：https://eff-edit.github.io
论文：https://arxiv.org/abs/2503.10270
代码：https://github.com/yuriYanZeXuan/EEdit

视频编辑(Video Editing)

3D生成(3D Generation)

3D重建(3D Reconstruction)

人体运动生成(Human Motion Generation)

视频理解(Video Understanding)

Vamba：利用混合Mamba-Transformer理解长达一小时的视频

项目：https://tiger-ai-lab.github.io/Vamba/
论文：https://arxiv.org/abs/2503.11579
代码：https://github.com/TIGER-AI-Lab/Vamba

具身智能(Embodied AI)

知识蒸馏(Knowledge Distillation)

深度估计(Depth Estimation)

立体匹配(Stereo Matching)

暗光图像增强(Low-light Image Enhancement)

图像压缩(Image Compression)](#IC)

场景图生成(Scene Graph Generation)

风格迁移(Style Transfer)

图像质量评价(Image Quality Assessment)

视频质量评价(Video Quality Assessment)

压缩感知(Compressive Sensing)

数据集(Datasets)

ROADWork数据集：学习识别、观察、分析并安全通过施工区域

论文：https://arxiv.org/abs/2406.07661
代码：https://github.com/anuragxel/roadwork-dataset
项目：https://www.cs.cmu.edu/~ILIM/roadwork_dataset/

其他(Others)

通过短视频进行音乐定位

ICCV 2025 论文与开源代码快速上手指南

环境准备

系统要求

操作系统：推荐使用 Linux（如 Ubuntu 20.04 或更高版本）或 macOS
Python 版本：建议使用 Python 3.8 - 3.10
CUDA 支持（如需 GPU 加速）：NVIDIA 显卡 + CUDA 11.8 或以上版本

前置依赖

确保已安装以下工具：

Git
Python 3.x
pip（Python 包管理器）
PyTorch（根据项目需求选择版本）

若在国内，建议使用清华源加速 pip 安装：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple torch torchvision torchaudio

安装步骤

克隆仓库

git clone https://github.com/amusi/ICCV2025-Papers-with-Code.git
cd ICCV2025-Papers-with-Code

安装依赖（以示例项目 TinyViM 为例）

cd TinyViM
pip install -r requirements.txt

其他项目请进入对应目录后执行类似操作。

基本使用

示例：运行 `TinyViM` 模型

cd TinyViM

下载预训练模型权重（如需）

wget https://example.com/tinyvim_weights.pth

运行推理脚本（具体命令可能因项目而异）

python inference.py --model_path tinyvim_weights.pth --input your_image.jpg

注意：部分项目需要自行配置数据集路径和模型参数，请参考对应项目的 README 文件。

查找并使用其他项目

该仓库按主题分类整理了 ICCV 2025 的论文与开源代码。你可以通过以下方式查找感兴趣的方向：

打开 README.md 文件，查看目录结构

根据兴趣方向跳转到对应的章节，例如：

[3DGS(Gaussian Splatting)](#3DGS)
[多模态大语言模型(MLLM)](#MLLM)

每个条目下会列出对应的论文链接、代码仓库地址及项目主页，方便你快速访问和使用。

提示：若遇到依赖安装问题，可尝试使用国内镜像源或查阅对应项目的 GitHub Issues 页面获取帮助。

常见问题

如何添加 ICCV 论文和代码到该仓库？

有没有关于扩散模型（Diffusion Models）的 ICCV 2023 论文和代码？

有没有关于图像生成的 ICCV 2023 论文和代码？

有没有关于图像修复的 ICCV 2021 论文和代码？

有没有关于 DETR 模型加速的 ICCV 2021 论文和代码？

有没有关于点云配准的 ICCV 2021 口头报告论文和代码？

有没有关于视频扩散模型加速的 ICCV 2025 论文和代码？

有没有关于高效图像编辑的 ICCV 2025 论文和代码？

有没有关于自动驾驶注意力预测的 ICCV 2025 论文和代码？

有没有关于图匹配的 ICCV 论文和代码？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

使用场景

没有 ICCV2025-Papers-with-Code 时

使用 ICCV2025-Papers-with-Code 后

运行环境要求

快速开始

ICCV 2025 论文和开源项目合集(Papers with Code)

【ICCV 2025 论文和开源代码目录】

3DGS(Gaussian Splatting)

Agent

Avatars

Backbone

CLIP

Mamba

Embodied AI

GAN

OCR

NeRF

DETR

Prompt

多模态大语言模型(MLLM)

大语言模型(LLM)

World Model(世界模型)

ReID(重识别)

扩散模型(Diffusion Models)

Vision Transformer

视觉和语言(Vision-Language)

目标检测(Object Detection)

异常检测(Anomaly Detection)

目标跟踪(Object Tracking)

医学图像(Medical Image)

医学图像分割(Medical Image Segmentation)

自动驾驶(Autonomous Driving)

3D点云(3D-Point-Cloud)

3D目标检测(3D Object Detection)

3D语义分割(3D Semantic Segmentation)

低级视觉

超分辨率(Super-Resolution)

去噪(Denoising)

图像去噪(Image Denoising)

3D人体姿态估计(3D Human Pose Estimation)

图像生成(Image Generation)

视频生成(Video Generation)

图像编辑(Image Editing)

视频编辑(Video Editing)

3D生成(3D Generation)

3D重建(3D Reconstruction)

人体运动生成(Human Motion Generation)

视频理解(Video Understanding)

具身智能(Embodied AI)

知识蒸馏(Knowledge Distillation)

深度估计(Depth Estimation)

立体匹配(Stereo Matching)

暗光图像增强(Low-light Image Enhancement)

图像压缩(Image Compression)](#IC)

场景图生成(Scene Graph Generation)

风格迁移(Style Transfer)

图像质量评价(Image Quality Assessment)

视频质量评价(Video Quality Assessment)

压缩感知(Compressive Sensing)

数据集(Datasets)

其他(Others)

ICCV 2025 论文与开源代码快速上手指南

环境准备

系统要求

前置依赖

安装步骤

基本使用

示例：运行 TinyViM 模型

查找并使用其他项目

常见问题

相似工具推荐

stable-diffusion-webui

everything-claude-code

ComfyUI

NextChat

ML-For-Beginners

ragflow

示例：运行 `TinyViM` 模型