[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-SkalskiP--top-cvpr-2025-papers":3,"tool-SkalskiP--top-cvpr-2025-papers":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",153609,2,"2026-04-13T11:34:59",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":78,"owner_twitter":79,"owner_website":80,"owner_url":81,"languages":82,"stars":87,"forks":88,"last_commit_at":89,"license":90,"difficulty_score":91,"env_os":92,"env_gpu":93,"env_ram":93,"env_deps":94,"category_tags":97,"github_topics":99,"view_count":32,"oss_zip_url":110,"oss_zip_packed_at":110,"status":17,"created_at":111,"updated_at":112,"faqs":113,"releases":114},7260,"SkalskiP\u002Ftop-cvpr-2025-papers","top-cvpr-2025-papers","About This repository is a curated collection of the most exciting and influential CVPR 2025 papers. 🔥 [Paper + Code + Demo]","top-cvpr-2025-papers 是一个精心整理的 CVPR 2025 会议论文合集，旨在帮助开发者与研究人员快速锁定计算机视觉领域最具影响力与创新性的研究成果。面对今年高达一万三千多篇的投稿量，从中筛选出真正有价值的“皇冠明珠”绝非易事，而该资源库恰好解决了这一信息过载难题，让用户无需在海量文献中盲目摸索。\n\n无论是高校科研人员、算法工程师，还是对前沿视觉技术充满好奇的学习者，都能在这里高效获取所需资讯。其独特亮点在于不仅提供了论文原文链接，还深度整合了开源代码仓库、演示视频及在线交互 Demo（如 Hugging Face 空间），实现了从理论到实践的无缝衔接。目前收录的内容涵盖 3D 视觉等热门方向，包括 VGGT、MASt3R-SLAM 等备受瞩目的重点项目。通过这种“论文 + 代码 + 演示”的一站式呈现方式，top-cvpr-2025-papers 极大地降低了复现顶级算法的门槛，是跟进年度技术风向的理想起点。","![visitor badge](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_573ceb5452e8.png)\n\n\u003Cdiv align=\"center\">\n  \u003Ch1 align=\"center\">top CVPR 2025 papers\u003C\u002Fh1>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FSkalskiP\u002Ftop-cvpr-2023-papers\">2023\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FSkalskiP\u002Ftop-cvpr-2024-papers\">2024\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FSkalskiP\u002Ftop-cvpr-2025-papers\">2025\u003C\u002Fa>\n\u003C\u002Fdiv>\n\n\u003Cbr>\n\n\u003Cdiv align=\"center\">\n  \u003Cimg width=\"600\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_5441851d93f2.jpg\" \u002F>\n\u003C\u002Fdiv>\n\n## 👋 hello\n\nComputer Vision and Pattern Recognition is a massive conference. In **2025** alone,\n**13,008** papers were submitted, and **2,878** were accepted. I created this repository\nto help you search for crème de la crème of CVPR publications. If the paper you are\nlooking for is not on my short list, take a peek at the full\n[list](https:\u002F\u002Fcvpr.thecvf.com\u002FConferences\u002F2025\u002FAcceptedPapers) of accepted papers.\n\n## 🗞️ papers and posters\n\n*🔥 - highlighted papers*\n\n\u003C!--- AUTOGENERATED_PAPERS_LIST -->\n\u003C!---\n   WARNING: DO NOT EDIT THIS LIST MANUALLY. IT IS AUTOMATICALLY GENERATED.\n   HEAD OVER TO https:\u002F\u002Fgithub.com\u002FSkalskiP\u002Ftop-cvpr-2024-papers\u002Fblob\u002Fmaster\u002FCONTRIBUTING.md FOR MORE DETAILS ON HOW TO MAKE CHANGES PROPERLY.\n-->\n### 3d vision\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F33969.png?t=1748740040.9726639\" title=\"VGGT: Visual Geometry Grounded Transformer\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_72c3c753ae68.png\" alt=\"VGGT: Visual Geometry Grounded Transformer\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.11651\" title=\"VGGT: Visual Geometry Grounded Transformer\">\n        \u003Cstrong>🔥 VGGT: Visual Geometry Grounded Transformer\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Jianyuan Wang, Minghao Chen, Nikita Karaev, Andrea Vedaldi, Christian Rupprecht, David Novotny\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.11651\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fvggt\">code\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fyoutu.be\u002F7ZYwJEpCUUA\">video\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Ffacebook\u002Fvggt\">demo\u003C\u002Fa>] \n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> 3D Vision\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Fri 13 Jun 2 p.m. PDT — 4 p.m. PDT Poster Session 2 #86\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F34871.png?t=1748708079.0490072\" title=\"MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_7555bff89bae.png\" alt=\"MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.12392\" title=\"MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors\">\n        \u003Cstrong>🔥 MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Riku Murai, Eric Dexheimer, Andrew J. Davison\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.12392\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Frmurai0610\u002FMASt3R-SLAM\">code\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=wozt71NBFTQ\">video\u003C\u002Fa>]  \n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> 3D Vision\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Sat 14 Jun 3 p.m. PDT — 5 p.m. PDT Poster Session 4 #83\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F35013.png?t=1748718962.8355792\" title=\"RelationField: Relate Anything in Radiance Fields\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_c7cdde598362.png\" alt=\"RelationField: Relate Anything in Radiance Fields\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.13652\" title=\"RelationField: Relate Anything in Radiance Fields\">\n        \u003Cstrong>RelationField: Relate Anything in Radiance Fields\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Sebastian Koch, Johanna Wald, Mirco Colosi, Narunas Vaskevicius, Pedro Hermosilla, Federico Tombari, Timo Ropinski\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.13652\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fboschresearch\u002Frelationfield\">code\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fyoutu.be\u002F8XxWzoWnYT0\">video\u003C\u002Fa>]  \n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> 3D Vision\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Sun 15 Jun 8:30 a.m. PDT — 10:30 a.m. PDT Poster Session 5 #190\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n### depth estimation\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F32554.png?t=1748195633.2703488\" title=\"UniK3D: Universal Camera Monocular 3D Estimation\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_6d84b9e5411b.png\" alt=\"UniK3D: Universal Camera Monocular 3D Estimation\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.16591\" title=\"UniK3D: Universal Camera Monocular 3D Estimation\">\n        \u003Cstrong>UniK3D: Universal Camera Monocular 3D Estimation\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Luigi Piccinelli, Christos Sakaridis, Mattia Segu, Yung-Hsu Yang, Siyuan Li, Wim Abbeloos, Luc Van Gool\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.16591\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Flpiccinelli-eth\u002FUniK3D\">code\u003C\u002Fa>]  [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Flpiccinelli\u002FUniK3D-demo\">demo\u003C\u002Fa>] \n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Depth Estimation\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Fri 13 Jun 8:30 a.m. PDT — 10:30 a.m. PDT Poster Session 1 #80\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F33026.png?t=1749131392.5907311\" title=\"DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_703284bc1507.png\" alt=\"DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.02095\" title=\"DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos\">\n        \u003Cstrong>🔥 DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Wenbo Hu, Xiangjun Gao, Xiaoyu Li, Sijie Zhao, Xiaodong Cun, Yong Zhang, Long Quan, Ying Shan\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.02095\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTencent\u002FDepthCrafter\">code\u003C\u002Fa>]  [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Ftencent\u002FDepthCrafter\">demo\u003C\u002Fa>] \n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Depth Estimation\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Fri 13 Jun 8:30 a.m. PDT — 10:30 a.m. PDT Poster Session 1 #171\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F33862.png?t=1747997885.3577623\" title=\"Video Depth Anything: Consistent Depth Estimation for Super-Long Videos\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_9306b899f25f.png\" alt=\"Video Depth Anything: Consistent Depth Estimation for Super-Long Videos\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.12375\" title=\"Video Depth Anything: Consistent Depth Estimation for Super-Long Videos\">\n        \u003Cstrong>Video Depth Anything: Consistent Depth Estimation for Super-Long Videos\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Sili Chen, Hengkai Guo, Shengnan Zhu, Feihu Zhang, Zilong Huang, Jiashi Feng, Bingyi Kang\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.12375\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FDepthAnything\u002FVideo-Depth-Anything\">code\u003C\u002Fa>]  [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fdepth-anything\u002FVideo-Depth-Anything\">demo\u003C\u002Fa>] \n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Depth Estimation\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Sun 15 Jun 8:30 a.m. PDT — 10:30 a.m. PDT Poster Session 5 #169\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n### explainability and interpretability\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F34644.png?t=1748853080.0173087\" title=\"Interpreting Object-level Foundation Models via Visual Precision Search\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_57a2f2578d51.png\" alt=\"Interpreting Object-level Foundation Models via Visual Precision Search\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.16198\" title=\"Interpreting Object-level Foundation Models via Visual Precision Search\">\n        \u003Cstrong>🔥 Interpreting Object-level Foundation Models via Visual Precision Search\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Ruoyu Chen, Siyuan Liang, Jingzhi Li, Shiming Liu, Maosen Li, Zhen Huang, Hua Zhang, Xiaochun Cao\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.16198\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FRuoyuChen10\u002FVPS\">code\u003C\u002Fa>]   [\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FRuoyuChen10\u002FVPS\u002Fblob\u002Fmain\u002Ftutorial\u002FGrounding_DINO_explanation.ipynb\">colab\u003C\u002Fa>]\n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Explainability and Interpretability\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Sun 15 Jun 2 p.m. PDT — 4 p.m. PDT Poster Session 6 #372\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n### gaze target estimation\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F34852.png?t=1748847619.7422361\" title=\"Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_7d5a91b6092b.png\" alt=\"Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.09586\" title=\"Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders\">\n        \u003Cstrong>🔥 Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman, James M. Rehg\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.09586\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Ffkryan\u002Fgazelle\">code\u003C\u002Fa>]  [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Ffffiloni\u002FGaze-LLE\">demo\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1TSoyFvNs1-au9kjOZN_fo5ebdzngSPDq?usp=sharing\">colab\u003C\u002Fa>]\n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Gaze Target Estimation\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Sun 15 Jun 2 p.m. PDT — 4 p.m. PDT Poster Session 6 #98\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n### generative models\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F33479.png?t=1748410877.7850628\" title=\"MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_310ce6ba86f1.png\" alt=\"MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.15322\" title=\"MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis\">\n        \u003Cstrong>MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Ho Kei Cheng, Masato Ishii, Akio Hayakawa, Takashi Shibuya, Alexander Schwing, Yuki Mitsufuji\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.15322\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FMMAudio\">code\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fyoutu.be\u002FYElewUT2M4M\">video\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fhkchengrex\u002FMMAudio\">demo\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1TAaXCY2-kPk4xE4PwKB3EqFbSnkUuzZ8?usp=sharing\">colab\u003C\u002Fa>]\n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Generative Models\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Sun 15 Jun 2 p.m. PDT — 4 p.m. PDT Poster Session 6 #260\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F32785.png?t=1748780647.7372541\" title=\"SemanticDraw: Towards Real-Time Interactive Content Creation from Image Diffusion Models\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_d2500632302a.png\" alt=\"SemanticDraw: Towards Real-Time Interactive Content Creation from Image Diffusion Models\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.09055\" title=\"SemanticDraw: Towards Real-Time Interactive Content Creation from Image Diffusion Models\">\n        \u003Cstrong>SemanticDraw: Towards Real-Time Interactive Content Creation from Image Diffusion Models\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Jaerin Lee, Daniel Sungho Jung, Kanggeon Lee, Kyoung Mu Lee\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.09055\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fironjr\u002Fsemantic-draw\">code\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=qR06iiaG5nc\">video\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fironjr\u002Fsemantic-draw-canvas-sdxl\">demo\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fcamenduru\u002FSemanticPalette-jupyter\u002Fblob\u002Fmain\u002FSemanticPalette_jupyter.ipynb\">colab\u003C\u002Fa>]\n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Generative Models\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Sat 14 Jun 8:30 a.m. PDT — 10:30 a.m. PDT Poster Session 3 #226\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n### image matching\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F34813.png?t=1748519375.4086587\" title=\"MINIMA: Modality Invariant Image Matching\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_93310c108792.png\" alt=\"MINIMA: Modality Invariant Image Matching\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.19412\" title=\"MINIMA: Modality Invariant Image Matching\">\n        \u003Cstrong>MINIMA: Modality Invariant Image Matching\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Jiangwei Ren, Xingyu Jiang, Zizhuo Li, Dingkang Liang, Xin Zhou, Xiang Bai\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.19412\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FLSXI7\u002FMINIMA\">code\u003C\u002Fa>]  [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Flsxi77777\u002FMINIMA\">demo\u003C\u002Fa>] \n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Image Matching\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Sun 15 Jun 8:30 a.m. PDT — 10:30 a.m. PDT Poster Session 5 #190\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n### image vectorization\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F34467.png?t=1748720373.8849306\" title=\"Layered Image Vectorization via Semantic Simplification\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_ac66de653e8a.png\" alt=\"Layered Image Vectorization via Semantic Simplification\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.05404\" title=\"Layered Image Vectorization via Semantic Simplification\">\n        \u003Cstrong>Layered Image Vectorization via Semantic Simplification\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Zhenyu Wang, Jianxi Huang, Zhida Sun, Yuanhao Gong, Daniel Cohen-Or, Min Lu\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.05404\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FSZUVIZ\u002Flayered_vectorization\">code\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fyoutu.be\u002FoUYQKjDlwCw\">video\u003C\u002Fa>]  \n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Image Vectorization\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Fri 13 Jun 2 p.m. PDT — 4 p.m. PDT Poster Session 2 #226\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n### object tracking\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F35010.png?t=1748684123.2752578\" title=\"MITracker: Multi-View Integration for Visual Object Tracking\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_e8fe42c49312.png\" alt=\"MITracker: Multi-View Integration for Visual Object Tracking\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.20111\" title=\"MITracker: Multi-View Integration for Visual Object Tracking\">\n        \u003Cstrong>🔥 MITracker: Multi-View Integration for Visual Object Tracking\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Mengjie Xu, Yitao Zhu, Haotian Jiang, Jiaming Li, Zhenrong Shen, Sheng Wang, Haolin Huang, Xinyu Wang, Qing Yang, Han Zhang, Qian Wang\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.20111\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FXuM007\u002FMITracker\">code\u003C\u002Fa>]   \n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Object Tracking\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Sun 15 Jun 2 p.m. PDT — 4 p.m. PDT Poster Session 6 #98\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F33882.png?t=1748536728.1331344\" title=\"Multiple Object Tracking as ID Prediction\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_f6f0ab83d856.png\" alt=\"Multiple Object Tracking as ID Prediction\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.16848\" title=\"Multiple Object Tracking as ID Prediction\">\n        \u003Cstrong>Multiple Object Tracking as ID Prediction\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Ruopeng Gao, Ji Qi, Limin Wang\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.16848\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FMCG-NJU\u002FMOTIP\">code\u003C\u002Fa>]   \n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Object Tracking\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Sun 15 Jun 2 p.m. PDT — 4 p.m. PDT Poster Session 6 #163\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.07256\" title=\"EdgeTAM: On-Device Track Anything Model\">\n        \u003Cstrong>EdgeTAM: On-Device Track Anything Model\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Chong Zhou, Chenchen Zhu, Yunyang Xiong, Saksham Suri, Fanyi Xiao, Lemeng Wu, Raghuraman Krishnamoorthi, Bo Dai, Chen Change Loy, Vikas Chandra, Bilge Soran\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.07256\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEdgeTAM\">code\u003C\u002Fa>]  [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Ffacebook\u002FEdgeTAM\">demo\u003C\u002Fa>] \n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Object Tracking\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Sat 14 Jun 8:30 a.m. PDT — 10:30 a.m. PDT Poster Session 3 #304\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F35133.png?t=1748777099.726237\" title=\"A Distractor-Aware Memory for Visual Object Tracking with SAM2\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_2ec1c4771836.png\" alt=\"A Distractor-Aware Memory for Visual Object Tracking with SAM2\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.17576\" title=\"A Distractor-Aware Memory for Visual Object Tracking with SAM2\">\n        \u003Cstrong>A Distractor-Aware Memory for Visual Object Tracking with SAM2\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Jovana Videnovic, Alan Lukezic, Matej Kristan\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.17576\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fjovanavidenovic\u002FDAM4SAM\">code\u003C\u002Fa>]   \n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Object Tracking\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Sun 15 Jun 8:30 a.m. PDT — 10:30 a.m. PDT Poster Session 5 #309\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F32888.png?t=1747453263.5318122\" title=\"From Poses to Identity: Training-Free Person Re-Identification via Feature Centralization\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_f77d7fc04cad.png\" alt=\"From Poses to Identity: Training-Free Person Re-Identification via Feature Centralization\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.00938\" title=\"From Poses to Identity: Training-Free Person Re-Identification via Feature Centralization\">\n        \u003Cstrong>From Poses to Identity: Training-Free Person Re-Identification via Feature Centralization\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Chao Yuan, Guiwei Zhang, Changxiao Ma, Tianyi Zhang, Guanglin Niu\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.00938\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fyuanc3\u002FPose2ID\">code\u003C\u002Fa>]   \n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Object Tracking\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Sun 15 Jun 8:30 a.m. PDT — 10:30 a.m. PDT Poster Session 5 #190\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n### open-world detection\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F35020.png?t=1748563484.5053573\" title=\"Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_0a9c8307be7c.png\" alt=\"Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.07601\" title=\"Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models\">\n        \u003Cstrong>🔥 Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Jiacong Xu, Shao-Yuan Lo, Bardia Safaei, Vishal M. Patel, Isht Dwivedi\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.07601\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fhonda-research-institute\u002FAnomaly-OneVision\">code\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=b3-qGTm23eA\">video\u003C\u002Fa>]  \n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Open-World Detection\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Sat 14 Jun 3 p.m. PDT — 5 p.m. PDT Poster Session 4 #435\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F32802.png?t=1748865568.2500262\" title=\"Compositional Caching for Training-free Open-vocabulary Attribute Detection\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_8b36f25b1070.png\" alt=\"Compositional Caching for Training-free Open-vocabulary Attribute Detection\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.19145\" title=\"Compositional Caching for Training-free Open-vocabulary Attribute Detection\">\n        \u003Cstrong>🔥 Compositional Caching for Training-free Open-vocabulary Attribute Detection\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Marco Garosi, Alessandro Conti, Gaowen Liu, Elisa Ricci, Massimiliano Mancini\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.19145\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fmarco-garosi\u002FComCa\">code\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fyoutu.be\u002FruHSAGemMa8\">video\u003C\u002Fa>]  \n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Open-World Detection\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Sat 14 Jun 8:30 a.m. PDT — 10:30 a.m. PDT Poster Session 3 #426\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n### pose estimation\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F35057.png?t=1748706748.0220559\" title=\"Reconstructing Humans with a Biomechanically Accurate Skeleton\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_09ae74e0f9b9.png\" alt=\"Reconstructing Humans with a Biomechanically Accurate Skeleton\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.21751\" title=\"Reconstructing Humans with a Biomechanically Accurate Skeleton\">\n        \u003Cstrong>🔥 Reconstructing Humans with a Biomechanically Accurate Skeleton\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Yan Xia, Xiaowei Zhou, Etienne Vouga, Qixing Huang, Georgios Pavlakos\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.21751\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FIsshikiHugh\u002FHSMR\">code\u003C\u002Fa>]  [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FIsshikiHugh\u002FHSMR\">demo\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1RDA9iKckCDKh_bbaKjO8bQ0-Lv5fw1CB?usp=sharing\">colab\u003C\u002Fa>]\n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Pose Estimation\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Fri 13 Jun 2 p.m. PDT — 4 p.m. PDT Poster Session 2 #91\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n### segmentation\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_5cd223bfff76.jpg\" title=\"MatAnyone: Stable Video Matting with Consistent Memory Propagation\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_5cd223bfff76.jpg\" alt=\"MatAnyone: Stable Video Matting with Consistent Memory Propagation\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.14677\" title=\"MatAnyone: Stable Video Matting with Consistent Memory Propagation\">\n        \u003Cstrong>MatAnyone: Stable Video Matting with Consistent Memory Propagation\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Peiqing Yang, Shangchen Zhou, Jixin Zhao, Qingyi Tao, Chen Change Loy\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.14677\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fpq-yang\u002FMatAnyone\">code\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=oih0Zk-UW18\">video\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FPeiqingYang\u002FMatAnyone\">demo\u003C\u002Fa>] \n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Segmentation\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Fri 13 Jun 2 p.m. PDT — 4 p.m. PDT Poster Session 2 #185\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n### stereo matching\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F34330.png?t=1748714664.9139624\" title=\"FoundationStereo: Zero-Shot Stereo Matching\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_68260ee6d40b.png\" alt=\"FoundationStereo: Zero-Shot Stereo Matching\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.09898\" title=\"FoundationStereo: Zero-Shot Stereo Matching\">\n        \u003Cstrong>🔥 FoundationStereo: Zero-Shot Stereo Matching\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Bowen Wen, Matthew Trepte, Joseph Aribido, Jan Kautz, Orazio Gallo, Stan Birchfield\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.09898\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FFoundationStereo\">code\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=R7RgHxEXB3o\">video\u003C\u002Fa>]  \n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Stereo Matching\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Fri 13 Jun 2 p.m. PDT — 4 p.m. PDT Poster Session 2 #81\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n### video understanding\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F32544.png?t=1748596202.019788\" title=\"Towards Universal Soccer Video Understanding\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_4d4f93a526f4.png\" alt=\"Towards Universal Soccer Video Understanding\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.01820\" title=\"Towards Universal Soccer Video Understanding\">\n        \u003Cstrong>Towards Universal Soccer Video Understanding\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Jiayuan Rao, Haoning Wu, Hao Jiang, Ya Zhang, Yanfeng Wang, Weidi Xie\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.01820\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fjyrao\u002FUniSoccer\">code\u003C\u002Fa>]   \n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Video Understanding\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Fri 13 Jun 2 p.m. PDT — 4 p.m. PDT Poster Session 2 #185\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n### vision-language models\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F32887.png?t=1747896029.4399107\" title=\"FastVLM: Efficient Vision Encoding for Vision Language Models\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_e48dd1521810.png\" alt=\"FastVLM: Efficient Vision Encoding for Vision Language Models\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.13303\" title=\"FastVLM: Efficient Vision Encoding for Vision Language Models\">\n        \u003Cstrong>FastVLM: Efficient Vision Encoding for Vision Language Models\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.13303\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fapple\u002Fml-fastvlm\">code\u003C\u002Fa>]   \n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Vision-Language Models\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Sat 14 Jun 3 p.m. PDT — 5 p.m. PDT Poster Session 4 #378\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F33073.png?t=1748883064.876014\" title=\"Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_32cdc2c7e9e9.png\" alt=\"Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.17146\" title=\"Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models\">\n        \u003Cstrong>🔥 Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Matt Deitke, Christopher Clark, Sangho Lee, Rohun Tripathi, Yue Yang, Jae Sung Park, Mohammadreza Salehi, Niklas Muennighoff, Kyle Lo, Luca Soldaini, Jiasen Lu, Taira Anderson, Erin Bransom, Kiana Ehsani, Huong Ngo, YenSung Chen, Ajay Patel, Mark Yatskar, Chris Callison-Burch, Andrew Head, Rose Hendrix, Favyen Bastani, Eli VanderBilt, Nathan Lambert, Yvonne Chou, Arnavi Chheda, Jenna Sparks, Sam Skjonsberg, Michael Schmitz, Aaron Sarnat, Byron Bischoff, Pete Walsh, Chris Newell, Piper Wolters, Tanmay Gupta, Kuo-Hao Zeng, Jon Borchardt, Dirk Groeneveld, Crystal Nam, Sophie Lebrecht, Caitlin Wittlif, Carissa Schoenick, Oscar Michel, Ranjay Krishna, Luca Weihs, Noah A. Smith, Hannaneh Hajishirzi, Ross Girshick, Ali Farhadi, Aniruddha Kembhavi\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.17146\">paper\u003C\u002Fa>]   [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fakhaliq\u002FMolmo-7B-D-0924\">demo\u003C\u002Fa>] \n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Vision-Language Models\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Fri 13 Jun 8:30 a.m. PDT — 10:30 a.m. PDT Poster Session 1 #80\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F34510.png?t=1748805761.17\" title=\"SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_7fd81894a4ef.png\" alt=\"SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.17646\" title=\"SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation\">\n        \u003Cstrong>🔥 SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Claudia Cuttano, Gabriele Trivigno, Gabriele Rosi, Carlo Masone, Giuseppe Averta\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.17646\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FClaudiaCuttano\u002FSAMWISE\">code\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fyoutu.be\u002FOL3xvzFyXCc\">video\u003C\u002Fa>]  \n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Vision-Language Models\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Fri 13 Jun 8:30 a.m. PDT — 10:30 a.m. PDT Poster Session 1 #308\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F34048.png?t=1748839405.5943303\" title=\"VisionArena: 230K Real World User-VLM Conversations with Preference Labels\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_621fffe3761b.png\" alt=\"VisionArena: 230K Real World User-VLM Conversations with Preference Labels\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.08687\" title=\"VisionArena: 230K Real World User-VLM Conversations with Preference Labels\">\n        \u003Cstrong>VisionArena: 230K Real World User-VLM Conversations with Preference Labels\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Christopher Chou, Lisa Dunlap, Koki Mashita, Krishna Mandal, Trevor Darrell, Ion Stoica, Joseph E. Gonzalez, Wei-Lin Chiang\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.08687\">paper\u003C\u002Fa>]   [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flmarena-ai\u002FVisionArena-Battle\">demo\u003C\u002Fa>] \n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Vision-Language Models\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Fri 13 Jun 8:30 a.m. PDT — 10:30 a.m. PDT Poster Session 1 #353\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F33482.png?t=1748620034.1782746\" title=\"DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_20ccc39065c8.png\" alt=\"DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.16334\" title=\"DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment\">\n        \u003Cstrong>DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Cijo Jose, Théo Moutakanni, Dahyun Kang, Federico Baldassarre, Timothée Darcet, Hu Xu, Daniel Li, Marc Szafraniec, Michaël Ramamonjisoa, Maxime Oquab, Oriane Siméoni, Huy V. Vo, Patrick Labatut, Piotr Bojanowski\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.16334\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdinov2\">code\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fyoutu.be\u002FqNsAgsvhbw4\">video\u003C\u002Fa>]  [\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Ffacebookresearch\u002Fdinov2\u002Fblob\u002Fmain\u002Fnotebooks\u002Fdinotxt.ipynb\">colab\u003C\u002Fa>]\n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Vision-Language Models\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Sun 15 Jun 8:30 a.m. PDT — 10:30 a.m. PDT Poster Session 5 #169\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n### visual agents\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_6d2def59fa63.jpg\" title=\"Magma: A Foundation Model for Multimodal AI Agents\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_6d2def59fa63.jpg\" alt=\"Magma: A Foundation Model for Multimodal AI Agents\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.13130\" title=\"Magma: A Foundation Model for Multimodal AI Agents\">\n        \u003Cstrong>Magma: A Foundation Model for Multimodal AI Agents\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Jianwei Yang, Reuben Tan, Qianhui Wu, Ruijie Zheng, Baolin Peng, Yongyuan Liang, Yu Gu, Mu Cai, Seonghyeon Ye, Joel Jang, Yuquan Deng, Lars Liden, Jianfeng Gao\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.13130\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FMagma\">code\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=SbfzvUU5yM8\">video\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fmicrosoft\u002FMagma-UI\">demo\u003C\u002Fa>] \n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Visual Agents\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Sat 14 Jun 8:30 a.m. PDT — 10:30 a.m. PDT Poster Session 3 #340\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F33472.png?t=1748798588.1133444\" title=\"ShowUI: One Vision-Language-Action Model for GUI Visual Agent\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_bd2e39d12cb7.png\" alt=\"ShowUI: One Vision-Language-Action Model for GUI Visual Agent\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.17465\" title=\"ShowUI: One Vision-Language-Action Model for GUI Visual Agent\">\n        \u003Cstrong>ShowUI: One Vision-Language-Action Model for GUI Visual Agent\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Kevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.17465\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fshowlab\u002FShowUI\">code\u003C\u002Fa>]  [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fshowlab\u002FShowUI\">demo\u003C\u002Fa>] \n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Visual Agents\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Sat 14 Jun 3 p.m. PDT — 5 p.m. PDT Poster Session 4 #352\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F32818.png?t=1748727014.6249733\" title=\"Visual Agentic AI for Spatial Reasoning with a Dynamic API\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_c0a416affdd8.png\" alt=\"Visual Agentic AI for Spatial Reasoning with a Dynamic API\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.06787\" title=\"Visual Agentic AI for Spatial Reasoning with a Dynamic API\">\n        \u003Cstrong>Visual Agentic AI for Spatial Reasoning with a Dynamic API\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Damiano Marsili, Rohun Agrawal, Yisong Yue, Georgia Gkioxari\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.06787\">paper\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fdamianomarsili\u002FVADAR\">code\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fyoutu.be\u002FzYFlDu_zsEs\">video\u003C\u002Fa>]  \n    \u003Cbr\u002F>\n    \u003Cstrong>Topic:\u003C\u002Fstrong> Visual Agents\n    \u003Cbr\u002F>\n    \u003Cstrong>Session:\u003C\u002Fstrong> Sat 14 Jun 3 p.m. PDT — 5 p.m. PDT Poster Session 4 #352\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\u003C!--- AUTOGENERATED_PAPERS_LIST -->\n\n## 🦸 contribution\n\nWe would love your help in making this repository even better! If you know of an amazing\npaper that isn't listed here, or if you have any suggestions for improvement, feel free\nto open an\n[issue](https:\u002F\u002Fgithub.com\u002FSkalskiP\u002Ftop-cvpr-2025-papers\u002Fissues)\nor submit a\n[pull request](https:\u002F\u002Fgithub.com\u002FSkalskiP\u002Ftop-cvpr-2025-papers\u002Fpulls).\n","![访客徽章](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_573ceb5452e8.png)\n\n\u003Cdiv align=\"center\">\n  \u003Ch1 align=\"center\">CVPR 2025 年顶级论文\u003C\u002Fh1>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FSkalskiP\u002Ftop-cvpr-2023-papers\">2023\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FSkalskiP\u002Ftop-cvpr-2024-papers\">2024\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FSkalskiP\u002Ftop-cvpr-2025-papers\">2025\u003C\u002Fa>\n\u003C\u002Fdiv>\n\n\u003Cbr>\n\n\u003Cdiv align=\"center\">\n  \u003Cimg width=\"600\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_5441851d93f2.jpg\" \u002F>\n\u003C\u002Fdiv>\n\n## 👋 你好\n\n计算机视觉与模式识别大会规模宏大。仅在 **2025** 年，\n就有 **13,008** 篇论文提交，其中 **2,878** 篇被接收。我创建了这个仓库，\n旨在帮助您查找 CVPR 会议中最为顶尖的论文。如果您寻找的论文未列入我的精选名单，\n请查看完整的[接收论文列表](https:\u002F\u002Fcvpr.thecvf.com\u002FConferences\u002F2025\u002FAcceptedPapers)。\n\n## 🗞️ 论文与海报\n\n*🔥 - 重点推荐论文*\n\n\u003C!--- AUTOGENERATED_PAPERS_LIST -->\n\u003C!---\n   警告：请勿手动编辑此列表。它将自动更新。\n   如需正确地进行更改，请访问 https:\u002F\u002Fgithub.com\u002FSkalskiP\u002Ftop-cvpr-2024-papers\u002Fblob\u002Fmaster\u002FCONTRIBUTING.md 查看详细说明。\n-->\n### 3D 视觉\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F33969.png?t=1748740040.9726639\" title=\"VGGT: 视觉几何基础Transformer\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_72c3c753ae68.png\" alt=\"VGGT: 视觉几何基础Transformer\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.11651\" title=\"VGGT: 视觉几何基础Transformer\">\n        \u003Cstrong>🔥 VGGT: 视觉几何基础Transformer\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Jianyuan Wang, Minghao Chen, Nikita Karaev, Andrea Vedaldi, Christian Rupprecht, David Novotny\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.11651\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fvggt\">代码\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fyoutu.be\u002F7ZYwJEpCUUA\">视频\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Ffacebook\u002Fvggt\">演示\u003C\u002Fa>] \n    \u003Cbr\u002F>\n    \u003Cstrong>主题：\u003C\u002Fstrong>3D 视觉\n    \u003Cbr\u002F>\n    \u003Cstrong>会话：\u003C\u002Fstrong>周五 6月13日 太平洋夏令时下午2点—4点 海报展示2 #86\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F34871.png?t=1748708079.0490072\" title=\"MASt3R-SLAM: 基于3D重建先验知识的实时稠密SLAM\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_7555bff89bae.png\" alt=\"MASt3R-SLAM: 基于3D重建先验知识的实时稠密SLAM\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.12392\" title=\"MASt3R-SLAM: 基于3D重建先验知识的实时稠密SLAM\">\n        \u003Cstrong>🔥 MASt3R-SLAM: 基于3D重建先验知识的实时稠密SLAM\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Riku Murai, Eric Dexheimer, Andrew J. Davison\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.12392\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Frmurai0610\u002FMASt3R-SLAM\">代码\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=wozt71NBFTQ\">视频\u003C\u002Fa>]  \n    \u003Cbr\u002F>\n    \u003Cstrong>主题：\u003C\u002Fstrong>3D 视觉\n    \u003Cbr\u002F>\n    \u003Cstrong>会话：\u003C\u002Fstrong>周六 6月14日 太平洋夏令时下午3点—5点 海报展示4 #83\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F35013.png?t=1748718962.8355792\" title=\"RelationField: 在辐射场中关联任何内容\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_c7cdde598362.png\" alt=\"RelationField: 在辐射场中关联任何内容\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.13652\" title=\"RelationField: 在辐射场中关联任何内容\">\n        \u003Cstrong>RelationField: 在辐射场中关联任何内容\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Sebastian Koch, Johanna Wald, Mirco Colosi, Narunas Vaskevicius, Pedro Hermosilla, Federico Tombari, Timo Ropinski\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.13652\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fboschresearch\u002Frelationfield\">代码\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fyoutu.be\u002F8XxWzoWnYT0\">视频\u003C\u002Fa>]  \n    \u003Cbr\u002F>\n    \u003Cstrong>主题：\u003C\u002Fstrong>3D 视觉\n    \u003Cbr\u002F>\n    \u003Cstrong>会话：\u003C\u002Fstrong>周日 6月15日 太平洋夏令时上午8:30—10:30 海报展示5 #190\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n### 深度估计\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F32554.png?t=1748195633.2703488\" title=\"UniK3D: 通用相机单目3D估计\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_6d84b9e5411b.png\" alt=\"UniK3D: 通用相机单目3D估计\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.16591\" title=\"UniK3D: 通用相机单目3D估计\">\n        \u003Cstrong>UniK3D: 通用相机单目3D估计\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Luigi Piccinelli, Christos Sakaridis, Mattia Segu, Yung-Hsu Yang, Siyuan Li, Wim Abbeloos, Luc Van Gool\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.16591\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Flpiccinelli-eth\u002FUniK3D\">代码\u003C\u002Fa>]  [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Flpiccinelli\u002FUniK3D-demo\">演示\u003C\u002Fa>] \n    \u003Cbr\u002F>\n    \u003Cstrong>主题:\u003C\u002Fstrong> 深度估计\n    \u003Cbr\u002F>\n    \u003Cstrong>会话:\u003C\u002Fstrong> 周五 6月13日 太平洋夏令时上午8:30 — 上午10:30 海报展示1 #80\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F33026.png?t=1749131392.5907311\" title=\"DepthCrafter: 为开放世界视频生成一致的长深度序列\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_703284bc1507.png\" alt=\"DepthCrafter: 为开放世界视频生成一致的长深度序列\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.02095\" title=\"DepthCrafter: 为开放世界视频生成一致的长深度序列\">\n        \u003Cstrong>🔥 DepthCrafter: 为开放世界视频生成一致的长深度序列\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Wenbo Hu, Xiangjun Gao, Xiaoyu Li, Sijie Zhao, Xiaodong Cun, Yong Zhang, Long Quan, Ying Shan\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.02095\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTencent\u002FDepthCrafter\">代码\u003C\u002Fa>]  [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Ftencent\u002FDepthCrafter\">演示\u003C\u002Fa>] \n    \u003Cbr\u002F>\n    \u003Cstrong>主题:\u003C\u002Fstrong> 深度估计\n    \u003Cbr\u002F>\n    \u003Cstrong>会话:\u003C\u002Fstrong> 周五 6月13日 太平洋夏令时上午8:30 — 上午10:30 海报展示1 #171\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F33862.png?t=1747997885.3577623\" title=\"Video Depth Anything: 超长视频的一致深度估计\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_9306b899f25f.png\" alt=\"Video Depth Anything: 超长视频的一致深度估计\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.12375\" title=\"Video Depth Anything: 超长视频的一致深度估计\">\n        \u003Cstrong>Video Depth Anything: 超长视频的一致深度估计\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Sili Chen, Hengkai Guo, Shengnan Zhu, Feihu Zhang, Zilong Huang, Jiashi Feng, Bingyi Kang\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.12375\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FDepthAnything\u002FVideo-Depth-Anything\">代码\u003C\u002Fa>]  [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fdepth-anything\u002FVideo-Depth-Anything\">演示\u003C\u002Fa>] \n    \u003Cbr\u002F>\n    \u003Cstrong>主题:\u003C\u002Fstrong> 深度估计\n    \u003Cbr\u002F>\n    \u003Cstrong>会话:\u003C\u002Fstrong> 周日 6月15日 太平洋夏令时上午8:30 — 上午10:30 海报展示5 #169\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F\n\n### 可解释性与可理解性\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F34644.png?t=1748853080.0173087\" title=\"通过视觉精确搜索解释对象级基础模型\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_57a2f2578d51.png\" alt=\"通过视觉精确搜索解释对象级基础模型\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.16198\" title=\"通过视觉精确搜索解释对象级基础模型\">\n        \u003Cstrong>🔥 通过视觉精确搜索解释对象级基础模型\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Ruoyu Chen, Siyuan Liang, Jingzhi Li, Shiming Liu, Maosen Li, Zhen Huang, Hua Zhang, Xiaochun Cao\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.16198\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FRuoyuChen10\u002FVPS\">代码\u003C\u002Fa>]   [\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FRuoyuChen10\u002FVPS\u002Fblob\u002Fmain\u002Ftutorial\u002FGrounding_DINO_explanation.ipynb\">Colab\u003C\u002Fa>]\n    \u003Cbr\u002F>\n    \u003Cstrong>主题:\u003C\u002Fstrong> 可解释性与可理解性\n    \u003Cbr\u002F>\n    \u003Cstrong>会话:\u003C\u002Fstrong> 周日 6月15日 太平洋夏令时下午2点 — 下午4点 海报展示6 #372\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F\n\n### 凝视目标估计\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F34852.png?t=1748847619.7422361\" title=\"Gaze-LLE: 基于大规模学习编码器的凝视目标估计\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_7d5a91b6092b.png\" alt=\"Gaze-LLE: 基于大规模学习编码器的凝视目标估计\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.09586\" title=\"Gaze-LLE: 基于大规模学习编码器的凝视目标估计\">\n        \u003Cstrong>🔥 Gaze-LLE: 基于大规模学习编码器的凝视目标估计\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman, James M. Rehg\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.09586\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Ffkryan\u002Fgazelle\">代码\u003C\u002Fa>]  [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Ffffiloni\u002FGaze-LLE\">演示\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1TSoyFvNs1-au9kjOZN_fo5ebdzngSPDq?usp=sharing\">Colab\u003C\u002Fa>]\n    \u003Cbr\u002F>\n    \u003Cstrong>主题:\u003C\u002Fstrong> 凝视目标估计\n    \u003Cbr\u002F>\n    \u003Cstrong>会话:\u003C\u002Fstrong> 周日 6月15日 太平洋夏令时下午2点 — 下午4点 海报展示6 #98\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F\n\n### 生成模型\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F33479.png?t=1748410877.7850628\" title=\"MMAudio: 操控多模态联合训练以实现高质量的视频转音频合成\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_310ce6ba86f1.png\" alt=\"MMAudio: 操控多模态联合训练以实现高质量的视频转音频合成\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.15322\" title=\"MMAudio: 操控多模态联合训练以实现高质量的视频转音频合成\">\n        \u003Cstrong>MMAudio: 操控多模态联合训练以实现高质量的视频转音频合成\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Ho Kei Cheng, Masato Ishii, Akio Hayakawa, Takashi Shibuya, Alexander Schwing, Yuki Mitsufuji\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.15322\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FMMAudio\">代码\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fyoutu.be\u002FYElewUT2M4M\">视频\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fhkchengrex\u002FMMAudio\">演示\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1TAaXCY2-kPk4xE4PwKB3EqFbSnkUuzZ8?usp=sharing\">Colab\u003C\u002Fa>]\n    \u003Cbr\u002F>\n    \u003Cstrong>主题:\u003C\u002Fstrong> 生成模型\n    \u003Cbr\u002F>\n    \u003Cstrong>分会场:\u003C\u002Fstrong> 周日 6月15日 太平洋夏令时下午2点 — 下午4点 海报展示6 #260\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F32785.png?t=1748780647.7372541\" title=\"SemanticDraw: 基于图像扩散模型实现实时交互式内容创作\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_d2500632302a.png\" alt=\"SemanticDraw: 基于图像扩散模型实现实时交互式内容创作\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.09055\" title=\"SemanticDraw: 基于图像扩散模型实现实时交互式内容创作\">\n        \u003Cstrong>SemanticDraw: 基于图像扩散模型实现实时交互式内容创作\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Jaerin Lee, Daniel Sungho Jung, Kanggeon Lee, Kyoung Mu Lee\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.09055\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fironjr\u002Fsemantic-draw\">代码\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=qR06iiaG5nc\">视频\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fironjr\u002Fsemantic-draw-canvas-sdxl\">演示\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fcamenduru\u002FSemanticPalette-jupyter\u002Fblob\u002Fmain\u002FSemanticPalette_jupyter.ipynb\">Colab\u003C\u002Fa>]\n    \u003Cbr\u002F>\n    \u003Cstrong>主题:\u003C\u002Fstrong> 生成模型\n    \u003Cbr\u002F>\n    \u003Cstrong>分会场:\u003C\u002Fstrong> 周六 6月14日 太平洋夏令时上午8:30 — 上午10:30 海报展示3 #226\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n### 图像匹配\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F34813.png?t=1748519375.4086587\" title=\"MINIMA: 模态不变图像匹配\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_93310c108792.png\" alt=\"MINIMA: 模态不变图像匹配\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.19412\" title=\"MINIMA: 模态不变图像匹配\">\n        \u003Cstrong>MINIMA: 模态不变图像匹配\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Jiangwei Ren, Xingyu Jiang, Zizhuo Li, Dingkang Liang, Xin Zhou, Xiang Bai\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.19412\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FLSXI7\u002FMINIMA\">代码\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Flsxi77777\u002FMINIMA\">演示\u003C\u002Fa>]\n    \u003Cbr\u002F>\n    \u003Cstrong>主题:\u003C\u002Fstrong> 图像匹配\n    \u003Cbr\u002F>\n    \u003Cstrong>分会场:\u003C\u002Fstrong> 周日 6月15日 太平洋夏令时上午8:30 — 上午10:30 海报展示5 #190\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F\n\n### 图像矢量化\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F34467.png?t=1748720373.8849306\" title=\"基于语义简化的分层图像矢量化\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_ac66de653e8a.png\" alt=\"基于语义简化的分层图像矢量化\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.05404\" title=\"基于语义简化的分层图像矢量化\">\n        \u003Cstrong>基于语义简化的分层图像矢量化\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Zhenyu Wang, Jianxi Huang, Zhida Sun, Yuanhao Gong, Daniel Cohen-Or, Min Lu\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.05404\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FSZUVIZ\u002Flayered_vectorization\">代码\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fyoutu.be\u002FoUYQKjDlwCw\">视频\u003C\u002Fa>]\n    \u003Cbr\u002F>\n    \u003Cstrong>主题:\u003C\u002Fstrong> 图像矢量化\n    \u003Cbr\u002F>\n    \u003Cstrong>分会场:\u003C\u002Fstrong> 周五 6月13日 太平洋夏令时下午2点 — 下午4点 海报展示2 #226\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n### 目标跟踪\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F35010.png?t=1748684123.2752578\" title=\"MITracker: 多视角融合的视觉目标跟踪\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_e8fe42c49312.png\" alt=\"MITracker: 多视角融合的视觉目标跟踪\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.20111\" title=\"MITracker: 多视角融合的视觉目标跟踪\">\n        \u003Cstrong>🔥 MITracker: 多视角融合的视觉目标跟踪\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    徐孟杰、朱一涛、姜浩天、李佳明、沈振荣、王晟、黄浩林、王欣宇、杨庆、张翰、王倩\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.20111\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FXuM007\u002FMITracker\">代码\u003C\u002Fa>]   \n    \u003Cbr\u002F>\n    \u003Cstrong>主题：\u003C\u002Fstrong>目标跟踪\n    \u003Cbr\u002F>\n    \u003Cstrong>分会场：\u003C\u002Fstrong>6月15日（周日）下午2点—4点 太平洋夏令时 海报展示6 #98\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F33882.png?t=1748536728.1331344\" title=\"将多目标跟踪视为ID预测\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_f6f0ab83d856.png\" alt=\"将多目标跟踪视为ID预测\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.16848\" title=\"将多目标跟踪视为ID预测\">\n        \u003Cstrong>将多目标跟踪视为ID预测\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    高若鹏、齐骥、王利民\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.16848\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FMCG-NJU\u002FMOTIP\">代码\u003C\u002Fa>]   \n    \u003Cbr\u002F>\n    \u003Cstrong>主题：\u003C\u002Fstrong>目标跟踪\n    \u003Cbr\u002F>\n    \u003Cstrong>分会场：\u003C\u002Fstrong>6月15日（周日）下午2点—4点 太平洋夏令时 海报展示6 #163\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.07256\" title=\"EdgeTAM：端侧万物跟踪模型\">\n        \u003Cstrong>EdgeTAM：端侧万物跟踪模型\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    周冲、朱晨晨、熊云阳、萨克沙姆·苏里、肖凡艺、吴乐萌、拉古拉曼·克里希纳穆尔蒂、戴博、罗伊·陈昌、维卡斯·钱德拉、比尔盖·索兰\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.07256\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEdgeTAM\">代码\u003C\u002Fa>]  [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Ffacebook\u002FEdgeTAM\">演示\u003C\u002Fa>] \n    \u003Cbr\u002F>\n    \u003Cstrong>主题：\u003C\u002Fstrong>目标跟踪\n    \u003Cbr\u002F>\n    \u003Cstrong>分会场：\u003C\u002Fstrong>6月14日（周六）上午8:30—10:30 太平洋夏令时 海报展示3 #304\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F35133.png?t=1748777099.726237\" title=\"基于SAM2的干扰物感知记忆用于视觉目标跟踪\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_2ec1c4771836.png\" alt=\"基于SAM2的干扰物感知记忆用于视觉目标跟踪\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.17576\" title=\"基于SAM2的干扰物感知记忆用于视觉目标跟踪\">\n        \u003Cstrong>基于SAM2的干扰物感知记忆用于视觉目标跟踪\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    约瓦娜·维德诺维奇、艾伦·卢克齐奇、马泰伊·克里斯坦\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.17576\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fjovanavidenovic\u002FDAM4SAM\">代码\u003C\u002Fa>]   \n    \u003Cbr\u002F>\n    \u003Cstrong>主题：\u003C\u002Fstrong>目标跟踪\n    \u003Cbr\u002F>\n    \u003Cstrong>分会场：\u003C\u002Fstrong>6月15日（周日）上午8:30—10:30 太平洋夏令时 海报展示5 #309\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F32888.png?t=1747453263.5318122\" title=\"从姿态到身份：基于特征中心化的免训练人体重识别\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_f77d7fc04cad.png\" alt=\"从姿态到身份：基于特征中心化的免训练人体重识别\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.00938\" title=\"从姿态到身份：基于特征中心化的免训练人体重识别\">\n        \u003Cstrong>从姿态到身份：基于特征中心化的免训练人体重识别\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    袁超、张贵伟、马长啸、张天义、牛广林\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.00938\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fyuanc3\u002FPose2ID\">代码\u003C\u002Fa>]   \n    \u003Cbr\u002F>\n    \u003Cstrong>主题：\u003C\u002Fstrong>目标跟踪\n    \u003Cbr\u002F>\n    \u003Cstrong>分会场：\u003C\u002Fstrong>6月15日（周日）上午8:30—10:30 太平洋夏令时 海报展示5 #190\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n### 开放世界检测\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F35020.png?t=1748563484.5053573\" title=\"基于多模态大语言模型的零样本异常检测与推理\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_0a9c8307be7c.png\" alt=\"基于多模态大语言模型的零样本异常检测与推理\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.07601\" title=\"基于多模态大语言模型的零样本异常检测与推理\">\n        \u003Cstrong>🔥 基于多模态大语言模型的零样本异常检测与推理\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Jiacong Xu, Shao-Yuan Lo, Bardia Safaei, Vishal M. Patel, Isht Dwivedi\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.07601\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fhonda-research-institute\u002FAnomaly-OneVision\">代码\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=b3-qGTm23eA\">视频\u003C\u002Fa>]  \n    \u003Cbr\u002F>\n    \u003Cstrong>主题：\u003C\u002Fstrong>开放世界检测\n    \u003Cbr\u002F>\n    \u003Cstrong>分会场：\u003C\u002Fstrong>6月14日（周六）下午3点—5点 太平洋夏令时 海报展示4 #435\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F32802.png?t=1748865568.2500262\" title=\"用于免训练开放词汇属性检测的组合式缓存\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_8b36f25b1070.png\" alt=\"用于免训练开放词汇属性检测的组合式缓存\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.19145\" title=\"用于免训练开放词汇属性检测的组合式缓存\">\n        \u003Cstrong>🔥 用于免训练开放词汇属性检测的组合式缓存\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Marco Garosi, Alessandro Conti, Gaowen Liu, Elisa Ricci, Massimiliano Mancini\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.19145\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fmarco-garosi\u002FComCa\">代码\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fyoutu.be\u002FruHSAGemMa8\">视频\u003C\u002Fa>]  \n    \u003Cbr\u002F>\n    \u003Cstrong>主题：\u003C\u002Fstrong>开放世界检测\n    \u003Cbr\u002F>\n    \u003Cstrong>分会场：\u003C\u002Fstrong>6月14日（周六）上午8:30—10:30 太平洋夏令时 海报展示3 #426\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n### 姿态估计\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F35057.png?t=1748706748.0220559\" title=\"使用生物力学精确骨架重建人体\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_09ae74e0f9b9.png\" alt=\"使用生物力学精确骨架重建人体\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.21751\" title=\"使用生物力学精确骨架重建人体\">\n        \u003Cstrong>🔥 使用生物力学精确骨架重建人体\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Yan Xia, Xiaowei Zhou, Etienne Vouga, Qixing Huang, Georgios Pavlakos\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.21751\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FIsshikiHugh\u002FHSMR\">代码\u003C\u002Fa>]  [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FIsshikiHugh\u002FHSMR\">演示\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1RDA9iKckCDKh_bbaKjO8bQ0-Lv5fw1CB?usp=sharing\">Colab\u003C\u002Fa>]\n    \u003Cbr\u002F>\n    \u003Cstrong>主题：\u003C\u002Fstrong>姿态估计\n    \u003Cbr\u002F>\n    \u003Cstrong>分会场：\u003C\u002Fstrong>6月13日（周五）下午2点—4点 太平洋夏令时 海报展示2 #91\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n### 分割\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_5cd223bfff76.jpg\" title=\"MatAnyone：具有持续记忆传播的稳定视频抠图\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_5cd223bfff76.jpg\" alt=\"MatAnyone：具有持续记忆传播的稳定视频抠图\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.14677\" title=\"MatAnyone：具有持续记忆传播的稳定视频抠图\">\n        \u003Cstrong>MatAnyone：具有持续记忆传播的稳定视频抠图\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Peiqing Yang, Shangchen Zhou, Jixin Zhao, Qingyi Tao, Chen Change Loy\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.14677\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fpq-yang\u002FMatAnyone\">代码\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=oih0Zk-UW18\">视频\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FPeiqingYang\u002FMatAnyone\">演示\u003C\u002Fa>] \n    \u003Cbr\u002F>\n    \u003Cstrong>主题：\u003C\u002Fstrong>分割\n    \u003Cbr\u002F>\n    \u003Cstrong>分会场：\u003C\u002Fstrong>6月13日（周五）下午2点—4点 太平洋夏令时 海报展示2 #185\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F\n\n### 立体匹配\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F34330.png?t=1748714664.9139624\" title=\"FoundationStereo：零样本立体匹配\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_68260ee6d40b.png\" alt=\"FoundationStereo：零样本立体匹配\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.09898\" title=\"FoundationStereo：零样本立体匹配\">\n        \u003Cstrong>🔥 FoundationStereo：零样本立体匹配\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Bowen Wen, Matthew Trepte, Joseph Aribido, Jan Kautz, Orazio Gallo, Stan Birchfield\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.09898\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FFoundationStereo\">代码\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=R7RgHxEXB3o\">视频\u003C\u002Fa>]  \n    \u003Cbr\u002F>\n    \u003Cstrong>主题：\u003C\u002Fstrong>立体匹配\n    \u003Cbr\u002F>\n    \u003Cstrong>分会场：\u003C\u002Fstrong>6月13日（周五）下午2点—4点 太平洋夏令时 海报展示2 #81\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F\n\n### 视频理解\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F32544.png?t=1748596202.019788\" title=\"迈向通用足球视频理解\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_4d4f93a526f4.png\" alt=\"迈向通用足球视频理解\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.01820\" title=\"迈向通用足球视频理解\">\n        \u003Cstrong>迈向通用足球视频理解\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Jiayuan Rao, Haoning Wu, Hao Jiang, Ya Zhang, Yanfeng Wang, Weidi Xie\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.01820\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fjyrao\u002FUniSoccer\">代码\u003C\u002Fa>]   \n    \u003Cbr\u002F>\n    \u003Cstrong>主题：\u003C\u002Fstrong>视频理解\n    \u003Cbr\u002F>\n    \u003Cstrong>分会场：\u003C\u002Fstrong>6月13日（周五）下午2点—4点 太平洋夏令时 海报展示2 #185\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n### 视觉-语言模型\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F32887.png?t=1747896029.4399107\" title=\"FastVLM：视觉语言模型的高效视觉编码\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_e48dd1521810.png\" alt=\"FastVLM：视觉语言模型的高效视觉编码\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.13303\" title=\"FastVLM：视觉语言模型的高效视觉编码\">\n        \u003Cstrong>FastVLM：视觉语言模型的高效视觉编码\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Pavan Kumar Anasosalu Vasu、Fartash Faghri、Chun-Liang Li、Cem Koc、Nate True、Albert Antony、Gokul Santhanam、James Gabriel、Peter Grasch、Oncel Tuzel、Hadi Pouransari\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.13303\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fapple\u002Fml-fastvlm\">代码\u003C\u002Fa>]   \n    \u003Cbr\u002F>\n    \u003Cstrong>主题：\u003C\u002Fstrong> 视觉-语言模型\n    \u003Cbr\u002F>\n    \u003Cstrong>会场：\u003C\u002Fstrong> 周六 6月14日 太平洋夏令时下午3点—5点 海报展示4 #378\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F33073.png?t=1748883064.876014\" title=\"Molmo和PixMo：用于最先进视觉-语言模型的开放权重与开放数据\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_32cdc2c7e9e9.png\" alt=\"Molmo和PixMo：用于最先进视觉-语言模型的开放权重与开放数据\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.17146\" title=\"Molmo和PixMo：用于最先进视觉-语言模型的开放权重与开放数据\">\n        \u003Cstrong>🔥 Molmo和PixMo：用于最先进视觉-语言模型的开放权重与开放数据\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Matt Deitke、Christopher Clark、Sangho Lee、Rohun Tripathi、Yue Yang、Jae Sung Park、Mohammadreza Salehi、Niklas Muennighoff、Kyle Lo、Luca Soldaini、Jiasen Lu、Taira Anderson、Erin Bransom、Kiana Ehsani、Huong Ngo、YenSung Chen、Ajay Patel、Mark Yatskar、Chris Callison-Burch、Andrew Head、Rose Hendrix、Favyen Bastani、Eli VanderBilt、Nathan Lambert、Yvonne Chou、Arnavi Chheda、Jenna Sparks、Sam Skjonsberg、Michael Schmitz、Aaron Sarnat、Byron Bischoff、Pete Walsh、Chris Newell、Piper Wolters、Tanmay Gupta、Kuo-Hao Zeng、Jon Borchardt、Dirk Groeneveld、Crystal Nam、Sophie Lebrecht、Caitlin Wittlif、Carissa Schoenick、Oscar Michel、Ranjay Krishna、Luca Weihs、Noah A. Smith、Hannaneh Hajishirzi、Ross Girshick、Ali Farhadi、Aniruddha Kembhavi\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.17146\">论文\u003C\u002Fa>]   [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fakhaliq\u002FMolmo-7B-D-0924\">演示\u003C\u002Fa>] \n    \u003Cbr\u002F>\n    \u003Cstrong>主题：\u003C\u002Fstrong> 视觉-语言模型\n    \u003Cbr\u002F>\n    \u003Cstrong>会场：\u003C\u002Fstrong> 周五 6月13日 太平洋夏令时上午8:30—10:30 海报展示1 #80\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F34510.png?t=1748805761.17\" title=\"SAMWISE：将智慧注入SAM2以实现文本驱动的视频分割\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_7fd81894a4ef.png\" alt=\"SAMWISE：将智慧注入SAM2以实现文本驱动的视频分割\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.17646\" title=\"SAMWISE：将智慧注入SAM2以实现文本驱动的视频分割\">\n        \u003Cstrong>🔥 SAMWISE：将智慧注入SAM2以实现文本驱动的视频分割\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Claudia Cuttano、Gabriele Trivigno、Gabriele Rosi、Carlo Masone、Giuseppe Averta\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.17646\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FClaudiaCuttano\u002FSAMWISE\">代码\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fyoutu.be\u002FOL3xvzFyXCc\">视频\u003C\u002Fa>]  \n    \u003Cbr\u002F>\n    \u003Cstrong>主题：\u003C\u002Fstrong> 视觉-语言模型\n    \u003Cbr\u002F>\n    \u003Cstrong>会场：\u003C\u002Fstrong> 周五 6月13日 太平洋夏令时上午8:30—10:30 海报展示1 #308\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F34048.png?t=1748839405.5943303\" title=\"VisionArena：带有偏好标签的23万份真实世界用户-VLM对话\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_621fffe3761b.png\" alt=\"VisionArena：带有偏好标签的23万份真实世界用户-VLM对话\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.08687\" title=\"VisionArena：带有偏好标签的23万份真实世界用户-VLM对话\">\n        \u003Cstrong>VisionArena：带有偏好标签的23万份真实世界用户-VLM对话\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Christopher Chou、Lisa Dunlap、Koki Mashita、Krishna Mandal、Trevor Darrell、Ion Stoica、Joseph E. Gonzalez、Wei-Lin Chiang\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.08687\">论文\u003C\u002Fa>]   [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flmarena-ai\u002FVisionArena-Battle\">演示\u003C\u002Fa>] \n    \u003Cbr\u002F>\n    \u003Cstrong>主题：\u003C\u002Fstrong> 视觉-语言模型\n    \u003Cbr\u002F>\n    \u003Cstrong>会场：\u003C\u002Fstrong> 周五 6月13日 太平洋夏令时上午8:30—10:30 海报展示1 #353\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F33482.png?t=1748620034.1782746\" title=\"DINOv2与文本相遇：图像级与像素级视觉-语言对齐的统一框架\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_20ccc39065c8.png\" alt=\"DINOv2与文本相遇：图像级与像素级视觉-语言对齐的统一框架\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.16334\" title=\"DINOv2与文本相遇：图像级与像素级视觉-语言对齐的统一框架\">\n        \u003Cstrong>DINOv2与文本相遇：图像级与像素级视觉-语言对齐的统一框架\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    Cijo Jose、Théo Moutakanni、Dahyun Kang、Federico Baldassarre、Timothée Darcet、Hu Xu、Daniel Li、Marc Szafraniec、Michaël Ramamonjisoa、Maxime Oquab、Oriane Siméoni、Huy V. Vo、Patrick Labatut、Piotr Bojanowski\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.16334\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdinov2\">代码\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fyoutu.be\u002FqNsAgsvhbw4\">视频\u003C\u002Fa>]  [\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Ffacebookresearch\u002Fdinov2\u002Fblob\u002Fmain\u002Fnotebooks\u002Fdinotxt.ipynb\">Colab\u003C\u002Fa>]\n    \u003Cbr\u002F>\n    \u003Cstrong>主题：\u003C\u002Fstrong> 视觉-语言模型\n    \u003Cbr\u002F>\n    \u003Cstrong>会场：\u003C\u002Fstrong> 周日 6月15日 太平洋夏令时上午8:30—10:30 海报展示5 #169\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n### 视觉智能体\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_6d2def59fa63.jpg\" title=\"Magma：多模态AI智能体的基础模型\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_6d2def59fa63.jpg\" alt=\"Magma：多模态AI智能体的基础模型\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.13130\" title=\"Magma：多模态AI智能体的基础模型\">\n        \u003Cstrong>Magma：多模态AI智能体的基础模型\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    杨建伟、鲁本·谭、吴千慧、郑睿杰、彭宝林、梁永源、顾宇、蔡牧、叶成贤、张乔尔、邓宇泉、拉尔斯·利登、高建峰\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.13130\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FMagma\">代码\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=SbfzvUU5yM8\">视频\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fmicrosoft\u002FMagma-UI\">演示\u003C\u002Fa>] \n    \u003Cbr\u002F>\n    \u003Cstrong>主题：\u003C\u002Fstrong>视觉智能体\n    \u003Cbr\u002F>\n    \u003Cstrong>分会场：\u003C\u002Fstrong>6月14日（周六）太平洋夏令时上午8:30—10:30 海报展示3 #340\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F33472.png?t=1748798588.1133444\" title=\"ShowUI：用于GUI视觉智能体的单一视觉-语言-动作模型\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_bd2e39d12cb7.png\" alt=\"ShowUI：用于GUI视觉智能体的单一视觉-语言-动作模型\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.17465\" title=\"ShowUI：用于GUI视觉智能体的单一视觉-语言-动作模型\">\n        \u003Cstrong>ShowUI：用于GUI视觉智能体的单一视觉-语言-动作模型\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    林庆鸿、李林杰、高迪飞、杨正元、吴世伟、白泽辰、雷伟贤、王丽娟、赵Mike\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.17465\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fshowlab\u002FShowUI\">代码\u003C\u002Fa>]  [\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fshowlab\u002FShowUI\">演示\u003C\u002Fa>] \n    \u003Cbr\u002F>\n    \u003Cstrong>主题：\u003C\u002Fstrong>视觉智能体\n    \u003Cbr\u002F>\n    \u003Cstrong>分会场：\u003C\u002Fstrong>6月14日（周六）太平洋夏令时下午3:00—5:00 海报展示4 #352\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fcvpr.thecvf.com\u002Fmedia\u002FPosterPDFs\u002FCVPR%202025\u002F32818.png?t=1748727014.6249733\" title=\"基于动态API的空间推理视觉智能体AI\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_readme_c0a416affdd8.png\" alt=\"基于动态API的空间推理视觉智能体AI\" width=\"400px\" align=\"left\" \u002F>\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.06787\" title=\"基于动态API的空间推理视觉智能体AI\">\n        \u003Cstrong>基于动态API的空间推理视觉智能体AI\u003C\u002Fstrong>\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n    达米亚诺·马尔西利、罗洪·阿格拉瓦尔、易松·岳、乔治娅·吉奥克萨里\n    \u003Cbr\u002F>\n    [\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.06787\">论文\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fdamianomarsili\u002FVADAR\">代码\u003C\u002Fa>] [\u003Ca href=\"https:\u002F\u002Fyoutu.be\u002FzYFlDu_zsEs\">视频\u003C\u002Fa>]  \n    \u003Cbr\u002F>\n    \u003Cstrong>主题：\u003C\u002Fstrong>视觉智能体\n    \u003Cbr\u002F>\n    \u003Cstrong>分会场：\u003C\u002Fstrong>6月14日（周六）太平洋夏令时下午3:00—5:00 海报展示4 #352\n\u003C\u002Fp>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n\u003C!--- AUTOGENERATED_PAPERS_LIST -->\n\n## 🦸 贡献\n\n我们非常希望得到您的帮助，让这个仓库变得更加完善！如果您知道这里尚未列出的优秀论文，或者有任何改进建议，欢迎随时提交\n[issue](https:\u002F\u002Fgithub.com\u002FSkalskiP\u002Ftop-cvpr-2025-papers\u002Fissues)\n或\n[pull request](https:\u002F\u002Fgithub.com\u002FSkalskiP\u002Ftop-cvpr-2025-papers\u002Fpulls)。","# top-cvpr-2025-papers 快速上手指南\n\n`top-cvpr-2025-papers` 并非一个需要安装运行的软件库，而是一个由社区维护的 **CVPR 2025 精选论文清单**。它汇集了当年被录用的数千篇论文中质量最高、最具影响力的研究成果（涵盖 3D 视觉、深度估计、生成模型等方向），并提供了论文、代码、演示视频和在线 Demo 的直接链接。\n\n本指南将帮助你快速浏览该清单并获取所需资源。\n\n## 环境准备\n\n由于这是一个文档型仓库，你不需要特定的操作系统或复杂的依赖环境。只需具备以下条件即可：\n\n*   **操作系统**：Windows, macOS, 或 Linux 均可。\n*   **必备工具**：\n    *   现代浏览器（Chrome, Edge, Firefox 等）用于在线阅读。\n    *   （可选）Git：如果你希望克隆仓库到本地离线查看或贡献内容。\n*   **网络环境**：\n    *   访问 GitHub、arXiv、Hugging Face 和 YouTube 可能需要稳定的网络连接。\n    *   **国内加速建议**：如果访问 GitHub 或 Hugging Face 较慢，建议使用国内镜像站（如 Gitee 镜像）或配置科学网络环境。部分项目提供的 Hugging Face Demo 若无法访问，可优先查看其提供的 Colab 链接或本地代码仓库。\n\n## 安装步骤（获取清单）\n\n你可以选择直接在线浏览，或克隆到本地。\n\n### 方式一：在线浏览（推荐）\n直接访问 GitHub 仓库页面，无需任何命令：\n> https:\u002F\u002Fgithub.com\u002FSkalskiP\u002Ftop-cvpr-2025-papers\n\n### 方式二：克隆到本地\n如果你习惯在本地查看 Markdown 文件或需要离线访问链接列表，请执行以下命令：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FSkalskiP\u002Ftop-cvpr-2025-papers.git\ncd top-cvpr-2025-papers\n```\n\n*注：国内用户若克隆速度慢，可尝试使用 Gitee 的导入功能或将 URL 替换为相应的加速代理地址。*\n\n## 基本使用\n\n该仓库按技术领域（如 `3d vision`, `depth estimation`, `generative models` 等）对论文进行了分类。带有 🔥 标记的论文表示为重点推荐的高亮文章。\n\n### 1. 查找目标论文\n打开 `README.md` 文件（或在 GitHub 网页端浏览），根据目录找到你感兴趣的技术领域。\n\n### 2. 获取资源链接\n每个条目都包含了完整的资源链路。以 **3D Vision** 领域的 **VGGT** 为例：\n\n*   **论文原文**：点击 `[paper]` 跳转至 arXiv 下载 PDF。\n*   **源代码**：点击 `[code]` 跳转至 GitHub 仓库。\n    *   *后续操作*：进入对应的代码仓库后，请参照该项目独立的 `README` 进行环境配置和运行（通常包含 `pip install -r requirements.txt` 等步骤）。\n*   **在线体验**：点击 `[demo]` 直接在 Hugging Face Spaces 试用模型，或点击 `[video]` 观看效果演示。\n*   **快速运行**：部分项目提供 `[colab]` 链接，可直接在 Google Colab 云端环境中免费运行代码，无需本地配置显卡。\n\n### 3. 示例：运行一个精选项目\n假设你对 **Depth Estimation** 领域的 **DepthCrafter** 感兴趣：\n\n1.  在清单中找到 `DepthCrafter` 条目。\n2.  点击 `[code]` 进入其 GitHub 主页 (`Tencent\u002FDepthCrafter`)。\n3.  在该项目的页面中，执行其特有的安装命令（示例）：\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002FTencent\u002FDepthCrafter.git\n    cd DepthCrafter\n    pip install -r requirements.txt\n    python inference.py --input_video your_video.mp4\n    ```\n    *(具体命令请以对应子项目的说明为准)*\n\n通过此清单，你可以高效地筛选出 CVPR 2025 中最值得关注的技术，并一键直达其实现代码和演示。","某自动驾驶初创公司的算法团队正急需为新一代机器人引入实时高精度的 3D 重建与定位（SLAM）能力，以应对复杂的动态城市道路环境。\n\n### 没有 top-cvpr-2025-papers 时\n- **信息过载难筛选**：面对 CVPR 2025 接收的 2878 篇论文，研究人员需耗费数天在海量列表中人工翻阅，难以快速锁定真正具有落地价值的“皇冠明珠”。\n- **复现门槛高**：找到潜在论文后，往往发现官方代码未开源、链接失效或缺乏演示 Demo，导致技术验证周期被无限拉长。\n- **错失前沿突破**：由于缺乏 curated（精选）视角，团队可能忽略像 `MASt3R-SLAM` 这样结合了 3D 重建先验的实时密集 SLAM 突破性成果，仍在使用过时的技术方案。\n- **协作效率低下**：团队成员各自搜索，信息不同步，导致重复劳动且难以形成统一的技术选型共识。\n\n### 使用 top-cvpr-2025-papers 后\n- **精准直达核心**：团队直接通过该仓库的\"3D Vision\"分类，秒级定位到带有🔥标记的 `MASt3R-SLAM` 和 `VGGT` 等顶尖论文，将调研时间从数天压缩至几小时。\n- **一站式复现资源**：每个条目均附带经过验证的 Paper、Code、Video 及 Hugging Face Demo 链接，工程师可立即运行 Demo 验证效果并基于官方代码进行二次开发。\n- **技术选型前瞻**：借助精选列表，团队迅速采纳了融合 3D 重建先验的最新架构，显著提升了机器人在弱纹理区域的定位鲁棒性，保持技术领先性。\n- **高效协同决策**：仓库结构清晰，成为团队内部的技术雷达，成员基于同一份高质量清单讨论，快速达成技术路线共识。\n\ntop-cvpr-2025-papers 通过将海量学术成果转化为可立即执行工程资源，极大地缩短了从前沿理论到实际产品落地的距离。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkalskiP_top-cvpr-2025-papers_5441851d.jpg","SkalskiP","Piotr Skalski","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FSkalskiP_4b8675f3.jpg","Open Source Lead @roboflow | Founder @ makesense.ai","@roboflow","127.0.0.1","piotr.skalski92@gmail.com","skalskip92","https:\u002F\u002Fhuggingface.co\u002FSkalskiP","https:\u002F\u002Fgithub.com\u002FSkalskiP",[83],{"name":84,"color":85,"percentage":86},"Python","#3572A5",100,858,51,"2026-04-12T05:53:12","CC0-1.0",1,"","未说明",{"notes":95,"python":93,"dependencies":96},"该仓库并非单一的 AI 工具，而是 CVPR 2025 精选论文的列表合集。README 中列出了多个不同的研究项目（如 VGGT, MASt3R-SLAM, DepthCrafter 等），每个项目都有独立的代码仓库、运行环境和依赖要求。用户需点击具体论文的 'code' 链接前往其独立仓库查看详细的安装和运行说明。",[],[15,98,35],"其他",[100,101,102,103,104,105,106,107,108,109],"computer-vision","cvpr","cvpr2025","image-segmentation","multimodal","object-detection","paper","transformers","vision-and-language","vision-language-model",null,"2026-03-27T02:49:30.150509","2026-04-14T05:04:38.535636",[],[]]