cosmos-predict2.5

1k 126 较难 21 次阅读 2天前Apache-2.0视频

AI 解读由 AI 自动生成，仅供参考

Cosmos-Predict2.5 是 NVIDIA 推出的最新一代世界基础模型（World Foundation Model），专注于根据当前视频输入预测未来世界的动态变化，并以视频形式输出。它能帮助 AI 系统理解物理世界的运行规律，从而更准确地模拟和预判后续状态，适用于自动驾驶、机器人控制和智能视频分析等需要与现实环境交互的场景。

这一模型解决了传统 AI 在复杂动态环境中缺乏长期预测能力和物理一致性的问题，让机器不仅能“看见”，还能“预见”。Cosmos-Predict2.5 特别适合从事物理 AI 研发的工程师和研究人员使用，尤其是那些在机器人、自动驾驶或具身智能领域工作的开发者。

技术上，它基于 Rectified Flow 架构，支持 Diffusers 接口，并引入了多视角交叉注意力、动作条件生成、滑动窗口长视频生成等创新机制。配合配套的 Cosmos Cookbook，用户还能通过蒸馏、LoRA 微调等方式高效定制模型，快速部署到实际系统中。

使用场景

某自动驾驶初创公司正在开发城市道路场景下的行为预测模块，用于提升车辆在复杂路口对行人、非机动车和其他车辆未来轨迹的预判能力。

没有 cosmos-predict2.5 时

依赖传统物理规则+简单LSTM模型，难以准确模拟突发行为（如行人突然横穿马路），预测视频失真严重。
需手动构建大量仿真场景进行训练，数据生成成本高、周期长，且覆盖不足。
多智能体交互建模能力弱，无法同步预测多个交通参与者未来的联合状态。
模型输出仅为轨迹坐标，缺乏直观的视觉化结果，调试和验证效率低。
针对新城市或特殊天气条件，需重新采集数据并微调整个系统，泛化性差。

使用 cosmos-predict2.5 后

基于世界基础模型直接生成高保真未来视频，精准还原复杂动态行为（如电动车变道、行人避让等）。
利用其强大的零样本泛化能力，仅输入当前10秒实拍视频即可生成未来5秒多模态预测，大幅减少仿真依赖。
内置多视角与多智能体建模机制，可同步输出所有交通参与者的协同演化视频。
生成结果为可视化视频流，工程师可直观评估预测合理性，加速算法迭代。
通过Cosmos Cookbook中的轻量蒸馏流程，快速适配雨雾天气或新城市路况，部署周期缩短70%。

cosmos-predict2.5 将未来状态预测从抽象坐标升级为可解释、可泛化、高保真的视觉推演，显著提升自动驾驶系统的环境理解与决策鲁棒性。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU，支持 Blackwell 架构，显存至少 8GB（14B 模型推荐 24GB+），CUDA 11.7+

内存

未说明

依赖

notes项目依赖 NVIDIA 专有技术栈，支持 Docker 部署；需安装 Git LFS 以下载大模型文件；部分功能（如 Blackwell + ARM 推理）需特定硬件；建议参考 cosmos-cookbook 中的配方进行环境配置和模型部署。

python未说明

torch

diffusers

transformers

accelerate

cosmos-oss

nvidia-cosmos-cookbook

快速开始

NVIDIA Cosmos

产品官网 | 🤗 Hugging Face | 论文 | 论文官网 | Cosmos Cookbook

NVIDIA Cosmos™ 是一个专为物理 AI（Physical AI）打造的平台，包含业界领先的生成式世界基础模型（World Foundation Models, WFMs）、强大的安全护栏（guardrails），以及加速的数据处理与整理流水线。Cosmos 专为现实世界系统设计，使开发者能够快速推进物理 AI 应用，例如自动驾驶汽车（AVs）、机器人和视频分析 AI 智能体。

Cosmos 世界基础模型包含三种模型类型，均可在训练后进行定制：cosmos-predict、cosmos-transfer 和 cosmos-reason。

Cosmos-Predict2.5

我们推出 Cosmos-Predict2.5，这是 Cosmos 世界基础模型（WFMs）系列的最新版本，专门用于以视频形式模拟和预测世界的未来状态。Cosmos-Predict2.5 是一种基于流（flow-based）的模型，将 Text2World、Image2World 和 Video2World 统一到单一模型中，并采用 Cosmos-Reason1（一种物理 AI 推理视觉语言模型，VLM）作为文本编码器。Cosmos-Predict2.5 在生成质量和提示对齐方面相比 Cosmos-Predict1 有显著提升。

Image2World

输入提示

一个夜间城市公交总站逐渐从静止状态过渡到细微的动态。起初，多辆双层巴士停靠在顶灯的光晕下，其中一辆标有“87D”的中央巴士正对前方且静止不动。随着视频推进，中间的巴士缓慢前行，其前照灯照亮周围区域，并在邻近车辆上投射出反光。这一动作在车队中腾出空间，暗示这个原本安静的车站开始活跃起来。随后，该巴士平稳停下，重新回到队列中的位置。上方的中文标识牌持续亮起，增强了充满活力的城市夜景氛围。

输入图像	输出视频

Video2World

输入提示（Input prompt）

一个以白色为主、带有黑色关节和线缆的机械臂，出现在干净现代的室内环境中，桌面为白色。该机械臂配备了一个夹爪，夹爪抓着一个浅绿色的小水壶，正位于一个装有红棕色液体和一把勺子的透明玻璃杯上方。机械臂正在将一种透明液体倒入玻璃杯中。在水壶左侧，有一个打开的罐子，透过其透明罐体可见类似的红棕色物质。背景中部分可见一个插有白色花朵的花瓶和一张棕色沙发，增添了当代氛围。光线明亮，在桌面上投下柔和的阴影。机械臂的动作流畅且受控，展现出任务执行中的精准性。随着视频推进，机械臂完成倾倒动作，玻璃杯被红棕色液体填充至半满。在整个过程中，罐子始终未被触碰，玻璃杯内的勺子也保持静止。右侧的另一只机械臂在整个视频中同样保持不动。最后一帧捕捉到机械臂完成倾倒的瞬间：玻璃杯液位升高，水壶略微倾斜但仍被夹爪牢固抓持。

输入视频	输出视频

Cosmos-Predict2.5 模型系列

我们的世界模拟模型 Cosmos-Predict 的核心能力是以视频形式预测未来的世界状态，并支持多模态输入（multimodal inputs）。我们已开源了预训练的基础模型（foundation models）以及针对多个领域进行后训练（post-trained）的模型。我们将持续向 Predict 系列添加更多专用模型和功能，请持续关注！

Cosmos-Predict2.5：专为物理 AI（Physical AI）和机器人学从头训练的 2B 检查点和 14B 检查点。

Cosmos-Predict2.5/auto/multiview：专为自动驾驶（Autonomous Vehicle）应用后训练的检查点。

模型名称	能力	输入
Cosmos-Predict2.5 base
Cosmos-Predict2.5-2B/pre-trained	预训练基础模型	文本 + 图像或视频
Cosmos-Predict2.5-2B/post-trained	后训练基础模型	文本 + 图像或视频
Cosmos-Predict2.5-2B/distilled	蒸馏基础模型	文本
Cosmos-Predict2.5-14B/pre-trained	预训练基础模型	文本 + 图像或视频
Cosmos-Predict2.5-14B/post-trained	后训练基础模型	文本 + 图像或视频
Cosmos-Predict2.5 auto
Cosmos-Predict2.5-2B/auto/multiview	自动驾驶，7 相机视角	文本 + 图像或视频
Cosmos-Predict2.5-2B robot
Cosmos-Predict2.5-2B/robot/action-cond	机器人，动作条件（action-conditioned）	动作（action）
Cosmos-Predict2.5-2B/robot/multiview-agibot	机器人，AgiBot 数据，3 相机视角	文本 + 图像
Cosmos-Predict2.5-2B/robot/policy	在 Libero 和 RoboCasa 上后训练	动作 + 图像

用户指南

贡献

我们非常欢迎社区协作！如果没有像您这样的开发者的贡献，NVIDIA-Cosmos 就不会有今天的成就。请查阅我们的贡献指南开始参与，并通过 issue 提交您的反馈。

衷心感谢 🙏 所有帮助我们推动开源物理 AI 边界的人！

许可与联系

本项目将下载并安装额外的第三方开源软件项目。使用前请仔细阅读这些开源项目的许可条款。

NVIDIA Cosmos 源代码采用 Apache 2.0 许可证发布。

NVIDIA Cosmos 模型采用 NVIDIA 开源模型许可证（NVIDIA Open Model License）发布。如需定制许可，请联系 cosmos-license@nvidia.com。

cosmos-predict2.5 快速上手指南

环境准备

操作系统：Linux（推荐 Ubuntu 20.04/22.04）
GPU：NVIDIA GPU（建议 H100/A100/L4 或更新架构，支持 Blackwell）
驱动与 CUDA：
- NVIDIA 驱动 ≥ 550
- CUDA ≥ 12.3
Python：≥ 3.10
其他依赖：
- Git LFS（用于下载大模型文件）
- Docker（可选，用于容器化部署）

💡 国内用户建议配置 Hugging Face 镜像加速模型下载（如使用 hf-mirror.com）。

安装步骤

克隆仓库并初始化子模块：

git clone https://github.com/nvidia-cosmos/cosmos-predict2.5.git
cd cosmos-predict2.5
git lfs install

创建并激活 Python 虚拟环境：

python -m venv venv
source venv/bin/activate

安装依赖（推荐使用国内 PyPI 镜像加速）：

pip install --upgrade pip
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

（可选）安装 Diffusers 支持（用于 Hugging Face Pipeline）：

pip install diffusers>=0.30.0

基本使用

以下示例展示如何使用 Cosmos-Predict2.5-2B base 模型 进行 Text-to-World 视频生成（基于 distilled checkpoint，仅需文本输入）：

from diffusers import Cosmos2_5_PredictBasePipeline
import torch

# 加载模型（首次运行会自动从 Hugging Face 下载）
pipe = Cosmos2_5_PredictBasePipeline.from_pretrained(
    "nvidia/Cosmos-Predict2.5-2B",
    subfolder="base/distilled",
    torch_dtype=torch.float16,
).to("cuda")

# 生成视频
prompt = "A robotic arm pouring liquid into a glass on a white table."
video = pipe(prompt, num_frames=16, height=256, width=256).frames[0]

# 保存为 GIF（需安装 imageio 和 imageio[ffmpeg]）
import imageio
imageio.mimsave("output.gif", video, fps=8)

📌 提示：

首次运行会下载约数 GB 的模型权重，请确保网络畅通。国内用户可通过设置 HF_ENDPOINT=https://hf-mirror.com 加速。

更多用法（如 Image2World、Video2World、机器人策略推理等）请参考官方文档：Inference Guide 和 Cosmos Cookbook。

版本历史

v1.5.12026/04/03

v1.5.02026/02/24

v1.4.22026/01/27

v1.4.12025/12/19

v1.4.02025/12/05

v1.3.32025/11/26

v1.3.22025/11/14

v1.3.12025/11/07

v1.3.02025/10/28

v1.2.02025/10/21

常见问题

在 RTX 5090 上运行推理失败，如何解决显存不足的问题？

使用 LoRA 微调时训练卡在采样步骤怎么办？

为什么无法复现 Bridge 数据集上动作条件模型的生成效果？

在 post-training 阶段启用验证集时出现错误，如何解决？

LoRA 训练中为何验证后日志消失？

动作条件模型训练后生成视频语义与真实视频差异很大，可能原因是什么？

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

MoneyPrinterTurbo

MoneyPrinterTurbo 是一款利用 AI 大模型技术，帮助用户一键生成高清短视频的开源工具。只需输入一个视频主题或关键词，它就能全自动完成从文案创作、素材匹配、字幕合成到背景音乐搭配的全过程，最终输出完整的竖屏或横屏短视频。这款工具主要解决了传统视频制作流程繁琐、门槛高以及素材版权复杂等痛点。无论是需要快速产出内容的自媒体创作者，还是希望尝试视频生成的普通用户，无需具备专业的剪辑技能或昂贵的硬件配置（普通电脑即可运行），都能轻松上手。同时，其清晰的 MVC 架构和对多种主流大模型（如 DeepSeek、Moonshot、通义千问等）的广泛支持，也使其成为开发者进行二次开发或技术研究的理想底座。 MoneyPrinterTurbo 的独特亮点在于其高度的灵活性与本地化友好性。它不仅支持中英文双语及多种语音合成，允许用户精细调整字幕样式和画面比例，还特别优化了国内网络环境下的模型接入方案，让用户无需依赖 VPN 即可使用高性能国产大模型。此外，工具提供批量生成模式，可一次性产出多个版本供用户择优，极大地提升了内容创作的效率与质量。

★ 55k|★★★☆☆|今天

开发框架语言模型Agent

oh-my-openagent

oh-my-openagent（简称 omo）是一款强大的开源智能体编排框架，前身名为 oh-my-opencode。它致力于打破单一模型供应商的生态壁垒，解决开发者在构建 AI 应用时面临的“厂商锁定”难题。不同于仅依赖特定模型的封闭方案，omo 倡导开放市场理念，支持灵活调度多种主流大模型：利用 Claude、Kimi 或 GLM 进行任务编排，调用 GPT 处理复杂推理，借助 Minimax 提升响应速度，或发挥 Gemini 的创意优势。这款工具特别适合希望摆脱平台限制、追求极致性能与成本平衡的开发者及研究人员使用。通过统一接口，用户可以轻松组合不同模型的长处，构建更高效、更具适应性的智能体系统。其独特的技术亮点在于“全模型兼容”架构，让用户不再受制于某一家公司的策略变动或定价调整，真正实现对前沿模型资源的自由驾驭。无论是构建自动化编码助手，还是开发多步骤任务处理流程，oh-my-openagent 都能提供灵活且稳健的基础设施支持，助力用户在快速演进的 AI 生态中保持技术主动权。

★ 48.4k|★★☆☆☆|今天

视频语言模型开发框架

onlook

Onlook 是一款专为设计师打造的开源 AI 优先设计工具，被誉为“设计师版的 Cursor”。它旨在打破设计与开发之间的壁垒，让用户能够以可视化的方式直接构建、样式化和编辑 React 应用。通过 Onlook，用户无需深入编写复杂代码，即可在类似 Figma 的直观界面中完成网页原型的搭建与调整，并实时预览最终效果。这款工具主要解决了传统工作流中设计稿到代码转换效率低、沟通成本高的问题。以往，设计师使用 Figma 等工具完成设计后，需要开发人员手动将其转化为代码，过程繁琐且容易出错。Onlook 允许用户直接在浏览器 DOM 中进行可视化编辑，底层自动生成基于 Next.js 和 TailwindCSS 的高质量代码，实现了“所见即所得”的开发体验。它不仅支持从文本或图像快速生成应用，还具备分支管理、资源管理及一键部署等功能，极大地简化了从创意到成品的流程。 Onlook 特别适合前端开发者、UI/UX 设计师以及希望快速验证产品创意的独立开发者使用。对于设计师而言，它降低了参与前端开发的门槛；对于开发者来说，它提供了一个高效的视觉化调试和原型构建环境。其核心技术亮点在于

★ 25k|★★★★☆|3天前

Agent图像视频

serena

Serena 是一款专为编程智能体（Coding Agent）打造的强大工具包，被誉为“智能体的集成开发环境（IDE）”。它通过模型上下文协议（MCP）与各类大语言模型及客户端无缝集成，旨在解决传统 AI 在复杂代码库中因依赖行号或简单文本搜索而导致的效率低下和准确性不足的问题。与传统方法不同，Serena 采用“智能体优先”的设计理念，提供基于语义的代码检索、编辑和重构能力。它能像资深开发者使用 IDE 一样，深入理解代码的符号层级和关联结构，从而让智能体在大型项目中运行得更快、更稳、更可靠。无论是终端用户（如 Claude Code）、IDE 插件（VSCode、Cursor）还是桌面应用，都能轻松接入 Serena 以扩展功能。 Serena 特别适合需要处理大规模代码项目的开发者、研究人员以及希望提升 AI 编码能力的技术团队。其核心技术亮点在于灵活的后端支持：既默认集成了基于语言服务器协议（LSP）的开源方案，支持超过 40 种编程语言；也可选配强大的 JetBrains 插件，利用专业 IDE 的深度分析能力。这让 Serena 成为连接人工智能与复杂软件工程的高效桥

★ 22.5k|★★☆☆☆|今天

Agent图像开发框架

sam2

SAM 2 是 Meta 推出的新一代基础模型，旨在解决图像与视频中的“提示式视觉分割”难题。无论是静态图片还是动态视频，用户只需提供简单的点击、框选等提示，SAM 2 就能精准识别并分割出目标对象。它将单张图像视为单帧视频进行处理，成功打破了以往模型在视频理解上的局限。这款工具特别适合计算机视觉开发者、AI 研究人员以及需要处理视频内容的设计师使用。对于希望探索多目标跟踪或构建交互式应用的技术团队，SAM 2 提供了强大的底层支持。其核心亮点在于采用了带有流式记忆机制的 Transformer 架构，能够实现实时的视频处理性能。此外，项目配套发布了迄今为止规模最大的视频分割数据集（SA-V），并通过“模型闭环数据引擎”不断自我进化。最新更新的 SAM 2.1 版本不仅提供了更优的预训练权重，还支持全模型编译加速及灵活的多目标独立追踪，让复杂场景下的视频分析变得更加高效与便捷。

★ 18.9k|★★★☆☆|今天

图像视频