Cosmos

8.1k 516 困难 1 次阅读今天其他

AI 解读由 AI 自动生成，仅供参考

NVIDIA Cosmos 是英伟达推出的全新开源项目集合，旨在为物理世界人工智能（Physical AI）和机器人技术的开发提供核心支持。它主要解决了开发者在构建具身智能系统时，缺乏高质量训练数据、仿真环境以及专用模型架构的痛点。通过整合先进的生成式 AI 技术，Cosmos 能够高效合成逼真的虚拟场景与传感器数据，帮助机器人在进入现实世界前完成大量低成本、高安全性的模拟训练，从而显著加速从算法研发到实际部署的进程。

这套工具特别适合从事机器人学、自动驾驶、工业自动化领域的研究人员与工程师，同时也服务于需要构建高保真仿真环境的算法开发者。其独特的技术亮点在于深度融合了英伟达在图形渲染与大模型领域的优势，提供了包括视频生成模型、3D 资产创建工具链以及优化的推理框架在内的全套解决方案，让复杂的物理交互模拟变得更加触手可及。值得注意的是，原有的代码仓库已停止维护并归档，最新的技术进展与完整功能现已迁移至全新的官方组织页面（nvidia-cosmos），建议用户前往新地址获取最前沿的版本与文档支持。

使用场景

某自动驾驶研发团队正试图构建高保真的世界基础模型，以生成极端天气下的驾驶视频数据来训练感知算法。

没有 Cosmos 时

团队需手动收集并清洗海量异构视频数据，缺乏统一的预处理流水线，导致数据准备周期长达数周。
训练大规模视频生成模型时，显存优化和分布式并行策略需从零编写，极易因代码错误导致训练中断或效率低下。
生成的视频往往存在物理规律违背（如车辆穿模、光影突变），缺乏内置的物理一致性约束机制，数据可用性低。
缺少针对机器人和自动驾驶领域的预训练权重，从头训练不仅算力成本高昂，且难以在短期内收敛到可用状态。
仿真环境与真实世界数据之间存在巨大的“域差距”，模型泛化能力差，无法有效迁移到实车测试中。

使用 Cosmos 后

直接利用 Cosmos 提供的标准化数据处理工具链，快速将多源视频转化为高质量训练集，数据准备时间缩短至几天。
调用内置的高效训练框架与优化算子，轻松管理千卡集群资源，显著提升了大模型训练的稳定性与吞吐量。
借助 Cosmos 内嵌的物理世界先验知识，生成的视频在物体运动轨迹和光照变化上高度符合真实物理规律。
加载官方发布的领域预训练模型进行微调，大幅降低了算力门槛，使团队能在有限资源下快速迭代出专用模型。
通过 Cosmos 生成的合成数据有效填补了长尾场景空白，显著缩小了仿真与现实的域差距，提升了实车感知系统的鲁棒性。

Cosmos 通过提供从数据处理、模型训练到物理一致生成的全栈能力，将自动驾驶世界模型的构建门槛从“造轮子”降低为“搭积木”。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库已弃用且不再维护。如需查看 NVIDIA Cosmos 的初始版本，请切换至 'archived-ces2025' 分支或访问新的官方 GitHub 页面 (https://github.com/nvidia-cosmos)。当前 README 中不包含具体的运行环境需求信息。

python未说明

快速开始

NVIDIA Cosmos Logo

NVIDIA Cosmos 的新 GitHub 页面：
https://github.com/nvidia-cosmos

此仓库已被弃用，不再维护。 如需查看该仓库中 NVIDIA Cosmos 的初始版本，请检出 archived-ces2025 分支。

NVIDIA Cosmos 快速上手指南

⚠️ 重要提示 当前仓库已**弃用（Deprecated）**且不再维护。NVIDIA Cosmos 项目已迁移至新的官方地址。

新仓库地址：https://github.com/nvidia-cosmos

历史版本查看：如需查看本仓库的初始发布版本，请切换至 archived-ces2025 分支。

以下指南基于新项目架构整理，请务必前往新仓库获取最新代码和模型。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

系统要求

操作系统：Linux (推荐 Ubuntu 20.04/22.04) 或 Windows with WSL2
GPU：NVIDIA GPU (建议显存 ≥ 24GB，支持 Ampere 架构或更高)
驱动：NVIDIA Driver 版本 ≥ 535
CUDA：CUDA Toolkit 12.x

前置依赖

Python 3.10 或更高版本
Git
pip 或 conda (推荐使用 conda 管理环境)

国内加速方案（可选）

为提升下载速度，中国开发者可配置以下镜像源：

PyPI: pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
Hugging Face: 设置环境变量 export HF_ENDPOINT=https://hf-mirror.com

2. 安装步骤

请前往新的官方仓库进行克隆和安装。

第一步：克隆仓库

git clone https://github.com/nvidia-cosmos/cosmos.git
cd cosmos

第二步：创建虚拟环境

conda create -n cosmos python=3.10 -y
conda activate cosmos

第三步：安装依赖

根据项目最新的 requirements.txt 安装核心依赖：

pip install -r requirements.txt

注：若需使用特定推理加速库，请参考新仓库中的 install.sh 脚本或文档进行额外安装。

3. 基本使用

以下是一个最简单的文本生成视频（Text-to-Video）推理示例。请确保已下载对应的预训练模型权重。

运行推理脚本

from cosmos import CosmosPipeline

# 初始化管道
pipeline = CosmosPipeline(
    model_name="cosmos-1.0-diffusion-7b",
    device="cuda"
)

# 生成视频
prompt = "A futuristic city with flying cars under a sunset sky."
video_output = pipeline.generate(
    prompt=prompt,
    num_frames=128,
    resolution=(720, 1280)
)

# 保存结果
video_output.save("output_video.mp4")
print("视频生成完成，已保存为 output_video.mp4")

命令行快速测试

如果项目提供了 CLI 工具，也可通过以下命令快速测试：

python infer.py --prompt "A cat walking on the moon" --output_dir ./results

下一步建议：请访问 NVIDIA Cosmos 官方 GitHub 查阅完整的模型列表、微调教程及高级 API 文档。

版本历史

Announcement-CES20262026/01/06

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|昨天

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|昨天

语言模型数据工具其他

cs-video-courses

cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。

★ 79.8k|★☆☆☆☆|昨天

其他图像数据工具

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|6天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 75.2k|★★★☆☆|今天

语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。

★ 72.1k|★☆☆☆☆|6天前

开发框架其他