[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-nv-tlabs--cosmos-transfer1-diffusion-renderer":3,"tool-nv-tlabs--cosmos-transfer1-diffusion-renderer":62},[4,18,26,35,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108111,2,"2026-04-08T11:23:26",[14,15,13],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":10,"last_commit_at":41,"category_tags":42,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[43,15,13,14],"语言模型",{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,52],"视频",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":59,"last_commit_at":60,"category_tags":61,"status":17},5646,"opencv","opencv\u002Fopencv","OpenCV 是一个功能强大的开源计算机视觉库，被誉为机器视觉领域的“瑞士军刀”。它主要解决让计算机“看懂”图像和视频的核心难题，提供了从基础的图像读取、色彩转换、边缘检测，到复杂的人脸识别、物体追踪、3D 重建及深度学习模型部署等全方位算法支持。无论是处理静态图片还是分析实时视频流，OpenCV 都能高效完成特征提取与模式识别任务。\n\n这款工具特别适合计算机视觉开发者、人工智能研究人员以及机器人工程师使用。对于希望将视觉感知能力集成到应用中的软件工程师，或是需要快速验证算法原型的学术研究者，OpenCV 都是不可或缺的基础设施。虽然普通用户通常不会直接操作代码，但日常生活中使用的扫码支付、美颜相机和自动驾驶系统，背后往往都有它的身影。\n\nOpenCV 的独特亮点在于其卓越的性能与广泛的兼容性。它采用 C++ 编写以确保高速运算，同时提供 Python、Java 等多种语言接口，极大降低了开发门槛。库中内置了数千种优化算法，并支持跨平台运行，能够无缝对接各类硬件加速器。作为社区驱动的项目，OpenCV 拥有活跃的生态系统和丰富的学习资源，持续推动着视觉技术的前沿发展。",86988,1,"2026-04-08T16:06:22",[14,15],{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":68,"readme_en":69,"readme_zh":70,"quickstart_zh":71,"use_case_zh":72,"hero_image_url":73,"owner_login":74,"owner_name":75,"owner_avatar_url":76,"owner_bio":77,"owner_company":78,"owner_location":78,"owner_email":78,"owner_twitter":78,"owner_website":79,"owner_url":80,"languages":81,"stars":97,"forks":98,"last_commit_at":99,"license":100,"difficulty_score":101,"env_os":102,"env_gpu":103,"env_ram":104,"env_deps":105,"category_tags":112,"github_topics":113,"view_count":32,"oss_zip_url":78,"oss_zip_packed_at":78,"status":17,"created_at":117,"updated_at":118,"faqs":119,"releases":154},5914,"nv-tlabs\u002Fcosmos-transfer1-diffusion-renderer","cosmos-transfer1-diffusion-renderer","Cosmos-Transfer1-DiffusionRenderer: High-quality video de-lighting and re-lighting based on Cosmos video diffusion framework ","cosmos-transfer1-diffusion-renderer 是一款基于 NVIDIA Cosmos 视频扩散框架打造的高质量视频重照明工具。它核心专注于视频的“去光”与“重光”处理，能够精准移除输入画面中的原有光照影响，并根据用户指令重新布光，从而实现对视频光影效果的自由操控与编辑。\n\n该工具主要解决了计算机视觉和机器人训练中常见的难题：如何在多变的光照条件下提升感知模型与策略模型的鲁棒性。通过生成具有不同光照条件的合成数据，它能有效辅助物理 AI 系统的训练，同时为影视后期制作提供高效的光影调整方案。\n\n这款工具特别适合 AI 研究人员、计算机视觉开发者以及需要高质量合成数据的专业设计师使用。由于其对硬件要求较高（建议显存大于 48GB）且涉及复杂的依赖环境配置，普通用户上手门槛相对较高。\n\n技术层面，cosmos-transfer1-diffusion-renderer 继承了 DiffusionRenderer 的研究成果，并在数据流水线与视觉保真度上进行了显著升级。它不仅能还原真实的物理光照效果，还支持精细化的光影编辑，是目前视频生成与编辑领域兼具学术价值与应用潜力","cosmos-transfer1-diffusion-renderer 是一款基于 NVIDIA Cosmos 视频扩散框架打造的高质量视频重照明工具。它核心专注于视频的“去光”与“重光”处理，能够精准移除输入画面中的原有光照影响，并根据用户指令重新布光，从而实现对视频光影效果的自由操控与编辑。\n\n该工具主要解决了计算机视觉和机器人训练中常见的难题：如何在多变的光照条件下提升感知模型与策略模型的鲁棒性。通过生成具有不同光照条件的合成数据，它能有效辅助物理 AI 系统的训练，同时为影视后期制作提供高效的光影调整方案。\n\n这款工具特别适合 AI 研究人员、计算机视觉开发者以及需要高质量合成数据的专业设计师使用。由于其对硬件要求较高（建议显存大于 48GB）且涉及复杂的依赖环境配置，普通用户上手门槛相对较高。\n\n技术层面，cosmos-transfer1-diffusion-renderer 继承了 DiffusionRenderer 的研究成果，并在数据流水线与视觉保真度上进行了显著升级。它不仅能还原真实的物理光照效果，还支持精细化的光影编辑，是目前视频生成与编辑领域兼具学术价值与应用潜力的前沿开源项目。","# Cosmos-Transfer1-DiffusionRenderer\n\n\nCosmos-Transfer1-DiffusionRenderer is a dedicated video relighting framework based on [NVIDIA Cosmos World Foundation Models](https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fai\u002Fcosmos\u002F), designed for high-quality de-lighting and re-lighting of input image or videos.\nIt enables controllable video lighting manipulation, editing, and synthetic data augmentation—supporting physical AI systems to train perception and policy models with improved robustness to varying lighting conditions.\nIt is powered by NVIDIA’s Cosmos framework and builds on the research project [DiffusionRenderer](https:\u002F\u002Fresearch.nvidia.com\u002Flabs\u002Ftoronto-ai\u002FDiffusionRenderer\u002F), with an improved data pipeline and enhanced visual fidelity.\n\n**[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.18590) | [Project Page](https:\u002F\u002Fresearch.nvidia.com\u002Flabs\u002Ftoronto-ai\u002FDiffusionRenderer\u002F) | [Demo Video](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=Q3xhYNbXM9c) | [Blog](https:\u002F\u002Fblogs.nvidia.com\u002Fblog\u002Fcvpr-2025-ai-research-diffusionrenderer\u002F)**\n\n![img](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fnv-tlabs_cosmos-transfer1-diffusion-renderer_readme_a6fe35328c3f.gif)\n\n\n## 🚀 News \n-  [June 12, 2025] 🔥 Released Cosmos-Transfer1-DiffusionRenderer code and model weights in this repo!  \n-  [June 11, 2025] 🎬 Released our [video demo](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=Q3xhYNbXM9c) and [blog](https:\u002F\u002Fblogs.nvidia.com\u002Fblog\u002Fcvpr-2025-ai-research-diffusionrenderer\u002F) on Cosmos-Transfer1-DiffusionRenderer. \n-  [June 11, 2025] 🔥 Released the code and model weights for the academic version of DiffusionRenderer. This version reproduces the results in our paper. Check the [GitHub repo](https:\u002F\u002Fgithub.com\u002Fnv-tlabs\u002Fdiffusion-renderer) and [model weights](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fnexuslrf\u002Fdiffusionrenderer-svd-68472d636e85c29b6c25422f). \n\n\n## Installation\n\n### Minimum requirements\n\n- Python 3.10\n- NVIDIA GPU with at least 16GB VRAM, recommend to have >=48GB VRAM \n- NVIDIA drivers and CUDA 12.0 or higher\n- At least 70GB free disk space\n\nThe installation has been tested on:\n- Ubuntu 20.04\n- NVIDIA A100 GPU (80GB VRAM), NVIDIA A6000 GPU (48GB VRAM)\n\n\n### Conda environment \n\nThe below commands creates the `cosmos-predict1` conda environment and installs the dependencies for inference:\n```bash\n# Create the cosmos-predict1 conda environment.\nconda env create --file cosmos-predict1.yaml\n# Activate the cosmos-predict1 conda environment.\nconda activate cosmos-predict1\n# Install the dependencies.\npip install -r requirements.txt\n# Patch Transformer engine linking issues in conda environments.\nln -sf $CONDA_PREFIX\u002Flib\u002Fpython3.10\u002Fsite-packages\u002Fnvidia\u002F*\u002Finclude\u002F* $CONDA_PREFIX\u002Finclude\u002F\nln -sf $CONDA_PREFIX\u002Flib\u002Fpython3.10\u002Fsite-packages\u002Fnvidia\u002F*\u002Finclude\u002F* $CONDA_PREFIX\u002Finclude\u002Fpython3.10\n# Install Transformer engine.\npip install transformer-engine[pytorch]==1.12.0\n```\n\nIf the [dependency](https:\u002F\u002Fgithub.com\u002FNVlabs\u002Fnvdiffrast\u002Fblob\u002Fmain\u002Fdocker\u002FDockerfile) is well taken care of, install `nvdiffrast` with:\n```bash\n# Patch dependency for nvdiffrast \nln -sf $CONDA_PREFIX\u002Flib\u002Fpython3.10\u002Fsite-packages\u002Ftriton\u002Fbackends\u002Fnvidia\u002Finclude\u002Fcrt $CONDA_PREFIX\u002Finclude\u002F\npip install git+https:\u002F\u002Fgithub.com\u002FNVlabs\u002Fnvdiffrast.git\n```\nFor platforms other than ubuntu, check [nvdiffrast official documentation](https:\u002F\u002Fnvlabs.github.io\u002Fnvdiffrast\u002F) and their [Dockerfile](https:\u002F\u002Fgithub.com\u002FNVlabs\u002Fnvdiffrast\u002Fblob\u002Fmain\u002Fdocker\u002FDockerfile). \n\n\n### Download model weights (~56GB) \n\nThe model weights are available on [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fzianw\u002Fcosmos-transfer1-diffusionrenderer-6849f2a4da267e55409b8125).\n\n1. Generate a [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fsettings\u002Ftokens) access token (if you haven't done so already). Set the access token to `Read` permission (default is `Fine-grained`).\n\n2. Log in to Hugging Face with the access token:\n   ```bash\n   huggingface-cli login\n   ```\n\n3. Download the DiffusionRenderer model weights from [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fzianw\u002Fcosmos-transfer1-diffusionrenderer-6849f2a4da267e55409b8125):\n   ```bash\n   CUDA_HOME=$CONDA_PREFIX PYTHONPATH=$(pwd) python scripts\u002Fdownload_diffusion_renderer_checkpoints.py --checkpoint_dir checkpoints\n   ```\n\n## Inference: Image examples \n\nThis example demonstrates how to use DiffusionRenderer for delighting and relighting a set of images, using images placed in the `asset\u002Fexamples\u002Fimage_examples\u002F` folder. The model will process each image in the folder; using fewer images will reduce the total processing time.\n\nApproximately 16GB of GPU VRAM is recommended. If you encounter out-of-memory errors, add `--offload_diffusion_transformer --offload_tokenizer` to the command to reduce GPU memory usage. \n\n### Inverse rendering of images \n\nThis will estimate albedo, metallic, roughness, depth, normals (G-buffers) from each input image using the pre-trained Inverse Renderer model. The inference script is `cosmos_predict1\u002Fdiffusion\u002Finference\u002Finference_inverse_renderer.py`. \n\nTo perform inverse rendering on a set of images, use the following command: \n```bash\nCUDA_HOME=$CONDA_PREFIX PYTHONPATH=$(pwd) python cosmos_predict1\u002Fdiffusion\u002Finference\u002Finference_inverse_renderer.py \\\n    --checkpoint_dir checkpoints --diffusion_transformer_dir Diffusion_Renderer_Inverse_Cosmos_7B \\\n    --dataset_path=asset\u002Fexamples\u002Fimage_examples\u002F --num_video_frames 1 --group_mode webdataset \\\n    --video_save_folder=asset\u002Fexample_results\u002Fimage_delighting\u002F --save_video=False\n```\n\nThe configs here: \n- `--checkpoint_dir` specifies the directory containing model checkpoints, use default `checkpoints\u002F`.\n- `--diffusion_transformer_dir` selects the specific model variant to use.\n- `--dataset_path` points to the folder with your input images.\n- `--num_video_frames 1` processes each image individually (as a single frame).\n- `--video_save_folder` sets the output directory for the results.\n- `--save_video=False` disables saving a video file, since we're processing images. \n\nExplanation on additional arguments can be found inside the script. \nAdditionally,  the `--inference_passes` argument controls which G-buffer maps are estimated and saved by the inverse renderer. By default, it runs on five passes: `basecolor`, `normal`, `depth`, `roughness`, and `metallic`. You can specify a subset to only compute certain outputs. \n\n\n### Relighting of images \n\nUsing the gbuffer frames from the previous step `asset\u002Fexample_results\u002Fimage_delighting\u002Fgbuffer_frames`, we use Forward Renderer to relight images with user provided environment maps. \n\n```bash\nCUDA_HOME=$CONDA_PREFIX PYTHONPATH=$(pwd) python cosmos_predict1\u002Fdiffusion\u002Finference\u002Finference_forward_renderer.py \\\n    --checkpoint_dir checkpoints --diffusion_transformer_dir Diffusion_Renderer_Forward_Cosmos_7B \\\n    --dataset_path=asset\u002Fexample_results\u002Fimage_delighting\u002Fgbuffer_frames --num_video_frames 1 \\\n    --envlight_ind 0 1 2 3 --use_custom_envmap=True \\\n    --video_save_folder=asset\u002Fexample_results\u002Fimage_relighting\u002F\n```\nHere, the `--envlight_ind 0 1 2 3` argument specifies which environment maps (HDRIs) to use for relighting. \nEach number corresponds to a different predefined lighting environment included with the code (check `ENV_LIGHT_PATH_LIST` in `inference_forward_renderer.py`). \n\nBy providing multiple indices (e.g., `0 1 2 3`), the forward renderer will relight each input using all selected environment maps, producing multiple relit outputs per input. You can choose a subset (e.g., `--envlight_ind 0 2`) to use only specific lighting conditions. \nThis script will produce results in `asset\u002Fexample_results\u002Fimage_relighting\u002F`. \n\n\n### Illumination randomization of images \n\nWhen environment maps are not available, the command below allows to randomize illumination by changing random seeds. \n```bash\nCUDA_HOME=$CONDA_PREFIX PYTHONPATH=$(pwd) python cosmos_predict1\u002Fdiffusion\u002Finference\u002Finference_forward_renderer.py \\\n    --checkpoint_dir checkpoints --diffusion_transformer_dir Diffusion_Renderer_Forward_Cosmos_7B \\\n    --dataset_path=asset\u002Fexample_results\u002Fimage_delighting\u002Fgbuffer_frames --num_video_frames 1 \\\n    --envlight_ind 0 1 2 3 --use_custom_envmap=False \\\n    --video_save_folder=asset\u002Fexample_results\u002Fimage_relighting_random\u002F\n```\nby setting `--use_custom_envmap` to `False`. \n\nThe script will produce results in `asset\u002Fexample_results\u002Fimage_relighting_random\u002F`. \n\n\n## Inference: Video examples \n\nThis example uses videos placed in the `asset\u002Fexamples\u002Fvideo_examples\u002F` folder. The model will process each video in the folder; using fewer videos will reduce the total processing time.\n\nThe peak GPU memory usage is ~27GB. If you encounter out-of-memory errors, add `--offload_diffusion_transformer --offload_tokenizer` to the command to reduce GPU memory usage. \n\n\n### Extract frames from videos  \n\nBefore running the inverse renderer on videos, you need to extract individual frames from each video file. This step converts each video into a sequence of images, which are then used as input for the rendering pipeline.\n\nThe following command will process all videos in the `asset\u002Fexamples\u002Fvideo_examples\u002F` directory, extracting frames and saving them into the `asset\u002Fexamples\u002Fvideo_frames_examples\u002F` folder:\n```bash\npython scripts\u002Fdataproc_extract_frames_from_video.py --input_folder asset\u002Fexamples\u002Fvideo_examples\u002F --output_folder asset\u002Fexamples\u002Fvideo_frames_examples\u002F \n--frame_rate 24 --resize 1280x704 --max_frames=57\n```\n\n### Inverse rendering of videos\n\nThis step performs inverse rendering on a sequence of video frames to estimate the underlying G-buffer maps (such as basecolor, normal, depth, roughness, and metallic) for each frame. \n\nExample command:\n```bash\nCUDA_HOME=$CONDA_PREFIX PYTHONPATH=$(pwd) python cosmos_predict1\u002Fdiffusion\u002Finference\u002Finference_inverse_renderer.py \\\n    --checkpoint_dir checkpoints --diffusion_transformer_dir Diffusion_Renderer_Inverse_Cosmos_7B \\\n    --dataset_path=asset\u002Fexamples\u002Fvideo_frames_examples\u002F --num_video_frames 57 --group_mode folder \\\n    --video_save_folder=asset\u002Fexample_results\u002Fvideo_delighting\u002F \n```\n\n\n### Relighting of videos \n\nThis step takes the G-buffer frames generated by the inverse renderer and applies novel lighting conditions to produce relit video frames. The command below uses four different environment maps (specified by `--envlight_ind 0 1 2 3`) to relight the video. \n```bash\nCUDA_HOME=$CONDA_PREFIX PYTHONPATH=$(pwd) python cosmos_predict1\u002Fdiffusion\u002Finference\u002Finference_forward_renderer.py \\\n    --checkpoint_dir checkpoints --diffusion_transformer_dir Diffusion_Renderer_Forward_Cosmos_7B \\\n    --dataset_path=asset\u002Fexample_results\u002Fvideo_delighting\u002Fgbuffer_frames --num_video_frames 57 \\\n    --envlight_ind 0 1 2 3 --use_custom_envmap=True \\\n    --video_save_folder=asset\u002Fexample_results\u002Fvideo_relighting\u002F\n```\n\n\nWe can also use a static frame and show relighting with a rotating environment light by specifying `--rotate_light=True --use_fixed_frame_ind=True`: \n```bash\nCUDA_HOME=$CONDA_PREFIX PYTHONPATH=$(pwd) python cosmos_predict1\u002Fdiffusion\u002Finference\u002Finference_forward_renderer.py \\\n    --checkpoint_dir checkpoints --diffusion_transformer_dir Diffusion_Renderer_Forward_Cosmos_7B \\\n    --dataset_path=asset\u002Fexample_results\u002Fvideo_delighting\u002Fgbuffer_frames --num_video_frames 57 \\\n    --envlight_ind 0 1 2 3 --use_custom_envmap=True \\\n    --video_save_folder=asset\u002Fexample_results\u002Fvideo_relighting_rotation\u002F --rotate_light=True --use_fixed_frame_ind=True\n```\n\n\n## License and Contact\n\nCosmos-Transfer1-DiffusionRenderer source code is released under the [Apache 2 License](https:\u002F\u002Fwww.apache.org\u002Flicenses\u002FLICENSE-2.0).\nModels are released under the [NVIDIA Open Model License](https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fagreements\u002Fenterprise-software\u002Fnvidia-open-model-license). \n\nFor business inquiries, please visit our website and submit the form: [NVIDIA Research Licensing](https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fresearch\u002Finquiries\u002F).\nFor technical questions related to the model, please contact Zian Wang. \n\n\n## Citation\n\nIf you find this work useful, please consider citing:\n\n```bibtex\n@inproceedings{DiffusionRenderer,\n    author = {Ruofan Liang and Zan Gojcic and Huan Ling and Jacob Munkberg and \n        Jon Hasselgren and Zhi-Hao Lin and Jun Gao and Alexander Keller and \n        Nandita Vijaykumar and Sanja Fidler and Zian Wang},\n    title = {DiffusionRenderer: Neural Inverse and Forward Rendering with Video Diffusion Models},\n    booktitle = {The IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},\n    month = {June},\n    year = {2025}\n}\n```\n","# 宇宙-传输1-扩散渲染器\n\n\nCosmos-Transfer1-DiffusionRenderer 是一个基于 [NVIDIA Cosmos 世界基础模型](https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fai\u002Fcosmos\u002F) 的专用视频重打光框架，专为输入图像或视频提供高质量的去打光和重打光功能而设计。\n它能够实现对视频光照的可控操作、编辑以及合成数据增强——从而支持物理 AI 系统在不同光照条件下训练出更具鲁棒性的感知与策略模型。\n该框架由 NVIDIA 的 Cosmos 框架驱动，并建立在 [DiffusionRenderer](https:\u002F\u002Fresearch.nvidia.com\u002Flabs\u002Ftoronto-ai\u002FDiffusionRenderer\u002F) 研究项目的基础上，同时优化了数据流水线并提升了视觉保真度。\n\n**[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.18590) | [项目页面](https:\u002F\u002Fresearch.nvidia.com\u002Flabs\u002Ftoronto-ai\u002FDiffusionRenderer\u002F) | [演示视频](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=Q3xhYNbXM9c) | [博客](https:\u002F\u002Fblogs.nvidia.com\u002Fblog\u002Fcvpr-2025-ai-research-diffusionrenderer\u002F)**\n\n![img](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fnv-tlabs_cosmos-transfer1-diffusion-renderer_readme_a6fe35328c3f.gif)\n\n\n## 🚀 最新消息 \n-  [2025年6月12日] 🔥 本仓库已发布 Cosmos-Transfer1-DiffusionRenderer 的代码及模型权重！  \n-  [2025年6月11日] 🎬 我们发布了关于 Cosmos-Transfer1-DiffusionRenderer 的 [视频演示](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=Q3xhYNbXM9c) 和 [博客](https:\u002F\u002Fblogs.nvidia.com\u002Fblog\u002Fcvpr-2025-ai-research-diffusionrenderer\u002F)。 \n-  [2025年6月11日] 🔥 发布了 DiffusionRenderer 学术版的代码和模型权重。该版本复现了我们论文中的结果。请查看 [GitHub 仓库](https:\u002F\u002Fgithub.com\u002Fnv-tlabs\u002Fdiffusion-renderer) 和 [模型权重](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fnexuslrf\u002Fdiffusionrenderer-svd-68472d636e85c29b6c25422f)。 \n\n\n## 安装说明\n\n### 最低要求\n\n- Python 3.10\n- 至少配备 16GB 显存的 NVIDIA GPU，建议使用 ≥48GB 显存的显卡\n- NVIDIA 驱动程序及 CUDA 12.0 或更高版本\n- 至少 70GB 可用磁盘空间\n\n安装已在以下环境中测试通过：\n- Ubuntu 20.04\n- NVIDIA A100 GPU（80GB 显存）、NVIDIA A6000 GPU（48GB 显存）\n\n\n### Conda 环境 \n\n以下命令将创建 `cosmos-predict1` Conda 环境并安装推理所需的依赖项：\n```bash\n# 创建 cosmos-predict1 Conda 环境。\nconda env create --file cosmos-predict1.yaml\n# 激活 cosmos-predict1 Conda 环境。\nconda activate cosmos-predict1\n# 安装依赖项。\npip install -r requirements.txt\n# 修复 Conda 环境中 Transformer Engine 的链接问题。\nln -sf $CONDA_PREFIX\u002Flib\u002Fpython3.10\u002Fsite-packages\u002Fnvidia\u002F*\u002Finclude\u002F* $CONDA_PREFIX\u002Finclude\u002F\nln -sf $CONDA_PREFIX\u002Flib\u002Fpython3.10\u002Fsite-packages\u002Fnvidia\u002F*\u002Finclude\u002F* $CONDA_PREFIX\u002Finclude\u002Fpython3.10\n# 安装 Transformer Engine。\npip install transformer-engine[pytorch]==1.12.0\n```\n\n如果 [依赖项](https:\u002F\u002Fgithub.com\u002FNVlabs\u002Fnvdiffrast\u002Fblob\u002Fmain\u002Fdocker\u002FDockerfile) 已正确配置，则可通过以下命令安装 `nvdiffrast`：\n```bash\n# 为 nvdiffrast 修补依赖项。\nln -sf $CONDA_PREFIX\u002Flib\u002Fpython3.10\u002Fsite-packages\u002Ftriton\u002Fbackends\u002Fnvidia\u002Finclude\u002Fcrt $CONDA_PREFIX\u002Finclude\u002F\npip install git+https:\u002F\u002Fgithub.com\u002FNVlabs\u002Fnvdiffrast.git\n```\n对于非 Ubuntu 平台，请参考 [nvdiffrast 官方文档](https:\u002F\u002Fnvlabs.github.io\u002Fnvdiffrast\u002F)及其 [Dockerfile](https:\u002F\u002Fgithub.com\u002FNVlabs\u002Fnvdiffrast\u002Fblob\u002Fmain\u002Fdocker\u002FDockerfile)。 \n\n\n### 下载模型权重 (~56GB) \n\n模型权重可在 [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fzianw\u002Fcosmos-transfer1-diffusionrenderer-6849f2a4da267e55409b8125) 上获取。\n\n1. 生成一个 [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fsettings\u002Ftokens) 访问令牌（如尚未生成）。将访问令牌权限设置为“读取”（默认为“细粒度”）。\n\n2. 使用访问令牌登录 Hugging Face：\n   ```bash\n   huggingface-cli login\n   ```\n\n3. 从 [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fzianw\u002Fcosmos-transfer1-diffusionrenderer-6849f2a4da267e55409b8125) 下载 DiffusionRenderer 模型权重：\n   ```bash\n   CUDA_HOME=$CONDA_PREFIX PYTHONPATH=$(pwd) python scripts\u002Fdownload_diffusion_renderer_checkpoints.py --checkpoint_dir checkpoints\n   ```\n\n## 推理：图像示例 \n\n本示例展示了如何使用 DiffusionRenderer 对一组图像进行去打光和重打光处理，所使用的图像位于 `asset\u002Fexamples\u002Fimage_examples\u002F` 文件夹中。模型将逐个处理该文件夹中的每张图像；减少输入图像数量可以缩短总处理时间。\n\n建议使用约 16GB 的 GPU 显存。若遇到显存不足的错误，可在命令中添加 `--offload_diffusion_transformer --offload_tokenizer` 参数以降低 GPU 显存占用。\n\n### 图像逆向渲染 \n\n此过程将利用预训练的逆向渲染模型，从每张输入图像中估计反照率、金属度、粗糙度、深度及法线（G 缓冲区）。推理脚本为 `cosmos_predict1\u002Fdiffusion\u002Finference\u002Finference_inverse_renderer.py`。\n\n要对一组图像执行逆向渲染，请使用以下命令：\n```bash\nCUDA_HOME=$CONDA_PREFIX PYTHONPATH=$(pwd) python cosmos_predict1\u002Fdiffusion\u002Finference\u002Finference_inverse_renderer.py \\\n    --checkpoint_dir checkpoints --diffusion_transformer_dir Diffusion_Renderer_Inverse_Cosmos_7B \\\n    --dataset_path=asset\u002Fexamples\u002Fimage_examples\u002F --num_video_frames 1 --group_mode webdataset \\\n    --video_save_folder=asset\u002Fexample_results\u002Fimage_delighting\u002F --save_video=False\n```\n\n此处的配置说明如下：\n- `--checkpoint_dir` 指定包含模型检查点的目录，默认为 `checkpoints\u002F`。\n- `--diffusion_transformer_dir` 选择要使用的具体模型变体。\n- `--dataset_path` 指向包含输入图像的文件夹。\n- `--num_video_frames 1` 表示逐张处理图像（作为单帧）。\n- `--video_save_folder` 设置输出结果的保存目录。\n- `--save_video=False` 禁用视频文件的保存，因为我们正在处理的是图像。\n\n更多参数说明请参阅脚本内部。此外，`--inference_passes` 参数可控制逆向渲染器估计并保存哪些 G 缓冲区映射。默认情况下，它会运行五次传递：`basecolor`、`normal`、`depth`、`roughness` 和 `metallic`。您也可以指定子集，仅计算某些输出。\n\n### 图像重光照\n\n利用上一步生成的 gbuffer 帧 `asset\u002Fexample_results\u002Fimage_delighting\u002Fgbuffer_frames`，我们使用前向渲染器对图像进行重光照，所使用的环境贴图由用户指定。\n\n```bash\nCUDA_HOME=$CONDA_PREFIX PYTHONPATH=$(pwd) python cosmos_predict1\u002Fdiffusion\u002Finference\u002Finference_forward_renderer.py \\\n    --checkpoint_dir checkpoints --diffusion_transformer_dir Diffusion_Renderer_Forward_Cosmos_7B \\\n    --dataset_path=asset\u002Fexample_results\u002Fimage_delighting\u002Fgbuffer_frames --num_video_frames 1 \\\n    --envlight_ind 0 1 2 3 --use_custom_envmap=True \\\n    --video_save_folder=asset\u002Fexample_results\u002Fimage_relighting\u002F\n```\n\n其中，`--envlight_ind 0 1 2 3` 参数指定了用于重光照的环境贴图（HDRIs）。每个数字对应代码中包含的不同预定义光照环境（请查看 `inference_forward_renderer.py` 中的 `ENV_LIGHT_PATH_LIST`）。通过提供多个索引（例如 `0 1 2 3`），前向渲染器将使用所有选定的环境贴图对每个输入进行重光照，从而为每个输入生成多个重光照结果。你也可以选择一个子集（例如 `--envlight_ind 0 2`），仅使用特定的光照条件。该脚本将在 `asset\u002Fexample_results\u002Fimage_relighting\u002F` 目录下生成结果。\n\n### 图像光照随机化\n\n当没有可用的环境贴图时，以下命令可以通过改变随机种子来实现光照的随机化：\n\n```bash\nCUDA_HOME=$CONDA_PREFIX PYTHONPATH=$(pwd) python cosmos_predict1\u002Fdiffusion\u002Finference\u002Finference_forward_renderer.py \\\n    --checkpoint_dir checkpoints --diffusion_transformer_dir Diffusion_Renderer_Forward_Cosmos_7B \\\n    --dataset_path=asset\u002Fexample_results\u002Fimage_delighting\u002Fgbuffer_frames --num_video_frames 1 \\\n    --envlight_ind 0 1 2 3 --use_custom_envmap=False \\\n    --video_save_folder=asset\u002Fexample_results\u002Fimage_relighting_random\u002F\n```\n\n只需将 `--use_custom_envmap` 设置为 `False` 即可。\n\n该脚本将在 `asset\u002Fexample_results\u002Fimage_relighting_random\u002F` 目录下生成结果。\n\n## 推理：视频示例\n\n本示例使用位于 `asset\u002Fexamples\u002Fvideo_examples\u002F` 文件夹中的视频。模型将处理该文件夹中的每段视频；减少视频数量可以缩短总处理时间。\n\n峰值 GPU 内存占用约为 27GB。如果遇到内存不足的错误，可以在命令中添加 `--offload_diffusion_transformer --offload_tokenizer` 以降低 GPU 内存使用量。\n\n### 从视频中提取帧\n\n在对视频运行逆向渲染器之前，需要先从每个视频文件中提取单独的帧。这一步骤会将每段视频转换为一系列图像，这些图像随后将作为渲染流水线的输入。\n\n以下命令将处理 `asset\u002Fexamples\u002Fvideo_examples\u002F` 目录下的所有视频，提取帧并保存到 `asset\u002Fexamples\u002Fvideo_frames_examples\u002F` 文件夹中：\n\n```bash\npython scripts\u002Fdataproc_extract_frames_from_video.py --input_folder asset\u002Fexamples\u002Fvideo_examples\u002F --output_folder asset\u002Fexamples\u002Fvideo_frames_examples\u002F \n--frame_rate 24 --resize 1280x704 --max_frames=57\n```\n\n### 视频的逆向渲染\n\n此步骤对视频帧序列执行逆向渲染，以估计每帧的基础颜色、法线、深度、粗糙度和金属度等 G-buffer 地图。\n\n示例命令如下：\n\n```bash\nCUDA_HOME=$CONDA_PREFIX PYTHONPATH=$(pwd) python cosmos_predict1\u002Fdiffusion\u002Finference\u002Finference_inverse_renderer.py \\\n    --checkpoint_dir checkpoints --diffusion_transformer_dir Diffusion_Renderer_Inverse_Cosmos_7B \\\n    --dataset_path=asset\u002Fexamples\u002Fvideo_frames_examples\u002F --num_video_frames 57 --group_mode folder \\\n    --video_save_folder=asset\u002Fexample_results\u002Fvideo_delighting\u002F\n```\n\n### 视频的重光照\n\n此步骤将逆向渲染器生成的 G-buffer 帧作为输入，应用新的光照条件以生成重光照后的视频帧。以下命令使用四个不同的环境贴图（由 `--envlight_ind 0 1 2 3` 指定）对视频进行重光照：\n\n```bash\nCUDA_HOME=$CONDA_PREFIX PYTHONPATH=$(pwd) python cosmos_predict1\u002Fdiffusion\u002Finference\u002Finference_forward_renderer.py \\\n    --checkpoint_dir checkpoints --diffusion_transformer_dir Diffusion_Renderer_Forward_Cosmos_7B \\\n    --dataset_path=asset\u002Fexample_results\u002Fvideo_delighting\u002Fgbuffer_frames --num_video_frames 57 \\\n    --envlight_ind 0 1 2 3 --use_custom_envmap=True \\\n    --video_save_folder=asset\u002Fexample_results\u002Fvideo_relighting\u002F\n```\n\n我们还可以使用静态帧，并通过指定 `--rotate_light=True --use_fixed_frame_ind=True` 来展示旋转环境光下的重光照效果：\n\n```bash\nCUDA_HOME=$CONDA_PREFIX PYTHONPATH=$(pwd) python cosmos_predict1\u002Fdiffusion\u002Finference\u002Finference_forward_renderer.py \\\n    --checkpoint_dir checkpoints --diffusion_transformer_dir Diffusion_Renderer_Forward_Cosmos_7B \\\n    --dataset_path=asset\u002Fexample_results\u002Fvideo_delighting\u002Fgbuffer_frames --num_video_frames 57 \\\n    --envlight_ind 0 1 2 3 --use_custom_envmap=True \\\n    --video_save_folder=asset\u002Fexample_results\u002Fvideo_relighting_rotation\u002F --rotate_light=True --use_fixed_frame_ind=True\n```\n\n## 许可与联系方式\n\nCosmos-Transfer1-DiffusionRenderer 的源代码采用 [Apache 2.0 许可证](https:\u002F\u002Fwww.apache.org\u002Flicenses\u002FLICENSE-2.0) 发布。\n模型则采用 [NVIDIA 开放模型许可证](https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fagreements\u002Fenterprise-software\u002Fnvidia-open-model-license) 发布。\n\n如需商务合作，请访问我们的官网并提交表格：[NVIDIA Research Licensing](https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fresearch\u002Finquiries\u002F)。\n如有关于模型的技术问题，请联系 Zian Wang。\n\n## 引用\n\n如果您觉得这项工作有用，请考虑引用以下内容：\n\n```bibtex\n@inproceedings{DiffusionRenderer,\n    author = {Ruofan Liang and Zan Gojcic and Huan Ling and Jacob Munkberg and \n        Jon Hasselgren and Zhi-Hao Lin and Jun Gao and Alexander Keller and \n        Nandita Vijaykumar and Sanja Fidler and Zian Wang},\n    title = {DiffusionRenderer: Neural Inverse and Forward Rendering with Video Diffusion Models},\n    booktitle = {The IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},\n    month = {June},\n    year = {2025}\n}\n```","# Cosmos-Transfer1-DiffusionRenderer 快速上手指南\n\nCosmos-Transfer1-DiffusionRenderer 是基于 NVIDIA Cosmos 世界基础模型的视频重光照框架，专为高质量的图像\u002F视频去光照（de-lighting）和重光照（re-lighting）设计。它支持可控的光照编辑和合成数据增强，适用于物理 AI 系统的感知与策略模型训练。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下最低要求：\n\n*   **操作系统**: Ubuntu 20.04 (其他平台需参考 nvdiffrast 官方文档)\n*   **Python**: 3.10\n*   **GPU**: NVIDIA GPU，显存至少 16GB（推荐 >=48GB，如 A100 80GB 或 A6000 48GB）\n*   **驱动与 CUDA**: NVIDIA 驱动程序及 CUDA 12.0 或更高版本\n*   **磁盘空间**: 至少 70GB 可用空间（模型权重约 56GB）\n\n## 安装步骤\n\n### 1. 创建 Conda 环境并安装依赖\n\n使用提供的配置文件创建环境，并安装必要的 Python 包及 Transformer Engine。\n\n```bash\n# 创建 cosmos-predict1 conda 环境\nconda env create --file cosmos-predict1.yaml\n\n# 激活环境\nconda activate cosmos-predict1\n\n# 安装依赖\npip install -r requirements.txt\n\n# 修复 Conda 环境中 Transformer engine 的链接问题\nln -sf $CONDA_PREFIX\u002Flib\u002Fpython3.10\u002Fsite-packages\u002Fnvidia\u002F*\u002Finclude\u002F* $CONDA_PREFIX\u002Finclude\u002F\nln -sf $CONDA_PREFIX\u002Flib\u002Fpython3.10\u002Fsite-packages\u002Fnvidia\u002F*\u002Finclude\u002F* $CONDA_PREFIX\u002Finclude\u002Fpython3.10\n\n# 安装 Transformer engine\npip install transformer-engine[pytorch]==1.12.0\n```\n\n### 2. 安装 nvdiffrast\n\n如果依赖项已正确配置，运行以下命令安装 `nvdiffrast`：\n\n```bash\n# 修复 nvdiffrast 依赖\nln -sf $CONDA_PREFIX\u002Flib\u002Fpython3.10\u002Fsite-packages\u002Ftriton\u002Fbackends\u002Fnvidia\u002Finclude\u002Fcrt $CONDA_PREFIX\u002Finclude\u002F\n\n# 安装 nvdiffrast\npip install git+https:\u002F\u002Fgithub.com\u002FNVlabs\u002Fnvdiffrast.git\n```\n\n### 3. 下载模型权重\n\n模型权重托管在 Hugging Face 上（约 56GB）。\n\n1.  前往 [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fsettings\u002Ftokens) 生成一个访问令牌（权限设为 `Read`）。\n2.  在终端登录：\n    ```bash\n    huggingface-cli login\n    ```\n3.  运行脚本下载权重：\n    ```bash\n    CUDA_HOME=$CONDA_PREFIX PYTHONPATH=$(pwd) python scripts\u002Fdownload_diffusion_renderer_checkpoints.py --checkpoint_dir checkpoints\n    ```\n\n## 基本使用\n\n以下流程演示如何处理单张图像：先进行**逆渲染**（提取材质\u002F几何信息），再进行**重光照**。\n\n> **注意**: 如果遇到显存不足（OOM）错误，请在命令中添加 `--offload_diffusion_transformer --offload_tokenizer` 参数。\n\n### 第一步：图像逆渲染 (Inverse Rendering)\n\n从输入图像中估算反照率、法线、深度、粗糙度和金属度等 G-buffer 信息。\n\n```bash\nCUDA_HOME=$CONDA_PREFIX PYTHONPATH=$(pwd) python cosmos_predict1\u002Fdiffusion\u002Finference\u002Finference_inverse_renderer.py \\\n    --checkpoint_dir checkpoints --diffusion_transformer_dir Diffusion_Renderer_Inverse_Cosmos_7B \\\n    --dataset_path=asset\u002Fexamples\u002Fimage_examples\u002F --num_video_frames 1 --group_mode webdataset \\\n    --video_save_folder=asset\u002Fexample_results\u002Fimage_delighting\u002F --save_video=False\n```\n\n*   `--dataset_path`: 指向包含输入图像的文件夹。\n*   `--video_save_folder`: 结果输出目录（G-buffer 将保存在其中的 `gbuffer_frames` 子目录）。\n\n### 第二步：图像重光照 (Relighting)\n\n利用上一步生成的 G-buffer 和用户指定的环境贴图（HDRI）对图像进行重光照。\n\n```bash\nCUDA_HOME=$CONDA_PREFIX PYTHONPATH=$(pwd) python cosmos_predict1\u002Fdiffusion\u002Finference\u002Finference_forward_renderer.py \\\n    --checkpoint_dir checkpoints --diffusion_transformer_dir Diffusion_Renderer_Forward_Cosmos_7B \\\n    --dataset_path=asset\u002Fexample_results\u002Fimage_delighting\u002Fgbuffer_frames --num_video_frames 1 \\\n    --envlight_ind 0 1 2 3 --use_custom_envmap=True \\\n    --video_save_folder=asset\u002Fexample_results\u002Fimage_relighting\u002F\n```\n\n*   `--envlight_ind`: 指定使用的环境光照索引（0-3 对应代码中预置的不同光照环境）。\n*   `--use_custom_envmap=True`: 启用预置环境贴图模式。若设为 `False`，则通过随机种子生成随机光照。\n\n处理完成后，重光照后的图像将保存在 `asset\u002Fexample_results\u002Fimage_relighting\u002F` 目录中。","一家自动驾驶仿真团队正在构建用于训练感知模型的合成数据集，需要让同一辆车的行驶视频在不同时间段（如正午强光、黄昏逆光、深夜路灯）下呈现出真实的光照变化。\n\n### 没有 cosmos-transfer1-diffusion-renderer 时\n- **重拍成本极高**：为了获取不同光照下的数据，团队必须等待特定天气或时间实地重拍，耗时数周且难以复现完全相同的交通场景。\n- **传统渲染失真**：使用传统图形引擎强行打光时，车身反射、阴影边缘和全局光照往往显得虚假，导致模型学到错误的视觉特征。\n- **去光能力缺失**：无法从现有的实拍视频中干净地移除原始环境光，导致新旧光照混合，产生严重的色彩伪影和光晕。\n- **数据多样性受限**：由于缺乏高效的光照编辑手段，训练数据集中在常见光照条件，模型在极端光影下的鲁棒性严重不足。\n\n### 使用 cosmos-transfer1-diffusion-renderer 后\n- **一键光照迁移**：直接输入一段正午视频，即可高质量生成该场景在黄昏或夜间的版本，无需实地重拍，数据生产周期从周缩短至小时。\n- **物理级真实感**：基于 Cosmos 视频扩散框架，工具能精准重建车漆的高光反射、复杂的动态阴影及环境漫反射，视觉保真度达到电影级。\n- **纯净去光与重布光**：先将原视频“去光”还原为中性照明状态，再自由叠加任意目标光照，彻底解决了光照混合导致的伪影问题。\n- **无限数据增强**：可批量生成涵盖各种极端天气和光照角度的合成数据，显著提升了自动驾驶感知模型在复杂光线下的识别准确率。\n\ncosmos-transfer1-diffusion-renderer 通过将视频光照编辑变为可控、高保真的生成过程，从根本上解决了物理 AI 系统对多样化光照训练数据的渴求。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fnv-tlabs_cosmos-transfer1-diffusion-renderer_a6fe3532.gif","nv-tlabs","NVIDIA Spatial Intelligence Lab (SIL)","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fnv-tlabs_923b27b7.png","Our goal is to advance foundational technologies enabling AI systems to perceive, model, and meaningfully interact with the physical world.",null,"https:\u002F\u002Fresearch.nvidia.com\u002Flabs\u002Fsil\u002F","https:\u002F\u002Fgithub.com\u002Fnv-tlabs",[82,86,90,94],{"name":83,"color":84,"percentage":85},"Jupyter Notebook","#DA5B0B",74.5,{"name":87,"color":88,"percentage":89},"Python","#3572A5",25.5,{"name":91,"color":92,"percentage":93},"Dockerfile","#384d54",0,{"name":95,"color":96,"percentage":93},"Shell","#89e051",801,62,"2026-04-09T08:15:07","Apache-2.0",4,"Linux (Ubuntu 20.04)","必需 NVIDIA GPU，最低 16GB VRAM，推荐 >=48GB VRAM (测试于 A100 80GB, A6000 48GB)，需 CUDA 12.0+","未说明",{"notes":106,"python":107,"dependencies":108},"模型权重约 56GB，需至少 70GB 磁盘空间。非 Ubuntu 平台需参考 nvdiffrast 官方文档自行配置依赖。若显存不足，推理时可添加 '--offload_diffusion_transformer --offload_tokenizer' 参数降低显存占用。视频处理峰值显存约 27GB。","3.10",[109,110,111],"transformer-engine==1.12.0","nvdiffrast","triton",[52,15],[114,115,116],"genai","relighting","videodiffusion","2026-03-27T02:49:30.150509","2026-04-09T23:50:28.087575",[120,125,130,135,140,145,150],{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},26832,"模型支持的输入分辨率是多少？如果我想使用其他分辨率该怎么办？","目前的微调版本仅支持 720p 分辨率（宽 1280，高 704，需能被 32 整除）。推荐的解决方法是：先将输入图像调整到此固定分辨率，运行模型后，再将输出结果调整回您需要的分辨率。开发团队正在开发支持多种分辨率和宽高比的后续版本。","https:\u002F\u002Fgithub.com\u002Fnv-tlabs\u002Fcosmos-transfer1-diffusion-renderer\u002Fissues\u002F4",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},26833,"是否会开源训练代码？","目前暂无发布训练工作流程的计划，因为训练涉及的数据仍在内部审查中。不过，维护者表示乐意回答任何与训练相关的具体技术问题。","https:\u002F\u002Fgithub.com\u002Fnv-tlabs\u002Fcosmos-transfer1-diffusion-renderer\u002Fissues\u002F2",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},26834,"这个基于 Cosmos 的版本与之前的 SVD 版本扩散渲染器有什么区别？","SVD 版本是一个旨在复现论文结果的学术原型。而当前仓库（基于 Cosmos 的版本）是后续更新版本，具有显著更高的质量，得益于增强的数据筛选和更强大的基础模型。此外，新版本采用了更宽松的许可证，允许商业用途。","https:\u002F\u002Fgithub.com\u002Fnv-tlabs\u002Fcosmos-transfer1-diffusion-renderer\u002Fissues\u002F7",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},26835,"逆向渲染器（Inverse Renderer）的输出坐标系是什么？遵循什么约定？","输出位于相机空间（Camera Space）。遵循的约定是：Y 轴向上（Y-UP），X 轴向右（X-Right），-Z 轴指向相机观察方向。","https:\u002F\u002Fgithub.com\u002Fnv-tlabs\u002Fcosmos-transfer1-diffusion-renderer\u002Fissues\u002F24",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},26836,"如何突破 57 帧的限制以生成更长的视频？","模型主要是在单帧或 57 帧的数据上训练的，因此效果最好。如果视频少于 57 帧，可以重复最后一帧以凑够 57 帧的批次。虽然理论上可以直接推理 121 帧，但可能会导致质量损失。目前建议等待未来版本更新以支持更灵活的帧长，或者使用图像到视频（Image2Video）模型来连接帧块。","https:\u002F\u002Fgithub.com\u002Fnv-tlabs\u002Fcosmos-transfer1-diffusion-renderer\u002Fissues\u002F9",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},26837,"为什么 num_video_frames 参数只支持特定的数值（如 1, 9, 17...57...）？","这些特定的帧数（公式为 8*n + 1，以及额外的 10 和 117）是由模型的训练配置决定的。模型主要在 1 帧或 57 帧的序列上进行训练以获得最佳效果，因此推理时建议使用这些受支持的帧数以保持时间一致性并避免错误。","https:\u002F\u002Fgithub.com\u002Fnv-tlabs\u002Fcosmos-transfer1-diffusion-renderer\u002Fissues\u002F8",{"id":151,"question_zh":152,"answer_zh":153,"source_url":134},26838,"在 H100 GPU 上进行推理大概需要多长时间？","在配备 H100 GPU 的新机器上测试统计如下：模型加载和管道准备大约需要 2-3 分钟（因为 Cosmos 检查点文件非常大）；视频推理阶段，每次扩散推理过程（per video）大约需要 20-40 秒。如果要获得完整的 G-Buffer 通道，则需要进行多次这样的推理过程。",[]]