generative-models

27.1k 3.1k 较难 3 次阅读今天MIT视频其他

AI 解读由 AI 自动生成，仅供参考

Generative Models 是 Stability AI 推出的开源项目，核心亮点在于最新发布的 Stable Video 4D 2.0（SV4D 2.0）。这是一个先进的视频转 4D 扩散模型，旨在解决从单一视角视频中生成高保真、多视角动态 3D 资产的技术难题。传统方法往往难以处理物体自遮挡或背景杂乱的情况，且生成的动态细节容易模糊，而 SV4D 2.0 通过改进的架构，显著提升了运动中的画面锐度与时空一致性，无需依赖额外的多视角参考图即可稳健地合成新颖视角的视频。

该项目特别适合计算机视觉研究人员、AI 开发者以及从事 3D 内容创作的设计师使用。对于研究者，它提供了探索 4D 生成前沿的完整代码与训练权重；对于开发者，其支持自动回归生成长视频及低显存优化选项，便于集成与调试；对于设计师，它能将简单的物体运动视频快速转化为可用于游戏或影视的多视角 4D 素材。技术层面，SV4D 2.0 支持一次性生成 12 帧视频对应 4 个相机视角（或 5 帧对应 8 视角），分辨率达 576x576，并能更好地泛化至真实世界场景。用户只需准备一段白底或经简单抠图处理的物体运动视频，即可通过命令行轻松启动推理，体验高质量的 4D 内容生成。

使用场景

一家电商视觉团队需要为新款运动相机制作 360 度产品展示视频，但仅有单角度拍摄的 12 帧素材。

没有 generative-models 时

多视角拍摄成本高昂：必须搭建专业转盘或动用多台摄像机同步拍摄，耗时耗力且难以捕捉高速运动细节。
手动建模效率低下：若尝试通过 3D 建模软件重建物体，不仅对美术人员技术要求极高，且无法还原真实光影与材质纹理。
动态一致性差：使用传统插值算法生成的新视角视频，在物体快速转动时容易出现画面撕裂、模糊或时空闪烁。
背景处理繁琐：真实拍摄环境中的杂乱背景难以自动剥离，导致合成视频需逐帧进行复杂的后期抠图处理。

使用 generative-models 后

单视频生成 4D 资产：直接输入一段白底单视角运动视频，SV4D 2.0 即可自动推理出包含 4 个不同相机视角的高保真 48 帧序列。
细节与动态更锐利：模型显著提升了运动过程中的清晰度，解决了以往生成视频中常见的模糊问题，确保时空高度一致。
抗遮挡能力增强：不再依赖首帧的多视角参考图，即使物体存在自遮挡，也能鲁棒地生成连贯的新视角画面。
流程自动化集成：支持结合 rembg 自动去除背景，并可通过自回归方式生成长视频，大幅简化了从素材到成品的链路。

generative-models 将原本需要数天专业制作的 4D 内容生产，缩减为分钟级的自动化推理过程，极大降低了高动态 3D 资产的创作门槛。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU
官方示例指定 CUDA 11.8 (cu118)
显存需求取决于分辨率和模式：默认生成 576x576 分辨率视频
低显存环境可通过设置 `--encoding_t=1`、`--decoding_t=1` 或将分辨率降至 512 (`--img_size=512`) 来运行，建议显存 8GB 以上以获得最佳效果

内存

未说明

依赖

notes1. 安装需先创建 Python 3.10 虚拟环境。2. 必须手动从 HuggingFace 下载模型权重文件（如 sv4d2.safetensors, sv3d_u.safetensors 等）至 checkpoints 目录。3. 对于背景复杂的真实世界视频，建议预先使用 rembg、Clipdrop 或 SAM2 进行前景分割以提升生成质量。4. 项目依赖一个特定的外部数据管道库 (sdata)，需通过 git 地址安装。

python3.10

torch

torchvision

torchaudio

sdata (Stability-AI/datapipelines)

快速开始

稳定人工智能的生成模型

sample1

新闻

2025年5月20日

我们发布了 Stable Video 4D 2.0 (SV4D 2.0)，这是一款增强型视频转4D扩散模型，用于高保真新视角视频合成和4D资产生成。研究用途如下：
- SV4D 2.0 经过训练，可在给定12帧输入视频（分辨率同样为576x576）的情况下，生成48帧（12个视频帧 × 4个相机视角），理想情况下这些输入视频应由白色背景下的运动物体图像组成。
- 与我们之前的4D模型 SV4D 相比，SV4D 2.0 能够生成更高保真的视频，在运动过程中细节更加清晰，并且具有更好的时空一致性。此外，它对真实世界视频的泛化能力也显著提升。更重要的是，该模型不再依赖于SV3D生成的第一帧参考多视角信息，因此在自我遮挡情况下表现更为稳健。
- 为了生成更长的新视角视频，我们采用自回归方式每次生成12帧，并将前一次生成的帧作为后续帧的条件视图。
- 更多详情请查看我们的项目页面、arXiv论文以及视频摘要。

快速入门：

python scripts/sampling/simple_video_sample_4d2.py --input_path assets/sv4d_videos/camel.gif --output_folder outputs（需先从HuggingFace下载 sv4d2.safetensors 并放置于 checkpoints/ 目录下）

要在单个21帧输入视频上运行 SV4D 2.0：

从这里下载 SV4D 2.0 模型文件 (sv4d2.safetensors) 并存入 checkpoints/：huggingface-cli download stabilityai/sv4d2.0 sv4d2.safetensors --local-dir checkpoints
运行推理：python scripts/sampling/simple_video_sample_4d2.py --input_path <path/to/video>
- input_path：输入视频 <path/to/video> 可以是
  - 单个 gif 或 mp4 格式的视频文件，例如 assets/sv4d_videos/camel.gif；
  - 包含视频帧图像的文件夹，格式为 .jpg、.jpeg 或 .png；
  - 或者匹配视频帧图像的文件名模式。
- num_steps：默认值为50，可适当减少以缩短采样时间。
- elevations_deg：指定相对于输入视角的仰角，默认为0.0（即与输入视角相同）。
- 背景去除：对于背景较为简单的输入视频，可选择使用 rembg 工具去除背景并裁剪视频帧，只需设置 --remove_bg=True。若要获得高质量输出，针对背景较杂乱的真实世界视频，建议在运行SV4D之前先使用 Clipdrop 或 SAM2 对前景对象进行分割。
- 低显存环境：若GPU显存较低，可尝试将 --encoding_t=1（每次编码的帧数）和 --decoding_t=1（每次解码的帧数）设置为1，或将视频分辨率降低至 --img_size=512。

注：

我们还训练了一个8视角模型，该模型每次可生成5帧 × 8个视角（与SV4D相同）。
- 从HuggingFace下载该模型：huggingface-cli download stabilityai/sv4d2.0 sv4d2_8views.safetensors --local-dir checkpoints
- 运行推理：python scripts/sampling/simple_video_sample_4d2.py --model_path checkpoints/sv4d2_8views.safetensors --input_path assets/sv4d_videos/chest.gif --output_folder outputs
- 该5×8模型每次处理5帧输入。不过，两种模型的推理脚本默认都以21帧视频作为输入（与SV3D和SV4D一致），我们会通过自回归方式持续运行模型，直到生成21帧为止。
在运行前，请先安装依赖项：

python3.10 -m venv .generativemodels
source .generativemodels/bin/activate
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 检查CUDA版本
pip3 install -r requirements/pt2.txt
pip3 install .
pip3 install -e git+https://github.com/Stability-AI/datapipelines.git@main#egg=sdata

tile

2024年7月24日

我们发布了 Stable Video 4D (SV4D)，这是一套用于新视角视频合成的视频转4D扩散模型。研究用途如下：
- SV4D 经过训练，可在给定5帧上下文视频（即输入视频）以及8个参考视角（通过类似SV3D的多视角扩散模型从输入视频的第一帧中合成，分辨率同样为576x576）的情况下，生成40帧（5个视频帧 × 8个相机视角）。理想情况下，这些参考视角应为白色背景下的单物体图像。
- 为了生成更长的新视角视频（21帧），我们提出了一种基于SV4D的创新采样方法：先采样5个锚定帧，再密集采样剩余帧，同时保持时间一致性。
- 如需本地运行社区构建的Gradio演示程序，可执行 python -m scripts.demo.gradio_app_sv4d。
- 更多详情请参阅我们的项目页面、技术报告和视频摘要。

快速入门：python scripts/sampling/simple_video_sample_4d.py --input_path assets/sv4d_videos/test_video1.mp4 --output_folder outputs/sv4d（需先从HuggingFace下载 sv4d.safetensors 和 sv3d_u.safetensors 并放置于 checkpoints/ 目录下）

要在单个包含 21 帧的输入视频上运行 SV4D：

从这里下载 SV3D 模型文件（sv3d_u.safetensors 和 sv3d_p.safetensors），并从这里下载 SV4D 模型文件（sv4d.safetensors），存入 checkpoints/ 目录。
运行 python scripts/sampling/simple_video_sample_4d.py --input_path <path/to/video>
- input_path：输入视频 <path/to/video> 可以是
  - 单个 gif 或 mp4 格式的视频文件，例如 assets/sv4d_videos/test_video1.mp4，或
  - 包含视频帧图像的文件夹，图像格式为 .jpg、.jpeg 或 .png，或
  - 匹配视频帧图像的文件名模式。
- num_steps：默认值为 20，可增加至 50 以获得更高画质，但采样时间会更长。
- sv3d_version：要指定用于生成参考多视角的 SV3D 模型，请设置 --sv3d_version=sv3d_u 使用 SV3D_u，或 --sv3d_version=sv3d_p 使用 SV3D_p。
- elevations_deg：要使用 SV3D_p（默认为 SV3D_u）生成特定仰角的新视角视频，请运行 python scripts/sampling/simple_video_sample_4d.py --input_path assets/sv4d_videos/test_video1.mp4 --sv3d_version sv3d_p --elevations_deg 30.0。
- 背景去除：对于背景简单的输入视频，（可选）使用 rembg 去除背景，并通过设置 --remove_bg=True 裁剪视频帧。若要对带有杂乱背景的真实世界输入视频获得更高质量的输出，可在运行 SV4D 之前先使用 Clipdrop 或 SAM2 对前景对象进行分割。
- 低显存环境：若在显存较低的 GPU 上运行，可尝试将 --encoding_t=1（每次编码的帧数）和 --decoding_t=1（每次解码的帧数）设置为 1，或将视频分辨率调低，例如设置为 --img_size=512。

2024年3月18日

我们发布了用于新视角合成的研究级图像转视频模型 SV3D：
- SV3D 经过训练，可在给定一张相同尺寸的上下文帧的情况下生成 21 帧，分辨率为 576x576，理想情况下该上下文帧应为白色背景且仅包含一个物体。
- SV3D_u：此变体基于单张图像输入生成环绕式视频，无需相机条件控制。
- SV3D_p：作为 SVD3_u 的扩展，此变体既支持单张图像输入，也支持环绕视图输入，从而能够沿着指定的摄像机路径创建 3D 视频。
- 我们扩展了 Streamlit 演示程序 scripts/demo/video_sampling.py 和独立 Python 脚本 scripts/sampling/simple_video_sample.py 以用于两种模型的推理。
- 更多详情请参阅我们的项目页面、技术报告和视频摘要。

要在单张图片上运行 SV3D_u：

从 https://huggingface.co/stabilityai/sv3d 下载 sv3d_u.safetensors，存入 checkpoints/sv3d_u.safetensors。
运行 python scripts/sampling/simple_video_sample.py --input_path <path/to/image.png> --version sv3d_u。

要在单张图片上运行 SV3D_p：

从 https://huggingface.co/stabilityai/sv3d 下载 sv3d_p.safetensors，存入 checkpoints/sv3d_p.safetensors。

生成指定仰角的静态环绕视频，例如 10.0 度：python scripts/sampling/simple_video_sample.py --input_path <path/to/image.png> --version sv3d_p --elevations_deg 10.0。
生成指定仰角和方位角的动态环绕视频：将 21 个仰角（以度为单位）按顺序填入 elevations_deg（范围为 [-90, 90]），并将 21 个方位角（以度为单位）按顺序填入 azimuths_deg（范围为 [0, 360]）。例如：python scripts/sampling/simple_video_sample.py --input_path <path/to/image.png> --version sv3d_p --elevations_deg [<21个仰角列表>] --azimuths_deg [<21个方位角列表>]。

要在 Streamlit 服务器上运行 SVD 或 SV3D： streamlit run scripts/demo/video_sampling.py

tile

2023年11月28日

我们发布了超快速文本转图像模型 SDXL-Turbo。伴随该模型发布了一份技术报告。
- 使用方法：
  - 按照安装说明操作，或使用 pip install streamlit-keyup 更新现有环境。
  - 下载权重，并将其放置在 checkpoints/ 目录中。
  - 运行 streamlit run scripts/demo/turbo.py。

2023年11月21日

我们发布了用于研究目的的图像转视频模型 Stable Video Diffusion：
- SVD：该模型经过训练，可在给定一张相同尺寸的上下文帧的情况下生成 14 帧，分辨率为 576x1024。我们使用 SD 2.1 的标准图像编码器，但用具备时间感知能力的“防闪烁解码器”替换了原有的解码器。
- SVD-XT：与 SVD 具有相同的架构，但经过微调后可生成 25 帧。
- 您可以通过运行 python -m scripts.demo.gradio_app 在本地运行社区构建的 Gradio 演示。
- 我们提供了 Streamlit 演示 scripts/demo/video_sampling.py 和独立 Python 脚本 scripts/sampling/simple_video_sample.py 用于两种模型的推理。
- 伴随该模型发布了一篇技术报告。

2023年7月26日

我们发布了两款新的开放模型，采用宽松的 CreativeML Open RAIL++-M 许可证（有关文件哈希值，请参阅推理部分）：
- SDXL-base-1.0：这是对 SDXL-base-0.9 的改进版本。
- SDXL-refiner-1.0：这是对 SDXL-refiner-0.9 的改进版本。

sample2

2023年7月4日

关于 SDXL 的技术报告现已发布此处。

2023年6月22日

我们发布了两款用于研究的新扩散模型：
- SDXL-base-0.9：基础模型在分辨率为1024^2、多种宽高比的图像上进行训练。该基础模型使用OpenCLIP-ViT/G 和CLIP-ViT/L进行文本编码，而精炼模型仅使用OpenCLIP模型。
- SDXL-refiner-0.9：精炼模型经过训练，能够去除高质量数据中的少量噪声，因此不建议将其用作文生图模型；相反，它应仅作为图生图模型使用。

如果您希望为研究目的访问这些模型，请通过以下链接之一申请： SDXL-0.9-基础模型, 以及 SDXL-0.9-精炼模型。这意味着您可以申请其中任一链接，一旦获批，即可同时访问两个模型。请使用您的组织邮箱登录Hugging Face账户以请求访问权限。 我们计划于近期（7月）进行全面发布。

代码库

总体理念

模块化至上。本仓库采用配置驱动的方法，通过调用yaml配置文件中定义的对象上的instantiate_from_config()来构建和组合子模块。详细示例请参见configs/目录。

与旧版`ldm`代码库的变更日志

在训练方面，我们使用PyTorch Lightning，但也可以轻松地将其他训练框架应用于基础模块。核心扩散模型类（原名为LatentDiffusion，现为DiffusionEngine）已得到优化：

不再进行复杂的子类化！我们现在在一个类中处理所有类型的条件输入（向量、序列和空间条件，以及它们的各种组合）：GeneralConditioner，见sgm/modules/encoders/modules.py。
我们将引导器（如无分类器指导，见sgm/modules/diffusionmodules/guiders.py）与采样器（sgm/modules/diffusionmodules/sampling.py）分离，且采样器与模型无关。
我们采用了“去噪器框架”（arXiv:2206.00364），用于训练和推理（最显著的变化可能是现在可以选择训练连续时间模型）：
- 离散时间模型（去噪器）只是连续时间模型（去噪器）的一种特例；见sgm/modules/diffusionmodules/denoiser.py。
- 以下功能现已独立：扩散损失函数的加权（sgm/modules/diffusionmodules/denoiser_weighting.py）、网络的预处理（sgm/modules/diffusionmodules/denoiser_scaling.py）以及训练过程中噪声水平的采样（sgm/modules/diffusionmodules/sigma_sampling.py）。
自编码模型也得到了清理。

安装：

1. 克隆仓库

git clone https://github.com/Stability-AI/generative-models.git
cd generative-models

2. 设置虚拟环境

假设您已在克隆后导航到generative-models根目录。

注意： 本环境已在python3.10下测试通过。对于其他Python版本，可能会遇到版本冲突。

PyTorch 2.0

# 从pypi安装所需包
python3 -m venv .pt2
source .pt2/bin/activate
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip3 install -r requirements/pt2.txt

3. 安装`sgm`

pip3 install .

4. 安装`sdata`以用于训练

pip3 install -e git+https://github.com/Stability-AI/datapipelines.git@main#egg=sdata

打包

本仓库使用符合PEP 517标准的打包方式，并借助Hatch工具。

要构建可分发的wheel包，需先安装hatch，然后运行hatch build （指定-t wheel会跳过sdist的构建，这并非必需）。

pip install hatch
hatch build -t wheel

构建好的包将位于dist/目录中。您可以使用pip install dist/*.whl来安装该wheel包。

请注意，当前该包并未指定依赖项；您需要根据具体用途及PyTorch版本，手动安装所需的软件包。

推理

我们在scripts/demo/sampling.py中提供了一个基于Streamlit的文生图和图生图采样演示。我们提供了完整文件以及文件中保存张量部分的哈希值（有关评估脚本，请参阅Model Spec）。目前支持以下模型：

SDXL-base-1.0

文件哈希（sha256）：31e35c80fc4829d14f90153f4c74cd59c90b779f6afe05a74cd6120b893f7e5b
张量数据哈希（sha256）：0xd7a9105a900fd52748f20725fe52fe52b507fd36bee4fc107b1550a26e6ee1d7

SDXL-refiner-1.0

文件哈希（sha256）：7440042bbdc8a24813002c09b6b69b64dc90fded4472613437b7f55f9b7d9c5f
张量数据哈希（sha256）：0x1a77d21bebc4b4de78c474a90cb74dc0d2217caf4061971dbfa75ad406b75d81

SDXL-base-0.9
SDXL-refiner-0.9

SDXL权重：

SDXL-1.0： SDXL-1.0的权重可通过CreativeML Open RAIL++-M许可协议获取，具体如下：

基础模型：https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/
精炼模型：https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-1.0/

SDXL-0.9： SDXL-0.9的权重可通过研究许可协议获取。如果您希望为研究目的访问这些模型，请通过以下链接之一申请： SDXL-base-0.9模型, 以及 SDXL-refiner-0.9。这意味着您可以申请任一链接，一旦获批，即可同时访问两个模型。请使用您的组织邮箱登录Hugging Face账户以请求访问权限。

获取权重后，请将其放置于checkpoints/目录中。随后，启动演示程序：

streamlit run scripts/demo/sampling.py --server.port <your_port>

无形水印检测

使用我们的代码生成的图像会利用 invisible-watermark 库，在模型输出中嵌入一个无形水印。我们还提供了一个脚本，可以方便地检测该水印。请注意，此水印与先前的 Stable Diffusion 1.x/2.x 版本中的水印并不相同。

要运行该脚本，您需要按照上述方式安装好相关依赖，或者尝试仅使用最少数量的包进行一项_实验性_导入：

python -m venv .detect
source .detect/bin/activate

pip install "numpy>=1.17" "PyWavelets>=1.1.1" "opencv-python>=4.1.0.25"
pip install --no-deps invisible-watermark

要运行脚本，您需要先按照上述方法完成安装。之后可以通过以下方式使用该脚本（请务必提前激活您的虚拟环境，例如 source .pt1/bin/activate）：

# 测试单个文件
python scripts/demo/detect.py <您的文件名>
# 同时测试多个文件
python scripts/demo/detect.py <文件1> <文件2> ... <文件n>
# 测试特定文件夹中的所有文件
python scripts/demo/detect.py <您的文件夹名>/*

训练：

我们在 configs/example_training 中提供了示例训练配置。要启动训练，请运行以下命令：

python main.py --base configs/<config1.yaml> configs/<config2.yaml>

其中配置文件将从左到右依次合并（后面的配置会覆盖前面相同的值）。这可用于组合模型、训练和数据配置。不过，也可以将所有内容定义在一个单独的配置文件中。例如，要在 MNIST 数据集上运行基于像素的条件扩散模型训练，可执行以下命令：

python main.py --base configs/example_training/toy/mnist_cond.yaml

注1： 使用非玩具数据集的配置文件 configs/example_training/imagenet-f8_cond.yaml、configs/example_training/txt2img-clipl.yaml 和 configs/example_training/txt2img-clipl-legacy-ucg-training.yaml 进行训练时，需根据所用数据集进行相应修改（预计数据将以 tar 文件形式存储在 webdataset 格式中）。要找到需要调整的部分，请在相应配置文件中搜索包含 USER: 的注释。

注2： 本仓库同时支持 pytorch1.13 和 pytorch2 用于生成模型的训练。然而，对于自编码器训练，例如在 configs/example_training/autoencoder/kl-f4/imagenet-attnfree-logvar.yaml 中所示，仅支持 pytorch1.13。

注3： 训练潜在空间生成模型（如 configs/example_training/imagenet-f8_cond.yaml 所示）需要从 Hugging Face 获取检查点，并替换此行中的 CKPT_PATH 占位符。文本到图像的相关配置也需要进行同样的操作。

构建新的扩散模型

条件器

GeneralConditioner 通过 conditioner_config 进行配置。其唯一属性是 emb_models，即一个由不同嵌入器组成的列表（均继承自 AbstractEmbModel），用于对生成模型进行条件化。所有嵌入器都应定义是否可训练（is_trainable，默认为 False）、是否使用无分类器指导的丢弃率（ucg_rate，默认为 0），以及输入键（input_key），例如用于文本条件化的 txt 或用于类别条件化的 cls。在计算条件时，嵌入器会以 batch[input_key] 作为输入。我们目前支持二维至四维的条件，并会适当地将不同嵌入器的条件拼接在一起。请注意，conditioner_config 中嵌入器的顺序非常重要。

网络

神经网络通过 network_config 进行设置。过去这一部分被称为 unet_config，但不够通用，因为我们计划尝试基于 Transformer 的扩散骨干网络。

损失

损失函数通过 loss_config 进行配置。对于标准的扩散模型训练，您需要设置 sigma_sampler_config。

采样器配置

如上所述，采样器与模型无关。在 sampler_config 中，我们会设置数值求解器类型、步数、离散化方式，以及例如用于无分类器指导的引导包装器等参数。

数据集处理

对于大规模训练，我们建议使用来自我们 datapipelines 项目的数据管道。该项目已包含在依赖项中，并在遵循安装部分步骤时自动引入。小型映射风格的数据集应在本仓库中定义（例如 MNIST、CIFAR-10 等），并返回一个包含数据键值的字典，例如：

example = {"jpg": x,  # 这是一个 -1...1 范围内的 chw 格式张量
           "txt": "一张美丽的图片"}

我们期望图像以 -1 到 1 的范围、通道优先的格式提供。

Generative Models 快速上手指南

本指南基于 Stability AI 开源的 generative-models 仓库，重点介绍最新发布的 SV4D 2.0（视频转 4D）及 SV3D（图片转多视角视频）模型的快速部署与推理。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐) 或 macOS
Python 版本: Python 3.10
GPU: 支持 CUDA 的 NVIDIA 显卡（建议显存 ≥ 16GB，低显存需开启优化参数）
CUDA 版本: 建议 11.8 或更高（需与 PyTorch 版本匹配）

2. 安装步骤

2.1 创建虚拟环境并安装依赖

建议使用 venv 隔离环境。以下命令将创建环境并安装 PyTorch（CUDA 11.8 版本）及项目所需依赖。

注意：国内用户若下载 PyTorch 较慢，可尝试使用清华源或中科大源替换 pip 源，但 PyTorch 官方 wheel 包建议尽量从官方源获取以保证兼容性。

# 创建虚拟环境
python3.10 -m venv .generativemodels

# 激活环境
source .generativemodels/bin/activate

# 安装 PyTorch (根据实际 CUDA 版本调整 index-url，此处为 cu118)
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# 安装项目核心依赖
pip3 install -r requirements/pt2.txt

# 安装当前包
pip3 install .

# 安装 Stability AI 数据管道依赖
pip3 install -e git+https://github.com/Stability-AI/datapipelines.git@main#egg=sdata

2.2 下载模型权重

模型权重需从 Hugging Face 下载并存放于 checkpoints/ 目录。

提示：国内访问 Hugging Face 可能受限，建议使用镜像站（如 hf-mirror.com）或代理加速。设置环境变量使用镜像：export HF_ENDPOINT=https://hf-mirror.com

下载 SV4D 2.0 (最新推荐)

用于从单目视频生成高保真 4D 资产。

# 设置镜像加速 (可选，国内推荐)
export HF_ENDPOINT=https://hf-mirror.com

# 下载主模型
huggingface-cli download stabilityai/sv4d2.0 sv4d2.safetensors --local-dir checkpoints

# (可选) 下载 8 视角版本模型
huggingface-cli download stabilityai/sv4d2.0 sv4d2_8views.safetensors --local-dir checkpoints

下载 SV3D / SV4D (旧版)

若需使用旧版 SV4D 或 SV3D，需额外下载 SV3D 权重：

huggingface-cli download stabilityai/sv3d sv3d_u.safetensors --local-dir checkpoints
huggingface-cli download stabilityai/sv3d sv3d_p.safetensors --local-dir checkpoints
huggingface-cli download stabilityai/sv4d sv4d.safetensors --local-dir checkpoints

3. 基本使用

3.1 运行 SV4D 2.0 (视频转 4D)

这是目前最推荐的流程，支持输入 GIF/MP4 或图片序列，生成多视角视频。

基础命令：

python scripts/sampling/simple_video_sample_4d2.py --input_path assets/sv4d_videos/camel.gif --output_folder outputs

常用参数说明：

--input_path: 输入路径，支持 .gif, .mp4 文件，或包含帧图片的文件夹。
--num_steps: 采样步数，默认 50。降低此值可加快推理速度（如设为 25）。
--elevations_deg: 指定生成的视角仰角（相对于输入视角），默认 0.0。

--remove_bg: 若输入视频背景简单，设为 True 自动去除背景（需安装 rembg）。

python scripts/sampling/simple_video_sample_4d2.py --input_path <path/to/video> --remove_bg=True

低显存优化方案： 若遇到 OOM (显存不足) 错误，可减少单次编码/解码的帧数或降低分辨率：

python scripts/sampling/simple_video_sample_4d2.py --input_path <path/to/video> --encoding_t=1 --decoding_t=1 --img_size=512

使用 8 视角模型：

python scripts/sampling/simple_video_sample_4d2.py --model_path checkpoints/sv4d2_8views.safetensors --input_path assets/sv4d_videos/chest.gif --output_folder outputs

3.2 运行 SV3D (图片转多视角视频)

适用于从单张静态图片生成环绕视频。

运行 SV3D_u (无相机条件，生成轨道视频):

python scripts/sampling/simple_video_sample.py --input_path <path/to/image.png> --version sv3d_u

运行 SV3D_p (指定相机路径): 生成固定仰角的静态轨道视频：

python scripts/sampling/simple_video_sample.py --input_path <path/to/image.png> --version sv3d_p --elevations_deg 10.0

生成动态轨道视频（需指定 21 个仰角和方位角序列）：

python scripts/sampling/simple_video_sample.py --input_path <path/to/image.png> --version sv3d_p --elevations_deg [<list of 21 elevations>] --azimuths_deg [<list of 21 azimuths>]

3.3 启动 Web Demo (可选)

项目提供了 Streamlit 和 Gradio 演示界面，方便交互式测试。

SV3D/SVD Streamlit Demo:

streamlit run scripts/demo/video_sampling.py

SV4D Gradio Demo:
```
python -m scripts.demo.gradio_app_sv4d
```

版本历史

0.1.02023/07/27

0.0.12023/06/22

常见问题

运行脚本成功但生成的 MP4 视频无法播放或显示损坏怎么办？

安装依赖时出现 'Getting requirements to build wheel ... error' 或 'No module named torch' 错误如何解决？

启动 Streamlit UI 时报错 'ModuleNotFoundError: No module named scripts' 怎么办？

加载 SDXL Autoencoder 权重时提示缺少 'post_quant_conv' 或 'quant_conv' 等键值怎么办？

如何在无法直接生成有效视频的情况下获取 3D 旋转效果？

安装 xformers 时遇到编译错误或版本不匹配怎么办？

相似工具推荐

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|5天前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|昨天

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|2天前

语言模型数据工具其他

cs-video-courses

cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。

★ 79.8k|★☆☆☆☆|2天前

其他图像数据工具

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|1周前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 75.3k|★★★☆☆|今天

语言模型图像开发框架