LTX-2

5.6k 865 较难 1 次阅读今天NOASSERTION视频音频其他

AI 解读由 AI 自动生成，仅供参考

LTX-2 是一款基于 DiT（扩散变换器）架构的开源音视频生成基础模型，旨在通过单一模型实现高质量的视频与同步音频创作。它解决了传统方案中画面与声音不同步、生成画质不稳定以及需要组合多个模型才能完成完整制作的痛点，能够直接输出适用于生产环境的高保真音视频内容。

这款工具特别适合 AI 研究人员、开发者以及从事多媒体创作的设计师使用。研究人员可以利用其开放的 Python 推理包和 LoRA 训练功能进行模型微调与实验；开发者可将其集成到各类应用中；而内容创作者则能借助其多种性能模式，高效制作出音画同步的短视频素材。

LTX-2 的核心技术亮点在于其“多合一”的设计理念，将现代视频生成的核心能力整合于一个模型之中。它不仅支持原生音视频同步生成，还配备了空间与时间超分模块（Upscaler），能有效提升画面的清晰度与流畅度。此外，项目提供了从开发版到蒸馏版的多种模型权重选择，兼顾了生成质量与推理效率，让高性能的音视频生成变得更加触手可及。

使用场景

一家独立游戏工作室正在为新作制作动态宣传预告片，需要快速生成一段包含角色动作与同步环境音效的高质量视频素材。

没有 LTX-2 时

音画割裂严重：团队需分别使用视频生成模型和音频合成工具，后期手动对齐口型与声效，耗时且容易出现“对口型”不准的尴尬画面。
画质模糊失真：生成的原始视频分辨率低，人物面部细节模糊，必须依赖额外的第三方放大软件进行修复，往往导致画面出现伪影或涂抹感。
工作流繁琐断裂：从文本创意到最终成品需跨越多个软件平台，数据格式转换复杂，设计师大量时间浪费在文件流转而非创意调整上。
定制成本高昂：若想让视频风格贴合游戏特定美术风格，缺乏高效的微调手段，只能反复尝试提示词，成功率极低。

使用 LTX-2 后

原生音画同步：LTX-2 作为音视频基础模型，一次性生成画面与完全同步的背景音及音效，角色口型与声音自然匹配，无需后期人工对轨。
内置高清增强：利用其集成的空间超分模块（Spatial Upscaler），直接输出高保真、细节丰富的生产级视频，省去了外部放大步骤且无伪影。
一站式全流程：通过统一的 Python 推理包，开发者可在本地脚本中完成从生成到优化的全链路操作，大幅缩短从创意到预览的周期。
风格轻松定制：借助官方提供的 LoRA 训练支持，团队能快速将游戏原画风格注入模型，稳定产出符合项目美术规范的专属视频素材。

LTX-2 通过单模型实现高保真音视频同步生成与端到端优化，将传统数天的多工具协作流程压缩至分钟级，彻底释放了创意生产力。

运行环境要求

操作系统

未说明

GPU

需要 NVIDIA GPU
推荐使用 Hopper 架构显卡以支持 TensorRT-LLM 和 Flash Attention 3
支持 FP8 量化（fp8-cast 或 fp8-scaled-mm）以降低显存占用
具体显存大小未说明，但模型参数量达 22B，建议大显存显卡

内存

未说明

依赖

notes1. 项目使用 'uv' 工具进行依赖管理和环境同步 (uv sync --frozen)。 2. 核心模型为 LTX-2.3 (22B 参数)，需从 HuggingFace 下载多个 safetensors 文件（包括主模型、空间/时间超分模型、LoRA 等）。 3. 文本编码器需要使用 Google 的 Gemma 3 模型。 4. 支持多种推理管线，推荐生产环境使用 'TI2VidTwoStagesPipeline'，追求速度可使用 'DistilledPipeline'（仅需 8 步）。 5. 可通过 --quantization 参数启用 FP8 量化以减少显存占用；Hopper 架构显卡建议使用 fp8-scaled-mm。 6. 可集成 ComfyUI 使用。

python未说明 (使用 uv 管理环境)

torch

transformers (Gemma 3)

xFormers (可选)

Flash Attention 3 (可选，针对 Hopper GPU)

TensorRT-LLM (可选，针对 Hopper GPU)

快速开始

LTX-2

LTX-2 是首个基于 DiT 的音视频基础模型，它将现代视频生成的所有核心能力整合到一个模型中：音视频同步、高保真度、多种性能模式、可直接用于生产的输出、API 访问以及开放获取。

🚀 快速入门

# 克隆仓库
git clone https://github.com/Lightricks/LTX-2.git
cd LTX-2

# 设置环境
uv sync --frozen
source .venv/bin/activate

必需模型

从 LTX-2.3 HuggingFace 仓库下载以下模型：

LTX-2.3 模型检查点（选择并下载以下其中之一）

空间超分辨率模型 - 当前仓库中两阶段流水线实现所必需

时间超分辨率模型 - 模型支持，未来流水线实现将需要

ltx-2.3-temporal-upscaler-x2-1.0.safetensors - 下载

蒸馏 LoRA - 当前仓库中两阶段流水线实现所必需（除 DistilledPipeline 和 ICLoraPipeline 外）

ltx-2.3-22b-distilled-lora-384.safetensors - 下载

Gemma 文本编码器（从仓库下载所有资产）

Gemma 3

LoRAs

可用的流水线

TI2VidTwoStagesPipeline - 具有 2 倍超分辨率的生产级文本/图像到视频生成（推荐）
TI2VidTwoStagesHQPipeline - 与上述相同的两阶段流程，但使用 res_2s 二阶采样器（步骤更少，质量更高）
TI2VidOneStagePipeline - 单阶段生成，适用于快速原型设计
DistilledPipeline - 使用 8 个预定义 sigma 的最快推理
ICLoraPipeline - 视频到视频和图像到视频的转换（使用蒸馏模型）
KeyframeInterpolationPipeline - 在关键帧图像之间进行插值
A2VidPipelineTwoStage - 根据输入音频文件条件生成音频到视频
RetakePipeline - 重新生成现有视频中的特定时间段

⚡ 优化建议

使用 DistilledPipeline - 仅使用 8 个预定义的 sigma 进行最快推理（阶段 1 8 步，阶段 2 4 步）
启用 FP8 量化 - 可降低内存占用：--quantization fp8-cast（命令行）或 quantization=QuantizationPolicy.fp8_cast()（Python）。fp8-cast 应与 bf16 检查点一起使用，它会实时将其降为 FP8 格式。对于配备 TensorRT-LLM 的 Hopper GPU，请使用 --quantization fp8-scaled-mm 进行 FP8 缩放矩阵乘法。fp8-scaled-mm 应与 FP8 检查点一起使用。
安装注意力优化库 - 使用 xFormers（uv sync --extra xformers）或针对 Hopper GPU 的 Flash Attention 3
使用梯度估计 - 在保持质量的同时，将推理步骤从 40 步减少到 20–30 步（参见管道文档）
跳过内存清理 - 如果显存充足，可禁用各阶段之间的自动内存清理，以加快处理速度
选择单阶段管道 - 当不需要高分辨率时，可使用 TI2VidOneStagePipeline 进行更快的生成

✍️ LTX-2 的提示词编写

编写提示词时，应专注于对动作和场景的详细、按时间顺序的描述。包含具体的动作、外观、摄像机角度和环境细节——所有内容都应写在一个连贯的段落中。直接从动作开始，并保持描述的字面性和精确性。想象自己是一名摄影师，正在描述镜头清单。字数控制在 200 字以内。为获得最佳效果，可按照以下结构构建提示词：

用一句话概述主要动作
添加关于动作和手势的具体细节
精确描述角色或物体的外观
包括背景和环境细节
指定摄像机角度和运动
描述光线和色彩
注意任何变化或突发事件

如需更多提示词编写指导，请参阅 https://ltx.video/blog/how-to-prompt-for-ltx-2

自动提示词增强

LTX-2 管道支持通过 enhance_prompt 参数进行自动提示词增强。

🔌 ComfyUI 集成

如需将我们的模型与 ComfyUI 集成，请按照 https://github.com/Lightricks/ComfyUI-LTXVideo/ 中的说明操作。

📦 软件包

本仓库采用 monorepo 结构，包含三个主要软件包：

ltx-core - 核心模型实现、推理栈及工具
ltx-pipelines - 文本到视频、图像到视频等生成模式的高级管道实现
ltx-trainer - LoRA、全量微调和 IC-LoRA 的训练与微调工具

每个软件包都有独立的 README 和文档。请参阅下方的文档部分。

📚 文档

每个软件包均包含详尽的文档：

LTX-Core README - 核心模型实现、推理栈及工具
LTX-Pipelines README - 高级管道实现及使用指南
LTX-Trainer README - 训练与微调文档，附详细指南

LTX-2 快速上手指南

LTX-2 是首个基于 DiT（Diffusion Transformer）架构的音视频基础模型，支持音画同步、高保真生成及多种生产级模式。本指南帮助开发者快速在本地部署并运行该模型。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐) 或 macOS
Python: 3.10 或更高版本
包管理器: 推荐使用 uv (比 pip 更快)，若未安装可通过 pip install uv 获取
硬件要求:
- 推荐 NVIDIA GPU (显存建议 24GB 以上以运行完整流程)
- 若使用 Hopper 架构显卡 (如 H100)，可启用 Flash Attention 3 优化
依赖库: 项目使用 uv 管理依赖，自动处理虚拟环境

注意：目前官方未提供特定的中国镜像源。国内用户下载模型文件时，建议使用国内加速服务（如 huggingface.co 的镜像站）或配置代理以确保下载速度。

安装步骤

1. 克隆代码库并配置环境

使用以下命令克隆仓库并初始化 Python 虚拟环境：

# 克隆仓库
git clone https://github.com/Lightricks/LTX-2.git
cd LTX-2

# 使用 uv 同步依赖并冻结版本
uv sync --frozen

# 激活虚拟环境
source .venv/bin/activate

(可选) 如需启用注意力机制优化以提升推理速度：

# 安装 xFormers (适用于大多数 NVIDIA GPU)
uv sync --extra xformers

2. 下载模型文件

您需要从 HuggingFace 下载必要的模型权重文件。请将下载的文件放置在项目指定的模型目录中（具体路径请参考各 Pipeline 的默认配置或通过 CLI 参数指定）。

必需的核心模型：

主模型检查点 (二选一):
- ltx-2.3-22b-dev.safetensors (开发版)
- ltx-2.3-22b-distilled.safetensors (蒸馏版，推理更快)
空间超分模型 (当前双阶段流程必需):
- ltx-2.3-spatial-upscaler-x2-1.0.safetensors (2 倍超分)
- 或 ltx-2.3-spatial-upscaler-x1.5-1.0.safetensors (1.5 倍超分)
文本编码器:
- Gemma 3 (需下载 google/gemma-3-12b-it-qat-q4_0-unquantized 仓库下的所有文件)

可选增强模型 (LoRAs): 根据需求下载相机控制、动作控制或细节增强所需的 LoRA 文件（如 ltx-2.3-22b-ic-lora-union-control-ref0.5.safetensors 等）。

基本使用

LTX-2 提供了多种 Pipeline 以适应不同场景。以下是使用推荐的 双阶段文生视频流程 的最小化 Python 示例。

示例：使用 TI2VidTwoStagesPipeline 生成视频

此流程先生成低分辨率视频，再进行空间超分，适合生产级质量输出。

import torch
from ltx_pipelines import TI2VidTwoStagesPipeline
from ltx_core import QuantizationPolicy

# 1. 初始化 Pipeline
# 请确保模型文件路径正确，或使用默认加载逻辑
pipeline = TI2VidTwoStagesPipeline(
    model_path="path/to/ltx-2.3-22b-distilled.safetensors",
    upscaler_path="path/to/ltx-2.3-spatial-upscaler-x2-1.0.safetensors",
    text_encoder_path="path/to/gemma-3-model",
    # 开启 FP8 量化以降低显存占用 (需 bf16 检查点)
    quantization=QuantizationPolicy.fp8_cast() 
)

# 将模型移至 GPU
pipeline.to("cuda")

# 2. 构建提示词
# LTX-2 偏好详细、按时间顺序描述的动作和场景，类似电影分镜脚本
prompt = (
    "A cinematic shot of a cyberpunk city street at night, raining heavily. "
    "Neon signs reflect on the wet pavement. A lone figure in a trench coat walks slowly "
    "from left to right, looking up at a holographic advertisement. "
    "Camera pans smoothly following the figure. Lighting is high contrast with blue and pink hues."
)

# 3. 执行生成
video_output = pipeline(
    prompt=prompt,
    num_inference_steps=25,  # 结合梯度估计可减少步数
    height=720,
    width=1280,
    frame_rate=24,
    duration=5.0,
    enhance_prompt=True  # 启用自动提示词增强
)

# 4. 保存结果
video_output.save("output_video.mp4")
print("视频生成完毕：output_video.mp4")

性能优化建议

极速推理: 若追求速度，可使用 DistilledPipeline，仅需 8 个采样步数（第一阶段 8 步，第二阶段 4 步）。
显存优化: 对于显存有限的设备，务必启用 --quantization fp8-cast 参数。
单阶段模式: 若不需要高分辨率输出，可使用 TI2VidOneStagePipeline 进行快速原型验证。

更多高级用法（如音频生成视频、关键帧插值、ComfyUI 集成）请参阅各子包的详细文档。

常见问题

为什么图生视频（I2V）生成的视频画面静止不动或只有轻微缩放？

如何在 Python 代码中解决 I2V 生成结果静态化的问题？

在 WSL2 环境下运行训练脚本时出现 'TypeError: linear(): argument weight must be Tensor, not NoneType' 错误怎么办？

是否有图生视频（I2V）生成的完整 Python 代码示例及推荐参数？

ComfyUI 用户在使用 LTX-2 进行 I2V 生成时需要注意什么？

为什么同样的提示词在不同平台（如本地运行 vs Wavespeed）上生成的视频质量差异巨大？

相似工具推荐

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|3天前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|昨天

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|今天

语言模型数据工具其他

cs-video-courses

cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。

★ 79.8k|★☆☆☆☆|今天

其他图像数据工具

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|5天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 75.2k|★★★☆☆|今天

语言模型图像开发框架