LTX-2

GitHub
5.6k 865 较难 1 次阅读 今天NOASSERTION视频音频其他
AI 解读 由 AI 自动生成,仅供参考

LTX-2 是一款基于 DiT(扩散变换器)架构的开源音视频生成基础模型,旨在通过单一模型实现高质量的视频与同步音频创作。它解决了传统方案中画面与声音不同步、生成画质不稳定以及需要组合多个模型才能完成完整制作的痛点,能够直接输出适用于生产环境的高保真音视频内容。

这款工具特别适合 AI 研究人员、开发者以及从事多媒体创作的设计师使用。研究人员可以利用其开放的 Python 推理包和 LoRA 训练功能进行模型微调与实验;开发者可将其集成到各类应用中;而内容创作者则能借助其多种性能模式,高效制作出音画同步的短视频素材。

LTX-2 的核心技术亮点在于其“多合一”的设计理念,将现代视频生成的核心能力整合于一个模型之中。它不仅支持原生音视频同步生成,还配备了空间与时间超分模块(Upscaler),能有效提升画面的清晰度与流畅度。此外,项目提供了从开发版到蒸馏版的多种模型权重选择,兼顾了生成质量与推理效率,让高性能的音视频生成变得更加触手可及。

使用场景

一家独立游戏工作室正在为新作制作动态宣传预告片,需要快速生成一段包含角色动作与同步环境音效的高质量视频素材。

没有 LTX-2 时

  • 音画割裂严重:团队需分别使用视频生成模型和音频合成工具,后期手动对齐口型与声效,耗时且容易出现“对口型”不准的尴尬画面。
  • 画质模糊失真:生成的原始视频分辨率低,人物面部细节模糊,必须依赖额外的第三方放大软件进行修复,往往导致画面出现伪影或涂抹感。
  • 工作流繁琐断裂:从文本创意到最终成品需跨越多个软件平台,数据格式转换复杂,设计师大量时间浪费在文件流转而非创意调整上。
  • 定制成本高昂:若想让视频风格贴合游戏特定美术风格,缺乏高效的微调手段,只能反复尝试提示词,成功率极低。

使用 LTX-2 后

  • 原生音画同步:LTX-2 作为音视频基础模型,一次性生成画面与完全同步的背景音及音效,角色口型与声音自然匹配,无需后期人工对轨。
  • 内置高清增强:利用其集成的空间超分模块(Spatial Upscaler),直接输出高保真、细节丰富的生产级视频,省去了外部放大步骤且无伪影。
  • 一站式全流程:通过统一的 Python 推理包,开发者可在本地脚本中完成从生成到优化的全链路操作,大幅缩短从创意到预览的周期。
  • 风格轻松定制:借助官方提供的 LoRA 训练支持,团队能快速将游戏原画风格注入模型,稳定产出符合项目美术规范的专属视频素材。

LTX-2 通过单模型实现高保真音视频同步生成与端到端优化,将传统数天的多工具协作流程压缩至分钟级,彻底释放了创意生产力。

运行环境要求

操作系统
  • 未说明
GPU
  • 需要 NVIDIA GPU
  • 推荐使用 Hopper 架构显卡以支持 TensorRT-LLM 和 Flash Attention 3
  • 支持 FP8 量化(fp8-cast 或 fp8-scaled-mm)以降低显存占用
  • 具体显存大小未说明,但模型参数量达 22B,建议大显存显卡
内存

未说明

依赖
notes1. 项目使用 'uv' 工具进行依赖管理和环境同步 (uv sync --frozen)。 2. 核心模型为 LTX-2.3 (22B 参数),需从 HuggingFace 下载多个 safetensors 文件(包括主模型、空间/时间超分模型、LoRA 等)。 3. 文本编码器需要使用 Google 的 Gemma 3 模型。 4. 支持多种推理管线,推荐生产环境使用 'TI2VidTwoStagesPipeline',追求速度可使用 'DistilledPipeline'(仅需 8 步)。 5. 可通过 --quantization 参数启用 FP8 量化以减少显存占用;Hopper 架构显卡建议使用 fp8-scaled-mm。 6. 可集成 ComfyUI 使用。
python未说明 (使用 uv 管理环境)
torch
transformers (Gemma 3)
xFormers (可选)
Flash Attention 3 (可选,针对 Hopper GPU)
TensorRT-LLM (可选,针对 Hopper GPU)
LTX-2 hero image

快速开始

LTX-2

官网 模型 演示 论文 Discord

LTX-2 是首个基于 DiT 的音视频基础模型,它将现代视频生成的所有核心能力整合到一个模型中:音视频同步、高保真度、多种性能模式、可直接用于生产的输出、API 访问以及开放获取。

🚀 快速入门

# 克隆仓库
git clone https://github.com/Lightricks/LTX-2.git
cd LTX-2

# 设置环境
uv sync --frozen
source .venv/bin/activate

必需模型

LTX-2.3 HuggingFace 仓库 下载以下模型:

LTX-2.3 模型检查点(选择并下载以下其中之一)

空间超分辨率模型 - 当前仓库中两阶段流水线实现所必需

时间超分辨率模型 - 模型支持,未来流水线实现将需要

蒸馏 LoRA - 当前仓库中两阶段流水线实现所必需(除 DistilledPipeline 和 ICLoraPipeline 外)

Gemma 文本编码器(从仓库下载所有资产)

LoRAs

可用的流水线

⚡ 优化建议

  • 使用 DistilledPipeline - 仅使用 8 个预定义的 sigma 进行最快推理(阶段 1 8 步,阶段 2 4 步)
  • 启用 FP8 量化 - 可降低内存占用:--quantization fp8-cast(命令行)或 quantization=QuantizationPolicy.fp8_cast()(Python)。fp8-cast 应与 bf16 检查点一起使用,它会实时将其降为 FP8 格式。对于配备 TensorRT-LLM 的 Hopper GPU,请使用 --quantization fp8-scaled-mm 进行 FP8 缩放矩阵乘法。fp8-scaled-mm 应与 FP8 检查点一起使用。
  • 安装注意力优化库 - 使用 xFormers(uv sync --extra xformers)或针对 Hopper GPU 的 Flash Attention 3
  • 使用梯度估计 - 在保持质量的同时,将推理步骤从 40 步减少到 20–30 步(参见 管道文档
  • 跳过内存清理 - 如果显存充足,可禁用各阶段之间的自动内存清理,以加快处理速度
  • 选择单阶段管道 - 当不需要高分辨率时,可使用 TI2VidOneStagePipeline 进行更快的生成

✍️ LTX-2 的提示词编写

编写提示词时,应专注于对动作和场景的详细、按时间顺序的描述。包含具体的动作、外观、摄像机角度和环境细节——所有内容都应写在一个连贯的段落中。直接从动作开始,并保持描述的字面性和精确性。想象自己是一名摄影师,正在描述镜头清单。字数控制在 200 字以内。为获得最佳效果,可按照以下结构构建提示词:

  • 用一句话概述主要动作
  • 添加关于动作和手势的具体细节
  • 精确描述角色或物体的外观
  • 包括背景和环境细节
  • 指定摄像机角度和运动
  • 描述光线和色彩
  • 注意任何变化或突发事件

如需更多提示词编写指导,请参阅 https://ltx.video/blog/how-to-prompt-for-ltx-2

自动提示词增强

LTX-2 管道支持通过 enhance_prompt 参数进行自动提示词增强。

🔌 ComfyUI 集成

如需将我们的模型与 ComfyUI 集成,请按照 https://github.com/Lightricks/ComfyUI-LTXVideo/ 中的说明操作。

📦 软件包

本仓库采用 monorepo 结构,包含三个主要软件包:

  • ltx-core - 核心模型实现、推理栈及工具
  • ltx-pipelines - 文本到视频、图像到视频等生成模式的高级管道实现
  • ltx-trainer - LoRA、全量微调和 IC-LoRA 的训练与微调工具

每个软件包都有独立的 README 和文档。请参阅下方的 文档 部分。

📚 文档

每个软件包均包含详尽的文档:

常见问题

相似工具推荐

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。

88.9k|★★★☆☆|3天前
开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85.1k|★★☆☆☆|昨天
图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。

79.9k|★☆☆☆☆|今天
语言模型数据工具其他

cs-video-courses

cs-video-courses 是一个精心整理的计算机科学视频课程清单,旨在为自学者提供系统化的学习路径。它汇集了全球知名高校(如加州大学伯克利分校、新南威尔士大学等)的完整课程录像,涵盖从编程基础、数据结构与算法,到操作系统、分布式系统、数据库等核心领域,并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。 面对网络上零散且质量参差不齐的教学资源,cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容,仅收录真正的大学层级课程,排除了碎片化的简短教程或商业广告,确保用户能接触到严谨的学术内容。 这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员,以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽,不仅包含传统的软件工程与网络安全,还细分了生成式 AI、大语言模型、计算生物学等新兴学科,并直接链接至官方视频播放列表,让用户能一站式获取高质量的教育资源,免费享受世界顶尖大学的课堂体验。

79.8k|★☆☆☆☆|今天
其他图像数据工具

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|5天前
Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。

75.2k|★★★☆☆|今天
语言模型图像开发框架