[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Lightricks--LTX-2":3,"tool-Lightricks--LTX-2":65},[4,18,32,41,49,57],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,3,"2026-04-06T03:28:53",[13,14,15,16],"开发框架","图像","Agent","视频","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85052,2,"2026-04-08T11:03:08",[14,27,16,28,15,29,30,13,31],"数据工具","插件","其他","语言模型","音频",{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":38,"last_commit_at":39,"category_tags":40,"status":17},5784,"funNLP","fighting41love\u002FfunNLP","funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为\"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。\n\n面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。\n\n无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。",79857,1,"2026-04-08T20:11:31",[30,27,29],{"id":42,"name":43,"github_repo":44,"description_zh":45,"stars":46,"difficulty_score":38,"last_commit_at":47,"category_tags":48,"status":17},5773,"cs-video-courses","Developer-Y\u002Fcs-video-courses","cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。\n\n面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。\n\n这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。",79792,"2026-04-08T22:03:59",[29,14,27,13],{"id":50,"name":51,"github_repo":52,"description_zh":53,"stars":54,"difficulty_score":10,"last_commit_at":55,"category_tags":56,"status":17},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,30,29],{"id":58,"name":59,"github_repo":60,"description_zh":61,"stars":62,"difficulty_score":10,"last_commit_at":63,"category_tags":64,"status":17},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",75229,"2026-04-09T11:17:25",[30,14,13,29],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":79,"owner_twitter":80,"owner_website":81,"owner_url":82,"languages":83,"stars":88,"forks":89,"last_commit_at":90,"license":91,"difficulty_score":92,"env_os":93,"env_gpu":94,"env_ram":93,"env_deps":95,"category_tags":104,"github_topics":105,"view_count":24,"oss_zip_url":79,"oss_zip_packed_at":79,"status":17,"created_at":109,"updated_at":110,"faqs":111,"releases":139},5840,"Lightricks\u002FLTX-2","LTX-2","Official Python inference and LoRA trainer package for the LTX-2 audio–video generative model.","LTX-2 是一款基于 DiT（扩散变换器）架构的开源音视频生成基础模型，旨在通过单一模型实现高质量的视频与同步音频创作。它解决了传统方案中画面与声音不同步、生成画质不稳定以及需要组合多个模型才能完成完整制作的痛点，能够直接输出适用于生产环境的高保真音视频内容。\n\n这款工具特别适合 AI 研究人员、开发者以及从事多媒体创作的设计师使用。研究人员可以利用其开放的 Python 推理包和 LoRA 训练功能进行模型微调与实验；开发者可将其集成到各类应用中；而内容创作者则能借助其多种性能模式，高效制作出音画同步的短视频素材。\n\nLTX-2 的核心技术亮点在于其“多合一”的设计理念，将现代视频生成的核心能力整合于一个模型之中。它不仅支持原生音视频同步生成，还配备了空间与时间超分模块（Upscaler），能有效提升画面的清晰度与流畅度。此外，项目提供了从开发版到蒸馏版的多种模型权重选择，兼顾了生成质量与推理效率，让高性能的音视频生成变得更加触手可及。","# LTX-2\n\n[![Website](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWebsite-LTX-181717?logo=google-chrome)](https:\u002F\u002Fltx.io)\n[![Model](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHuggingFace-Model-orange?logo=huggingface)](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3)\n[![Demo](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDemo-Try%20Now-brightgreen?logo=data:image\u002Fpng;base64,iVBORw0KGgoAAAANSUhEUgAAABQAAAAUCAYAAACNiR0NAAAAAXNSR0IArs4c6QAAAERlWElmTU0AKgAAAAgAAYdpAAQAAAABAAAAGgAAAAAAA6ABAAMAAAABAAEAAKACAAQAAAABAAAAFKADAAQAAAABAAAAFAAAAACy3fD9AAACmElEQVQ4Ea1VP2haYRA\u002FfRo0mESRIIqb2IwxuNUl0CGFQBC6OAWcikMottCpqYtDQIgdQsBFhAjZqiQhbhmySJBOgmNU0EGCg9r61Bivd0ffoykE0iQH37\u002F77n7f3e\u002FuqQFIPB7P\u002FN3d3QeDwfAFEedZ91ghnyH5JM1m87dWq6UavF6vdTKZfDcajW\u002Fp4rE49+wIFMj33Gq1vlNo+kxg758KpiETqP\u002F29vaXweVyqaS0aBfPXEfGFwTjWCwM+KBQoWA4HAJx\u002FKDNvxcmTTGbzYAH8SljOp2C2+2GjY0NqNfrcHFxAXNzc2LDfCuKIq78KBdFOwsgGzidTnA4HHBzcwO9Xg8sFgtsbm7C3t4eVCoVaDQa0O12YXl5GUwmk5z5cZ\u002FPB6PRCNrttgADFQUXFhbw8PAQVVXF3d1dJAeMx+P0zn0Jh8OYz+eRADCRSGAqlcLxeIz7+\u002Fu4tLSEjKUDZrNZ8U4mk0jR4fr6Op6enoru+voa0+k0rq2tYTAYxE6ng9QiSLRgrVZDv9+PFLkA6kUhT+GEC8C8XF5ewtHRkejICShiaDabwPvj42NJm3k7ODiQdDl9Fr0ocqJpdXUVIpEIdz7Y7XZRr6ysQDQahXK5LORvbW1p5rC9vQ2UifAooBqHuVxO0vt72tnZwWq1qqtisRgWCgU5ZzIZPDk50fdUUEmZvxTmAgKBgAxunT\u002FfJpRKJWmhUCgEVDi4uroSG46kWCzC4uKitNVgMICzszOhSgA5fiJZhp4Lbbh1KARpbF65D\u002Flx3vMdP05Vlkf5zKIDyukFJi7N6AVwNAhVsdlsM+LsjaZ56sq8kyQUqs4P6rsAKV49B4x4Padf7Y9Kv9+fEmiBQH8S4Gsa5v8EHpL9VwL7xH8BvwEcd4ccVf02KQAAAABJRU5ErkJggg==)](https:\u002F\u002Fconsole.ltx.video\u002Fplayground)\n[![Paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-PDF-EC1C24?logo=adobeacrobatreader&logoColor=white)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.03233)\n[![Discord](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FJoin-Discord-5865F2?logo=discord)](https:\u002F\u002Fdiscord.gg\u002Fltxplatform)\n\n**LTX-2** is the first DiT-based audio-video foundation model that contains all core capabilities of modern video generation in one model: synchronized audio and video, high fidelity, multiple performance modes, production-ready outputs, API access, and open access.\n\n\u003Cdiv align=\"center\">\n  \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F4414adc0-086c-43de-b367-9362eeb20228\" width=\"70%\" poster=\"\"> \u003C\u002Fvideo>\n\u003C\u002Fdiv>\n\n## 🚀 Quick Start\n\n```bash\n# Clone the repository\ngit clone https:\u002F\u002Fgithub.com\u002FLightricks\u002FLTX-2.git\ncd LTX-2\n\n# Set up the environment\nuv sync --frozen\nsource .venv\u002Fbin\u002Factivate\n```\n\n### Required Models\n\nDownload the following models from the [LTX-2.3 HuggingFace repository](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3):\n\n**LTX-2.3 Model Checkpoint** (choose and download one of the following)\n  * [`ltx-2.3-22b-dev.safetensors`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3\u002Fblob\u002Fmain\u002Fltx-2.3-22b-dev.safetensors) - [Download](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3\u002Fresolve\u002Fmain\u002Fltx-2.3-22b-dev.safetensors)\n  * [`ltx-2.3-22b-distilled.safetensors`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3\u002Fblob\u002Fmain\u002Fltx-2.3-22b-distilled.safetensors) - [Download](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3\u002Fresolve\u002Fmain\u002Fltx-2.3-22b-distilled.safetensors)\n\n**Spatial Upscaler** - Required for current two-stage pipeline implementations in this repository\n  * [`ltx-2.3-spatial-upscaler-x2-1.0.safetensors`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3\u002Fblob\u002Fmain\u002Fltx-2.3-spatial-upscaler-x2-1.0.safetensors) - [Download](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3\u002Fresolve\u002Fmain\u002Fltx-2.3-spatial-upscaler-x2-1.0.safetensors)\n  * [`ltx-2.3-spatial-upscaler-x1.5-1.0.safetensors`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3\u002Fblob\u002Fmain\u002Fltx-2.3-spatial-upscaler-x1.5-1.0.safetensors) - [Download](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3\u002Fresolve\u002Fmain\u002Fltx-2.3-spatial-upscaler-x1.5-1.0.safetensors)\n\n**Temporal Upscaler** - Supported by the model and will be required for future pipeline implementations\n  * [`ltx-2.3-temporal-upscaler-x2-1.0.safetensors`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3\u002Fblob\u002Fmain\u002Fltx-2.3-temporal-upscaler-x2-1.0.safetensors) - [Download](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3\u002Fresolve\u002Fmain\u002Fltx-2.3-temporal-upscaler-x2-1.0.safetensors)\n\n**Distilled LoRA** - Required for current two-stage pipeline implementations in this repository (except DistilledPipeline and ICLoraPipeline)\n  * [`ltx-2.3-22b-distilled-lora-384.safetensors`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3\u002Fblob\u002Fmain\u002Fltx-2.3-22b-distilled-lora-384.safetensors) - [Download](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3\u002Fresolve\u002Fmain\u002Fltx-2.3-22b-distilled-lora-384.safetensors)\n\n**Gemma Text Encoder** (download all assets from the repository)\n  * [`Gemma 3`](https:\u002F\u002Fhuggingface.co\u002Fgoogle\u002Fgemma-3-12b-it-qat-q4_0-unquantized\u002Ftree\u002Fmain)\n\n**LoRAs**\n  * [`LTX-2.3-22b-IC-LoRA-Union-Control`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3-22b-IC-LoRA-Union-Control) - [Download](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3-22b-IC-LoRA-Union-Control\u002Fresolve\u002Fmain\u002Fltx-2.3-22b-ic-lora-union-control-ref0.5.safetensors)\n  * [`LTX-2.3-22b-IC-LoRA-Motion-Track-Control`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3-22b-IC-LoRA-Motion-Track-Control) - [Download](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3-22b-IC-LoRA-Motion-Track-Control\u002Fresolve\u002Fmain\u002Fltx-2.3-22b-ic-lora-motion-track-control-ref0.5.safetensors)\n  * [`LTX-2-19b-IC-LoRA-Detailer`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-IC-LoRA-Detailer) - [Download](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-IC-LoRA-Detailer\u002Fresolve\u002Fmain\u002Fltx-2-19b-ic-lora-detailer.safetensors)\n  * [`LTX-2-19b-IC-LoRA-Pose-Control`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-IC-LoRA-Pose-Control) - [Download](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-IC-LoRA-Pose-Control\u002Fresolve\u002Fmain\u002Fltx-2-19b-ic-lora-pose-control.safetensors)\n  * [`LTX-2-19b-LoRA-Camera-Control-Dolly-In`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Dolly-In) - [Download](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Dolly-In\u002Fresolve\u002Fmain\u002Fltx-2-19b-lora-camera-control-dolly-in.safetensors)\n  * [`LTX-2-19b-LoRA-Camera-Control-Dolly-Left`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Dolly-Left) - [Download](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Dolly-Left\u002Fresolve\u002Fmain\u002Fltx-2-19b-lora-camera-control-dolly-left.safetensors)\n  * [`LTX-2-19b-LoRA-Camera-Control-Dolly-Out`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Dolly-Out) - [Download](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Dolly-Out\u002Fresolve\u002Fmain\u002Fltx-2-19b-lora-camera-control-dolly-out.safetensors)\n  * [`LTX-2-19b-LoRA-Camera-Control-Dolly-Right`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Dolly-Right) - [Download](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Dolly-Right\u002Fresolve\u002Fmain\u002Fltx-2-19b-lora-camera-control-dolly-right.safetensors)\n  * [`LTX-2-19b-LoRA-Camera-Control-Jib-Down`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Jib-Down) - [Download](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Jib-Down\u002Fresolve\u002Fmain\u002Fltx-2-19b-lora-camera-control-jib-down.safetensors)\n  * [`LTX-2-19b-LoRA-Camera-Control-Jib-Up`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Jib-Up) - [Download](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Jib-Up\u002Fresolve\u002Fmain\u002Fltx-2-19b-lora-camera-control-jib-up.safetensors)\n  * [`LTX-2-19b-LoRA-Camera-Control-Static`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Static) - [Download](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Static\u002Fresolve\u002Fmain\u002Fltx-2-19b-lora-camera-control-static.safetensors)\n\n### Available Pipelines\n\n* **[TI2VidTwoStagesPipeline](packages\u002Fltx-pipelines\u002Fsrc\u002Fltx_pipelines\u002Fti2vid_two_stages.py)** - Production-quality text\u002Fimage-to-video with 2x upsampling (recommended)\n* **[TI2VidTwoStagesHQPipeline](packages\u002Fltx-pipelines\u002Fsrc\u002Fltx_pipelines\u002Fti2vid_two_stages_hq.py)** - Same two-stage flow as above but uses the res_2s second-order sampler (fewer steps, better quality)\n* **[TI2VidOneStagePipeline](packages\u002Fltx-pipelines\u002Fsrc\u002Fltx_pipelines\u002Fti2vid_one_stage.py)** - Single-stage generation for quick prototyping\n* **[DistilledPipeline](packages\u002Fltx-pipelines\u002Fsrc\u002Fltx_pipelines\u002Fdistilled.py)** - Fastest inference with 8 predefined sigmas\n* **[ICLoraPipeline](packages\u002Fltx-pipelines\u002Fsrc\u002Fltx_pipelines\u002Fic_lora.py)** - Video-to-video and image-to-video transformations (uses distilled model.)\n* **[KeyframeInterpolationPipeline](packages\u002Fltx-pipelines\u002Fsrc\u002Fltx_pipelines\u002Fkeyframe_interpolation.py)** - Interpolate between keyframe images\n* **[A2VidPipelineTwoStage](packages\u002Fltx-pipelines\u002Fsrc\u002Fltx_pipelines\u002Fa2vid_two_stage.py)** - Audio-to-video generation conditioned on an input audio file\n* **[RetakePipeline](packages\u002Fltx-pipelines\u002Fsrc\u002Fltx_pipelines\u002Fretake.py)** - Regenerate a specific time region of an existing video\n\n### ⚡ Optimization Tips\n\n* **Use DistilledPipeline** - Fastest inference with only 8 predefined sigmas (8 steps stage 1, 4 steps stage 2)\n* **Enable FP8 quantization** - Enables lower memory footprint: `--quantization fp8-cast` (CLI) or `quantization=QuantizationPolicy.fp8_cast()` (Python). Fp8-cast should be used with bf16 checkpoints, it shall downcast them on the fly. For Hopper GPUs with TensorRT-LLM, use `--quantization fp8-scaled-mm` for FP8 scaled matrix multiplication. Fp8-scaled-mm should be used with fp8 checkpoints.\n* **Install attention optimizations** - Use xFormers (`uv sync --extra xformers`) or [Flash Attention 3](https:\u002F\u002Fgithub.com\u002FDao-AILab\u002Fflash-attention) for Hopper GPUs\n* **Use gradient estimation** - Reduce inference steps from 40 to 20-30 while maintaining quality (see [pipeline documentation](packages\u002Fltx-pipelines\u002FREADME.md#denoising-loop-optimization))\n* **Skip memory cleanup** - If you have sufficient VRAM, disable automatic memory cleanup between stages for faster processing\n* **Choose single-stage pipeline** - Use `TI2VidOneStagePipeline` for faster generation when high resolution isn't required\n\n## ✍️ Prompting for LTX-2\n\nWhen writing prompts, focus on detailed, chronological descriptions of actions and scenes. Include specific movements, appearances, camera angles, and environmental details - all in a single flowing paragraph. Start directly with the action, and keep descriptions literal and precise. Think like a cinematographer describing a shot list. Keep within 200 words. For best results, build your prompts using this structure:\n\n- Start with main action in a single sentence\n- Add specific details about movements and gestures\n- Describe character\u002Fobject appearances precisely\n- Include background and environment details\n- Specify camera angles and movements\n- Describe lighting and colors\n- Note any changes or sudden events\n\nFor additional guidance on writing a prompt please refer to \u003Chttps:\u002F\u002Fltx.video\u002Fblog\u002Fhow-to-prompt-for-ltx-2>\n\n### Automatic Prompt Enhancement\n\nLTX-2 pipelines support automatic prompt enhancement via an `enhance_prompt` parameter.\n\n## 🔌 ComfyUI Integration\n\nTo use our model with ComfyUI, please follow the instructions at \u003Chttps:\u002F\u002Fgithub.com\u002FLightricks\u002FComfyUI-LTXVideo\u002F>.\n\n## 📦 Packages\n\nThis repository is organized as a monorepo with three main packages:\n\n* **[ltx-core](packages\u002Fltx-core\u002F)** - Core model implementation, inference stack, and utilities\n* **[ltx-pipelines](packages\u002Fltx-pipelines\u002F)** - High-level pipeline implementations for text-to-video, image-to-video, and other generation modes\n* **[ltx-trainer](packages\u002Fltx-trainer\u002F)** - Training and fine-tuning tools for LoRA, full fine-tuning, and IC-LoRA\n\nEach package has its own README and documentation. See the [Documentation](#-documentation) section below.\n\n## 📚 Documentation\n\nEach package includes comprehensive documentation:\n\n* **[LTX-Core README](packages\u002Fltx-core\u002FREADME.md)** - Core model implementation, inference stack, and utilities\n* **[LTX-Pipelines README](packages\u002Fltx-pipelines\u002FREADME.md)** - High-level pipeline implementations and usage guides\n* **[LTX-Trainer README](packages\u002Fltx-trainer\u002FREADME.md)** - Training and fine-tuning documentation with detailed guides\n","# LTX-2\n\n[![官网](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWebsite-LTX-181717?logo=google-chrome)](https:\u002F\u002Fltx.io)\n[![模型](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHuggingFace-Model-orange?logo=huggingface)](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3)\n[![演示](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDemo-Try%20Now-brightgreen?logo=data:image\u002Fpng;base64,iVBORw0KGgoAAAANSUhEUgAAABQAAAAUCAYAAACNiR0NAAAAAXNSR0IArs4c6QAAAERlWElmTU0AKgAAAAgAAYdpAAQAAAABAAAAGgAAAAAAA6ABAAMAAAABAAEAAKACAAQAAAABAAAAFKADAAQAAAABAAAAFAAAAACy3fD9AAACmElEQVQ4Ea1VP2haYRA\u002FfRo0mESRIIqb2IwxuNUl0CGFQBC6OAWcikMottCpqYtDQIgdQsBFhAjZqiQhbhmySJBOgmNU0EGCg9r61Bivd0ffoykE0iQH37\u002F7n7f3e\u002FuqQFIPB7P\u002FN3d3QeDwfAFEedZ91ghnyH5JM1m87dWq6UavF6vdTKZfDcajW\u002Fp4rE49+wIFMj33Gq1vlNo+kxg758KpiETqP\u002F29vaXwOdXSSWlRbt45joysSggGMeFgr8oFCgYDgcAnH8oM2\u002FlyYNMZvNgAfxKWMymcBdXV3Y2NiAer0OFxcXYG5uDmzvLwAAAAAASUVORK5CYII=)](https:\u002F\u002Fconsole.ltx.video\u002Fplayground)\n[![论文](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-PDF-EC1C24?logo=adobeacrobatreader&logoColor=white)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.03233)\n[![Discord](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FJoin-Discord-5865F2?logo=discord)](https:\u002F\u002Fdiscord.gg\u002Fltxplatform)\n\n**LTX-2** 是首个基于 DiT 的音视频基础模型，它将现代视频生成的所有核心能力整合到一个模型中：音视频同步、高保真度、多种性能模式、可直接用于生产的输出、API 访问以及开放获取。\n\n\u003Cdiv align=\"center\">\n  \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F4414adc0-086c-43de-b367-9362eeb20228\" width=\"70%\" poster=\"\"> \u003C\u002Fvideo>\n\u003C\u002Fdiv>\n\n## 🚀 快速入门\n\n```bash\n# 克隆仓库\ngit clone https:\u002F\u002Fgithub.com\u002FLightricks\u002FLTX-2.git\ncd LTX-2\n\n# 设置环境\nuv sync --frozen\nsource .venv\u002Fbin\u002Factivate\n```\n\n### 必需模型\n\n从 [LTX-2.3 HuggingFace 仓库](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3) 下载以下模型：\n\n**LTX-2.3 模型检查点**（选择并下载以下其中之一）\n  * [`ltx-2.3-22b-dev.safetensors`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3\u002Fblob\u002Fmain\u002Fltx-2.3-22b-dev.safetensors) - [下载](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3\u002Fresolve\u002Fmain\u002Fltx-2.3-22b-dev.safetensors)\n  * [`ltx-2.3-22b-distilled.safetensors`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3\u002Fblob\u002Fmain\u002Fltx-2.3-22b-distilled.safetensors) - [下载](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3\u002Fresolve\u002Fmain\u002Fltx-2.3-22b-distilled.safetensors)\n\n**空间超分辨率模型** - 当前仓库中两阶段流水线实现所必需\n  * [`ltx-2.3-spatial-upscaler-x2-1.0.safetensors`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3\u002Fblob\u002Fmain\u002Fltx-2.3-spatial-upscaler-x2-1.0.safetensors) - [下载](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3\u002Fresolve\u002Fmain\u002Fltx-2.3-spatial-upscaler-x2-1.0.safetensors)\n  * [`ltx-2.3-spatial-upscaler-x1.5-1.0.safetensors`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3\u002Fblob\u002Fmain\u002Fltx-2.3-spatial-upscaler-x1.5-1.0.safetensors) - [下载](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3\u002Fresolve\u002Fmain\u002Fltx-2.3-spatial-upscaler-x1.5-1.0.safetensors)\n\n**时间超分辨率模型** - 模型支持，未来流水线实现将需要\n  * [`ltx-2.3-temporal-upscaler-x2-1.0.safetensors`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3\u002Fblob\u002Fmain\u002Fltx-2.3-temporal-upscaler-x2-1.0.safetensors) - [下载](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3\u002Fresolve\u002Fmain\u002Fltx-2.3-temporal-upscaler-x2-1.0.safetensors)\n\n**蒸馏 LoRA** - 当前仓库中两阶段流水线实现所必需（除 DistilledPipeline 和 ICLoraPipeline 外）\n  * [`ltx-2.3-22b-distilled-lora-384.safetensors`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3\u002Fblob\u002Fmain\u002Fltx-2.3-22b-distilled-lora-384.safetensors) - [下载](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3\u002Fresolve\u002Fmain\u002Fltx-2.3-22b-distilled-lora-384.safetensors)\n\n**Gemma 文本编码器**（从仓库下载所有资产）\n  * [`Gemma 3`](https:\u002F\u002Fhuggingface.co\u002Fgoogle\u002Fgemma-3-12b-it-qat-q4_0-unquantized\u002Ftree\u002Fmain)\n\n**LoRAs**\n  * [`LTX-2.3-22b-IC-LoRA-Union-Control`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3-22b-IC-LoRA-Union-Control) - [下载](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3-22b-IC-LoRA-Union-Control\u002Fresolve\u002Fmain\u002Fltx-2.3-22b-ic-lora-union-control-ref0.5.safetensors)\n  * [`LTX-2.3-22b-IC-LoRA-Motion-Track-Control`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3-22b-IC-LoRA-Motion-Track-Control) - [下载](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3-22b-IC-LoRA-Motion-Track-Control\u002Fresolve\u002Fmain\u002Fltx-2.3-22b-ic-lora-motion-track-control-ref0.5.safetensors)\n  * [`LTX-2-19b-IC-LoRA-Detailer`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-IC-LoRA-Detailer) - [下载](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-IC-LoRA-Detailer\u002Fresolve\u002Fmain\u002Fltx-2-19b-ic-lora-detailer.safetensors)\n  * [`LTX-2-19b-IC-LoRA-Pose-Control`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-IC-LoRA-Pose-Control) - [下载](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-IC-LoRA-Pose-Control\u002Fresolve\u002Fmain\u002Fltx-2-19b-ic-lora-pose-control.safetensors)\n  * [`LTX-2-19b-LoRA-Camera-Control-Dolly-In`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Dolly-In) - [下载](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Dolly-In\u002Fresolve\u002Fmain\u002Fltx-2-19b-lora-camera-control-dolly-in.safetensors)\n  * [`LTX-2-19b-LoRA-Camera-Control-Dolly-Left`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Dolly-Left) - [下载](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Dolly-Left\u002Fresolve\u002Fmain\u002Fltx-2-19b-lora-camera-control-dolly-left.safetensors)\n  * [`LTX-2-19b-LoRA-Camera-Control-Dolly-Out`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Dolly-Out) - [下载](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Dolly-Out\u002Fresolve\u002Fmain\u002Fltx-2-19b-lora-camera-control-dolly-out.safetensors)\n  * [`LTX-2-19b-LoRA-Camera-Control-Dolly-Right`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Dolly-Right) - [下载](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Dolly-Right\u002Fresolve\u002Fmain\u002Fltx-2-19b-lora-camera-control-dolly-right.safetensors)\n  * [`LTX-2-19b-LoRA-Camera-Control-Jib-Down`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Jib-Down) - [下载](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Jib-Down\u002Fresolve\u002Fmain\u002Fltx-2-19b-lora-camera-control-jib-down.safetensors)\n  * [`LTX-2-19b-LoRA-Camera-Control-Jib-Up`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Jib-Up) - [下载](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Jib-Up\u002Fresolve\u002Fmain\u002Fltx-2-19b-lora-camera-control-jib-up.safetensors)\n  * [`LTX-2-19b-LoRA-Camera-Control-Static`](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Static) - [下载](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2-19b-LoRA-Camera-Control-Static\u002Fresolve\u002Fmain\u002Fltx-2-19b-lora-camera-control-static.safetensors)\n\n### 可用的流水线\n\n* **[TI2VidTwoStagesPipeline](packages\u002Fltx-pipelines\u002Fsrc\u002Fltx_pipelines\u002Fti2vid_two_stages.py)** - 具有 2 倍超分辨率的生产级文本\u002F图像到视频生成（推荐）\n* **[TI2VidTwoStagesHQPipeline](packages\u002Fltx-pipelines\u002Fsrc\u002Fltx_pipelines\u002Fti2vid_two_stages_hq.py)** - 与上述相同的两阶段流程，但使用 res_2s 二阶采样器（步骤更少，质量更高）\n* **[TI2VidOneStagePipeline](packages\u002Fltx-pipelines\u002Fsrc\u002Fltx_pipelines\u002Fti2vid_one_stage.py)** - 单阶段生成，适用于快速原型设计\n* **[DistilledPipeline](packages\u002Fltx-pipelines\u002Fsrc\u002Fltx_pipelines\u002Fdistilled.py)** - 使用 8 个预定义 sigma 的最快推理\n* **[ICLoraPipeline](packages\u002Fltx-pipelines\u002Fsrc\u002Fltx_pipelines\u002Fic_lora.py)** - 视频到视频和图像到视频的转换（使用蒸馏模型）\n* **[KeyframeInterpolationPipeline](packages\u002Fltx-pipelines\u002Fsrc\u002Fltx_pipelines\u002Fkeyframe_interpolation.py)** - 在关键帧图像之间进行插值\n* **[A2VidPipelineTwoStage](packages\u002Fltx-pipelines\u002Fsrc\u002Fltx_pipelines\u002Fa2vid_two_stage.py)** - 根据输入音频文件条件生成音频到视频\n* **[RetakePipeline](packages\u002Fltx-pipelines\u002Fsrc\u002Fltx_pipelines\u002Fretake.py)** - 重新生成现有视频中的特定时间段\n\n### ⚡ 优化建议\n\n* **使用 DistilledPipeline** - 仅使用 8 个预定义的 sigma 进行最快推理（阶段 1 8 步，阶段 2 4 步）\n* **启用 FP8 量化** - 可降低内存占用：`--quantization fp8-cast`（命令行）或 `quantization=QuantizationPolicy.fp8_cast()`（Python）。fp8-cast 应与 bf16 检查点一起使用，它会实时将其降为 FP8 格式。对于配备 TensorRT-LLM 的 Hopper GPU，请使用 `--quantization fp8-scaled-mm` 进行 FP8 缩放矩阵乘法。fp8-scaled-mm 应与 FP8 检查点一起使用。\n* **安装注意力优化库** - 使用 xFormers（`uv sync --extra xformers`）或针对 Hopper GPU 的 [Flash Attention 3](https:\u002F\u002Fgithub.com\u002FDao-AILab\u002Fflash-attention)\n* **使用梯度估计** - 在保持质量的同时，将推理步骤从 40 步减少到 20–30 步（参见 [管道文档](packages\u002Fltx-pipelines\u002FREADME.md#denoising-loop-optimization)）\n* **跳过内存清理** - 如果显存充足，可禁用各阶段之间的自动内存清理，以加快处理速度\n* **选择单阶段管道** - 当不需要高分辨率时，可使用 `TI2VidOneStagePipeline` 进行更快的生成\n\n## ✍️ LTX-2 的提示词编写\n\n编写提示词时，应专注于对动作和场景的详细、按时间顺序的描述。包含具体的动作、外观、摄像机角度和环境细节——所有内容都应写在一个连贯的段落中。直接从动作开始，并保持描述的字面性和精确性。想象自己是一名摄影师，正在描述镜头清单。字数控制在 200 字以内。为获得最佳效果，可按照以下结构构建提示词：\n\n- 用一句话概述主要动作\n- 添加关于动作和手势的具体细节\n- 精确描述角色或物体的外观\n- 包括背景和环境细节\n- 指定摄像机角度和运动\n- 描述光线和色彩\n- 注意任何变化或突发事件\n\n如需更多提示词编写指导，请参阅 \u003Chttps:\u002F\u002Fltx.video\u002Fblog\u002Fhow-to-prompt-for-ltx-2>\n\n### 自动提示词增强\n\nLTX-2 管道支持通过 `enhance_prompt` 参数进行自动提示词增强。\n\n## 🔌 ComfyUI 集成\n\n如需将我们的模型与 ComfyUI 集成，请按照 \u003Chttps:\u002F\u002Fgithub.com\u002FLightricks\u002FComfyUI-LTXVideo\u002F> 中的说明操作。\n\n## 📦 软件包\n\n本仓库采用 monorepo 结构，包含三个主要软件包：\n\n* **[ltx-core](packages\u002Fltx-core\u002F)** - 核心模型实现、推理栈及工具\n* **[ltx-pipelines](packages\u002Fltx-pipelines\u002F)** - 文本到视频、图像到视频等生成模式的高级管道实现\n* **[ltx-trainer](packages\u002Fltx-trainer\u002F)** - LoRA、全量微调和 IC-LoRA 的训练与微调工具\n\n每个软件包都有独立的 README 和文档。请参阅下方的 [文档](#-documentation) 部分。\n\n## 📚 文档\n\n每个软件包均包含详尽的文档：\n\n* **[LTX-Core README](packages\u002Fltx-core\u002FREADME.md)** - 核心模型实现、推理栈及工具\n* **[LTX-Pipelines README](packages\u002Fltx-pipelines\u002FREADME.md)** - 高级管道实现及使用指南\n* **[LTX-Trainer README](packages\u002Fltx-trainer\u002FREADME.md)** - 训练与微调文档，附详细指南","# LTX-2 快速上手指南\n\nLTX-2 是首个基于 DiT（Diffusion Transformer）架构的音视频基础模型，支持音画同步、高保真生成及多种生产级模式。本指南帮助开发者快速在本地部署并运行该模型。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐) 或 macOS\n*   **Python**: 3.10 或更高版本\n*   **包管理器**: 推荐使用 `uv` (比 pip 更快)，若未安装可通过 `pip install uv` 获取\n*   **硬件要求**:\n    *   推荐 NVIDIA GPU (显存建议 24GB 以上以运行完整流程)\n    *   若使用 Hopper 架构显卡 (如 H100)，可启用 Flash Attention 3 优化\n*   **依赖库**: 项目使用 `uv` 管理依赖，自动处理虚拟环境\n\n> **注意**：目前官方未提供特定的中国镜像源。国内用户下载模型文件时，建议使用国内加速服务（如 huggingface.co 的镜像站）或配置代理以确保下载速度。\n\n## 安装步骤\n\n### 1. 克隆代码库并配置环境\n\n使用以下命令克隆仓库并初始化 Python 虚拟环境：\n\n```bash\n# 克隆仓库\ngit clone https:\u002F\u002Fgithub.com\u002FLightricks\u002FLTX-2.git\ncd LTX-2\n\n# 使用 uv 同步依赖并冻结版本\nuv sync --frozen\n\n# 激活虚拟环境\nsource .venv\u002Fbin\u002Factivate\n```\n\n*(可选) 如需启用注意力机制优化以提升推理速度：*\n```bash\n# 安装 xFormers (适用于大多数 NVIDIA GPU)\nuv sync --extra xformers\n```\n\n### 2. 下载模型文件\n\n您需要从 [HuggingFace](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-2.3) 下载必要的模型权重文件。请将下载的文件放置在项目指定的模型目录中（具体路径请参考各 Pipeline 的默认配置或通过 CLI 参数指定）。\n\n**必需的核心模型：**\n*   **主模型检查点** (二选一):\n    *   `ltx-2.3-22b-dev.safetensors` (开发版)\n    *   `ltx-2.3-22b-distilled.safetensors` (蒸馏版，推理更快)\n*   **空间超分模型** (当前双阶段流程必需):\n    *   `ltx-2.3-spatial-upscaler-x2-1.0.safetensors` (2 倍超分)\n    *   或 `ltx-2.3-spatial-upscaler-x1.5-1.0.safetensors` (1.5 倍超分)\n*   **文本编码器**:\n    *   `Gemma 3` (需下载 `google\u002Fgemma-3-12b-it-qat-q4_0-unquantized` 仓库下的所有文件)\n\n**可选增强模型 (LoRAs):**\n根据需求下载相机控制、动作控制或细节增强所需的 LoRA 文件（如 `ltx-2.3-22b-ic-lora-union-control-ref0.5.safetensors` 等）。\n\n## 基本使用\n\nLTX-2 提供了多种 Pipeline 以适应不同场景。以下是使用推荐的 **双阶段文生视频流程** 的最小化 Python 示例。\n\n### 示例：使用 TI2VidTwoStagesPipeline 生成视频\n\n此流程先生成低分辨率视频，再进行空间超分，适合生产级质量输出。\n\n```python\nimport torch\nfrom ltx_pipelines import TI2VidTwoStagesPipeline\nfrom ltx_core import QuantizationPolicy\n\n# 1. 初始化 Pipeline\n# 请确保模型文件路径正确，或使用默认加载逻辑\npipeline = TI2VidTwoStagesPipeline(\n    model_path=\"path\u002Fto\u002Fltx-2.3-22b-distilled.safetensors\",\n    upscaler_path=\"path\u002Fto\u002Fltx-2.3-spatial-upscaler-x2-1.0.safetensors\",\n    text_encoder_path=\"path\u002Fto\u002Fgemma-3-model\",\n    # 开启 FP8 量化以降低显存占用 (需 bf16 检查点)\n    quantization=QuantizationPolicy.fp8_cast() \n)\n\n# 将模型移至 GPU\npipeline.to(\"cuda\")\n\n# 2. 构建提示词\n# LTX-2 偏好详细、按时间顺序描述的动作和场景，类似电影分镜脚本\nprompt = (\n    \"A cinematic shot of a cyberpunk city street at night, raining heavily. \"\n    \"Neon signs reflect on the wet pavement. A lone figure in a trench coat walks slowly \"\n    \"from left to right, looking up at a holographic advertisement. \"\n    \"Camera pans smoothly following the figure. Lighting is high contrast with blue and pink hues.\"\n)\n\n# 3. 执行生成\nvideo_output = pipeline(\n    prompt=prompt,\n    num_inference_steps=25,  # 结合梯度估计可减少步数\n    height=720,\n    width=1280,\n    frame_rate=24,\n    duration=5.0,\n    enhance_prompt=True  # 启用自动提示词增强\n)\n\n# 4. 保存结果\nvideo_output.save(\"output_video.mp4\")\nprint(\"视频生成完毕：output_video.mp4\")\n```\n\n### 性能优化建议\n\n*   **极速推理**: 若追求速度，可使用 `DistilledPipeline`，仅需 8 个采样步数（第一阶段 8 步，第二阶段 4 步）。\n*   **显存优化**: 对于显存有限的设备，务必启用 `--quantization fp8-cast` 参数。\n*   **单阶段模式**: 若不需要高分辨率输出，可使用 `TI2VidOneStagePipeline` 进行快速原型验证。\n\n更多高级用法（如音频生成视频、关键帧插值、ComfyUI 集成）请参阅各子包的详细文档。","一家独立游戏工作室正在为新作制作动态宣传预告片，需要快速生成一段包含角色动作与同步环境音效的高质量视频素材。\n\n### 没有 LTX-2 时\n- **音画割裂严重**：团队需分别使用视频生成模型和音频合成工具，后期手动对齐口型与声效，耗时且容易出现“对口型”不准的尴尬画面。\n- **画质模糊失真**：生成的原始视频分辨率低，人物面部细节模糊，必须依赖额外的第三方放大软件进行修复，往往导致画面出现伪影或涂抹感。\n- **工作流繁琐断裂**：从文本创意到最终成品需跨越多个软件平台，数据格式转换复杂，设计师大量时间浪费在文件流转而非创意调整上。\n- **定制成本高昂**：若想让视频风格贴合游戏特定美术风格，缺乏高效的微调手段，只能反复尝试提示词，成功率极低。\n\n### 使用 LTX-2 后\n- **原生音画同步**：LTX-2 作为音视频基础模型，一次性生成画面与完全同步的背景音及音效，角色口型与声音自然匹配，无需后期人工对轨。\n- **内置高清增强**：利用其集成的空间超分模块（Spatial Upscaler），直接输出高保真、细节丰富的生产级视频，省去了外部放大步骤且无伪影。\n- **一站式全流程**：通过统一的 Python 推理包，开发者可在本地脚本中完成从生成到优化的全链路操作，大幅缩短从创意到预览的周期。\n- **风格轻松定制**：借助官方提供的 LoRA 训练支持，团队能快速将游戏原画风格注入模型，稳定产出符合项目美术规范的专属视频素材。\n\nLTX-2 通过单模型实现高保真音视频同步生成与端到端优化，将传统数天的多工具协作流程压缩至分钟级，彻底释放了创意生产力。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLightricks_LTX-2_c076b6bf.png","Lightricks","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FLightricks_a06d057c.jpg","Bridging Imagination and Creation",null,"lightricks","http:\u002F\u002Fwww.lightricks.com","https:\u002F\u002Fgithub.com\u002FLightricks",[84],{"name":85,"color":86,"percentage":87},"Python","#3572A5",100,5642,865,"2026-04-09T05:10:43","NOASSERTION",4,"未说明","需要 NVIDIA GPU。推荐使用 Hopper 架构显卡以支持 TensorRT-LLM 和 Flash Attention 3。支持 FP8 量化（fp8-cast 或 fp8-scaled-mm）以降低显存占用。具体显存大小未说明，但模型参数量达 22B，建议大显存显卡。",{"notes":96,"python":97,"dependencies":98},"1. 项目使用 'uv' 工具进行依赖管理和环境同步 (uv sync --frozen)。\n2. 核心模型为 LTX-2.3 (22B 参数)，需从 HuggingFace 下载多个 safetensors 文件（包括主模型、空间\u002F时间超分模型、LoRA 等）。\n3. 文本编码器需要使用 Google 的 Gemma 3 模型。\n4. 支持多种推理管线，推荐生产环境使用 'TI2VidTwoStagesPipeline'，追求速度可使用 'DistilledPipeline'（仅需 8 步）。\n5. 可通过 --quantization 参数启用 FP8 量化以减少显存占用；Hopper 架构显卡建议使用 fp8-scaled-mm。\n6. 可集成 ComfyUI 使用。","未说明 (使用 uv 管理环境)",[99,100,101,102,103],"torch","transformers (Gemma 3)","xFormers (可选)","Flash Attention 3 (可选，针对 Hopper GPU)","TensorRT-LLM (可选，针对 Hopper GPU)",[16,31,29],[106,107,108],"generative-ai","ltx","ltx-2","2026-03-27T02:49:30.150509","2026-04-09T20:51:37.155771",[112,117,122,127,131,135],{"id":113,"question_zh":114,"answer_zh":115,"source_url":116},26491,"为什么图生视频（I2V）生成的视频画面静止不动或只有轻微缩放？","这通常是因为工作流中缺少对输入图像进行压缩处理的节点。如果您使用的是 ComfyUI，请确保在流程中包含 `LTXPreprocess` 节点，该节点应用的图像压缩有助于产生更好的运动效果。您可以参考官方提供的工作流示例：https:\u002F\u002Fgithub.com\u002FLightricks\u002FComfyUI-LTXVideo\u002Ftree\u002F6790484426305443104ea47d7a2aab13badd8c49\u002Fexample_workflows。此外，生成效果也高度依赖于输入图像本身，如果某张图像无法产生运动，尝试更换图像或对其进行轻微编辑后再试。","https:\u002F\u002Fgithub.com\u002FLightricks\u002FLTX-2\u002Fissues\u002F11",{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},26492,"如何在 Python 代码中解决 I2V 生成结果静态化的问题？","当遇到生成结果静止时，可以尝试增加应用于输入图像的压缩率。虽然该参数未在 CLI 中直接暴露，但您可以在源代码中找到相关设置进行调整。具体代码位置参考：https:\u002F\u002Fgithub.com\u002FLightricks\u002FLTX-2\u002Fblob\u002F628956009ca14446f01976ba4e861e6a9e210a93\u002Fpackages\u002Fltx-pipelines\u002Fsrc\u002Fltx_pipelines\u002Futils\u002Fmedia_io.py#L290。同时，模型对正向和反向提示词非常敏感，建议仔细调整提示词以获得更平滑的输出。","https:\u002F\u002Fgithub.com\u002FLightricks\u002FLTX-2\u002Fissues\u002F24",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},26493,"在 WSL2 环境下运行训练脚本时出现 'TypeError: linear(): argument weight must be Tensor, not NoneType' 错误怎么办？","该错误通常由 PyTorch 版本不兼容引起。例如，使用 `uv sync` 可能安装了较新版本的 Torch（如 2.9.1），而项目依赖的是较旧版本（如 2.8.0）。最简单的解决方案是使用官方提供的 Docker 镜像运行，这样可以确保环境依赖的一致性。如果坚持在非容器化环境中运行，请检查并锁定 PyTorch 版本与项目要求一致。","https:\u002F\u002Fgithub.com\u002FLightricks\u002FLTX-2\u002Fissues\u002F33",{"id":128,"question_zh":129,"answer_zh":130,"source_url":121},26494,"是否有图生视频（I2V）生成的完整 Python 代码示例及推荐参数？","官方目前主要提供 ComfyUI 的工作流示例，Python 脚本的详细参数配置需参考源码或社区分享。关键参数包括：使用 `TI2VidTwoStagesPipeline`，加载 `ltx-2-19b-dev.safetensors` 检查点和对应的蒸馏 LoRA（strength 设为 0.6 或 1.0），以及正确的 Gemma 文本编码器路径。若生成效果不佳，重点检查是否对输入图像进行了适当的预处理（压缩），并尝试调整 CFG 引导尺度（如 4.0）和推理步数（如 40 步）。详细的工作流逻辑可参考 ComfyUI 官方示例：https:\u002F\u002Fgithub.com\u002FLightricks\u002FComfyUI-LTXVideo\u002Ftree\u002Fmain\u002Fexample_workflows",{"id":132,"question_zh":133,"answer_zh":134,"source_url":116},26495,"ComfyUI 用户在使用 LTX-2 进行 I2V 生成时需要注意什么？","本仓库主要包含 PyTorch 推理代码，ComfyUI 相关问题应提交至 https:\u002F\u002Fgithub.com\u002FLightricks\u002FComfyUI-LTXVideo。在 ComfyUI 中进行 I2V 生成时，最常见的问题是模板工作流缺少 `LTXPreprocess` 节点。务必使用该节点对输入图像进行压缩处理，这是解决画面静止、无运动问题的关键步骤。请直接使用官方发布的最新工作流文件以避免配置缺失。",{"id":136,"question_zh":137,"answer_zh":138,"source_url":121},26496,"为什么同样的提示词在不同平台（如本地运行 vs Wavespeed）上生成的视频质量差异巨大？","这通常是由于本地运行时参数配置不当造成的“用户误差”。LTX-2 模型对超参数（如图像压缩率、LoRA 强度、提示词措辞）非常敏感。在线平台（如 Wavespeed）通常已经内置了优化的预处理流程和默认参数。建议在本地运行时，严格对照官方 ComfyUI 工作流中的节点设置，特别是确保输入图像经过了正确的压缩预处理，并尝试微调正负提示词以匹配模型的预期分布。",[]]