DiT-Extrapolation

801 75 中等 1 次阅读 2天前Apache-2.0视频语言模型图像开发框架

AI 解读由 AI 自动生成，仅供参考

DiT-Extrapolation 是一个专为视频扩散 Transformer 设计的开源项目，旨在解决生成模型在长视频和高分辨率图像创作中面临的“长度外推”难题。传统模型通常受限于训练时的固定时长或分辨率，难以直接生成更长的连贯视频或更清晰的图像，而该项目提供的 RIFLEx、UltraViCo 和 UltraImage 等技术，能够以“即插即用”的方式突破这些限制，无需重新训练即可将视频生成时长显著延长（例如从 5 秒扩展至 11 秒），并支持超高分辨率图像生成。

该项目主要面向 AI 研究人员、开发者以及对长视频生成有需求的技术团队。其核心亮点在于提出了高效的长度外推方案，被称为视频生成领域的“免费午餐”，目前已成功适配 HunyuanVideo、CogVideoX、Wan2.1 及 Flux 等主流前沿模型。代码库完全开源，不仅提供了单卡推理版本，还针对多 GPU 环境进行了优化，方便用户快速集成到现有工作流中。无论是希望探索长视频生成边界的科研人员，还是寻求提升生成质量的工程开发者，都能从中获得灵活且强大的技术支持。

使用场景

某独立游戏开发团队正利用开源视频模型为新作制作一段 10 秒以上的动态宣传预告片，需要生成连贯且高分辨率的长镜头画面。

没有 DiT-Extrapolation 时

时长受限严重：原生模型（如 HunyuanVideo）通常仅支持生成 5-6 秒视频，强行延长会导致画面在后半段严重崩坏或重复循环。
画质一致性差：若尝试分段生成再拼接，不同片段间的光影、人物动作及背景细节会出现明显断裂，破坏叙事连贯性。
算力成本高昂：为了获得长视频，团队不得不进行昂贵的全量微调或依赖多卡并行暴力推理，显存占用极高且训练周期漫长。
工作流繁琐：开发人员需编写复杂的后处理脚本去修补时间轴上的伪影，极大拖慢了从创意到成片的迭代速度。

使用 DiT-Extrapolation 后

无缝长度外推：借助 RIFLEx 技术，团队无需重新训练即可将原生 5 秒模型直接扩展至 11 秒甚至更长，且后半段画面依然清晰稳定。
时空连贯性增强：UltraViCo 模块确保了长序列中物体运动轨迹和纹理的自然过渡，彻底消除了分段生成带来的“跳帧”感。
即插即用高效：作为插件式方案，DiT-Extrapolation 可直接集成到现有的 Diffusers 工作流中，单卡即可推理，大幅降低了显存门槛。
创作自由度提升：开发者能一次性生成完整长镜头，不再受限于模型预设的短时长，让复杂运镜和长篇叙事成为可能。

DiT-Extrapolation 以“免费午餐”般的零成本微调方式，突破了视频扩散模型在时长与分辨率上的物理瓶颈，让长视频生成变得像生成图片一样简单高效。

运行环境要求

操作系统

未说明

GPU

需要 NVIDIA GPU
单卡推理建议使用 RTX 4090（可生成 10.5s 1280x720 视频）
多卡推理推荐用于复现演示效果及提升速度
具体显存需求未明确，但使用了 bitsandbytes 进行量化以节省显存

内存

未说明

依赖

notes1. 该工具支持 HunyuanVideo、CogVideoX、Wan2.1、Flux 和 Qwen-Image 等模型的视频时长或分辨率外推。 2. 单 GPU 推理时，Diffusers 默认使用 BitsAndBytes 配置以节省显存，可能会影响生成质量；若要复现项目页的高质量演示，建议使用多 GPU 推理分支。 3. 多 GPU 环境下需通过 export CUDA_VISIBLE_DEVICES 指定特定显卡进行单卡测试。 4. 核心修改仅涉及 RoPE 频率调整的一行代码，可通过插件方式应用。

python3.10

torch

diffusers

bitsandbytes

transformers

accelerate

快速开始

用于长视频生成的扩散-Transformer 外推法

本仓库提供了 RIFLEx (ICML 2025)、UltraViCo (ICLR 2026) 和 UltraImage 的官方实现，这些方法以即插即用的方式实现了长视频生成和高分辨率图像生成中的扩散-Transformer 外推。

本仓库在不同分支上分别托管了 RIFLEx 和 UltraViCo，代码完全开源。

RIFLEx:
- main: HunyuanVideo-diffusers 和 CogVideoX-diffusers
- multi-gpu: HunyuanVideo 的多 GPU 推理
UltraViCo:
- ultra-wan: 针对 Wan2.1 的 UltraViCo
- ultra-hunyuan: 针对 HunyuanVideo 的 UltraViCo
UltraImage:
- ultra-flux: 针对 Flux 的 UltraImage
- ultra-qwenimage: 针对 Qwen-Image 的 UltraImage

RIFLEx：视频扩散 Transformer 中长度外推的免费午餐

清华大学

🎉 支持的模型

在此，我们列出了 RIFLEx 已经应用到的 SOTA 视频扩散 Transformer。我们正在持续努力支持更多模型。欢迎您提出希望我们支持的其他模型建议！

模型	外推	示例结果
HunyuanVideo	5s -> 11s
CogVideoX-5B	6s -> 12s

待续……

🔥🔥 最新消息

2026.1.26 ：UltraViCo 被 ICLR 2026 接收！
2025.5.1 ：RIFLEx 被 ICML 2025 接收！
2025.3.17 ：RIFLEx 已集成到官方 HunyuanVideo-I2V 仓库！
2025.3.1 ：针对 CogVideoX-5B 以及微调后的 CogVideoX-RIFLEx 的代码已发布。
2025.2.26 RIFLEx 已在 HunyuanVideoGP 中得到支持，在 RTX 4090 上可生成 10.5 秒、1280×720 分辨率的视频。
2025.2.26 RIFLEx 已在 ComfyUI-HunyuanVideoWrapper 中得到支持，由 KiJai 开发。
2025.2.25 ：论文、项目页面、代码以及微调后的 HunyuanVideo-RIFLEx 已发布。

RIFLEx 代码

RIFLEx 只在原始的 1D RoPE 上添加了一行代码。

def get_1d_rotary_pos_embed_riflex(
    dim: int,
    pos: Union[np.ndarray, int],
    theta: float = 10000.0,
    k: Optional[int] = None,
    L_test: Optional[int] = None,
):
    '''
        k：RoPE 中固有频率的索引
        L_test：推理时的帧数
    '''
    
    assert dim % 2 == 0
    if isinstance(pos, int):
        pos = torch.arange(pos)
    if isinstance(pos, np.ndarray):
        pos = torch.from_numpy(pos)
    freqs = 1.0 / (theta ** (torch.arange(0, dim, 2, device=pos.device)[: (dim // 2)].float() / dim)) 

    // === RIFLEx 修改开始 ===
    // 减少固有频率，以确保外推后仍处于一个周期内（公式(8)）。
    // 经验表明，部分视频在尾部帧中可能会出现重复现象。
    // 为保守起见，我们乘以 0.9，使外推长度不超过一个周期的 90%。
    freqs[k-1] = 0.9 * 2 * torch.pi / L_test
    // === RIFLEx 修改结束 ===

    freqs = torch.outer(pos, freqs)  
    freqs_cos = freqs.cos().repeat_interleave(2, dim=1).float()  
    freqs_sin = freqs.sin().repeat_interleave(2, dim=1).float()  
    return freqs_cos, freqs_sin

在 riflex_utils.py 中，我们展示了如何识别基于 RoPE 的预训练扩散 Transformer 中的固有频率。

使用 Diffusers 进行单 GPU 推理以快速入门

安装

conda create -n riflex python=3.10
pip install -r requirements.txt
pip install -U bitsandbytes

提示词

所有模型的示例提示词都列在 assets/prompts 中。项目页面上的提示词可在 assets/prompts/free_hunyuan.txt 和 assets/prompts/finetune_hunyuan.txt 中找到。

请注意，对于 HunyuanVideo 的单 GPU 推理，Diffusers 使用 DiffusersBitsAndBytesConfig 来节省内存，这可能会影响性能。若要生成项目页面上的演示，请参阅“多 GPU 推理”（#multi-gpu-inference--recommended-）部分。

HunyuanVideo 推理

2倍时间外推（点击展开）

对于无训练版本：

python hunyuanvideo.py --k 4 --N_k 50 --num_frames 261 --prompt "一只白色与橙色相间的虎斑猫快乐地穿梭于茂密的花园中，仿佛在追逐什么。它的眼睛睁得大大的，充满喜悦，一边小跑着向前，一边仔细打量着树枝、花朵和树叶。小路十分狭窄，猫在植物间穿行而过。画面从地面视角拍摄，紧随猫咪移动，呈现出低角度的亲密感。整幅图像具有电影般的质感，色调温暖，略带颗粒感。上方树叶与植物间洒下的零星阳光形成温暖的对比，更加凸显了猫咪橙色的毛发。镜头清晰锐利，景深较浅。"

对于微调后的 HunyuanVideo-RIFLEx 版本：

python hunyuanvideo.py --k 4 --N_k 66 --num_frames 261 --finetune --model_id "thu-ml/Hunyuan-RIFLEx-diffusers" --prompt "一段3D动画，描绘了一只小巧圆润、毛茸茸的小生物，长着大而富有表现力的眼睛，在一片生机勃勃、充满魔力的森林中探索。这只小生物介于兔子和松鼠之间，拥有柔软的蓝色毛皮和蓬松的条纹尾巴。它蹦跳着沿着一条闪闪发光的小溪前行，眼中满是惊奇之色。整片森林充满了神奇的元素：会发光并变换颜色的花朵、叶子呈紫色和银色的树木，以及宛如萤火虫般漂浮的小光点。小生物停下脚步，与一群围绕蘑菇圈翩翩起舞的小精灵们愉快地互动。随后，它仰头凝视着一棵巨大的发光之树，那棵树似乎就是这片森林的心脏所在。"

注意：当前版本的 diffusers 只支持单 GPU 推理。如果环境中有多块 GPU，请通过设置环境变量 CUDA_VISIBLE_DEVICES 指定使用哪一块 GPU。

CogVideoX 推理

2倍时间外推（点击展开）

对于无训练版本：

python cogvideox.py --k 2 --N_k 20 --num_frames 97 --prompt "一段3D动画，描绘了一只小巧圆润、毛茸茸的小生物，长着大而富有表现力的眼睛，在一片生机勃勃、充满魔力的森林中探索。这只小生物介于兔子和松鼠之间，拥有柔软的蓝色毛皮和蓬松的条纹尾巴。它蹦跳着沿着一条闪闪发光的小溪前行，眼中满是惊奇之色。整片森林充满了神奇的元素：会发光并变换颜色的花朵、叶子呈紫色和银色的树木，以及宛如萤火虫般漂浮的小光点。小生物停下脚步，与一群围绕蘑菇圈翩翩起舞的小精灵们愉快地互动。随后，它仰头凝视着一棵巨大的发光之树，那棵树似乎就是这片森林的心脏所在。"

对于微调后的 CogVideoX-RIFLEx 版本：

python cogvideox.py --k 2 --N_k 25 --num_frames 97 --finetune --model_id "thu-ml/CogVideoX-RIFLEx-diffusers" --prompt "一架无人机环绕着一座建在阿马尔菲海岸岩石峭壁上的美丽古老教堂飞行。镜头展示了这座教堂历史悠久而宏伟的建筑细节，以及层层叠叠的台阶与露台。下方的海浪拍打着岩石，视野俯瞰着意大利阿马尔菲海岸的海面与丘陵地貌。远处有几位游客正在露台上漫步，欣赏壮丽的海景。午后温暖的阳光为整个场景增添了一种梦幻而浪漫的氛围。这是一组令人惊叹的精美摄影作品。"

多 GPU 推理（推荐）

为了 提升推理速度 并 复现我们项目页面 中的演示效果，请使用多 GPU 推理。详细信息请参阅 multi-gpu 分支。

参考文献

如果您觉得这些代码有用，请引用以下文献：

@article{zhao2025riflex,
  title={Riflex: 视频扩散模型中长度外推的免费午餐},
  author={Zhao, Min 和 He, Guande 和 Chen, Yixiao 和 Zhu, Hongzhou 和 Li, Chongxuan 和 Zhu, Jun},
  journal={arXiv 预印本 arXiv:2502.15894},
  year={2025}
}

@article{zhao2025ultravico,
  title={UltraViCo: 打破视频扩散模型中的外推极限},
  author={Zhao, Min 和 Zhu, Hongzhou 和 Wang, Yingze 和 Yan, Bokai 和 Zhang, Jintao 和 He, Guande 和 Yang, Ling 和 Li, Chongxuan 和 Zhu, Jun},
  journal={arXiv 预印本 arXiv:2511.20123},
  year={2025}
}
@article{zhao2025ultraimage,
  title={UltraImage: 重新思考图像扩散模型中的分辨率外推},
  author={Zhao, Min 和 Yan, Bokai 和 Yang, Xue 和 Zhu, Hongzhou 和 Zhang, Jintao 和 Liu, Shilong 和 Li, Chongxuan 和 Zhu, Jun},
  journal={arXiv 预印本 arXiv:2512.04504},
  year={2025}
}

DiT-Extrapolation 快速上手指南

DiT-Extrapolation 是清华大学开源的视频扩散模型长度外推工具，包含 RIFLEx（视频时长扩展）、UltraViCo 和 UltraImage（高分辨率图像生成）等项目。本指南以核心的 RIFLEx 为例，帮助开发者快速在单卡环境下实现视频时长翻倍生成（如 5s -> 11s）。

环境准备

操作系统: Linux (推荐 Ubuntu 20.04+)
Python 版本: 3.10
硬件要求:
- 单张 NVIDIA GPU (显存建议 24GB 以上，如 RTX 3090/4090)
- 若需复现官方演示效果或生成更高分辨率视频，推荐使用多卡环境（详见官方 multi-gpu 分支）
前置依赖: CUDA Toolkit, conda (推荐)

安装步骤

创建并激活虚拟环境

conda create -n riflex python=3.10
conda activate riflex

克隆代码仓库

git clone https://github.com/thu-ml/DiT-Extrapolation.git
cd DiT-Extrapolation

安装依赖包 建议使用国内镜像源加速安装（如清华源）：

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install -U bitsandbytes -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

以下示例展示如何使用 HunyuanVideo 模型进行免训练（Training-free）的时长外推推理。

1. 准备提示词

示例提示词已包含在 assets/prompts 目录中。你可以直接使用命令行传入英文提示词。

2. 运行推理脚本

执行以下命令生成视频。该命令将视频帧数扩展至 261 帧（约 11 秒），实现了从原始时长的 2 倍外推。

python hunyuanvideo.py --k 4 --N_k 50 --num_frames 261 --prompt "A white and orange tabby cat is seen happily darting through a dense garden, as if chasing something. Its eyes are wide and happy as it jogs forward, scanning the branches, flowers, and leaves as it walks. The path is narrow as it makes its way between all the plants. the scene is captured from a ground-level angle, following the cat closely, giving a low and intimate perspective. The image is cinematic with warm tones and a grainy texture. The scattered daylight between the leaves and plants above creates a warm contrast, accentuating the cat's orange fur. The shot is clear and sharp, with a shallow depth of field."

参数说明：

--k: RoPE 中的固有频率索引（HunyuanVideo 通常设为 4）。
--N_k: 相关超参数（免训练模式设为 50）。
--num_frames: 目标生成帧数（261 帧对应约 11 秒）。
--prompt: 视频生成的文字描述。

注意：单卡推理模式下，Diffusers 会自动启用 DiffusersBitsAndBytesConfig 以节省显存，这可能会轻微影响生成质量。若需最佳效果或多卡并行，请参考仓库中的 multi-gpu 分支文档。

其他模型支持

CogVideoX-5B: 使用 cogvideox.py 脚本，参数 --k 通常设为 2。
微调模型: 若使用官方提供的微调权重（如 thu-ml/Hunyuan-RIFLEx-diffusers），请在命令中添加 --finetune 和 --model_id 参数。

常见问题

使用 VBench 评估视频时，为什么我的 `overall_consistency` 和 `dynamic_degree` 分数与论文报告的值差距很大？

RIFLEx 方法是否支持 VideoCrafter2 或 Turbo 等基于 UNet 的视频生成模型？

项目是否会集成到 Diffusers 库中以简化安装和使用？

何时会发布对 Wan 2.1 (1.3B/14B) 模型的支持代码？

在哪里可以找到该项目的正式论文？

在复现论文结果时，如果成像质量 (Imaging Quality) 达标但一致性 (Consistency) 分数偏低，应如何排查？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架