[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-thu-ml--DiT-Extrapolation":3,"tool-thu-ml--DiT-Extrapolation":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":79,"owner_twitter":79,"owner_website":80,"owner_url":81,"languages":82,"stars":87,"forks":88,"last_commit_at":89,"license":90,"difficulty_score":10,"env_os":91,"env_gpu":92,"env_ram":91,"env_deps":93,"category_tags":102,"github_topics":103,"view_count":23,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":116,"updated_at":117,"faqs":118,"releases":148},2932,"thu-ml\u002FDiT-Extrapolation","DiT-Extrapolation","Official implementation for \"RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers\" (ICML 2025) , UltraViCo (ICLR 2026) and UltraImage","DiT-Extrapolation 是一个专为视频扩散 Transformer 设计的开源项目，旨在解决生成模型在长视频和高分辨率图像创作中面临的“长度外推”难题。传统模型通常受限于训练时的固定时长或分辨率，难以直接生成更长的连贯视频或更清晰的图像，而该项目提供的 RIFLEx、UltraViCo 和 UltraImage 等技术，能够以“即插即用”的方式突破这些限制，无需重新训练即可将视频生成时长显著延长（例如从 5 秒扩展至 11 秒），并支持超高分辨率图像生成。\n\n该项目主要面向 AI 研究人员、开发者以及对长视频生成有需求的技术团队。其核心亮点在于提出了高效的长度外推方案，被称为视频生成领域的“免费午餐”，目前已成功适配 HunyuanVideo、CogVideoX、Wan2.1 及 Flux 等主流前沿模型。代码库完全开源，不仅提供了单卡推理版本，还针对多 GPU 环境进行了优化，方便用户快速集成到现有工作流中。无论是希望探索长视频生成边界的科研人员，还是寻求提升生成质量的工程开发者，都能从中获得灵活且强大的技术支持。","## Diffusion-Transformer Extrapolation for Long Video Generation\nThis repository provides the official implementation of [RIFLEx](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.15894) **(ICML 2025)**, [UltraViCo](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.20123) **(ICLR 2026)** and [UltraImage](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.04504) , which achieve diffusion-transformer extrapolation for long video generation and high resolution image generation in a plug-and-play way.\n\n\u003Cdiv align=\"center\">\n\u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthu-ml_DiT-Extrapolation_readme_ae70cdc6a4d8.png'>\u003C\u002Fimg>\n\n\u003Ca href='https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.15894'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2502.15894-b31b1b.svg'>\u003C\u002Fa>\n\u003Ca href='https:\u002F\u002Farxiv.org\u002Fpdf\u002F2511.20123'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2511.20123-b31b1b.svg'>\u003C\u002Fa> \n\u003C\u002Fdiv>\n\nThis repository hosts RIFLEx and UltraViCo on separate branches, and the code is fully open source.\n\n- RIFLEx: \n    - [main](https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FDiT-Extrapolation): HunyuanVideo-diffusers and CogVideoX-diffusers\n    - [multi-gpu](https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FDiT-Extrapolation\u002Ftree\u002Fmulti-gpu): multi-GPU inference for HunyuanVideo\n\n- UltraViCo:\n    - [ultra-wan](https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FDiT-Extrapolation\u002Ftree\u002Fultra-wan): UltraViCo for **Wan2.1**\n    - [ultra-hunyuan](https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FDiT-Extrapolation\u002Ftree\u002Fultra-hunyuan):UltraViCo for **HunyuanVideo**\n\n- UltraImage:\n    - [ultra-flux](https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FDiT-Extrapolation\u002Ftree\u002Fultra-flux): UltraImage for Flux\n    - [ultra-qwenimage](https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FDiT-Extrapolation\u002Ftree\u002Fultra-qwenimage): UltraImage for Qwen-Image\n\n---\n\u003Cdiv align=\"center\">\n\n## RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers\n\u003Ca href='https:\u002F\u002Friflex-video.github.io\u002F'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-Page-Green'>\u003C\u002Fa> &nbsp; \n\u003Ca href='https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.15894'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2502.15894-b31b1b.svg'>\u003C\u002Fa> &nbsp;\n\u003Ca href='https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=taofoXDsKGk'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FYoutube-Video-b31b1b.svg'>\u003C\u002Fa>\u003Cbr>\n\u003Cdiv>\n    \u003Ca href=\"https:\u002F\u002Fgracezhao1997.github.io\u002F\" target=\"_blank\">Min Zhao\u003C\u002Fa>\u003Csup>\u003C\u002Fsup> | \n    \u003Ca href=\"https:\u002F\u002Fguandehe.github.io\u002F\" target=\"_blank\">Guande He\u003C\u002Fa>\u003Csup>\u003C\u002Fsup> | \n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FChyxx\" target=\"_blank\">Yixiao Chen\u003C\u002Fa>\u003Csup>\u003C\u002Fsup> | \n    \u003Ca href=\"https:\u002F\u002Fzhuhz22.github.io\u002F\" target=\"_blank\">Hongzhou Zhu\u003C\u002Fa>\u003Csup>\u003C\u002Fsup>|\n\u003Ca href=\"https:\u002F\u002Fzhenxuan00.github.io\u002F\" target=\"_blank\">Chongxuan Li\u003C\u002Fa>\u003Csup>\u003C\u002Fsup> | \n    \u003Ca href=\"https:\u002F\u002Fml.cs.tsinghua.edu.cn\u002F~jun\u002Findex.shtml\" target=\"_blank\">Jun Zhu\u003C\u002Fa>\u003Csup>\u003C\u002Fsup>\n\u003C\u002Fdiv>\n\u003Cdiv>\n    \u003Csup>\u003C\u002Fsup>Tsinghua University\n\u003C\u002Fdiv>\n\n\n\u003C\u002Fdiv>\n\n\n---\n\n## 🎉 Supported Models\nHere, we list the SOTA video diffusion transformers that RIFLEx has been applied to. We are continuously working to support more models. Feel free to suggest additional models you would like us to support!\n\n\n| Model                                                   | Extrapolation | Example Results                                              |  \n|---------------------------------------------------------|---------------|--------------------------------------------------------------|  \n| [HunyuanVideo](https:\u002F\u002Fgithub.com\u002FTencent\u002FHunyuanVideo) | 5s -> 11s     | \u003Cimg src=assets\u002Fexample\u002Fhun-free-RIFLEx.gif width=\"250\">     | \n| [CogVideoX-5B](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCogVideo)       | 6s -> 12s     | \u003Cimg src=assets\u002Fexample\u002Fcog-finetune-RIFLEx.gif width=\"250\"> |\n\nTo be continued…… \n\n## 🔥🔥 News\n- **2026.1.26** : UltraViCo is accepted by ICLR 2026!\n- **2025.5.1** : RIFLEx is accepted by ICML 2025!\n- **2025.3.17** : RIFLEx is integrated to the official [HunyuanVideo-I2V](https:\u002F\u002Fgithub.com\u002FTencent\u002FHunyuanVideo-I2V) repository!\n- **2025.3.1** : The code for [CogVideoX-5B](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCogVideo) and fine-tuned [CogVideoX-RIFLEx](https:\u002F\u002Fhuggingface.co\u002Fthu-ml\u002FCogVideoX-RIFLEx-diffusers\u002Ftree\u002Fmain) are released.\n- **2025.2.26** RIFLEx is supported in [HunyuanVideoGP](https:\u002F\u002Fgithub.com\u002Fdeepbeepmeep\u002FHunyuanVideoGP), where a 10.5 s video at 1280x720 can be generated on an RTX 4090.\n- **2025.2.26** RIFLEx is supported in [ComfyUI-HunyuanVideoWrapper](https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-HunyuanVideoWrapper) by [KiJai](https:\u002F\u002Fgithub.com\u002Fkijai).\n- **2025.2.25** : The [paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.15894), [project page](https:\u002F\u002Friflex-video.github.io\u002F), code and fine-tuned [HunyuanVideo-RIFLEx](https:\u002F\u002Fhuggingface.co\u002Fthu-ml\u002FHunyuan-RIFLEx-diffusers) are released.\n\n\n## RIFLEx Code\nRIFLEx only adds a single line of code on the original [1D RoPE](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdiffusers\u002Fblob\u002F9c7e205176c30b27c5f44ec7650a8dfcc12dde86\u002Fsrc\u002Fdiffusers\u002Fmodels\u002Fembeddings.py#L1105).\n```python\ndef get_1d_rotary_pos_embed_riflex(\n    dim: int,\n    pos: Union[np.ndarray, int],\n    theta: float = 10000.0,\n    k: Optional[int] = None,\n    L_test: Optional[int] = None,\n):\n    '''\n        k: the index for the intrinsic frequency in RoPE\n        L_test: the number of frames for inference\n    '''\n    \n    assert dim % 2 == 0\n    if isinstance(pos, int):\n        pos = torch.arange(pos)\n    if isinstance(pos, np.ndarray):\n        pos = torch.from_numpy(pos)\n    freqs = 1.0 \u002F (theta ** (torch.arange(0, dim, 2, device=pos.device)[: (dim \u002F\u002F 2)].float() \u002F dim)) \n\n    # === RIFLEx modification start ===\n    # Reduce intrinsic frequency to stay within a single period after extrapolation (Eq.(8)).\n    # Empirical observations show that a few videos may exhibit repetition in the tail frames.\n    # To be conservative, we multiply 0.9 to keep extrapolated length below 90% of a period. \n    freqs[k-1] = 0.9 * 2 * torch.pi \u002F L_test\n    # === RIFLEx modification end ===\n\n    freqs = torch.outer(pos, freqs)  \n    freqs_cos = freqs.cos().repeat_interleave(2, dim=1).float()  \n    freqs_sin = freqs.sin().repeat_interleave(2, dim=1).float()  \n    return freqs_cos, freqs_sin\n```\nIn `riflex_utils.py`, we show how to identify the intrinsic frequency in a RoPE-based pre-trained diffusion transformer.\n\n## Single GPU Inference with Diffusers for Quick Start\n### Installation\n```bash\nconda create -n riflex python=3.10\npip install -r requirements.txt\npip install -U bitsandbytes\n```\n\n### Prompts\nThe example prompts for all models are listed in `assets\u002Fprompts`. The prompts on the project page can be found in `assets\u002Fprompts\u002Ffree_hunyuan.txt` and `assets\u002Fprompts\u002Ffinetune_hunyuan.txt`. \n\nPlease note that for single GPU inference with HunyuanVideo, Diffusers use `DiffusersBitsAndBytesConfig` to save memory, which may affect performance. To produce the demo on the [project page](https:\u002F\u002Friflex-video.github.io\u002F), please refer to the [Multi-GPU Inference](#multi-gpu-inference--recommended-) section.\n\n### Inference for HunyuanVideo\n\n\u003Cdetails>\n\u003Csummary> 2× temporal extrapolation (click to expand)\u003C\u002Fsummary>\n\nFor training-free: \n```bash\npython hunyuanvideo.py --k 4 --N_k 50 --num_frames 261 --prompt \"A white and orange tabby cat is seen happily darting through a dense garden, as if chasing something. Its eyes are wide and happy as it jogs forward, scanning the branches, flowers, and leaves as it walks. The path is narrow as it makes its way between all the plants. the scene is captured from a ground-level angle, following the cat closely, giving a low and intimate perspective. The image is cinematic with warm tones and a grainy texture. The scattered daylight between the leaves and plants above creates a warm contrast, accentuating the cat’s orange fur. The shot is clear and sharp, with a shallow depth of field.\"\n```\n\nFor fine-tuned [HunyuanVideo-RIFLEx](https:\u002F\u002Fhuggingface.co\u002Fthu-ml\u002FHunyuan-RIFLEx-diffusers): \n\n```bash\npython hunyuanvideo.py --k 4 --N_k 66 --num_frames 261 --finetune --model_id \"thu-ml\u002FHunyuan-RIFLEx-diffusers\" --prompt \"3D animation of a small, round, fluffy creature with big, expressive eyes explores a vibrant, enchanted forest. The creature, a whimsical blend of a rabbit and a squirrel, has soft blue fur and a bushy, striped tail. It hops along a sparkling stream, its eyes wide with wonder. The forest is alive with magical elements: flowers that glow and change colors, trees with leaves in shades of purple and silver, and small floating lights that resemble fireflies. The creature stops to interact playfully with a group of tiny, fairy-like beings dancing around a mushroom ring. The creature looks up in awe at a large, glowing tree that seems to be the heart of the forest.\"\n```\n> Note that the current version of diffusers only supports single-GPU inference. If there are multiple GPUs in the environment, please specify one by exporting CUDA_VISIBLE_DEVICES.\n\u003C\u002Fdetails>\n\n### Inference for CogVideoX\n\n\u003Cdetails>\n\n\u003Csummary> 2× temporal extrapolation (click to expand)\u003C\u002Fsummary>\n\nFor training-free: \n```bash\npython cogvideox.py --k 2 --N_k 20 --num_frames 97 --prompt \"3D animation of a small, round, fluffy creature with big, expressive eyes explores a vibrant, enchanted forest. The creature, a whimsical blend of a rabbit and a squirrel, has soft blue fur and a bushy, striped tail. It hops along a sparkling stream, its eyes wide with wonder. The forest is alive with magical elements: flowers that glow and change colors, trees with leaves in shades of purple and silver, and small floating lights that resemble fireflies. The creature stops to interact playfully with a group of tiny, fairy-like beings dancing around a mushroom ring. The creature looks up in awe at a large, glowing tree that seems to be the heart of the forest.\"\n```\n\nFor fine-tuned [CogVideoX-RIFLEx](https:\u002F\u002Fhuggingface.co\u002Fthu-ml\u002FCogVideoX-RIFLEx-diffusers\u002Ftree\u002Fmain): \n```bash\npython cogvideox.py --k 2 --N_k 25 --num_frames 97 --finetune --model_id \"thu-ml\u002FCogVideoX-RIFLEx-diffusers\" --prompt \"A drone camera circles around a beautiful historic church built on a rocky outcropping along the Amalfi Coast, the view showcases historic and magnificent architectural details and tiered pathways and patios, waves are seen crashing against the rocks below as the view overlooks the horizon of the coastal waters and hilly landscapes of the Amalfi Coast Italy, several distant people are seen walking and enjoying vistas on patios of the dramatic ocean views, the warm glow of the afternoon sun creates a magical and romantic feeling to the scene, the view is stunning captured with beautiful photography.\"\n```\n\u003C\u002Fdetails>\n\n## Multi-GPU Inference ( *Recommended* )\nTo **enhance inference speed** and **reproduce the demos** in our [project page](https:\u002F\u002Friflex-video.github.io\u002F), please use the multi-gpu inference. Details can be found in the [`multi-gpu` branch](https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FRIFLEx\u002Ftree\u002Fmulti-gpu).\n\n## References\nIf you find the code useful, please cite\n```\n@article{zhao2025riflex,\n  title={Riflex: A free lunch for length extrapolation in video diffusion transformers},\n  author={Zhao, Min and He, Guande and Chen, Yixiao and Zhu, Hongzhou and Li, Chongxuan and Zhu, Jun},\n  journal={arXiv preprint arXiv:2502.15894},\n  year={2025}\n}\n\n@article{zhao2025ultravico,\n  title={UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers},\n  author={Zhao, Min and Zhu, Hongzhou and Wang, Yingze and Yan, Bokai and Zhang, Jintao and He, Guande and Yang, Ling and Li, Chongxuan and Zhu, Jun},\n  journal={arXiv preprint arXiv:2511.20123},\n  year={2025}\n}\n@article{zhao2025ultraimage,\n  title={UltraImage: Rethinking Resolution Extrapolation in Image Diffusion Transformers},\n  author={Zhao, Min and Yan, Bokai and Yang, Xue and Zhu, Hongzhou and Zhang, Jintao and Liu, Shilong and Li, Chongxuan and Zhu, Jun},\n  journal={arXiv preprint arXiv:2512.04504},\n  year={2025}\n}\n```\n","## 用于长视频生成的扩散-Transformer 外推法\n本仓库提供了 [RIFLEx](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.15894) **(ICML 2025)**、[UltraViCo](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.20123) **(ICLR 2026)** 和 [UltraImage](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.04504) 的官方实现，这些方法以即插即用的方式实现了长视频生成和高分辨率图像生成中的扩散-Transformer 外推。\n\n\u003Cdiv align=\"center\">\n\u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthu-ml_DiT-Extrapolation_readme_ae70cdc6a4d8.png'>\u003C\u002Fimg>\n\n\u003Ca href='https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.15894'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2502.15894-b31b1b.svg'>\u003C\u002Fa>\n\u003Ca href='https:\u002F\u002Farxiv.org\u002Fpdf\u002F2511.20123'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2511.20123-b31b1b.svg'>\u003C\u002Fa> \n\u003C\u002Fdiv>\n\n本仓库在不同分支上分别托管了 RIFLEx 和 UltraViCo，代码完全开源。\n\n- RIFLEx: \n    - [main](https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FDiT-Extrapolation): HunyuanVideo-diffusers 和 CogVideoX-diffusers\n    - [multi-gpu](https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FDiT-Extrapolation\u002Ftree\u002Fmulti-gpu): HunyuanVideo 的多 GPU 推理\n\n- UltraViCo:\n    - [ultra-wan](https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FDiT-Extrapolation\u002Ftree\u002Fultra-wan): 针对 **Wan2.1** 的 UltraViCo\n    - [ultra-hunyuan](https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FDiT-Extrapolation\u002Ftree\u002Fultra-hunyuan): 针对 **HunyuanVideo** 的 UltraViCo\n\n- UltraImage:\n    - [ultra-flux](https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FDiT-Extrapolation\u002Ftree\u002Fultra-flux): 针对 Flux 的 UltraImage\n    - [ultra-qwenimage](https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FDiT-Extrapolation\u002Ftree\u002Fultra-qwenimage): 针对 Qwen-Image 的 UltraImage\n\n---\n\u003Cdiv align=\"center\">\n\n## RIFLEx：视频扩散 Transformer 中长度外推的免费午餐\n\u003Ca href='https:\u002F\u002Friflex-video.github.io\u002F'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-Page-Green'>\u003C\u002Fa> &nbsp; \n\u003Ca href='https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.15894'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2502.15894-b31b1b.svg'>\u003C\u002Fa> &nbsp;\n\u003Ca href='https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=taofoXDsKGk'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FYoutube-Video-b31b1b.svg'>\u003C\u002Fa>\u003Cbr>\n\u003Cdiv>\n    \u003Ca href=\"https:\u002F\u002Fgracezhao1997.github.io\u002F\" target=\"_blank\">Min Zhao\u003C\u002Fa>\u003Csup>\u003C\u002Fsup> | \n    \u003Ca href=\"https:\u002F\u002Fguandehe.github.io\u002F\" target=\"_blank\">Guande He\u003C\u002Fa>\u003Csup>\u003C\u002Fsup> | \n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FChyxx\" target=\"_blank\">Yixiao Chen\u003C\u002Fa>\u003Csup>\u003C\u002Fsup> | \n    \u003Ca href=\"https:\u002F\u002Fzhuhz22.github.io\u002F\" target=\"_blank\">Hongzhou Zhu\u003C\u002Fa>\u003Csup>\u003C\u002Fsup>|\n\u003Ca href=\"https:\u002F\u002Fzhenxuan00.github.io\u002F\" target=\"_blank\">Chongxuan Li\u003C\u002Fa>\u003Csup>\u003C\u002Fsup> | \n    \u003Ca href=\"https:\u002F\u002Fml.cs.tsinghua.edu.cn\u002F~jun\u002Findex.shtml\" target=\"_blank\">Jun Zhu\u003C\u002Fa>\u003Csup>\u003C\u002Fsup>\n\u003C\u002Fdiv>\n\u003Cdiv>\n    \u003Csup>\u003C\u002Fsup>清华大学\n\u003C\u002Fdiv>\n\n\n\u003C\u002Fdiv>\n\n\n---\n\n## 🎉 支持的模型\n在此，我们列出了 RIFLEx 已经应用到的 SOTA 视频扩散 Transformer。我们正在持续努力支持更多模型。欢迎您提出希望我们支持的其他模型建议！\n\n\n| 模型                                                   | 外推 | 示例结果                                              |  \n|---------------------------------------------------------|---------------|--------------------------------------------------------------|  \n| [HunyuanVideo](https:\u002F\u002Fgithub.com\u002FTencent\u002FHunyuanVideo) | 5s -> 11s     | \u003Cimg src=assets\u002Fexample\u002Fhun-free-RIFLEx.gif width=\"250\">     | \n| [CogVideoX-5B](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCogVideo)       | 6s -> 12s     | \u003Cimg src=assets\u002Fexample\u002Fcog-finetune-RIFLEx.gif width=\"250\"> |\n\n待续…… \n\n## 🔥🔥 最新消息\n- **2026.1.26** ：UltraViCo 被 ICLR 2026 接收！\n- **2025.5.1** ：RIFLEx 被 ICML 2025 接收！\n- **2025.3.17** ：RIFLEx 已集成到官方 [HunyuanVideo-I2V](https:\u002F\u002Fgithub.com\u002FTencent\u002FHunyuanVideo-I2V) 仓库！\n- **2025.3.1** ：针对 [CogVideoX-5B](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCogVideo) 以及微调后的 [CogVideoX-RIFLEx](https:\u002F\u002Fhuggingface.co\u002Fthu-ml\u002FCogVideoX-RIFLEx-diffusers\u002Ftree\u002Fmain) 的代码已发布。\n- **2025.2.26** RIFLEx 已在 [HunyuanVideoGP](https:\u002F\u002Fgithub.com\u002Fdeepbeepmeep\u002FHunyuanVideoGP) 中得到支持，在 RTX 4090 上可生成 10.5 秒、1280×720 分辨率的视频。\n- **2025.2.26** RIFLEx 已在 [ComfyUI-HunyuanVideoWrapper](https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-HunyuanVideoWrapper) 中得到支持，由 [KiJai](https:\u002F\u002Fgithub.com\u002Fkijai) 开发。\n- **2025.2.25** ：[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.15894)、[项目页面](https:\u002F\u002Friflex-video.github.io\u002F)、代码以及微调后的 [HunyuanVideo-RIFLEx](https:\u002F\u002Fhuggingface.co\u002Fthu-ml\u002FHunyuan-RIFLEx-diffusers) 已发布。\n\n\n## RIFLEx 代码\nRIFLEx 只在原始的 [1D RoPE](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdiffusers\u002Fblob\u002F9c7e205176c30b27c5f44ec7650a8dfcc12dde86\u002Fsrc\u002Fdiffusers\u002Fmodels\u002Fembeddings.py#L1105) 上添加了一行代码。\n```python\ndef get_1d_rotary_pos_embed_riflex(\n    dim: int,\n    pos: Union[np.ndarray, int],\n    theta: float = 10000.0,\n    k: Optional[int] = None,\n    L_test: Optional[int] = None,\n):\n    '''\n        k：RoPE 中固有频率的索引\n        L_test：推理时的帧数\n    '''\n    \n    assert dim % 2 == 0\n    if isinstance(pos, int):\n        pos = torch.arange(pos)\n    if isinstance(pos, np.ndarray):\n        pos = torch.from_numpy(pos)\n    freqs = 1.0 \u002F (theta ** (torch.arange(0, dim, 2, device=pos.device)[: (dim \u002F\u002F 2)].float() \u002F dim)) \n\n    \u002F\u002F === RIFLEx 修改开始 ===\n    \u002F\u002F 减少固有频率，以确保外推后仍处于一个周期内（公式(8)）。\n    \u002F\u002F 经验表明，部分视频在尾部帧中可能会出现重复现象。\n    \u002F\u002F 为保守起见，我们乘以 0.9，使外推长度不超过一个周期的 90%。\n    freqs[k-1] = 0.9 * 2 * torch.pi \u002F L_test\n    \u002F\u002F === RIFLEx 修改结束 ===\n\n    freqs = torch.outer(pos, freqs)  \n    freqs_cos = freqs.cos().repeat_interleave(2, dim=1).float()  \n    freqs_sin = freqs.sin().repeat_interleave(2, dim=1).float()  \n    return freqs_cos, freqs_sin\n```\n在 `riflex_utils.py` 中，我们展示了如何识别基于 RoPE 的预训练扩散 Transformer 中的固有频率。\n\n## 使用 Diffusers 进行单 GPU 推理以快速入门\n### 安装\n```bash\nconda create -n riflex python=3.10\npip install -r requirements.txt\npip install -U bitsandbytes\n```\n\n### 提示词\n所有模型的示例提示词都列在 `assets\u002Fprompts` 中。项目页面上的提示词可在 `assets\u002Fprompts\u002Ffree_hunyuan.txt` 和 `assets\u002Fprompts\u002Ffinetune_hunyuan.txt` 中找到。\n\n请注意，对于 HunyuanVideo 的单 GPU 推理，Diffusers 使用 `DiffusersBitsAndBytesConfig` 来节省内存，这可能会影响性能。若要生成 [项目页面](https:\u002F\u002Friflex-video.github.io\u002F) 上的演示，请参阅“多 GPU 推理”（#multi-gpu-inference--recommended-）部分。\n\n### HunyuanVideo 推理\n\n\u003Cdetails>\n\u003Csummary> 2倍时间外推（点击展开）\u003C\u002Fsummary>\n\n对于无训练版本：\n```bash\npython hunyuanvideo.py --k 4 --N_k 50 --num_frames 261 --prompt \"一只白色与橙色相间的虎斑猫快乐地穿梭于茂密的花园中，仿佛在追逐什么。它的眼睛睁得大大的，充满喜悦，一边小跑着向前，一边仔细打量着树枝、花朵和树叶。小路十分狭窄，猫在植物间穿行而过。画面从地面视角拍摄，紧随猫咪移动，呈现出低角度的亲密感。整幅图像具有电影般的质感，色调温暖，略带颗粒感。上方树叶与植物间洒下的零星阳光形成温暖的对比，更加凸显了猫咪橙色的毛发。镜头清晰锐利，景深较浅。\"\n```\n\n对于微调后的 [HunyuanVideo-RIFLEx](https:\u002F\u002Fhuggingface.co\u002Fthu-ml\u002FHunyuan-RIFLEx-diffusers) 版本：\n```bash\npython hunyuanvideo.py --k 4 --N_k 66 --num_frames 261 --finetune --model_id \"thu-ml\u002FHunyuan-RIFLEx-diffusers\" --prompt \"一段3D动画，描绘了一只小巧圆润、毛茸茸的小生物，长着大而富有表现力的眼睛，在一片生机勃勃、充满魔力的森林中探索。这只小生物介于兔子和松鼠之间，拥有柔软的蓝色毛皮和蓬松的条纹尾巴。它蹦跳着沿着一条闪闪发光的小溪前行，眼中满是惊奇之色。整片森林充满了神奇的元素：会发光并变换颜色的花朵、叶子呈紫色和银色的树木，以及宛如萤火虫般漂浮的小光点。小生物停下脚步，与一群围绕蘑菇圈翩翩起舞的小精灵们愉快地互动。随后，它仰头凝视着一棵巨大的发光之树，那棵树似乎就是这片森林的心脏所在。\"\n```\n> 注意：当前版本的 diffusers 只支持单 GPU 推理。如果环境中有多块 GPU，请通过设置环境变量 `CUDA_VISIBLE_DEVICES` 指定使用哪一块 GPU。\n\u003C\u002Fdetails>\n\n### CogVideoX 推理\n\n\u003Cdetails>\n\n\u003Csummary> 2倍时间外推（点击展开）\u003C\u002Fsummary>\n\n对于无训练版本：\n```bash\npython cogvideox.py --k 2 --N_k 20 --num_frames 97 --prompt \"一段3D动画，描绘了一只小巧圆润、毛茸茸的小生物，长着大而富有表现力的眼睛，在一片生机勃勃、充满魔力的森林中探索。这只小生物介于兔子和松鼠之间，拥有柔软的蓝色毛皮和蓬松的条纹尾巴。它蹦跳着沿着一条闪闪发光的小溪前行，眼中满是惊奇之色。整片森林充满了神奇的元素：会发光并变换颜色的花朵、叶子呈紫色和银色的树木，以及宛如萤火虫般漂浮的小光点。小生物停下脚步，与一群围绕蘑菇圈翩翩起舞的小精灵们愉快地互动。随后，它仰头凝视着一棵巨大的发光之树，那棵树似乎就是这片森林的心脏所在。\"\n```\n\n对于微调后的 [CogVideoX-RIFLEx](https:\u002F\u002Fhuggingface.co\u002Fthu-ml\u002FCogVideoX-RIFLEx-diffusers\u002Ftree\u002Fmain) 版本：\n```bash\npython cogvideox.py --k 2 --N_k 25 --num_frames 97 --finetune --model_id \"thu-ml\u002FCogVideoX-RIFLEx-diffusers\" --prompt \"一架无人机环绕着一座建在阿马尔菲海岸岩石峭壁上的美丽古老教堂飞行。镜头展示了这座教堂历史悠久而宏伟的建筑细节，以及层层叠叠的台阶与露台。下方的海浪拍打着岩石，视野俯瞰着意大利阿马尔菲海岸的海面与丘陵地貌。远处有几位游客正在露台上漫步，欣赏壮丽的海景。午后温暖的阳光为整个场景增添了一种梦幻而浪漫的氛围。这是一组令人惊叹的精美摄影作品。\"\n```\n\u003C\u002Fdetails>\n\n## 多 GPU 推理（*推荐*）\n为了 **提升推理速度** 并 **复现我们项目页面** 中的演示效果，请使用多 GPU 推理。详细信息请参阅 [`multi-gpu` 分支](https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FRIFLEx\u002Ftree\u002Fmulti-gpu)。\n\n## 参考文献\n如果您觉得这些代码有用，请引用以下文献：\n```\n@article{zhao2025riflex,\n  title={Riflex: 视频扩散模型中长度外推的免费午餐},\n  author={Zhao, Min 和 He, Guande 和 Chen, Yixiao 和 Zhu, Hongzhou 和 Li, Chongxuan 和 Zhu, Jun},\n  journal={arXiv 预印本 arXiv:2502.15894},\n  year={2025}\n}\n\n@article{zhao2025ultravico,\n  title={UltraViCo: 打破视频扩散模型中的外推极限},\n  author={Zhao, Min 和 Zhu, Hongzhou 和 Wang, Yingze 和 Yan, Bokai 和 Zhang, Jintao 和 He, Guande 和 Yang, Ling 和 Li, Chongxuan 和 Zhu, Jun},\n  journal={arXiv 预印本 arXiv:2511.20123},\n  year={2025}\n}\n@article{zhao2025ultraimage,\n  title={UltraImage: 重新思考图像扩散模型中的分辨率外推},\n  author={Zhao, Min 和 Yan, Bokai 和 Yang, Xue 和 Zhu, Hongzhou 和 Zhang, Jintao 和 Liu, Shilong 和 Li, Chongxuan 和 Zhu, Jun},\n  journal={arXiv 预印本 arXiv:2512.04504},\n  year={2025}\n}\n```","# DiT-Extrapolation 快速上手指南\n\nDiT-Extrapolation 是清华大学开源的视频扩散模型长度外推工具，包含 **RIFLEx**（视频时长扩展）、**UltraViCo** 和 **UltraImage**（高分辨率图像生成）等项目。本指南以核心的 RIFLEx 为例，帮助开发者快速在单卡环境下实现视频时长翻倍生成（如 5s -> 11s）。\n\n## 环境准备\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04+)\n*   **Python 版本**: 3.10\n*   **硬件要求**: \n    *   单张 NVIDIA GPU (显存建议 24GB 以上，如 RTX 3090\u002F4090)\n    *   若需复现官方演示效果或生成更高分辨率视频，推荐使用多卡环境（详见官方 `multi-gpu` 分支）\n*   **前置依赖**: CUDA Toolkit, conda (推荐)\n\n## 安装步骤\n\n1.  **创建并激活虚拟环境**\n    ```bash\n    conda create -n riflex python=3.10\n    conda activate riflex\n    ```\n\n2.  **克隆代码仓库**\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FDiT-Extrapolation.git\n    cd DiT-Extrapolation\n    ```\n\n3.  **安装依赖包**\n    建议使用国内镜像源加速安装（如清华源）：\n    ```bash\n    pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n    pip install -U bitsandbytes -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n    ```\n\n## 基本使用\n\n以下示例展示如何使用 **HunyuanVideo** 模型进行免训练（Training-free）的时长外推推理。\n\n### 1. 准备提示词\n示例提示词已包含在 `assets\u002Fprompts` 目录中。你可以直接使用命令行传入英文提示词。\n\n### 2. 运行推理脚本\n执行以下命令生成视频。该命令将视频帧数扩展至 261 帧（约 11 秒），实现了从原始时长的 2 倍外推。\n\n```bash\npython hunyuanvideo.py --k 4 --N_k 50 --num_frames 261 --prompt \"A white and orange tabby cat is seen happily darting through a dense garden, as if chasing something. Its eyes are wide and happy as it jogs forward, scanning the branches, flowers, and leaves as it walks. The path is narrow as it makes its way between all the plants. the scene is captured from a ground-level angle, following the cat closely, giving a low and intimate perspective. The image is cinematic with warm tones and a grainy texture. The scattered daylight between the leaves and plants above creates a warm contrast, accentuating the cat's orange fur. The shot is clear and sharp, with a shallow depth of field.\"\n```\n\n**参数说明：**\n*   `--k`: RoPE 中的固有频率索引（HunyuanVideo 通常设为 4）。\n*   `--N_k`: 相关超参数（免训练模式设为 50）。\n*   `--num_frames`: 目标生成帧数（261 帧对应约 11 秒）。\n*   `--prompt`: 视频生成的文字描述。\n\n> **注意**：单卡推理模式下，Diffusers 会自动启用 `DiffusersBitsAndBytesConfig` 以节省显存，这可能会轻微影响生成质量。若需最佳效果或多卡并行，请参考仓库中的 `multi-gpu` 分支文档。\n\n### 其他模型支持\n*   **CogVideoX-5B**: 使用 `cogvideox.py` 脚本，参数 `--k` 通常设为 2。\n*   **微调模型**: 若使用官方提供的微调权重（如 `thu-ml\u002FHunyuan-RIFLEx-diffusers`），请在命令中添加 `--finetune` 和 `--model_id` 参数。","某独立游戏开发团队正利用开源视频模型为新作制作一段 10 秒以上的动态宣传预告片，需要生成连贯且高分辨率的长镜头画面。\n\n### 没有 DiT-Extrapolation 时\n- **时长受限严重**：原生模型（如 HunyuanVideo）通常仅支持生成 5-6 秒视频，强行延长会导致画面在后半段严重崩坏或重复循环。\n- **画质一致性差**：若尝试分段生成再拼接，不同片段间的光影、人物动作及背景细节会出现明显断裂，破坏叙事连贯性。\n- **算力成本高昂**：为了获得长视频，团队不得不进行昂贵的全量微调或依赖多卡并行暴力推理，显存占用极高且训练周期漫长。\n- **工作流繁琐**：开发人员需编写复杂的后处理脚本去修补时间轴上的伪影，极大拖慢了从创意到成片的迭代速度。\n\n### 使用 DiT-Extrapolation 后\n- **无缝长度外推**：借助 RIFLEx 技术，团队无需重新训练即可将原生 5 秒模型直接扩展至 11 秒甚至更长，且后半段画面依然清晰稳定。\n- **时空连贯性增强**：UltraViCo 模块确保了长序列中物体运动轨迹和纹理的自然过渡，彻底消除了分段生成带来的“跳帧”感。\n- **即插即用高效**：作为插件式方案，DiT-Extrapolation 可直接集成到现有的 Diffusers 工作流中，单卡即可推理，大幅降低了显存门槛。\n- **创作自由度提升**：开发者能一次性生成完整长镜头，不再受限于模型预设的短时长，让复杂运镜和长篇叙事成为可能。\n\nDiT-Extrapolation 以“免费午餐”般的零成本微调方式，突破了视频扩散模型在时长与分辨率上的物理瓶颈，让长视频生成变得像生成图片一样简单高效。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthu-ml_DiT-Extrapolation_55580326.png","thu-ml","TSAIL group","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fthu-ml_852ca511.jpg","Tsinghua Statistical Artificial Intelligence & Learning Group",null,"https:\u002F\u002Fml.cs.tsinghua.edu.cn","https:\u002F\u002Fgithub.com\u002Fthu-ml",[83],{"name":84,"color":85,"percentage":86},"Python","#3572A5",100,801,75,"2026-04-03T13:55:34","Apache-2.0","未说明","需要 NVIDIA GPU。单卡推理建议使用 RTX 4090（可生成 10.5s 1280x720 视频）；多卡推理推荐用于复现演示效果及提升速度。具体显存需求未明确，但使用了 bitsandbytes 进行量化以节省显存。",{"notes":94,"python":95,"dependencies":96},"1. 该工具支持 HunyuanVideo、CogVideoX、Wan2.1、Flux 和 Qwen-Image 等模型的视频时长或分辨率外推。\n2. 单 GPU 推理时，Diffusers 默认使用 BitsAndBytes 配置以节省显存，可能会影响生成质量；若要复现项目页的高质量演示，建议使用多 GPU 推理分支。\n3. 多 GPU 环境下需通过 export CUDA_VISIBLE_DEVICES 指定特定显卡进行单卡测试。\n4. 核心修改仅涉及 RoPE 频率调整的一行代码，可通过插件方式应用。","3.10",[97,98,99,100,101],"torch","diffusers","bitsandbytes","transformers","accelerate",[52,26,14,13],[104,105,106,107,108,109,110,111,112,113,114,115],"diffusion","dit","generative-model","rope","extrapolation","cogvideox","diffusion-transformer","hunyuan-video","video-generation","long-video-generation","position-embedding","diffusion-models","2026-03-27T02:49:30.150509","2026-04-06T05:17:27.419266",[119,124,129,134,139,144],{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},13545,"使用 VBench 评估视频时，为什么我的 `overall_consistency` 和 `dynamic_degree` 分数与论文报告的值差距很大？","这通常是因为提示词（prompt）映射配置错误导致的。请确保遵循 **1 个视频对应 1 个提示词 (1 video:1 prompt)** 的原则进行评估。\n\n常见错误是将单个视频与 100 个不同的提示词进行了配对评估。正确的做法是：采样 100 个提示词，为每个提示词生成一个对应的视频，然后在评估时，每个视频仅与其生成时使用的那个特定提示词进行映射。\n\n此外，`dynamic_degree` 的数值差异可能在随机性范围内（受提示词选择和视频生成的随机性影响），建议重点关注相对排序（例如：3x 外推结果应与 1x 训练长度结果相当，且显著优于其他 3x 基线），而非绝对数值。","https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FDiT-Extrapolation\u002Fissues\u002F29",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},13546,"RIFLEx 方法是否支持 VideoCrafter2 或 Turbo 等基于 UNet 的视频生成模型？","不支持，也没有必要应用。RIFLEx 是专门为基于 DiT (Diffusion Transformer) 架构的视频生成模型设计的，旨在解决这类模型在长度外推时出现的重复性问题。\n\nVideoCrafter 是基于 UNet 架构的模型，其本身并不存在同样的重复性问题，因此不需要也不适用 RIFLEx 方法。","https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FDiT-Extrapolation\u002Fissues\u002F17",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},13547,"项目是否会集成到 Diffusers 库中以简化安装和使用？","维护者已确认正在致力于将此项目集成到 Diffusers 库中。一旦完成，用户将无需进行额外的复杂安装步骤即可直接使用相关功能。请关注项目后续更新以获取集成版本。","https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FDiT-Extrapolation\u002Fissues\u002F2",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},13548,"何时会发布对 Wan 2.1 (1.3B\u002F14B) 模型的支持代码？","维护者表示目前正在进行代码重组工作，完成后将很快发布支持 Wan 2.1 系列模型的代码。请耐心等待官方仓库的更新通知。","https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FDiT-Extrapolation\u002Fissues\u002F4",{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},13549,"在哪里可以找到该项目的正式论文？","该项目的研究论文已发布在 arXiv 上，您可以通过以下链接访问和阅读：https:\u002F\u002Fwww.arxiv.org\u002Fabs\u002F2502.15894","https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FDiT-Extrapolation\u002Fissues\u002F1",{"id":145,"question_zh":146,"answer_zh":147,"source_url":123},13550,"在复现论文结果时，如果成像质量 (Imaging Quality) 达标但一致性 (Consistency) 分数偏低，应如何排查？","首先检查评估配置中的提示词映射逻辑。最常见的原因是错误地将一个视频映射到了多个无关的提示词（例如 1 视频对 100 提示词），导致一致性评分被拉低。请修正 `prompt.json` 或评估参数，确保严格实行“一视频一提示”的映射关系。\n\n如果映射无误，需注意动态度 (Dynamics) 等指标受随机种子影响较大，应主要对比不同方法间的相对表现（如：本方法 3x 外推 vs 基线 3x 外推），只要相对优势符合预期即可。",[]]