Lumina-T2X
Lumina-T2X 是一个强大的统一生成框架,旨在打破文本到不同媒体形式生成的壁垒。无论是生成高清图像、创作音乐,还是合成视频,用户只需输入一段文字描述,Lumina-T2X 便能将其转化为任意模态、分辨率及时长的内容。
长期以来,AI 生成领域面临的一大痛点是“专款专用”:生成图片需要一套模型,生成音频又需另一套,且往往对输出尺寸或时长有严格限制。Lumina-T2X 通过创新的基于流(Flow-based)的大规模扩散 Transformer 架构,成功解决了这一碎片化问题。它不仅能灵活适应各种生成需求,还支持动态调整输出的分辨率和持续时间,实现了真正的“文生万物”。
这款工具特别适合 AI 研究人员探索多模态生成的前沿技术,也深受开发者青睐,便于其构建灵活的多媒体应用原型。同时,对于数字艺术家和设计师而言,Lumina-T2X 提供了一个高效的创意辅助手段,让灵感能瞬间跨越文字与视听的界限。作为入选 ICLR 2025 Spotlight 和 NeurIPS 2024 的开源项目,Lumina-T2X 以其卓越的技术架构和广泛的适用性,正推动着生成式 AI 向更通用、更自由的方向发展。
使用场景
某独立游戏开发者正为一款奇幻冒险游戏快速生成多模态资产,包括高清场景概念图、角色动作视频片段及匹配的背景音乐。
没有 Lumina-T2X 时
- 工具链割裂:需要分别调用文生图、文生视频和文生音频三个不同的模型或平台,切换上下文极其繁琐。
- 风格难以统一:不同模型生成的素材在光影、色调和艺术风格上存在显著差异,后期需花费大量时间手动修图和对齐。
- 分辨率与时长受限:现有单一模态工具往往限制输出分辨率或视频时长,无法满足高质量游戏过场动画的需求。
- 迭代成本高昂:修改一个文本提示词意味着要在三个独立系统中重新运行并再次协调结果,严重拖慢原型设计进度。
使用 Lumina-T2X 后
- 一站式生成:依托统一的流式扩散 Transformer 架构,仅需一次输入即可同时产出图像、视频和音频,工作流大幅简化。
- 原生风格一致:由于所有模态源自同一潜在空间映射,生成的视觉与听觉素材在奇幻风格上天然契合,无需额外调色。
- 灵活适配需求:支持任意分辨率和持续时间生成,直接输出符合引擎导入标准的高清长镜头视频与高保真音轨。
- 高效敏捷迭代:调整提示词后能瞬间获得全套更新的多模态资源,让开发者能在数分钟内完成多个版本的原型验证。
Lumina-T2X 通过“文本到任意模态”的统一范式,彻底打破了多模态内容生产的壁垒,将游戏资产创作效率提升了数倍。
运行环境要求
- Linux
必需 NVIDIA GPU,示例代码使用 torch.bfloat16 (建议 Ampere 架构及以上,如 A100/A10/3090/4090),显存需求未明确说明 (生成高分辨率图像通常需 24GB+),CUDA 版本未说明 (需支持 bfloat16)
未说明

快速开始
$\textbf{Lumina-T2X}$:基于流的大型扩散Transformer,实现文本到任意模态、分辨率和时长的转换
ICLR 2025 Spotlight & NeurIPS 2024

📰 新闻
- [2024-08-06] 🎉🎉🎉 我们发布了Lumina-mGPT,这是我们Lumina系列中的下一代生成模型!Lumina-mGPT是一种自回归Transformer模型,能够进行照片级逼真的图像生成以及其他视觉-语言任务,例如可控生成、多轮对话、深度/法线/分割图估计等。
- [2024-07-08] 🎉🎉🎉 Lumina-Next现已在diffusers中得到支持!感谢@yiyixuxu和@sayakpaul!HF模型仓库。
- [2024-06-26] 我们发布了使用
Lumina-Next-T2I进行img2img转换的推理代码。代码 ComfyUI
- [2024-06-21] 🥰🥰🥰 Lumina-Next现在有了用于推理的Jupyter Notebook,感谢canenduru! 链接
- [2024-06-21] 我们已将
Lumina-Next-SFT和Lumina-Next-T2I上传至wisemodel.cn。wisemodel仓库
- [2024-06-19] 我们发布了用于音乐生成的
Lumina-T2Audio(文本到音频)代码和模型。模型
- [2024-06-17] 🚀🚀🚀 我们已经在Lumina框架中实现了对SD3的推理和训练支持(包括Dreambooth)!代码
- [2024-06-17] 🥰🥰🥰 Lumina-Next现已支持ComfyUI,感谢Kijai! 链接
- [2024-06-08] 🚀🚀🚀 我们发布了
Lumina-Next-SFT模型,展示了更佳的视觉质量!模型
- [2024-06-07] 我们发布了用于音乐生成的
Lumina-T2Music(文本到音乐)代码和模型。模型 演示
- [2024-06-03] 我们发布了
Lumina-Next-T2I的“组合式生成”版本,该版本支持为不同区域提供多个描述性文字以实现组合式生成。模型。演示
- [2024-05-29] 我们更新了新的
Lumina-Next-T2I代码和Hugging Face模型。支持2K分辨率图像生成以及时间感知的Scaled RoPE。
- [2024-05-25] 我们发布了Flag-DiT和Next-DiT的训练脚本,并报告了Next-DiT与Flag-DiT之间的对比结果。对比结果
- [2024-05-21] Lumina-Next-T2I支持更高阶的求解器。它仅需10步即可生成图像,无需任何蒸馏过程。请尝试我们的演示演示。
- [2024-05-18] 我们发布了Lumina-T2I 5B的训练脚本。README
- [2024-05-16] ❗❗❗ 我们已将
.pth权重转换为.safetensors格式。请拉取最新代码,并使用demo.py进行推理。
- [2024-05-14] Lumina-Next现在支持简单的文本到音乐生成(示例)、基于文本条件的高分辨率(1024*4096)全景图生成(示例),以及基于标签条件的3D点云生成(示例)。
- [2024-05-13] 我们提供了示例,展示了Lumina-T2X支持多语言提示的能力,甚至可以处理包含表情符号的提示。
- [2024-05-12] 我们激动地发布了
Lumina-Next-T2I模型(检查点),该模型以2B Next-DiT模型作为骨干网络,并采用Gemma-2B作为文本编码器。请在demo1、demo2和demo3上试用。更多详情请参阅论文Lumina-Next。
- [2024-05-10] 我们在arXiv上发布了技术报告。
- [2024-05-09] 我们发布了
Lumina-T2A(文本到音频)的演示。示例
- [2024-04-29] 我们发布了5B模型的检查点以及基于该模型构建的文本到图像生成演示。
- [2024-04-25] 支持任意长宽比的720P视频生成。示例
- [2024-04-19] 发布了演示示例。
- [2024-04-05] 发布了
Lumina-T2I的代码。
- [2024-04-01] 我们发布了用于文本到图像生成的
Lumina-T2I初始版本。
🚀 快速入门
[!警告]
由于我们频繁更新代码,请务必拉取最新代码:
git pull origin main
快速演示
我们已在Hugging Face Diffusers中支持Lumina-Next。
[!注]
在Diffusers发布新版本之前,您应先安装其开发版(main分支)。
pip install git+https://github.com/huggingface/diffusers
然后您可以尝试以下代码:
from diffusers import LuminaText2ImgPipeline
import torch
pipeline = LuminaText2ImgPipeline.from_pretrained(
"/mnt/hdd1/xiejunlin/checkpoints/Lumina-Next-SFT-diffusers", torch_dtype=torch.bfloat16
).to("cuda")
image = pipeline(prompt="一位年轻女子的上半身,身穿维多利亚时代的服装,戴着黄铜护目镜和皮质绑带。背景是工业革命时期的景象,天空弥漫着烟雾,周围矗立着高大的金属建筑", height=1024, width=768).images[0]
有关Lumina框架的训练和推理的更多详细信息,请参阅Lumina-T2I、Lumina-Next-T2I和Lumina-Next-T2I-Mini。我们强烈建议您使用**Lumina-Next-T2I-Mini**进行训练和推理,它是功能齐全但极其精简的Lumina-Next-T2I版本。
GUI 演示
为了让各位快速上手使用我们的模型,我们构建了多个版本的 GUI 演示站点。
Lumina-Next-T2I 模型演示:
图像组合生成:[node1]
音乐生成:[node1]
安装
作为库使用 Lumina-T2X 时,请在您的环境中运行以下安装命令:
pip install git+https://github.com/Alpha-VLLM/Lumina-T2X
开发
如果您想参与代码贡献,应运行以下命令来安装 pre-commit 库:
git clone https://github.com/Alpha-VLLM/Lumina-T2X
cd Lumina-T2X
pip install -e ".[dev]"
pre-commit install
pre-commit
📑 开源计划
- Lumina-Text2Image(演示✅、训练✅、推理✅、检查点✅、Diffusers✅)
- Lumina-Text2Video(演示✅)
- Lumina-Text2Music(演示✅、推理✅、检查点✅)
- Lumina-Text2Audio(演示✅、推理✅、检查点✅)
📜 内容索引
简介
我们隆重推出 $\textbf{Lumina-T2X}$ 系列,这是一系列基于文本条件的扩散 Transformer(DiT),能够将文本描述转化为生动的图像、动态视频、精细的多视角 3D 图像以及合成语音。Lumina-T2X 的核心是 基于流的大型扩散 Transformer(Flag-DiT)——一个强大的引擎,支持高达 70 亿参数,并将序列长度扩展至 128,000 个标记。受 Sora 启发,Lumina-T2X 在时空潜在标记空间中整合了图像、视频、3D 对象的多视角视图以及语音频谱图,并且可以生成 任意分辨率、宽高比和时长 的输出。
🌟 特点:
- 基于流的大型扩散 Transformer(Flag-DiT):Lumina-T2X 采用了 流匹配 的框架,并配备了 RoPE、RMSNorm 和 KQ-norm 等多项先进技术,展现出更快的训练收敛速度、稳定的训练动态以及简化的流程。
- 单一框架内支持任意模态、分辨率和时长:
- $\textbf{Lumina-T2X}$ 可以 将任何模态,包括图像、视频、3D 对象的多视角视图以及频谱图,编码为统一的 1 维标记序列,且不受分辨率、宽高比和时间长度的限制。
- 通过引入
[nextline] 和 [nextframe] 标记,我们的模型能够 支持分辨率外推,即生成训练过程中未出现过的域外分辨率的图像或视频,例如从 768×768 像素扩展到 1792×1792 像素。
- 较低的训练资源需求:根据我们的经验观察,使用更大规模的模型、更高分辨率的图像以及更长时间的视频片段,可以 显著加快扩散 Transformer 的收敛速度。此外,通过精心筛选具有高审美价值的画面和详细描述的文本-图像、文本-视频配对数据,我们的 $\textbf{Lumina-T2X}$ 模型能够在计算资源消耗较少的情况下,生成高分辨率图像和连贯的视频。值得注意的是,配备 5B Flag-DiT 和 7B LLaMA 作为文本编码器的默认 Lumina-T2I 配置,仅需 Pixelart-$\alpha$ 所需计算资源的 35%。

📽️ 演示示例
Lumina-Next-SFT 的演示

视觉字谜的演示


Lumina-T2I 的演示
全景生成
文本转视频生成
720P 视频:
提示:瀑布从悬崖倾泻而下,注入宁静湖泊的壮丽美景。
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/17187de8-7a07-49a8-92f9-fdb8e2f5e64c
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/0a20bb39-f6f7-430f-aaa0-7193a71b256a
提示:一位时尚女性走在东京街头,周围是温暖明亮的霓虹灯和动态的城市招牌。她身穿黑色皮夹克、红色长裙和黑色靴子,手提黑色手袋,戴着太阳镜和红唇膏。她步伐自信而随意。街道湿润且反光,映照出五彩斑斓的灯光。许多行人来来往往。
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/7bf9ce7e-f454-4430-babe-b14264e0f194
360P 视频:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/d7fec32c-3655-4fd1-aa14-c0cb3ace3845
文本到3D生成
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/cd061b8d-c47b-4c0c-b775-2cbaf8014be9
点云生成
文本到音频生成
[!Note]
注意:将鼠标悬停在播放栏上,点击播放栏上的音频按钮以取消静音。
提示词: 半自动枪声响起,伴有轻微回声
生成音频:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/25f2a6a8-0386-41e8-ab10-d1303554b944
真实音频:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/6722a68a-1a5a-4a44-ba9c-405372dc27ef
提示词: 电话铃声响起
生成音频:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/7467dd6d-b163-4436-ac5b-36662d1f9ddf
真实音频:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/703ea405-6eb4-4161-b5ff-51a93f81d013
提示词: 发动机运转后转速升高,轮胎发出尖锐的摩擦声
生成音频:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/5d9dd431-b8b4-41a0-9e78-bb0a234a30b9
真实音频:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/9ca4af9e-cee3-4596-b826-d6c25761c3c1
提示词: 鸟鸣声、昆虫嗡嗡声以及户外环境音效
生成音频:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/b776aacb-783b-4f47-bf74-89671a17d38d
真实音频:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/a11333e4-695e-4a8c-8ea1-ee5b83e34682
文本到音乐生成
[!Note]
注意:将鼠标悬停在播放栏上,点击播放栏上的音频按钮以取消静音。
更多详情请参阅这里
提示词: 一首充满电光火石般活力的斯卡曲风,突出萨克斯管即兴演奏、充满能量的电吉他与原声鼓、活泼的打击乐、富有灵魂的键盘声、律动十足的电贝斯,以及快节奏所散发出的振奋人心的能量。
生成音乐:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/86041420/fef8f6b9-1e77-457e-bf4b-fb0cccefa0ec
提示词: 一首高能量的合成器摇滚/流行歌曲,配有快速的原声鼓、气势恢宏的铜管乐与弦乐部分,以及令人兴奋的合成器主旋律,营造出一种冒险的氛围。
生成音乐:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/86041420/1f796046-64ab-44ed-a4d8-0ebc0cfc484f
提示词: 一首快节奏的电子流行歌曲,融合了数字鼓、数字贝斯和合成器铺底音色。
生成音乐:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/86041420/4768415e-436a-4d0e-af53-bf7882cb94cd
提示词: 一首中等节奏的数字键盘曲,背景伴奏带有爵士风格,包含数字鼓、钢琴、电贝斯、小号和原声吉他。
生成音乐:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/86041420/8994a573-e776-488b-a86c-4398a4362398
提示词: 这首低质量民谣作品采用了律动十足的木制打击乐、贝斯、钢琴和长笛旋律,同时辅以持续的弦乐和闪烁的沙锤声,营造出热情、欢快且愉悦的氛围。
生成音乐:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/86041420/e0b5d197-589c-47d6-954b-b9c1d54feebb
多语言生成
我们展示了Lumina-Next-2B的三项多语言能力。
根据中文古诗生成图像:
使用多语言提示词生成图像:
使用表情符号生成图像:
⚙️ 多样化配置
我们支持多种配置,包括文本编码器、不同参数规模的DiT模型、推理方法以及VAE编码器。此外,我们还提供1D-RoPE、图像增强等功能。
贡献者
代码开发与维护的核心成员:
Dongyang Liu、Le Zhuo、Junlin Xie、Ruoyi Du、Peng Gao
📄 引用
@article{gao2024lumina-next,
title={Lumina-Next:借助Next-DiT使Lumina-T2X更强大、更快},
author={Zhuo, Le and Du, Ruoyi and Han, Xiao and Li, Yangguang and Liu, Dongyang and Huang, Rongjie and Liu, Wenze and others},
journal={arXiv预印本 arXiv:2406.18583},
year={2024}
}
@article{gao2024lumin-t2x,
title={Lumina-T2X:通过基于流的大规模扩散Transformer将文本转换为任意模态、分辨率和时长},
author={Gao, Peng and Zhuo, Le and Liu, Chris and Du, Ruoyi and Luo, Xu and Qiu, Longtian and Zhang, Yuhang and others},
journal={arXiv预印本 arXiv:2405.05945},
year={2024}
}

📰 新闻
- [2024-08-06] 🎉🎉🎉 我们发布了Lumina-mGPT,这是我们Lumina系列中的下一代生成模型!Lumina-mGPT是一种自回归Transformer模型,能够进行照片级逼真的图像生成以及其他视觉-语言任务,例如可控生成、多轮对话、深度/法线/分割图估计等。
- [2024-07-08] 🎉🎉🎉 Lumina-Next现已在diffusers中得到支持!感谢@yiyixuxu和@sayakpaul!HF模型仓库。
- [2024-06-26] 我们发布了使用
Lumina-Next-T2I进行img2img转换的推理代码。代码 ComfyUI - [2024-06-21] 🥰🥰🥰 Lumina-Next现在有了用于推理的Jupyter Notebook,感谢canenduru! 链接
- [2024-06-21] 我们已将
Lumina-Next-SFT和Lumina-Next-T2I上传至wisemodel.cn。wisemodel仓库 - [2024-06-19] 我们发布了用于音乐生成的
Lumina-T2Audio(文本到音频)代码和模型。模型 - [2024-06-17] 🚀🚀🚀 我们已经在Lumina框架中实现了对SD3的推理和训练支持(包括Dreambooth)!代码
- [2024-06-17] 🥰🥰🥰 Lumina-Next现已支持ComfyUI,感谢Kijai! 链接
- [2024-06-08] 🚀🚀🚀 我们发布了
Lumina-Next-SFT模型,展示了更佳的视觉质量!模型 - [2024-06-07] 我们发布了用于音乐生成的
Lumina-T2Music(文本到音乐)代码和模型。模型 演示 - [2024-06-03] 我们发布了
Lumina-Next-T2I的“组合式生成”版本,该版本支持为不同区域提供多个描述性文字以实现组合式生成。模型。演示 - [2024-05-29] 我们更新了新的
Lumina-Next-T2I代码和Hugging Face模型。支持2K分辨率图像生成以及时间感知的Scaled RoPE。 - [2024-05-25] 我们发布了Flag-DiT和Next-DiT的训练脚本,并报告了Next-DiT与Flag-DiT之间的对比结果。对比结果
- [2024-05-21] Lumina-Next-T2I支持更高阶的求解器。它仅需10步即可生成图像,无需任何蒸馏过程。请尝试我们的演示演示。
- [2024-05-18] 我们发布了Lumina-T2I 5B的训练脚本。README
- [2024-05-16] ❗❗❗ 我们已将
.pth权重转换为.safetensors格式。请拉取最新代码,并使用demo.py进行推理。 - [2024-05-14] Lumina-Next现在支持简单的文本到音乐生成(示例)、基于文本条件的高分辨率(1024*4096)全景图生成(示例),以及基于标签条件的3D点云生成(示例)。
- [2024-05-13] 我们提供了示例,展示了Lumina-T2X支持多语言提示的能力,甚至可以处理包含表情符号的提示。
- [2024-05-12] 我们激动地发布了
Lumina-Next-T2I模型(检查点),该模型以2B Next-DiT模型作为骨干网络,并采用Gemma-2B作为文本编码器。请在demo1、demo2和demo3上试用。更多详情请参阅论文Lumina-Next。 - [2024-05-10] 我们在arXiv上发布了技术报告。
- [2024-05-09] 我们发布了
Lumina-T2A(文本到音频)的演示。示例 - [2024-04-29] 我们发布了5B模型的检查点以及基于该模型构建的文本到图像生成演示。
- [2024-04-25] 支持任意长宽比的720P视频生成。示例
- [2024-04-19] 发布了演示示例。
- [2024-04-05] 发布了
Lumina-T2I的代码。 - [2024-04-01] 我们发布了用于文本到图像生成的
Lumina-T2I初始版本。
🚀 快速入门
[!警告] 由于我们频繁更新代码,请务必拉取最新代码:
git pull origin main
快速演示
我们已在Hugging Face Diffusers中支持Lumina-Next。
[!注] 在Diffusers发布新版本之前,您应先安装其开发版(
main分支)。pip install git+https://github.com/huggingface/diffusers
然后您可以尝试以下代码:
from diffusers import LuminaText2ImgPipeline
import torch
pipeline = LuminaText2ImgPipeline.from_pretrained(
"/mnt/hdd1/xiejunlin/checkpoints/Lumina-Next-SFT-diffusers", torch_dtype=torch.bfloat16
).to("cuda")
image = pipeline(prompt="一位年轻女子的上半身,身穿维多利亚时代的服装,戴着黄铜护目镜和皮质绑带。背景是工业革命时期的景象,天空弥漫着烟雾,周围矗立着高大的金属建筑", height=1024, width=768).images[0]
有关Lumina框架的训练和推理的更多详细信息,请参阅Lumina-T2I、Lumina-Next-T2I和Lumina-Next-T2I-Mini。我们强烈建议您使用**Lumina-Next-T2I-Mini**进行训练和推理,它是功能齐全但极其精简的Lumina-Next-T2I版本。
GUI 演示
为了让各位快速上手使用我们的模型,我们构建了多个版本的 GUI 演示站点。
Lumina-Next-T2I 模型演示:
图像组合生成:[node1]
音乐生成:[node1]
安装
作为库使用 Lumina-T2X 时,请在您的环境中运行以下安装命令:
pip install git+https://github.com/Alpha-VLLM/Lumina-T2X
开发
如果您想参与代码贡献,应运行以下命令来安装 pre-commit 库:
git clone https://github.com/Alpha-VLLM/Lumina-T2X
cd Lumina-T2X
pip install -e ".[dev]"
pre-commit install
pre-commit
📑 开源计划
- Lumina-Text2Image(演示✅、训练✅、推理✅、检查点✅、Diffusers✅)
- Lumina-Text2Video(演示✅)
- Lumina-Text2Music(演示✅、推理✅、检查点✅)
- Lumina-Text2Audio(演示✅、推理✅、检查点✅)
📜 内容索引
简介
我们隆重推出 $\textbf{Lumina-T2X}$ 系列,这是一系列基于文本条件的扩散 Transformer(DiT),能够将文本描述转化为生动的图像、动态视频、精细的多视角 3D 图像以及合成语音。Lumina-T2X 的核心是 基于流的大型扩散 Transformer(Flag-DiT)——一个强大的引擎,支持高达 70 亿参数,并将序列长度扩展至 128,000 个标记。受 Sora 启发,Lumina-T2X 在时空潜在标记空间中整合了图像、视频、3D 对象的多视角视图以及语音频谱图,并且可以生成 任意分辨率、宽高比和时长 的输出。
🌟 特点:
- 基于流的大型扩散 Transformer(Flag-DiT):Lumina-T2X 采用了 流匹配 的框架,并配备了 RoPE、RMSNorm 和 KQ-norm 等多项先进技术,展现出更快的训练收敛速度、稳定的训练动态以及简化的流程。
- 单一框架内支持任意模态、分辨率和时长:
- $\textbf{Lumina-T2X}$ 可以 将任何模态,包括图像、视频、3D 对象的多视角视图以及频谱图,编码为统一的 1 维标记序列,且不受分辨率、宽高比和时间长度的限制。
- 通过引入
[nextline]和[nextframe]标记,我们的模型能够 支持分辨率外推,即生成训练过程中未出现过的域外分辨率的图像或视频,例如从 768×768 像素扩展到 1792×1792 像素。
- 较低的训练资源需求:根据我们的经验观察,使用更大规模的模型、更高分辨率的图像以及更长时间的视频片段,可以 显著加快扩散 Transformer 的收敛速度。此外,通过精心筛选具有高审美价值的画面和详细描述的文本-图像、文本-视频配对数据,我们的 $\textbf{Lumina-T2X}$ 模型能够在计算资源消耗较少的情况下,生成高分辨率图像和连贯的视频。值得注意的是,配备 5B Flag-DiT 和 7B LLaMA 作为文本编码器的默认 Lumina-T2I 配置,仅需 Pixelart-$\alpha$ 所需计算资源的 35%。

📽️ 演示示例
Lumina-Next-SFT 的演示

视觉字谜的演示


Lumina-T2I 的演示
全景生成
文本转视频生成
720P 视频:
提示:瀑布从悬崖倾泻而下,注入宁静湖泊的壮丽美景。
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/17187de8-7a07-49a8-92f9-fdb8e2f5e64c
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/0a20bb39-f6f7-430f-aaa0-7193a71b256a
提示:一位时尚女性走在东京街头,周围是温暖明亮的霓虹灯和动态的城市招牌。她身穿黑色皮夹克、红色长裙和黑色靴子,手提黑色手袋,戴着太阳镜和红唇膏。她步伐自信而随意。街道湿润且反光,映照出五彩斑斓的灯光。许多行人来来往往。
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/7bf9ce7e-f454-4430-babe-b14264e0f194
360P 视频:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/d7fec32c-3655-4fd1-aa14-c0cb3ace3845
文本到3D生成
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/cd061b8d-c47b-4c0c-b775-2cbaf8014be9
点云生成
文本到音频生成
[!Note] 注意:将鼠标悬停在播放栏上,点击播放栏上的音频按钮以取消静音。
提示词: 半自动枪声响起,伴有轻微回声
生成音频:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/25f2a6a8-0386-41e8-ab10-d1303554b944
真实音频:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/6722a68a-1a5a-4a44-ba9c-405372dc27ef
提示词: 电话铃声响起
生成音频:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/7467dd6d-b163-4436-ac5b-36662d1f9ddf
真实音频:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/703ea405-6eb4-4161-b5ff-51a93f81d013
提示词: 发动机运转后转速升高,轮胎发出尖锐的摩擦声
生成音频:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/5d9dd431-b8b4-41a0-9e78-bb0a234a30b9
真实音频:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/9ca4af9e-cee3-4596-b826-d6c25761c3c1
提示词: 鸟鸣声、昆虫嗡嗡声以及户外环境音效
生成音频:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/b776aacb-783b-4f47-bf74-89671a17d38d
真实音频:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/a11333e4-695e-4a8c-8ea1-ee5b83e34682
文本到音乐生成
[!Note] 注意:将鼠标悬停在播放栏上,点击播放栏上的音频按钮以取消静音。 更多详情请参阅这里
提示词: 一首充满电光火石般活力的斯卡曲风,突出萨克斯管即兴演奏、充满能量的电吉他与原声鼓、活泼的打击乐、富有灵魂的键盘声、律动十足的电贝斯,以及快节奏所散发出的振奋人心的能量。
生成音乐:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/86041420/fef8f6b9-1e77-457e-bf4b-fb0cccefa0ec
提示词: 一首高能量的合成器摇滚/流行歌曲,配有快速的原声鼓、气势恢宏的铜管乐与弦乐部分,以及令人兴奋的合成器主旋律,营造出一种冒险的氛围。
生成音乐:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/86041420/1f796046-64ab-44ed-a4d8-0ebc0cfc484f
提示词: 一首快节奏的电子流行歌曲,融合了数字鼓、数字贝斯和合成器铺底音色。
生成音乐:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/86041420/4768415e-436a-4d0e-af53-bf7882cb94cd
提示词: 一首中等节奏的数字键盘曲,背景伴奏带有爵士风格,包含数字鼓、钢琴、电贝斯、小号和原声吉他。
生成音乐:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/86041420/8994a573-e776-488b-a86c-4398a4362398
提示词: 这首低质量民谣作品采用了律动十足的木制打击乐、贝斯、钢琴和长笛旋律,同时辅以持续的弦乐和闪烁的沙锤声,营造出热情、欢快且愉悦的氛围。
生成音乐:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/86041420/e0b5d197-589c-47d6-954b-b9c1d54feebb
多语言生成
我们展示了Lumina-Next-2B的三项多语言能力。
根据中文古诗生成图像:
使用多语言提示词生成图像:
使用表情符号生成图像:
⚙️ 多样化配置
我们支持多种配置,包括文本编码器、不同参数规模的DiT模型、推理方法以及VAE编码器。此外,我们还提供1D-RoPE、图像增强等功能。
贡献者
代码开发与维护的核心成员:
Dongyang Liu、Le Zhuo、Junlin Xie、Ruoyi Du、Peng Gao
📄 引用
@article{gao2024lumina-next,
title={Lumina-Next:借助Next-DiT使Lumina-T2X更强大、更快},
author={Zhuo, Le and Du, Ruoyi and Han, Xiao and Li, Yangguang and Liu, Dongyang and Huang, Rongjie and Liu, Wenze and others},
journal={arXiv预印本 arXiv:2406.18583},
year={2024}
}
@article{gao2024lumin-t2x,
title={Lumina-T2X:通过基于流的大规模扩散Transformer将文本转换为任意模态、分辨率和时长},
author={Gao, Peng and Zhuo, Le and Liu, Chris and Du, Ruoyi and Luo, Xu and Qiu, Longtian and Zhang, Yuhang and others},
journal={arXiv预印本 arXiv:2405.05945},
year={2024}
}
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备