NextStep-1

GitHub
654 23 较难 1 次阅读 昨天Apache-2.0图像其他
AI 解读 由 AI 自动生成,仅供参考

NextStep-1 是由阶跃星辰(StepFun)多模智能团队研发的前沿开源项目,旨在突破传统自回归模型在图像生成领域的瓶颈。长期以来,自回归架构虽擅长处理文本,但在生成图像时往往依赖昂贵的扩散模型或不得不将图像压缩为有损的离散标记,导致细节丢失。NextStep-1 另辟蹊径,采用了一种直接处理“连续图像标记”的创新路径。

作为一个拥有 140 亿参数的超大模型,NextStep-1 能够联合建模离散文本序列与连续图像序列。它巧妙地结合了标准的语言模型头部用于处理文本,以及一个轻量级的流匹配(Flow Matching)头部用于处理视觉数据。这种统一的“下一标记预测”框架不仅结构简单、易于扩展,更完整保留了视觉数据的丰富信息,从而生成细节惊人、画质卓越的图像。

该工具特别适合人工智能研究人员、算法工程师以及对新一代生成式 AI 架构感兴趣的技术开发者使用。通过开源代码与权重,NextStep-1 为探索大规模自回归图像生成提供了宝贵的基线与研究素材。其独特的连续标记技术与流匹配机制,代表了当前图像生成领域的重要技术方向,曾荣获 ICLR 2026 口头报告殊荣,是理解未来多模态大模型演进的关键参考。

使用场景

某电商平台的视觉设计团队需要在短时间内为数千款新品生成高质量、细节丰富的商品宣传图,并支持对局部细节进行精准修改。

没有 NextStep-1 时

  • 细节丢失严重:传统自回归模型依赖向量量化(VQ)将图像压缩为离散令牌,导致生成的商品纹理模糊,无法还原面料质感或金属光泽。
  • 工作流割裂:文生图与图像编辑需调用两套不同的模型架构(如扩散模型 + 专用编辑模型),增加了系统集成的复杂度和推理延迟。
  • 迭代成本高昂:若需调整光影或局部特征,往往需要重新生成整张图片,难以实现“指哪改哪”的精细化控制。
  • 训练资源浪费:为了弥补离散化带来的信息损失,必须投入更多算力训练更大的扩散模型,且推理速度受限于多步去噪过程。

使用 NextStep-1 后

  • 还原真实质感:NextStep-1 直接处理连续图像令牌,完整保留了视觉数据的丰富性,生成的丝绸褶皱和珠宝反光达到照片级逼真度。
  • 统一架构高效推理:利用单一的自回归框架同时处理文本和连续图像令牌,配合 vLLM-Omni 加速,实现了文生图与局部编辑的无缝切换与高速响应。
  • 精准局部编辑:基于连续的下一个令牌预测机制,设计师可仅重绘商品的特定区域(如更换背景或调整 Logo 位置),无需破坏整体构图。
  • 扩展性更强:140 亿参数规模结合轻量级流匹配头,在保持简单架构的同时轻松应对大规模并发请求,显著降低了单位图像的生成成本。

NextStep-1 通过突破性的连续令牌自回归技术,将高保真图像生成与灵活编辑能力统一于单一模型,彻底解决了传统方案在细节还原与工作流效率上的双重瓶颈。

运行环境要求

操作系统
  • Linux
GPU
  • 必需 NVIDIA GPU
  • 训练需多卡分布式环境(示例命令使用 8 卡),推理支持 vLLM-Omni
  • 具体显存未说明,但模型参数量达 14B,建议高显存配置
  • 需预安装与 CUDA 版本匹配的 PyTorch
内存

未说明(建议 64GB+ 以支持 14B 参数模型训练及大数据集处理)

依赖
notes1. 推荐使用 conda 创建 Python 3.10 环境。2. 安装前需根据本地 CUDA 版本手动预安装 PyTorch。3. 模型系列包含 NextStep-1(旧版)和 NextStep-1.1(推荐),后者性能更优。4. 官方提供的训练数据集仅为示例,实际训练使用了约 10 亿张专有图片,用户需自行准备大规模数据集以达到最佳效果。5. 提供 `smartrun` 工具自动管理分布式训练参数。6. 支持将 DeepSpeed 分片检查点转换为 HuggingFace 格式。
python3.10
torch (需根据 CUDA 版本预安装)
uv
smartrun (内置工具)
WebDataset
streamlit
wandb
NextStep-1 hero image

快速开始

NextStep-1:迈向大规模连续标记的自回归图像生成

主页 huggingface权重 arXiv:2508.10711 博客 博客

自回归模型——像阅读句子一样逐步生成内容——在语言领域表现出色,但在图像生成方面却面临挑战。传统上,它们要么依赖于成本高昂的扩散模型,要么通过向量量化(VQ)将图像压缩为有损的离散标记。

NextStep-1则采取了不同的路径:一个拥有140亿参数的自回归模型,直接处理连续的图像标记,从而保留了视觉数据的全部丰富性。它联合建模离散文本标记和连续图像标记的序列——对文本使用标准的语言模型头,而对视觉内容则采用一个轻量级的1.57亿参数流匹配头。这种统一的下一个标记预测框架简单、可扩展,并且能够生成令人惊叹的高细节图像。

t2i_demo
edit_demo

🔥 最新消息

  • 2026年2月25日vLLM-Omni支持NextStep-1.1的高性能推理。详情请见这里

  • 2026年2月16日:NextStep-1的训练代码(本仓库)以及NextStep-1.1的后训练博客(链接)已发布。欢迎讨论与贡献。祝大家春节快乐!

  • 2026年2月6日:NextStep-1已被ICLR 2026选为口头报告!🎉🎉🎉

  • 2025年12月24日:🔥 我们发布了NextStep-1.1,这是一款通过扩展训练和基于流的强化学习(RL)后训练范式显著提升输出质量的文生图模型。欢迎大家使用我们Hugging Face仓库中托管的检查点进行尝试!

    检查点可在以下平台获取:

  • 2025年8月18日:👋 我们在HuggingFace Spaces上部署了NextStep-1-Large-Edit,欢迎大家试用!

  • 2025年8月18日:👋 我们开通了微信群,欢迎大家加入!

    wechat
  • 2025年8月14日:👋 我们发布了NextStep-1-Large-Pretrain、NextStep-1-Large以及NextStep-1-Large-Edit的推理代码和huggingface模型权重

  • 2025年8月14日:👋 我们已将我们的技术报告开源。


📑 目录


📦 安装与环境配置

1.1 克隆仓库

git clone https://github.com/stepfun-ai/NextStep-1
cd NextStep-1

1.2 创建Conda环境

conda create -n nextstep python=3.10 -y
conda activate nextstep

1.3 安装依赖

⚠️ 注意:建议根据你的CUDA版本预先安装PyTorch。

pip install uv
uv pip install -e .

提示:这次安装可能需要一些时间。不妨泡杯咖啡,稍作休息吧!☕

1.4 内置CLI工具

安装完成后,以下CLI工具可用:

  • smartrun:一个智能分布式启动器,可自动封装torchrun参数。
  • gen_meta:扫描数据集以生成元数据索引(样本数量、校验和等)。
  • warmup_data:预热并缓存数据索引,以显著加快训练启动速度。
  • eshow:检查或比较实验配置。
  • singlegpu_debug / multigpu_debug:专门用于远程调试的入口。

📥 模型与数据准备

2.1 下载模型权重

将模型下载到 ./nextstep_models 目录。请相应更新 nextstep/model_zoos.py 中的路径。

bash download_models.sh

提示: 这个下载可能需要一些时间。不妨泡杯咖啡,稍作休息吧!☕

可用模型

下表列出了所有可用模型及其训练阶段:

模型 预训练 256px 预训练 512px 退火 RL 视觉多样性 微调难易度 Hugging Face
NextStep-1-f8ch16-Tokenizer - - 🤗
NextStep-1.1-Pretrain-256px 🤗
NextStep-1.1-Pretrain 🤗
NextStep-1.1 🤗
NextStep-1-Large-Pretrain 🤗
NextStep-1-Large 🤗
NextStep-1-Large-Edit 🤗

⚠️ 注意: NextStep-1 系列模型属于旧版本,性能不如 NextStep-1.1 系列,因此不建议使用。请改用 NextStep-1.1 系列模型。

💡 快速推理: 如果您想快速对模型进行推理,请参考下面的推理脚本。

python3 inference/inference.py

2.2 下载训练数据集

将数据集下载到 ./nextstep_data 目录。

bash download_datasets.sh

提示: 这个下载可能需要一些时间。不妨泡杯咖啡,稍作休息吧!☕

⚠️ 重要提示: download_datasets.sh 中提供的数据集仅为演示用途的开源示例数据集。而 NextStep 的实际训练则使用了来自公司内部专有数据源的约 10亿张图片,这些数据无法公开。为了获得最佳训练效果,我们强烈建议您按照第 2.3 节中的数据处理指南,收集并准备自己的大规模数据集。

2.3 处理自定义数据(可选)

💡 跳过此部分:如果您仅使用第 2.2 节中的默认数据集,则无需执行以下步骤。若要处理自定义数据,请按如下操作:

2.3.1 数据处理

将原始数据转换为统一的 WebDataset (Tar) 格式。

python3 nextstep/data/build_wds.py

数据规范(生成 assets/idx_0000_0000.tar):

  • key.json: 必须包含一个 caption 字段,使用 <image_n> 占位符来定义交错序列。
  • key-{i}.png: 图片必须命名为 key-0.pngkey-1.png 等,与 JSON 中的占位符一一对应。
  • ⚠️ 重要: key不能 包含点号 (.) 或连字符 (-)。您必须使用 build_wds.py 脚本来确保索引正确。请根据您的具体数据源修改脚本中的 load_datacreate_example 函数。

2.3.2 元数据生成

计算每个 Tar 文件的样本数量,以构建训练索引。

gen_meta /path/to/your/dataset/root_dir

💡 完成后,请将新数据更新到 configs/data/pretrain_data.json 以及 configs/data 目录下的相应 Python 数据配置文件中。

2.3.3 预热索引

建议在大规模训练时使用,以便将索引缓存在本地。

warmup_data /path/to/your/dataset/root_dir --n_jobs 32

2.3.4 数据可视化

预览 Tar 文件或配置中的数据分布和内容。

streamlit run nextstep/service/_preview.py --server.port 8501

2.3.5 W&B 凭证

在根目录下创建一个 .config 文件,用于实验跟踪。API 密钥可在 https://wandb.ai/settings 找到。

WANDB_MODE=online
WANDB_API_KEY=YOUR_WANDB_API_KEY
WANDB_BASE_URL=https://api.wandb.ai

🚀 训练

⚠️ 在开始训练之前, 请仔细检查 configs 目录中的配置文件。您可能需要修改配置文件中的模型或输出路径。

3.1 开始训练(通过 smartrun

选项 1: 使用 NextStep-1.1-Pretrain-256px 模型,进行少量训练步数(约 1 万步)

smartrun -m configs.nextstep_qwen14b_512px

💡 该命令会自动利用所有可用的机器资源。如果您在单台机器上运行此命令,等同于:torchrun --nproc_per_node=8 --nnodes=1 --node_rank=0 -m configs.nextstep_qwen14b_512px

选项 2: 使用 Qwen2.5-14B 模型,进行大量训练步数(约 50 万步)

smartrun -m configs.nextstep_qwen14b_256px

3.2 覆盖训练参数

在训练过程中覆盖特定参数:

smartrun -m configs.nextstep_qwen14b_512px \
  training.max_steps=1000 \
  training.save_steps=200 \
  data.num_workers=2

3.3 检查和比较配置

查看单个配置:

eshow configs/nextstep_qwen14b_512px.py

比较两个配置之间的差异(例如 256px 与 512px):

eshow configs/nextstep_qwen14b_256px.py configs/nextstep_qwen14b_512px.py

📌 提示: 请根据您的实际情况调整具体的参数、配置文件和数据路径。详细说明请参阅 configs/README.md


🔮 推理

4.1 转换检查点格式

将 DeepSpeed 分片检查点转换为标准的 HuggingFace 格式:

python3 nextstep/deepspeed/zero_to_fp32.py /path/to/your/trained/checkpoint_dir

4.2 运行推理

基础推理:

python3 inference/inference.py --model_name_or_path /path/to/your/trained/checkpoint_dir

使用默认模型快速启动:

python3 inference/inference.py

📖 文档

有关特定模块的详细文档,请参阅:


📚 参考文献

核心框架

数据集


📄 许可证

NextStep 采用 Apache License 2.0 许可证。您可以在相应的 GitHub 和 HuggingFace 仓库中找到许可证文件。


📖 引用

如果您在研究和应用中觉得 NextStep 有用,请考虑给本仓库点个赞,并引用以下内容:

@article{nextstepteam2025nextstep1,
  title={NextStep-1:迈向大规模连续标记的自回归图像生成},
  author={NextStep 团队以及 Chunrui Han、Guopeng Li、Jingwei Wu、Quan Sun、Yan Cai、Yuang Peng、Zheng Ge、Deyu Zhou、Haomiao Tang、Hongyu Zhou、Kenkun Liu、Ailin Huang、Bin Wang、Changxin Miao、Deshan Sun、En Yu、Fukun Yin、Gang Yu、Hao Nie、Haoran Lv、Hanheng Hu、Jia Wang、Jian Zhou、Jianjian Sun、Kaijun Tan、Kang An、Kangheng Lin、Liang Zhao、Mei Chen、Peng Xing、Rui Wang、Shiyu Liu、Shutao Xia、Tianhao You、Wei Ji、Xianfang Zeng、Xin Han、Xuelin Zhang、Yana Wei、Yanming Xu、Yimin Jiang、Yingming Wang、Yu Zhou、Yucheng Han、Ziyang Meng、Binxing Jiao、Daxin Jiang、Xiangyu Zhang、Yibo Zhu},
  journal={arXiv 预印本 arXiv:2508.10711},
  year={2025}
}

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|昨天
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|2天前
开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.9k|★★☆☆☆|昨天
开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|昨天
语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。

88.9k|★★★☆☆|昨天
开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|昨天
图像数据工具视频