Autoregressive-Models-in-Vision-Survey

792 23 非常简单 1 次阅读昨天视频其他图像开发框架

AI 解读由 AI 自动生成，仅供参考

Autoregressive-Models-in-Vision-Survey 是一个专注于视觉领域自回归模型（Autoregressive Models）的学术综述资源库。它系统性地梳理了该领域的最新研究进展，通过建模序列依赖关系，展示了自回归方法在生成高质量图像和视频内容方面的显著突破。

该项目主要解决了研究人员在面对海量且快速迭代的自回归视觉论文时，难以高效获取核心观点和分类整理的痛点。它将分散的学术成果汇聚成一份精心策划的清单，涵盖了从基础理论到前沿应用的各类重要文献，并提供了详细的论文链接及中文解读资源，极大地降低了入门和追踪前沿的技术门槛。

这份资源特别适合人工智能研究人员、计算机视觉开发者以及对生成式 AI 感兴趣的高校师生使用。无论是希望深入了解自回归机制如何应用于视觉任务，还是寻找特定方向的参考文献，都能从中获得极大帮助。其独特的技术亮点在于不仅收录了传统自回归模型，还敏锐地捕捉到了“统一多模态模型”和“自回归扩散强制视频生成”等新兴趋势。虽然项目目前已进入维护模式以反映领域的新变化，但它依然作为一份权威的参考指南，持续为社区提供有价值的知识沉淀。

使用场景

某高校计算机视觉实验室的研究团队正计划开展一项关于“基于自回归架构的高清视频生成”的前沿课题研究，急需全面掌握该领域的最新技术路线。

没有 Autoregressive-Models-in-Vision-Survey 时

文献检索效率低下：研究人员需要在 arXiv、Google Scholar 等多个平台手动搜索关键词，耗费数周时间才能拼凑出零散的论文列表，且极易遗漏重要成果。
技术脉络模糊不清：面对海量论文，难以理清自回归模型在视觉领域从图像生成到视频生成的演进逻辑，无法快速识别哪些是开创性工作，哪些是改进型方案。
复现选型困难：缺乏对各类模型架构、数据集及训练策略的系统性对比，导致在确定实验基线（Baseline）时盲目尝试，增加了试错成本和时间消耗。
前沿趋势滞后：难以及时捕捉如“统一多模态模型”或“自回归扩散强制视频生成”等最新涌现的技术趋势，可能导致研究选题在开题时已显过时。

使用 Autoregressive-Models-in-Vision-Survey 后

一站式获取权威清单：直接利用该仓库整理的精选论文列表，几分钟内即可获取涵盖最新进展的完整文献库，大幅缩短前期调研周期。
清晰构建知识图谱：通过仓库中对技术发展的系统性梳理，快速掌握自回归视觉模型的核心分类与演进路径，精准定位关键里程碑论文。
高效确定实验方案：参考文中对各类方法的详细对比与总结，迅速锁定最适合当前任务的最优基线模型和配套资源，显著降低实验启动门槛。
紧跟领域最新动态：借助仓库持续的更新机制（直至维护模式前）及对新趋势的敏锐洞察，确保研究方向始终对标国际最前沿，提升创新成功率。

Autoregressive-Models-in-Vision-Survey 将原本耗时数周的碎片化调研工作压缩为小时级的系统化学习，成为视觉生成领域研究者不可或缺的导航图。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该项目是一个关于视觉自回归模型的论文综述列表（Awesome List），并非可执行的软件工具或代码库，因此没有具体的运行环境、依赖库或硬件需求。用户主要使用该仓库查阅论文链接、代码库链接及相关研究进展。

python未说明

Autoregressive-Models-in-Vision-Survey hero image

快速开始

[TMLR 2025] 视觉领域中的优秀自回归模型

如果你喜欢我们的项目，请在 GitHub 上为我们点亮一颗星 ⭐，以获取最新更新。

自回归模型通过顺序建模依赖关系，在生成高质量内容方面取得了显著进展。本仓库是一个精心整理的列表，收录了关于视觉领域自回归模型最新进展的相关论文。

论文: [TMLR 2025🔥] 视觉领域的自回归模型：综述 | [中文解读]

作者: Jing Xiong^1,†, Gongye Liu^2,†, Lun Huang³, Chengyue Wu¹, Taiqiang Wu¹, Yao Mu¹, Yuan Yao⁴, Hui Shen⁵, Zhongwei Wan⁵, Jinfa Huang⁴, Chaofan Tao^1,‡, Shen Yan⁶, Huaxiu Yao⁷, Lingpeng Kong¹, Hongxia Yang⁹, Mi Zhang⁵, Guillermo Sapiro^8,10, Jiebo Luo⁴, Ping Luo¹, Ngai Wong¹

¹香港大学, ²清华大学, ³杜克大学, ⁴罗切斯特大学, ⁵俄亥俄州立大学, ⁶字节跳动, ⁷北卡罗来纳大学教堂山分校, ⁸苹果公司, ⁹香港理工大学, ¹⁰普林斯顿大学

^†核心贡献者, ^‡通讯作者

💡 我们还有其他生成式项目，或许也会引起你的兴趣 ✨。

个性化视频生成：进展、应用与挑战
Jinfa Huang, Shenghai Yuan, Kunyang Li, and Meng Cao etc.

📑 引用

如果你的工作中使用了本仓库的内容，请考虑引用我们的论文。衷心感谢！

@misc{xiong2024autoregressive,
    title={Autoregressive Models in Vision: A Survey},
    author={Jing Xiong and Gongye Liu and Lun Huang and Chengyue Wu and Taiqiang Wu and Yao Mu and Yuan Yao and Hui Shen and Zhongwei Wan and Jinfa Huang and Chaofan Tao and Shen Yan and Huaxiu Yao and Lingpeng Kong and Hongxia Yang and Mi Zhang and Guillermo Sapiro and Jiebo Luo and Ping Luo and Ngai Wong},
    year={2024},
    eprint={2411.05902},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}

📣 最新动态

[2025-11-01] ⏸️ 经过一年自回归视觉生成技术的快速发展，目前该领域已形成两大明确趋势：统一的多模态模型和自回归扩散驱动的视频生成。我们现有的仓库分类已无法全面反映这一不断演化的格局，因此我们将进入维护模式，并从今天起暂停主动更新。不过，仓库仍可作为参考资料使用，我们也欢迎针对新趋势的定向 PR 提交（如新增内容、修正错误或重新组织结构）。感谢大家的支持！🙏

[2025-05-31] 🔥 我们的综述已在 arXiv 上进行了修订！修订后的论文精简了内容，并进一步深化了以下方面的讨论：

连续自回归方法
计算成本
更详细的评估指标
扩展未来应用路线图

[2025-03-11] 🔥 我们的综述《视觉领域的自回归模型：综述》已被 TMLR 2025 接受！

[2024-11-11] 我们发布了综述：《视觉领域的自回归模型：综述》。

[2024-10-13] 我们正式启用了该仓库。

⚡ 贡献

我们欢迎所有反馈、建议以及有助于改进本综述和仓库的贡献，使其成为整个社区的宝贵资源。我们将根据新出现的研究成果，持续维护本仓库。如果你对我们的分类体系有任何建议，或者发现遗漏的论文，又或是有已被某个会议或期刊接受的预印本论文，都欢迎随时提出。

如果你想将自己的工作或模型加入本列表，请随时发送邮件至 jhuang90@ur.rochester.edu，或提交拉取请求。Markdown 格式如下：

* [**会议或期刊名称 + 年份**] 论文标题。[论文](链接) [代码](链接)

图像生成

无条件/类别条件图像生成

像素级生成
- [ICML, 2021 口头报告] 通过分布平滑改进自回归建模论文代码
- [ICML, 2020] ImageGPT： 从像素进行生成式预训练论文
- [ICML, 2018] Image Transformer 论文代码
- [ICML, 2018] PixelSNAIL： 一种改进的自回归生成模型论文代码
- [ICML, 2017] 并行多尺度自回归密度估计论文
- [ICLR 工作坊, 2017] Gated PixelCNN： 生成可解释且结构可控的图像论文
- [ICLR, 2017] PixelCNN++： 通过离散逻辑混合似然及其他改进提升 PixelCNN 论文代码
- [NeurIPS, 2016] PixelCNN 条件图像生成与 PixelCNN 解码器论文代码
- [ICML, 2016] PixelRNN 像素递归神经网络论文代码
令牌级生成

令牌化器
- [Arxiv, 2025.07] 视觉基础模型作为自回归生成的有效视觉令牌化器论文代码
- [Arxiv, 2025.07] 自回归图像生成的整体令牌化器论文代码
- [Arxiv, 2025.06] Instella-T2I：突破一维离散潜在空间图像生成的极限论文
- [Arxiv, 2025.05] D-AR：通过自回归模型实现扩散论文代码
- [Arxiv, 2025.05] 在一维潜在空间中学习自适应且具有时间因果性的视频令牌化论文代码
- [Arxiv, 2025.04] 为自回归图像生成提炼语义感知顺序论文
- [Arxiv, 2025.04] Token-Shuffle：迈向使用自回归模型的高分辨率图像生成论文
- [CVPR, 2025] 通过面向聚类的令牌预测改进自回归视觉生成代码论文
- [Arxiv, 2025.03] 等变图像建模论文代码
- [Arxiv, 2025.03] V2Flow：统一视觉令牌化与大型语言模型词汇表，用于自回归图像生成论文代码
- [Arxiv, 2025.02] FlexTok： 将图像重采样为灵活长度的一维令牌序列论文
- [Arxiv, 2025.01] ARFlow： 混合线性注意力的自回归流论文代码
- [Arxiv, 2024.12] TokenFlow： 多模态理解与生成的统一图像令牌化器论文代码
- [Arxiv, 2024.12] 自回归视觉生成的下一补丁预测论文代码
- [Arxiv, 2024.12] XQ-GAN：一个用于自回归生成的开源图像令牌化框架论文代码
- [Arxiv, 2024.12] RandAR：仅解码器的随机顺序自回归视觉生成。论文代码项目
- [Arxiv, 2024.11] 随机自回归视觉生成。论文代码项目
- [Arxiv, 2024.09] Open-MAGVIT2： 民主化自回归视觉生成论文代码
- [Arxiv, 2024.06] OmniTokenizer： 用于视觉生成的图像-视频联合令牌化器论文代码
- [Arxiv, 2024.06] 将 VQGAN 的码本大小扩展至 10 万，利用率高达 99% 论文代码
- [Arxiv, 2024.06] Titok 一张图像在重建和生成中价值 32 个令牌论文代码
- [Arxiv, 2024.06] 小波变换是自回归图像生成所需的全部论文
- [Arxiv, 2024.06] LlamaGen 自回归模型胜过扩散模型：Llama 实现规模化图像生成论文代码
- [ICLR, 2024] MAGVIT-v2 语言模型胜过扩散模型——令牌化器是视觉生成的关键论文
- [ICLR, 2024] FSQ 有限标量量化：让 VQ-VAE 变得简单论文代码
- [ICCV, 2023] Efficient-VQGAN： 以高效的视觉 Transformer 实现高分辨率图像生成论文
- [CVPR, 2023] 迈向精确的图像编码：利用动态矢量量化改进自回归图像生成论文代码
- [CVPR, 2023，亮点] MAGVIT： 掩码生成式视频 Transformer 论文
- [NeurIPS, 2023] MoVQ： 调制量化向量以实现高保真图像生成论文
- [BMVC, 2022] 使用多模态交叉量化器进行无条件图文对生成论文代码
- [CVPR, 2022] RQ-VAE 利用残差量化进行自回归图像生成论文代码
- [ICLR, 2022] ViT-VQGAN 改进的 VQGAN 实现矢量量化图像建模论文
- [PMLR, 2021] 利用稀疏表示生成图像论文
- [CVPR, 2021] VQGAN 用变压器驾驭高分辨率图像合成论文代码
- [NeurIPS, 2019] 利用 VQ-VAE-2 生成多样且高保真的图像论文代码
- [NeurIPS, 2017] VQ-VAE 神经离散表征学习论文

自回归建模

- **[Arxiv, 2025.11]** InfinityStar：用于视觉生成的统一时空自回归建模 [论文](https://arxiv.org/pdf/2511.04675) [代码](https://github.com/FoundationVision/InfinityStar)
- **[Arxiv, 2025.10]** FARMER：基于像素的流自回归Transformer [论文](https://arxiv.org/pdf/2510.23588)
- **[Arxiv, 2025.10]** SSD：空间-语义头解耦以实现高效的自回归图像生成 [论文](https://arxiv.org/pdf/2510.18716)
- **[NeurIPS, 2025]** 视觉自回归模型在推理时间扩展性上超越扩散模型 [论文](https://arxiv.org/pdf/2510.16751)
- **[NeurIPS, 2025]** 更好更快的自回归图像生成：从熵的角度 [论文](https://arxiv.org/pdf/2510.09012) [代码](https://github.com/krennic999/ARsample)
- **[Arxiv, 2025.09]** 超球形潜在变量提升连续标记自回归生成 [论文](https://arxiv.org/abs/2509.24335) [代码](https://github.com/guolinke/SphereAR)
- **[Arxiv, 2025.09]** 随心而行：为自回归图像生成扩展置信度 [论文](https://arxiv.org/pdf/2509.26376) [代码](https://github.com/EnVision-Research/ScalingAR)
- **[NeurIPS, 2025]** 先理解再生成：自引导训练用于自回归图像生成 [论文](https://arxiv.org/pdf/2509.15185) [代码](https://github.com/yuexy/ST-AR)
- **[Arxiv, 2025.08]** 利用判别码本先验进行自回归图像生成 [论文](https://arxiv.org/pdf/2508.10719)
- **[Arxiv, 2025.08]** NextStep-1：迈向大规模连续标记自回归图像生成 [论文](https://arxiv.org/pdf/2508.10711) [代码](https://github.com/stepfun-ai/NextStep-1)
- **[Arxiv, 2025.07]** 频率感知自回归建模用于高效高分辨率图像合成 [论文](https://arxiv.org/pdf/2507.20454) [代码](https://github.com/Caesarhhh/SparseVAR)
- **[Arxiv, 2025.07]** TTS-VAR：视觉自回归生成的测试时缩放框架 [论文](https://arxiv.org/pdf/2507.18537) [代码](https://github.com/ali-vilab/TTS-VAR)
- **[Arxiv, 2025.07]** 转移匹配：可扩展且灵活的生成式建模 [论文](https://arxiv.org/pdf/2506.23589)
- **[Arxiv, 2025.07]** 重新思考离散标记：将其视为连续自回归图像合成的条件 [论文](https://arxiv.org/pdf/2507.01756)
- **[CVPR, 2025]** OmniGen：统一图像生成 [论文](https://openaccess.thecvf.com/content/CVPR2025/html/Xiao_OmniGen_Unified_Image_Generation_CVPR_2025_paper.html) [代码](https://github.com/VectorSpaceLab/OmniGen)
- **[Arxiv, 2025.06]** AR-RAG：用于图像生成的自回归检索增强 [论文](https://arxiv.org/pdf/2506.06962) [代码](https://github.com/PLUM-Lab/AR-RAG)
- **[Arxiv, 2025.06]** 将自回归Transformer与扩散模型结合，采用多参考自回归 [论文](https://arxiv.org/pdf/2506.09482) [代码](https://github.com/TransDiff/TransDiff)
- **[Arxiv, 2025.06]** MADFormer：混合自回归与扩散Transformer用于连续图像生成 [论文](https://arxiv.org/pdf/2506.07999)
- **[Arxiv, 2025.06]** SpectralAR：频谱自回归视觉生成 [论文](https://arxiv.org/pdf/2506.10962) [代码](https://github.com/huang-yh/SpectralAR)
- **[Arxiv, 2025.06]** AliTok：迈向标记器与自回归模型之间序列建模的一致性 [论文](https://arxiv.org/pdf/2506.05289) [代码](https://github.com/ali-vilab/alitok)
- **[Arxiv, 2025.05]** DetailFlow：通过下一细节预测实现的1D粗细结合自回归图像生成 [论文](https://arxiv.org/pdf/2505.21473) [代码](https://github.com/ByteFlow-AI/DetailFlow)
- **[Arxiv, 2025.05]** TensorAR：自回归图像生成中只需精细化即可 [论文](https://arxiv.org/pdf/2505.16324)
- **[Arxiv, 2025.05]** MVAR：具有尺度和空间马尔可夫条件的视觉自回归建模 [论文](https://arxiv.org/abs/2505.12742) [代码](https://github.com/LabShuHangGU/MVAR)
- **[ICML, 2025]** 通过分数最大化实现连续视觉自回归生成 [论文](https://arxiv.org/pdf/2505.07812) [代码](https://github.com/shaochenze/EAR)
- **[Arxiv, 2025.04]** GigaTok：将视觉标记器扩展至30亿参数以支持自回归图像生成 [论文](https://arxiv.org/pdf/2504.08736) [代码](https://github.com/SilentView/GigaTok)
- **[Arxiv, 2025.03]** D2C：利用离散标记释放连续自回归图像生成的潜力 [论文](https://arxiv.org/pdf/2503.17155)
- **[Arxiv, 2025.03]** 桥接连续与离散标记以实现自回归视觉生成 [论文](https://arxiv.org/pdf/2503.16430) [代码](https://github.com/yuqingwang1029/TokenBridge)
- **[Arxiv, 2025.03]** 带有随机并行解码的自回归图像生成 [论文](https://arxiv.org/abs/2503.10568) [代码](https://github.com/hp-l33/ARPG)
- **[Arxiv, 2025.03]** 方向感知的对角线自回归图像生成 [论文](https://arxiv.org/pdf/2503.11129)
- **[Arxiv, 2025.03]** 邻近自回归建模用于高效视觉生成 [论文](https://arxiv.org/pdf/2503.10696) [代码](https://github.com/ThisisBillhe/NAR)
- **[Arxiv, 2025.03]** NFIG：带有下一频率预测的自回归图像生成 [论文](https://arxiv.org/abs/2503.07076)
- **[Arxiv, 2025.03]** 带有连续标记的频率自回归图像生成 [论文](https://arxiv.org/pdf/2503.05305) [代码](https://github.com/yuhuUSTC/FAR)
- **[Arxiv, 2025.03]** ARINAR：双层自回归逐特征生成模型 [论文](https://arxiv.org/pdf/2503.02883) [代码](https://github.com/Qinyu-Allen-Zhao/Arinar)
- **[Arxiv, 2025.02]** 不止于下一个标记：自回归视觉生成中的下一-X预测 [论文](https://arxiv.org/pdf/2502.20388) [代码](https://github.com/OliverRensu/xAR) [项目](https://arxiv.org/pdf/2502.20388)
- **[Arxiv, 2025.02]** 分形生成模型 [论文](https://arxiv.org/pdf/2502.17437) [代码](https://github.com/LTH14/fractalgen)
- **[Arxiv, 2025.01]** 关于从视频中进行自回归预训练的实证研究 [论文](https://arxiv.org/pdf/2501.05453)
- **[Arxiv, 2024.12]** E-CAR：通过多阶段建模实现高效的连续自回归图像生成 [论文](https://arxiv.org/pdf/2412.14170)
- **[Arxiv, 2024.12]** 驯服可扩展的视觉标记器以支持自回归图像生成 [论文](https://arxiv.org/pdf/2412.02692) [代码](https://github.com/TencentARC/SEED-Voken)
- **[Arxiv, 2024.11]** 样本和参数高效的自回归图像模型 [论文](https://arxiv.org/pdf/2411.15648) [代码](https://github.com/elad-amrani/xtra)
- **[Arxiv, 2024.01]** 大型自回归图像模型的可扩展预训练 [论文](https://arxiv.org/abs/2401.08541) [代码](https://github.com/apple/ml-aim)
- **[Arxiv, 2024.10]** ImageFolder：带有折叠标记的自回归图像生成 [论文](https://arxiv.org/abs/2410.01756) [代码](https://github.com/lxa9867/ImageFolder)
- **[Arxiv, 2024.10]** **SAR** 使用集合自回归建模定制你的视觉自回归配方 [论文](https://arxiv.org/abs/2410.10511) [代码](https://github.com/poppuppy/SAR)
- **[Arxiv, 2024.08]** **AiM** 使用Mamba实现可扩展的自回归图像生成 [论文](https://arxiv.org/pdf/2408.12245) [代码](https://github.com/hp-l33/AiM)
- **[Arxiv, 2024.06]** **ARM** 在视觉领域使用Mamba进行自回归预训练 [论文](https://arxiv.org/abs/2406.07537) [代码](https://github.com/OliverRensu/ARM)
- **[Arxiv, 2024.06]** **MAR** 无需向量量化即可进行自回归图像生成 [论文](https://arxiv.org/pdf/2406.11838) [代码](https://github.com/LTH14/mar)
- **[Arxiv, 2024.06]** **LlamaGen** 自回归模型击败扩散模型：Llama用于可扩展图像生成 [论文](https://arxiv.org/pdf/2406.06525) [代码](https://github.com/FoundationVision/LlamaGen)
- **[ICML, 2024]** **DARL**：去噪自回归表征学习 [论文](https://arxiv.org/pdf/2403.05196)
- **[ICML, 2024]** **DisCo-Diff**：用离散潜在变量增强连续扩散模型 [论文](https://arxiv.org/pdf/2407.03300) [代码](https://github.com/gcorso/disco-diffdock)
- **[ICML, 2024]** **DeLVM**：通过顺序自回归实现数据高效的大型视觉模型 [论文](https://arxiv.org/pdf/2402.04841) [代码](https://github.com/ggjy/DeLVM)
- **[AAAI, 2023]** **SAIM** 探索用于视觉表征的随机自回归图像建模 [论文](https://arxiv.org/pdf/2212.01610) [代码](https://github.com/qiy20/SAIM)
- **[NeurIPS, 2021]** **ImageBART**：使用多项式扩散提供上下文以进行自回归图像合成 [论文](https://arxiv.org/pdf/2108.08827) [代码](https://github.com/CompVis/imagebart)
- **[CVPR, 2021]** **VQGAN**：驯服Transformer以实现高分辨率图像合成 [论文](https://arxiv.org/pdf/2012.09841) [代码](https://github.com/CompVis/taming-transformers)
- **[ECCV, 2020]** **RAL**：在自回归图像生成中引入强化对抗学习 [论文](https://arxiv.org/pdf/2007.09923)
- **[NeurIPS, 2019]** 使用VQ-VAE-2生成多样且高保真图像 [论文](https://arxiv.org/pdf/1906.00446) [代码](https://github.com/rosinality/vq-vae-2-pytorch)
- **[NeurIPS, 2017]** **VQ-VAE**：神经离散表征学习 [论文](https://arxiv.org/pdf/1711.00937)

分尺度自回归生成
- [Arxiv, 2025.10] 用于视觉自回归模型的动态专家混合论文
- [Arxiv, 2025.09] SoftCFG：不确定性引导的稳定指导用于视觉自回归模型论文
- [Arxiv, 2025.09] 并非所有标记都同等重要：改进视觉自回归模型中的指导论文
- [Arxiv, 2025.09] 分尺度VAR实际上是离散扩散论文代码项目
- [Arxiv, 2025.05] 用于模型无关联邦MRI重建的生成式自回归Transformer 论文代码
- [ICML, 2025] 连续视觉自回归生成通过分数最大化论文代码
- [Arxiv, 2025.02] FlexVAR：无残差预测的灵活视觉自回归建模论文代码
- [Arxiv, 2024.12] FlowAR：分尺度自回归图像生成与流匹配相结合论文代码
- [Arxiv, 2024.11] M-VAR：解耦的分尺度自回归建模用于高质量图像生成论文代码
- [NeurIPS 2024最佳论文] 视觉自回归建模：通过下一尺度预测实现可扩展图像生成论文代码

文本到图像生成

逐标记生成
- [ICML, 2025] 离散JEPA：无需重建即可学习离散标记表示论文
- [Arxiv, 2025.04] Lumina-mGPT 2.0：独立的自回归图像建模论文代码
- [Arxiv, 2025.03] Lumina-Image 2.0：统一且高效的图像生成框架论文代码
- [Arxiv, 2024.12] Liquid：语言模型是可扩展的多模态生成器论文代码
- [Arxiv, 2024.12] Infinity：面向高分辨率图像合成的位级自回归建模扩展论文代码
- [Arxiv, 2024.12] TokenFlow：用于多模态理解和生成的统一图像标记器论文代码
- [Arxiv, 2024.11] 通过预测下一个标记实现高分辨率图像合成论文代码
- [Arxiv, 2024.10] Fluid：利用连续标记扩展自回归文本到图像生成模型论文
- [Arxiv, 2024.10] DART：去噪自回归Transformer，用于可扩展的文本到图像生成论文代码
- [Arxiv, 2024.10] DnD-Transformer：视觉—语言智能的火花：用于高效细粒度图像生成的二维自回归Transformer 论文代码
- [Arxiv, 2024.08] Lumina-mGPT：通过多模态生成式预训练点亮灵活的逼真文本到图像生成论文代码
- [Arxiv, 2024.07] MARS：自回归模型混合，用于细粒度文本到图像合成论文代码
- [Arxiv, 2024.06] LLM4GEN：利用LLM的语义表示进行文本到图像生成论文代码
- [Arxiv, 2024.06] STAR：基于尺度的文本到图像生成，利用自回归表示论文代码
- [Arxiv, 2024.05] Kaleido Diffusion：通过自回归潜在建模改进条件扩散模型论文
- [CVPR, 2024] 超越文本：冻结大型语言模型在视觉信号理解中的应用论文代码
- [TOG, 2023] IconShop：基于文本引导的向量图标合成，使用自回归Transformer（svg图像）论文代码
- [NeurIPS, 2023] LQAE 语言量化自编码器：迈向无监督文本—图像对齐论文代码
- [TMLR, 2022.06] Parti：扩展自回归模型以实现内容丰富的文本到图像生成论文代码
- [NeurIPS, 2022] CogView2：通过层次化Transformer实现更快更好的文本到图像生成论文代码
- [ECCV, 2022] Make-A-Scene：基于场景的文本到图像生成，结合人类先验知识论文
- [CVPR, 2022] VQ-Diffusion：用于文本到图像合成的向量量化扩散模型论文代码
- [CVPR, 2022] Make-A-Story：视觉记忆条件下的连贯故事生成（讲故事）论文
- [NeurIPS, 2021] CogView：通过Transformer掌握文本到图像生成论文代码
- [Arxiv, 2021.02] DALL-E 1：零样本文本到图像生成论文
按尺度生成
- [Arxiv, 2024.12] Infinity：面向高分辨率图像合成的位级自回归建模扩展论文代码
- [Arxiv, 2024.12] SWITTI：为文本到图像生成设计按尺度划分的Transformer 论文代码页面
- [Arxiv, 2024.10] HART：利用混合自回归Transformer实现高效视觉生成论文代码
- [Arxiv, 2024.08] VAR-CLIP：带有视觉自回归建模的文本到图像生成器论文代码
- [Arxiv, 2024.06] STAR：基于尺度的文本到图像生成，利用自回归表示论文代码

图像到图像转换

[ICCV, 2025] CycleVAR：将自回归模型重新用于无监督的一步式图像转换论文
[ICML研讨会, 2024] MIS 多对多图像生成，使用自回归扩散模型论文
[Arxiv, 2024.03] SceneScript：用自回归结构化语言模型重建场景论文项目
[CVPR, 2024] 序列建模使大型视觉模型能够进行可扩展学习论文
[ECCV, 2022] QueryOTR：通过查询进行外延绘画论文代码
[NeurIPS, 2022] 通过图像修复进行视觉提示论文
[MM, 2021] 多样化的图像修复，采用双向和自回归Transformer 论文

图像编辑

[Arxiv, 2025.09] 面向下一尺度自回归文本驱动图像编辑的离散噪声反演论文
[Arxiv, 2025.08] 基于指令引导的视觉自回归模型用于图像编辑论文代码
[Arxiv, 2025.08] NEP：通过预测下一个编辑标记进行自回归图像编辑论文代码
[Arxiv, 2025.07] SCALAR：尺度可控的视觉自回归学习论文
[Arxiv, 2025.04] 锚定标记匹配：无需训练的AR图像编辑中的隐式结构锁定论文代码
[ICCV, 2025] 基于视觉自回归模型的免训练文本引导图像编辑论文代码
[Arxiv, 2025.01] EditAR：基于自回归模型的统一条件生成论文代码
[Arxiv, 2024.06] CAR：用于视觉生成的可控自回归建模论文代码
[ICLR, 2025] ControlAR：基于自回归模型的可控图像生成论文代码
[Arxiv, 2024.06] ControlVAR：探索可控的视觉自回归建模论文代码
[Arxiv, 2024.06] 医学视觉通用模型：在上下文中统一医学影像任务论文
[Arxiv, 2024.04] M2M 多对多图像生成与自回归扩散模型论文
[ECCV, 2022] VQGAN-CLIP：自然语言指导下的开放域图像生成与编辑论文
[ECCV, 2022] Make-A-Scene：基于场景的文本到图像生成，结合人类先验知识论文
[ICIP, 2021] MSGNet：生成包含多个连贯物体的高保真标注图像论文

视频生成

无条件视频生成

[Arxiv, 2025.03] FAR：适用于短时和长时上下文视频建模的帧自回归模型论文代码
[Arxiv, 2025.03] HiTVideo：用于增强文本到视频生成的分层标记器，结合自回归大型语言模型论文
[Arxiv, 2025.03] AR-Diffusion：异步自回归扩散视频生成论文代码
[Arxiv, 2025.02] 下一个区块预测：半自回归建模的视频生成论文代码
[Arxiv, 2025.01] 用于掩码自回归视频生成的驯服教师强迫法论文代码
[Arxiv, 2024.10] LARP：使用学习型自回归生成先验对视频进行标记化论文
[ECCV 2024] ST-LLM：大型语言模型是高效的时间序列学习者论文代码
[ICLR, 2024] MAGVIT-v2 语言模型胜过扩散模型——标记化是视觉生成的关键论文
[CVPR, 2023] PVDM 投影潜在空间中的视频概率扩散模型论文
[ECCV, 2022] 使用时间无关的VQGAN和时间敏感的Transformer进行长视频生成论文代码
[Arxiv, 2021.04] VideoGPT：利用VQ-VAE和Transformer进行视频生成论文
[Arxiv, 2020.06] 潜在空间视频Transformer 论文代码
[ICLR, 2020] 自回归视频模型的扩展论文
[CVPR, 2018] MoCoGAN：分解运动与内容以进行视频生成论文代码
[ICML, 2017] 视频像素网络论文

条件视频生成

文本到视频生成

- **[Arxiv, 2025.10]** 均匀离散扩散与度量路径用于视频生成 [论文](https://arxiv.org/abs/2510.24717) [代码](https://github.com/baaivision/URSA) [页面](https://bitterdhg.github.io/URSA_page/)
 - **[Arxiv, 2025.10]** 超越下一帧预测的自回归视频生成 [论文](https://www.arxiv.org/abs/2509.24081) 
 - **[Arxiv, 2025.07]** Lumos-1：从统一模型视角看自回归视频生成 [论文](https://arxiv.org/pdf/2507.08801) [代码](https://github.com/alibaba-damo-academy/Lumos)
 - **[Arxiv, 2025.05]** 生成式预训练自回归扩散Transformer [论文](https://arxiv.org/pdf/2505.07344) 
 - **[Arxiv, 2024.12]** **DiCoDe**：用于语言模型自回归视频生成的扩散压缩深度标记 [论文](https://arxiv.org/pdf/2412.04446) [页面](https://liyizhuo.com/DiCoDe/)
 - **[Arxiv, 2024.11]** Ca2-VDM：具有因果生成和缓存共享的高效自回归视频扩散模型 [论文](https://arxiv.org/pdf/2411.16375) [代码](https://github.com/Dawn-LX/CausalCache-VDM/)
 - **[Arxiv, 2024.10]** **ARLON**：利用自回归模型增强扩散Transformer以生成长视频 [论文](https://arxiv.org/pdf/2410.20502) [代码](http://aka.ms/arlon)
 - **[Arxiv, 2024.10]** 渐进式自回归视频扩散模型 [论文](https://arxiv.org/abs/2410.08151) [代码](https://github.com/desaixie/pa_vdm)
 - **[Arxiv, 2024.10]** **Pyramid Flow**：用于高效视频生成建模的金字塔流匹配 [论文](https://arxiv.org/pdf/2410.05954) [代码](https://github.com/jy0205/Pyramid-Flow)
 - **[Arxiv, 2024.10]** **Loong**：使用自回归语言模型生成分钟级长视频 [论文](https://arxiv.org/pdf/2410.02757)
 - **[Arxiv, 2024.06]** **Pandora**：迈向具备自然语言动作与视频状态的通用世界模型 [论文](https://arxiv.org/pdf/2406.09455) [代码](https://github.com/maitrix-org/Pandora)
 - **[Arxiv, 2024.06]** **iVideoGPT**：交互式VideoGPT是可扩展的世界模型 [论文](https://arxiv.org/pdf/2405.15223) [代码](https://github.com/thuml/iVideoGPT)
 - **[Arxiv, 2024.06]** **ViD-GPT**：在视频扩散模型中引入GPT风格的自回归生成 [论文](https://arxiv.org/pdf/2406.10981) [代码](https://github.com/Dawn-LX/Causal-VideoGen)
 - **[Arxiv, 2024.02]** **LWM**：基于分块环形注意力的百万长度视频与语言世界模型 [论文](https://arxiv.org/pdf/2402.08268) [代码](https://github.com/LargeWorldModel/LWM)
 - **[CVPR, 2024]** **ART-V**：利用扩散模型进行自回归文本到视频生成 [论文](https://arxiv.org/pdf/2311.18834)
 - **[NeurIPS, 2022]** **NUWA-Infinity**：通过自回归叠加实现无限视觉合成 [论文](https://arxiv.org/pdf/2207.09814) [代码](https://github.com/microsoft/NUWA)
 - **[ECCV, 2022]** **NÜWA**：用于神经视觉世界创造的视觉合成预训练 [论文](https://arxiv.org/pdf/2111.12417) [代码](https://github.com/microsoft/NUWA)
 - **[Arxiv, 2022.05]** **CogVideo**：通过Transformer进行大规模文本到视频生成预训练 [论文](https://arxiv.org/pdf/2205.15868) [代码](https://github.com/THUDM/CogVideo)
 - **[Arxiv, 2022.05]** **GODIVA**：根据自然描述生成开放领域视频 [论文](https://arxiv.org/pdf/2104.14806)
 - **[IJCAI, 2021]** **IRC-GAN**：用于文本到视频生成的内省递归卷积GAN。 [论文](https://www.ijcai.org/Proceedings/2019/0307.pdf)

视觉条件视频生成
- [Arxiv, 2025.06] VideoMAR：使用连续标记的自回归视频生成论文代码
- [Arxiv, 2025.06] DeepVerse：作为世界模型的4D自回归视频生成论文代码
- [Arxiv, 2025.05] 通过下一片段扩散的Video-GPT 论文代码
- [Arxiv, 2025.04] GenDoP：作为摄影指导的自回归摄像机轨迹生成论文代码
- [Arxiv, 2024.10] MarDini：用于规模化视频生成的掩码自回归扩散论文
- [CVPR, 2024] LVM 序列建模使大型视觉模型能够进行可扩展学习论文代码
- [ICIP, 2022] HARP：具有高保真图像生成器的自回归潜在视频预测论文
- [Arxiv, 2021.03] 使用VQVAE预测视频论文
- [CVPR, 2021] 利用cINNs进行随机图像到视频合成论文代码
- [ICLR, 2019] Eidetic 3d lstm：一种用于视频预测及更多用途的模型论文
- [ICLR, 2018] 随机变分视频预测论文
- [NeurIPS, 2017] Predrnn：利用时空LSTM进行预测性学习的循环神经网络论文
- [NeurIPS, 2015] 卷积LSTM网络：一种用于降水临近预报的机器学习方法论文

多模态条件视频生成

- **[Arxiv, 2025.01]** VideoAuteur: 通往长篇叙事视频生成之路  [论文](https://arxiv.org/abs/2501.06173) [代码](https://github.com/lambert-x/VideoAuteur)
- **[Arxiv, 2024.12]** 无需向量量化自回归视频生成 [论文](https://arxiv.org/pdf/2412.14169) [代码](https://github.com/baaivision/NOVA)
- **[ICML, 2024]** **Video-LaVIT**: 基于解耦视觉-动作标记化的统一视频-语言预训练 [论文](https://arxiv.org/pdf/2402.03161) [代码](https://github.com/jy0205/LaVIT)
- **[ICML, 2024]** **VideoPoet**: 用于零样本视频生成的大型语言模型 [论文](https://arxiv.org/pdf/2312.14125)
- **[CVPR, 2023]** **MAGVIT**: 掩码生成式视频Transformer [论文](https://arxiv.org/pdf/2212.05199)
- **[CVPR, 2022]** 让它动起来：基于文本描述的可控图像到视频生成 [论文](http://openaccess.thecvf.com/content/CVPR2022/papers/Hu_Make_It_Move_Controllable_Image-to-Video_Generation_With_Text_Descriptions_CVPR_2022_paper.pdf) [代码](https://github.com/Youncy-Hu/MAGE)

自回归扩散驱动视频生成

[Arxiv, 2025.10] 实时运动可控自回归视频扩散论文代码
[Arxiv, 2025.10] 自我驱动++：迈向分钟级高质量视频生成论文代码
[Arxiv, 2025.10] 打包并驱动你的记忆：长篇且一致的视频生成论文代码
[Arxiv, 2025.09] LongLive：实时交互式长视频生成论文代码
[Arxiv, 2025.09] 滚动驱动：实时自回归长视频扩散论文网页代码
[Arxiv, 2025.08] MIDAS：通过实时自回归视频生成实现多模态交互式数字人合成论文项目
[Arxiv, 2025.08] 高质量与并行化自回归长视频生成的宏观-微观规划论文项目代码
[Arxiv, 2025.05] 自我驱动：弥合自回归视频扩散中的训练-测试差距论文代码
[Arxiv, 2025.04] MAGI-1: 规模化自回归视频生成论文代码
[Arxiv, 2025.04] SkyReels-V2：无限长度电影生成模型论文代码
[Arxiv, 2025.04] 在下一帧预测模型中打包输入帧上下文以进行视频生成论文代码
[CVPR, 2025] AR-Diffusion：基于自回归扩散的异步视频生成论文代码
[CVPR, 2025] 从慢速双向到快速自回归视频扩散模型论文代码
[NeurIPS, 2024] FIFO-Diffusion：无需训练即可从文本生成无限视频论文代码

身体化AI

[Arxiv, 2025.03] HybridVLA：在统一的视觉-语言-行动模型中实现扩散与自回归的协同论文代码
[Arxiv, 2024.12] Diffusion-VLA：通过统一的扩散与自回归扩展机器人基础模型论文页面
[Arxiv, 2024.10] Gr-2：具有网络规模知识的生成式视频-语言-行动模型，用于机器人操作论文
[Arxiv, 2024.05] iVideoGPT：交互式VideoGPT是可扩展的世界模型论文
[ICML, 2024] Genie：生成式交互环境论文
[ICLR, 2024] GR-1：释放大规模视频生成预训练以用于视觉机器人操作论文
[ICLR, 2023] IRIS Transformer是样本高效的世界模型论文

3D生成

动作生成

[Arxiv, 2025.06] 自回归表面切割论文代码
[CVPR, 2025] Teller: 基于自回归动作生成的实时流式音频驱动肖像动画论文页面
[CVPR, 2025] ScaMo: 探索自回归动作生成模型中的规模定律论文代码
[AAAI, 2024] AMD: 自回归动作扩散论文代码
[ECCV, 2024] BAMM: 双向自回归动作模型论文代码
[CVPR, 2023] T2M-GPT: 基于离散表示从文本描述生成人体动作论文
[Arxiv, 2022] HiT-DVAE: 基于层次化Transformer动力学VAE的人体动作生成论文
[ICCV, 2021口头报告] HuMoR: 用于鲁棒姿态估计的3D人体动作模型论文代码

点云生成

[Arxiv, 2025.06] ShapeLLM-Omni: 用于3D生成与理解的原生多模态LLM 论文代码
[Siggraph, 2025] OctGPT: 基于八叉树的多尺度自回归模型用于3D形状生成论文代码
[Arxiv, 2025.04] 基于八叉树的自适应标记化实现高效自回归形状生成论文页面
[CVPR, 2025] TreeMeshGPT: 基于自回归树序列的艺术化网格生成论文代码
[Arxiv, 2025] 通过自回归上采样生成3D点云论文
[Arxiv, 2024.02] 将自回归模型在3D形状生成领域的容量与可扩展性推向极限论文
[ECCV, 2022] 通过规范映射进行自回归3D形状生成论文
[CVPR研讨会, 2023] 八叉树Transformer：基于层次结构序列的自回归3D形状生成论文

3D医学生成

[Arxiv, 2024] 用于3D医学图像表示的自回归序列建模论文
[Arxiv, 2024] 医学视觉通用模型：在上下文中统一医学影像任务论文代码
[MIDL, 2024] 基于VQGAN和时序无关掩码Transformer的条件化3D脑肿瘤ROI生成论文
[NMI, 2024] 脑部的真实感形态保持生成建模论文代码
[Arxiv, 2023] 利用向量量化生成对抗网络在MRI中生成3D脑肿瘤区域论文
[ICCV, 2023] 使用条件向量量化编码扩散结合Transformer实现未对齐的2D到3D转换论文代码
[MICCAI, 2022] 形态保持的自回归3D脑部生成建模论文代码

多模态生成

统一理解与生成的多模态大语言模型

[NeurIPS, 2025] JavisGPT：用于音视频理解和生成的统一多模态大语言模型论文
[Arxiv, 2025.10] 波粒二象性（连续-离散）双重视觉标记化，用于统一理解和生成论文代码
[Arxiv, 2025.10] NExT-OMNI：迈向任意到任意的全模态基础模型，采用离散流匹配论文
[Arxiv, 2025.10] Emu3.5：原生多模态模型是世界学习者论文代码
[Arxiv, 2025.10] PairUni：用于统一多模态语言模型的成对训练论文代码
[Arxiv. 2025.10] LightBagel：一种轻量级、双重融合框架，用于统一多模态理解和生成论文页面
[Arxiv. 2025.10] 用相机思考：一种以相机为中心的统一多模态模型，用于理解和生成论文代码
[Arxiv, 2025.10] SRUM：面向统一多模态模型的细粒度自我奖励机制论文代码
[Arxiv, 2025.10] UniFlow：一种用于视觉理解和生成的统一像素流标记器论文代码
[Arxiv, 2025.10] UniVideo：用于视频的统一理解、生成和编辑论文页面
[Arxiv, 2025.10] Ming-UniVision：使用统一的连续标记器进行图像理解和生成论文代码
[Arxiv, 2025.10] Lumina-DiMOO：一种全模态扩散大型语言模型，用于多模态生成和理解论文代码页面
[Arxiv, 2025.09] Query-Kontext：一种用于图像生成和编辑的统一多模态模型论文
[Arxiv, 2025.09] Lavida-O：弹性大型掩码扩散模型，用于统一多模态理解和生成论文
[Arxiv, 2025.09] MANZANO：一种简单且可扩展的统一多模态模型，配备混合视觉标记器论文
[Arxiv, 2025.09] RecA：重建对齐提升统一多模态模型性能论文代码
[Arxiv, 2025.09] 交错推理以改善文本到图像生成论文代码
[Arxiv, 2025.09] OneCAT：仅解码器的自回归模型，用于统一理解和生成论文代码页面
[Arxiv, 2025.08] TBAC-UniImage：通过阶梯式扩散调优实现统一理解和生成论文代码
[Arxiv, 2025.08] Bifrost-1：通过补丁级CLIP潜在表示连接多模态大语言模型和扩散模型论文代码
[Arxiv, 2025.08] Uni-COT：迈向跨文本和视觉的统一思维链推理论文代码
[Arxiv, 2025.08] UniEdit-I：通过迭代理解、编辑和验证，实现无需训练的统一VLM图像编辑论文
[Arxiv, 2025.08] Skywork UniPic：用于视觉理解和生成的统一自回归建模论文代码
[Arxiv, 2025.07] Omni-Video：民主化统一视频理解和生成论文代码
[Arxiv, 2025.07] Ovis-U1技术报告论文代码
[Qwen, 2025.07] Qwen VLo：从“理解”世界到“描绘”世界博客
[ICCV, 2025] USP：用于图像生成和理解的统一自监督预训练论文代码
[Arxiv, 2025.06] UniCode²：用于统一多模态理解和生成的级联大规模编码本论文
[Arxiv, 2025.06] OmniGen2：探索先进的多模态生成论文代码
[Arxiv, 2025.06] 视觉作为一种方言：通过文本对齐的表征统一视觉理解和生成论文代码
[Arxiv, 2025.06] UniFork：探索模态对齐以实现统一多模态理解和生成论文代码
[Arxiv, 2025.06] Show-o2：改进的原生统一多模态模型论文代码
[Arxiv, 2025.06] Ming-Omni：一种用于感知和生成的统一多模态模型论文代码
[Arxiv, 2025.06] Pisces：一个用于图像理解和生成的自回归基础模型论文
[Arxiv, 2025.06] UniWorld：高分辨率语义编码器，用于统一视觉理解和生成论文代码
[Arxiv, 2025.06] ShapeLLM-Omni：一个用于3D生成和理解的原生多模态大语言模型论文代码
[Arxiv, 2025.05] Muddit：借助统一的离散扩散模型，将生成能力从文本到图像扩展到更广泛领域论文代码
[Arxiv, 2025.05] OpenUni：一个用于统一多模态理解和生成的简单基线论文代码
[Arxiv, 2025.05] FUDOKI：基于离散流的统一理解和生成，通过动力学最优速度实现论文
[Arxiv, 2025.05] MMaDA：多模态大型扩散语言模型论文代码
[Arxiv, 2025.05] Ming-Lite-Uni：自然多模态交互的统一架构进展论文代码
[Arxiv, 2025.05] 统一多模态预训练中的新兴属性论文代码
[Arxiv, 2025.05] BLIP3-o：一个完全开放的统一多模态模型家族——架构、训练和数据集论文代码
[Arxiv, 2025.05] Selftok：自回归、扩散及推理用的离散视觉标记论文项目
[Arxiv, 2025.05] Nexus-Gen：一个用于图像理解、生成和编辑的统一模型论文代码
[Arxiv, 2025.05] TokLIP：将视觉标记嫁接到CLIP上，用于多模态理解和生成论文代码
[Arxiv, 2025.05] Mogao：一个用于交错多模态生成的全模态基础模型论文
[Arxiv, 2025.04] VARGPT-v1.1：通过迭代指令调优和强化学习改进视觉自回归大型统一模型论文代码
[Arxiv, 2025.04] ILLUME+：通过双重视觉标记化和扩散精炼照亮统一MLLM 论文代码
[OpenAI, 2025.03] GPT-4o系统卡附录：原生图像生成论文
[Arxiv, 2025.03] 为统一多模态理解和生成协调视觉表征论文代码
[Arxiv, 2025.03] 使用连续标记进行统一的自回归视觉生成和理解论文
[Arxiv, 2025.03] DualToken：迈向通过双重视觉词汇统一视觉理解和生成论文
[Arxiv, 2025.03] OmniMamba：通过状态空间模型实现高效且统一的多模态理解和生成论文代码
[Arxiv, 2025.02] UniTok：用于视觉生成和理解的统一标记器论文代码
[Arxiv, 2025.02] HermesFlow：无缝弥合多模态理解和生成之间的差距论文代码
[Arxiv, 2025.02] QLIP：文本对齐的视觉标记化统一了自回归多模态理解和生成论文代码
[Arxiv, 2025.01] Janus-Pro：通过数据和模型扩展实现统一多模态理解和生成论文代码
[Arxiv, 2025.01] VARGPT：在视觉自回归多模态大型语言模型中实现统一理解和生成论文代码
[Arxiv, 2024.12] LlamaFusion：将预训练语言模型适配用于多模态生成论文
[Arxiv, 2024.12] MetaMorph：通过指令调优实现多模态理解和生成论文页面
[Arxiv, 2024.12] Orthus：具有模态特异性头部的自回归交错图像-文本生成论文
[Arxiv, 2024.12] 多模态潜在语言建模与下一个标记扩散。论文
[Arxiv, 2024.12] ILLUME：点亮您的LLM，使其能够看见、绘制并自我增强。论文
[Arxiv, 2024.11] JanusFlow：调和自回归与修正流，以实现统一多模态理解和生成。论文项目
[Arxiv, 2024.11] 针对多模态大型语言模型的统一生成与判别训练。论文项目
[Arxiv, 2024.10] D-JEPA：采用联合嵌入预测架构进行去噪论文项目
[Arxiv, 2024.10] Janus：解耦视觉编码，以实现统一多模态理解和生成论文代码
[Arxiv, 2024.10] MMAR：迈向无损多模态自回归概率建模论文代码
[Arxiv, 2024.10] ACDC：利用扩散校正进行自回归连贯多模态生成论文代码
[Arxiv, 2024.09] Emu3：下一个标记预测就是你所需要的论文名称。论文代码项目
[Arxiv, 2024.09] VILA-U：一个整合视觉理解和生成的统一基础模型论文代码
[Arxiv, 2024.09] MIO：一个基于多模态标记的基础模型论文
[Arxiv, 2024.08] Show-o：一个单一的Transformer即可统一多模态理解和生成论文代码
[Arxiv, 2024.08] Transfusion：用一个多模态模型预测下一个标记并扩散图像论文代码
[Arxiv, 2024.07] SEED-Story：使用大型语言模型进行多模态长篇故事生成论文代码
[Arxiv, 2024.05] Chameleon：混合模态早期融合基础模型论文代码
[Arxiv, 2024.04] SEED-X：具有统一多粒度理解和生成能力的多模态模型论文代码
[ICML, 2024] Libra：在大型语言模型上构建解耦的视觉系统论文代码
[CVPR, 2024] Unified-IO 2：通过视觉、语言、音频和动作扩展自回归多模态模型论文代码
[CVPR, 2024] Anole：一个开放、自回归且原生的多模态模型，用于交错图像-文本生成论文代码
[Arxiv, 2023.11] InstructSeq：通过指令条件下的多模态序列生成统一视觉任务论文代码
[ICLR, 2024] Kosmos-G：使用多模态大型语言模型在上下文中生成图像论文代码
[ICLR, 2024] LaVIT：在LLM中进行动态离散视觉标记化的统一语言-视觉预训练论文代码
[ICLR, 2024] SEED-LLaMA：通过SEED标记使LLaMA能够看见和绘画论文代码
[ICLR, 2024] EMU：在多模态中进行生成式预训练论文代码
[Arxiv, 2023.09] CM3Leon：扩展自回归多模态模型：预训练和指令调优论文代码
[Arxiv, 2023.07] SEED：在大型语言模型中播下视觉的种子论文代码
[NeurIPS, 2023] SPAE：语义金字塔自编码器，用于在冻结LLM上进行多模态生成论文
[ICLR, 2023] Unified-IO：一个用于视觉、语言和多模态任务的统一模型论文代码
[ICML, 2023] 将语言模型与图像结合，用于多模态输入和输出论文代码
[NeurIPS, 2022] Flamingo：一种用于少样本学习的视觉语言模型论文
[Arxiv, 2021.12] ERNIE-ViLG：用于双向视觉-语言生成的统一生成式预训练论文
[KDD, 2021] M6：一个中文多模态预训练器论文

个性化图像生成

[Arxiv, 2025.10] TokenAR：通过自回归的标记级增强实现多主体生成论文代码
[Arxiv, 2025.09] EchoGen：利用前馈式主体驱动的自回归模型在任意场景中生成视觉回声论文
[Arxiv, 2025.08] CoAR：将概念注入自回归模型以实现个性化文生图论文代码
[ICCV, 2025] CSD-VAR：视觉自回归模型中的内容-风格分解论文
[Arxiv, 2025.07] 基于尺度自回归模型的无训练风格个性化方法论文
[Arxiv, 2025.04] 基于尺度自回归模型的无训练风格对齐图像生成论文
[Arxiv, 2025.04] 利用自回归模型进行个性化文生图论文代码
[CVPR, 2025] 零样本风格化文生图，但要采用自回归方式论文

其他生成

[Arxiv, 2025.05] RestoreVAR：用于一体化图像修复的视觉自回归生成论文代码
[Arxiv, 2025.04] TAPNext：将任意点跟踪（TAP）视为下一个标记预测论文
[Arxiv, 2025.04] 超越文字：通过多模态自回归模型推进长文本图像生成论文代码
[Arxiv, 2025.03] VARSR：用于图像超分辨率的视觉自回归建模论文代码
[Arxiv, 2025.03] 下一尺度自回归模型是零样本单张图像对象视图合成器论文代码
[Arxiv, 2025.03] 感知、理解与修复：基于自回归多模态生成模型的真实世界图像超分辨率论文代码
[Arxiv, 2025.02] ARTalk：通过自回归模型实现语音驱动的3D头部动画论文代码
[Arxiv, 2025.02] 多自回归预测用于建模交互作用论文
[Arxiv, 2025.02] SongGen：一种用于文本到歌曲生成的单阶段自回归Transformer 论文代码
[Arxiv, 2024.12] DriveGPT：扩展用于驾驶的自回归行为模型论文
[TII, 2025] VarAD：通过视觉自回归建模实现轻量级高分辨率图像异常检测论文代码
[Arxiv, 2024.12] DrivingGPT：利用多模态自回归Transformer统一驾驶世界建模与规划论文页面
[Arxiv, 2024.12] 推进视频帧的自回归续写论文
[Arxiv, 2024.12] 需要两个人：通过反应式自回归扩散模型实时生成两人对话互动论文
[Arxiv, 2024.12] X-Prompt：迈向自回归视觉语言基础模型中的通用上下文图像生成论文代码
[Arxiv, 2024.12] 3D-WAG：用于高保真3D形状的分层小波引导自回归生成论文代码
[Arxiv, 2024.11] SAR3D：通过多尺度3D VQVAE实现自回归3D对象生成与理解论文代码
[Arxiv, 2024.11] 可扩展的自回归单目深度估计论文
[Arxiv, 2024.11] LLaMA-Mesh：用语言模型统一3D网格生成论文代码
[Arxiv, 2024.10] DART：一种基于扩散的自回归运动模型，用于实时文本驱动的运动控制论文
[Arxiv, 2024.10] 用于机器人操作的自回归动作序列学习论文代码
[Arxiv, 2024.09] BAD：用于文本到运动生成的双向自回归扩散论文代码
[Arxiv, 2024.07] 视频上下文学习论文
[CVPR, 2024] 序列建模使大型视觉模型实现可扩展学习论文代码
[AAAI, 2024] 自回归全感知外延填充用于开放词汇360度图像生成论文代码
[arxiv, 2024] LM4LV：用于低级视觉任务的冻结大型语言模型论文代码
[CVPR, 2024] ARTrackV2：通过提示指导自回归跟踪器关注何处及如何描述论文代码
[CVPR, 2023亮点] 自回归视觉跟踪论文代码
[CVPR, 2023] 视觉思维链：通过多模态补全弥合逻辑空白论文
[NeurIPS, 2022] 通过图像修复进行视觉提示论文代码
[EMNLP, 2022] MAGMA——通过基于适配器的微调增强生成模型论文
[NeurIPS, 2021] 使用冻结语言模型进行多模态少样本学习论文
[ECCV, 2020] 自回归无监督图像分割论文

基准测试 / 分析

[Arxiv, 2025.09] GenExam：多学科文本到图像考试论文代码
[Arxiv, 2025.09] 传话游戏：评估统一模型中的语义漂移论文代码
[Arxiv, 2025.08] Echo-4o：利用GPT-4o合成图像的力量提升图像生成质量论文代码
[Arxiv, 2025.07] GPT-IMAGE-EDIT-1.5M：百万规模的GPT生成图像数据集论文代码
[Arxiv, 2025.05] ImgEdit：统一的图像编辑数据集和基准测试论文代码
[Arxiv, 2025.05] RISEBench：超越像素的构想：基于推理的视觉编辑基准测试论文代码
[Arxiv, 2025.05] 统一视觉-语言模型是否必要：理解与生成之间的泛化能力论文代码
[Arxiv, 2025.05] TokBench：在进行视觉生成之前评估你的视觉分词器论文代码
[Arxiv, 2025.05] VTBench：评估用于自回归图像生成的视觉分词器论文代码
[Arxiv, 2025.05] UniEval：针对统一多模态理解和生成的综合评估论文代码
[Arxiv, 2025.05] WorldGenBench：一个融合世界知识的基准测试，用于推理驱动的文本到图像生成论文代码
[Arxiv, 2025.04] MME-Unify：针对统一多模态理解和生成模型的全面基准测试论文代码
[Arxiv, 2025.04] GPT-ImgEval：诊断GPT4o在图像生成中表现的全面基准测试论文代码
[Arxiv, 2025.03] WISE：一种受世界知识启发的文本到图像生成语义评估论文代码
[Arxiv, 2025.03] 自回归视频扩散模型的错误分析：一个统一的框架论文代码
[Arxiv, 2024.10] 扩散模型胜过自回归模型：对文本到图像模型中组合生成的评估论文

推理对齐

[Arxiv, 2025.10] 提升自回归图像生成的思维链效率论文
[Arxiv, 2025.09] STAGE：稳定且可推广的GRPO，用于自回归图像生成论文代码
[Arxiv, 2025.09] 针对自回归图像生成的关键标记策略优化论文代码
[Arxiv, 2025.09] 理解融入生成：通过将理解注入生成来强化统一模型的生成能力论文代码
[Arxiv, 2025.09] 理解与生成能否真正相互促进——还是仅仅共存？论文代码
[Arxiv, 2025.08] AR-GRPO：通过强化学习训练自回归图像生成模型论文代码
[Arxiv, 2025.08] 强化学习在自回归图像编辑中的潜力论文代码
[Arxiv, 2025.07] X-Omni：强化学习让离散自回归图像生成模型再次焕发生机论文代码页面
[Arxiv, 2025.07] 思维链化的扩散模型：让我们逐步强化T2I生成过程论文
[Arxiv, 2025.06] 深入研究带有思维链的强化学习在图像生成中的应用：DPO与GRPO的比较论文代码
[Arxiv, 2025.06] 通过强化学习解锁顿悟时刻：推进协作式视觉理解和生成论文代码
[Arxiv, 2025.06] ReasonGen-R1：通过SFT和RL为自回归图像生成模型提供思维链支持论文代码
[Arxiv, 2025.05] UniRL：通过监督学习和强化学习实现自我改进的统一多模态模型论文代码
[Arxiv, 2025.05] UniGen：增强统一多模态理解和生成的训练与测试阶段策略论文
[Arxiv, 2025.04] SimpleAR：通过预训练、SFT和强化学习推动自回归视觉生成的前沿论文代码
[Arxiv, 2025.03] LightGen：通过知识蒸馏和直接偏好优化实现高效图像生成论文代码
[Arxiv, 2025.02] 以思维链引导的自回归图像生成论文代码
[Arxiv, 2025.01] 我们能用思维链生成图像吗？让我们逐步验证并强化图像生成过程论文代码

安全性

[Arxiv, 2025.09] 弥合安全差距：视觉自回归模型中的手术级概念擦除论文
[Arxiv, 2025.06] 无限的BitMark：基于位级自回归图像生成模型的水印技术论文
[Arxiv, 2025.06] EAR：从统一自回归模型中擦除概念论文代码
[Arxiv, 2025.06] 自回归图像生成的水印技术论文代码
[Arxiv, 2025.06] 自回归图像生成模型的水印方案论文
[Arxiv, 2025.05] 针对自回归图像生成的免训练水印技术论文代码
[Arxiv, 2025.02] 图像自回归模型的隐私攻击论文代码

加速

[Arxiv, 2025.10] Hawk：利用空间上下文加速自回归文本到图像生成论文
[Arxiv, 2025.10] MC-SJD：最大耦合推测式雅可比解码用于加速自回归视觉生成论文
[NeurIPS 2025, Arxiv/2025.10] 推测式雅可比去噪解码用于加速自回归文本到图像生成论文
[Arxiv, 2025.09] Hyper-Bagel：多模态理解与生成的统一加速框架论文页面
[Arxiv, 2025.07] 局部感知并行解码用于高效自回归图像生成论文代码
[Arxiv, 2025.05] DiSA：自回归图像生成中的扩散步退火论文代码
[Arxiv, 2025.05] FastCar：缓存注意力重放用于边缘端快速自回归视频生成代码论文
[Arxiv, 2025.04] 用于连续潜在空间生成的快速自回归模型论文
[ICLR, 2025] 蒸馏解码1：通过流匹配实现图像自回归模型的一步采样论文代码
[CVPR口头报告, 2025] 扩散Transformer的自回归蒸馏论文代码
[Arxiv, 2025.04] 头部感知KV缓存压缩用于高效视觉自回归建模论文
[CVPR, 2025] 从慢速双向到快速自回归视频扩散模型论文代码
[Arxiv, 2025.03] 对角线解码实现快速自回归视频生成论文
[CVPR 2025, 2025/2024.12] 并行化自回归视觉生成论文代码
[Arxiv, 2024.11] 协作解码使视觉自回归建模更高效论文代码
[Arxiv, 2024.11] 连续推测式解码用于自回归图像生成论文代码
[ICLR, 2025/2024.10] 使用免训练推测式雅可比解码加速自回归文本到图像生成论文

稳定性与扩展性

[Arxiv, 2025.03] 通过粗粒度到细粒度的标记预测改进自回归图像生成论文代码
[Arxiv, 2025.03] 向自回归多模态基础模型教授度量距离论文
[Arxiv, 2024.12] 512字节内的3D表示：变分分词器是自回归3D生成的关键论文页面
[Arxiv, 2024.12] JetFormer：一种原始图像和文本的自回归生成模型论文
[Arxiv, 2024.10] 阐明用于图像生成的语言模型设计空间论文代码
[NeurIPS, 2024] 稳定图像自回归建模的潜在空间：统一视角论文代码
[Arxiv, 2024.09] 预训练语言模型无助于自回归文本到图像生成论文
[Arxiv, 2020] 自回归生成建模的规模定律论文

教程

评估指标

指标	分析类型	参考文献
Inception Score (IS) ↑	定量	Salimans et al., 2016
Fréchet Inception Distance (FID) ↓	定量	Heusel et al., 2017
Kernel Inception Distance (KID) ↓	定量	Binkowski et al., 2018
Precision and Recall ↑	定量	Powers, 2020
CLIP Maximum Mean Discrepancy ↓	定量	Jayasumana et al., 2023
CLIP Score ↑	定量	Hessel et al., 2021
R-precision ↑	定量	Craswell et al., 2009
Perceptual Path Length ↓	定量	Karras et al., 2019
Fréchet Video Distance (FVD) ↓	定量	Unterthiner et al., 2019
美学（专家评价）↑	定性	基于领域专业知识
图灵测试	定性	Turing, 1950
用户研究（评分、满意度）↑	定性	多种多样，取决于用户研究的方法学

👍 致谢

Awesome Unified Multimodal Models, 新加坡国立大学
Awesome Unified Multimodal Models, 北京大学
Awesome Unified Multimodal Models, 论文, 阿里巴巴

♥️ 贡献者

Autoregressive-Models-in-Vision-Survey 快速上手指南

本项目并非一个可直接运行的软件库，而是一个精选的视觉自回归模型（Autoregressive Models in Vision）论文与代码资源列表。它旨在为研究者和开发者提供该领域最新的研究进展、分类整理及开源实现链接。

以下是如何高效利用本资源库的指南：

1. 环境准备

由于本项目是文献综述列表，本身无系统依赖。但若要运行列表中具体的模型代码，通常需要以下基础环境：

操作系统: Linux (推荐 Ubuntu 20.04+) 或 macOS
Python: 3.8 或更高版本
深度学习框架: PyTorch (大多数列出项目的首选框架)
包管理工具: pip 或 conda
网络环境: 访问 GitHub 和 arXiv 需要稳定的网络连接（建议配置科学上网或使用国内镜像源加速 Python 包下载）。

2. 获取资源与安装

本仓库无需传统意义上的“安装”，只需克隆仓库以获取最新的论文列表和分类索引。

克隆仓库

git clone https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.git
cd Autoregressive-Models-in-Vision-Survey

浏览资源

克隆后，直接在本地打开 README.md 文件，或通过 GitHub 网页版浏览。目录结构涵盖了：

图像生成 (Image Generation)
视频生成 (Video Generation)
3D 生成 (3D Generation)
多模态生成 (Multimodal Generation)
基准测试与分析 (Benchmark / Analysis) 等类别。

注意：列表中的每个条目都包含 [Paper] (论文链接) 和 [Code] (代码仓库链接)。你需要点击具体的 [Code] 链接跳转到对应项目的仓库，按照该项目各自的 README 进行环境配置和安装。

3. 基本使用

使用本项目的核心流程是：查找论文 -> 定位代码 -> 复现模型。

步骤一：查找目标模型

在 README.md 中根据你的需求查找类别。例如，若你需要寻找基于 Token-wise 的图像生成最新工作，可定位到 Image Generation -> Token-wise Generation 部分。

示例条目：

[Arxiv, 2024.12] TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation Paper Code

步骤二：访问代码仓库

点击条目后的 [Code] 链接（例如 TokenFlow 的 GitHub 地址）。

步骤三：安装具体模型依赖

进入具体模型的仓库后，通常执行以下标准操作（以典型的 PyTorch 项目为例）：

# 1. 创建虚拟环境 (推荐)
conda create -n ar_vision python=3.9
conda activate ar_vision

# 2. 安装 PyTorch (根据 CUDA 版本选择，推荐使用国内清华源加速)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# 3. 安装该项目特定依赖
pip install -r requirements.txt

步骤四：运行推理或训练

参照具体项目仓库中的 Usage 或 Quick Start 部分运行代码。例如：

python inference.py --config configs/tokenflow.yaml --checkpoint pretrained_model.pth

4. 贡献与更新

状态说明: 截至 2025 年 11 月，该仓库已进入维护模式，不再主动进行大规模更新，但仍接受针对新趋势（如统一多模态模型、自回归扩散视频生成）的 Pull Requests。
提交新作: 如果你希望将自己的工作或模型加入列表，可以通过发送邮件至 jhuang90@ur.rochester.edu 或提交 PR。
- PR 格式要求：
```
* [**Conference/Journal Year**] Paper Name. [Paper](link) [Code](link)
```

5. 引用

如果在你的研究中使用了本列表提供的资源，请引用以下论文：

@misc{xiong2024autoregressive,
    title={Autoregressive Models in Vision: A Survey},
    author={Jing Xiong and Gongye Liu and Lun Huang and Chengyue Wu and Taiqiang Wu and Yao Mu and Yuan Yao and Hui Shen and Zhongwei Wan and Jinfa Huang and Chaofan Tao and Shen Yan and Huaxiu Yao and Lingpeng Kong and Hongxia Yang and Mi Zhang and Guillermo Sapiro and Jiebo Luo and Ping Luo and Ngai Wong},
    year={2024},
    eprint={2411.05902},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}

常见问题

与非自回归模型（如典型的扩散模型）相比，视觉自回归模型有哪些独特优势？

如何提交新的相关论文以便被收录到该综述仓库中？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|6天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 151.3k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|2天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|2天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|5天前

插件开发框架

使用场景

没有 Autoregressive-Models-in-Vision-Survey 时

使用 Autoregressive-Models-in-Vision-Survey 后

运行环境要求

快速开始

[TMLR 2025] 视觉领域中的优秀自回归模型

如果你喜欢我们的项目，请在 GitHub 上为我们点亮一颗星 ⭐，以获取最新更新。

📑 引用

📣 最新动态

⚡ 贡献

📖 目录

图像生成

无条件/类别条件图像生成

像素级生成

令牌级生成

令牌化器

自回归建模

分尺度自回归生成

文本到图像生成

逐标记生成

按尺度生成

图像到图像转换

图像编辑

视频生成

无条件视频生成

条件视频生成

文本到视频生成

视觉条件视频生成

多模态条件视频生成

自回归扩散驱动视频生成

身体化AI

3D生成

动作生成

点云生成

3D医学生成

多模态生成

统一理解与生成的多模态大语言模型

个性化图像生成

其他生成

基准测试 / 分析

推理对齐

安全性

加速

稳定性与扩展性

教程

评估指标

👍 致谢

♥️ 贡献者

Autoregressive-Models-in-Vision-Survey 快速上手指南

1. 环境准备

2. 获取资源与安装

克隆仓库

浏览资源

3. 基本使用

步骤一：查找目标模型

步骤二：访问代码仓库

步骤三：安装具体模型依赖

步骤四：运行推理或训练

4. 贡献与更新

5. 引用

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

gemini-cli

markitdown