[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-FoundationVision--VAR":3,"tool-FoundationVision--VAR":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":75,"owner_avatar_url":76,"owner_bio":77,"owner_company":78,"owner_location":78,"owner_email":78,"owner_twitter":78,"owner_website":78,"owner_url":79,"languages":80,"stars":89,"forks":90,"last_commit_at":91,"license":92,"difficulty_score":93,"env_os":94,"env_gpu":95,"env_ram":96,"env_deps":97,"category_tags":105,"github_topics":106,"view_count":10,"oss_zip_url":78,"oss_zip_packed_at":78,"status":16,"created_at":119,"updated_at":120,"faqs":121,"releases":151},3393,"FoundationVision\u002FVAR","VAR","[NeurIPS 2024 Best Paper Award][GPT beats diffusion🔥] [scaling laws in visual generation📈] Official impl. of \"Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction\". An *ultra-simple, user-friendly yet state-of-the-art* codebase for autoregressive image generation!","VAR 是一款荣获 NeurIPS 2024 最佳论文奖的视觉自回归建模工具，旨在通过“下一尺度预测”机制实现高质量的图像生成。它打破了以往扩散模型（Diffusion）在图像生成领域的统治地位，证明了类似 GPT 的自回归架构在视觉任务中同样具备卓越性能，甚至能超越扩散模型。\n\nVAR 主要解决了传统自回归方法在图像生成上扩展性不足、质量难以匹敌扩散模型的痛点。通过引入创新的尺度预测策略，VAR 不仅实现了状态最先进的生成效果，还展现出了清晰的“缩放定律”，即随着模型规模增大，生成质量稳步提升。其代码库设计极度简洁且用户友好，大幅降低了复现和研究顶尖视觉生成技术的门槛。\n\n这款工具非常适合人工智能研究人员、开发者以及对前沿生成式 AI 感兴趣的技术爱好者。研究人员可利用它探索视觉大模型的缩放规律；开发者能基于其简洁的架构快速构建或优化自己的图像生成应用；而技术爱好者则可以通过官方提供的演示平台，直观体验从文本到图像的生成过程。VAR 的出现标志着视觉生成领域迈向了新的里程碑，为后续多模态大模型的发展提供了强有力的基座。","# VAR: a new visual generation method elevates GPT-style models beyond diffusion🚀 & Scaling laws observed📈\n\n\u003Cdiv align=\"center\">\n\n[![demo platform](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPlay%20with%20VAR%21-VAR%20demo%20platform-lightblue)](https:\u002F\u002Fopensource.bytedance.com\u002Fgmpt\u002Ft2i\u002Finvite)&nbsp;\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv%20paper-2404.02905-b31b1b.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.02905)&nbsp;\n[![huggingface weights](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Weights-FoundationVision\u002Fvar-yellow)](https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fvar)&nbsp;\n[![SOTA](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FState%20of%20the%20Art-Image%20Generation%20on%20ImageNet%20%28AR%29-32B1B4?logo=data%3Aimage%2Fsvg%2Bxml%3Bbase64%2CPHN2ZyB3aWR0aD0iNjA2IiBoZWlnaHQ9IjYwNiIgeG1sbnM9Imh0dHA6Ly93d3cudzMub3JnLzIwMDAvc3ZnIiB4bWxuczp4bGluaz0iaHR0cDovL3d3dy53My5vcmcvMTk5OS94bGluayIgb3ZlcmZsb3c9ImhpZGRlbiI%2BPGRlZnM%2BPGNsaXBQYXRoIGlkPSJjbGlwMCI%2BPHJlY3QgeD0iLTEiIHk9Ii0xIiB3aWR0aD0iNjA2IiBoZWlnaHQ9IjYwNiIvPjwvY2xpcFBhdGg%2BPC9kZWZzPjxnIGNsaXAtcGF0aD0idXJsKCNjbGlwMCkiIHRyYW5zZm9ybT0idHJhbnNsYXRlKDEgMSkiPjxyZWN0IHg9IjUyOSIgeT0iNjYiIHdpZHRoPSI1NiIgaGVpZ2h0PSI0NzMiIGZpbGw9IiM0NEYyRjYiLz48cmVjdCB4PSIxOSIgeT0iNjYiIHdpZHRoPSI1NyIgaGVpZ2h0PSI0NzMiIGZpbGw9IiM0NEYyRjYiLz48cmVjdCB4PSIyNzQiIHk9IjE1MSIgd2lkdGg9IjU3IiBoZWlnaHQ9IjMwMiIgZmlsbD0iIzQ0RjJGNiIvPjxyZWN0IHg9IjEwNCIgeT0iMTUxIiB3aWR0aD0iNTciIGhlaWdodD0iMzAyIiBmaWxsPSIjNDRGMkY2Ii8%2BPHJlY3QgeD0iNDQ0IiB5PSIxNTEiIHdpZHRoPSI1NyIgaGVpZ2h0PSIzMDIiIGZpbGw9IiM0NEYyRjYiLz48cmVjdCB4PSIzNTkiIHk9IjE3MCIgd2lkdGg9IjU2IiBoZWlnaHQ9IjI2NCIgZmlsbD0iIzQ0RjJGNiIvPjxyZWN0IHg9IjE4OCIgeT0iMTcwIiB3aWR0aD0iNTciIGhlaWdodD0iMjY0IiBmaWxsPSIjNDRGMkY2Ii8%2BPHJlY3QgeD0iNzYiIHk9IjY2IiB3aWR0aD0iNDciIGhlaWdodD0iNTciIGZpbGw9IiM0NEYyRjYiLz48cmVjdCB4PSI0ODIiIHk9IjY2IiB3aWR0aD0iNDciIGhlaWdodD0iNTciIGZpbGw9IiM0NEYyRjYiLz48cmVjdCB4PSI3NiIgeT0iNDgyIiB3aWR0aD0iNDciIGhlaWdodD0iNTciIGZpbGw9IiM0NEYyRjYiLz48cmVjdCB4PSI0ODIiIHk9IjQ4MiIgd2lkdGg9IjQ3IiBoZWlnaHQ9IjU3IiBmaWxsPSIjNDRGMkY2Ii8%2BPC9nPjwvc3ZnPg%3D%3D)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fimage-generation-on-imagenet-256x256?tag_filter=485&p=visual-autoregressive-modeling-scalable-image)\n\n\n\u003C\u002Fdiv>\n\u003Cp align=\"center\" style=\"font-size: larger;\">\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.02905\">Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction\u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Cdiv>\n  \u003Cp align=\"center\" style=\"font-size: larger;\">\n    \u003Cstrong>NeurIPS 2024 Best Paper\u003C\u002Fstrong>\n  \u003C\u002Fp>\n\u003C\u002Fdiv>\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFoundationVision_VAR_readme_c7a20f8536ef.png\" width=95%>\n\u003Cp>\n\n\u003Cbr>\n\n## News\n* **2025-11:** We Release our Text-to-Video generation model **InfinityStar** based on VAR & Infinity, please check [Infinity⭐️](https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FInfinityStar).\n* **2025-11:** 🎉 InfinityStar is accepted as **NeurIPS 2025 Oral.**\n* **2025-04:** 🎉 Infinity is accepted as **CVPR 2025 Oral.**\n* **2024-12:** 🏆 VAR received **NeurIPS 2024 Best Paper Award**.\n* **2024-12:** 🔥 We Release our Text-to-Image research based on VAR, please check [Infinity](https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FInfinity).\n* **2024-09:** VAR is accepted as **NeurIPS 2024 Oral** Presentation.\n* **2024-04:** [Visual AutoRegressive modeling](https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FVAR) is released.\n\n## 🕹️ Try and Play with VAR!\n\n~~We provide a [demo website](https:\u002F\u002Fvar.vision\u002Fdemo) for you to play with VAR models and generate images interactively. Enjoy the fun of visual autoregressive modeling!~~\n\nWe provide a [demo website](https:\u002F\u002Fopensource.bytedance.com\u002Fgmpt\u002Ft2i\u002Finvite) for you to play with VAR Text-to-Image and generate images interactively. Enjoy the fun of visual autoregressive modeling!\n\nWe also provide [demo_sample.ipynb](demo_sample.ipynb) for you to see more technical details about VAR.\n\n[\u002F\u002F]: # (\u003Cp align=\"center\">)\n[\u002F\u002F]: # (\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFoundationVision_VAR_readme_8d9cb68dc3c6.png\" width=50%)\n[\u002F\u002F]: # (\u003Cp>)\n\n\n## What's New?\n\n### 🔥 Introducing VAR: a new paradigm in autoregressive visual generation✨:\n\nVisual Autoregressive Modeling (VAR) redefines the autoregressive learning on images as coarse-to-fine \"next-scale prediction\" or \"next-resolution prediction\", diverging from the standard raster-scan \"next-token prediction\".\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFoundationVision_VAR_readme_72f7f666ed22.png\" width=93%>\n\u003Cp>\n\n### 🔥 For the first time, GPT-style autoregressive models surpass diffusion models🚀:\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFoundationVision_VAR_readme_381d33e53078.png\" width=55%>\n\u003Cp>\n\n\n### 🔥 Discovering power-law Scaling Laws in VAR transformers📈:\n\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFoundationVision_VAR_readme_ed32687a31f7.png\" width=85%>\n\u003Cp>\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFoundationVision_VAR_readme_d88c3c8bb141.png\" width=85%>\n\u003Cp>\n\n\n### 🔥 Zero-shot generalizability🛠️:\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFoundationVision_VAR_readme_262140fd860d.png\" width=70%>\n\u003Cp>\n\n#### For a deep dive into our analyses, discussions, and evaluations, check out our [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.02905).\n\n\n## VAR zoo\nWe provide VAR models for you to play with, which are on \u003Ca href='https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fvar'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Huggingface-FoundationVision\u002Fvar-yellow'>\u003C\u002Fa> or can be downloaded from the following links:\n\n|   model    | reso. |   FID    | rel. cost | #params | HF weights🤗                                                                        |\n|:----------:|:-----:|:--------:|:---------:|:-------:|:------------------------------------------------------------------------------------|\n|  VAR-d16   |  256  |   3.55   |    0.4    |  310M   | [var_d16.pth](https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fvar\u002Fresolve\u002Fmain\u002Fvar_d16.pth) |\n|  VAR-d20   |  256  |   2.95   |    0.5    |  600M   | [var_d20.pth](https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fvar\u002Fresolve\u002Fmain\u002Fvar_d20.pth) |\n|  VAR-d24   |  256  |   2.33   |    0.6    |  1.0B   | [var_d24.pth](https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fvar\u002Fresolve\u002Fmain\u002Fvar_d24.pth) |\n|  VAR-d30   |  256  |   1.97   |     1     |  2.0B   | [var_d30.pth](https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fvar\u002Fresolve\u002Fmain\u002Fvar_d30.pth) |\n| VAR-d30-re |  256  | **1.80** |     1     |  2.0B   | [var_d30.pth](https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fvar\u002Fresolve\u002Fmain\u002Fvar_d30.pth) |\n| VAR-d36    |  512  | **2.63** |     -     |  2.3B   | [var_d36.pth](https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fvar\u002Fresolve\u002Fmain\u002Fvar_d36.pth) |\n\nYou can load these models to generate images via the codes in [demo_sample.ipynb](demo_sample.ipynb). Note: you need to download [vae_ch160v4096z32.pth](https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fvar\u002Fresolve\u002Fmain\u002Fvae_ch160v4096z32.pth) first.\n\n\n## Installation\n\n1. Install `torch>=2.0.0`.\n2. Install other pip packages via `pip3 install -r requirements.txt`.\n3. Prepare the [ImageNet](http:\u002F\u002Fimage-net.org\u002F) dataset\n    \u003Cdetails>\n    \u003Csummary> assume the ImageNet is in `\u002Fpath\u002Fto\u002Fimagenet`. It should be like this:\u003C\u002Fsummary>\n\n    ```\n    \u002Fpath\u002Fto\u002Fimagenet\u002F:\n        train\u002F:\n            n01440764: \n                many_images.JPEG ...\n            n01443537:\n                many_images.JPEG ...\n        val\u002F:\n            n01440764:\n                ILSVRC2012_val_00000293.JPEG ...\n            n01443537:\n                ILSVRC2012_val_00000236.JPEG ...\n    ```\n   **NOTE: The arg `--data_path=\u002Fpath\u002Fto\u002Fimagenet` should be passed to the training script.**\n    \u003C\u002Fdetails>\n\n5. (Optional) install and compile `flash-attn` and `xformers` for faster attention computation. Our code will automatically use them if installed. See [models\u002Fbasic_var.py#L15-L30](models\u002Fbasic_var.py#L15-L30).\n\n\n## Training Scripts\n\nTo train VAR-{d16, d20, d24, d30, d36-s} on ImageNet 256x256 or 512x512, you can run the following command:\n```shell\n# d16, 256x256\ntorchrun --nproc_per_node=8 --nnodes=... --node_rank=... --master_addr=... --master_port=... train.py \\\n  --depth=16 --bs=768 --ep=200 --fp16=1 --alng=1e-3 --wpe=0.1\n# d20, 256x256\ntorchrun --nproc_per_node=8 --nnodes=... --node_rank=... --master_addr=... --master_port=... train.py \\\n  --depth=20 --bs=768 --ep=250 --fp16=1 --alng=1e-3 --wpe=0.1\n# d24, 256x256\ntorchrun --nproc_per_node=8 --nnodes=... --node_rank=... --master_addr=... --master_port=... train.py \\\n  --depth=24 --bs=768 --ep=350 --tblr=8e-5 --fp16=1 --alng=1e-4 --wpe=0.01\n# d30, 256x256\ntorchrun --nproc_per_node=8 --nnodes=... --node_rank=... --master_addr=... --master_port=... train.py \\\n  --depth=30 --bs=1024 --ep=350 --tblr=8e-5 --fp16=1 --alng=1e-5 --wpe=0.01 --twde=0.08\n# d36-s, 512x512 (-s means saln=1, shared AdaLN)\ntorchrun --nproc_per_node=8 --nnodes=... --node_rank=... --master_addr=... --master_port=... train.py \\\n  --depth=36 --saln=1 --pn=512 --bs=768 --ep=350 --tblr=8e-5 --fp16=1 --alng=5e-6 --wpe=0.01 --twde=0.08\n```\nA folder named `local_output` will be created to save the checkpoints and logs.\nYou can monitor the training process by checking the logs in `local_output\u002Flog.txt` and `local_output\u002Fstdout.txt`, or using `tensorboard --logdir=local_output\u002F`.\n\nIf your experiment is interrupted, just rerun the command, and the training will **automatically resume** from the last checkpoint in `local_output\u002Fckpt*.pth` (see [utils\u002Fmisc.py#L344-L357](utils\u002Fmisc.py#L344-L357)).\n\n## Sampling & Zero-shot Inference\n\nFor FID evaluation, use `var.autoregressive_infer_cfg(..., cfg=1.5, top_p=0.96, top_k=900, more_smooth=False)` to sample 50,000 images (50 per class) and save them as PNG (not JPEG) files in a folder. Pack them into a `.npz` file via `create_npz_from_sample_folder(sample_folder)` in [utils\u002Fmisc.py#L344](utils\u002Fmisc.py#L360).\nThen use the [OpenAI's FID evaluation toolkit](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fguided-diffusion\u002Ftree\u002Fmain\u002Fevaluations) and reference ground truth npz file of [256x256](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fdiffusion\u002Fjul-2021\u002Fref_batches\u002Fimagenet\u002F256\u002FVIRTUAL_imagenet256_labeled.npz) or [512x512](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fdiffusion\u002Fjul-2021\u002Fref_batches\u002Fimagenet\u002F512\u002FVIRTUAL_imagenet512.npz) to evaluate FID, IS, precision, and recall.\n\nNote a relatively small `cfg=1.5` is used for trade-off between image quality and diversity. You can adjust it to `cfg=5.0`, or sample with `autoregressive_infer_cfg(..., more_smooth=True)` for **better visual quality**.\nWe'll provide the sampling script later.\n\n\n## Third-party Usage and Research\n\n***In this pargraph, we cross link third-party repositories or research which use VAR and report results. You can let us know by raising an issue***\n\n(`Note please report accuracy numbers and provide trained models in your new repository to facilitate others to get sense of correctness and model behavior`)\n\n| **Time**     | **Research**                                                                                                                  | **Link**                                                           |\n|--------------|-------------------------------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------|\n| [5\u002F12\u002F2025]  | [ICML 2025]Continuous Visual Autoregressive Generation via Score Maximization                                                 | https:\u002F\u002Fgithub.com\u002Fshaochenze\u002FEAR                                  |\n| [5\u002F8\u002F2025]   | Generative Autoregressive Transformers for Model-Agnostic Federated MRI Reconstruction                                        | https:\u002F\u002Fgithub.com\u002Ficon-lab\u002FFedGAT                                 |\n| [4\u002F7\u002F2025]   | FastVAR: Linear Visual Autoregressive Modeling via Cached Token Pruning                                                       | https:\u002F\u002Fgithub.com\u002Fcsguoh\u002FFastVAR                                  |\n| [4\u002F3\u002F2025]   | VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning    | https:\u002F\u002Fgithub.com\u002FVARGPT-family\u002FVARGPT-v1.1                       |\n| [3\u002F31\u002F2025]  | Training-Free Text-Guided Image Editing with Visual Autoregressive Model                                                      | https:\u002F\u002Fgithub.com\u002Fwyf0912\u002FAREdit                                  |\n| [3\u002F17\u002F2025]  | Next-Scale Autoregressive Models are Zero-Shot Single-Image Object View Synthesizers                                          | https:\u002F\u002Fgithub.com\u002FShiran-Yuan\u002FArchonView                          |\n| [3\u002F14\u002F2025]  | Safe-VAR: Safe Visual Autoregressive Model for Text-to-Image Generative Watermarking                                          | https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.11324                                   |\n| [3\u002F3\u002F2025]   | [ICML 2025]Direct Discriminative Optimization: Your Likelihood-Based Visual Generative Model is Secretly a GAN Discriminator  | https:\u002F\u002Fresearch.nvidia.com\u002Flabs\u002Fdir\u002Fddo\u002F                          |\n| [2\u002F28\u002F2025]  | Autoregressive Medical Image Segmentation via Next-Scale Mask Prediction                                                      | https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.20784                                   |\n| [2\u002F27\u002F2025]  | FlexVAR: Flexible Visual Autoregressive Modeling without Residual Prediction                                                  | https:\u002F\u002Fgithub.com\u002Fjiaosiyu1999\u002FFlexVAR                            |\n| [2\u002F17\u002F2025]  | MARS: Mesh AutoRegressive Model for 3D Shape Detailization                                                                    | https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.11390                                   |\n| [1\u002F31\u002F2025]  | [ICML 2025]Visual Autoregressive Modeling for Image Super-Resolution                                                          | https:\u002F\u002Fgithub.com\u002Fquyp2000\u002FVARSR                                  |\n| [1\u002F21\u002F2025]  | VARGPT: Unified Understanding and Generation in a Visual Autoregressive Multimodal Large Language Model                       | https:\u002F\u002Fgithub.com\u002FVARGPT-family\u002FVARGPT                            |\n| [1\u002F26\u002F2025]  | [ICML 2025]Visual Generation Without Guidance                                                                                 | https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FGFT                                      |\n| [12\u002F30\u002F2024] | Next Token Prediction Towards Multimodal Intelligence                                                                         | https:\u002F\u002Fgithub.com\u002FLMM101\u002FAwesome-Multimodal-Next-Token-Prediction |\n| [12\u002F30\u002F2024] | Varformer: Adapting VAR’s Generative Prior for Image Restoration                                                              | https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.21063                                   |\n| [12\u002F22\u002F2024] | [ICLR 2025]Distilled Decoding 1: One-step Sampling of Image Auto-regressive Models with Flow Matching                         | https:\u002F\u002Fgithub.com\u002Fimagination-research\u002Fdistilled-decoding         |\n| [12\u002F19\u002F2024] | FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching                                                        | https:\u002F\u002Fgithub.com\u002FOliverRensu\u002FFlowAR                              |\n| [12\u002F13\u002F2024] | 3D representation in 512-Byte: Variational tokenizer is the key for autoregressive 3D generation                              | https:\u002F\u002Fgithub.com\u002Fsparse-mvs-2\u002FVAT                                |\n| [12\u002F9\u002F2024]  | CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction                                                 | https:\u002F\u002Fcarp-robot.github.io\u002F                                      |\n| [12\u002F5\u002F2024]  | [CVPR 2025]Infinity ∞: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis                            | https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FInfinity                       |\n| [12\u002F5\u002F2024]  | [CVPR 2025]Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis                                              | https:\u002F\u002Fgithub.com\u002Fyandex-research\u002Fswitti                          |\n| [12\u002F4\u002F2024]  | [CVPR 2025]TokenFlow🚀: Unified Image Tokenizer for Multimodal Understanding and Generation                                   | https:\u002F\u002Fgithub.com\u002FByteFlow-AI\u002FTokenFlow                           |\n| [12\u002F3\u002F2024]  | XQ-GAN🚀: An Open-source Image Tokenization Framework for Autoregressive Generation                                           | https:\u002F\u002Fgithub.com\u002Flxa9867\u002FImageFolder                             |\n| [11\u002F28\u002F2024] | [CVPR 2025]CoDe: Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient                                       | https:\u002F\u002Fgithub.com\u002Fczg1225\u002FCoDe                                    |\n| [11\u002F28\u002F2024] | [CVPR 2025]Scalable Autoregressive Monocular Depth Estimation                                                                 | https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.11361                                   |\n| [11\u002F27\u002F2024] | [CVPR 2025]SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE                              | https:\u002F\u002Fgithub.com\u002Fcyw-3d\u002FSAR3D                                    |\n| [11\u002F26\u002F2024] | LiteVAR: Compressing Visual Autoregressive Modelling with Efficient Attention and Quantization                                | https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.17178                                   |\n| [11\u002F15\u002F2024] | M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation                                         | https:\u002F\u002Fgithub.com\u002FOliverRensu\u002FMVAR                                |\n| [10\u002F14\u002F2024] | [ICLR 2025]HART: Efficient Visual Generation with Hybrid Autoregressive Transformer                                           | https:\u002F\u002Fgithub.com\u002Fmit-han-lab\u002Fhart                                |\n| [10\u002F12\u002F2024] | [ICLR 2025 Oral]Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment                                 | https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FCCA                                      |\n| [10\u002F3\u002F2024]  | [ICLR 2025]ImageFolder🚀: Autoregressive Image Generation with Folded Tokens                                                  | https:\u002F\u002Fgithub.com\u002Flxa9867\u002FImageFolder                             |\n| [07\u002F25\u002F2024] | ControlVAR: Exploring Controllable Visual Autoregressive Modeling                                                             | https:\u002F\u002Fgithub.com\u002Flxa9867\u002FControlVAR                              |\n| [07\u002F3\u002F2024]  | VAR-CLIP: Text-to-Image Generator with Visual Auto-Regressive Modeling                                                        | https:\u002F\u002Fgithub.com\u002Fdaixiangzi\u002FVAR-CLIP                             |\n| [06\u002F16\u002F2024] | STAR: Scale-wise Text-to-image generation via Auto-Regressive representations                                                 | https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.10797                                   |\n\n\n## License\nThis project is licensed under the MIT License - see the [LICENSE](LICENSE) file for details.\n\n\n## Citation\nIf our work assists your research, feel free to give us a star ⭐ or cite us using:\n```\n@Article{VAR,\n      title={Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction}, \n      author={Keyu Tian and Yi Jiang and Zehuan Yuan and Bingyue Peng and Liwei Wang},\n      year={2024},\n      eprint={2404.02905},\n      archivePrefix={arXiv},\n      primaryClass={cs.CV}\n}\n```\n\n```\n@misc{Infinity,\n    title={Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis}, \n    author={Jian Han and Jinlai Liu and Yi Jiang and Bin Yan and Yuqi Zhang and Zehuan Yuan and Bingyue Peng and Xiaobing Liu},\n    year={2024},\n    eprint={2412.04431},\n    archivePrefix={arXiv},\n    primaryClass={cs.CV},\n    url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.04431}, \n}\n```\n","# VAR：一种新的视觉生成方法将GPT类模型推向超越扩散模型的新高度🚀，并观察到规模定律📈\n\n\u003Cdiv align=\"center\">\n\n[![demo平台](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F与VAR一起玩！-VAR演示平台-lightblue)](https:\u002F\u002Fopensource.bytedance.com\u002Fgmpt\u002Ft2i\u002Finvite)&nbsp;\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv论文-2404.02905-b31b1b.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.02905)&nbsp;\n[![Hugging Face权重](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Weights-FoundationVision\u002Fvar-yellow)](https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fvar)&nbsp;\n[![SOTA](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F最先进-ImageNet上的图像生成（AR）-32B1B4?logo=data%3Aimage%2Fsvg%2Bxml%3Bbase64%2CPHN2ZyB3aWR0aD0iNjA2IiBoZWlnaHQ9IjYwNiIgeG1sbnM9Imh0dHA6Ly93d3cudzMub3JnLzIwMDAvc3ZnIiB4bWxuczp4bGluaz0iaHR0cDovL3d3dy53My5vcmcvMTk5OS94bGluayIgb3ZlcmZsb3c9ImhpZGRlbiI%2BPGRlZnM%2BPGNsaXBQYXRoIGlkPSJjbGlwMCI%2BPHJlY3QgeD0iLTEiIHk9Ii0xIiB3aWR0aD0iNjA2IiBoZWlnaHQ9IjYwNiIvPjwvY2xpcFBhdGg%2BPC9kZWZzPjxnIGNsaXAtcGF0aD0idXJsKCNjbGlwMCkiIHRyYW5zZm9ybT0idHJhbnNsYXRlKDEgMSkiPjxyZWN0IHg9IjUyOSIgeT0iNjYiIHdpZHRoPSI1NiIgaGVpZ2h0PSI0NzMiIGZpbGw9IiM0NEYyRjYiLz48cmVjdCB4PSIxOSIgeT0iNjYiIHdpZHRoPSI1NyIgaGVpZ2h0PSI0NzMiIGZpbGw9IiM0NEYyRjYiLz48cmVjdCB4PSIyNzQiIHk9IjE1MSIgd2lkdGg9IjU3IiBoZWlnaHQ9IjMwMiIgZmlsbD0iIzQ0RjJGNiIvPjxyZWN0IHg9IjEwNCIgeT0iMTUxIiB3aWR0aD0iNTciIGhlaWdodD0iMzAyIiBmaWxsPSIjNDRGMkY2Ii8%2BPHJlY3QgeD0iNDQ0IiB5PSIxNTEiIHdpZHRoPSI1NyIgaGVpZ2h0PSIzMDIiIGZpbGw9IiM0NEYyRjYiLz48cmVjdCB4PSIzNTkiIHk9IjE3MCIgd2lkdGg9IjU6IiBoZWlnaHQ9IjI2NCIgZmlsbD0iIzQ0RjJGNiIvPjxyZWN0IHg9IjE4OCIgeT0iMTcwIiB3aWR0aD0iNTciIGhlaWdodD0iMjY0IiBmaWxsPSIjNDRGMkY2Ii8%2BPHJlY3QgeD0iNzYiIHk9IjY6IiB3aWR0aD0iNDciIGhlaWdodD0iNTciIGZpbGw9IiM0NEYyRjYiLz48cmVjdCB4PSI0ODIiIHk9IjY6IiB3aWR0aD0iNDciIGhlaWdodD0iNTciIGZpbGw9IiM0NEYyRjYiLz48cmVjdCB4PSI3YiIHk9IjQ4MiIgd2lkdGg9IjQ7IiBoZWlnaHQ9IjU3IiBmaWxsPSIjNDRGMkY2Ii8%2BPC9nPjwvc3ZnPg%3D%3D)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fimage-generation-on-imagenet-256x256?tag_filter=485&p=visual-autoregressive-modeling-scalable-image)\n\n\n\u003C\u002Fdiv>\n\u003Cp align=\"center\" style=\"font-size: larger;\">\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.02905\">视觉自回归建模：通过下一尺度预测实现可扩展的图像生成\u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Cdiv>\n  \u003Cp align=\"center\" style=\"font-size: larger;\">\n    \u003Cstrong>NeurIPS 2024最佳论文\u003C\u002Fstrong>\n  \u003C\u002Fp>\n\u003C\u002Fdiv>\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFoundationVision_VAR_readme_c7a20f8536ef.png\" width=95%>\n\u003Cp>\n\n\u003Cbr>\n\n## 新闻\n* **2025年11月：** 我们发布了基于VAR和Infinity的文生视频模型**InfinityStar**，请查看[Infinity⭐️](https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FInfinityStar)。\n* **2025年11月：** 🎉 InfinityStar被接受为**NeurIPS 2025口头报告**。\n* **2025年4月：** 🎉 Infinity被接受为**CVPR 2025口头报告**。\n* **2024年12月：** 🏆 VAR荣获**NeurIPS 2024最佳论文奖**。\n* **2024年12月：** 🔥 我们发布了基于VAR的文生图研究，请查看[Infinity](https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FInfinity)。\n* **2024年9月：** VAR被接受为**NeurIPS 2024口头报告**。\n* **2024年4月：** [视觉自回归建模](https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FVAR)发布。\n\n## 🕹️ 试用并玩转VAR！\n\n~~我们提供一个[demo网站](https:\u002F\u002Fvar.vision\u002Fdemo)，供您体验VAR模型并交互式生成图片。尽情享受视觉自回归建模的乐趣吧！~~\n\n我们提供一个[demo网站](https:\u002F\u002Fopensource.bytedance.com\u002Fgmpt\u002Ft2i\u002Finvite)，供您体验VAR文生图并交互式生成图片。尽情享受视觉自回归建模的乐趣吧！\n\n我们还提供了[demo_sample.ipynb](demo_sample.ipynb)，供您了解VAR的更多技术细节。\n\n[\u002F\u002F]: # (\u003Cp align=\"center\">)\n[\u002F\u002F]: # (\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFoundationVision_VAR_readme_8d9cb68dc3c6.png\" width=50%)\n[\u002F\u002F]: # (\u003Cp>)\n\n\n## 最新进展？\n\n### 🔥 引入VAR：自回归视觉生成的新范式✨：\n\n视觉自回归建模（VAR）将图像上的自回归学习重新定义为从粗到细的“下一尺度预测”或“下一分辨率预测”，这与标准的光栅扫描“下一 token 预测”截然不同。\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFoundationVision_VAR_readme_72f7f666ed22.png\" width=93%>\n\u003Cp>\n\n### 🔥 首次，GPT类自回归模型超越扩散模型🚀：\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFoundationVision_VAR_readme_381d33e53078.png\" width=55%>\n\u003Cp>\n\n\n### 🔥 在VAR变换器中发现幂律规模定律📈：\n\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFoundationVision_VAR_readme_ed32687a31f7.png\" width=85%>\n\u003Cp>\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFoundationVision_VAR_readme_d88c3c8bb141.png\" width=85%>\n\u003Cp>\n\n\n### 🔥 零样本泛化能力🛠️：\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFoundationVision_VAR_readme_262140fd860d.png\" width=70%>\n\u003Cp>\n\n#### 如需深入了解我们的分析、讨论和评估，请参阅我们的[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.02905)。\n\n## VAR动物园\n我们提供了VAR模型供您试用，这些模型可在\u003Ca href='https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fvar'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Huggingface-FoundationVision\u002Fvar-yellow'>\u003C\u002Fa>上找到，或从以下链接下载：\n\n|   模型    | 分辨率 |   FID    | 相对成本 | 参数量 | Hugging Face权重🤗                                                                        |\n|:----------:|:-----:|:--------:|:---------:|:-------:|:------------------------------------------------------------------------------------|\n|  VAR-d16   |  256  |   3.55   |    0.4    |  310M   | [var_d16.pth](https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fvar\u002Fresolve\u002Fmain\u002Fvar_d16.pth) |\n|  VAR-d20   |  256  |   2.95   |    0.5    |  600M   | [var_d20.pth](https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fvar\u002Fresolve\u002Fmain\u002Fvar_d20.pth) |\n|  VAR-d24   |  256  |   2.33   |    0.6    |  1.0B   | [var_d24.pth](https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fvar\u002Fresolve\u002Fmain\u002Fvar_d24.pth) |\n|  VAR-d30   |  256  |   1.97   |     1     |  2.0B   | [var_d30.pth](https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fvar\u002Fresolve\u002Fmain\u002Fvar_d30.pth) |\n| VAR-d30-re |  256  | **1.80** |     1     |  2.0B   | [var_d30.pth](https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fvar\u002Fresolve\u002Fmain\u002Fvar_d30.pth) |\n| VAR-d36    |  512  | **2.63** |     -     |  2.3B   | [var_d36.pth](https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fvar\u002Fresolve\u002Fmain\u002Fvar_d36.pth) |\n\n您可以通过[demo_sample.ipynb](demo_sample.ipynb)中的代码加载这些模型来生成图片。请注意：您需要先下载[vae_ch160v4096z32.pth](https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fvar\u002Fresolve\u002Fmain\u002Fvae_ch160v4096z32.pth)。\n\n## 安装\n\n1. 安装 `torch>=2.0.0`。\n2. 通过 `pip3 install -r requirements.txt` 安装其他 pip 包。\n3. 准备 [ImageNet](http:\u002F\u002Fimage-net.org\u002F) 数据集\n    \u003Cdetails>\n    \u003Csummary> 假设 ImageNet 数据集位于 `\u002Fpath\u002Fto\u002Fimagenet`，其目录结构应如下所示：\u003C\u002Fsummary>\n\n    ```\n    \u002Fpath\u002Fto\u002Fimagenet\u002F:\n        train\u002F:\n            n01440764: \n                many_images.JPEG ...\n            n01443537:\n                many_images.JPEG ...\n        val\u002F:\n            n01440764:\n                ILSVRC2012_val_00000293.JPEG ...\n            n01443537:\n                ILSVRC2012_val_00000236.JPEG ...\n    ```\n   **注意：训练脚本需要传递参数 `--data_path=\u002Fpath\u002Fto\u002Fimagenet`。**\n    \u003C\u002Fdetails>\n\n5. （可选）安装并编译 `flash-attn` 和 `xformers` 以加速注意力计算。如果已安装，我们的代码会自动使用它们。详情请参阅 [models\u002Fbasic_var.py#L15-L30](models\u002Fbasic_var.py#L15-L30)。\n\n\n## 训练脚本\n\n要在 ImageNet 256x256 或 512x512 数据集上训练 VAR-{d16, d20, d24, d30, d36-s}，可以运行以下命令：\n```shell\n# d16, 256x256\ntorchrun --nproc_per_node=8 --nnodes=... --node_rank=... --master_addr=... --master_port=... train.py \\\n  --depth=16 --bs=768 --ep=200 --fp16=1 --alng=1e-3 --wpe=0.1\n# d20, 256x256\ntorchrun --nproc_per_node=8 --nnodes=... --node_rank=... --master_addr=... --master_port=... train.py \\\n  --depth=20 --bs=768 --ep=250 --fp16=1 --alng=1e-3 --wpe=0.1\n# d24, 256x256\ntorchrun --nproc_per_node=8 --nnodes=... --node_rank=... --master_addr=... --master_port=... train.py \\\n  --depth=24 --bs=768 --ep=350 --tblr=8e-5 --fp16=1 --alng=1e-4 --wpe=0.01\n# d30, 256x256\ntorchrun --nproc_per_node=8 --nnodes=... --node_rank=... --master_addr=... --master_port=... train.py \\\n  --depth=30 --bs=1024 --ep=350 --tblr=8e-5 --fp16=1 --alng=1e-5 --wpe=0.01 --twde=0.08\n# d36-s, 512x512 (-s 表示 saln=1，共享 AdaLN)\ntorchrun --nproc_per_node=8 --nnodes=... --node_rank=... --master_addr=... --master_port=... train.py \\\n  --depth=36 --saln=1 --pn=512 --bs=768 --ep=350 --tblr=8e-5 --fp16=1 --alng=5e-6 --wpe=0.01 --twde=0.08\n```\n系统将创建一个名为 `local_output` 的文件夹，用于保存检查点和日志。您可以通过查看 `local_output\u002Flog.txt` 和 `local_output\u002Fstdout.txt` 中的日志，或使用 `tensorboard --logdir=local_output\u002F` 来监控训练过程。\n\n如果实验中断，只需重新运行该命令，训练将**自动从上次的检查点**继续进行，即从 `local_output\u002Fckpt*.pth` 文件中恢复（详见 [utils\u002Fmisc.py#L344-L357](utils\u002Fmisc.py#L344-L357)）。\n\n## 采样与零样本推理\n\n对于 FID 评估，使用 `var.autoregressive_infer_cfg(..., cfg=1.5, top_p=0.96, top_k=900, more_smooth=False)` 生成 50,000 张图像（每类 50 张），并将其保存为 PNG 格式的文件（而非 JPEG），存放在一个文件夹中。然后使用 [utils\u002Fmisc.py#L344](utils\u002Fmisc.py#L360) 中的 `create_npz_from_sample_folder(sample_folder)` 将这些图像打包成 `.npz` 文件。\n\n接着，使用 [OpenAI 的 FID 评估工具包](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fguided-diffusion\u002Ftree\u002Fmain\u002Fevaluations)以及参考真值 `.npz` 文件——[256x256](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fdiffusion\u002Fjul-2021\u002Fref_batches\u002Fimagenet\u002F256\u002FVIRTUAL_imagenet256_labeled.npz) 或 [512x512](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fdiffusion\u002Fjul-2021\u002Fref_batches\u002Fimagenet\u002F512\u002FVIRTUAL_imagenet512.npz)，来评估 FID、IS、精确度和召回率。\n\n请注意，这里使用了相对较小的 `cfg=1.5` 参数，以在图像质量和多样性之间取得平衡。您可以将其调整为 `cfg=5.0`，或者使用 `autoregressive_infer_cfg(..., more_smooth=True)` 进行采样，以获得**更好的视觉质量**。采样脚本稍后会提供。\n\n\n## 第三方使用与研究\n\n***在这一段中，我们将交叉链接使用 VAR 并报告结果的第三方仓库或研究。您可以通过提交 issue 告知我们***\n\n（请注意，请在您的新仓库中报告准确率数值，并提供训练好的模型，以便他人更好地理解正确性和模型行为）\n\n| **时间**     | **研究**                                                                                                                  | **链接**                                                           |\n|--------------|-------------------------------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------|\n| [5\u002F12\u002F2025]  | [ICML 2025]通过分数最大化实现连续视觉自回归生成                                                 | https:\u002F\u002Fgithub.com\u002Fshaochenze\u002FEAR                                  |\n| [5\u002F8\u002F2025]   | 用于模型无关联邦MRI重建的生成性自回归Transformer                                        | https:\u002F\u002Fgithub.com\u002Ficon-lab\u002FFedGAT                                 |\n| [4\u002F7\u002F2025]   | FastVAR：基于缓存标记剪枝的线性视觉自回归建模                                                       | https:\u002F\u002Fgithub.com\u002Fcsguoh\u002FFastVAR                                  |\n| [4\u002F3\u002F2025]   | VARGPT-v1.1：通过迭代指令微调和强化学习改进视觉自回归大型统一模型    | https:\u002F\u002Fgithub.com\u002FVARGPT-family\u002FVARGPT-v1.1                       |\n| [3\u002F31\u002F2025]  | 使用视觉自回归模型进行无训练文本引导图像编辑                                                      | https:\u002F\u002Fgithub.com\u002Fwyf0912\u002FAREdit                                  |\n| [3\u002F17\u002F2025]  | 下一代自回归模型是零样本单张图像对象视图合成器                                          | https:\u002F\u002Fgithub.com\u002FShiran-Yuan\u002FArchonView                          |\n| [3\u002F14\u002F2025]  | Safe-VAR：用于文本到图像生成式水印的安全视觉自回归模型                                          | https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.11324                                   |\n| [3\u002F3\u002F2025]   | [ICML 2025]直接判别优化：你的基于似然的视觉生成模型其实是一个GAN判别器              | https:\u002F\u002Fresearch.nvidia.com\u002Flabs\u002Fdir\u002Fddo\u002F                          |\n| [2\u002F28\u002F2025]  | 通过下一代掩码预测进行自回归医学图像分割                                                          | https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.20784                                   |\n| [2\u002F27\u002F2025]  | FlexVAR：无需残差预测的灵活视觉自回归建模                                                        | https:\u002F\u002Fgithub.com\u002Fjiaosiyu1999\u002FFlexVAR                            |\n| [2\u002F17\u002F2025]  | MARS：用于3D形状细节化的网格自回归模型                                                            | https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.11390                                   |\n| [1\u002F31\u002F2025]  | [ICML 2025]用于图像超分辨率的视觉自回归建模                                                      | https:\u002F\u002Fgithub.com\u002Fquyp2000\u002FVARSR                                  |\n| [1\u002F21\u002F2025]  | VARGPT：在视觉自回归多模态大型语言模型中实现统一的理解与生成                      | https:\u002F\u002Fgithub.com\u002FVARGPT-family\u002FVARGPT                            |\n| [1\u002F26\u002F2025]  | [ICML 2025]无指导的视觉生成                                                                      | https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FGFT                                      |\n| [12\u002F30\u002F2024] | 向多模态智能迈进的下一个标记预测                                                                | https:\u002F\u002Fgithub.com\u002FLMM101\u002FAwesome-Multimodal-Next-Token-Prediction |\n| [12\u002F30\u002F2024] | Varformer：为图像修复适配VAR的生成先验                                                          | https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.21063                                   |\n| [12\u002F22\u002F2024] | [ICLR 2025]蒸馏解码1：利用流匹配对图像自回归模型进行一步采样                     | https:\u002F\u002Fgithub.com\u002Fimagination-research\u002Fdistilled-decoding         |\n| [12\u002F19\u002F2024] | FlowAR：尺度级自回归图像生成与流匹配相结合                                                      | https:\u002F\u002Fgithub.com\u002FOliverRensu\u002FFlowAR                              |\n| [12\u002F13\u002F2024] | 512字节内的3D表示：变分标记器是自回归3D生成的关键                                | https:\u002F\u002Fgithub.com\u002Fsparse-mvs-2\u002FVAT                                |\n| [12\u002F9\u002F2024]  | CARP：通过粗细结合的自回归预测进行视觉运动策略学习                                              | https:\u002F\u002Fcarp-robot.github.io\u002F                                      |\n| [12\u002F5\u002F2024]  | [CVPR 2025]Infinity ∞：为高分辨率图像合成扩展位级自回归建模                        | https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FInfinity                       |\n| [12\u002F5\u002F2024]  | [CVPR 2025]Switti：为文本到图像合成设计尺度级Transformer                           | https:\u002F\u002Fgithub.com\u002Fyandex-research\u002Fswitti                          |\n| [12\u002F4\u002F2024]  | [CVPR 2025]TokenFlow🚀：用于多模态理解和生成的统一图像标记器                      | https:\u002F\u002Fgithub.com\u002FByteFlow-AI\u002FTokenFlow                           |\n| [12\u002F3\u002F2024]  | XQ-GAN🚀：一个用于自回归生成的开源图像标记框架                                                    | https:\u002F\u002Fgithub.com\u002Flxa9867\u002FImageFolder                             |\n| [11\u002F28\u002F2024] | [CVPR 2025]CoDe：协作解码使视觉自回归建模更高效                                    | https:\u002F\u002Fgithub.com\u002Fczg1225\u002FCoDe                                    |\n| [11\u002F28\u002F2024] | [CVPR 2025]可扩展的自回归单目深度估计                                                            | https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.11361                                   |\n| [11\u002F27\u002F2024] | [CVPR 2025]SAR3D：通过多尺度3D VQVAE实现自回归3D物体生成与理解                    | https:\u002F\u002Fgithub.com\u002Fcyw-3d\u002FSAR3D                                    |\n| [11\u002F26\u002F2024] | LiteVAR：通过高效的注意力机制和量化压缩视觉自回归建模                                            | https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.17178                                   |\n| [11\u002F15\u002F2024] | M-VAR：解耦的尺度级自回归建模用于高质量图像生成                                                  | https:\u002F\u002Fgithub.com\u002FOliverRensu\u002FMVAR                                |\n| [10\u002F14\u002F2024] | [ICLR 2025]HART：使用混合自回归Transformer实现高效视觉生成                                       | https:\u002F\u002Fgithub.com\u002Fmit-han-lab\u002Fhart                                |\n| [10\u002F12\u002F2024] | [ICLR 2025口头报告]通过条件对比对齐，迈向无指导的AR视觉生成                      | https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FCCA                                      |\n| [10\u002F3\u002F2024]  | [ICLR 2025]ImageFolder🚀：利用折叠标记进行自回归图像生成                          | https:\u002F\u002Fgithub.com\u002Flxa9867\u002FImageFolder                             |\n| [07\u002F25\u002F2024] | ControlVAR：探索可控的视觉自回归建模                                                              | https:\u002F\u002Fgithub.com\u002Flxa9867\u002FControlVAR                              |\n| [07\u002F3\u002F2024]  | VAR-CLIP：基于视觉自回归建模的文本到图像生成器                                                  | https:\u002F\u002Fgithub.com\u002Fdaixiangzi\u002FVAR-CLIP                             |\n| [06\u002F16\u002F2024] | STAR：通过自回归表示实现尺度级文本到图像生成                                                     | https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.10797                                   |\n\n## 许可证\n本项目采用 MIT 许可证授权——详情请参阅 [LICENSE](LICENSE) 文件。\n\n\n## 引用\n如果我们的工作对您的研究有所帮助，欢迎您为我们点个赞 ⭐ 或按以下格式引用我们：\n```\n@Article{VAR,\n      title={视觉自回归建模：通过下一尺度预测实现可扩展的图像生成}, \n      author={田凯宇、蒋毅、袁泽寰、彭冰悦、王立伟},\n      year={2024},\n      eprint={2404.02905},\n      archivePrefix={arXiv},\n      primaryClass={cs.CV}\n}\n```\n\n```\n@misc{Infinity,\n    title={Infinity：面向高分辨率图像合成的位级自回归建模扩展}, \n    author={韩健、刘金来、蒋毅、闫斌、张宇奇、袁泽寰、彭冰悦、刘晓兵},\n    year={2024},\n    eprint={2412.04431},\n    archivePrefix={arXiv},\n    primaryClass={cs.CV},\n    url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.04431}, \n}\n```","# VAR 快速上手指南\n\nVAR (Visual Autoregressive Modeling) 是一种全新的视觉生成方法，它通过将自回归学习重新定义为“从粗到细的下一尺度预测”，在 ImageNet 图像生成任务上超越了传统的扩散模型，并荣获 NeurIPS 2024 最佳论文奖。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 18.04+)\n*   **Python**: 3.8 或更高版本\n*   **GPU**: 支持 CUDA 的 NVIDIA 显卡（训练建议多卡，推理单卡即可）\n*   **核心依赖**:\n    *   `torch >= 2.0.0`\n    *   `torchvision`\n*   **可选加速库** (推荐安装以提升注意力计算速度):\n    *   `flash-attn`\n    *   `xformers`\n\n## 安装步骤\n\n### 1. 创建虚拟环境并安装 PyTorch\n建议使用 conda 管理环境。首先安装符合您 CUDA 版本的 PyTorch（以下为通用示例，请根据实际硬件调整）：\n\n```bash\nconda create -n var python=3.9 -y\nconda activate var\npip install torch>=2.0.0 torchvision --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n```\n\n### 2. 克隆代码库并安装依赖\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FVAR.git\ncd VAR\npip install -r requirements.txt\n```\n\n### 3. (可选) 安装加速组件\n为了获得更快的推理和训练速度，建议编译安装 `flash-attn` 和 `xformers`。代码检测到这些库后会自动启用。\n\n```bash\n# 安装 flash-attn (可能需要较长时间编译)\npip install flash-attn --no-build-isolation\n\n# 安装 xformers\npip install xformers\n```\n\n### 4. 准备预训练权重\nVAR 需要特定的 VAE 权重和模型权重才能运行。请从 HuggingFace 下载以下文件到项目根目录或指定文件夹：\n\n*   **VAE 权重 (必需)**: [vae_ch160v4096z32.pth](https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fvar\u002Fresolve\u002Fmain\u002Fvae_ch160v4096z32.pth)\n*   **模型权重 (任选其一)**:\n    *   VAR-d30 (推荐，256x256, FID 1.97): [var_d30.pth](https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fvar\u002Fresolve\u002Fmain\u002Fvar_d30.pth)\n    *   VAR-d36 (512x512): [var_d36.pth](https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fvar\u002Fresolve\u002Fmain\u002Fvar_d36.pth)\n\n> **提示**: 如果下载速度慢，可尝试使用国内镜像站或代理加速 HuggingFace 连接。\n\n### 5. 数据集准备 (仅训练需要)\n如果您仅需**推理\u002F生成图片**，可跳过此步。若需从头训练，请准备 ImageNet 数据集，目录结构如下：\n```text\n\u002Fpath\u002Fto\u002Fimagenet\u002F:\n    train\u002F:\n        n01440764\u002F: [images...]\n    val\u002F:\n        n01440764\u002F: [images...]\n```\n\n## 基本使用\n\n最简单的使用方式是通过提供的 Jupyter Notebook 进行交互式采样，或者编写简单的 Python 脚本加载模型生成图像。\n\n### 方式一：使用 Demo Notebook (推荐)\n项目提供了 `demo_sample.ipynb`，其中包含了完整的加载权重和生成图像的代码逻辑。\n\n1.  启动 Jupyter Lab：\n    ```bash\n    jupyter lab demo_sample.ipynb\n    ```\n2.  在 Notebook 中修改权重文件路径指向您下载的文件。\n3.  依次运行单元格即可生成图像。\n\n### 方式二：Python 脚本快速推理\n您可以创建一个 `generate.py` 文件，参考以下核心逻辑进行调用：\n\n```python\nimport torch\nfrom models.var import VAR\nfrom utils.misc import create_npz_from_sample_folder\n\n# 配置参数\ndevice = 'cuda' if torch.cuda.is_available() else 'cpu'\ndepth = 30  # 对应 var_d30.pth\nresolution = 256\n\n# 初始化模型 (具体初始化代码请参考 demo_sample.ipynb 中的详细实现)\n# 这里仅为逻辑示意，需根据源码填充具体的类实例化过程\nmodel = VAR(depth=depth).to(device)\ncheckpoint = torch.load('var_d30.pth', map_location=device)\nmodel.load_state_dict(checkpoint['model'], strict=False)\nmodel.eval()\n\n# 执行自回归推理采样\n# cfg: 引导系数 (1.5 平衡质量与多样性，5.0 质量更高但多样性降低)\n# top_p, top_k: 采样策略参数\nsamples = model.autoregressive_infer_cfg(\n    cfg=1.5, \n    top_p=0.96, \n    top_k=900, \n    more_smooth=False\n)\n\n# samples 即为生成的图像张量，可使用 torchvision 保存为图片\nprint(\"生成完成！\")\n```\n\n> **注意**: 完整的推理类实例化和预处理逻辑较为复杂，强烈建议直接阅读并运行 `demo_sample.ipynb` 以获取最准确的调用流程。\n\n### 在线体验\n如果您暂时不想配置本地环境，可以直接访问官方演示平台体验 VAR 的文生图能力：\n[VAR Demo Platform](https:\u002F\u002Fopensource.bytedance.com\u002Fgmpt\u002Ft2i\u002Finvite)","某电商平台的算法团队正致力于为海量商品目录自动生成高分辨率、细节丰富的展示图，以替代昂贵且低效的人工摄影流程。\n\n### 没有 VAR 时\n- **生成质量瓶颈**：依赖传统的扩散模型（Diffusion），在处理复杂纹理（如织物细节、金属光泽）时容易模糊，难以达到商业级印刷标准。\n- **推理速度缓慢**：扩散模型需要数十甚至上百步的去噪迭代才能输出一张图，导致批量生成数万张商品图时耗时极长，算力成本高昂。\n- **扩展性受限**：想要提升分辨率或增加训练数据规模时，模型性能往往遭遇瓶颈，无法像语言模型那样通过简单扩大规模来显著增强效果。\n- **架构复杂难调**：现有方案代码库庞大且依赖繁琐的调度器配置，开发人员调试新策略或复现前沿论文成果的难度极大。\n\n### 使用 VAR 后\n- **画质显著跃升**：利用 VAR 的“下一尺度预测”机制，生成的图像在 ImageNet 基准上超越扩散模型，商品材质纹理清晰锐利，直接满足高清广告需求。\n- **生成效率倍增**：采用类似 GPT 的自回归生成方式，大幅减少了推理步数，将单图生成时间缩短数倍，快速完成大规模商品图库的构建。\n- **享受缩放红利**：验证了视觉生成的缩放定律，团队只需增加模型参数量和训练数据，即可线性获得更强大的生成能力，无需重新设计架构。\n- **开发极简高效**：VAR 提供了超简洁的代码实现，工程师能快速部署并基于此框架定制垂直领域的微调模型，大幅降低研发门槛。\n\nVAR 通过引入自回归范式打破了扩散模型的质量与效率天花板，让高质量视觉内容的规模化生产变得像文本生成一样简单可控。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFoundationVision_VAR_c7a20f85.jpg","FoundationVision","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FFoundationVision_08beeedc.jpg","Bytedance's opensource FoundationVision models",null,"https:\u002F\u002Fgithub.com\u002FFoundationVision",[81,85],{"name":82,"color":83,"percentage":84},"Jupyter Notebook","#DA5B0B",85.8,{"name":86,"color":87,"percentage":88},"Python","#3572A5",14.2,8660,564,"2026-04-04T11:07:56","MIT",4,"Linux","必需 NVIDIA GPU。训练需多卡环境（示例命令使用 8 卡），支持 Flash Attention 和 xformers 加速；推理显存需求视模型大小而定（最大模型 2.3B 参数），建议 16GB+ 显存。","未说明（建议 32GB+ 以处理大型模型和 ImageNet 数据集）",{"notes":98,"python":99,"dependencies":100},"1. 必须准备 ImageNet 数据集并配置正确路径。\n2. 推理前需单独下载 VAE 权重文件 (vae_ch160v4096z32.pth)。\n3. 安装 flash-attn 和 xformers 可显著提升注意力计算速度，代码会自动检测并使用。\n4. 训练脚本支持断点自动恢复。\n5. 官方示例基于多机多卡分布式训练环境 (torchrun)。","未说明（通常配合 torch>=2.0.0 使用 Python 3.8+）",[101,102,103,104],"torch>=2.0.0","flash-attn (可选)","xformers (可选)","tensorboard",[26,14,15],[107,108,109,110,111,112,113,114,115,116,117,118],"auto-regressive-model","diffusion-models","image-generation","transformers","autoregressive-models","generative-ai","generative-model","gpt","gpt-2","large-language-models","vision-transformer","neurips","2026-03-27T02:49:30.150509","2026-04-06T06:52:12.423330",[122,127,132,137,142,146],{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},15585,"为什么我生成的图像 FID 分数与官方提供的检查点结果不一致？","最常见的原因是随机种子（seed）设置问题。在使用分布式数据并行（DDP）或多进程生成图像时，如果所有进程使用了相同的种子，会导致生成的图像完全重复，从而严重影响 FID 计算结果。\n解决方案：\n1. 确保为每个类别或每个生成进程设置不同的随机种子。\n2. 如果是多卡训练\u002F推理，请为不同的 rank 设置不同的 seed。\n3. FID 需要大量多样化的图像才能计算准确，重复图像会导致分数异常偏高。","https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FVAR\u002Fissues\u002F69",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},15586,"使用 DDP 进行图像生成时，FID 结果异常高（如 18-19），可能是什么原因？","这通常是因为在 PyTorch DDP 模式下，不同 rank（进程）错误地使用了相同的随机种子，导致所有显卡生成了完全相同的图像。\n解决方法：\n在代码中为每个 rank 设置独立的种子。例如：\n`torch.manual_seed(base_seed + rank)`\n确保每个进程生成的图像是多样化的，FID 分数就会恢复正常。","https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FVAR\u002Fissues\u002F45",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},15587,"训练 VAR 模型时，Token 准确率（accm）在 27 个 epoch 后仍然只有 4%，这正常吗？","这是正常的。VAR 论文中的图表（如 Fig. 22）和公式显示，在“下一尺度预测”（next-scale-prediction）任务中，Token 准确率本身就很低。\n建议不要仅关注训练日志中的 accm 指标，而应重点检查下游任务的指标（如 FID 和 Inception Score）是否与论文报告的结果一致。如果 FID 符合预期，则训练过程没有问题。","https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FVAR\u002Fissues\u002F143",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},15588,"加载预训练权重时报错 'Unexpected key(s) in state_dict' 或尺寸不匹配，如何解决？","这通常是因为模型深度（MODEL_DEPTH）设置与加载的检查点不匹配，或者在 Jupyter Notebook 中未重启内核导致旧模型实例残留。\n解决方法：\n1. **检查深度设置**：确保代码中的 `MODEL_DEPTH` 变量与下载的权重文件对应（例如 `var_d30.pth` 对应 `MODEL_DEPTH = 30`）。\n2. **重启环境**：如果在 Jupyter Notebook 中先创建了深度为 16 的模型，随后尝试加载深度为 30 的权重会报错。必须点击 \"Restart Kernel\" 清除内存，然后重新运行代码创建正确深度的模型再加载权重。","https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FVAR\u002Fissues\u002F136",{"id":143,"question_zh":144,"answer_zh":145,"source_url":126},15589,"如何正确设置随机种子以确保生成的图像具有多样性？","为了保证 FID 评估的准确性，生成的图像必须具有多样性。\n建议做法：\n将随机种子设置为当前生成图像的类别 ID（class ID），或者在批量生成时为每个样本设置唯一的种子偏移量。\n这样可以确保每个类别甚至每张图像的生成都基于不同的噪声分布，避免生成重复图像。",{"id":147,"question_zh":148,"answer_zh":149,"source_url":150},15590,"修改训练尺度（scale）后输出全是噪声，是否需要重新训练 VQVAE？","VAR 模型的尺度（patch_nums）是硬编码在架构和预训练权重中的。如果尝试更改默认的尺度序列（如改为 3, 6, 10 等）而不重新训练模型，会导致架构不匹配，从而输出噪声。\n目前官方提供的检查点是针对特定尺度序列训练的，不支持直接通过修改参数来改变生成尺度，除非你拥有对应的预训练权重或从头开始重新训练模型。","https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FVAR\u002Fissues\u002F97",[]]