[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-vllm-project--vllm-omni":3,"tool-vllm-project--vllm-omni":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",150037,2,"2026-04-10T23:33:47",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":76,"owner_url":77,"languages":78,"stars":94,"forks":95,"last_commit_at":96,"license":97,"difficulty_score":10,"env_os":98,"env_gpu":99,"env_ram":98,"env_deps":100,"category_tags":107,"github_topics":111,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":121,"updated_at":122,"faqs":123,"releases":152},6555,"vllm-project\u002Fvllm-omni","vllm-omni","A framework for efficient model inference with omni-modality models","vllm-omni 是一个专为高效运行“全模态”人工智能模型而设计的开源服务框架。它源自著名的 vLLM 项目，旨在突破原有架构仅擅长处理文本的限制，让 AI 能够流畅地理解和生成文本、图像、视频及音频等多种类型的数据。\n\n过去，同时处理多种媒体形式的模型往往面临推理速度慢、显存占用高以及难以部署的难题，尤其是涉及图像和视频生成的非自回归模型（如扩散模型），在传统框架下效率较低。vllm-omni 通过重构底层运行时和调度器，不仅支持传统的文本生成，还原生适配了扩散变换器（DiT）等并行生成架构，显著提升了多模态任务的生产级部署能力。其独特的技术亮点在于实现了异构输出的统一调度，并广泛兼容 CUDA、ROCm 及各类国产 NPU 硬件，确保了在不同平台上的高性能表现。\n\n这款工具非常适合需要构建复杂多模态应用的 AI 开发者、致力于探索新模型架构的研究人员，以及希望将语音、视觉能力集成到产品中的工程师。无论是开发智能助手、内容创作平台，还是进行大规模模型推理测试，vllm-omni 都能提供快速、稳定且低成本的技术底座，帮助团队轻松跨越从实验模型到实际应用的鸿沟。","\u003Cp align=\"center\">\n  \u003Cpicture>\n    \u003Csource media=\"(prefers-color-scheme: dark)\" srcset=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fvllm-project_vllm-omni_readme_c7841b7b177b.png\">\n    \u003Cimg alt=\"vllm-omni\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fvllm-project_vllm-omni_readme_c7841b7b177b.png\" width=55%>\n  \u003C\u002Fpicture>\n\u003C\u002Fp>\n\u003Ch3 align=\"center\">\nEasy, fast, and cheap omni-modality model serving for everyone\n\u003C\u002Fh3>\n\n\u003Cp align=\"center\">\n| \u003Ca href=\"https:\u002F\u002Fvllm-omni.readthedocs.io\u002Fen\u002Flatest\u002F\">\u003Cb>Documentation\u003C\u002Fb>\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fdiscuss.vllm.ai\">\u003Cb>User Forum\u003C\u002Fb>\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fslack.vllm.ai\">\u003Cb>Developer Slack\u003C\u002Fb>\u003C\u002Fa> | \u003Ca href=\"docs\u002Fassets\u002FWeChat.jpg\">\u003Cb>WeChat\u003C\u002Fb>\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.02204\">\u003Cb>Paper\u003C\u002Fb>\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fdocs.google.com\u002Fpresentation\u002Fd\u002F1XJWgv79lORl8rbaVvp2d5Sqs6ZEBgAgj\u002Fedit?slide=id.p1#slide=id.p1\">\u003Cb>Slides\u003C\u002Fb>\u003C\u002Fa> |\n\u003C\u002Fp>\n\n\n---\n\n*Latest News* 🔥\n- [2026\u002F03] We released [0.18.0](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Freleases\u002Ftag\u002Fv0.18.0) - strengthens the core runtime through a large entrypoint refactor and scheduler\u002Fruntime cleanups, expands unified quantization and diffusion execution, broadens multimodal model coverage, and improves production readiness across audio, omni, image, video, RL, and multi-platform deployments.\n- [2026\u002F03] Check out our first public [project deepdive](https:\u002F\u002Fyoutu.be\u002FsgwNfsNnR9I) at the vLLM Hong Kong Meetup!\n- [2026\u002F03] **[vllm-omni-skills](https:\u002F\u002Fgithub.com\u002Fhsliuustc0106\u002Fvllm-omni-skills)** is a community-driven collection of AI assistant skills that help developers work with vLLM-Omni more effectively. These skills can be used with popular agentic AI coding assistants like **Cursor IDE**, **Claude**, **Codex**, and more.\n- [2026\u002F02] We released [0.16.0](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Freleases\u002Ftag\u002Fv0.16.0) - A major alignment + capability release that rebases onto **upstream vLLM v0.16.0** and significantly expands performance, distributed execution, and production readiness across **Qwen3-Omni \u002F Qwen3-TTS**, **Bagel**, **MiMo-Audio**, **GLM-Image** and the **Diffusion (DiT) image\u002Fvideo stack**—while also improving platform coverage (CUDA \u002F ROCm \u002F NPU \u002F XPU), CI quality, and documentation.\n- [2026\u002F02] We released [0.14.0](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Freleases\u002Ftag\u002Fv0.14.0) - This is the first **stable release** of vLLM-Omni that expands Omni’s diffusion \u002F image-video generation and audio \u002F TTS stack, improves distributed execution and memory efficiency, and broadens platform\u002Fbackend coverage (GPU\u002FROCm\u002FNPU\u002FXPU). It also brings meaningful upgrades to serving APIs, profiling & benchmarking, and overall stability. Please check our latest [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.02204) for architecture design and performance results.\n- [2026\u002F01] We released [0.12.0rc1](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Freleases\u002Ftag\u002Fv0.12.0rc1) - a major RC milestone focused on maturing the diffusion stack, strengthening OpenAI-compatible serving, expanding omni-model coverage, and improving stability across platforms (GPU\u002FNPU\u002FROCm).\n- [2025\u002F11] vLLM community officially released [vllm-project\u002Fvllm-omni](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni) in order to support omni-modality models serving.\n\n---\n\n## About\n\n[vLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm) was originally designed to support large language models for text-based autoregressive generation tasks. vLLM-Omni is a framework that extends its support for omni-modality model inference and serving:\n\n- **Omni-modality**: Text, image, video, and audio data processing\n- **Non-autoregressive Architectures**: extend the AR support of vLLM to Diffusion Transformers (DiT) and other parallel generation models\n- **Heterogeneous outputs**: from traditional text generation to multimodal outputs\n\n\u003Cp align=\"center\">\n  \u003Cpicture>\n    \u003Cimg alt=\"vllm-omni\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fvllm-project_vllm-omni_readme_2f6b2ec02062.png\" width=55%>\n  \u003C\u002Fpicture>\n\u003C\u002Fp>\n\nvLLM-Omni is fast with:\n\n- State-of-the-art AR support by leveraging efficient KV cache management from vLLM\n- Pipelined stage execution overlapping for high throughput performance\n- Fully disaggregation based on OmniConnector and dynamic resource allocation across stages\n\nvLLM-Omni is flexible and easy to use with:\n\n- Heterogeneous pipeline abstraction to manage complex model workflows\n- Seamless integration with popular Hugging Face models\n- Tensor, pipeline, data and expert parallelism support for distributed inference\n- Streaming outputs\n- OpenAI-compatible API server\n\nvLLM-Omni seamlessly supports most popular open-source models on HuggingFace, including:\n\n- Omni-modality models (e.g. Qwen-Omni)\n- Multi-modality generation models (e.g. Qwen-Image)\n\n## Getting Started\n\nVisit our [documentation](https:\u002F\u002Fvllm-omni.readthedocs.io\u002Fen\u002Flatest\u002F) to learn more.\n\n- [Installation](https:\u002F\u002Fvllm-omni.readthedocs.io\u002Fen\u002Flatest\u002Fgetting_started\u002Finstallation\u002F)\n- [Quickstart](https:\u002F\u002Fvllm-omni.readthedocs.io\u002Fen\u002Flatest\u002Fgetting_started\u002Fquickstart\u002F)\n- [List of Supported Models](https:\u002F\u002Fvllm-omni.readthedocs.io\u002Fen\u002Flatest\u002Fmodels\u002Fsupported_models\u002F)\n\n## Contributing\n\nWe welcome and value any contributions and collaborations.\nPlease check out [Contributing to vLLM-Omni](https:\u002F\u002Fvllm-omni.readthedocs.io\u002Fen\u002Flatest\u002Fcontributing\u002F) for how to get involved.\n\n## Citation\n\nIf you use vLLM-Omni for your research, please cite our [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.02204):\n\n```bibtex\n@article{yin2026vllmomni,\n  title={vLLM-Omni: Fully Disaggregated Serving for Any-to-Any Multimodal Models},\n  author={Peiqi Yin, Jiangyun Zhu, Han Gao, Chenguang Zheng, Yongxiang Huang, Taichang Zhou, Ruirui Yang, Weizhi Liu, Weiqing Chen, Canlin Guo, Didan Deng, Zifeng Mo, Cong Wang, James Cheng, Roger Wang, Hongsheng Liu},\n  journal={arXiv preprint arXiv:2602.02204},\n  year={2026}\n}\n```\n\n## Join the Community\nFeel free to ask questions, provide feedbacks and discuss with fellow users of vLLM-Omni in `#sig-omni` slack channel at [slack.vllm.ai](https:\u002F\u002Fslack.vllm.ai) or vLLM user forum at [discuss.vllm.ai](https:\u002F\u002Fdiscuss.vllm.ai).\n\n## Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fvllm-project_vllm-omni_readme_5cf59f35740c.png)](https:\u002F\u002Fwww.star-history.com\u002F#vllm-project\u002Fvllm-omni&type=date&legend=top-left)\n\n## License\n\nApache License 2.0, as found in the [LICENSE](.\u002FLICENSE) file.\n","\u003Cp align=\"center\">\n  \u003Cpicture>\n    \u003Csource media=\"(prefers-color-scheme: dark)\" srcset=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fvllm-project_vllm-omni_readme_c7841b7b177b.png\">\n    \u003Cimg alt=\"vllm-omni\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fvllm-project_vllm-omni_readme_c7841b7b177b.png\" width=55%>\n  \u003C\u002Fpicture>\n\u003C\u002Fp>\n\u003Ch3 align=\"center\">\n简单、快速且经济的全模态模型推理服务，面向所有人\n\u003C\u002Fh3>\n\n\u003Cp align=\"center\">\n| \u003Ca href=\"https:\u002F\u002Fvllm-omni.readthedocs.io\u002Fen\u002Flatest\u002F\">\u003Cb>文档\u003C\u002Fb>\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fdiscuss.vllm.ai\">\u003Cb>用户论坛\u003C\u002Fb>\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fslack.vllm.ai\">\u003Cb>开发者 Slack\u003C\u002Fb>\u003C\u002Fa> | \u003Ca href=\"docs\u002Fassets\u002FWeChat.jpg\">\u003Cb>微信\u003C\u002Fb>\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.02204\">\u003Cb>论文\u003C\u002Fb>\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fdocs.google.com\u002Fpresentation\u002Fd\u002F1XJWgv79lORl8rbaVvp2d5Sqs6ZEBgAgj\u002Fedit?slide=id.p1#slide=id.p1\">\u003Cb>幻灯片\u003C\u002Fb>\u003C\u002Fa> |\n\u003C\u002Fp>\n\n\n---\n\n*最新消息* 🔥\n- [2026年3月] 我们发布了[0.18.0](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Freleases\u002Ftag\u002Fv0.18.0)——通过大规模入口点重构和调度器\u002F运行时清理，强化了核心运行时；扩展了统一量化与扩散执行功能，进一步拓宽了多模态模型的支持范围，并在音频、全模态、图像、视频、强化学习以及多平台部署等方面提升了生产就绪性。\n- [2026年3月] 欢迎观看我们在 vLLM 香港 Meetup 上的首次公开【项目深度解析】视频！\n- [2026年3月] **[vllm-omni-skills](https:\u002F\u002Fgithub.com\u002Fhsliuustc0106\u002Fvllm-omni-skills)** 是一个由社区驱动的 AI 助手技能集合，旨在帮助开发者更高效地使用 vLLM-Omni。这些技能可与流行的代理式 AI 编程助手如 **Cursor IDE**、**Claude**、**Codex** 等配合使用。\n- [2026年2月] 我们发布了[0.16.0](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Freleases\u002Ftag\u002Fv0.16.0)——这是一次重要的对齐与能力提升版本，基于 **上游 vLLM v0.16.0** 进行重基，并显著增强了性能、分布式执行能力以及生产就绪性，覆盖 **Qwen3-Omni \u002F Qwen3-TTS**、**Bagel**、**MiMo-Audio**、**GLM-Image** 和 **Diffusion (DiT) 图像\u002F视频栈**；同时改善了平台支持（CUDA \u002F ROCm \u002F NPU \u002F XPU）、CI 质量及文档。\n- [2026年2月] 我们发布了[0.14.0](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Freleases\u002Ftag\u002Fv0.14.0)——这是 vLLM-Omni 的首个 **稳定版**，扩展了 Omni 的扩散\u002F图像-视频生成以及音频\u002FTTS 技术栈，优化了分布式执行与内存效率，并拓宽了平台\u002F后端支持范围（GPU\u002FROCm\u002FNPU\u002FXPU）。此外，还对服务 API、性能分析与基准测试以及整体稳定性进行了有意义的升级。有关架构设计和性能结果，请参阅我们最新的【论文】(https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.02204)。\n- [2026年1月] 我们发布了[0.12.0rc1](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Freleases\u002Ftag\u002Fv0.12.0rc1)——这是一个重要的 RC 版里程碑，重点在于完善扩散技术栈、强化 OpenAI 兼容的服务接口、扩大全模态模型支持范围，并提升跨平台（GPU\u002FNPU\u002FROCm）的稳定性。\n- [2025年11月] vLLM 社区正式发布了[vllm-project\u002Fvllm-omni](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni)，以支持全模态模型的推理与服务。\n\n---\n\n## 关于\n\n[vLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm) 最初是为支持基于文本的自回归生成任务的大语言模型而设计的。vLLM-Omni 则是一个扩展其支持范围的框架，用于全模态模型的推理与服务：\n\n- **全模态**：处理文本、图像、视频和音频数据\n- **非自回归架构**：将 vLLM 的自回归支持扩展至扩散 Transformer (DiT) 及其他并行生成模型\n- **异构输出**：从传统的文本生成到多模态输出\n\n\u003Cp align=\"center\">\n  \u003Cpicture>\n    \u003Cimg alt=\"vllm-omni\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fvllm-project_vllm-omni_readme_2f6b2ec02062.png\" width=55%>\n  \u003C\u002Fpicture>\n\u003C\u002Fp>\n\nvLLM-Omni 具有以下优势：\n\n- 基于 vLLM 的高效 KV 缓存管理，提供最先进的自回归支持\n- 流水线阶段执行相互重叠，实现高吞吐量性能\n- 完全解耦合架构，依托 OmniConnector 和动态资源分配，实现各阶段的灵活调度\n\nvLLM-Omni 使用起来灵活便捷：\n\n- 提供异构流水线抽象，便于管理复杂的模型工作流\n- 与流行的 Hugging Face 模型无缝集成\n- 支持张量并行、流水线并行、数据并行和专家并行等分布式推理技术\n- 流式输出\n- OpenAI 兼容的 API 服务器\n\nvLLM-Omni 可无缝支持 HuggingFace 上大多数流行的开源模型，包括：\n\n- 全模态模型（如 Qwen-Omni）\n- 多模态生成模型（如 Qwen-Image）\n\n## 开始使用\n\n请访问我们的【文档】(https:\u002F\u002Fvllm-omni.readthedocs.io\u002Fen\u002Flatest\u002F) 了解更多：\n\n- [安装指南](https:\u002F\u002Fvllm-omni.readthedocs.io\u002Fen\u002Flatest\u002Fgetting_started\u002Finstallation\u002F)\n- [快速入门](https:\u002F\u002Fvllm-omni.readthedocs.io\u002Fen\u002Flatest\u002Fgetting_started\u002Fquickstart\u002F)\n- [支持的模型列表](https:\u002F\u002Fvllm-omni.readthedocs.io\u002Fen\u002Flatest\u002Fmodels\u002Fsupported_models\u002F)\n\n## 贡献\n我们欢迎并珍视任何贡献与合作。有关如何参与，请参阅【贡献 vLLM-Omni】(https:\u002F\u002Fvllm-omni.readthedocs.io\u002Fen\u002Flatest\u002Fcontributing\u002F)。\n\n## 引用\n如果您在研究中使用 vLLM-Omni，请引用我们的【论文】(https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.02204)：\n\n```bibtex\n@article{yin2026vllmomni,\n  title={vLLM-Omni: 面向任意模态间转换的完全解耦服务},\n  author={Peiqi Yin, Jiangyun Zhu, Han Gao, Chenguang Zheng, Yongxiang Huang, Taichang Zhou, Ruirui Yang, Weizhi Liu, Weiqing Chen, Canlin Guo, Didan Deng, Zifeng Mo, Cong Wang, James Cheng, Roger Wang, Hongsheng Liu},\n  journal={arXiv 预印本 arXiv:2602.02204},\n  year={2026}\n}\n```\n\n## 加入社区\n欢迎在 [slack.vllm.ai](https:\u002F\u002Fslack.vllm.ai) 的 `#sig-omni` Slack 频道或 [discuss.vllm.ai](https:\u002F\u002Fdiscuss.vllm.ai) 的 vLLM 用户论坛中提问、反馈并与 vLLM-Omni 的其他用户交流。\n\n## 星标历史\n\n[![星标历史图表](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fvllm-project_vllm-omni_readme_5cf59f35740c.png)](https:\u002F\u002Fwww.star-history.com\u002F#vllm-project\u002Fvllm-omni&type=date&legend=top-left)\n\n## 许可证\nApache License 2.0，详见 [LICENSE](.\u002FLICENSE) 文件。","# vLLM-Omni 快速上手指南\n\nvLLM-Omni 是一个专为全模态（Omni-modality）模型设计的高性能推理与服务框架。它在 vLLM 的基础上扩展了对文本、图像、视频和音频的处理能力，支持扩散模型（DiT）等非自回归架构，并提供开箱即用的 OpenAI 兼容 API。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04\u002F22.04)\n*   **Python**: 3.9 - 3.12\n*   **GPU**: NVIDIA GPU (建议显存 16GB 以上，具体取决于模型大小)\n*   **CUDA**: 12.1 或更高版本\n*   **前置依赖**: 建议先安装 PyTorch 以匹配您的 CUDA 版本。\n\n> **国内加速提示**：\n> 推荐使用清华或阿里镜像源加速 Python 包下载。\n> ```bash\n> export PIP_INDEX_URL=https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n## 2. 安装步骤\n\n### 方式一：通过 PyPI 安装（推荐）\n\n这是最稳定的安装方式，适用于大多数用户。\n\n```bash\npip install vllm-omni\n```\n\n如果您需要针对特定硬件（如 ROCm 或特定 CUDA 版本）进行优化，请参考官方文档的安装章节选择对应的 wheel 包。\n\n### 方式二：从源码安装（适合开发者）\n\n如果您需要最新的功能或参与贡献，可以从 GitHub 克隆源码安装。\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni.git\ncd vllm-omni\npip install -e .\n```\n\n## 3. 基本使用\n\nvLLM-Omni 提供了与 OpenAI 兼容的 API 服务器，您可以轻松启动服务并调用全模态模型（如 Qwen-Omni, Qwen-Image 等）。\n\n### 第一步：启动 API 服务器\n\n使用 `vllm-omni` 命令启动服务。以下示例以 HuggingFace 上的模型为例（请替换为您实际需要的模型 ID）：\n\n```bash\nvllm-omni serve \\\n    --model Qwen\u002FQwen2-VL-7B-Instruct \\\n    --trust-remote-code \\\n    --port 8000\n```\n\n*   `--model`: 指定模型名称或本地路径。\n*   `--trust-remote-code`: 许多多模态模型需要此参数以加载自定义代码。\n*   `--port`: 服务监听端口，默认为 8000。\n\n### 第二步：发送请求\n\n服务器启动后，您可以使用 `curl` 或任何 HTTP 客户端发送请求。以下是一个简单的文本生成示例：\n\n```bash\ncurl http:\u002F\u002Flocalhost:8000\u002Fv1\u002Fchat\u002Fcompletions \\\n    -H \"Content-Type: application\u002Fjson\" \\\n    -d '{\n        \"model\": \"Qwen\u002FQwen2-VL-7B-Instruct\",\n        \"messages\": [\n            {\"role\": \"user\", \"content\": \"Hello, how are you?\"}\n        ],\n        \"max_tokens\": 512\n    }'\n```\n\n对于多模态输入（如图像 + 文本），只需在 `content` 字段中包含图像 URL 或 Base64 数据，格式遵循 OpenAI Vision API 标准。\n\n### 第三步：使用 Python 客户端\n\n您也可以使用标准的 `openai` Python 库进行调用：\n\n```python\nfrom openai import OpenAI\n\n# 初始化客户端，指向本地 vLLM-Omni 服务\nclient = OpenAI(\n    base_url=\"http:\u002F\u002Flocalhost:8000\u002Fv1\",\n    api_key=\"not-needed\" # 本地部署通常不需要真实的 API Key\n)\n\nresponse = client.chat.completions.create(\n    model=\"Qwen\u002FQwen2-VL-7B-Instruct\",\n    messages=[\n        {\"role\": \"user\", \"content\": \"Describe this image.\"},\n        # 此处可添加图像内容，例如：{\"type\": \"image_url\", \"image_url\": {\"url\": \"...\"}}\n    ]\n)\n\nprint(response.choices[0].message.content)\n```\n\n---\n*更多高级功能（如分布式推理、量化、流式输出）及支持的完整模型列表，请访问 [vLLM-Omni 官方文档](https:\u002F\u002Fvllm-omni.readthedocs.io\u002Fen\u002Flatest\u002F)。*","某多媒体内容创作平台需要为百万级用户实时提供“图文转视频”及“语音解说”生成的混合模态服务。\n\n### 没有 vllm-omni 时\n- **架构割裂严重**：团队需分别部署文本、图像扩散模型（DiT）和音频 TTS 三个独立服务，导致资源碎片化，运维成本极高。\n- **推理延迟过高**：传统框架仅支持自回归生成，无法高效并行处理视频帧的扩散生成，用户等待一个 5 秒短视频往往超过 30 秒。\n- **硬件利用率低**：不同模态模型难以在同一 GPU 实例上动态调度，常出现显存闲置与计算瓶颈并存的“木桶效应”。\n- **多端适配困难**：在国产 NPU 或 ROCm 设备上缺乏统一支持，被迫维护多套代码分支以兼容不同硬件后端。\n\n### 使用 vllm-omni 后\n- **统一服务入口**：通过单一框架同时托管 Qwen3-Omni、GLM-Image 及音频模型，实现文本、视频、音频的流水线式一键推理。\n- **生成速度飞跃**：利用对非自回归架构（如 DiT）的原生优化，视频生成吞吐量提升数倍，将用户等待时间压缩至秒级。\n- **资源动态调度**：凭借先进的调度器，异构任务可共享显存与算力，集群整体 GPU 利用率从 40% 提升至 85% 以上。\n- **跨平台无缝部署**：原生支持 CUDA、ROCm、NPU 等多种后端，无需修改代码即可在异构硬件集群中平滑扩展。\n\nvllm-omni 通过打破模态壁垒与架构限制，让复杂的多媒体 AI 应用得以像纯文本对话一样高效、低成本地规模化落地。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fvllm-project_vllm-omni_c7841b7b.png","vllm-project","vLLM","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fvllm-project_88aef4ba.png","",null,"https:\u002F\u002Fgithub.com\u002Fvllm-project",[79,83,87,91],{"name":80,"color":81,"percentage":82},"Python","#3572A5",99.2,{"name":84,"color":85,"percentage":86},"Shell","#89e051",0.8,{"name":88,"color":89,"percentage":90},"Jinja","#a52a22",0,{"name":92,"color":93,"percentage":90},"JavaScript","#f1e05a",4215,732,"2026-04-11T01:40:41","Apache-2.0","未说明","支持多种硬件平台：CUDA (NVIDIA GPU), ROCm (AMD GPU), NPU, XPU。具体显存大小和 CUDA 版本未在 README 中明确列出，但提及支持分布式执行和多平台部署。",{"notes":101,"python":98,"dependencies":102},"该工具是 vLLM 的扩展框架，专为全模态（文本、图像、视频、音频）模型推理和服务设计。支持非自回归架构（如扩散模型 DiT）和异构输出。已针对 Qwen3-Omni, Qwen3-TTS, Bagel, MiMo-Audio, GLM-Image 等模型进行优化。支持张量并行、流水线并行等多种分布式推理策略。具体安装细节和版本要求需参考官方文档链接。",[103,104,105,106],"vllm (基于 upstream vLLM v0.16.0+)","Hugging Face transformers (无缝集成)","Diffusion Transformers (DiT) 支持库","OmniConnector",[108,109,35,110,15,14],"其他","视频","音频",[112,113,114,115,116,117,118,119,120],"diffusion","inference","model-serving","pytorch","transformer","audio-generation","image-generation","multimodal","video-generation","2026-03-27T02:49:30.150509","2026-04-11T17:41:30.740487",[124,129,134,139,144,148],{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},29619,"如何正确启动 Qwen3-Omni 模型的在线服务？是否应该使用 --tensor-parallel-size 参数？","在启动 Qwen3-Omni 等 Omni 模型的在线服务时，不应在命令行中直接使用 `--tensor-parallel-size` 参数。正确的做法是通过 `--stage-configs-path` 指定配置文件来管理并行度。\n\n推荐的启动命令如下：\n```bash\nnohup env CUDA_VISIBLE_DEVICES=\"0,1\" \\\nvllm serve \"$MODEL_PATH\" \\\n--stage-init-timeout 900 \\\n--omni \\\n--port 8091 \\\n--stage-configs-path \u002Fpath\u002Fto\u002Fqwen3_omni_moe.yaml \\\n--trust-remote-code > vllm_server.log 2>&1 &\n```\n注意：请根据实际显卡数量调整 `CUDA_VISIBLE_DEVICES`，并确保 YAML 配置文件中已定义好相应的张量并行设置。","https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fissues\u002F386",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},29620,"vLLM-Omni 是否支持混合模态的流式输入（例如视频中使用音频）？","是的，该功能已经得到支持。上游 vLLM 项目已经合并了相关代码，现在支持灵活且鲁棒的混合模态输入处理（包括流式输入）。\n您可以参考上游 PR 获取详细实现：https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u002Fpull\u002F27721","https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fissues\u002F165",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},29621,"如何解决 Qwen3-TTS 模型在 A100 上推理速度慢或首包延迟高的问题？","针对 Qwen3-TTS 模型在 A100 上的性能问题，用户反馈通过重新配置环境可以将实时因子（RTF）优化至 0.6–0.7 左右。\n\n如果在流式推理过程中遇到首秒音频缓冲（buffering）的问题，这通常与后端实现有关。日志中若出现 \"No Flash Attention backend found, using pytorch SDPA implementation\" 警告，建议检查是否安装了兼容的 Flash Attention 版本，或者确认当前 PyTorch 和 CUDA 版本是否与 vLLM-Omni 的要求匹配，以启用更高效的注意力机制后端。","https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fissues\u002F1896",{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},29622,"vLLM-Omni 的配置系统是如何演进的？硬编码的默认扩散阶段配置会被替换吗？","是的，为了消除技术债务并提高配置的健壮性，项目已将原本硬编码的默认扩散阶段配置（ad-hoc hardcoded default diffusion stage config）重构为基于工厂模式的结构化配置构建器。\n\n新的设计引入了 `DefaultStageConfig` 数据类和 `DiffusionConfigBuilder` 助手，支持类型检查和早期验证，不再依赖易出错的手动字典构建。此改进已通过 PR #1115 合入，确保了程序化生成的默认配置与基于 YAML 文件的配置具有同等的一致性和可靠性。","https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fissues\u002F823",{"id":145,"question_zh":146,"answer_zh":147,"source_url":133},29623,"如何在 vLLM-Omni 中添加对新模型的支持？是否有相关文档？","vLLM-Omni 提供了专门的文档指导用户如何添加新模型。相关文档标题为 \"how to add a new model into vLLM-Omni\"（Issue #417），其中详细说明了架构集成步骤、必要的模块实现以及测试要求。\n此外，项目路线图（Roadmap）中也列出了社区贡献者可以协助的模型支持任务（标记为 🙋），如 MiMo-Audio、HunyuanImage-3.0 等，参考这些任务的讨论线程也能获得具体的实现思路。",{"id":149,"question_zh":150,"answer_zh":151,"source_url":133},29624,"vLLM-Omni v0.12.0 版本的主要更新内容和路线图是什么？","v0.12.0 版本主要伴随 vLLM v0.12.0 发布，重点更新了以下内容：\n1. **CI\u002FCD 增强**：完成了在线和离线服务的端到端测试（覆盖 Qwen3-Omni, Z-Image 等），增加了 Rocm 支持和 Wheel 包编译流程。\n2. **模型支持**：计划支持 MiMo-Audio, HunyuanImage-3.0, Bagel 等新模型。\n3. **核心功能**：致力于支持离线和在线推理的流式输入输出，以及混合模态的灵活输入处理。\n4. **文档完善**：更新了主架构说明、DiT 模块设计、缓存加速及注意力后端等技术文档。\n该版本的具体开发任务可在路线图 Issue 中查看，部分任务已随 #677 发布而关闭。",[153,158,163,168,173,178,183,188,193,198,203],{"id":154,"version":155,"summary_zh":156,"released_at":157},206153,"v0.19.0rc1","## 亮点\n\n自 `v0.18.0` 以来，本次发布共包含 71 次提交。\n\nvLLM-Omni `v0.19.0rc1` 是一个基于上游 **vLLM v0.19.0** 的重基并面向生产环境的候选版本。它强化了运行时与推理服务栈，扩展了语音\u002FTTS 及扩散模型\u002F视频生成能力，优化了 Bagel 和 Wan 流水线的生产级行为，并进一步拓宽了在新平台和分布式执行模式下的部署覆盖范围。\n\n### 核心改进\n\n* **基于上游 vLLM v0.19.0 进行重基**，同时持续推进运行时清理与阶段执行重构，以提升编排效率和生产稳定性。**(#2475, #2006)**\n* **扩展语音与 TTS 推理服务**，包括全新的 **OmniVoice** 两阶段支持、**CosyVoice3** 在线推理服务，以及针对 **Qwen3-TTS \u002F Fish Speech** 的多项质量和延迟修复。**(#2463, #2431, #2108, #2446, #2378, #2358)**\n* **优化扩散模型与视频生成工作流**，覆盖 **Bagel**、**Wan2.2**、**FLUX.2-dev** 和 **LTX-2** 等模型，显著降低延迟、改善前向传播行为，并增强生产环境下的正确性。**(#2398, #2422, #2397, #2381, #2459, #2393, #2433, #2260)**\n* **扩大部署支持范围**，新增对 **MUSA** 平台的支持，提升 **XPU** 平台的就绪度，并扩展了如 **HSDP** 和 **CFG 并行化** 等分布式扩散功能。**(#2337, #2428, #2029, #2021, #1751)**\n\n### 核心架构与运行时\n\n* 将项目重基至 **上游 vLLM v0.19.0**，确保 vLLM-Omni 与最新的上游运行时行为及 API 保持一致。**(#2475)**\n* 继续推进阶段\u002F运行时重构，将各阶段的推理逻辑迁移至专用的子进程客户端与进程，从而简化编排流程并提升 AR 阶段与扩散阶段之间的隔离性。**(#2006)**\n* 增加了基于会话的流式音频输入功能，并提供适用于 Qwen3-Omni 类型工作流的实时 WebSocket 路径，支持增量式音频输入及流式转录\u002F输出流程。**(#2208)**\n* 新增 **夜间轮次发布索引**，便于在测试与预发布流程中验证和使用夜间构建版本。**(#2345)**\n\n### 模型支持\n\n* 新增 **OmniVoice** 两阶段 TTS 推理服务支持，将零样本多语言语音生成能力引入 vLLM-Omni 推理服务栈。**(#2463)**\n* 通过 `\u002Fv1\u002Faudio\u002Fspeech` 接口新增并稳定了 **CosyVoice3** 在线推理服务，同时修复了阶段配置问题并完善了 CI 覆盖。**(#2431)**\n* 新增 **LTX-2 精馏版两阶段推理** 支持，适用于文本到视频及图像到视频的生产工作流。**(#2260)**\n* 新增 **Wan 2.1 VACE** 支持，用于条件式视频生成工作流，并涵盖多种条件输入模式。**(#1885)**\n\n### 音频、语音及 Omni 生产优化\n\n* 通过引入内存中的参考音频缓存，优化了 **Qwen3-TTS** 重复自定义声音推理的服务性能，降低了重复调用同一声音时的冷启动延迟。**(#2108)**\n* 修复了 **Fish Speech** 结构化语音克隆条件输入中的回归问题，使得克隆的声音…","2026-04-04T07:54:07",{"id":159,"version":160,"summary_zh":161,"released_at":162},206154,"v0.18.0","## 亮点\n\n本次发布包含来自83位贡献者的324次提交，其中有38位新贡献者。\n\nvLLM-Omni v0.18.0 是一次重大的基线更新和系统性发布，它使项目与上游 vLLM v0.18.0 保持一致，通过大规模的入口点重构以及调度器和运行时的清理工作，强化了核心运行时；同时扩展了统一量化和扩散模型执行功能，进一步拓宽了多模态模型的支持范围，并在音频、全场景、图像、视频、强化学习以及多平台部署等方面提升了生产就绪性。\n\n### 主要改进\n\n* **基于上游 vLLM v0.18.0 进行了重新基线化**，并随之更新了文档和 Dockerfile，同时清理了在重新基线后已不再需要的补丁。**(#2037, #2038, #2062, #2271)** \n* **重构了服务入口架构**，使代码结构更加清晰、易于扩展，同时也为 PD 解耦、多模态输出解耦、基于协调器的编排以及流水线配置清理奠定了基础。**(#1908, #1863, #1816, #1465, #1115)** \n* **增强了音频、语音及全场景任务的生产级服务支持**，尤其针对 Qwen3-TTS、Qwen3-Omni、MiMo-Audio、Fish Speech S2 Pro 和 Voxtral TTS 等模型，实现了更低的延迟、更高的并发能力、更稳定的流式传输以及更好的在线服务稳定性。**(#1583, #1617, #1797, #1913, #1985, #1852, #1656, #1963, #2009, #2019, #2239, #1688, #1752, #1964, #2225, #1859, #2145, #2151, #2156, #2158)** \n* **实现了显著的扩散模型优化**，包括调度器和执行器的重构、更快的启动速度、更完善的 cache-dit \u002F TeaCache 集成、更广泛的 TP\u002FSP\u002FHSDP 支持，以及针对在线和离线服务的多项正确性修复。**(#1625, #1504, #1715, #1834, #1848, #1234, #2163, #1979, #2101, #2176)** \n* **扩展了对全场景、语音、图像和视频等领域的模型支持**，新增了 Helios、Helios-Mid \u002F Distilled、MammothModa2、Fun CosyVoice3-0.5B-2512、FLUX.2-dev、FLUX.1-Kontext-dev、Hunyuan Image3 AR、Fish Speech S2 Pro、Voxtral TTS、DreamID-Omni、LTX-2 以及 HunyuanVideo-1.5 等模型。**(#1604, #1648, #336, #498, #1629, #561, #759, #1798, #1803, #1855, #841, #1516)** \n* **引入了统一的量化框架**，并扩展了对扩散模型和图像工作负载的量化支持，包括 INT8、FP8 以及 GGUF 相关功能的启用。**(#1764, #1470, #1640, #1755, #1473, #2180)** \n* **提升了强化学习及自定义流水线的准备度，并加强了与 verl 的协作以及 Qwen-Image 的端到端强化学习支持**。通过与 verl 密切合作，进一步完善了面向强化学习的服务能力，助力实现 Qwen-Image 的端到端强化学习 \u002F Flow-GRPO 训练，并提供了集体 RPC 支持。具体功能包括入口处的集体 RPC 支持、自定义输入输出支持、Qwen-Image 的异步批处理，以及针对自定义强化学习流水线的专项端到端覆盖。**(#1646, #1593, #2005, #2217)** \n\n### 核心架构与运行时\n\n* 通过对 **vLLM-Omni 入口点重构** 重新设计了核心服务架构，同时增加了 PD 解耦的基础框架、协调器支持、多模态输出解耦的基础设施，并进行了清理…","2026-03-28T03:30:52",{"id":164,"version":165,"summary_zh":166,"released_at":167},206155,"v0.18.0rc1","## 亮点\n本次发布包含来自50多位贡献者的120多个拉取请求中的约120次提交，其中有13位新贡献者。\n\n### 模型支持扩展\n\n此版本继续丰富多模态模型生态系统，新增了多项重要功能：\n\n* 新增**FLUX.2-dev** 图像生成模型 (#1629)。\n* 新增**Bagel 多阶段 img2img** 支持 (#1669)。\n* 新增**HunyuanVideo-1.5** 文本到视频及图像到视频支持 (#1516)。\n* 新增**Voxtral TTS** 模型 (#1803, #2026, #2056)。\n* 新增**Fish Speech S2 Pro**，支持在线服务与语音克隆 (#1798)。\n* 新增字节跳动的**Dreamid-Omni** 模型 (#1855)。\n* 扩展了**NPU 对 HunyuanImage3** 扩散模型的支持 (#1689)。\n* 为 HF 模型新增**OmniGen2** 转换器配置加载功能 (#1934)。\n\n---\n\n### 性能优化\n\n多项优化提升了吞吐量、延迟和运行效率：\n\n* **Qwen3-Omni 代码预测器** 重新预填充 + SDPA，以消除解码热点路径中的 CPU 往返开销 (#2012)。\n* 提升**Qwen3-TTS 高并发吞吐量与延迟** (#1852)。\n* **Qwen3-TTS Code2Wav** 引入 Triton SnakeBeta 内核及 CUDA Graph 支持 (#1797)。\n* **Qwen3-TTS CodePredictor** 使用 torch.compile，并降低开销、设置 dynamic=False (#1913)。\n* 将**audio_codes 和 last_talker_hidden 保留在 GPU 上**，以消除每步同步瓶颈 (#1985)。\n* 基于 Qwen3-TTS 的 Code2Wav 加载，实现**简单的动态 TTFA** (#1714)。\n* 为 Qwen3-TTS 默认启用**异步调度** (#1853)。\n* 改进**Fish Speech S2 Pro** 推理性能 (#1859)。\n* 修复**CUDAGraphWrapper.__getattr__ 中的 hasattr 运行缓慢问题** (#1982)。\n* 改进**扩散模型计时**分析 (#1757)。\n\n---\n\n### 推理基础设施与并行化\n\n新的基础设施能力提升了可扩展性和生产就绪性：\n\n* **模型流水线配置系统** 重构（第 1 部分）(#1115)。\n* 针对更清晰的启动流程，重构**vLLM-Omni 入口点** (#1908)。\n* 为扩散 MoE 层引入**专家并行** (#1323)。\n* 为 FLUX.2-klein 添加**序列并行（SP）**支持 (#1250)，并为 Flux 系列添加 HSDP 支持 (#1900)。\n* 添加**T5 张量并行**支持 (#1881)。\n* 重写**LongCat 序列并行**，改为使用 SP 计划 (#1772)。\n* 构建**PD 解耦框架**（拆分 #1303 第 1 部分）(#1863)。\n* 实现带有单元测试的**协调模块** (#1465)。\n* 重构**流水线阶段\u002F步骤流水线** (#1368)。\n* 提供 Helm Chart，用于在 Kubernetes 上部署**vLLM-Omni** (#1337)。\n\n---\n\n### 文本转语音改进\n\n针对流式传输、质量及新模型，对 TTS 流水线进行了重大改进：\n\n* 为 Qwen3-TTS 实现**通过 WebSocket 的流式音频输出** (#1719)。\n* 为 Qwen3-TTS 在线服务提供**Gradio 示例界面** (#1231)。\n* 当 `\u002Fv1\u002Faudio\u002Fspeech` 中的 stream 参数为 true 时，新增**wav response_format** (#1819)。\n* 修复**基础语音克隆的流式传输质量和停止标记崩溃问题** (#1945)。\n* 修复**流式传输的初始数据块**——移除动态初始数据块，仅在首次请求时进行计算 (#1930)。\n* Pres","2026-03-21T14:29:37",{"id":169,"version":170,"summary_zh":171,"released_at":172},206156,"v0.17.0rc1","## 亮点\n本次发布包含 **来自30多位贡献者的72个拉取请求中的约70次提交，其中包括12位新贡献者**。\n\n### 扩展的模型支持\n\n本次版本显著扩展了多模态模型生态系统的支持范围：\n\n* 新增对 **Helios** 模型及其 **Helios-Mid \u002F Distilled** 变体的支持 (#1604, #1648)。\n* 新增 **Hunyuan Image3 AR** 图生图生成支持 (#759)。\n* 新增 **LTX-2** 文本到视频及图像到视频生成支持 (#841)。\n* 新增对 **MammothModa2** (#336) 和 **CosyVoice3-0.5B** (#498) 的支持。\n* 改进了 **Qwen3-Omni** 和 **LongCat** 模型的兼容性并修复了相关问题 (#1602, #1485, #1631)。\n\n---\n\n### 性能优化\n\n多项优化提升了启动时间、流式传输延迟和运行效率：\n\n* 通过多线程加载权重加速了 **扩散模型的启动** (#1504)。\n* 降低了 Qwen3-Omni 流式传输中 **异步分块的包间延迟** (#1656)。\n* 通过灵活的初始阶段设置，缩短了 Qwen3-TTS 的 **TTFA（首次音频输出时间）** (#1583)。\n* 通过消除 GPU 同步瓶颈，优化了 **TTS 代码预测器的执行** (#1614)。\n* 在 TTS 流水线中启用了 **torch.compile + CUDA Graph** (#1617)。\n* 降低了 Wan2.2 单阶段扩散服务中的 **IPC 开销** (#1715)。\n\n---\n\n### 推理基础设施与并行化\n\n新的基础设施改进提升了多模态服务的可扩展性和灵活性：\n\n* 为多阶段流水线新增了 **CFG KV 缓存传输支持** (#1422)。\n* 为 Bagel 扩散模型新增了 **CFG 并行模式** (#1578, #1695)。\n* 重构了 **瓦片\u002F补丁并行化**，以简化对更多模型的支持 (#1366)。\n* 为在线扩散服务新增了 **VAE 补丁并行 CLI 选项** (#1716)。\n* 启用了 **离线推理的异步分块** 功能，并支持自定义分块参数 (#1415, #1423)。\n* 为 RL 工作负载新增了 **集体 RPC API 入口点** 及自定义 I\u002FO 支持 (#1646)。\n\n---\n\n### 文本到语音改进\n\n对 TTS 流水线的稳定性和灵活性进行了重大改进：\n\n* 为 Qwen3-TTS 新增了 **语音上传 API** (#1201)。\n* 为 Qwen3-TTS 模型新增了 **灵活的 `task_type` 配置** (#1197)。\n* 新增了 **非异步分块模式**，并改进了离线批处理支持 (#1678, #1417)。\n* 修复了多个稳定性问题，包括 **预测器崩溃**、**全静音输出** 以及 **与 Transformers 5.x 的兼容性** (#1619, #1664, #1536)。\n\n---\n\n### 量化与硬件支持\n\n* 新增了 **Flux 转换器的 FP8 量化支持** (#1640)。\n* 改进了 **NPU 支持**，包括 MindIE-SD AdaLN 的兼容性 (#1537)。\n* 通过用平台感知检测替换硬编码的 CUDA 生成器，改进了 **设备抽象** (#1677)。\n* 更新了 **XPU 容器配置** (#1545)。\n\n---\n\n### 可靠性、工具链与开发者体验\n\n* 为扩散模型新增了 **进度条支持** (#1652)。\n* 引入了 **基准测试收集与报告**","2026-03-09T11:28:56",{"id":174,"version":175,"summary_zh":176,"released_at":177},206157,"v0.16.0","## 亮点\n本次发布包含约121次提交（已合并的PR），由约60位贡献者完成（其中24位为新贡献者）。\n\nvLLM-Omni v0.16.0 是一次重要的对齐与能力增强版本，它将项目基于 **上游 vLLM v0.16.0** 进行了重基，并在 **Qwen3-Omni \u002F Qwen3-TTS**、**Bagel**、**MiMo-Audio**、**GLM-Image** 以及 **Diffusion (DiT) 图像\u002F视频栈** 等多个方面显著提升了性能、分布式执行能力和生产就绪性；同时，还增强了平台支持范围（CUDA \u002F ROCm \u002F NPU \u002F XPU）、CI 质量和文档完善度。\n\n### 主要改进\n\n* **重基至上游 vLLM v0.16.0**：跟踪最新的 vLLM 运行时行为和 API，同时确保 Omni 的错误处理与上游期望保持一致。（#1357、#1122，以及后续修复如 #1401）\n* **Qwen3-Omni 性能与正确性**：通过性能优化（CUDA 图、异步分块、流式输出），使 TTFP 缩短 90%，RTF 降至 0.22~0.45；同时修复了精度问题及端到端指标的正确性。（#1378、#1352、#1288、#1018、#1292）\n* **MiMo-Audio 生产级支持**：通过性能优化（CUDA 图、异步分块、流式输出），RTF 降低至约 0.2，速度较基准提升 11 倍。（#750）\n* **Qwen3-TTS 生产级升级**：支持解耦式推理流水线、流式输出、批处理 Code2Wav 解码，以及语音分词器解码中的 CUDA 图支持；此外还针对任务类型处理和语音克隆等场景进行了多项鲁棒性修复。（#1161、#1438、#1426、#1205、#1317、#1554）\n* **Bagel 加速与可扩展性**：新增 **TP 支持**，引入 **CFG** 能力，并通过 **将分支合并为单个批次** 来加速多分支 CFG；同时还修复了 KV 缓存传输的稳定性问题。（#1293、#1310、#1429、#1437）\n* **扩散模型分布式执行扩展**：新增并扩展了 TP\u002FSP\u002FHSDP 支持，减少了冗余通信开销；优化了流水线并行选项（如 VAE Patch 并行），并提升了多个扩散家族的正确性。（#964、#1275、#1339、#756、#1428）\n* **Diffusion 模型量化**：引入了 **FP8** 量化支持，以及针对扩散 Transformer 的 **原生 GGUF 量化** 支持，并对代码路径进行了清理。（#1034、#1285、#1533）\n* **更广泛的模型覆盖（音频+图像）**：新增了 **MiMo-Audio-7B-Instruct** 支持，并对 **GLM-Image** 流水线进行了性能优化。（#750、#920）\n\n---\n\n### 扩散、图像与视频生成\n\n* **新增\u002F扩展的模型支持**\n\n  * **HunyuanImage3** 支持，以及 v0.16.0 版本中移除 CUDA 硬编码和 MOE 相关修复。（#1085、#1402、#1401）\n  * **OmniGen2** 支持。（#513）\n  * **nextstep_1** 扩散模型（仅文本到图像）。（#612）\n* **分布式与并行执行**\n\n  * **TP 支持** 在扩散模型上的新增与扩展（例如 Wan 2.2、SD 3.5）。（#964、#1336）\n  * **HSDP 在扩散模型上的应用**，以提升可扩展性。（#1339）\n  * **VAE Patch 并行** 支持，并已在 SD3.5 中启用。（#756、#1428）\n  * **序列并行通信优化**，通过改进 SP 钩子设计实现。（#1275","2026-02-28T08:33:01",{"id":179,"version":180,"summary_zh":181,"released_at":182},206158,"v0.16.0rc1","此预发布版本已与上游 vLLM v0.16.0 对齐。\n\n## 亮点\n\n* **基于上游 vLLM v0.16.0 重基**：vLLM-Omni 现已完全对齐最新的 vLLM v0.16.0 核心版本，引入了所有最新的上游功能、错误修复和性能改进 (#1357)。\n* **Bagel 和 SD 3.5 的张量并行**：为 Bagel 模型和 Stable Diffusion 3.5 添加了张量并行（TP）支持，提升了这些扩散工作负载的推理可扩展性 (#1293, #1336)。\n* **CFG 并行扩展**：将无分类器指导（CFG）的并行支持扩展到 Bagel 和 FLUX.1-dev 模型，从而实现更快的引导生成 (#1310, #1269)。\n* **分块 IO 重叠的异步调度**：引入异步调度以重叠各阶段的分块 IO 和计算，减少空闲时间并提高端到端吞吐量 (#951)。\n* **扩散序列并行优化**：通过优化 SP 钩子设计，消除了冗余通信开销，提升了扩散并行效率 (#1275)。\n* **ComfyUI 集成**：作为官方应用，新增了完整的 ComfyUI 集成（`ComfyUI-vLLM-Omni`），支持通过 vLLM-Omni 的在线服务 API 进行图像生成、多模态理解以及 TTS 工作流（位于 `apps\u002FComfyUI-vLLM-Omni\u002F` 下的多个文件）。(#1113)\n* **Qwen3-Omni 默认启用 Cudagraph**：默认为 Qwen3-Omni 启用 Cudagraph，以提升推理性能 (#1352)。\n\n---\n\n## 变更内容\n\n### 功能与优化\n* [杂项] 支持扩散工作者使用 WorkerWrapperBase 和 CustomPipeline，由 @knlnguyen1802 在 #764 中实现。\n* 重构 CPU 卸载后端模式，由 @yuanheng-zhao 在 #1223 中完成。\n\n### 对齐与集成\n* 统一 CLI 参数命名风格，由 @wtomin 在 #1309 中完成。\n* 修复：将扩散卸载参数添加到 OmniConfig 组，而非 serve_parser，由 @fake0fan 在 #1271 中完成。\n* [调试] 添加并发阶段初始化触发器，由 @tzhouam 在 #1274 中实现。\n\n### 错误修复\n* [Bugfix][Qwen3-TTS] 修复任务类型，由 @ekagra-ranjan 在 #1317 中完成。\n* [Bugfix][Qwen3-TTS] 在 omni_snapshot_download 中保留原始模型 ID，由 @linyueqian 在 #1318 中完成。\n* [Bugfix] 修复在启用 async_chunk 且未提供系统提示时 Qwen3-Omni 的精度问题，由 @R2-Y 在 #1288 中完成。\n* [BugFix] 修复 ignore_eos 无法生效的问题，由 @amy-why-3459 在 #1286 中完成。\n* [Bugfix] 修复在显式指定高度\u002F宽度时图像编辑 RoPE 崩溃的问题，由 @lishunyang12 在 #1265 中完成。\n* [Bugfix] 在流式响应中复用指标来修改 API 服务器的令牌统计信息，由 @kechengliu97 在 #1301 中完成。\n* 修复 yield token 指标及 opt 指标的统计记录，由 @LJH-LBJ 在 #1292 中完成。\n* [XPU] 将 Bagel 的 flash_attn_varlen_func 更新为 fa utils，由 @zhenwei-intel 在 #1295 中完成。\n\n### 基础设施（CI\u002FCD）与文档\n* [CI] 每晚运行测试，由 @congw729 在 #1333 中完成。\n* [CI] 为每晚 CI 添加环境变量检查，由 @congw729 在 #1281 中完成。\n* [CI] 缩短扩散序列并行测试的时间，由 @congw729 在 #1283 中完成。\n* [CI] 添加 CI 分支覆盖率计算，并修复语句覆盖率结果，由 @y","2026-02-13T11:25:27",{"id":184,"version":185,"summary_zh":186,"released_at":187},206159,"v0.15.0rc1","本次预发布版本已与上游 vLLM v0.15.0 完全对齐。\n\n## 亮点\n\n* **基于上游 vLLM v0.15.0 重基**：vLLM-Omni 现已完全对接最新的 vLLM v0.15.0 核心版本，引入了所有最新的上游功能、缺陷修复及性能优化（#1159）。\n* **LongCat-Image 的张量并行支持**：我们为 `LongCat-Image` 和 `LongCat-Image-Edit` 模型新增了张量并行（TP）支持，显著提升了这些视觉-语言模型的推理速度和可扩展性（#926）。\n* **TeaCache 优化**：为 TeaCache 引入了系数估计功能，进一步优化了缓存机制的效率，从而提升生成性能（#940）。\n* **对齐与稳定性**：\n    * 增强了错误处理逻辑，以保持与上游 vLLM v0.14.0\u002Fv0.15.0 标准的一致性（#1122）。\n    * 集成了“Bagel”端到端冒烟测试，并重构了序列并行测试，以确保 CI\u002FCD 流程的稳健性和性能基准测试的准确性（#1074、#1165）。\n* **更新论文链接**：首次将论文提交至 arXiv，介绍我们的设计思路及部分性能测试结果（#1169）。\n\n---\n\n## 变更内容\n\n### 功能与优化\n* [TeaCache]：由 @princepride 在 #940 中添加系数估计功能。\n* [功能]：由 @hadipash 在 #926 中为 LongCat-Image(-Edit) 添加张量并行支持。\n\n### 对齐与集成\n* 开发\u002F基于 v0.15.0 重基：由 @tzhouam 在 #1159 中完成。\n* [杂项]：按照上游 vLLM v0.14.0 标准对错误处理进行对齐：由 @ceanna93 在 #1122 中完成。\n* [杂项]：版本号升级至 v0.14.0：由 @ywang96 在 #1128 中完成。\n\n### 基础设施（CI\u002FCD）与文档\n* [文档]：vLLM-Omni 的首个稳定版本：由 @ywang96 在 #1129 中发布。\n* [CI]：由 @princepride 在 #1074 中引入 Bagel 端到端冒烟测试。\n* [CI]：重构 test_sequence_parallel.py 并添加预热运行：由 @mxuax 在 #1165 中完成。\n* [CI]：暂时移除耗时较长的测试：由 @congw729 在 #1143 中完成。\n* [调试]：清理 Dockerfile.ci 以加快镜像构建速度：由 @tzhouam 在 #1172 中完成。\n* [调试]：修正不合理的长时间超时设置：由 @tzhouam 在 #1175 中完成。\n* [文档]：更新论文链接：由 @hsliuustc0106 在 #1169 中完成。\n\n## 新贡献者\n* @ceanna93 在 #1122 中完成了首次贡献。\n* @hadipash 在 #926 中完成了首次贡献。\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fcompare\u002Fv0.14.0...v0.15.0rc1","2026-02-03T09:23:52",{"id":189,"version":190,"summary_zh":191,"released_at":192},206160,"v0.14.0","## 亮点\n本次发布包含来自70多位贡献者的约180次提交（其中23位为新贡献者）。\n\nvLLM-Omni **v0.14.0** 是一个功能丰富的版本，扩展了 Omni 的 **扩散模型\u002F图像视频生成** 和 **音频\u002FTTS** 技术栈，提升了 **分布式执行与内存效率**，并拓宽了 **平台\u002F后端支持范围**（GPU\u002FROCm\u002FNPU\u002FXPU）。此外，它还对 **推理服务 API**、**性能分析与基准测试** 以及整体 **稳定性** 进行了显著优化。\n\n### 核心改进：\n\n* **异步分块**（[#727]）：通过在不同阶段之间重叠流水线处理，减少空闲时间，从而提升分阶段执行的端到端吞吐量和延迟。\n* **Bagel 模型的分阶段部署**（[#726]）：采用多阶段流水线架构（Thinker\u002FAR 阶段 + Diffusion\u002FDiT 阶段），使其与 vllm-omni 架构保持一致。\n* **Qwen3-TTS 模型系列支持**（[#895]）：扩展文本转音频生成能力，并支持在线推理服务。\n* **扩散模型 LoRA 适配器支持（兼容 PEFT 接口）**（[#758]）：为扩散工作流添加 LoRA 微调\u002F适配功能，接口与 PEFT 标准对齐。\n* **DiT 层级（块级）CPU offloading**（[#858]）：实现细粒度的计算卸载，以增加更大规模扩散任务的显存空间。\n* **硬件平台与插件系统**（[#774]）：构建了一个更具扩展性的平台能力层，使多后端开发更加清晰简洁。\n\n---\n\n### 扩散模型与图像\u002F视频生成\n\n* **序列并行性（SP）基础与扩展**：为扩散模型引入非侵入式的 SP 抽象（[#779]），并在 LongCatImageTransformer 中加入 SP 支持（[#721]），同时为 Wan2.2 扩散模型提供 SP 支持（[#966]）。\n* **CFG 改进与并行化**：为 Qwen-Image 提供 CFG 并行支持（[#444]），引入 CFG 并行抽象（[#851]），并在在线推理中支持动态调整 CFG 参数（[#824]）。\n* **加速与执行底层优化**：为扩散模型添加 Torch 编译支持（[#684]）、GPU 扩散运行器（[#822]）以及扩散执行器（[#865]）。\n* **缓存与内存效率**：为 Z-Image 引入 TeaCache（[#817]）和 Bagel 引入 TeaCache（[#848]）；此外，还实现了扩散模型的 CPU offloading（[#497]）以及 DiT 张量并行在扩散流水线中的启用（Z-Image）（[#735]）。\n* **模型覆盖范围扩展**：新增 GLM-Image 支持（[#847]），并引入 FLUX 系列模型（如 FLUX.1-dev [#853]、FLUX.2-klein [#809]），同时提供了相应的张量并行支持（[#973]）。\n* **流水线质量与稳定性修复**：修复了多个扩散流水线相关问题，包括 CFG 解析失败修复（[#922]）、SD3 兼容性修复（[#772]）、特定帧率下视频保存 bug 修复（[#893]），以及 Qwen Image 在无种子输入时出现噪声输出的问题修复（[#1043]）。\n\n---\n\n### 音频与语音（TTS \u002F 文本转音频）\n\n* **文本转音频模型支持**：稳定支持 Stable Audio Open 用于文本转音频生成（[#331]）。\n* **Qwen3-TTS 技术栈成熟化**：增加了对更多模型系列的支持（[#895]），并实现了在线推理服务支持（[#968]），同时还修复了一些稳定性问题，例如解决 profile 运行时卡死问题（[#1082]）以及补充 Qwen3-TTS 支持所需的依赖项（[#981]）。","2026-01-31T07:31:49",{"id":194,"version":195,"summary_zh":196,"released_at":197},206161,"v0.14.0rc1","## 亮点（vllm-omni v0.14.0rc1）\n此版本候选包含来自35位贡献者的约90次提交（其中12位为新贡献者）。\n\n该版本候选重点聚焦于**扩散模型运行时的成熟度**、**Qwen-Omni性能**以及**多模态模型支持的扩展**，同时在**服务易用性**、**性能分析**、**ROCm\u002FNPU支持启用**和**CI\u002F文档质量**等方面也进行了大幅改进。此外，这也是首个与vLLM上游代码库实现Day-0对齐的vllm-omni RC版本。\n\n### 模型支持\n\n* **TTS**：新增对**Qwen3-TTS（Day-0）**系列模型的支持。（[https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F895](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F895)）\n* **扩散模型\u002F图像系列**：新增**Flux.2-klein（Day-0）**和**GLM-Image（Day-0）**，并针对Qwen-image系列进行了多项正确性和性能优化。（[https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F809](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F809)，[https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F868](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F868)，[https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F847](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F847)）\n* **Bagel生态**：新增**Bagel模型支持**及**Cache-DiT**支持。（[https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F726](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F726)，[https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F736](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F736)）\n* **文本转音频**：新增对**Stable Audio Open**文本转音频生成的支持。（[https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F331](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F331)）\n\n### 重要改进\n\n* **Qwen-Omni性能与服务增强**\n\n  * 通过**vLLM SharedFusedMoE**提升Qwen3-Omni吞吐量，并进一步优化内核与图计算：\n\n    * SharedFusedMoE集成（[https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F560](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F560)）\n    * **QKV线性层与gate_up投影融合**（[https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F734](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F734)）\n    * Qwen3-Omni话者模型的**Talker cudagraph支持**及**MTP批处理推理**（[https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F669](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F669)，[https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F722](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F722)）\n    * 思考者到话者投影路径优化（[https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F825](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F825)）\n  * 提升在线服务的可配置性：\n\n    * `omni`入口点支持**tokenizer参数**（[https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F572](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F572)）\n    * 允许在**在线服务命令**中指定`tensor_parallel_size`（[https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F761](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F761)）\n    * 组","2026-01-22T15:22:09",{"id":199,"version":200,"summary_zh":201,"released_at":202},206162,"v0.12.0rc1","# vLLM-Omni v0.12.0rc1 预发布说明 亮点\n\n## 亮点\n\n本次发布包含 **来自45位贡献者的187次提交（其中34位为新贡献者）！**\n\nvLLM-Omni **v0.12.0rc1** 是一个重要的RC里程碑，重点在于 **完善扩散模型栈**、**增强与OpenAI兼容的推理服务**、**扩大全模态模型的支持范围**，以及 **提升跨平台（GPU\u002FNPU\u002FROCm）的稳定性**。此外，它还基于 **vLLM v0.12.0** 进行了变基，以更好地与上游保持一致（#335）。\n\n### 破坏性变更与重要更新\n\n* **统一扩散阶段命名与结构**：清理了遗留的`Diffusion*`路径，并统一采用`Generation*`风格的阶段命名，以减少重复代码（#211、#163）。\n* **更安全的序列化**：将`OmniSerializer`从`pickle`切换至 **MsgPack**（#310）。\n* **依赖与打包更新**：例如，将`diffusers`升级至 **0.36.0**（#313），并为v0.12版本刷新了Python和格式化基准（#126）。\n\n### 扩散引擎：架构与性能升级\n\n* **面向扩展性的核心重构**：将扩散模型注册表重构为复用vLLM的`ModelRegistry`（#200），并改进了扩散权重加载及阶段抽象（#157、#391）。\n* **加速与并行化特性**：\n\n  * **Cache-DiT**：引入统一的缓存后端接口（#250）。\n  * **TeaCache**集成与注册表重构（#179、#304、#416）。\n  * 新增及扩展的注意力与并行化选项：**Sage Attention**（#243）、**Ulysses序列并行**（#189）、**Ring Attention**（#273）。\n  * 针对DiT和RoPE核函数的 **torch.compile** 优化（#317）。\n\n### 推理服务：更强的OpenAI兼容性与在线部署准备\n\n* **兼容DALL·E的图像生成端点**（`\u002Fv1\u002Fimages\u002Fgenerations`）（#292），并修复了图像生成的在线推理问题（#499）。\n* 新增 **OpenAI create speech** 端点（#305）。\n* **按请求控制模态输出**（选择输出模态）（#298），并提供了API使用示例（#411）。\n* 初步支持 **流式输出**（#367）、**请求中断**（#486）以及在响应中传播 **request-id**（#301）。\n\n### 全模态流水线：多阶段编排与可观ability增强\n\n* 改进了阶段间的数据流转：允许自定义阶段间的处理逻辑，并减少了模型前向路径中对`request_ids`的耦合（#458）。\n* 提升可观测性与调试能力：**全模态阶段的torch profiler**（#553），改进了后台工作进程的回溯信息报告（#385），以及日志相关重构（#466）。\n\n### 模型支持扩展（部分）\n\n* **Qwen-Omni \u002F Qwen-Image系列**：\n\n  * Qwen-Omni支持本地文件的离线推理（#167）。\n  * 增加对Qwen-Image-2512的支持（#547）。\n  * Qwen-Image-Edit支持（包括多图输入变体及新版本，如Qwen-Image-Edit、Qwen-Image-Edit-2509、Qwen-Image-Edit-2511）（#196、#330、#321）。\n  * Qwen-Image-Layered模型支持（#381）。\n  * 针对Qwen2.5\u002FQwen3-Omni的批处理、示例以及与OpenAI采样参数兼容性进行了多项修复（#451、#450、#249）。\n* **扩散与视频生态**：\n\n  * Z-Image","2026-01-05T11:17:36",{"id":204,"version":205,"summary_zh":206,"released_at":207},206163,"v0.11.0rc1","### **Initial (Pre)-release of the vLLM-Omni Project** \r\nvLLM-Omni is a framework that extends its support for omni-modality model inference and serving. This pre-release is built on top of `vllm==0.11.0`, and same version number is used for the ease of tracking the dependency.\r\n\r\nPlease check out our [documentation](https:\u002F\u002Fdocs.vllm.ai\u002Fprojects\u002Fvllm-omni\u002Fen\u002Flatest\u002F) and we welcome any feedbacks & contributions!\r\n\r\n## What's Changed\r\n* init the folder directories for vLLM-omni by @hsliuustc0106 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F1\r\n* init main repo structure and demonstrate the AR + DiT demo for omni models by @hsliuustc0106 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F6\r\n* Add PR and issue templates from vLLM project by @hsliuustc0106 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F8\r\n* update RFC template by @hsliuustc0106 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F9\r\n* [Model]Add Qwen2.5-Omni model components by @tzhouam in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F12\r\n* [Engine] Add entrypoint class and stage management by @Gaohan123 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F13\r\n* [Model] Add end2end example and documentation for qwen2.5-omni by @Gaohan123 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F14\r\n* [Worker]Feat\u002Far gpu worker and model runner by @tzhouam in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F15\r\n* [Worker]Refactor GPU diffusion model runner and worker by @tzhouam in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F16\r\n* [Worker]Add OmniGPUModelRunner and OmniModelInputForGPU classes by @tzhouam in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F17\r\n* [Engine]Refactor output processing for multimodal capabilities in vLLM-omni by @tzhouam in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F20\r\n* [Inputs, Engine]Add Omni model components and input processing for hidden states support by @tzhouam in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F18\r\n* [Core]Add scheduling components for vLLM-omni by @tzhouam in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F19\r\n* add precommit by @Gaohan123 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F32\r\n* End2end fixup by @tzhouam in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F35\r\n* Remove unused files and fix some bugs by @Gaohan123 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F36\r\n* [bugfix] fix problem of installation by @Gaohan123 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F44\r\n* [Bugfix] Further supplement installation guide by @Gaohan123 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F46\r\n* [Bugfix] fix huggingface download problem for spk_dict.pt by @Gaohan123 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F47\r\n* [Refractor] Dependency refractored to vLLM v0.11.0 by @Gaohan123 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F48\r\n* [fix] Add support for loading model from a local path by @qibaoyuan in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F52\r\n* [Feature] Multi Request Stream for Sync Mode by @tzhouam in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F51\r\n* [Docs] Setup Documentation System and Re-organize Dependencies by @SamitHuang in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F49\r\n* [fix] adapt hidden state device for multi-hardware support by @qibaoyuan in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F61\r\n* [Feature] Support online inference by @Gaohan123 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F64\r\n* CI Workflows. by @congw729 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F50\r\n* [CI] fix ci and format existing code by @ZJY0516 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F71\r\n* [CI] disable unnecessary ci and update pre-commit by @ZJY0516 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F80\r\n* update readme for v0.11.0rc1 release by @hsliuustc0106 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F69\r\n* [CI] Add script for building wheel. by @congw729 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F75\r\n* [Feature] support multimodal inputs with multiple requests by @Gaohan123 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F76\r\n* [Feature] Add Gradio Demo for Qwen2.5Omni by @SamitHuang in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F60\r\n* [CI] Buildkite setup by @ywang96 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F83\r\n* [CI]Add version number. by @congw729 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F87\r\n* [fix] Remove redundant parameter passing by @qibaoyuan in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F90\r\n* [Docs] optimize and supplement docs system by @Gaohan123 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F86\r\n* [Diffusion] Qwen image support by @ZJY0516 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F82\r\n* [fix] add scheduler.py by @ZJY0516 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F94\r\n* Update gradio docs by @SamitHuang in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F95\r\n* [Bugfix] Fix removal of old logs when stats are enabled by @syedmba in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fpull\u002F84\r\n* [diffusion] ad","2025-12-01T18:14:54"]