[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-FastFlowLM--FastFlowLM":3,"tool-FastFlowLM--FastFlowLM":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",160784,2,"2026-04-19T11:32:54",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":64,"owner_name":64,"owner_avatar_url":73,"owner_bio":74,"owner_company":74,"owner_location":74,"owner_email":74,"owner_twitter":74,"owner_website":74,"owner_url":75,"languages":76,"stars":111,"forks":112,"last_commit_at":113,"license":114,"difficulty_score":32,"env_os":115,"env_gpu":116,"env_ram":117,"env_deps":118,"category_tags":126,"github_topics":127,"view_count":32,"oss_zip_url":74,"oss_zip_packed_at":74,"status":17,"created_at":133,"updated_at":134,"faqs":135,"releases":166},9690,"FastFlowLM\u002FFastFlowLM","FastFlowLM","Run LLMs on AMD Ryzen™ AI NPUs in minutes. Just like Ollama - but purpose-built and deeply optimized for the AMD NPUs.","FastFlowLM 是一款专为 AMD Ryzen™ AI NPU 打造的轻量级大语言模型运行工具，旨在让用户在几分钟内即可在本地部署并运行各类 AI 模型。它解决了传统方案依赖高性能 GPU、功耗高且配置复杂的问题，无需独立显卡，仅凭笔记本内置的 NPU 即可高效运行模型，能效比提升超过 10 倍。\n\n这款工具非常适合希望在本地体验 AI 能力的普通用户、开发者以及研究人员，特别是拥有搭载 XDNA2 NPU 的 AMD Ryzen AI 系列芯片（如 Strix、Kraken 等）设备的用户。无论是日常对话、文档分析，还是多模态任务（支持视觉、音频、嵌入及 MoE 架构），FastFlowLM 都能轻松应对。\n\n其技术亮点在于“开箱即用”的设计：安装包仅 17 MB，20 秒即可完成安装；支持长达 256k 的上下文窗口，能处理超长文本；操作逻辑类似广受欢迎的 Ollama，但针对 NPU 进行了深度优化，充分释放硬件潜力。用户只需通过简单的命令行指令即可拉取和运行模型，同时还能实时在任务管理器中监控 NPU 使用情况。FastFlowLM 让闲置的 NPU 算力瞬间转化为强大的","FastFlowLM 是一款专为 AMD Ryzen™ AI NPU 打造的轻量级大语言模型运行工具，旨在让用户在几分钟内即可在本地部署并运行各类 AI 模型。它解决了传统方案依赖高性能 GPU、功耗高且配置复杂的问题，无需独立显卡，仅凭笔记本内置的 NPU 即可高效运行模型，能效比提升超过 10 倍。\n\n这款工具非常适合希望在本地体验 AI 能力的普通用户、开发者以及研究人员，特别是拥有搭载 XDNA2 NPU 的 AMD Ryzen AI 系列芯片（如 Strix、Kraken 等）设备的用户。无论是日常对话、文档分析，还是多模态任务（支持视觉、音频、嵌入及 MoE 架构），FastFlowLM 都能轻松应对。\n\n其技术亮点在于“开箱即用”的设计：安装包仅 17 MB，20 秒即可完成安装；支持长达 256k 的上下文窗口，能处理超长文本；操作逻辑类似广受欢迎的 Ollama，但针对 NPU 进行了深度优化，充分释放硬件潜力。用户只需通过简单的命令行指令即可拉取和运行模型，同时还能实时在任务管理器中监控 NPU 使用情况。FastFlowLM 让闲置的 NPU 算力瞬间转化为强大的 AI 生产力，是 AMD 平台用户探索本地大模型的理想选择。","\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fwww.fastflowlm.com\" target=\"_blank\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFastFlowLM_FastFlowLM_readme_3809dfa29d65.png\" alt=\"FastFlowLM Logo\" width=\"200\"\u002F>\n  \u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FNPU-Optimized-red\" \u002F>\n\u003C\u002Fp>\n\n## ⚡ FastFlowLM (FLM) — Unlock Ryzen™ AI NPUs\n\nRun large language models — now with **Vision**, **Audio**, **Embedding** and **MoE** support — on **AMD Ryzen™ AI NPUs** in minutes.  \n**No GPU required. Faster and over 10× more power-efficient. Supports context lengths up to 256k tokens. Ultra-Lightweight (17 MB). Installs within 20 seconds.**\n\n📦 **The only out-of-box, NPU-first runtime built exclusively for Ryzen™ AI.**  \n🤝 **Think Ollama — but deeply optimized for NPUs.**  \n✨ **From Idle Silicon to Instant Power — FastFlowLM Makes Ryzen™ AI Shine.**\n\n> FastFlowLM (FLM) supports all Ryzen™ AI Series chips with XDNA2 NPUs (Strix, Strix Halo, Kraken, and Gorgon Point).\n\n---\n\n## 🔗 Quick Links\n\n  🔽 **[Download](https:\u002F\u002Fgithub.com\u002FFastFlowLM\u002FFastFlowLM\u002Freleases\u002Flatest\u002Fdownload\u002Fflm-setup.exe)** | 📊 **[Benchmarks](https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Fbenchmarks\u002F)** | 📦 **[Model List](https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Fmodels\u002F)**  \n\n  🐧 **[Linux Getting Started Guide](.\u002Fdocs\u002Flinux-getting-started.md)**\n\n  📖 **[Docs](https:\u002F\u002Ffastflowlm.com\u002Fdocs)** | 📺 **[Demos](https:\u002F\u002Fwww.youtube.com\u002Fplaylist?list=PLf87s9UUZrJoDdz639Yc6w1UTyJ4cFHZ1)** | 🧪 **[Test Drive](https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002F#-test-drive-remote-demo)** | 💬 **[Discord](https:\u002F\u002Fdiscord.gg\u002Fz24t23HsHF)** \n\n---\n\n## 🚀 Quick Start\n\nA packaged FLM Windows installer is available here: [**flm-setup.exe**](https:\u002F\u002Fgithub.com\u002FFastFlowLM\u002FFastFlowLM\u002Freleases\u002Flatest\u002Fdownload\u002Fflm-setup.exe). For more details, see the [release notes](https:\u002F\u002Fgithub.com\u002FFastFlowLM\u002FFastFlowLM\u002Freleases\u002F).\n\n📺 [**Watch the quick start video (Windows)**](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=mYOfDNkyBII)\n\n> [!IMPORTANT]  \n> ⚠️ Ensure NPU driver version is **>= 32.0.203.304** (`.304` is the minimum requirement but `.311` is recommended; check via Task Manager→Performance→NPU or Device Manager).  \n> ⚙️ **Tip:**\n>   * **RECOMMENDED**: Try running **Windows Update** or **[Driver Download](https:\u002F\u002Fwww.amd.com\u002Fen\u002Fsupport)**.\n>   * **[Official AMD Install Doc](https:\u002F\u002Fryzenai.docs.amd.com\u002Fen\u002Flatest\u002Finst.html#install-npu-drivers)** *(AMD account required)*.\n>   * **[Unofficial forum downloads](https:\u002F\u002Fwww.elevenforum.com\u002Ft\u002Fdrivers-amd-npu-ryzen-8xxx-9xxx-apu.24220\u002F)** *(CAUTION, we do not hold responsible for what you download here)*.\n\nAfter installation, open **PowerShell** (`Win + X → I`). To run a model in terminal (**CLI Mode**):\n```powershell\nflm run llama3.2:1b\n```\n> **Notes:**\n> - Internet access to HuggingFace is required to download the optimized model kernels.\n> - Sometimes downloads from HuggingFace may get corrupted. If this happens, run `flm pull \u003Cmodel_tag> --force` (e.g. `flm pull llama3.2:1b --force`) to re-download and fix them.\n> - By default, models are stored in:\n>   - **Windows**: `C:\\Users\\\u003CUSER>\\Documents\\flm\\models\\`\n>   - **Linux**: `~\u002F.config\u002Fflm\u002F`\n> - During installation on Windows, you can select a different base folder (e.g., if you choose `C:\\Users\\\u003CUSER>\\flm`, models will be saved under `C:\\Users\\\u003CUSER>\\flm\\models\\`).\n> - On Linux, you can override the default location by setting the `FLM_MODEL_PATH` environment variable.\n> - ⚠️ If HuggingFace is not accessible in your region, manually download the model ([check this issue](https:\u002F\u002Fgithub.com\u002FFastFlowLM\u002FFastFlowLM\u002Fissues\u002F2)) and place it in the chosen directory.   \n\n🎉🚀 FastFlowLM (FLM) is ready — your NPU is unlocked and you can start chatting with models right away!\n\nOpen **Task Manager** (`Ctrl + Shift + Esc`). Go to the **Performance** tab → click **NPU** to monitor usage.  \n\n> **⚡ Quick Tips:**  \n> - Use `\u002Fverbose` during a session to turn on performance reporting (toggle off with `\u002Fverbose` again).   \n> - Type `\u002Fbye` to exit a conversation.  \n> - Run `flm list` in PowerShell to show all available models.  \n\nTo start the local server (**Server Mode**):\n```powershell\nflm serve llama3.2:1b\n```\n> The model tag (e.g., `llama3.2:1b`) sets the initial model, which is optional. If another model is requested, FastFlowLM will automatically switch to it. Local server is on port 52625 (default).  \n\n**[![FastFlowLM Docs](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FFastFlowLM-Detailed%20Instructions-red?style=flat&logo=readthedocs)](https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Finstructions\u002F)**\n\n---\n\n## 📰 In the News\n\n- 03\u002F11\u002F2026 🎉 FLM now supports Linux 🐧 ! To get started, check out the **[quick start guide](https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Finstall_lin\u002F)** or the **[Lemonade Server docs](https:\u002F\u002Flemonade-server.ai\u002Fflm_npu_linux.html)**, and watch the **[short video](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=tXRchP3sKA8)** for a quick walkthrough of FLM on Linux via Lemonade 🍋.\n\n- 10\u002F01\u002F2025 🎉 FLM was integrated into AMD's **[Lemonade Server](https:\u002F\u002Flemonade-server.ai\u002F)** 🍋. Watch this **[short demo](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=w0Tb3h4WUnE)** about using FLM in Lemonade.\n\n---\n\n## 🧠 Local AI on NPU\n\nFLM makes it easy to run cutting-edge **LLMs** (and now **VLMs**) locally with:\n- ⚡ Fast and low power\n- 🧰 Simple CLI and API (REST and OpenAI API)\n- 🔐 Fully private and offline\n\nNo model rewrites, no tuning — it just works.\n\n---\n\n## ✅ Highlights\n\n- **Runs fully on AMD Ryzen™ AI NPU** — no GPU or CPU load\n- **Lightweight runtime (17 MB)** — installs within **20 seconds**, easy to integrate    \n- **Developer-first flow** — like Ollama, but optimized for NPU  \n- **Support for long context windows** — up to 256k tokens (e.g., Qwen3-4B-Thinking-2507)  \n- **No low-level tuning required** — You focus on your app, we handle the rest\n\n---\n\n## 📄 License\n\n- All orchestration code and CLI tools are open-source under the [MIT License](.\u002FLICENSE_RUNTIME.txt).  \n- NPU-accelerated kernels are **proprietary binaries**, free for **commercial use up to USD 10 million in annual company revenue**.\n- Companies exceeding this threshold (**USD 10 million**) must obtain a commercial license. See [LICENSE_BINARY.txt](.\u002FLICENSE_BINARY.txt) and [TERMS.md](.\u002FTERMS.md) for full details.\n- **Free-tier users:** Please acknowledge FastFlowLM in your README\u002Fproject page (or product) as follows:\n  ```\n  Powered by [FastFlowLM](https:\u002F\u002Fgithub.com\u002FFastFlowLM\u002FFastFlowLM)\n  ```\nFor commercial licensing inquiries, email us: info@fastflowlm.com\n\n---\n\n💬 Have **feedback\u002Fissues** or want **early access** to our new releases? [Open an issue](https:\u002F\u002Fgithub.com\u002Ffastflowlm\u002Ffastflowlm\u002Fissues\u002Fnew) or [Join our Discord community](https:\u002F\u002Fdiscord.gg\u002Fz24t23HsHF)\n\n---\n\n## 🙏 Acknowledgements\n\n- Powered by the advanced **AMD Ryzen™ AI NPU architecture**\n- Inspired by the widely adopted [llama.cpp](https:\u002F\u002Fgithub.com\u002Fggml-org\u002Fllama.cpp) and [Ollama](https:\u002F\u002Fgithub.com\u002Follama\u002Follama)\n- Tokenization accelerated with [MLC-ai\u002Ftokenizers-cpp](https:\u002F\u002Fgithub.com\u002Fmlc-ai\u002Ftokenizers-cpp)\n- Chat formatting via [Google\u002Fminja](https:\u002F\u002Fgithub.com\u002Fgoogle\u002Fminja)\n- Low-level kernels optimized using the powerful [IRON](https:\u002F\u002Fgithub.com\u002Famd\u002Firon)+[AIE-MLIR](https:\u002F\u002Fgithub.com\u002FXilinx\u002Fmlir-aie)\n\n---\n\n## 🛠️ Building from Source\n\nFor developers who want to build FastFlowLM from source, we provide CMake presets for a convenient and consistent build experience.\n\n### Prerequisites\n\n- Git\n- CMake (version 3.22 or higher)\n- A C++20 compatible compiler (e.g., GCC, Clang, MSVC)\n- Ninja (recommended)\n\n### Build Instructions\n\nMore details on the exact procedure, with dependencies to be installed, for linux can be found in [linux-getting-started.md](docs\u002Flinux-getting-started.md).\n\n1.  **Clone the repository:**\n\n    ```bash\n    git clone --recursive https:\u002F\u002Fgithub.com\u002FFastFlowLM\u002FFastFlowLM.git\n    cd FastFlowLM\u002Fsrc\n    ```\n\n2.  **Configure CMake using presets:**\n\n    -   **For Linux:**\n\n        ```bash\n        cmake --preset linux-default\n        ```\n\n        This will configure the build to install to `\u002Fopt\u002Ffastflowlm`.\n\n    -   **For Windows (in a developer command prompt):**\n\n        ```bash\n        cmake --preset windows-default\n        ```\n\n3.  **Build the project:**\n\n    ```bash\n    cmake --build build\n    ```\n\n4.  **Install the project (optional):**\n\n    -   **For Linux:**\n\n        ```bash\n        sudo cmake --install build\n        ```\n\n    -   **For Windows (with administrator privileges):**\n\n        ```bash\n        cmake --install build\n        ```\n\n","\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fwww.fastflowlm.com\" target=\"_blank\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFastFlowLM_FastFlowLM_readme_3809dfa29d65.png\" alt=\"FastFlowLM Logo\" width=\"200\"\u002F>\n  \u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FNPU-Optimized-red\" \u002F>\n\u003C\u002Fp>\n\n## ⚡ FastFlowLM (FLM) — 解锁 Ryzen™ AI NPUs\n\n在几分钟内即可在 **AMD Ryzen™ AI NPUs** 上运行大型语言模型——现支持 **视觉**、**音频**、**嵌入** 和 **MoE** 功能。  \n**无需 GPU。速度更快，能效提升超 10 倍。支持高达 256k 个 token 的上下文长度。超轻量级（17 MB）。安装仅需 20 秒。**\n\n📦 **唯一一款开箱即用、以 NPU 为先的运行时，专为 Ryzen™ AI 打造。**  \n🤝 **就像 Ollama 一样，但针对 NPU 进行了深度优化。**  \n✨ **从闲置的硅片到即时算力——FastFlowLM 让 Ryzen™ AI 大放异彩。**\n\n> FastFlowLM (FLM) 支持所有配备 XDNA2 NPU 的 Ryzen™ AI 系列芯片（Strix、Strix Halo、Kraken 和 Gorgon Point）。\n\n---\n\n## 🔗 快速链接\n\n  🔽 **[下载](https:\u002F\u002Fgithub.com\u002FFastFlowLM\u002FFastFlowLM\u002Freleases\u002Flatest\u002Fdownload\u002Fflm-setup.exe)** | 📊 **[基准测试](https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Fbenchmarks\u002F)** | 📦 **[模型列表](https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Fmodels\u002F)**  \n\n  🐧 **[Linux 入门指南](.\u002Fdocs\u002Flinux-getting-started.md)**\n\n  📖 **[文档](https:\u002F\u002Ffastflowlm.com\u002Fdocs)** | 📺 **[演示](https:\u002F\u002Fwww.youtube.com\u002Fplaylist?list=PLf87s9UUZrJoDdz639Yc6w1UTyJ4cFHZ1)** | 🧪 **[试用](https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002F#-test-drive-remote-demo)** | 💬 **[Discord](https:\u002F\u002Fdiscord.gg\u002Fz24t23HsHF)** \n\n---\n\n## 🚀 快速入门\n\n此处提供打包好的 FLM Windows 安装程序：[**flm-setup.exe**](https:\u002F\u002Fgithub.com\u002FFastFlowLM\u002FFastFlowLM\u002Freleases\u002Flatest\u002Fdownload\u002Fflm-setup.exe)。更多详情请参阅 [发布说明](https:\u002F\u002Fgithub.com\u002FFastFlowLM\u002FFastFlowLM\u002Freleases\u002F)。\n\n📺 [**观看快速入门视频（Windows）**](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=mYOfDNkyBII)\n\n> [!重要提示]  \n> ⚠️ 请确保 NPU 驱动程序版本 **≥ 32.0.203.304**（`.304` 是最低要求，但建议使用 `.311`；可通过任务管理器→性能→NPU 或设备管理器进行检查）。  \n> ⚙️ **提示：**\n>   * **推荐**：尝试运行 **Windows 更新** 或 **[驱动程序下载](https:\u002F\u002Fwww.amd.com\u002Fen\u002Fsupport)**。\n>   * **[AMD 官方安装文档](https:\u002F\u002Fryzenai.docs.amd.com\u002Fen\u002Flatest\u002Finst.html#install-npu-drivers)** *(需要 AMD 账户)*。\n>   * **[非官方论坛下载](https:\u002F\u002Fwww.elevenforum.com\u002Ft\u002Fdrivers-amd-npu-ryzen-8xxx-9xxx-apu.24220\u002F)** *(请注意，我们对您在此处下载的内容不承担任何责任)*。\n\n安装完成后，打开 **PowerShell**（Win + X → I）。要在终端中运行模型（**CLI 模式**）：\n```powershell\nflm run llama3.2:1b\n```\n> **注意事项：**\n> - 需要访问互联网以从 HuggingFace 下载优化后的模型内核。\n> - 有时从 HuggingFace 下载的文件可能会损坏。如果发生这种情况，请运行 `flm pull \u003Cmodel_tag> --force`（例如 `flm pull llama3.2:1b --force`）以重新下载并修复。\n> - 默认情况下，模型存储位置如下：\n>   - **Windows**: `C:\\Users\\\u003CUSER>\\Documents\\flm\\models\\`\n>   - **Linux**: `~\u002F.config\u002Fflm\u002F`\n> - 在 Windows 上安装时，您可以选择不同的基础文件夹（例如，如果您选择 `C:\\Users\\\u003CUSER>\\flm`，模型将保存在 `C:\\Users\\\u003CUSER>\\flm\\models\\` 中）。\n> - 在 Linux 上，您可以通过设置 `FLM_MODEL_PATH` 环境变量来覆盖默认位置。\n> - ⚠️ 如果您所在地区无法访问 HuggingFace，请手动下载模型（[查看此问题](https:\u002F\u002Fgithub.com\u002FFastFlowLM\u002FFastFlowLM\u002Fissues\u002F2)），并将其放置在您选择的目录中。   \n\n🎉🚀 FastFlowLM (FLM) 已准备就绪——您的 NPU 已解锁，您可以立即开始与模型对话！\n\n打开 **任务管理器**（Ctrl + Shift + Esc）。转到 **性能** 选项卡→点击 **NPU** 以监控使用情况。  \n\n> **⚡ 小贴士：**\n> - 在会话中使用 `\u002Fverbose` 可开启性能报告功能（再次输入 `\u002Fverbose` 即可关闭）。   \n> - 输入 `\u002Fbye` 可退出对话。  \n> - 在 PowerShell 中运行 `flm list` 可显示所有可用模型。  \n\n要启动本地服务器（**服务器模式**）：\n```powershell\nflm serve llama3.2:1b\n```\n> 模型标签（如 `llama3.2:1b`）用于设置初始模型，但这并非必需。如果请求其他模型，FastFlowLM 会自动切换到该模型。本地服务器默认端口为 52625。  \n\n**[![FastFlowLM 文档](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FFastFlowLM-Detailed%20Instructions-red?style=flat&logo=readthedocs)](https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Finstructions\u002F)**\n\n---\n\n## 📰 新闻动态\n\n- 2026 年 3 月 11 日 🎉 FLM 现已支持 Linux 🐧！要开始使用，请查看 **[快速入门指南](https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Finstall_lin\u002F)** 或 **[Lemonade Server 文档](https:\u002F\u002Flemonade-server.ai\u002Fflm_npu_linux.html)**，并观看 **[短视频](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=tXRchP3sKA8)**，了解如何通过 Lemonade 🍋 在 Linux 上快速上手 FLM。\n\n- 2025 年 10 月 1 日 🎉 FLM 已集成到 AMD 的 **[Lemonade Server](https:\u002F\u002Flemonade-server.ai\u002F)** 🍋。观看此 **[简短演示](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=w0Tb3h4WUnE)**，了解如何在 Lemonade 中使用 FLM。\n\n---\n\n## 🧠 NPU 上的本地 AI\n\nFLM 让您轻松在本地运行前沿的 **LLMs**（现在还包括 **VLMs**），具备以下优势：\n- ⚡ 速度快、功耗低\n- 🧰 简单的 CLI 和 API（REST 以及 OpenAI API）\n- 🔐 完全私密且离线\n\n无需重写模型，无需调优——开箱即用。\n\n---\n\n## ✅ 亮点\n\n- **完全基于 AMD Ryzen™ AI NPU 运行**——无需 GPU 或 CPU 负荷\n- **轻量级运行时（17 MB）**——可在 **20 秒内** 安装完毕，易于集成    \n- **开发者优先的工作流**——类似 Ollama，但专为 NPU 优化  \n- **支持长上下文窗口**——最高可达 256k 个 token（例如 Qwen3-4B-Thinking-2507）  \n- **无需底层调优**——您只需专注于应用开发，其余交给我们处理\n\n---\n\n## 📄 许可证\n\n- 所有编排代码和 CLI 工具均采用 [MIT 许可证](.\u002FLICENSE_RUNTIME.txt) 开源。\n- NPU 加速的内核为 **专有二进制文件**，允许在公司年收入不超过 **1000 万美元** 的情况下免费用于商业用途。\n- 对于年收入超过此门槛（1000 万美元）的企业，需获得商业许可。详细信息请参阅 [LICENSE_BINARY.txt](.\u002FLICENSE_BINARY.txt) 和 [TERMS.md](.\u002FTERMS.md)。\n- **免费用户：** 请在您的 README\u002F项目页面（或产品）中注明：\n  ```\n  Powered by [FastFlowLM](https:\u002F\u002Fgithub.com\u002FFastFlowLM\u002FFastFlowLM)\n  ```\n如需商业授权，请发送邮件至 info@fastflowlm.com。\n\n---\n\n💬 您有 **反馈\u002F问题**，或希望提前体验我们的新版本吗？请 [提交问题](https:\u002F\u002Fgithub.com\u002Ffastflowlm\u002Ffastflowlm\u002Fissues\u002Fnew) 或加入我们的 Discord 社区 [https:\u002F\u002Fdiscord.gg\u002Fz24t23HsHF](https:\u002F\u002Fdiscord.gg\u002Fz24t23HsHF)。\n\n---\n\n## 🙏 致谢\n\n- 由先进的 **AMD Ryzen™ AI NPU 架构** 提供支持\n- 灵感源自广泛使用的 [llama.cpp](https:\u002F\u002Fgithub.com\u002Fggml-org\u002Fllama.cpp) 和 [Ollama](https:\u002F\u002Fgithub.com\u002Follama\u002Follama)\n- 分词加速由 [MLC-ai\u002Ftokenizers-cpp](https:\u002F\u002Fgithub.com\u002Fmlc-ai\u002Ftokenizers-cpp) 实现\n- 对话格式化通过 [Google\u002Fminja](https:\u002F\u002Fgithub.com\u002Fgoogle\u002Fminja) 完成\n- 低层内核使用强大的 [IRON](https:\u002F\u002Fgithub.com\u002Famd\u002Firon)+[AIE-MLIR](https:\u002F\u002Fgithub.com\u002FXilinx\u002Fmlir-aie) 进行优化\n\n---\n\n## 🛠️ 从源码构建\n\n对于希望从源码构建 FastFlowLM 的开发者，我们提供了 CMake 预设，以提供便捷且一致的构建体验。\n\n### 先决条件\n\n- Git\n- CMake（版本 3.22 或更高）\n- 支持 C++20 的编译器（例如 GCC、Clang、MSVC）\n- Ninja（推荐）\n\n### 构建说明\n\n有关具体步骤及 Linux 系统下所需安装的依赖项的更多详细信息，请参阅 [linux-getting-started.md](docs\u002Flinux-getting-started.md)。\n\n1.  **克隆仓库：**\n\n    ```bash\n    git clone --recursive https:\u002F\u002Fgithub.com\u002FFastFlowLM\u002FFastFlowLM.git\n    cd FastFlowLM\u002Fsrc\n    ```\n\n2.  **使用预设配置 CMake：**\n\n    -   **对于 Linux：**\n\n        ```bash\n        cmake --preset linux-default\n        ```\n\n        这将配置构建过程，以便将其安装到 `\u002Fopt\u002Ffastflowlm`。\n\n    -   **对于 Windows（在开发者命令提示符中）：**\n\n        ```bash\n        cmake --preset windows-default\n        ```\n\n3.  **构建项目：**\n\n    ```bash\n    cmake --build build\n    ```\n\n4.  **安装项目（可选）：**\n\n    -   **对于 Linux：**\n\n        ```bash\n        sudo cmake --install build\n        ```\n\n    -   **对于 Windows（需管理员权限）：**\n\n        ```bash\n        cmake --install build\n        ```","# FastFlowLM 快速上手指南\n\nFastFlowLM (FLM) 是一款专为 **AMD Ryzen™ AI NPU** 打造的轻量级大模型运行时。它无需 GPU，即可在几分钟内运行支持视觉、音频、嵌入和 MoE 的大语言模型，具有超低功耗（比 GPU 节能 10 倍以上）和超长上下文（最高 256k tokens）特性。\n\n## 环境准备\n\n### 系统要求\n- **硬件**：搭载 XDNA2 NPU 的 AMD Ryzen™ AI 系列芯片（包括 Strix, Strix Halo, Kraken, Gorgon Point 等）。\n- **操作系统**：Windows 10\u002F11 或 Linux。\n- **驱动程序**：NPU 驱动版本必须 **>= 32.0.203.304**（推荐 **.311** 或更高）。\n  - *检查方法*：任务管理器 → 性能 → NPU，或设备管理器。\n  - *更新建议*：优先运行 **Windows Update** 或前往 [AMD 官网下载驱动](https:\u002F\u002Fwww.amd.com\u002Fen\u002Fsupport)。\n\n### 前置依赖\n- **网络连接**：首次运行需访问 HuggingFace 下载优化后的模型内核。\n  - *注意*：若国内网络无法直接访问 HuggingFace，需手动下载模型文件并放置到指定目录（详见下文“基本使用”中的注意事项）。\n- **终端工具**：Windows 用户需使用 PowerShell，Linux 用户需使用 Bash。\n\n## 安装步骤\n\n### Windows 用户\n1. 下载安装包：[flm-setup.exe](https:\u002F\u002Fgithub.com\u002FFastFlowLM\u002FFastFlowLM\u002Freleases\u002Flatest\u002Fdownload\u002Fflm-setup.exe)\n2. 双击运行安装程序，按照提示完成安装（默认约 20 秒）。\n   - *可选*：安装时可自定义基础文件夹路径（默认为 `C:\\Users\\\u003CUSER>\\Documents\\flm`）。\n\n### Linux 用户\n请参考官方提供的 [Linux 入门指南](.\u002Fdocs\u002Flinux-getting-started.md) 或通过 AMD Lemonade Server 进行集成安装。\n\n## 基本使用\n\n安装完成后，打开终端（Windows: `Win + X` → 选择 **PowerShell** \u002F Linux: 终端），即可开始使用。\n\n### 1. 命令行模式 (CLI Mode)\n直接运行模型进行对话：\n\n```powershell\nflm run llama3.2:1b\n```\n\n**使用说明与注意事项：**\n- **模型下载**：首次运行会自动从 HuggingFace 下载模型。若下载失败或文件损坏，请执行以下命令强制重新下载：\n  ```powershell\n  flm pull llama3.2:1b --force\n  ```\n- **国内网络适配**：若无法连接 HuggingFace，请手动下载模型文件，并放入以下目录：\n  - **Windows**: `C:\\Users\\\u003CUSER>\\Documents\\flm\\models\\` (若安装时自定义了路径，则位于 `\u003C自定义路径>\\models\\`)\n  - **Linux**: `~\u002F.config\u002Fflm\u002F` (可通过设置环境变量 `FLM_MODEL_PATH` 修改路径)\n- **常用指令**：\n  - `\u002Fverbose`：切换性能报告显示（再次输入可关闭）。\n  - `\u002Fbye`：退出当前对话。\n  - `flm list`：查看本地已可用的模型列表。\n\n### 2. 服务器模式 (Server Mode)\n启动本地 API 服务（默认端口 52625），兼容 OpenAI API 格式：\n\n```powershell\nflm serve llama3.2:1b\n```\n- 模型标签（如 `llama3.2:1b`）为初始加载模型，可选。若请求其他模型，FLM 会自动切换。\n\n### 3. 监控 NPU 状态\n打开 **任务管理器** (`Ctrl + Shift + Esc`)，进入 **性能** 选项卡，点击 **NPU** 即可实时查看利用率。\n\n---\n*更多详细文档请访问：[FastFlowLM Docs](https:\u002F\u002Ffastflowlm.com\u002Fdocs)*","一位拥有 AMD Ryzen AI 笔记本的独立开发者，希望在通勤途中利用本地算力快速测试和迭代轻量级大语言模型应用。\n\n### 没有 FastFlowLM 时\n- **硬件闲置浪费**：笔记本内置的强劲 NPU 无法被主流推理框架（如 Ollama）直接调用，只能依赖功耗高且发热严重的 GPU 或缓慢的 CPU 运行模型。\n- **部署门槛极高**：在 Windows 上配置针对 NPU 优化的推理环境通常需要编译复杂的底层驱动和依赖库，耗时数小时且极易报错。\n- **续航与性能失衡**：使用 GPU 推理导致电池在几十分钟内耗尽，风扇噪音巨大，完全无法满足移动办公场景下的静音与长续航需求。\n- **多模态支持缺失**：难以在本地低成本地同时运行涉及视觉或音频处理的多模态模型，限制了应用场景的拓展。\n\n### 使用 FastFlowLM 后\n- **即装即用解锁算力**：通过 `flm-setup.exe` 安装包，20 秒内即可完成部署，一条 `flm run` 命令即可直接调用 NPU 运行 Llama 3.2 等模型。\n- **极致能效与静音**：推理任务完全由 NPU 承担，功耗降低超过 10 倍，笔记本全程保持冷静静音，电池续航足以支撑整天的开发测试。\n- **超长上下文支持**：轻松驾驭高达 256k 的上下文窗口，让开发者能在本地流畅处理长文档分析或复杂代码库理解任务。\n- **全功能模型生态**：原生支持视觉、音频及 MoE 架构模型，无需额外配置即可在本地构建丰富的多模态 AI 应用原型。\n\nFastFlowLM 将原本闲置的 AMD NPU 瞬间转化为高效、静音且持久的本地 AI 引擎，让移动端大模型开发变得触手可及。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFastFlowLM_FastFlowLM_db9b310a.png","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FFastFlowLM_409e22db.png",null,"https:\u002F\u002Fgithub.com\u002FFastFlowLM",[77,81,85,89,92,96,100,104,108],{"name":78,"color":79,"percentage":80},"C++","#f34b7d",92.8,{"name":82,"color":83,"percentage":84},"Python","#3572A5",2.2,{"name":86,"color":87,"percentage":88},"C","#555555",1.6,{"name":90,"color":91,"percentage":88},"Makefile","#427819",{"name":93,"color":94,"percentage":95},"CMake","#DA3434",1.3,{"name":97,"color":98,"percentage":99},"Inno Setup","#264b99",0.5,{"name":101,"color":102,"percentage":103},"Dockerfile","#384d54",0.1,{"name":105,"color":106,"percentage":107},"Shell","#89e051",0,{"name":109,"color":110,"percentage":107},"Batchfile","#C1F12E",1192,74,"2026-04-19T04:21:48","NOASSERTION","Windows, Linux","不需要 GPU。专为 AMD Ryzen™ AI NPU (XDNA2 架构) 优化，支持 Strix, Strix Halo, Kraken, 和 Gorgon Point 系列芯片。","未说明",{"notes":119,"python":120,"dependencies":121},"1. 核心运行时仅 17MB，安装迅速，无需模型重写或底层调优。2. 首次运行需联网从 HuggingFace 下载优化的模型内核，若网络受限需手动下载模型文件。3. NPU 加速内核为专有二进制文件，年收入超过 1000 万美元的公司需获取商业许可。4. 支持长达 256k tokens 的上下文窗口。5. 提供 CLI 模式和本地服务器模式 (默认端口 52625)。","未说明 (源码构建需 C++20 编译器)",[122,123,124,125],"AMD NPU Driver >= 32.0.203.304 (推荐 .311)","CMake >= 3.22 (仅源码构建)","Ninja (仅源码构建，推荐)","Git (仅源码构建)",[35,14],[128,129,130,131,132],"amd","deepseek","llama","llm","npu","2026-03-27T02:49:30.150509","2026-04-20T04:04:30.044826",[136,141,146,151,156,161],{"id":137,"question_zh":138,"answer_zh":139,"source_url":140},43518,"如何将 FastFlowLM 服务器集成到现有的 OpenWebUI 设置中？","建议使用 Ollama API 端点进行连接。在 OpenWebUI 的管理面板中添加新连接时，使用 FastFlowLM 的 Ollama 兼容接口。注意：标准的 REST API (Ollama) 已完全支持，但 OpenAI API 目前仅支持基础聊天\u002F补全功能，高级功能（如流式传输在某些配置下）可能尚不可用。如果遇到流式传输问题，尝试在模型设置中暂时禁用流式传输，或确保客户端使用的是 Ollama 标准而非完整的 OpenAI 标准。","https:\u002F\u002Fgithub.com\u002FFastFlowLM\u002FFastFlowLM\u002Fissues\u002F114",{"id":142,"question_zh":143,"answer_zh":144,"source_url":145},43519,"FLM Server 与 MineContext 集成时出现工具调用失败或图像解析无限重试怎么办？","对于工具调用失败或复杂交互无响应的问题，以及图像解析失败导致服务器无限重试或断开连接的问题，可以尝试增加最大并行计数来解决。请运行以下命令启动服务：\nflm serve -q 32 -s 32\n这通常能解决因并发处理能力不足导致的超时或断开问题。此外，确保使用的是最新版本的 FLM，因为更新版本已修复了工具调用的相关问题。","https:\u002F\u002Fgithub.com\u002FFastFlowLM\u002FFastFlowLM\u002Fissues\u002F328",{"id":147,"question_zh":148,"answer_zh":149,"source_url":150},43520,"运行特定模型（如 GPT-OSS 20B）时出现分段错误（Segmentation Fault）或首次加载极慢如何解决？","这通常是由于本地模型文件损坏或校验和不匹配导致的。即使之前验证过校验和，也建议强制重新拉取模型文件。请运行以下命令：\nflm pull \u003Cmodel_name>:\u003Ctag> --force\n例如：flm pull gpt-oss:20b --force\n重新下载完成后，再次尝试运行模型，通常可以解决崩溃问题。","https:\u002F\u002Fgithub.com\u002FFastFlowLM\u002FFastFlowLM\u002Fissues\u002F413",{"id":152,"question_zh":153,"answer_zh":154,"source_url":155},43521,"在 Strix NPU 设备上遇到\"Procedure Entry Point could not be located\"或 DLL 入口点错误怎么办？","该错误通常由 AMD NPU 驱动程序版本不兼容引起。具体来说，版本 304 的驱动程序已知存在此问题。解决方案是升级或切换到版本 311 的驱动程序。请访问 AMD 官方文档页面下载并安装正确的 NPU 驱动版本（推荐 311 或更高），避免使用 304 版本。","https:\u002F\u002Fgithub.com\u002FFastFlowLM\u002FFastFlowLM\u002Fissues\u002F232",{"id":157,"question_zh":158,"answer_zh":159,"source_url":160},43522,"如何在 Windows 上构建并运行 Qwen3.5 分支？","在 Windows 上构建 Qwen3.5 分支是可行的。用户反馈显示，通过辅助工具（如 Claude）协助构建后，可以在配备 AMD Ryzen 处理器的设备（如 Lenovo Yoga）上成功运行，性能表现稳定（约 14 tokens\u002Fsec）。虽然标准的 `make run` 命令在 Windows 原生环境中可能不可用，但可以通过参考项目中的 Windows 设置指南（src\u002FWinSetup.md）进行配置。构建成功后，Qwen3.5 在 Windows 上的稳定性优于旧版本。","https:\u002F\u002Fgithub.com\u002FFastFlowLM\u002FFastFlowLM\u002Fissues\u002F385",{"id":162,"question_zh":163,"answer_zh":164,"source_url":165},43523,"使用 OpenCode 等客户端调用工具时，执行在工具调用后立即停止怎么办？","当使用 FastFlowLM 配合 OpenCode 等客户端时，如果发生工具调用后执行停止，这通常是因为服务器对工具调用返回格式的处理与特定客户端的预期不完全匹配。虽然其他提供商（如 LM Studio）可能表现正常，但在 FLM 中需确保模型明确支持工具调用功能。建议检查模型描述确认其工具支持能力，并关注后续版本更新，因为维护者正在持续改进对各类客户端工具调用工作流的支持。","https:\u002F\u002Fgithub.com\u002FFastFlowLM\u002FFastFlowLM\u002Fissues\u002F396",[167,172,177,182,187,192,197,202,207,212,217,222,227,232,237,242,247,252,257,262],{"id":168,"version":169,"summary_zh":170,"released_at":171},343146,"v0.9.39","FastFlowLM v0.9.39 新增对 `gemma4-it:e2b` 的支持，并优化了推理、嵌入、采样以及工具调用等多个关键工作流。\n\n---\n\n## 📦 新模型支持\n\n### 👁️ Gemma4-IT-E2B\n\nFastFlowLM 现在支持 `gemma4-it:e2b`，可用于语言、视觉和 ASR 任务。\n\n- **标签：** `gemma4-it:e2b`\n\n在 CLI 模式下运行：\n\n```bash\nflm run gemma4-it:e2b\n```\n\n在服务器模式下运行：\n\n```bash\nflm serve gemma4-it:e2b\n```\n\n更多详情，请参阅 [模型卡片](https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Fmodels\u002Fgemma\u002F#-model-card-gemma-4-e2b-it) 和 [基准测试结果](https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Fbenchmarks\u002Fgemma4_results\u002F)。\n\n---\n\n## ✨ 更流畅的体验\n\n### 🧠 推理力度控制\n\n兼容 OpenAI 的请求现支持 `qwen3` 和 `qwen3.5` 系列模型的 `reasoning_effort` 参数。\n\n- `low`、`medium` 和 `high` 启用思考模式\n- `none` 禁用思考模式\n\nOllama 的 `think` 字段仍然受支持，但当两者同时提供时，`reasoning_effort` 将优先生效。\n\n### 🔢 嵌入 API\n\n感谢 @nitedani 报告该问题。\n\n修复了 `v1\u002Fembedding` 中的一个问题：多批次输入可能会导致响应中仅返回单个批次。现在，`v1\u002Fembedding` 正确支持多批次输入和多批次输出。\n\n### ⚡ 采样优化\n\n感谢 @xieyanbo 的优化贡献。\n\n本次发布进一步提升了采样性能，使生成工作流更加高效。\n\n### 🛠️ 工具调用\n\n修复了一个 Qwen3.5 工具调用解析问题：数值型参数可能在 JSON Schema 中显示为字符串。\n\n感谢 @gabrielgiersch-ai 报告该问题。\n\n同时也感谢 @J-Bu 的贡献。\n\n---\n\n## 🌟 总结\n\nFastFlowLM v0.9.39 扩展了对 `gemma4-it:e2b` 的支持，并在推理、嵌入、采样和工具调用等方面带来了更流畅的使用体验。","2026-04-15T16:11:41",{"id":173,"version":174,"summary_zh":175,"released_at":176},343147,"v0.9.38","FastFlowLM v0.9.38 新增了 `qwen3.5:0.8b` 和 `nanbeige4.1:3b` 模型。\r\n---\r\n\r\n## 📦 新增模型\r\n\r\n### 🖼️ Qwen3.5:0.8B\r\n\r\nFastFlowLM 现在支持 Qwen3.5 系列中的轻量级视觉语言模型：\n\n- **标签:** `qwen3.5:0.8b`\n\n您可以在 `run` 和 `serve` 模式下，通过 `--img-pre-resize`（或 `-r`）参数来控制图像的预缩放。\n\n在 CLI 模式下运行：\n\n```bash\nflm run qwen3.5:0.8b -r 1\n```\n\n在服务器模式下运行：\n\n```bash\nflm serve qwen3.5:0.8b -r 1\n```\n\n更多详情，请参阅 [模型卡片](https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Fmodels\u002Fqwen\u002F#-model-card-qwen35-08b) 和 [基准测试结果](https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Fbenchmarks\u002Fqwen3.5_results\u002F)。\n\n---\n\n### 🧠 Nanbeige4.1-3B\n\nFastFlowLM 现在支持全新的 Nanbeige4.1-3B 模型，这是一款具备工具调用能力的推理模型。\n\n- **标签:** `nanbeige4.1:3b`\n\n在 CLI 模式下运行：\n\n```bash\nflm run nanbeige4.1:3b\n```\n\n在服务器模式下运行：\n\n```bash\nflm serve nanbeige4.1:3b\n```\n\n更多详情，请参阅 [模型卡片](https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Fmodels\u002Fnanbeige\u002F#-model-card-nanbeige41-3b) 和 [基准测试结果](https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Fbenchmarks\u002Fnanbeige4.1_results\u002F)。\n\n---\n\n## 🐛 错误修复\n\n此前，模型列表的 JSON 文件中缺少部分功能标签，这可能导致依赖该列表的下游应用在集成时出现问题。\n\n此问题已在本次版本中得到修复。\n\n\n## 🌟 总结\n\nFastFlowLM v0.9.38 在 Qwen3.5 系列中新增了 `Qwen3.5-0.8B` 模型，并引入了用于推理和工具调用工作流的 `Nanbeige4.1-3B` 模型。快来尝试这两款模型，体验最新的性能提升吧！✨","2026-04-02T16:34:21",{"id":178,"version":179,"summary_zh":180,"released_at":181},343148,"v0.9.37","FastFlowLM v0.9.37 新增了两款通义千问3.5视觉语言模型，并优化了 Windows 新用户的默认模型路径体验。\n\n---\n\n## 🖼️ 1. 新增通义千问3.5模型\n\nFastFlowLM 现在支持通义千问3.5系列中的另外两款视觉语言模型：\n\n- **标签：** `qwen3.5:2b`\n- **标签：** `qwen3.5:9b`\n\n您可以在 `run` 和 `serve` 模式下，通过 `--img-pre-resize`（或 `-r`）参数来控制图像的预缩放。\n\n> ⚠️ **注意**：所有通义千问 VL 模型（2.5、3 和 3.5）的默认预缩放设置现已调整为 720p。\n\n在 CLI 模式下运行：\n\n```bash\nflm run qwen3.5:2b -r 1\n```\n\n在服务器模式下运行：\n\n```bash\nflm serve qwen3.5:9b -r 1\n```\n\n更多详情，请参阅模型卡片（[2B](https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Fmodels\u002Fqwen\u002F#-model-card-qwen35-2b) 和 [9B](https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Fmodels\u002Fqwen\u002F#-model-card-qwen35-9b)）以及 [基准测试结果](https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Fbenchmarks\u002Fqwen3.5_results\u002F)。\n\n---\n\n## 🪟 2. 改进 Windows 上的默认模型路径\n\n对于新安装的 Windows 用户，`FLM_MODEL_PATH` 现已默认设置为 `C:\\Users\\\u003Cusername>\\.flm`。\n\n现有用户不受影响：之前的默认路径 `C:\\Users\\\u003Cusername>\\Documents\\flm` 仍然有效，因此当前的模型安装无需任何更改即可继续正常使用。\n\n---\n\n## 🌟 总结\n\nFastFlowLM v0.9.37 在通义千问3.5系列中新增了 `qwen3.5:2b` 和 `qwen3.5:9b` 两款模型，同时通过更简洁的默认模型路径，提升了 Windows 新用户的开箱即用体验。","2026-03-26T16:30:48",{"id":183,"version":184,"summary_zh":185,"released_at":186},343149,"v0.9.36","本次发布引入了一个新模型，并修复了多项重要的可靠性问题，以确保在生产工作loads中推理过程的流畅性。\n\n---\n\n## 🖼️ 1. 新模型：Qwen3.5-4B\n\nFastFlowLM 现已支持一个新的视觉语言模型：\n\n- **标签：** `qwen3.5:4b`\n\n您可以在运行和服务模式下使用 `--img-pre-resize`（或 `-r`）参数来控制图像的预缩放。\n\n在 CLI 模式下运行：\n\n```bash\nflm run qwen3.5:4b -r 1\n```\n\n在服务器模式下运行：\n\n```bash\nflm serve qwen3.5:4b -r 1\n```\n\n更多详情，请参阅 [模型卡片](https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Fmodels\u002Fqwen\u002F#-model-card-qwen35-4b) 和 [基准测试结果](https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Fbenchmarks\u002Fqwen3.5_results\u002F)。\n\n---\n\n## 🛠️ 2. 错误修复\n\n我们解决了请求处理和采样中的两个核心稳定性问题：\n\n- **CORS：** 修复了预检请求的处理逻辑，确保在 `async_write` 过程中响应能够正常保持。感谢 @tllewellynn1 的贡献。\n- **采样：** 修正了 `top-k` 采样的实现，在 `top-k` 超出可用词表大小时，会将值限制在词表范围内。感谢 @jingfelix 的贡献。\n\n---\n\n## 🌟 总结\n\nFastFlowLM v0.9.36 引入了 `qwen3.5:4b` 模型，并通过修复 CORS 预检请求的可靠性和 `top-k` 采样的边界问题，进一步提升了运行时的稳定性。","2026-03-19T15:57:39",{"id":188,"version":189,"summary_zh":190,"released_at":191},343150,"v0.9.35","漫长的等待终于结束了！大家呼声最高的功能终于上线啦！🐧\n\n---\n\n## 🌍 1. 你好，Linux！\n\nFastFlowLM 现已正式原生支持 Linux！最棒的是，它采用了你已经在 Windows 上熟悉并喜爱的——完全相同的配置方式。无需学习任何新流程，即可享受无缝跨平台的强大性能，并轻松扩展。\n\n---\n\n## 💻 2. 跨平台硬件验证\n\n告别对系统配置的猜测。我们现已推出针对环境的全面硬件验证。FastFlowLM 现在会在你开始运行之前，自动确保你的系统已完全优化并准备就绪。\n\n```bash\nflm validate\n```\n\n---\n\n## 🛠️ 3. 功能改进与问题修复\n\n本次发布包含了大量用户期待的功能以及关键修复，助你的工作流顺畅无阻：\n\n### ✨ 新增功能\n* **JSON 输出：** 完全支持结构化 JSON 输出，让下游应用和智能体能够完美解析。\n* **更智能的嵌入：** 升级了嵌入逻辑，可处理数组中的所有元素，而不再仅限于第一个。\n* **模型列表优化：** 改进了模型列表的处理方式。\n\n### 🐛 问题修复\n* **CPU 飙升：** 修复了一个导致部分下游应用出现意外 100% CPU 使用率的 bug。\n* **提示缓存：** 解决了提示缓存问题，使生成过程更加迅捷高效。\n\n---\n\n## 🙌 4. 致谢\n\n向 **@superm1**、**@jeremyfowers** 和 **@jgmelber** 致以最热烈的感谢！感谢你们的真知灼见与贡献，让这次意义非凡的 Linux 版本得以顺利发布。\n\n---\n\n一如既往地感谢你使用 FastFlowLM！更快的速度，更多的模型，更流畅的工作流。🚀","2026-03-11T14:09:56",{"id":193,"version":194,"summary_zh":195,"released_at":196},343151,"v0.9.34","版本管理又迈出一小步，推理体验却实现了一大飞跃 😎  \n\n---  \n\n## 🌍 1. 新模型：**Translategemma:4b**  \n**标签：** `translategemma:4b`  \n\n轻松跨越语言障碍。  \n这是一款功能强大的翻译模型，专为精准、高效地处理多语言任务而设计——让您流畅翻译文本，让工作流持续顺畅运转 🗣️  \n\n📖 欢迎查看 [模型卡片](https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Fmodels\u002Ftranslategemma\u002F)，了解最佳实践与推荐应用场景。  \n\n---  \n\n## 🩺 2. 新模型：**medgemma1.5:4b**  \n**标签：** `medgemma1.5:4b`  \n\n您的轻量级医疗 AI 助手。  \n这是一款针对医疗健康领域进行微调的专业模型，非常适合快速处理医学文本、总结临床记录以及提取关键信息。  \n\n### ⚠️ 免责声明  \n\n> 本工具（MedGemma + FastFlowLM）并非诊断或临床工具。  \n> 做出医疗决策时，请务必咨询有执业资格的医疗专业人士。  \n\n---  \n\n## 🖼️ 3. 视觉模型自动调整图像尺寸  \n\n通义千问系列视觉模型在处理图像尺寸方面更加智能了。  \n\n- 适用模型：`qwen2vl-it`、`qwen3vl-it`、`qwen2.5vl-it`  \n- 📐 默认情况下，所有输入图像都会被自动调整至 **1080p** 分辨率。  \n- 🔧 如需关闭此功能，可通过设置参数 ```-r 0``` 实现：  \n\n```bash\nflm run qwen2.5vl-it -r 0\n```\n\n### 🔒 稳定性提升  \n\n* 稳定性显著增强的模型包括：  \n  * `qwen3vl-it`  \n  * `qwen2.5vl-it`  \n\n更少意外，运行更流畅，视觉推理更可靠 💪  \n\n---  \n\n一如既往地感谢您使用 FastFlowLM！  \n更快的速度，更多的模型，更顺滑的流程。🚀","2026-02-20T21:52:58",{"id":198,"version":199,"summary_zh":200,"released_at":201},343152,"v0.9.33","## 🖼️ 新增多模态大模型支持\n- 新增：`qwen2.5vl-it:3b`——经过指令微调的多模态大模型，开箱即用！\n- 温馨提示：该模型基于 **Qwen2.5-VL-3B-Instruct**，目前是 **Hugging Face 上按月下载量计算最受欢迎的视觉-文本-文本生成模型**！ :earth_africa::inbox_tray: ([HF 模型排行榜](https:\u002F\u002Fhuggingface.co\u002Fmodels?pipeline_tag=image-text-to-text&sort=downloads))\n\n— _FastFlowLM 团队_","2026-02-12T16:45:11",{"id":203,"version":204,"summary_zh":205,"released_at":206},343153,"v0.9.32","## :brain: 新模型支持\n- 新增：`Qwen2.5-it:3b`——经过指令微调，开箱即用！\n- 温馨提示：该模型基于**Qwen2.5-3B-Instruct**，目前是**Hugging Face 上按月下载量计算的最受欢迎文本生成模型**！:earth_africa::inbox_tray:  \n  （证据：[HF 模型排行榜](https:\u002F\u002Fhuggingface.co\u002Fmodels?pipeline_tag=text-generation&sort=downloads)）\n\n## :zap: 性能提升\n- `gpt-oss` 和 `gpt-oss-sg` 经历了 turbo 加速！:race_car:\n  - 对于**短**和**长**上下文，预填充速度最高可提升至**2.3倍**。\n  - 真实数据，真快：[基准测试结果在此](https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Fbenchmarks\u002Fgpt-oss_results\u002F) :bar_chart:\n\n## :bug: 错误修复\n- 修复了 `medgemma` 中的一个问题\n  - 现已彻底解决。不客气 :beetle::hammer:\n\n---\n\n`v0.9.32` 就到这里啦！  \n保持速度，流畅如风 :dash:  \n— _FastFlowLM 团队_","2026-02-05T16:18:23",{"id":208,"version":209,"summary_zh":210,"released_at":211},343154,"v0.9.31","## 📦 新增功能\n\n### ⚡ 预填充速度升级（Qwen & Gemma 系列）\n\n一种**全新注意力引擎**大幅提升了**预填充**速度，且在**较长上下文长度时提升更为显著**（尤其在**16K+**时）。\n\n- 🚀 **预填充速度最高提升至3.8倍**  \n  *(qwen3:0.6b，32K标记的提示)*\n\n---\n\n### 📈 32K 提示下的预填充速度（标记\u002F秒）\n\n| 模型 | 升级前 → 升级后 | 速度提升 |\n|------|----------------|--------:|\n| gemma3:1b | 1596 → 1755 | **1.1×** |\n| gemma3:4b | 673 → 926 | **1.4×** |\n| medgemma:4b | 673 → 926 | **1.4×** |\n| qwen3:0.6b | 236 → 1496 | **3.8×** |\n| qwen3:1.7b | 225 → 768 | **3.4×** |\n| qwen3:4b | 164 → 303 | **1.9×** |\n| qwen3-it:4b | 164 → 303 | **1.9×** |\n| qwen3-tk:4b | 164 → 303 | **1.9×** |\n| qwen3vl-it:4b | 164 → 303 | **1.9×** |\n| qwen3:8b | 150 → 260 | **1.7×** |\n| deepseek-r1-0528:8b | 150 → 260 | **1.7×** |\n\n> 🖼️ **注：** 对于**qwen3vl-it:4b**，此次更新还使**图像理解速度更快**。\n\n---\n\n### 🔗 基准测试结果\n\n- 📊 **Gemma3 性能：** https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Fbenchmarks\u002Fgemma3_results\u002F  \n- 📈 **Qwen3 性能：** https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Fbenchmarks\u002Fqwen3_results\u002F\n\n---\n\n### 🛠️ 视觉工具调用（新功能）\n\n- ✅ **qwen3vl-it 现已支持工具调用**\n- 🔍 支持**视觉工具调用**工作流\n- 🎥 **演示视频：**  https:\u002F\u002Fyoutu.be\u002FRf6r0Fm1UVs?si=u45hBgFXyDeEKXxh\n\n---\n\n### 🔧 客户端兼容性改进\n\n- **非流式模式逻辑已调整**\n- 提升了与**客户端应用的兼容性**","2026-02-02T18:39:18",{"id":213,"version":214,"summary_zh":215,"released_at":216},343155,"v0.9.30","## 🔧 修复内容\n\n### 🧠 GPT‑OSS 兼容性 bug\n已修复一个导致 **GPT‑OSS** 模型运行出现故障的漏洞。\n\n\n保持无 bug，模型运行顺畅 🐞🤖  \n— FastFlowLM 团队","2026-01-28T20:54:29",{"id":218,"version":219,"summary_zh":220,"released_at":221},343156,"v0.9.29","**⚠️ A bug affecting the `gpt-oss:20b` model was fixed in v0.9.30. Please use v0.9.30 or later.**\r\n\r\n---\r\n\r\n## 📦 What’s New\r\n\r\n### ⚡ Massive Prefill Speed Upgrade\r\n\r\nWe introduced a **new attention engine** that **dramatically accelerates prefill**, with **larger gains at longer context lengths** (especially 16K+).\r\n\r\n- **Up to 2.6× faster prefill**\r\n- **More speedup at longer prompts**\r\n- **No model re-download required** (seamless upgrade)\r\n\r\n### 📈 Prefill Speed with 32K prompt (tok\u002Fs)\r\n\r\n| Model | Before → After | Speedup |\r\n|------|----------------|--------:|\r\n| lfm2:1.2b | 1059 → 1916 | 1.8× |\r\n| lfm2:2.6b | 654 → 1053 | 1.6× |\r\n| lfm2-transcript:2.6b | 654 → 1053 | 1.6× |\r\n| lfm2.5-it:1.2b | 1059 → 1916 | 1.8× |\r\n| lfm2.5-tk:1.2b | 1059 → 1916 | 1.8× |\r\n| llama3.2:1b | 577 → 1157 | 2.0× |\r\n| llama3.2:3b | 214 → 500 | 2.3× |\r\n| llama3.1:8b | 167 → 281 | 1.7× |\r\n| deepseek-r1:8b | 167 → 281 | 1.7× |\r\n| Phi4-mini-it:4b | 173 → 447 | **2.6×** |\r\n\r\n\r\n> 🔜 Prefill speed upgrades for **other models** are on the way too — stay tuned!\r\n\r\n### 📊 Detailed Benchmarks\r\n\r\n- 🔗 [LFM2 Results](https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Fbenchmarks\u002Flfm2_results\u002F)\r\n- 🔗 [LLaMA3 Results](https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Fbenchmarks\u002Fllama3_results\u002F)\r\n- 🔗 [Phi-4 Results](https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Fbenchmarks\u002Fphi4_results\u002F)\r\n\r\n🩹 “No Pain” Update 😎\r\n\r\nJust update and run — **long-context prefill is now much faster**. 🚀\r\n\r\n### 🛠️ Tool Call Bug Fix (Non‑Stream Case)\r\nWe’ve squashed a pesky bug affecting tool calls when not using streaming.  \r\nNow it behaves exactly like you *thought* it should. 😌\r\n\r\n---\r\n\r\nThanks for being awesome!  \r\nHappy modeling 🤖💙\r\n\r\n— The FastFlowLM Team\r\n","2026-01-28T19:17:55",{"id":223,"version":224,"summary_zh":225,"released_at":226},343157,"v0.9.28","*Pain-free = no model redownload required to enjoy the speedup. Just update and go.*\r\n\r\n---\r\n\r\n## ⚡️ 1. New Attention Engine — Gemma3 Vision Turbo\r\n\r\nWe’ve upgraded the Attention Engine to supercharge vision understanding for Gemma3-based models:\r\n\r\n- `Gemma3-4B`\r\n- `MedGemma3-4B`\r\n\r\n**📉 Latency Drop:**  \r\nFrom **3.4s → 2.6s**, giving you a ~25% speedup.  \r\nYour VLMs just got a whole lot snappier.\r\n\r\n---\r\n\r\n## 🖼️ 2. Qwen3-VL-Instruct-4B Gets a Vision Head Boost\r\n\r\nOur shiny new Attention Engine also powers up the vision head for `Qwen3-VL-Instruct-4B`.  \r\nIt really shines at high image resolutions.\r\n\r\n**🏎️ Example:**  \r\nOn 4K images, vision understanding is now ~45% faster compared to previous releases.  \r\nLess waiting, more interpreting.\r\n\r\n---\r\n\r\n## 🧘 More pain-free speedups coming soon — stay tuned!\r\n\r\n---\r\n\r\n## ✅ Key Benefits\r\n\r\n- ✅ **No redownloads** — instant upgrade ⚡  \r\n- ✅ **Lower vision latency** 🕶️  \r\n- ✅ **Better efficiency for VLM workloads** 💡","2026-01-22T16:45:43",{"id":228,"version":229,"summary_zh":230,"released_at":231},343158,"v0.9.27","## 🔗 Day-0 Support for LFM2.5-1.2B‑Thinking\r\nFirst **reasoning** model from LiquidAI! More details: https:\u002F\u002Fhuggingface.co\u002FLiquidAI\u002FLFM2.5-1.2B-Thinking\r\n\r\nLFM2.5-1.2B-Thinking delivers strong improvements in math reasoning, instruction following, and tool use, matching or exceeding Qwen3-1.7B on most reasoning benchmarks despite using ~40% fewer parameters\r\n\r\nModel tag in FLM: `lfm2.5-tk:1.2b`\r\n\r\nRun it in CLI Mode with:\r\n  ```powershell\r\n  flm run lfm2.5-tk:1.2b\r\n  ```\r\n\r\nRun it in Server Mode with:\r\n  ```powershell\r\n  flm serve lfm2.5-tk:1.2b\r\n  ```\r\n\r\n---\r\n\r\n## 📊 Performance at a Glance\r\n\r\n### Kraken (Ryzen AI 340 \u002F 350)\r\n\r\n| Device               | Inference | Framework   | Model                   | 4K-Token Prefill Speed (tok\u002Fs) | Peak Decoding Speed (tok\u002Fs) | Memory (Full Context) |\r\n|----------------------|-----------|-------------|--------------------------|--------------------------------|-----------------------------|-----------------------|\r\n| AMD Ryzen AI 7 HX350 | NPU       | FastFlowLM  | LFM2.5-1.2B-Thinking     | 2032                           | 63+                         | 1.6 GB (full context)                |\r\n| AMD Ryzen AI 5 HX340 | NPU       | FastFlowLM  | LFM2.5-1.2B-Thinking     | 2032                           | 63+                         | 1.6 GB (full context)               |\r\n\r\n\r\n**Decoding Speed vs. context length:**\r\n- 59 tok\u002Fs @ 4K context\r\n- 52 tok\u002Fs @ 16K context\r\n\r\n\r\n### Strix\u002FStrix Halo (Ryzen AI 360 and above)\r\n\r\n| Device               | Inference | Framework   | Model                   | 4K-Token Prefill Speed (tok\u002Fs) | Peak Decoding Speed (tok\u002Fs) | Memory (Full Context) |\r\n|----------------------|-----------|-------------|--------------------------|--------------------------------|-----------------------------|-----------------------|\r\n| AMD Ryzen AI 395+    | NPU       | FastFlowLM  | LFM2.5-1.2B-Thinking     | 2226                           | 60+                         | 1.6 GB (full context)               |\r\n| AMD Ryzen AI 9 HX370 | NPU       | FastFlowLM  | LFM2.5-1.2B-Thinking     | 2226                           | 60+                         | 1.6 GB (full context)                |\r\n\r\n**Decoding Speed vs. context length:**\r\n- 54 tok\u002Fs @ 4K context\r\n- 49 tok\u002Fs @ 16K context\r\n\r\n---\r\n\r\n**Detailed benchmarks:** https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Fbenchmarks\u002Flfm2_results\u002F\r\n\r\n---\r\n\r\n**Demo:** [💧LFM2.5-1.2B-Thinking (LiquidAI) — 100% Powered by AMD Ryzen™ AI NPU](https:\u002F\u002Fyoutu.be\u002FMen_pSm5g8w?si=_W1FqyN_SeyleSyo)\r\n\r\n---\r\n\r\n## 🆕 Model Tag Change\r\n\r\nTo avoid confusion between variants:\r\n\r\n| Old Tag  | New Tag                                 |\r\n| -------- | --------------------------------------- |\r\n| `lfm2.5:1.2` | `lfm2.5-it:1.2` (original, instruct) |\r\n\r\n---","2026-01-20T16:11:57",{"id":233,"version":234,"summary_zh":235,"released_at":236},343159,"v0.9.26","## 🧠 1. New Model: **LiquidAI\u002FLFM2‑2.6B‑Transcript**\r\n**Tag:** `lfm2‑trans:2.6b`\r\n\r\nSummarize conference notes like a pro.  \r\nA **single‑turn model** designed to cleanly condense long transcripts into insights — so you can spend more time sipping ☕ and less time scrolling 📜.\r\n\r\n🎬 See it in action: https:\u002F\u002Fyoutu.be\u002Fhpt0EhR1_vE?si=v9OCKa7VKAzuZ-02\r\n\r\n---\r\n\r\n## 🛠️ 2. Tool Calling — Preview Release\r\nTool calling is now officially **out of preview!**  \r\nVerified to work with:\r\n- `qwen3:4b`\r\n- `qwen3:8b`\r\n- `qwen3-it:4b`\r\n- `qwen3-tk-4b`\r\n\r\n📹 Watch the demo: https:\u002F\u002Fyoutu.be\u002FH-i4dztSdVk?si=5keyfkHt3ii8Wlu0\r\n\r\n📘 Setup instructions (local):  \r\n👉 https:\u002F\u002Ffastflowlm.com\u002Fdocs\u002Finstructions\u002Fserver\u002Ftool_calling\u002F\r\n\r\n---\r\n\r\n## 💽 3. Installer Upgrade — xclbins Inside!\r\n\r\nAll **xclbins are now bundled in the installer**, which means:\r\n- 🆙 Faster updates, No re‑downloading models unless **weights change**\r\n- 🤯 Fewer user headaches\r\n- 🚀 We are able to keep pushing the performance and efficiency.\r\n\r\nMore performance tuners coming soon… 🔧⚡\r\n\r\n---\r\n\r\n## 🔁 4. Runtime Restructure for Fine‑Tuned Models\r\nWe’ve overhauled the **FastFlowLM runtime** to let YOU plug in fine‑tuned models from supported families.\r\n\r\nThis is made possible by the upcoming **gguf → q4nx conversion tool** —  \r\nit’s **almost ready** and the docs are currently baking 🍳.\r\n\r\nStay tuned — this one will unlock a lot of flexibility.\r\n\r\n---\r\n\r\n## 🙌 Acknowledgements\r\n\r\n- Huge thanks to **@ItzCrazyKns** from [Perplexica](https:\u002F\u002Fgithub.com\u002FItzCrazyKns\u002FPerplexica\r\n) for schooling us in the basics of tool calling and all the help along the way!\r\n- Huge thanks to **@jeremyfowers** for highlighting and helping us resolving the ambiguity in the JSON-formatted [reasoning output](https:\u002F\u002Fgithub.com\u002FFastFlowLM\u002FFastFlowLM\u002Fissues\u002F283)!","2026-01-15T19:16:55",{"id":238,"version":239,"summary_zh":240,"released_at":241},343160,"v0.9.25","We're excited to introduce **FastFlowLM v0.9.25**, marking a key milestone with the integration of the **new LFM2.5 model**, freshly unveiled at **CES 2026 (Jan 5th)**. This release also includes improvements to API compatibility and instruction-style models.\r\n\r\n---\r\n\r\n### 🚀 New Model Support\r\n\r\n* **LFM2.5-1.2B-Instruct**\r\n  🔸 *Debuted at CES2026*\r\n  The newest addition to the LFM family, tuned for instruction-following. It features improved responsiveness and latency, ideal for interactive applications on AMD NPU.\r\n\r\n* **Phi4-mini-instruct**\r\n  A compact instruction model tailored for devices with limited memory — great for summarization and low-resource tasks.\r\n\r\n---\r\n\r\n### 🛠️ Fixes & Improvements\r\n\r\n* ✅ Fixed bugs related to generation parameters (`top_k`, `top_p`, etc.) not being respected in **OpenAI-compatible REST APIs**.\r\n* Ensures correct behavior when adjusting generation strategy through API calls.\r\n\r\n---\r\n\r\n🎉 With this update, FastFlowLM continues its mission to support the **latest LLMs** and provide an **efficient, private, and developer-friendly** experience on **AMD Ryzen AI NPUs**.\r\n\r\n","2026-01-08T19:35:19",{"id":243,"version":244,"summary_zh":245,"released_at":246},343161,"v0.9.24","FastFlowLM **v0.9.24** is here with a powerful new *LiquidAI* model, smarter caching, safer downloads, and better runtime control — making your NPU experience faster, smoother, and more reliable than ever.\r\n\r\n---\r\n\r\n## 📚 **Expanded LiquidAI Support**\r\n\r\n| Feature | Details |\r\n|--------|---------|\r\n| **New Model** | `LFM2:2.6B` added — delivers **31+ tokens\u002Fsec (tps)** in decoding and **1000+ tps** in prefill.|\r\n| **Faster Decoding** | `LFM2:1.2B` now reaches **63+ tokens\u002Fsec** |\r\n\r\n> 🔁 **Redownload** is required for the new `LFM2:1.2B`.\r\n\r\n---\r\n\r\n## 🔑 **What’s New & Why It Matters**\r\n\r\n| Feature | Benefit |\r\n|--------|---------|\r\n| **Prompt Cache (Server Mode)** | Reuses recent inputs to cut latency and speed up multi-turn conversations. Inspired by *llamacpp*. |\r\n| **Download Integrity Checks** | Every model download is now checksum-verified to ensure reliability and correctness. Huge thanks to **@ramkrishna2910** for reporting and **@jeremyfowers** for guidance! |\r\n| **Interrupt During Decoding** | Stop generation mid-stream in serve mode for tighter control over long or unwanted outputs — another great suggestion from **@jeremyfowers**. |\r\n\r\n---\r\n\r\n🙌 **A huge, heartfelt thank you to our community and early adopters** — your testing, feedback, bug reports, patience, and enthusiasm are what make FastFlowLM better every single day. We truly couldn’t do this without you.\r\n\r\n✨🎉🌠🎄  \r\n**Happy Holidays! Wishing you warmth, joy, and inspiration — and we can’t wait to keep building amazing AI together in the new year.**\r\n\r\n","2025-12-29T20:04:29",{"id":248,"version":249,"summary_zh":250,"released_at":251},343162,"v0.9.23","FastFlowLM **v0.9.23** introduces a **35% speed boost** for image understanding in vision-enabled Gemma models.\r\n\r\n---\r\n\r\n### ⚡ Vision Prefill Optimization\r\n\r\n**Models Improved:**\r\n- **`gemma3:4b`**  \r\n- **`medgemma:4b`**\r\n\r\n**What’s new:**\r\n- Reduced **Time to First Token (TTFT)** from **~4.5s → ~3.4s** for single-image cases (**35% speedup**).  \r\n- Noticeably faster responses in visual chat and medical imaging scenarios.\r\n\r\n---\r\n\r\n### 🛠️ FLM Runtime Improvements\r\n- Model downloads now print both the **total download size** and **per-file sizes** — thanks to @jeremyfowers for the suggestion!\r\n\r\n---\r\n\r\n### 🤖 Flm-Companion (Independent Project)\r\n\r\n**Flm-Companion**, created by @julienM77, is a modern GUI designed to complement FastFlowLM.  \r\nIt provides an intuitive way to run local models, monitor the server, and manage configurations.\r\n\r\n- Latest version: **v0.4.0**  \r\n- Changelog: https:\u002F\u002Fgithub.com\u002FjulienM77\u002FFlm-Companion\u002Freleases\r\n\r\n---\r\n\r\nThis release continues our push to accelerate on-device multimodal inference, especially for latency-sensitive workflows.\r\n","2025-12-11T16:52:35",{"id":253,"version":254,"summary_zh":255,"released_at":256},343163,"v0.9.22","FastFlowLM **v0.9.22** delivers decoding optimizations across the entire Qwen model family and adds more flexible server deployment options.\r\n\r\n---\r\n\r\n### ⚡ Decoding Acceleration: Qwen Series\r\n\r\nThis update brings decoding performance improvements to all models in Qwen3 family:\r\n\r\n- `qwen3:0.6b` (reasoning) reaching 80 tps\r\n- `qwen3:1.7b` (reasoning) reaching 43 tps\r\n- `qwen3:4b` (reasoning) reaching 21 tps\r\n- `qwen3:8b` (reasoning) reaching 12.5 tps\r\n- `deepseek-r1-0528:8b` (reasoning) reaching 12.5 tps  \r\n- `qwen3-it:4b` reaching 21 tps\r\n- `qwen3-tk:4b` (reasoning) reaching 21 tps\r\n- `qwen3vl-it:4b` (vison) reaching 21 tps\r\n\r\nExpect smoother token generation and reduced latency across all context lengths.\r\n\r\n---\r\n\r\n### 🌐 IP Binding for Serve Mode\r\n\r\nYou can now bind `flm serve` to a specific IP address:\r\n\r\n```bash\r\nflm serve --host 127.0.0.1\r\n```\r\n\r\nUse cases include:\r\n- Localhost-only testing\r\n- Binding to specific network interfaces\r\n- Secure multi-device deployments\r\n\r\n### 🤖 Flm-Compagnon (flm-manager)\r\n\r\nFlm Compagnon (flm-manager) is an independent project done by @julienM77 It’s intuitive, user-friendly, and we absolutely love it!\r\n\r\n**Brief:** Flm Compagnon is a modern GUI designed to accompany and manage the FastFlowLM (FLM) project. It offers a smooth user experience to interact with your local AI models, monitor the server, and manage your configurations.\r\n\r\nhttps:\u002F\u002Fgithub.com\u002FjulienM77\u002FFlm-Companion\r\n\r\n---\r\n\r\nThis release improves both backend speed and frontend deployment control.\r\n","2025-12-04T14:37:03",{"id":258,"version":259,"summary_zh":260,"released_at":261},343164,"v0.9.21","Happy Thanksgiving!  \r\n\r\nToday we’re dropping one of our biggest speed upgrades ever for LLaMA and DeepSeek models (our first batch of models) — just in time for the holiday break. Fire up your Ryzen™ AI NPU and enjoy some seriously boosted performance. 🔥\r\n\r\n---\r\n\r\n### 🔄 1. Quantization Upgrade\r\n- All models migrated from **AWQ** to **Q4_1**\r\n- Better LLM accuracy and quality.\r\n\r\n### ⚡ 2. Massive Decoding Speedup\r\n- `llama3.2:1b`: **~50% faster decoding, reaching 66 tps**\r\n- `llama3.2:3b`: **~40% faster decoding, reaching 28 tps**\r\n- `llama3.1:8b`: **~40% faster decoding, reaching 13 tps**\r\n- `deepseek-r1:8b`: **~40% faster decoding, reaching 13 tps**\r\n\r\n### 🚀 3. Prefill Phase Optimized\r\n- Slight improvements to **prefill speed** of all above, especially impactful for large context initializations.\r\n\r\n### 🎙️ 4. Standalone Whisper ASR Server\r\n\r\nYou can now serve **Whisper** (OpenAI’s ASR model) as a standalone model for speech transcription — or pair it with GPU LLMs in a hybrid pipeline.\r\n\r\nUse either:\r\n```powershell\r\nflm serve -a 1\r\n```\r\nor\r\n\r\n```powershell\r\nflm serve --asr 1\r\n```\r\n\r\n---\r\n\r\nThis release wraps up a bundle of performance gifts for LLaMA models on FastFlowLM.\r\n\r\nThank you for being part of the FastFlowLM journey — and happy Thanksgiving! 🦃🔥","2025-11-24T13:05:11",{"id":263,"version":264,"summary_zh":265,"released_at":266},343165,"v0.9.20","FastFlowLM **v0.9.20** introduces substantial performance improvements across multiple model families, with special focus on decoding efficiency.\r\n\r\n---\r\n\r\n### ⚡ Performance Improvements\r\n\r\n#### 🔸 1. GPT-OSS Models\r\n- Decoding speed of `gpt-oss:20b` and `gpt-oss-safeguard:20b` are reaching **~19 tokens\u002Fsec** and are over **60% faster** at **1K context length**.\r\n\r\n#### 🔸 2. Gemma3 Models\r\n- `gemma3:4b` reaching **~19 tokens\u002Fsec** and enjoys over **~20% decoding speed boost** at 1K context length.\r\n- `gemma3:1b` (reaching **~43 tokens\u002Fsec**)\r\n- `gemma3:270m` (reaching **~79 tokens\u002Fsec**; Note that this model is experimental)\r\n\r\n---\r\n\r\nThis release is focused on raw speed—making FastFlowLM even more efficient for both high-capacity and portable deployments.\r\n","2025-11-20T16:04:50"]