[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-bytedance--flux":3,"tool-bytedance--flux":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",160784,2,"2026-04-19T11:32:54",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":77,"owner_website":78,"owner_url":79,"languages":80,"stars":114,"forks":115,"last_commit_at":116,"license":117,"difficulty_score":118,"env_os":119,"env_gpu":120,"env_ram":121,"env_deps":122,"category_tags":132,"github_topics":133,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":138,"updated_at":139,"faqs":140,"releases":169},9609,"bytedance\u002Fflux","flux","A fast communication-overlapping library for tensor\u002Fexpert parallelism on GPUs.","Flux 是由字节跳动 Seed 团队开源的一款高性能 GPU 内核库，专为密集模型和混合专家（MoE）模型设计。它的核心使命是在大规模模型训练与推理中，通过细粒度的“计算 - 通信重叠”技术，显著提升张量并行和专家并行的效率。\n\n在深度学习领域，随着模型参数量激增，多卡之间的通信往往成为制约速度的瓶颈，导致昂贵的 GPU 算力因等待数据传输而闲置。Flux 正是为了解决这一痛点而生，它允许数据通信与数学计算同时进行，从而最大化硬件利用率，大幅缩短任务耗时。\n\n这款工具主要面向 AI 基础设施开发者、大模型研究人员以及需要优化分布式训练性能的工程师。Flux 的独特亮点在于其高度兼容性与易用性：它不仅支持从 Ampere 到 Hopper 等多种 NVIDIA GPU 架构及不同数据类型，还能以插件形式无缝集成到现有的 PyTorch 框架中。此外，针对复杂的 MoE 架构，Flux 提供了基于 NVSHMEM 优化的专用内核，并推出了名为 COMET 的进阶方案，进一步释放了稀疏模型的潜力。无论是从零构建训练系统，还是在现有流程中进行性能调优，Flux 都是一个值得尝试的高效选择。","\u003Cdiv align=\"center\">\n 👋 Hi, everyone!\n    \u003Cbr>\n    We are \u003Cb>ByteDance Seed team.\u003C\u002Fb>\n\u003C\u002Fdiv>\n\n\u003Cp align=\"center\">\n  You can get to know us better through the following channels👇\n  \u003Cbr>\n  \u003Ca href=\"https:\u002F\u002Fteam.doubao.com\u002F\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWebsite-%231e37ff?style=for-the-badge&logo=bytedance&logoColor=white\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F93481cda-a7f3-47f3-b333-fe6b3da86b78\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWeChat-07C160?style=for-the-badge&logo=wechat&logoColor=white\">\u003C\u002Fa>\n \u003Ca href=\"https:\u002F\u002Fwww.xiaohongshu.com\u002Fuser\u002Fprofile\u002F668e7e15000000000303157d?xsec_token=ABl2-aqekpytY6A8TuxjrwnZskU-6BsMRE_ufQQaSAvjc%3D&xsec_source=pc_search\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FXiaohongshu-%23FF2442?style=for-the-badge&logo=xiaohongshu&logoColor=white\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fwww.zhihu.com\u002Forg\u002Fdou-bao-da-mo-xing-tuan-dui\u002F\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fzhihu-%230084FF?style=for-the-badge&logo=zhihu&logoColor=white\">\u003C\u002Fa>\n\u003C\u002Fp>\n\n![seed logo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbytedance_flux_readme_6a0d1d7b7f37.png)\n\n# Flux: Fine-grained Computation-communication Overlapping GPU Kernel Library\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FFlux-Project Page-yellow\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.19811\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FFlux-Tech Report-red\">\u003C\u002Fa>\n  \u003Ca href=\"XXX\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache-blue\">\u003C\u002Fa>\n  \u003Cbr>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fd3fcb3bf-466b-4efe-8c3f-5f85258202ae\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FFlux-Wechat Communication Group-07C160\">\u003C\u002Fa>\n\n\u003C\u002Fp>\n\nFlux is a communication-overlapping library for dense\u002FMoE models on GPUs, providing high-performance and pluggable kernels to support various parallelisms in model training\u002Finference.\n\nFlux's efficient kernels are compatible with Pytorch and can be integrated into existing frameworks easily, supporting various Nvidia GPU architectures and data types.\n\n# News\n[2025\u002F03\u002F10]🔥We have released **COMET: Computation-communication Overlapping for Mixture-of-Experts**.\n\n\n## Getting started\nInstall Flux either from source or from PyPI.\n\n### Install from Source\n```bash\ngit clone --recursive https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux.git && cd flux\n\n# For Ampere(sm80) GPU\n.\u002Fbuild.sh --arch 80 --nvshmem\n# For Ada Lovelace(sm89) GPU\n.\u002Fbuild.sh --arch 89 --nvshmem\n# For Hopper(sm90) GPU\n.\u002Fbuild.sh --arch 90 --nvshmem\n```\n\n#### Install in a virtual environment\nHere is a snippet to install Flux in a virtual environment. Let's finish the installation in an virtual environment with CUDA 12.4, torch 2.6.0 and python 3.11.\n\n```bash\nconda create -n flux python=3.11\nconda activate flux\npip3 install packaging\npip3 install ninja\npip3 install torch==2.6.0 torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu124\n\n.\u002Fbuild.sh --clean-all\n.\u002Fbuild.sh --arch \"80;89;90\" --nvshmem --package\n```\n\nThen you would expect a wheel package under `dist\u002F` folder that is suitable for your virtual environment.\n\n### Install from PyPI\nWe also provide some pre-built wheels for Flux, and you can directly install with pip if your wanted version is available. Currently we provide wheels for the following configurations: torch(2.4.0, 2.5.0, 2.6.0), python(3.10, 3.11), cuda(12.4).\n\n```bash\n# Make sure that PyTorch is installed.\npip install byte-flux\n```\n\n### Customized Installation\n#### Build options for source installation\n\n1. Add `--nvshmem` to build Flux with NVSHMEM support. It is essential for the MoE kernels.\n2. If you are tired of the cmake process, you can set environment variable `FLUX_BUILD_SKIP_CMAKE` to 1 to skip cmake if `build\u002FCMakeCache.txt` already exists.\n3. If you want to build a wheel package, add `--package` to the build command. find the output wheel file under dist\u002F\n\n\n#### Dependencies\nFlux depends on `NCCL` and `CUTLASS`, which are located under `3rdparty\u002F`, and `NVSHMEM`, which you can install by pip.\n1. NCCL: Managed by git submodule automatically.\n2. NVSHMEM: It's suggested that you install nvshmem by `pip install nvidia-nvshmem-cu12`; If you want to build nvshmem from source, you can download it from https:\u002F\u002Fdeveloper.nvidia.com\u002Fnvshmem. Flux is tested with nvshmem 3.2.5\u002F3.3.9\n3. CUTLASS: Flux leverages CUTLASS to generate high-performance GEMM kernels. We currently use CUTLASS 4.0.0\n\n\n## Quick Start\n\nBelow are commands to run some basic demos once you have installed Flux successfully.\n```bash\n# gemm only\npython3 test\u002Fpython\u002Fgemm_only\u002Ftest_gemm_only.py 4096 12288 6144 --dtype=float16\n\n# all-gather fused with gemm (dense MLP layer0)\n.\u002Flaunch.sh test\u002Fpython\u002Fag_gemm\u002Ftest_ag_kernel.py 4096 49152 12288 --dtype=float16 --iters=10\n\n# gemm fused with reduce-scatter (dense MLP layer1)\n.\u002Flaunch.sh test\u002Fpython\u002Fgemm_rs\u002Ftest_gemm_rs.py 4096 12288 49152 --dtype=float16 --iters=10\n\n# all-gather fused with grouped gemm (MoE MLP layer0)\n.\u002Flaunch.sh test\u002Fpython\u002Fmoe_ag_scatter\u002Ftest_moe_ag.py\n\n# grouped gemm fused with reduce-scatter (MoE MLP layer1)\n.\u002Flaunch.sh test\u002Fpython\u002Fmoe_gather_rs\u002Ftest_moe_gather_rs.py\n```\n\nYou can check out the documentations for more details!\n\n* For a more detailed usage on MoE kernels, please refer to [Flux MoE Usage](https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fblob\u002Fmain\u002Fdocs\u002Fmoe_usage.md). Try some [examples](https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fblob\u002Fmain\u002Fexamples) as a quick start. A [minimal MoE layer](https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fblob\u002Fmain\u002Fexamples\u002Fmoe_flux_only.py) can be implemented within only a few tens of lines of code using Flux!\n* For some performance numbers, please refer to [Performance Doc](https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fblob\u002Fmain\u002Fdocs\u002Fperformance.md).\n* To learn more about the design principles of Flux, please refer to [Design Doc](https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fblob\u002Fmain\u002Fdocs\u002Fdesign.md).\n\n\n## [License](.\u002FLICENSE)\n\nThe Flux Project is under the Apache License v2.0.\n\n## Citation\n\nIf you use Flux in a scientific publication, we encourage you to add the following reference\nto the related papers:\n```\n@misc{chang2024flux,\n      title={FLUX: Fast Software-based Communication Overlap On GPUs Through Kernel Fusion},\n      author={Li-Wen Chang and Wenlei Bao and Qi Hou and Chengquan Jiang and Ningxin Zheng and Yinmin Zhong and Xuanrun Zhang and Zuquan Song and Ziheng Jiang and Haibin Lin and Xin Jin and Xin Liu},\n      year={2024},\n      eprint={2406.06858},\n      archivePrefix={arXiv},\n      primaryClass={cs.LG}\n}\n\n@misc{zhang2025comet,\n      title={Comet: Fine-grained Computation-communication Overlapping for Mixture-of-Experts},\n      author={Shulai Zhang, Ningxin Zheng, Haibin Lin, Ziheng Jiang, Wenlei Bao, Chengquan Jiang, Qi Hou, Weihao Cui, Size Zheng, Li-Wen Chang, Quan Chen and Xin Liu},\n      year={2025},\n      eprint={2502.19811},\n      archivePrefix={arXiv},\n      primaryClass={cs.DC}\n}\n\n```\n\n## Reference\n\n* [ArXiv Paper (Flux)](http:\u002F\u002Farxiv.org\u002Fabs\u002F2406.06858)\n* [ArXiv Paper (Comet)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.19811)\n\n\n# About [ByteDance Seed Team](https:\u002F\u002Fteam.doubao.com\u002F)\n\nFounded in 2023, ByteDance Seed Team is dedicated to crafting the industry's most advanced AI foundation models. The team aspires to become a world-class research team and make significant contributions to the advancement of science and society.\n","\u003Cdiv align=\"center\">\n 👋 大家好！\n    \u003Cbr>\n    我们是\u003Cb>字节跳动 Seed 团队。\u003C\u002Fb>\n\u003C\u002Fdiv>\n\n\u003Cp align=\"center\">\n  您可以通过以下渠道进一步了解我们👇\n  \u003Cbr>\n  \u003Ca href=\"https:\u002F\u002Fteam.doubao.com\u002F\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWebsite-%231e37ff?style=for-the-badge&logo=bytedance&logoColor=white\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F93481cda-a7f3-47f3-b333-fe6b3da86b78\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWeChat-07C160?style=for-the-badge&logo=wechat&logoColor=white\">\u003C\u002Fa>\n \u003Ca href=\"https:\u002F\u002Fwww.xiaohongshu.com\u002Fuser\u002Fprofile\u002F668e7e15000000000303157d?xsec_token=ABl2-aqekpytY6A8TuxjrwnZskU-6BsMRE_ufQQaSAvjc%3D&xsec_source=pc_search\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FXiaohongshu-%23FF2442?style=for-the-badge&logo=xiaohongshu&logoColor=white\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fwww.zhihu.com\u002Forg\u002Fdou-bao-da-mo-xing-tuan-dui\u002F\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fzhihu-%230084FF?style=for-the-badge&logo=zhihu&logoColor=white\">\u003C\u002Fa>\n\u003C\u002Fp>\n\n![seed logo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbytedance_flux_readme_6a0d1d7b7f37.png)\n\n# Flux：细粒度计算-通信重叠的 GPU 内核库\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FFlux-项目页面-yellow\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.19811\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FFlux-技术报告-red\">\u003C\u002Fa>\n  \u003Ca href=\"XXX\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F许可证-Apache-blue\">\u003C\u002Fa>\n  \u003Cbr>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fd3fcb3bf-466b-4efe-8c3f-5f85258202ae\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FFlux-微信交流群-07C160\">\u003C\u002Fa>\n\n\u003C\u002Fp>\n\nFlux 是一个用于 GPU 上密集模型和 MoE 模型的通信重叠库，提供高性能、可插拔的内核，以支持模型训练和推理中的各种并行策略。\n\nFlux 的高效内核与 PyTorch 兼容，可以轻松集成到现有框架中，支持多种 NVIDIA GPU 架构和数据类型。\n\n# 新闻\n[2025\u002F03\u002F10]🔥我们发布了 **COMET：面向专家混合模型的计算-通信重叠**。\n\n\n## 快速入门\n您可以从源代码或 PyPI 安装 Flux。\n\n### 从源代码安装\n```bash\ngit clone --recursive https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux.git && cd flux\n\n# 对于 Ampere (sm80) GPU\n.\u002Fbuild.sh --arch 80 --nvshmem\n# 对于 Ada Lovelace (sm89) GPU\n.\u002Fbuild.sh --arch 89 --nvshmem\n# 对于 Hopper (sm90) GPU\n.\u002Fbuild.sh --arch 90 --nvshmem\n```\n\n#### 在虚拟环境中安装\n以下是在虚拟环境中安装 Flux 的示例。让我们在一个配备 CUDA 12.4、torch 2.6.0 和 python 3.11 的虚拟环境中完成安装。\n\n```bash\nconda create -n flux python=3.11\nconda activate flux\npip3 install packaging\npip3 install ninja\npip3 install torch==2.6.0 torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu124\n\n.\u002Fbuild.sh --clean-all\n.\u002Fbuild.sh --arch \"80;89;90\" --nvshmem --package\n```\n\n随后，您将在 `dist\u002F` 文件夹下找到适合您的虚拟环境的 wheel 包。\n\n### 从 PyPI 安装\n我们还提供了 Flux 的预构建 wheel 包，如果所需的版本可用，您可以直接使用 pip 进行安装。目前我们为以下配置提供了 wheel 包：torch（2.4.0、2.5.0、2.6.0）、python（3.10、3.11）、cuda（12.4）。\n\n```bash\n# 确保已安装 PyTorch。\npip install byte-flux\n```\n\n### 自定义安装\n#### 源码安装的构建选项\n\n1. 添加 `--nvshmem` 以构建支持 NVSHMEM 的 Flux。这对于 MoE 内核至关重要。\n2. 如果您对 cmake 流程感到厌倦，可以将环境变量 `FLUX_BUILD_SKIP_CMAKE` 设置为 1，以跳过 cmake，前提是 `build\u002FCMakeCache.txt` 已存在。\n3. 如果您想构建 wheel 包，请在构建命令中添加 `--package`。生成的 wheel 文件将位于 `dist\u002F` 目录下。\n\n\n#### 依赖项\nFlux 依赖于 `NCCL` 和 `CUTLASS`，它们位于 `3rdparty\u002F` 目录下，以及 `NVSHMEM`，后者可以通过 pip 安装。\n1. NCCL：由 git submodule 自动管理。\n2. NVSHMEM：建议您通过 `pip install nvidia-nvshmem-cu12` 安装 nvshmem；如果您想从源代码构建 nvshmem，可以从 https:\u002F\u002Fdeveloper.nvidia.com\u002Fnvshmem 下载。Flux 已在 nvshmem 3.2.5\u002F3.3.9 上进行了测试。\n3. CUTLASS：Flux 利用 CUTLASS 生成高性能 GEMM 内核。我们目前使用 CUTLASS 4.0.0。\n\n\n## 快速开始\n\n以下是成功安装 Flux 后运行一些基本演示的命令。\n```bash\n# 仅 GEMM\npython3 test\u002Fpython\u002Fgemm_only\u002Ftest_gemm_only.py 4096 12288 6144 --dtype=float16\n\n# 全归约与 GEMM 融合（密集 MLP 第 0 层）\n.\u002Flaunch.sh test\u002Fpython\u002Fag_gemm\u002Ftest_ag_kernel.py 4096 49152 12288 --dtype=float16 --iters=10\n\n# GEMM 与规约-散射融合（密集 MLP 第 1 层）\n.\u002Flaunch.sh test\u002Fpython\u002Fgemm_rs\u002Ftest_gemm_rs.py 4096 12288 49152 --dtype=float16 --iters=10\n\n# 全归约与分组 GEMM 融合（MoE MLP 第 0 层）\n.\u002Flaunch.sh test\u002Fpython\u002Fmoe_ag_scatter\u002Ftest_moe_ag.py\n\n# 分组 GEMM 与规约-散射融合（MoE MLP 第 1 层）\n.\u002Flaunch.sh test\u002Fpython\u002Fmoe_gather_rs\u002Ftest_moe_gather_rs.py\n```\n\n您还可以查阅文档以获取更多详细信息！\n\n* 关于 MoE 内核的更详细用法，请参阅 [Flux MoE 使用指南](https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fblob\u002Fmain\u002Fdocs\u002Fmoe_usage.md)。您可以尝试一些 [示例](https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fblob\u002Fmain\u002Fexamples) 作为快速入门。使用 Flux，只需几十行代码即可实现一个 [最小化 MoE 层](https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fblob\u002Fmain\u002Fexamples\u002Fmoe_flux_only.py)！\n* 如需查看性能数据，请参阅 [性能文档](https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fblob\u002Fmain\u002Fdocs\u002Fperformance.md)。\n* 若要深入了解 Flux 的设计原则，请参阅 [设计文档](https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fblob\u002Fmain\u002Fdocs\u002Fdesign.md)。\n\n\n## [许可证](.\u002FLICENSE)\n\nFlux 项目采用 Apache License v2.0 许可证。\n\n## 引用\n\n如果您在科学出版物中使用 Flux，我们鼓励您在相关论文中添加以下参考文献：\n```\n@misc{chang2024flux,\n      title={FLUX：通过内核融合实现 GPU 上快速软件级通信重叠},\n      author={Li-Wen Chang、Wenlei Bao、Qi Hou、Chengquan Jiang、Ningxin Zheng、Yinmin Zhong、Xuanrun Zhang、Zuquan Song、Ziheng Jiang、Haibin Lin、Xin Jin、Xin Liu},\n      year={2024},\n      eprint={2406.06858},\n      archivePrefix={arXiv},\n      primaryClass={cs.LG}\n}\n\n@misc{zhang2025comet,\n      title={Comet：面向专家混合模型的细粒度计算-通信重叠},\n      author={Shulai Zhang、Ningxin Zheng、Haibin Lin、Ziheng Jiang、Wenlei Bao、Chengquan Jiang、Qi Hou、Weihao Cui、Size Zheng、Li-Wen Chang、Quan Chen 和 Xin Liu},\n      year={2025},\n      eprint={2502.19811},\n      archivePrefix={arXiv},\n      primaryClass={cs.DC}\n}\n\n```\n\n## 参考资料\n\n* [ArXiv 论文（Flux）](http:\u002F\u002Farxiv.org\u002Fabs\u002F2406.06858)\n* [ArXiv 论文（Comet）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.19811)\n\n\n# 关于[字节跳动 Seed 团队](https:\u002F\u002Fteam.doubao.com\u002F)\n\n字节跳动 Seed 团队成立于 2023 年，致力于打造业界最先进的人工智能基础模型。团队立志成为世界一流的研究团队，为科学与社会的进步作出重大贡献。","# Flux 快速上手指南\n\nFlux 是由字节跳动 Seed 团队开源的高性能 GPU 内核库，专为密集模型（Dense）和混合专家模型（MoE）设计。它通过细粒度的计算 - 通信重叠技术，显著提升模型训练和推理的并行效率，并兼容 PyTorch 生态。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux\n*   **GPU 架构**: 支持 NVIDIA Ampere (sm80), Ada Lovelace (sm89), 或 Hopper (sm90) 架构。\n*   **软件依赖**:\n    *   Python 3.10 或 3.11\n    *   CUDA 12.4 (推荐)\n    *   PyTorch 2.4.0 \u002F 2.5.0 \u002F 2.6.0\n    *   CMake, Ninja\n*   **核心依赖库**:\n    *   **NCCL**: 自动通过 git submodule 管理。\n    *   **CUTLASS**: Flux 使用 CUTLASS 4.0.0 生成高性能 GEMM 内核。\n    *   **NVSHMEM**: MoE 内核必需。建议通过 pip 安装：\n        ```bash\n        pip install nvidia-nvshmem-cu12\n        ```\n\n## 安装步骤\n\n您可以选择从源码编译或使用预构建的 Wheel 包进行安装。\n\n### 方式一：从 PyPI 安装（推荐）\n\n如果您使用的 PyTorch 和 Python 版本在支持列表中（torch 2.4.0-2.6.0, python 3.10-3.11, cuda 12.4），可直接使用 pip 安装：\n\n```bash\n# 确保已安装 PyTorch\npip install byte-flux\n```\n\n### 方式二：从源码编译\n\n如果需要自定义架构支持或使用最新代码，请从源码编译。\n\n1.  **克隆仓库**\n    ```bash\n    git clone --recursive https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux.git && cd flux\n    ```\n\n2.  **执行编译**\n    根据您的 GPU 架构选择对应的编译命令（需添加 `--nvshmem` 以支持 MoE）：\n\n    ```bash\n    # 对于 Ampere (sm80) GPU\n    .\u002Fbuild.sh --arch 80 --nvshmem\n\n    # 对于 Ada Lovelace (sm89) GPU\n    .\u002Fbuild.sh --arch 89 --nvshmem\n\n    # 对于 Hopper (sm90) GPU\n    .\u002Fbuild.sh --arch 90 --nvshmem\n    ```\n\n    > **提示**: 若需在虚拟环境中构建 Wheel 包，可先配置好 conda 环境（如 Python 3.11 + Torch 2.6.0 + CUDA 12.4），然后运行：\n    > ```bash\n    > .\u002Fbuild.sh --clean-all\n    > .\u002Fbuild.sh --arch \"80;89;90\" --nvshmem --package\n    > ```\n    > 生成的 `.whl` 文件将位于 `dist\u002F` 目录下。\n\n## 基本使用\n\n安装完成后，您可以运行官方提供的测试脚本来验证功能并体验基础算子。以下是最简单的使用示例：\n\n### 1. 基础 GEMM 测试\n仅测试矩阵乘法内核：\n```bash\npython3 test\u002Fpython\u002Fgemm_only\u002Ftest_gemm_only.py 4096 12288 6144 --dtype=float16\n```\n\n### 2. 密集模型算子测试\n测试 All-Gather 与 GEMM 融合（对应 Dense MLP 第 0 层）：\n```bash\n.\u002Flaunch.sh test\u002Fpython\u002Fag_gemm\u002Ftest_ag_kernel.py 4096 49152 12288 --dtype=float16 --iters=10\n```\n\n测试 GEMM 与 Reduce-Scatter 融合（对应 Dense MLP 第 1 层）：\n```bash\n.\u002Flaunch.sh test\u002Fpython\u002Fgemm_rs\u002Ftest_gemm_rs.py 4096 12288 49152 --dtype=float16 --iters=10\n```\n\n### 3. MoE 模型算子测试\n测试 All-Gather 与 Grouped GEMM 融合（对应 MoE MLP 第 0 层）：\n```bash\n.\u002Flaunch.sh test\u002Fpython\u002Fmoe_ag_scatter\u002Ftest_moe_ag.py\n```\n\n测试 Grouped GEMM 与 Reduce-Scatter 融合（对应 MoE MLP 第 1 层）：\n```bash\n.\u002Flaunch.sh test\u002Fpython\u002Fmoe_gather_rs\u002Ftest_moe_gather_rs.py\n```\n\n> **进阶使用**: 如需在项目中集成 MoE 层，可参考 `examples\u002Fmoe_flux_only.py`，仅需数十行代码即可实现一个最小化的 MoE 层。详细文档请参阅项目仓库中的 `docs\u002F` 目录。","某大型 AI 实验室团队正在基于混合专家模型（MoE）训练千亿参数大语言模型，面临多卡并行训练效率瓶颈。\n\n### 没有 flux 时\n- **计算资源闲置严重**：在张量并行或专家并行过程中，GPU 必须等待通信完成才能开始下一轮计算，导致昂贵的算力大量空转。\n- **训练吞吐量低下**：由于通信与计算串行执行，整体迭代速度受限于网络带宽，无法跑满高性能 GPU 的理论峰值。\n- **扩展性遭遇天花板**：随着增加 GPU 数量，通信开销占比急剧上升，线性加速比难以维持，集群规模越大效率越低。\n- **内核适配成本高**：若要手动优化通信重叠逻辑，需深入底层 CUDA 编程，开发周期长且难以兼容不同架构的 Nvidia GPU。\n\n### 使用 flux 后\n- **实现细粒度重叠**：flux 提供的高性能算子将通信任务拆解，使其与计算任务并行执行，彻底消除了等待间隙。\n- **显著提升吞吐量**：在 MoE 场景下，通过隐藏通信延迟，模型训练的整体 tokens\u002Fsec 指标获得大幅提升。\n- **线性扩展更优异**：即使在大规集群中，flux 也能有效抑制通信开销的增长，让增加显卡数能带来实打实的速度提升。\n- **无缝集成现有框架**：flux 原生兼容 PyTorch，团队无需重写代码，仅需替换少量算子即可在 Ampere 到 Hopper 架构上生效。\n\nflux 通过极致的通信 - 计算重叠技术，将原本被网络延迟浪费的 GPU 算力转化为实实在在的模型训练速度。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbytedance_flux_d08a6e2d.png","bytedance","Bytedance Inc.","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fbytedance_7fee2b15.png","",null,"ByteDanceOSS","https:\u002F\u002Fopensource.bytedance.com","https:\u002F\u002Fgithub.com\u002Fbytedance",[81,85,89,93,97,101,105,108,112],{"name":82,"color":83,"percentage":84},"C++","#f34b7d",56.9,{"name":86,"color":87,"percentage":88},"Cuda","#3A4E3A",22.1,{"name":90,"color":91,"percentage":92},"Python","#3572A5",19.6,{"name":94,"color":95,"percentage":96},"CMake","#DA3434",0.8,{"name":98,"color":99,"percentage":100},"Shell","#89e051",0.3,{"name":102,"color":103,"percentage":104},"C","#555555",0.1,{"name":106,"color":107,"percentage":104},"LLVM","#185619",{"name":109,"color":110,"percentage":111},"Dockerfile","#384d54",0,{"name":113,"color":76,"percentage":111},"Linker Script",1291,100,"2026-04-17T20:05:41","Apache-2.0",4,"Linux","必需 NVIDIA GPU，支持 Ampere (sm80), Ada Lovelace (sm89), Hopper (sm90) 架构；需安装 CUDA 12.4；MoE 内核需要 NVSHMEM 支持","未说明",{"notes":123,"python":124,"dependencies":125},"该工具主要用于密集模型和 MoE（混合专家）模型的通信 - 计算重叠优化。构建时可通过 --arch 指定显卡架构（80\u002F89\u002F90）。若使用 MoE 功能，必须添加 --nvshmem 参数进行构建。官方推荐使用 Python 3.11 + CUDA 12.4 + PyTorch 2.6.0 的环境进行测试和构建。","3.10, 3.11",[126,127,128,129,130,131],"torch==2.4.0\u002F2.5.0\u002F2.6.0","nvidia-nvshmem-cu12 (版本 3.2.5 或 3.3.9)","NCCL (通过 git submodule 管理)","CUTLASS 4.0.0","packaging","ninja",[14],[134,135,136,137],"cutlass","pytorch","cuda","gpu","2026-03-27T02:49:30.150509","2026-04-20T04:07:13.421185",[141,146,150,155,160,164],{"id":142,"question_zh":143,"answer_zh":144,"source_url":145},43120,"在使用 GemmGroupedV2AGScatterOp 时遇到 'device not match' 错误（指定设备 cuda:2 与数据设备 cuda:0 不匹配），如何解决？","该错误通常发生在将 Flux 集成到其他训练框架（如 Megatron）时，由于 TP_GROUP 或设备上下文未正确初始化导致。解决方案包括：\n1. 确保在初始化 flux 操作前，正确设置了 torch.distributed 进程组。\n2. 检查 `flux.init_flux_shm(TP_GROUP)` 是否在创建算子之前被调用。\n3. 确认传入算子的张量数据所在的 CUDA 设备与当前进程绑定的设备一致（使用 `torch.cuda.set_device`）。\n4. 如果是多机多卡环境（如 16 卡或 64 卡），需明确区分 world_size、tp_size 和 ep_size。Flux 代码中这三者强耦合，需满足 `tp_size * ep_size == world_size`。建议参考官方 moe_flux_only.py 脚本中的初始化逻辑，确保 TP_GROUP 和 EP_GROUP 正确划分。","https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fissues\u002F71",{"id":147,"question_zh":148,"answer_zh":149,"source_url":145},43121,"如何在多于 8 张卡（如 16 或 64 卡）的环境中设置 TP_GROUP 并调整 TP 和 EP 的大小以训练 DeepSeekV3？","在 Flux 的当前实现中，world_size、tp_size 和 ep_size 是强耦合的，必须满足约束条件：`tp_world_size * ep_world_size == world_size`。\n- 对于 16 卡环境，可行的组合包括：tp_size=2, ep_size=8；或 tp_size=4, ep_size=4 等。\n- 设置方法：通过环境变量 `RANK` 和 `WORLD_SIZE` 启动进程，然后在代码中使用 `torch.distributed.new_group` 创建对应的 TP 和 EP 进程组。\n- 示例逻辑：\n  ```python\n  TP_GROUP = torch.distributed.new_group(ranks=tp_ranks)\n  EP_GROUP = torch.distributed.new_group(ranks=ep_ranks)\n  tp_env = flux.DistEnvTPWithEP(tp_group=TP_GROUP, nnodes=1, ep_group=EP_GROUP)\n  ```\n  请确保传递给 `GemmGroupedV3AGScatter` 等算子的 `tp_env` 包含正确的进程组信息，否则会导致运行时检查失败。",{"id":151,"question_zh":152,"answer_zh":153,"source_url":154},43122,"GEMM + RS 在 8xH100s 上性能低于基线，可能的原因及排查步骤是什么？","如果在 8xH100s 上使用 Flux 进行 GEMM + RS 操作时性能不如预期（例如低于原生 torch.mm + all_gather），请按以下步骤排查：\n1. **确认测试环境**：确保 CUDA 版本（推荐 12.4+）、PyTorch 版本（2.6.0+）及驱动匹配。\n2. **检查 Shape 配置**：针对 Llama3-70B 等模型，确认 M、N、K 维度设置是否符合优化范围。例如 MLP2 + RS 场景中 N=8192, K=28672，M 从 1024 到 32768 变化。\n3. **数据类型**：确认是否使用了支持的 dtype（如 bfloat16 或 float16），并在代码中禁用 tf32 (`torch.backends.cuda.matmul.allow_tf32 = False`) 以保证精度和一致性。\n4. **复现脚本**：使用官方提供的 tuning 脚本，设置 `M_VALUES`, `N`, `K`, `DTYPE` 等参数进行基准测试。\n5. **对比基线**：分别运行 `flux.AGKernel` 和 `torch.distributed.all_gather_into_tensor` + `torch.mm`，对比耗时和显存占用。\n若问题依旧，建议提供具体的复现代码和日志给维护者进一步分析。","https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fissues\u002F90",{"id":156,"question_zh":157,"answer_zh":158,"source_url":159},43123,"flux.AGKernel 在某些特定 Problem Shapes 下计算结果不正确，与原生 AllGather + GEMM 不一致，如何解决？","这是一个已知的 Bug，特定形状下 `flux.AGKernel`  fused 算子可能产生数值误差。解决方法如下：\n1. **更新代码**：确保使用的是最新版本的 Flux 代码库，维护者已在后续提交中修复了部分形状下的计算逻辑。\n2. **验证修复**：重新构建 wheel (`bash build.sh --arch 80 --package`) 并安装，然后运行复现脚本对比 `ag_gemm_output` 与 `torch.mm(all_gather(a), b)` 的结果。\n3. **临时规避**：如果无法立即升级，建议在检测到特定形状（如某些非对齐的 M\u002FN\u002FK 组合）时回退到原生的 `all_gather` + `mm` 组合，虽然性能稍低但能保证数值正确性。\n4. **参数检查**：确认 `transpose_weight` 和 `local_copy` 参数设置是否与权重布局匹配，错误的转置设置也会导致结果偏差。","https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fissues\u002F17",{"id":161,"question_zh":162,"answer_zh":163,"source_url":159},43124,"如何正确构建和安装 Flux 以适配不同的 GPU 架构（如 A100 或 H100）？","构建 Flux 时需根据目标 GPU 架构指定编译参数：\n- **A100 (Compute Capability 80)**: 使用命令 `bash build.sh --arch 80 --package`。\n- **H100 (Compute Capability 90)**: 使用命令 `bash build.sh --arch 90 --package`。\n构建完成后，会生成 `.whl` 文件，使用 `pip install dist\u002F*.whl` 进行安装。\n注意：\n1. 确保宿主机安装了匹配的 CUDA Toolkit（如 CUDA 12.4 或 12.5）。\n2. 如果使用多架构支持，可能需要多次构建或在 CMake 中指定多个 arch。\n3. 安装后导入 `import flux` 若无报错，且能成功初始化 `flux.init_flux_shm`，则说明安装成功。",{"id":165,"question_zh":166,"answer_zh":167,"source_url":168},43125,"在运行 Flux 分布式测试时遇到 'RuntimeError: Could not retrieve or create the backend 2 for device type cuda' 错误，怎么办？","该错误通常表明 NCCL 后端初始化失败，常见于多卡分布式环境配置不当。解决步骤：\n1. **检查 NCCL 环境变量**：设置 `NCCL_DEBUG=INFO` 查看详细初始化日志，定位具体失败原因（如网卡绑定、防火墙阻挡等）。\n2. **确认进程组初始化**：确保在调用任何 Flux 算子前，已正确执行 `torch.distributed.init_process_group(backend='nccl', ...)`。\n3. **网络配置**：在多机环境下，确保所有节点间网络互通，且 `NCCL_SOCKET_IFNAME` 指向正确的网卡接口（如 `eth0` 或 `ib0`）。\n4. **超时设置**：增加初始化超时时间，例如 `timeout=datetime.timedelta(seconds=1800)`，防止因同步慢导致失败。\n5. **单卡测试**：先在单卡模式下运行 `test_gemm` 脚本排除代码逻辑问题，再扩展到多卡。","https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fissues\u002F11",[170,175,180,185],{"id":171,"version":172,"summary_zh":173,"released_at":174},342816,"v1.0.4","支持 torch2.5","2024-10-30T02:33:14",{"id":176,"version":177,"summary_zh":178,"released_at":179},342817,"v1.0.3","v1.0.3\n支持 Flux 的 PyTorch 2.4。","2024-09-18T02:48:22",{"id":181,"version":182,"summary_zh":183,"released_at":184},342818,"v1.0.2","## 变更内容\n* @liwenchangbdbz 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F1 中添加了 issue 模板\n* @liwenchangbdbz 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F2 中添加了 cutlass 子模块及补丁\n* @zheng-ningxin 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F3 中实现了 SM80 上的 All gather 和 reduce scatter\n* @wenlei-bao 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F4 中重新组织并去重了文件\n* @wenlei-bao 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F5 中添加了 arXiv 论文链接\n* @wenlei-bao 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F6 中更新了 BibTex\n* @zheng-ningxin 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F9 中支持了 IPC && SM90 版本的 AG-GEMM 和 GEMM-RS\n* @zheng-ningxin 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F12 中修复了 _allgather_base 后端问题（issue11）\n* @houqi 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F13 中将 c10::intrusive_ptr\u003Cc10d::ProcessGroup> 作为 Python 的参数\n* @zheng-ningxin 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F15 中为时间估算增加了更多设备类型\n* @zheng-ningxin 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F16 中更新了 README.md\n* @zheng-ningxin 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F18 中将所有已分配的共享内存缓冲区清零\n* @zheng-ningxin 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F19 中修复了 all-gather gemm 的调优问题，并将 reset-signal() 移至前向关键路径\n* @zheng-ningxin 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F21 中针对 llama-8b 调整了 AG 性能\n* @tlrmchlsmth 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F22 中移除了 gemm_rs_80.py 中的 pynvshmem 导入\n* @zheng-ningxin 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F23 中支持了 sm80 上 gemm-rs 内核的性能调优\n* @zheng-ningxin 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F24 中在 whl 文件名中添加了 PyTorch 版本\n\n## 新贡献者\n* @liwenchangbdbz 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F1 中做出了首次贡献\n* @zheng-ningxin 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F3 中做出了首次贡献\n* @wenlei-bao 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F4 中做出了首次贡献\n* @houqi 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F13 中做出了首次贡献\n* @tlrmchlsmth 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F22 中做出了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fcommits\u002Fv1.0.2","2024-07-25T02:53:48",{"id":186,"version":187,"summary_zh":188,"released_at":189},342819,"v1.0.0","## 变更内容\n* 由 @liwenchangbdbz 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F1 中添加了 issue 模板\n* 由 @liwenchangbdbz 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F2 中添加了 cutlass 子模块及补丁\n* 由 @zheng-ningxin 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F3 中实现了 SM80 上的 all gather 和 reduce scatter\n* 由 @wenlei-bao 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F4 中重新组织并去重了文件\n* 由 @wenlei-bao 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F5 中添加了 arXiv 论文链接\n* 由 @wenlei-bao 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F6 中更新了 BibTex\n* 由 @zheng-ningxin 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F9 中支持了 IPC && SM90 版本的 AG-GEMM 和 GEMM-RS\n* 由 @zheng-ningxin 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F12 中修复了 _allgather_base 后端问题（issue11）\n* 由 @houqi 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F13 中将 c10::intrusive_ptr\u003Cc10d::ProcessGroup> 作为 Python 参数使用\n* 由 @zheng-ningxin 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F15 中为时间估算增加了更多设备类型\n* 由 @zheng-ningxin 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F16 中更新了 README.md\n* 由 @zheng-ningxin 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F18 中将所有已分配的共享内存缓冲区清零\n* 由 @zheng-ningxin 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F19 中修复了 all-gather gemm 的调优问题，并将 reset-signal() 移至前向关键路径\n* 由 @zheng-ningxin 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F21 中针对 llama-8b 调整了 AG 性能\n* 由 @tlrmchlsmth 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F22 中移除了 gemm_rs_80.py 中的 pynvshmem 导入\n* 由 @zheng-ningxin 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F23 中支持了 sm80 上 gemm-rs 内核的性能调优\n* 由 @zheng-ningxin 在 https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fpull\u002F24 中在 whl 文件名中添加了 PyTorch 版本\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fflux\u002Fcommits\u002Fv1.0.0","2024-07-24T02:11:23"]