[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-flexflow--flexflow-train":3,"tool-flexflow--flexflow-train":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",159636,2,"2026-04-17T23:33:34",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":77,"owner_url":78,"languages":79,"stars":111,"forks":112,"last_commit_at":113,"license":114,"difficulty_score":91,"env_os":115,"env_gpu":116,"env_ram":117,"env_deps":118,"category_tags":127,"github_topics":76,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":128,"updated_at":129,"faqs":130,"releases":159},8670,"flexflow\u002Fflexflow-train","flexflow-train","Automatically Discovering Fast Parallelization Strategies for Distributed Deep Neural Network Training","FlexFlow Train 是一款专为加速分布式深度神经网络训练而设计的开源框架。在大规模模型训练中，如何高效利用多台显卡或服务器往往极具挑战，手动调整并行策略不仅耗时，还难以达到最优性能。FlexFlow Train 的核心价值在于能够自动搜索并发现最高效的并行化策略，从而显著提升训练速度，让开发者无需深陷复杂的底层优化细节。\n\n该工具特别适合人工智能研究人员、算法工程师以及需要处理大规模数据集的深度学习开发者使用。它支持 PyTorch、TensorFlow Keras 及 ONNX 等多种主流前端，用户只需对现有代码进行少量修改，甚至通过简单的模型导出与导入步骤，即可将原本的单机模型迁移至分布式环境并自动获得性能提升。此外，FlexFlow Train 还提供了 C++ 接口以满足高性能定制需求，并兼容 CUDA 和 HIP-ROCM 硬件后端。其独特的技术亮点在于“自动调优”能力，能够针对特定的硬件集群配置，智能探索出最佳的数据、模型及流水线并行组合方案，是实现高效大模型训练的得力助手。","# FlexFlow Train\n[![tests](https:\u002F\u002Fgithub.com\u002Fflexflow\u002Fflexflow-train\u002Factions\u002Fworkflows\u002Ftests.yml\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002Fflexflow\u002Fflexflow-train\u002Factions\u002Fworkflows\u002Ftests.yml)\n[![shell-check](https:\u002F\u002Fgithub.com\u002Fflexflow\u002Fflexflow-train\u002Factions\u002Fworkflows\u002Fshell-check.yml\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002Fflexflow\u002Fflexflow-train\u002Factions\u002Fworkflows\u002Fshell-check.yml)\n[![Documentation Status](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fflexflow_flexflow-train_readme_13d664e1afd7.png)](https:\u002F\u002Fflexflow.readthedocs.io\u002Fen\u002Flatest\u002F?badge=latest)\n\n> [!WARNING]\n> The FlexFlow repository has been split into separate [flexflow-train](https:\u002F\u002Fgithub.com\u002Fflexflow\u002Fflexflow-train) and [flexflow-serve](https:\u002F\u002Fgithub.com\u002Fflexflow\u002Fflexflow-serve) repositories.\n> You are currently viewing [flexflow-train](https:\u002F\u002Fgithub.com\u002Fflexflow\u002Fflexflow-train). \n> For anything inference\u002Fserving-related, go to [flexflow-serve](https:\u002F\u002Fgithub.com\u002Fflexflow\u002Fflexflow-serve). \n\nFlexFlow Train is a deep learning framework that accelerates distributed DNN training by automatically searching for efficient parallelization strategies. \n\n\u003C!--\nFlexFlow provides a drop-in replacement for PyTorch and TensorFlow Keras. Running existing PyTorch and Keras programs in FlexFlow only requires [a few lines of changes to the program](https:\u002F\u002Fflexflow.ai\u002Fkeras).\n-->\n\n\u003C!--\n## Install FlexFlow\nTo install FlexFlow from source code, please read the [instructions](INSTALL.md). If you would like to quickly try FlexFlow, we also provide pre-built Docker packages ([flexflow-cuda](https:\u002F\u002Fgithub.com\u002Fflexflow\u002FFlexFlow\u002Fpkgs\u002Fcontainer\u002Fflexflow-cuda) with a CUDA backend, [flexflow-hip_rocm](https:\u002F\u002Fgithub.com\u002Fflexflow\u002FFlexFlow\u002Fpkgs\u002Fcontainer\u002Fflexflow-hip_rocm) with a HIP-ROCM backend) with all dependencies pre-installed (N.B.: currently, the CUDA pre-built containers are only fully compatible with host machines that have CUDA 11.7 installed), together with [Dockerfiles](.\u002Fdocker) if you wish to build the containers manually. You can also use `conda` to install the FlexFlow Python package (coming soon).\n\n## PyTorch Support\nUsers can also use FlexFlow to optimize the parallelization performance of existing PyTorch models in two steps. First, a PyTorch model can be exported to the FlexFlow model format using `flexflow.torch.fx.torch_to_flexflow`.\n```python\nimport torch\nimport flexflow.torch.fx as fx\n\nmodel = MyPyTorchModule()\nfx.torch_to_flexflow(model, \"mymodel.ff\")\n```\n\nSecond, a FlexFlow program can directly import a previously saved PyTorch model and [autotune](https:\u002F\u002Fwww.usenix.org\u002Fconference\u002Fosdi22\u002Fpresentation\u002Funger) the parallelization performance for a given parallel machine.\n\n```\nfrom flexflow.pytorch.model import PyTorchModel\n\ndef top_level_task():\n  torch_model = PyTorchModel(\"mymodel.ff\")\n  output_tensor = torch_model.apply(ffmodel, input_tensor)\n  ## Model compilation\n  ffmodel.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])\n  ## Model training\n  (x_train, y_train) = cifar10.load_data()\n  ffmodel.fit(x_train, y_train, epochs=30)\n```\n\n**More FlexFlow PyTorch examples**: see the [pytorch examples folder](https:\u002F\u002Fgithub.com\u002Fflexflow\u002FFlexFlow\u002Ftree\u002Fmaster\u002Fexamples\u002Fpython\u002Fpytorch).\n\n## TensorFlow Keras and ONNX Support\nFlexFlow prioritizes PyTorch compatibility, but also includes frontends for [Tensorflow Keras](.\u002Fdocs\u002Fsource\u002Fkeras.rst) and [ONNX](.\u002Fdocs\u002Fsource\u002Fonnx.rst) models.\n\n## C++ Interface\nFor users that prefer to program in C\u002FC++. FlexFlow supports a C++ program inference that is equivalent to its Python APIs.\n\n**More FlexFlow C++ examples**: see the [C++ examples folder](https:\u002F\u002Fgithub.com\u002Fflexflow\u002FFlexFlow\u002Ftree\u002Fmaster\u002Fexamples\u002Fc++).\n\n\n## Command-Line Flags\nIn addition to setting runtime configurations in a FlexFlow Python\u002FC++ program, the FlexFlow runtime also accepts command-line arguments for various runtime parameters: \n\nFlexFlow training flags:\n* `-e` or `--epochs`: number of total epochs to run (default: 1)\n* `-b` or `--batch-size`: global batch size in each iteration (default: 64)\n* `-p` or `--print-freq`: print frequency (default: 10)\n* `-d` or `--dataset`: path to the training dataset. If not set, synthetic data is used to conduct training.\n\nLegion runtime flags:\n* `-ll:gpu`: number of GPU processors to use on each node (default: 0)\n* `-ll:fsize`: size of device memory on each GPU (in MB)\n* `-ll:zsize`: size of zero-copy memory (pinned DRAM with direct GPU access) on each node (in MB). This is used for prefecthing training images from disk.\n* `-ll:cpu`: number of data loading workers (default: 4)\n* `-ll:util`: number of utility threads to create per process (default: 1)\n* `-ll:bgwork`: number of background worker threads to create per process (default: 1)\n\nPerformance auto-tuning flags:\n* `--search-budget` or `--budget`: the number of iterations for the MCMC search (default: 0)\n* `--search-alpha` or `--alpha`: a hyper-parameter for the search procedure (default: 0.05)\n* `--export-strategy` or `--export`: path to export the best discovered strategy (default: None)\n* `--import-strategy` or `--import`: path to import a previous saved strategy (default: None)\n* `--enable-parameter-parallel`: allow FlexFlow to explore parameter parallelism for performance auto-tuning. (By default FlexFlow only considers data and model parallelism.)\n* `--enable-attribute-parallel`: allow FlexFlow to explore attribute parallelism for performance auto-tuning. (By default FlexFlow only considers data and model parallelism.)\nFor performance tuning related flags: see [performance autotuning](https:\u002F\u002Fflexflow.ai\u002Fsearch).\n-->\n\n## Contributing\n\nPlease let us know if you encounter any bugs or have any suggestions by [submitting an issue](https:\u002F\u002Fgithub.com\u002Fflexflow\u002Fflexflow-train\u002Fissues).\n\nFor instructions on how to contribute code to FlexFlow Train, see [CONTRIBUTING.md](.\u002FCONTRIBUTING.md).\n\nWe welcome all contributions to FlexFlow Train from bug fixes to new features and extensions.\n\n## Citations\n\n* Colin Unger, Zhihao Jia, Wei Wu, Sina Lin, Mandeep Baines, Carlos Efrain Quintero Narvaez, Vinay Ramakrishnaiah, Nirmal Prajapati, Pat McCormick, Jamaludin Mohd-Yusof, Xi Luo, Dheevatsa Mudigere, Jongsoo Park, Misha Smelyanskiy, and Alex Aiken. [Unity: Accelerating DNN Training Through Joint Optimization of Algebraic Transformations and Parallelization](https:\u002F\u002Fwww.usenix.org\u002Fconference\u002Fosdi22\u002Fpresentation\u002Funger). In Proceedings of the Symposium on Operating Systems Design and Implementation (OSDI), July 2022. \n\n* Zhihao Jia, Matei Zaharia, and Alex Aiken. [Beyond Data and Model Parallelism for Deep Neural Networks](https:\u002F\u002Fcs.stanford.edu\u002F~zhihao\u002Fpapers\u002Fsysml19a.pdf). In Proceedings of the 2nd Conference on Machine Learning and Systems (MLSys), April 2019.\n\n* Zhihao Jia, Sina Lin, Charles R. Qi, and Alex Aiken. [Exploring Hidden Dimensions in Parallelizing Convolutional Neural Networks](http:\u002F\u002Fproceedings.mlr.press\u002Fv80\u002Fjia18a\u002Fjia18a.pdf). In Proceedings of the International Conference on Machine Learning (ICML), July 2018.\n\n## The Team\nFlexFlow Train is developed and maintained by teams at CMU, Facebook, Los Alamos National Lab, MIT, Stanford, and UCSD (alphabetically).\n\n## License\nFlexFlow Train uses Apache License 2.0.\n","# FlexFlow Train\n[![tests](https:\u002F\u002Fgithub.com\u002Fflexflow\u002Fflexflow-train\u002Factions\u002Fworkflows\u002Ftests.yml\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002Fflexflow\u002Fflexflow-train\u002Factions\u002Fworkflows\u002Ftests.yml)\n[![shell-check](https:\u002F\u002Fgithub.com\u002Fflexflow\u002Fflexflow-train\u002Factions\u002Fworkflows\u002Fshell-check.yml\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002Fflexflow\u002Fflexflow-train\u002Factions\u002Fworkflows\u002Fshell-check.yml)\n[![Documentation Status](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fflexflow_flexflow-train_readme_13d664e1afd7.png)](https:\u002F\u002Fflexflow.readthedocs.io\u002Fen\u002Flatest\u002F?badge=latest)\n\n> [!WARNING]\n> FlexFlow 仓库已被拆分为独立的 [flexflow-train](https:\u002F\u002Fgithub.com\u002Fflexflow\u002Fflexflow-train) 和 [flexflow-serve](https:\u002F\u002Fgithub.com\u002Fflexflow\u002Fflexflow-serve) 仓库。\n> 您当前正在查看的是 [flexflow-train](https:\u002F\u002Fgithub.com\u002Fflexflow\u002Fflexflow-train)。\n> 如需了解与推理\u002F服务相关的内容，请访问 [flexflow-serve](https:\u002F\u002Fgithub.com\u002Fflexflow\u002Fflexflow-serve)。\n\nFlexFlow Train 是一个深度学习框架，通过自动搜索高效的并行化策略来加速分布式 DNN 训练。\n\n\u003C!--\nFlexFlow 提供了 PyTorch 和 TensorFlow Keras 的直接替代方案。在 FlexFlow 中运行现有的 PyTorch 和 Keras 程序只需对程序进行 [几行代码的修改](https:\u002F\u002Fflexflow.ai\u002Fkeras)。\n-->\n\n\u003C!--\n## 安装 FlexFlow\n要从源代码安装 FlexFlow，请参阅 [安装说明](INSTALL.md)。如果您想快速试用 FlexFlow，我们还提供了预构建的 Docker 镜像（带有 CUDA 后端的 [flexflow-cuda](https:\u002F\u002Fgithub.com\u002Fflexflow\u002FFlexFlow\u002Fpkgs\u002Fcontainer\u002Fflexflow-cuda)，以及带有 HIP-ROCM 后端的 [flexflow-hip_rocm](https:\u002F\u002Fgithub.com\u002Fflexflow\u002FFlexFlow\u002Fpkgs\u002Fcontainer\u002Fflexflow-hip_rocm)），其中已预先安装所有依赖项（注意：目前，CUDA 预构建容器仅与安装了 CUDA 11.7 的主机完全兼容）。此外，如果您希望手动构建这些容器，我们还提供了 [Dockerfile](.\u002Fdocker)。您也可以使用 `conda` 来安装 FlexFlow Python 包（即将推出）。\n\n## PyTorch 支持\n用户还可以通过两个步骤使用 FlexFlow 优化现有 PyTorch 模型的并行化性能。首先，可以使用 `flexflow.torch.fx.torch_to_flexflow` 将 PyTorch 模型导出为 FlexFlow 模型格式。\n```python\nimport torch\nimport flexflow.torch.fx as fx\n\nmodel = MyPyTorchModule()\nfx.torch_to_flexflow(model, \"mymodel.ff\")\n```\n\n其次，FlexFlow 程序可以直接导入之前保存的 PyTorch 模型，并针对给定的并行计算设备对并行化性能进行 [自动调优](https:\u002F\u002Fwww.usenix.org\u002Fconference\u002Fosdi22\u002Fpresentation\u002Funger)。\n```\nfrom flexflow.pytorch.model import PyTorchModel\n\ndef top_level_task():\n  torch_model = PyTorchModel(\"mymodel.ff\")\n  output_tensor = torch_model.apply(ffmodel, input_tensor)\n  ## 模型编译\n  ffmodel.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])\n  ## 模型训练\n  (x_train, y_train) = cifar10.load_data()\n  ffmodel.fit(x_train, y_train, epochs=30)\n```\n\n**更多 FlexFlow PyTorch 示例**：请参阅 [pytorch 示例文件夹](https:\u002F\u002Fgithub.com\u002Fflexflow\u002FFlexFlow\u002Ftree\u002Fmaster\u002Fexamples\u002Fpython\u002Fpytorch)。\n\n## TensorFlow Keras 和 ONNX 支持\nFlexFlow 优先考虑与 PyTorch 的兼容性，但也支持 [Tensorflow Keras](.\u002Fdocs\u002Fsource\u002Fkeras.rst) 和 [ONNX](.\u002Fdocs\u002Fsource\u002Fonnx.rst) 模型的前端接口。\n\n## C++ 接口\n对于喜欢使用 C\u002FC++ 编程的用户，FlexFlow 提供了与 Python API 功能等效的 C++ 推理接口。\n\n**更多 FlexFlow C++ 示例**：请参阅 [C++ 示例文件夹](https:\u002F\u002Fgithub.com\u002Fflexflow\u002FFlexFlow\u002Ftree\u002Fmaster\u002Fexamples\u002Fc++)。\n\n## 命令行参数\n除了可以在 FlexFlow 的 Python\u002FC++ 程序中设置运行时配置外，FlexFlow 运行时还接受用于各种运行时参数的命令行参数：\n\nFlexFlow 训练标志：\n* `-e` 或 `--epochs`：总训练轮数（默认值：1）\n* `-b` 或 `--batch-size`：每轮迭代中的全局批量大小（默认值：64）\n* `-p` 或 `--print-freq`：打印频率（默认值：10）\n* `-d` 或 `--dataset`：训练数据集的路径。若未设置，则使用合成数据进行训练。\n\nLegion 运行时标志：\n* `-ll:gpu`：每个节点使用的 GPU 数量（默认值：0）\n* `-ll:fsize`：每个 GPU 上的设备内存大小（单位：MB）\n* `-ll:zsize`：每个节点上的零拷贝内存大小（固定 DRAM，可直接访问 GPU）（单位：MB）。此参数用于从磁盘预取训练图像。\n* `-ll:cpu`：数据加载工作线程的数量（默认值：4）\n* `-ll:util`：每个进程创建的辅助线程数量（默认值：1）\n* `-ll:bgwork`：每个进程创建的后台工作线程数量（默认值：1）\n\n性能自动调优标志：\n* `--search-budget` 或 `--budget`：MCMC 搜索的迭代次数（默认值：0）\n* `--search-alpha` 或 `--alpha`：搜索过程的超参数（默认值：0.05）\n* `--export-strategy` 或 `--export`：导出最佳发现策略的路径（默认值：无）\n* `--import-strategy` 或 `--import`：导入先前保存策略的路径（默认值：无）\n* `--enable-parameter-parallel`：允许 FlexFlow 在性能自动调优中探索参数并行化。（默认情况下，FlexFlow 只考虑数据和模型并行化。）\n* `--enable-attribute-parallel`：允许 FlexFlow 在性能自动调优中探索属性并行化。（默认情况下，FlexFlow 只考虑数据和模型并行化。）\n有关性能调优相关标志的详细信息，请参阅 [性能自动调优](https:\u002F\u002Fflexflow.ai\u002Fsearch)。\n-->\n\n## 贡献\n\n如果您遇到任何错误或有任何建议，请通过 [提交问题](https:\u002F\u002Fgithub.com\u002Fflexflow\u002Fflexflow-train\u002Fissues)告知我们。\n\n有关如何向 FlexFlow Train 贡献代码的说明，请参阅 [CONTRIBUTING.md](.\u002FCONTRIBUTING.md)。\n\n我们欢迎所有对 FlexFlow Train 的贡献，无论是修复 bug 还是添加新功能和扩展。\n\n## 引用文献\n\n* Colin Unger, Zhihao Jia, Wei Wu, Sina Lin, Mandeep Baines, Carlos Efrain Quintero Narvaez, Vinay Ramakrishnaiah, Nirmal Prajapati, Pat McCormick, Jamaludin Mohd-Yusof, Xi Luo, Dheevatsa Mudigere, Jongsoo Park, Misha Smelyanskiy, and Alex Aiken. [Unity: 通过联合优化代数变换与并行化加速 DNN 训练](https:\u002F\u002Fwww.usenix.org\u002Fconference\u002Fosdi22\u002Fpresentation\u002Funger)。载于 2022 年 7 月举行的操作系统设计与实现研讨会 (OSDI) 论文集。\n\n* Zhihao Jia, Matei Zaharia, 和 Alex Aiken. [超越深度神经网络的数据与模型并行化](https:\u002F\u002Fcs.stanford.edu\u002F~zhihao\u002Fpapers\u002Fsysml19a.pdf)。载于 2019 年 4 月举行的第二届机器学习与系统会议 (MLSys) 论文集。\n\n* Zhihao Jia, Sina Lin, Charles R. Qi, 和 Alex Aiken. [探索卷积神经网络并行化的隐藏维度](http:\u002F\u002Fproceedings.mlr.press\u002Fv80\u002Fjia18a\u002Fjia18a.pdf)。载于 2018 年 7 月举行的国际机器学习大会 (ICML) 论文集。\n\n## 团队\nFlexFlow Train 由卡内基梅隆大学、Facebook、洛斯阿拉莫斯国家实验室、麻省理工学院、斯坦福大学和加州大学圣迭戈分校的团队开发并维护（按字母顺序排列）。\n\n## 许可证\nFlexFlow Train 采用 Apache License 2.0 许可证。","# FlexFlow Train 快速上手指南\n\nFlexFlow Train 是一个深度学习框架，旨在通过自动搜索高效的并行化策略来加速分布式 DNN 训练。它支持 PyTorch、TensorFlow Keras 和 ONNX 模型，并提供了 C++ 接口。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 18.04\u002F20.04\u002F22.04)\n*   **GPU**: NVIDIA GPU (需安装 CUDA) 或 AMD GPU (需安装 ROCm\u002FHIP)\n    *   *注意*: 预构建的 CUDA Docker 镜像目前完全兼容宿主机安装 **CUDA 11.7** 的环境。\n*   **依赖项**:\n    *   Python 3.x\n    *   CMake, GCC\u002FG++\n    *   CUDA Toolkit 或 ROCm SDK\n    *   (可选) Docker: 用于快速部署预构建环境\n\n## 安装步骤\n\n您可以选择使用预构建的 Docker 镜像（推荐快速体验）或从源代码编译。\n\n### 方法一：使用 Docker (推荐)\n\nFlexFlow 提供了包含所有依赖项的预构建 Docker 镜像。\n\n**1. 拉取镜像**\n\n根据您的硬件后端选择对应的镜像：\n\n*   **NVIDIA CUDA 后端**:\n    ```bash\n    docker pull ghcr.io\u002Fflexflow\u002Fflexflow-cuda:latest\n    ```\n*   **AMD HIP\u002FROCM 后端**:\n    ```bash\n    docker pull ghcr.io\u002Fflexflow\u002Fflexflow-hip_rocm:latest\n    ```\n\n**2. 运行容器**\n\n启动容器并挂载当前目录以便代码开发（以 CUDA 为例）：\n\n```bash\ndocker run --gpus all -it --rm -v $(pwd):\u002Fworkspace ghcr.io\u002Fflexflow\u002Fflexflow-cuda:latest\n```\n\n### 方法二：从源代码编译\n\n如需自定义编译或最新特性，请参考官方 `INSTALL.md` 文档进行源码编译。基本流程如下：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fflexflow\u002Fflexflow-train.git\ncd flexflow-train\n# 遵循 INSTALL.md 中的具体 cmake 和 make 指令进行构建\n```\n\n*(注：Conda 安装包即将推出，敬请期待)*\n\n## 基本使用\n\nFlexFlow 的核心优势在于能够优化现有 PyTorch 模型的并行性能。以下是基于 PyTorch 的最简使用流程。\n\n### 第一步：导出 PyTorch 模型\n\n首先，将现有的 PyTorch 模型转换为 FlexFlow 格式 (`.ff`)。\n\n```python\nimport torch\nimport flexflow.torch.fx as fx\n\n# 假设您有一个已定义的 PyTorch 模型\nmodel = MyPyTorchModule()\n\n# 导出为 FlexFlow 模型文件\nfx.torch_to_flexflow(model, \"mymodel.ff\")\n```\n\n### 第二步：加载模型并自动调优\n\n在 FlexFlow 程序中导入模型，配置优化器，并利用其自动调优功能在给定机器上寻找最佳并行策略。\n\n```python\nfrom flexflow.pytorch.model import PyTorchModel\n# 假设 ffmodel 已初始化，input_tensor 已定义\n\ndef top_level_task():\n  # 加载之前保存的 PyTorch 模型\n  torch_model = PyTorchModel(\"mymodel.ff\")\n  \n  # 应用模型\n  output_tensor = torch_model.apply(ffmodel, input_tensor)\n  \n  ## 模型编译\n  ffmodel.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])\n  \n  ## 模型训练 (此处以 CIFAR-10 为例)\n  # (x_train, y_train) = cifar10.load_data() \n  # 实际使用时请替换为您的数据加载逻辑\n  ffmodel.fit(x_train, y_train, epochs=30)\n```\n\n### 第三步：运行训练脚本\n\n使用命令行参数启动训练。FlexFlow 支持多种运行时配置和自动调优参数。\n\n**基础训练命令：**\n\n```bash\npython your_script.py -e 30 -b 64 -ll:gpu 4\n```\n\n**常用参数说明：**\n\n*   **训练控制**:\n    *   `-e`, `--epochs`: 总训练轮数 (默认: 1)\n    *   `-b`, `--batch-size`: 全局批次大小 (默认: 64)\n    *   `-d`, `--dataset`: 数据集路径 (若不设置则使用合成数据)\n*   **资源分配 (Legion 运行时)**:\n    *   `-ll:gpu`: 每个节点使用的 GPU 数量 (默认: 0)\n    *   `-ll:cpu`: 数据加载工作进程数 (默认: 4)\n*   **性能自动调优**:\n    *   `--search-budget`: MCMC 搜索的迭代次数 (设为 0 禁用搜索，直接使用默认策略)\n    *   `--export-strategy`: 导出最佳发现策略的路径\n    *   `--import-strategy`: 导入之前保存的策略路径\n    *   `--enable-parameter-parallel`: 允许探索参数并行 (默认仅考虑数据和模型并行)\n\n更多高级示例请参考项目仓库中的 `examples\u002Fpython\u002Fpytorch` 文件夹。","某大型金融科技公司的人工智能团队正试图在拥有 64 张 GPU 的集群上训练一个超大规模的欺诈检测深度学习模型，以应对日益复杂的交易数据。\n\n### 没有 flexflow-train 时\n- **策略调优耗时极长**：工程师需要手动尝试数据并行、模型并行等多种组合，每次调整都需重写大量底层通信代码，耗费数周时间寻找最优解。\n- **资源利用率低下**：由于缺乏自动搜索机制，人工设定的并行策略往往导致部分 GPU 空闲等待，集群整体算力利用率不足 40%。\n- **迁移成本高昂**：将现有的 PyTorch 模型迁移到分布式环境时，需大幅重构代码逻辑，极易引入难以排查的同步错误。\n- **扩展性瓶颈明显**：当增加 GPU 数量试图加速训练时，因通信开销激增，训练速度反而不升反降，陷入“越加越慢”的困境。\n\n### 使用 flexflow-train 后\n- **自动发现最优策略**：flexflow-train 能在几分钟内自动搜索并锁定针对当前硬件最高效的并行化方案，无需人工干预底层细节。\n- **算力满载运行**：通过智能切分模型与数据，集群 GPU 利用率提升至 85% 以上，显著缩短了单次迭代的时间。\n- **无缝兼容现有代码**：仅需几行代码即可将原有 PyTorch 模型导入 flexflow-train，保留了原有的开发习惯，实现了“即插即用”。\n- **线性加速比**：在扩充显卡数量时，flexflow-train 自动平衡计算与通信负载，使训练速度随硬件增加近乎线性增长。\n\nflexflow-train 的核心价值在于将原本需要专家数周调优的分布式训练难题，转化为自动化的高效流程，让团队能专注于算法创新而非基础设施折腾。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fflexflow_flexflow-train_51b1aec7.png","flexflow","FlexFlow","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fflexflow_63f30e33.png","",null,"https:\u002F\u002Fflexflow.ai\u002F","https:\u002F\u002Fgithub.com\u002Fflexflow",[80,84,88,92,96,100,104,108],{"name":81,"color":82,"percentage":83},"C++","#f34b7d",85.1,{"name":85,"color":86,"percentage":87},"Python","#3572A5",8.5,{"name":89,"color":90,"percentage":91},"Cuda","#3A4E3A",4,{"name":93,"color":94,"percentage":95},"CMake","#DA3434",1.1,{"name":97,"color":98,"percentage":99},"C","#555555",1,{"name":101,"color":102,"percentage":103},"Nix","#7e7eff",0.2,{"name":105,"color":106,"percentage":107},"Makefile","#427819",0.1,{"name":109,"color":110,"percentage":107},"Shell","#89e051",1872,250,"2026-04-16T14:39:57","Apache-2.0","Linux","需要 NVIDIA GPU (通过 CUDA 后端) 或 AMD GPU (通过 HIP-ROCM 后端)。预构建的 CUDA Docker 镜像要求宿主机安装 CUDA 11.7。显存大小可通过 `-ll:fsize` 参数配置，未指定具体最低要求。","未说明",{"notes":119,"python":117,"dependencies":120},"该工具已从主仓库分离为独立的 flexflow-train 和 flexflow-serve 仓库。官方推荐使用预构建的 Docker 容器（支持 CUDA 和 HIP-ROCM 后端）进行部署，以避免手动安装依赖的复杂性。虽然文档提到即将支持 conda 安装，但目前主要依赖 Docker 环境。支持通过命令行参数灵活配置 GPU 数量、显存大小、零拷贝内存大小以及数据加载线程数等运行时资源。",[121,122,123,124,125,126],"PyTorch","TensorFlow Keras","ONNX","Legion Runtime","CUDA (>=11.7 for pre-built containers)","HIP-ROCM",[14],"2026-03-27T02:49:30.150509","2026-04-18T09:20:11.882704",[131,136,140,145,150,155],{"id":132,"question_zh":133,"answer_zh":134,"source_url":135},38840,"FlexFlow 是否支持在不同类型的 GPU 上运行？","是的，FlexFlow 能够自动检测并使用不同的 GPU。用户在运行 Keras 或 Native 示例时，可以观察到多个 GPU 同时以相似的利用率工作，表明框架能有效利用异构或多卡环境。无需特殊标志即可实现，只要系统正确识别了所有 GPU 设备。","https:\u002F\u002Fgithub.com\u002Fflexflow\u002Fflexflow-train\u002Fissues\u002F154",{"id":137,"question_zh":138,"answer_zh":139,"source_url":135},38835,"运行 PyTorch 接口时出现\"compiled for the wrong GPU architecture\"错误，如何解决？","该错误通常与 PyTorch 版本不兼容有关。请确保安装的 PyTorch 版本在 1.5 到 1.10 之间。如果版本高于 1.10，运行时可能会出现未知消息或错误。此外，虽然报错提示修改 GPU_ARCH 标志，但实际解决关键在于匹配正确的 PyTorch 版本。",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},38836,"遇到 LEGION WARNING \"failed to memoize the trace\"警告且 GPU 吞吐量低怎么办？","此警告常出现在使用 MCMC 优化策略时，可能导致吞吐量下降。建议尝试调整 Legion 的运行标志，例如使用 `-ll:cpu 8 -ll:util 4 -ll:bgwork 8`。注意 cpu、bgwork 和 util 的值设置过高可能无法正常工作。如果调整后仍无改善，建议对比验证并行化策略是否真的优于简单的基线（如纯数据并行）。目前暂无直接禁用 memoization 的标志。","https:\u002F\u002Fgithub.com\u002Fflexflow\u002Fflexflow-train\u002Fissues\u002F232",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},38837,"运行 mnist_mlp.py 测试时出现\"libnvidia-ml.so linked at wrong path\"及\"libpython3.11.so cannot open\"错误，如何修复？","这通常是因为环境变量配置未生效。首先检查 `.bashrc` 文件是否被正确执行（可在其中添加 `echo \"hello\"` 测试）。确保在终端显式运行 `export` 命令或在启动脚本中加载配置。执行 `echo $LD_LIBRARY_PATH` 确认路径中包含正确的 NVIDIA 驱动库路径（通常是 `\u002Fusr\u002Flib` 或 `\u002Fusr\u002Flib64`），而不是 CUDA stubs 路径（如 `\u002Fusr\u002Flocal\u002Fcuda\u002Ftargets\u002Fx86_64-linux\u002Flib\u002Fstubs`）。","https:\u002F\u002Fgithub.com\u002Fflexflow\u002Fflexflow-train\u002Fissues\u002F753",{"id":151,"question_zh":152,"answer_zh":153,"source_url":154},38838,"如何为 DNN 生成并行策略？默认策略可用但自定义策略报错\"Floating point exception\"。","生成策略通常需要使用 FlexFlow 提供的模拟器（simulator）。如果在 `strategy` 文件夹中使用现成策略时出现“Floating point exception (core dumped)”错误，可能是因为工作空间大小（workSpaceSize）设置不当或策略文件与当前硬件\u002F模型不匹配。建议先使用默认的纯数据并行策略确保环境正常，然后参考文档使用模拟器针对特定模型生成新的策略文件，避免直接使用不兼容的预生成策略。","https:\u002F\u002Fgithub.com\u002Fflexflow\u002Fflexflow-train\u002Fissues\u002F14",{"id":156,"question_zh":157,"answer_zh":158,"source_url":144},38839,"MCMC 优化策略在实际硬件上的表现为何不如模拟器预测的线性提升，甚至更差？","虽然模拟器显示 MCMC 策略能显著减少带宽瓶颈（如 Weight prefetch task 从~140ms 降至~11ms），但在实际多 GPU 硬件上，随着 GPU 数量增加，性能可能未呈线性提升甚至下降。这可能是由于硬件通信开销、内存带宽限制或映射器（mapper）配置不当导致。建议用户在实际部署时，务必对比混合并行策略与简单基线（如纯数据并行）的实际吞吐量，不要完全依赖模拟器的预测结果。",[160,165,170,175,180,185,190,195],{"id":161,"version":162,"summary_zh":163,"released_at":164},314765,"r22.07","这是 Unity 合并之前 FlexFlow 的最后一个稳定版本。[Unity](https:\u002F\u002Fwww.usenix.org\u002Fconference\u002Fosdi22\u002Fpresentation\u002Funger) 能够对代数变换与并行化进行联合优化，相比未采用 Unity 优化的原始 FlexFlow，通常能获得更好的性能和可扩展性。Unity 合并为 FlexFlow 带来了以下主要变化。\n\n* 在 Unity 的支持下，我们现在使用**并行计算图**（PCG）来表示深度神经网络模型。PCG 是一种统一的分布式深度神经网络训练表示形式，能够同时表达计算、并行性和数据移动。关于 PCG 的详细说明请参见[此处](https:\u002F\u002Fwww.usenix.org\u002Fconference\u002Fosdi22\u002Fpresentation\u002Funger)。\n\n* 我们新增了对 Unity 提供的其他并行化形式的支持，包括规约并行化以及其他算子特定的并行化策略。\n\n* 我们用一种三层分层搜索算法取代了 FlexFlow 的 MCMC 搜索，该算法能够发现代数变换与并行化的联合优化方案，从而在性能和可扩展性方面优于 FlexFlow 的 MCMC 搜索。\n\n自本版本起，Unity 的相关改动将直接集成到 FlexFlow 仓库的主分支中。","2022-08-01T04:07:09",{"id":166,"version":167,"summary_zh":168,"released_at":169},314766,"r22.05","这是 FlexFlow 的一个稳定版本，为与 Unity 合并做准备。\n\n前端支持：\n- FlexFlow 现在支持使用 PyTorch fx 接口训练 Hugging Face 模型。在 FlexFlow 中训练 Hugging Face MT5 的示例可参见：https:\u002F\u002Fgithub.com\u002Fflexflow\u002FFlexFlow\u002Ftree\u002Fmaster\u002Fexamples\u002Fpython\u002Fpytorch\u002Fmt5\n\nPyTorch 对齐：\n- 新增了用于将 FlexFlow 的算子与 PyTorch 对齐的单元测试。对于每个算子，单元测试会检查当输入相同时，FlexFlow 和 PyTorch 是否返回相同的激活值和梯度。有关 PyTorch 对齐的更多详细信息，请参阅：https:\u002F\u002Fgithub.com\u002Fflexflow\u002FFlexFlow\u002Ftree\u002Fmaster\u002Falign\n\n文档：\n- 添加了初始文档支持：https:\u002F\u002Fgithub.com\u002Fflexflow\u002FFlexFlow\u002Ftree\u002Fmaster\u002Fdocs\n\n算子：\n- 修复了多个 FlexFlow 算子的 bug\n\n广播：\n- FlexFlow 现在支持部分算子的广播功能，包括逐元素一元运算和逐元素二元运算。其广播语义与 [NumPy](https:\u002F\u002Fnumpy.org\u002Fdoc\u002Fstable\u002Fuser\u002Fbasics.broadcasting.html) 的广播规则完全一致。","2022-06-08T16:20:01",{"id":171,"version":172,"summary_zh":173,"released_at":174},314767,"r21.09","前端支持\n- 将 PyBind11 更改为 FlexFlow 中的默认 Python 前端。\n\n控制复制\n- FlexFlow 现在默认启用 [Legion 的动态控制复制](https:\u002F\u002Flegion.stanford.edu\u002Fpdfs\u002Fdcr2021.pdf)。\n\n分布式训练\n- FlexFlow 现在默认使用 NCCL AllReduce 进行梯度同步。若要切换到分布式参数服务器模式，请在 CMake 中设置 `FF_USE_NCCL=OFF`。\n\n分布式推理\n- 向 `model.compile` 传递额外参数 `comp_node = CompMode::INFERENCE`，即可在推理模式下运行深度神经网络模型。\n- FlexFlow 针对分布式推理进行了多项错误修复和性能优化。\n\n算子\n- 新增算子包括 AggregateSpec 和多头注意力机制。\n\n机器模型\n- FlexFlow 现在支持一种新的机器模型，能够更精确地建模网络拓扑，并以单个数据包为粒度模拟流量。","2021-10-06T14:57:50",{"id":176,"version":177,"summary_zh":178,"released_at":179},314768,"r21.03","* 构建\r\n    * FlexFlow 现在默认使用 CMake 进行构建，Makefile 将很快被弃用。\r\n* 前端支持\r\n    * 除了 CFFI 外，FlexFlow 现在还通过 PyBind11 支持 Python 接口。要使用 PyBind11，请在 CMake 中设置 `FF_USE_PYBIND = ON`。\r\n* 分布式推理\r\n    * FlexFlow 同时支持分布式训练和推理的自动化性能调优。要优化并执行分布式推理，只需将 `comp_node = CompMode::INFERENCE` 作为额外参数传递给 `model.compile` 即可。示例可在 https:\u002F\u002Fgithub.com\u002Fflexflow\u002FFlexFlow\u002Fblob\u002Fmaster\u002Fexamples\u002Fpython\u002Fnative\u002Fbert_proxy_native.py 中找到。\r\n* 运行时\r\n    * FlexFlow 现在支持通过参数服务器或 NCCL Allreduce 更新梯度。要启用 NCCL，请在 CMake 中设置 `FF_USE_NCCL = ON`。\r\n* 操作符\r\n    * 新增操作符包括 Aggregate、多头注意力、标量乘法、标量加法、标量减法、标量除法以及 Top-K。\r\n    * Conv2D 现在支持分组卷积。\r\n* 示例\r\n   * 所有操作符的单元测试已添加到 tests\u002Fops 文件夹中。","2021-04-02T21:19:18",{"id":181,"version":182,"summary_zh":183,"released_at":184},314769,"r20.12","* 构建\n    * FlexFlow 现在同时支持 Makefile 和 CMake 构建。更多详情请参阅[这篇说明](https:\u002F\u002Fgithub.com\u002Fflexflow\u002FFlexFlow\u002Fblob\u002Fmaster\u002FINSTALL.md)。\n* 前端支持\n    * **PyTorch**。FlexFlow 现在支持在对源代码进行最少修改的情况下训练现有的 PyTorch 模型。要在 FlexFlow 中运行 PyTorch 模型，用户可以先使用 `torch.onnx` 将模型导出为 ONNX 格式，然后在 FlexFlow 中加载该 ONNX 模型以进行分布式训练。更多示例：https:\u002F\u002Fgithub.com\u002Fflexflow\u002FFlexFlow\u002Ftree\u002Fmaster\u002Fexamples\u002Fpython\u002Fpytorch\n    * **ONNX**。FlexFlow 通过 `flexflow.onnx.model` 支持训练现有的 ONNX 模型。更多示例：https:\u002F\u002Fgithub.com\u002Fflexflow\u002FFlexFlow\u002Ftree\u002Fmaster\u002Fexamples\u002Fpython\u002Fonnx\n    * **TensorFlow Keras**。与 PyTorch 支持类似。`flexflow.keras` 可以实现现有 TensorFlow Keras 模型的分布式训练。更多详情请参阅[这场训练营演讲](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=PvFHu__eP9Q)。\n* 并行化优化器\n    * 已将并行化优化器集成到 FlexFlow 运行时中。用户现在可以使用 `--search-budget` 和 `--search-alpha` 来控制 FlexFlow 的并行化优化器，以搜索最优策略。有关该优化器的使用方法，请参阅[这篇博文](https:\u002F\u002Fflexflow.ai\u002Fsearch\u002F)。\n* 示例\n   * 在 `\u002Fexamples\u002Fpython` 文件夹中新增了更多 PyTorch、ONNX 和 TensorFlow Keras 示例。\n   * 更新了 C++ 示例，使其使用新的运行时接口。\n* 映射器\n    * 实现了一个新的映射器，其运行时性能得到了提升。\n* Legion\n    * 更新了 Legion 版本，提升了运行时性能。","2021-01-04T19:40:41",{"id":186,"version":187,"summary_zh":188,"released_at":189},314770,"v1.1.1","这是SysML19 工件评估的 v1.1.1 预发布版本。请按照说明构建 FlexFlow，并使用脚本 run_experiments.sh 运行所有实验。","2019-02-14T01:33:56",{"id":191,"version":192,"summary_zh":193,"released_at":194},314771,"v1.1","这是SysML19 工件评估的 v1.1 预发布版本。请按照说明构建 FlexFlow，并使用脚本 run_experiments.sh 运行所有实验。","2019-02-11T19:13:43",{"id":196,"version":197,"summary_zh":198,"released_at":199},314772,"v1.0","这是SysML19工件评估的预发布版本。请按照说明构建FlexFlow，并使用脚本`run_experiments.sh`运行所有实验。","2019-01-26T01:29:22"]