[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-aws-neuron--aws-neuron-sdk":3,"tool-aws-neuron--aws-neuron-sdk":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",151918,2,"2026-04-12T11:33:05",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":77,"owner_url":78,"languages":79,"stars":114,"forks":115,"last_commit_at":116,"license":117,"difficulty_score":118,"env_os":119,"env_gpu":120,"env_ram":121,"env_deps":122,"category_tags":129,"github_topics":76,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":130,"updated_at":131,"faqs":132,"releases":161},6855,"aws-neuron\u002Faws-neuron-sdk","aws-neuron-sdk","Powering AWS purpose-built machine learning chips. Blazing fast and cost effective, natively integrated into PyTorch and TensorFlow and integrated with your favorite AWS services","AWS Neuron SDK 是一套专为加速深度学习任务而设计的软件开发工具包，旨在充分发挥 AWS 自研机器学习芯片（Inferentia 和 Trainium）的强大性能。它主要解决了在云端运行大规模 AI 模型时面临的成本高、推理与训练速度慢等痛点，让开发者能够轻松在 Inf1 和 Trn1 等加速型 EC2 实例上构建、优化并部署高性能工作负载。\n\n这套工具非常适合从事人工智能开发的工程师、数据科学家以及研究人员使用。无论是需要快速迭代模型的原型开发，还是追求极致效率的生产环境部署，AWS Neuron SDK 都能提供流畅的支持。其独特的技术亮点在于原生集成了 PyTorch、TensorFlow 和 MXNet 等主流框架，用户无需大幅修改现有代码即可享受硬件加速带来的红利。此外，它还内置了高效的编译器、运行时驱动以及包含 TensorBoard 插件的调试与分析工具，帮助用户直观地监控模型性能并进行针对性优化。通过无缝对接 AWS 云服务生态，AWS Neuron SDK 让高性能机器学习变得更加经济实惠且易于上手。","![neuron](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Faws-neuron_aws-neuron-sdk_readme_49868ac15b4c.png)\n\n# AWS Neuron\n\n## Neuron SDK Overview\n\nAWS Neuron is a software development kit (SDK) enabling high-performance deep learning acceleration using AWS Inferentia and Trainium, AWS's custom designed machine learning accelerators. With Neuron, you can develop, profile, and deploy high-performance machine learning workloads on top of accelerated EC2 instances, e.g. Inf1 and Trn1.\n\nNeuron includes a compiler, runtime driver, as well as debug and profiling utilities with a TensorBoard plugin for visualization, and is pre-integrated into popular machine learning frameworks like Pytorch, TensorFlow and MXNet, to provide a seamless machine learning acceleration workflow.\n\n## Neuron SDK’s documentation\n\nFor full documentations including user guide, Howtos and Tutorials see [Neuron SDK’s documentation](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002F)\n\n## Support\nIf none of the github and online resources have an answer to your question, checkout the AWS Neuron [support forum](https:\u002F\u002Fforums.aws.amazon.com\u002Fforum.jspa?forumID=355).\n","![神经元](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Faws-neuron_aws-neuron-sdk_readme_49868ac15b4c.png)\n\n# AWS Neuron\n\n## Neuron SDK 概述\n\nAWS Neuron 是一款软件开发工具包 (SDK)，可借助 AWS 的自研机器学习加速器 Inferentia 和 Trainium 实现高性能深度学习加速。通过 Neuron，您可以在配备加速器的 EC2 实例（例如 Inf1 和 Trn1）上开发、性能分析和部署高性能机器学习工作负载。\n\nNeuron 包含编译器、运行时驱动程序以及调试和性能分析工具，并提供用于可视化的 TensorBoard 插件。它已预先集成到 PyTorch、TensorFlow 和 MXNet 等主流机器学习框架中，从而为用户提供无缝的机器学习加速工作流。\n\n## Neuron SDK 文档\n\n有关完整文档（包括用户指南、操作指南和教程），请参阅 [Neuron SDK 文档](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002F)。\n\n## 支持\n\n如果您在 GitHub 和在线资源中未能找到问题的答案，请访问 AWS Neuron [支持论坛](https:\u002F\u002Fforums.aws.amazon.com\u002Fforum.jspa?forumID=355)。","# AWS Neuron SDK 快速上手指南\n\nAWS Neuron 是一套专为 AWS Inferentia 和 Trainium 机器学习加速器设计的软件开发工具包（SDK）。它包含编译器、运行时驱动以及调试和性能分析工具，并已预集成到 PyTorch、TensorFlow 和 MXNet 等主流框架中，帮助开发者在 Inf1 和 Trn1 等加速型 EC2 实例上高效开发、分析和部署深度学习工作负载。\n\n## 环境准备\n\n在使用 AWS Neuron SDK 之前，请确保满足以下系统要求和前置条件：\n\n*   **操作系统**：推荐使用 Amazon Linux 2 (AL2) 或 Ubuntu 20.04\u002F22.04。\n*   **硬件实例**：必须运行在支持 Neuron 的 EC2 实例类型上，例如：\n    *   **Inf1 \u002F Inf2** (基于 AWS Inferentia)\n    *   **Trn1 \u002F Trn2** (基于 AWS Trainium)\n*   **前置依赖**：\n    *   已安装对应的深度学习框架（如 `torch-neuron`, `tensorflow-neuron` 等）。\n    *   建议通过 AWS Deep Learning AMI (DLAMI) 启动实例，该镜像已预装 Neuron SDK 及相关框架，可免去繁琐的环境配置。\n\n> **注意**：Neuron SDK 强依赖于特定的硬件驱动，无法在非 AWS 环境或非加速实例上运行。\n\n## 安装步骤\n\n如果您未使用预装好的 Deep Learning AMI，可以通过以下命令在 Amazon Linux 2 上安装 Neuron 组件。\n\n### 1. 配置仓库源\n首先添加 AWS Neuron 的 yum 仓库：\n\n```bash\ncurl -O https:\u002F\u002Faws-neuron.s3.us-west-2.amazonaws.com\u002Faws-neuron.repo\nsudo mv aws-neuron.repo \u002Fetc\u002Fyum.repos.d\u002F\nsudo yum update -y\n```\n\n### 2. 安装核心组件\n安装 Neuron 运行时、编译器和监控工具：\n\n```bash\nsudo yum install -y aws-neuron-runtime-collectd aws-neuron-runtime-tools aws-neuron-dkms\n```\n\n### 3. 安装框架插件\n根据您使用的框架安装对应的集成包。\n\n**对于 PyTorch:**\n```bash\npip install torch-neuron\n```\n\n**对于 TensorFlow:**\n```bash\npip install tensorflow-neuron\n```\n\n> **提示**：国内用户若遇到 pip 下载缓慢，可临时切换至国内镜像源，例如：\n> `pip install torch-neuron -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n> *(注：需确保该镜像源同步了 AWS 特有的 neuron 包，否则建议使用官方源或 AWS DLAMI)*\n\n## 基本使用\n\n以下是一个使用 **PyTorch** 进行模型编译和推理的最简示例。该流程展示了如何将标准的 PyTorch 模型转换为 Neuron 格式并在 Inferentia\u002FTrainium 芯片上运行。\n\n### 1. 导入必要的库\n```python\nimport torch\nimport torch_neuron\nfrom torchvision import models\n```\n\n### 2. 加载预训练模型并设置为评估模式\n```python\nmodel = models.resnet50(pretrained=True)\nmodel.eval()\n```\n\n### 3. 创建示例输入数据\n```python\n# 创建一个符合 ResNet50 输入的随机张量 (Batch size=1, Channels=3, Height=224, Width=224)\nimage = [torch.rand(1, 3, 224, 224)]\n```\n\n### 4. 编译模型\n使用 `torch.neuron.trace` 将模型编译为针对 Neuron 核心优化的格式。\n```python\nmodel_neuron = torch.neuron.trace(model, image)\n```\n\n### 5. 执行推理\n直接像使用普通 PyTorch 模型一样运行编译后的模型。\n```python\nwith torch.no_grad():\n    output = model_neuron(*image)\n\nprint(output.shape)\n```\n\n编译后的模型可以保存并在后续的推理服务中重复加载，以充分利用 AWS 加速实例的高吞吐量特性。","某电商团队正在将其基于 PyTorch 构建的实时商品推荐系统从通用 GPU 集群迁移至 AWS Inferentia (Inf1) 实例，以应对大促期间的高并发流量并控制成本。\n\n### 没有 aws-neuron-sdk 时\n- **框架适配困难**：开发者需手动重写大量底层算子代码才能兼容专用芯片，导致模型迁移周期长达数周且极易出错。\n- **性能黑盒难调优**：缺乏专用的性能分析工具，无法直观定位推理延迟瓶颈，只能依靠猜测调整批处理大小或线程数。\n- **部署运维复杂**：缺少与 TensorBoard 等主流可视化工具的原生集成，监控指标分散，难以在统一界面追踪模型运行状态。\n- **成本效益不明**：由于无法充分发挥硬件加速能力，实例利用率低，实际运行成本反而高于预期，未能体现专用芯片优势。\n\n### 使用 aws-neuron-sdk 后\n- **无缝框架集成**：aws-neuron-sdk 原生支持 PyTorch，仅需少量配置即可自动编译优化模型，将迁移工作缩短至几天内完成。\n- **可视化精准调优**：利用内置的 TensorBoard 插件和 Profiler 工具，团队清晰看到算子耗时分布，快速锁定并解决了内存带宽瓶颈。\n- **全流程开发体验**：从编译、调试到部署形成标准化闭环，开发者可直接复用熟悉的 AWS 服务生态，大幅降低运维门槛。\n- **极致性价比释放**：经过编译器优化后的模型在 Inf1 实例上吞吐量提升显著，单次推理成本降低约 40%，完美支撑大促流量洪峰。\n\n通过 aws-neuron-sdk，该团队不仅实现了模型在专用芯片上的高效落地，更在保障低延迟的同时大幅降低了基础设施支出。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Faws-neuron_aws-neuron-sdk_e787297f.png","aws-neuron","AWS Neuron","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Faws-neuron_64767646.png","",null,"https:\u002F\u002Faws.amazon.com\u002Fmachine-learning\u002Fneuron\u002F","https:\u002F\u002Fgithub.com\u002Faws-neuron",[80,84,88,92,96,100,104,108,111],{"name":81,"color":82,"percentage":83},"Python","#3572A5",60.1,{"name":85,"color":86,"percentage":87},"Jupyter Notebook","#DA5B0B",28.8,{"name":89,"color":90,"percentage":91},"C","#555555",7.6,{"name":93,"color":94,"percentage":95},"Shell","#89e051",2.4,{"name":97,"color":98,"percentage":99},"C++","#f34b7d",0.7,{"name":101,"color":102,"percentage":103},"HTML","#e34c26",0.3,{"name":105,"color":106,"percentage":107},"CSS","#663399",0,{"name":109,"color":110,"percentage":107},"Makefile","#427819",{"name":112,"color":113,"percentage":107},"Dockerfile","#384d54",591,184,"2026-04-11T20:40:07","NOASSERTION",4,"Linux","不需要 NVIDIA GPU。必需使用 AWS 自定义机器学习加速器：AWS Inferentia (Inf1, Inf2) 或 AWS Trainium (Trn1, Trn2)。需在对应的加速型 EC2 实例（如 inf1, trn1）上运行。","未说明（取决于所选 EC2 实例类型）",{"notes":123,"python":124,"dependencies":125},"该工具是专为 AWS 硬件设计的 SDK，无法在本地普通显卡或非 AWS 环境下运行。它包含编译器、运行时驱动及调试工具，并已预集成到主流深度学习框架中。详细文档需访问官方链接，遇到问题可前往 AWS 支持论坛。","未说明",[126,127,128],"PyTorch (集成版)","TensorFlow (集成版)","MXNet (集成版)",[14],"2026-03-27T02:49:30.150509","2026-04-12T20:07:47.564011",[133,138,142,147,152,157],{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},30926,"为什么使用 nki.simulate_kernel() 时得到的输出值与预期不同？","这通常是由于 psum（部分和）累加循环中的行为导致的。当 matmul 指令写入 psum 时，有两种模式：覆盖模式（psum[idx] = matmul）和累加模式（psum[idx] += matmul）。编译器在累加循环的第一个 matmul 操作中会自动设置 overwrite=True（覆盖模式），这意味着进入循环时 psum 中任何预先存在的值都会被忽略。如果您在循环前初始化了 psum 的值，这些值在第一次迭代时会被覆盖，从而导致结果差异。","https:\u002F\u002Fgithub.com\u002Faws-neuron\u002Faws-neuron-sdk\u002Fissues\u002F1051",{"id":139,"question_zh":140,"answer_zh":141,"source_url":137},30927,"如何调试 NKI kernel 中的中间值，特别是当 device_print() 仅在模拟模式下工作时？","由于 nki.language.device_print() 仅在内核模拟（simulation）期间有效，调试实际运行时的中间值较为困难。建议首先使用 nki.simulate_kernel() 进行逻辑验证。如果遇到模拟与实际运行结果不一致的情况（如 psum 覆盖问题），请检查是否在累加循环外错误地预设了 psum 值。此外，可以尝试将 affine_range() 替换为 sequential_range() 以排除并行执行导致的问题，尽管这可能无法解决所有逻辑错误。",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},30928,"编译 HuggingFace BERT 模型时遇到 torch.channels_last_3d AttributeError 错误或张量形状不匹配问题怎么办？","AWS Neuron 编译器要求模型输入具有固定的张量形状（Fixed Tensor Sizes）。如果模型在编译过程中张量形状发生变化（例如动态序列长度），会导致编译失败或运行时错误。解决方法是修改代码，确保输入模型的张量形状在编译时是固定的。您可以参考相关 Issue #182 中的示例代码，通过填充（padding）或截断（truncation）将输入统一为固定长度后再进行编译。","https:\u002F\u002Fgithub.com\u002Faws-neuron\u002Faws-neuron-sdk\u002Fissues\u002F138",{"id":148,"question_zh":149,"answer_zh":150,"source_url":151},30929,"在 Docker 容器中部署 BentoML 时遇到 'Neuron Runtime GRPC server ... is unavailable' 错误如何解决？","该错误通常是因为容器内无法访问 Neuron Runtime 守护进程（neuron-rtd）的 socket 文件。启动 Docker 容器时，必须正确挂载 socket 目录并设置环境变量。请使用以下参数运行容器：\n1. 挂载卷：-v \u002Ftmp\u002Fneuron_rtd_sock\u002F:\u002Fsock\n2. 设置环境变量：--env NEURON_RTD_ADDRESS=unix:\u002Fsock\u002Fneuron.sock\n3. 添加必要权限：--cap-add SYS_ADMIN --cap-add IPC_LOCK\n确保宿主机上的 neuron-rtd 服务正在运行，且 \u002Ftmp\u002Fneuron_rtd_sock\u002F 目录具有正确的读写权限。","https:\u002F\u002Fgithub.com\u002Faws-neuron\u002Faws-neuron-sdk\u002Fissues\u002F290",{"id":153,"question_zh":154,"answer_zh":155,"source_url":156},30930,"为什么在 Inf1 实例上转换带有 past_key_values 的模型（如 BART, DistilBART）时会出现重复输出或运行无限挂起？","这是因为 Neuron 推理要求模型输入必须是固定形状的张量。对于包含 past_key_values 的生成式模型，随着解码器迭代次数增加，past_key_values 张量的大小会随之增长（形状变化）。这种动态形状变化与 Neuron 的固定形状约束不兼容，导致编译后的模型行为异常（如重复输出）或编译过程卡死。目前需要在模型架构层面进行修改，使其适应固定形状输入，或者避免在 Neuron 上直接运行此类动态长度的生成任务。","https:\u002F\u002Fgithub.com\u002Faws-neuron\u002Faws-neuron-sdk\u002Fissues\u002F420",{"id":158,"question_zh":159,"answer_zh":160,"source_url":137},30931,"在使用 NKI 编写 conv2d kernel 时遇到编译器错误，如何绕过已知的编译器 Bug？","如果遇到特定的编译器 Bug 导致 correctness test 失败，可以尝试避免在张量索引中使用多余的维度。例如，在加载张量时，确保索引方式简洁，避免复杂的切片操作触发编译器错误。具体代码调整可能涉及将 X_tensor 的加载方式简化，例如使用 nl.load(X_reshaped[b, ic, :, ih, :]) 而不是更复杂的索引组合。此外，利用 affine_range 进行循环展开时，需注意矩阵乘法的转置要求和 psum 的累加逻辑。",[162,167,172,177,182,187,192,197,202,207,212,217,222,227,232,237,242,247,252,257],{"id":163,"version":164,"summary_zh":165,"released_at":166},222748,"v2.29.0","## AWS Neuron SDK 2.29.0：NKI 现已稳定、新增 CPU 模拟器，并扩展 NKI 库\r\n=======================================\r\n\r\n**发布日期**：2026年4月9日\r\n\r\n\r\n今天我们发布了 AWS Neuron SDK 2.29.0。此版本将 NKI 0.3.0 从 Beta 阶段正式推向稳定版，带来了全新的 NKI 标准库以及一个实验性的 CPU 模拟器，用于在无需 Trainium 硬件的情况下进行本地内核开发。NKI 库新增了 7 个实验性内核，包括 Conv1D、Transformer TKG 巨型内核以及通信与计算融合原语；同时对现有的注意力机制、MLP 和 MoE 内核也进行了优化。NxD 推理为 Qwen2 VL、Qwen3 VL 和 Flux.1 模型带来了性能提升。Neuron 运行时引入了用于集体流管理和网络代理调优的新 API。Neuron Explorer 现已脱离 Beta 阶段并进入稳定版，在系统跟踪查看器中实现了对设备小部件的完整支持，并已在 VS Code 扩展市场上线。Neuron 驱动程序则新增了对 Trn3 Gen2 超级服务器新配置的支持。\n\n---\n\n### Neuron 内核接口 (NKI)\nAWS Neuron SDK 2.29.0 引入了 NKI 0.3.0，这是 Neuron 内核接口的最新版本。NKI 0.3.0 现已从 Beta 阶段转为稳定版。它包含 NKI 标准库（nki-stdlib），该库为所有 NKI API 和原生语言对象（如 NkiTensor）提供了开发者可见的代码。此版本在 NKI API 中公开了新的 Trainium 功能特性，并重新引入了 nki.language API。\n\nNKI CPU 模拟器（实验性）：NKI 0.3.0 包含一个 CPU 模拟器，可在纯 CPU 上执行 NKI 内核，从而允许开发者利用廉价的 CPU 和计算实例快速完成开发周期，验证内核的正确性。用户可以使用标准的 Python 单步调试工具和插桩技术，打印出每行内核代码的执行结果。可通过设置 NKI_SIMULATOR=1 来启用，或直接调用 nki.simulate(kernel)。\n\n新增语言 API（实验性）：重新引入了 nki.language 高层次便捷封装函数，包括 nl.load、nl.store、nl.copy、nl.matmul、nl.transpose 和 nl.softmax。\n\n新的指令集架构与硬件特性：新增了为 Trn3（NeuronCore-v4）上的 DMA 操作和集体通信操作设置优先级的功能。专门的 nki.isa.exponential 指令针对 VectorE 的指数运算（exp）进行了向量化优化。此外，通过 nc_matmul 和 nc_matmul_mx 中的 accumulate 参数，新增了矩阵乘法累加控制功能。现在还可通过 nki.collectives.all_to_all_v 使用可变长度的全互连集体通信操作。\n\n重大变更：NKI 0.3.0 包含多项破坏性 API 变更，旨在提升代码的正确性和一致性。所有内核都必须更新至 NKI 0.3.0 版本；在同一模型中混用 Beta 2 版本的内核是不被支持的。有关全部变更列表及迁移示例，请参阅 [NKI 0.3.0 更新指南](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Fnki\u002Fdeep-dives\u002Fnki-0-3-0-update-guide.html)。\n\n更多详情，请参阅 [Neuron 内核接口 (NKI) [0.3.0]（Neuron 2.29.0 发布）](https:\u002F\u002Faws","2026-04-09T21:07:11",{"id":168,"version":169,"summary_zh":170,"released_at":171},222749,"v2.28.1","# AWS Neuron SDK 发行说明 - v2.28.1\n\n**发布日期**：2026年3月13日\n\n---\n\nAWS Neuron SDK 的 **2.28.1** 版本包含针对 AWS Neuron SDK v2.28.0 的错误修复。有关 2.28.0 版本中包含的完整变更列表，请参阅 [Neuron SDK v2.28.0 发行说明](https:\u002F\u002Fgithub.com\u002Faws-neuron\u002Faws-neuron-sdk\u002Freleases\u002Ftag\u002Fv2.28.0)。\n\n---\n\n## 错误修复\n\n**Neuron 自定义 C++ 算子库** — 修复了作为 Neuron 2.28.0 版本一部分发布的 `aws-neuronx-gpsimd-customop-lib` 版本 `0.20.4` 中的软件包依赖性问题。\n\n**Neuron 驱动程序** — 修复了 Neuron 运行时驱动程序与 Linux 内核 6.18 的兼容性问题。\n\n---\n\n> 有关完整的组件级发行说明，请参阅 [Neuron 2.28.1 组件发行说明](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Frelease-notes\u002F2.28.1.html)。","2026-03-14T16:44:59",{"id":173,"version":174,"summary_zh":175,"released_at":176},222750,"v2.28.0","# AWS Neuron SDK 发行说明 - v2.28.0\n\n**发布日期**：2026年2月25日\n\n---\n\n今天我们发布了 AWS Neuron SDK 2.28.0。此版本通过系统性能剖析、张量查看器和数据库查看器增强了 Neuron Explorer，以实现全面的性能分析。NxD 推理新增对 Qwen2\u002FQwen3 VL 视觉语言模型、Flux.1 图像修复功能以及 Eagle3 推测解码的支持。NKI 库扩展了9个新内核，包括 RoPE、MoE 操作，以及用于注意力机制和交叉熵的实验性内核。NKI（Beta 2）引入了 LNC 多核支持，包含 LNC 内部集体通信操作和新 API。Kubernetes 用户现在可以使用 Neuron DRA 驱动程序进行高级资源分配。\n\n---\n\n## 开发者工具与性能剖析\n\n**Neuron Explorer 增强功能** — 新增系统性能剖析支持，并提供深入导航至设备剖析的功能。新的张量查看器可通过显示张量名称、形状、大小和内存占用情况，帮助识别内存瓶颈。数据库查看器则提供交互式界面，允许用户使用 SQL 或自然语言查询剖析数据。剖析管理器现支持基于标签的组织和搜索。现已提供从 Neuron Profiler\u002FProfiler 2.0 迁移的指南。\n\n**nccom-test 改进** — 数据完整性检查得到增强，采用伪随机数据模式以更好地检测数据损坏。新增对 `alltoallv` 集体通信操作的支持，用于基准测试可变大小的全互连通信模式。\n\n---\n\n## 推理更新\n\n**NxD Inference 0.8.16251** — 新增对视觉语言模型的支持，包括 Qwen2 VL（Qwen2-VL-7B-Instruct）和 Qwen3 VL（Qwen3-VL-8B-Thinking），用于处理文本和图像输入（测试版）。Pixtral 模型的支持得到改进，在 Trn2 上使用 vLLM V1 时，批大小可达32，序列长度可达10240。Flux.1 模型新增图像修复、外扩修复、Canny 边缘检测以及基于深度的图像生成等功能（测试版）。\n\n**vLLM Neuron 插件 0.4.0** — 多 LoRA 服务功能得到增强，可通过 vLLM 的 `load_adapter` API 实现 LoRA 适配器的流式加载和动态运行时加载。启用多 LoRA 服务时，用户现在可以单独运行基础模型。新增对 Llama 3.1 8B 的 Eagle3 推测解码支持。已更新以支持 vLLM v0.13.0 和 PyTorch 2.9。\n\n---\n\n## NKI 库\n\n**9个新内核** — NKI 库的文档化内核 API 由7个增至16个。新增的核心内核包括：\n\n- **RoPE** — 旋转位置嵌入\n- **Router Top-K** — MoE 的专家选择\n- **MoE CTE** — 上下文编码\n- **MoE TKG** — 令牌生成\n- **Cumsum** — 累积求和\n\n新增的实验性内核包括：\n\n- **Attention Block TKG** — 用于令牌生成的融合注意力机制\n- **Cross Entropy** — 前向和反向传播\n- **Depthwise Conv1D**\n- **Blockwise MM Backward** — 用于 MoE 训练\n\n**增强的量化支持** — 现有内核在 QKV、MLP 和输出投影内核中均支持 FP8 和 MX 量化。QKV 内核新增了 FP8 KV 缓存融合量化。","2026-02-26T04:46:52",{"id":178,"version":179,"summary_zh":180,"released_at":181},222751,"v2.27.1","AWS Neuron SDK 发行说明 - v2.27.1\n=======================================\n\n**发布日期**：2026年1月14日\n\nAWS Neuron SDK 的 **2.27.1** 版本包含针对 AWS Neuron SDK v2.27.0 的错误修复。有关 2.27.0 版本中所有变更的完整列表，请参阅 [Neuron SDK v2.27.0 发行说明](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Frelease-notes\u002F2.27.0\u002Findex.html)。\n\n有哪些变化？\n----------------\n\n**Neuron DLAMI**\n\n* 所有 DLAMI 虚拟环境均已添加对 NKI 的支持。\n\n\n错误修复\n----------\n\n**NxD 推理**\n\n* 修复了在更改模型配置时可能影响 Llama 4 的稳定性问题。\n* 从 Qwen3-MoE 模型实现中移除了一个调试打印语句。\n\n----\n\n有关 Neuron DLC 中已知问题的信息，请参阅 [Neuron DLC 组件发行说明](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Frelease-notes\u002Fcontainers\u002Fneuron-dlc.html)。","2026-01-15T18:48:14",{"id":183,"version":184,"summary_zh":185,"released_at":186},222752,"v2.27.0","## AWS Neuron SDK 2.27.0 发行说明\n\n此版本新增对 Trainium3 (Trn3) 实例的支持。增强的 NKI 工具链引入了新的 NKI 编译器，并推出了 `nki.*` 命名空间，其中包含更新的 API 和语言构造。NKI 库为常见的模型操作提供了预优化的内核，包括注意力机制、多层感知机 (MLP) 和归一化等。Neuron Explorer 提供了一套统一的性能分析工具，并结合 AI 驱动的优化建议。通过 vLLM-Neuron 插件，现已支持 vLLM V1 的集成。深度学习容器和 AMI 已更新至 vLLM V1、PyTorch 2.9、JAX 0.7、Ubuntu 24.04 和 Python 3.12。\n\n除本次发布外，我们还推出了多项新功能与特性，目前以私有测试版形式开放访问（详见“私有测试版访问”章节）。此外，我们宣布自 Neuron 2.28 版本起，将全面过渡到 PyTorch 原生支持（从 PyTorch 2.10 开始）；同时计划在后续版本中简化 NxDI 架构，以及其他重要更新。更多详细信息请参阅“支持终止与迁移通知”章节。\n\n### Neuron 内核接口 (NKI)\n\n**NKI 编译器** — 新的 `nki.*` 命名空间取代了原有的 `neuronxcc.nki.*` 命名空间。顶级内核函数现在必须使用 `@nki.jit` 注解。Neuron 2.27 版本可同时兼容这两个命名空间；原有命名空间将在 Neuron 2.28 中被移除。相关文档中提供了内核迁移指南。\n\n### NKI 库\n\nNKI 库提供了预优化的内核：Attention CTE、Attention TKG、MLP、Output Projection CTE、Output Projection TKG、QKV 以及 RMSNorm-Quant。这些内核可通过 neuronx-cc 中的 `nkilib.*` 命名空间或 GitHub 仓库获取。\n\n### 开发者工具\n\n**Neuron Explorer** — 这是一套专为 ML 工程师在 AWS Trainium 平台上进行开发而设计的工具集。本次发布对设备性能分析的功能和用户体验进行了优化，新增四个核心视图，帮助用户深入了解模型性能：\n\n- **层次视图**：可视化模型结构及各组件之间的交互\n- **AI 建议视图**：提供基于 AI 的优化建议\n- **源代码视图**：将性能分析数据直接关联到源代码\n- **摘要视图**：展示高层次的性能指标\n\nNeuron Explorer 支持通过 UI、CLI 以及 VSCode IDE 集成使用。现有的 NTFF 文件仍可兼容，但若需使用新功能，则需要重新处理。\n\n新增教程涵盖了 NKI 内核的性能分析、多节点训练任务以及 vLLM 推理工作负载的分析。nccom-test 工具现支持细粒度的集体通信功能。\n\n### 推理相关更新\n\n**vLLM V1** — vLLM-Neuron 插件实现了 vLLM V1 在推理工作负载中的集成。vLLM V0 的支持将于 Neuron 2.28 版本中终止。\n\n**NxD 推理** — 模型支持范围进一步扩大，现已推出 Qwen3 MoE (Qwen3-235B-A22B) 和 Pixtral (Pixtral-Large-Instruct-2411) 的测试版，分别用于多语言文本处理和图像理解任务。这两款模型均采用 HuggingFace 检查点，并可在 Trn2 和 Trn3 实例上运行。\n","2025-12-20T02:36:12",{"id":188,"version":189,"summary_zh":190,"released_at":191},222753,"v2.26.1","概述\nAWS Neuron SDK 2.26.1 版本包含针对 AWS Neuron SDK 2.26.0 版本的错误修复。有关 2.26.0 版本中所有变更的完整列表，请参阅 [Neuron SDK 2.26.0 发行说明](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Fpull_request_2.26.1\u002Frelease-notes\u002F2.26.0\u002Findex.html#neuron-2-26-0-whatsnew)。\n\n此版本中的错误修复\n修复：为解决 torch-neuronx 中的内存不足错误问题，本版本允许您使用 [Neuron 运行时 API](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Fpull_request_2.26.1\u002Fneuron-runtime\u002Fnrt-api-guide.html) 来执行直接内存分配。\n\n资源\n有关 2.26.1 版本中 SDK 软件包版本的变更，请参阅 [发行内容](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Fpull_request_2.26.1\u002Frelease-notes\u002Freleasecontent.html#latest-neuron-release-artifacts)。","2025-10-29T23:21:02",{"id":193,"version":194,"summary_zh":195,"released_at":196},222754,"v2.26.0","AWS Neuron SDK 2.26.0 新增对 PyTorch 2.8 和 JAX 0.6.2 的支持，并引入对 Python 3.11 的兼容性，同时在 Trainium2（Trn2）平台上带来了推理性能的提升。此版本扩展了模型支持范围，增强了并行化功能，推出了全新的 Neuron Kernel Interface（NKI）API，并改进了用于优化和性能分析的开发工具。\n\n【推理更新】\nNxD 推理——模型支持进一步扩展，在 Trn2 上新增 Llama 4 Scout 和 Maverick 变体的测试版支持。FLUX.1-dev 图像生成模型现已在 Trn2 实例上提供测试版。\n\n专家并行化功能现已进入测试阶段，允许将 MoE 模型中的专家分布到多个 NeuronCore 上。此外，本版本还推出了设备端前向流水线执行的测试功能，并为 MoE 路由器增加了序列并行化支持，以提升模型部署的灵活性。\n\n【Neural Kernel Interface（NKI）】\n新 API 提供了更多优化能力：\n- `gelu_apprx_sigmoid`：使用 sigmoid 近似实现 GELU 激活函数\n- `select_reduce`：带最大值归约的元素选择复制操作\n- `sequence_bounds`：序列边界计算\n\nAPI 改进包括：\n- `tile_size`：新增 `total_available_sbuf_size` 字段\n- `dma_transpose`：新增用于 4D 转置的 `axes` 参数\n- `activation`：新增 `gelu_apprx_sigmoid` 操作\n\n【开发者工具】\nNeuron Profiler 的改进包括：现在可以同时选择多个信号量，以便将待处理的活动与信号量的等待和递增操作关联起来。此外，系统性能剖析的分组方式已从基于进程本地 ID 改为使用全局 NeuronCore ID，从而在分布式工作负载中提供更清晰的视图。Profiler 现在还会针对因缓冲区空间不足而导致事件丢失的情况发出警告。\n\n`ncom-test` 工具新增了对 Trn2 上集体通信操作的状态缓冲区支持，涵盖 `all-reduce`、`all-gather` 和 `reduce-scatter` 等操作。错误报告功能现可提供无效全对全集体通信尺寸的相关提示，帮助开发者快速定位并解决问题。\n\n【深度学习 AMI 和容器】\n深度学习 AMI 现已支持在 Amazon Linux 2023 和 Ubuntu 22.04 上运行 PyTorch 2.8。容器更新方面，所有 DLC 镜像均已升级至 PyTorch 2.8.0 和 Python 3.11。同时，PyTorch 推理专用的 DLAMI\u002FDLC 中已移除 transformers-neuronx 环境及软件包。\n\n【组件发布说明】\n这些组件发布说明详细介绍了具体的新特性、改进内容以及可能的破坏性变更，bu","2025-09-19T22:33:07",{"id":198,"version":199,"summary_zh":200,"released_at":201},222765,"v2.20.0","Neuron 2.20 release introduces usability improvements and new capabilities across training and inference workloads. A key highlight is the introduction of [Neuron Kernel Interface (beta)](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Fv2.20.0\u002Fgeneral\u002Fnki\u002Findex.html#neuron-nki). NKI, pronounced ‘Nicky’, is enabling developers to build optimized custom compute kernels for Trainium and Inferentia. Additionally, this release introduces [NxD Training (beta)](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Fv2.20.0\u002Flibraries\u002Fnxd-training\u002Findex.html#nxdt), a PyTorch-based library enabling efficient distributed training, with a user-friendly interface compatible with NeMo. This release also introduces the support for the [JAX framework (beta)](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Fv2.20.0\u002Fframeworks\u002Fjax\u002Findex.html#jax-neuron-main).\r\n\r\nNeuron 2.20 also adds inference support for Pixart-alpha and Pixart-sigma Diffusion-Transformers (DiT) models, and adds support for Llama 3.1 8B,70B and 405B models inference supporting up to 128K context length.\r\n","2024-09-17T01:58:10",{"id":203,"version":204,"summary_zh":205,"released_at":206},222766,"v2.19.1","This release (Neuron 2.19.1) addresses an issue with the Neuron Persistent Cache that was introduced in the previous release, Neuron 2.19. The issue resulted in a cache-miss scenario when attempting to load a previously compiled Neuron Executable File Format (NEFF) from a different path or Python environment than the one used for the initial Neuron SDK installation and NEFF compilation. This release resolves the cache-miss problem, ensuring that NEFFs can be loaded correctly regardless of the path or Python environment used to install the Neuron SDK, as long as they were compiled using the same Neuron SDK version.","2024-07-22T17:20:52",{"id":208,"version":209,"summary_zh":210,"released_at":211},222755,"v2.25.0","Neuron 2.25.0 在多个关键领域带来了更新：推理性能优化、模型支持扩展、剖析功能增强、监控与可观测性工具改进、框架更新，以及开发环境和容器镜像的更新。该版本还包括对 SDK 各组件的错误修复，并为新功能和模型部署更新了教程和文档。\n\n[推理优化（NxD Core 和 NxDI）](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Frelease-notes\u002F2.25.0\u002Findex.html#id2)  \nNeuron 2.25.0 引入了性能优化和新功能，包括：\n\n- 设备端前向流水线，可将 Pixtral 等模型的延迟降低多达 43%；\n- 上下文并行和数据并行支持，以提升批处理扩展能力；\n- 分块注意力机制，用于高效处理长序列；\n- Llama 70B 模型支持 128K 的上下文长度；\n- 自动别名（Beta 版），可加速张量运算；\n- 解耦式服务（Beta 版），在 ITL\u002FTTST 方面提升了 20%。\n\n[模型支持（NxDI）](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Frelease-notes\u002F2.25.0\u002Findex.html#id3)  \nNeuron 2.25.0 扩展了模型支持范围，新增以下模型：\n\n- Qwen3 密集模型（0.6B 至 32B 参数）；\n- Flux.1-dev 文本到图像生成模型（Beta 版）；\n- Pixtral-Large-Instruct-2411 图像到文本生成模型（Beta 版）。\n\n[剖析功能更新](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Frelease-notes\u002F2.25.0\u002Findex.html#id4)  \n剖析功能的增强包括：\n\n- 新增时间戳同步点，以对齐设备执行与 CPU 事件；\n- 扩展 JSON 输出，提供与 Neuron Profiler UI 相同的详细数据集；\n- 新增总活跃时间指标，以百分比形式展示加速器在总运行时间中的利用率；\n- 修复了 DMA 活跃时间计算问题，使测量结果更加准确。\n\n[监控与可观测性](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Frelease-notes\u002F2.25.0\u002Findex.html#id5)  \n- neuron-ls 现在会显示 CPU 和 NUMA 节点亲和性信息；\n- neuron-ls 增加了每个 Neuron Device 的 NeuronCore ID 显示；\n- neuron-monitor 提升了设备利用率指标的准确性。\n\n[框架更新](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Frelease-notes\u002F2.25.0\u002Findex.html#id6)  \n- 新增对 JAX 0.6.1 的支持，同时保持与 0.4.31–0.4.38 及 0.5 版本的兼容性；\n- vLLM 支持升级至 0.9.x V0 版本。\n\n[开发环境更新](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Frelease-notes\u002F2.25.0\u002Findex.html#id7)  \nNeuron SDK 已更新至 2.25.0 版本，适用于以下镜像：\n\n- Ubuntu 22.04 和 Amazon Linux 2023 上的深度学习 AMI；\n- 同时支持 PyTorch 和 JAX 环境的多框架 DLAMI；\n- PyTorch 2.7 单框架 DLAMI；\n- JAX 0.6 单框架 DLAMI。\n\n[容器支持](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Frelease-notes\u002F2.25.0\u002Findex.html#id8)  \nNeuron SDK 已更新至 2.25.0 版本，适用于以下容器镜像：\n\n- PyTorch 2.7 T","2025-08-01T00:21:34",{"id":213,"version":214,"summary_zh":215,"released_at":216},222756,"v2.24.0","Neuron 2.24 版本引入了多项新的推理功能，包括前缀缓存、解耦式推理（Beta）以及上下文并行化支持（Beta）。此外，该版本还增强了 NKI 语言功能，并提供了更完善的性能剖析可视化工具，以帮助开发者更好地进行调试和性能分析。Neuron 2.24 现已支持 PyTorch 2.7 和 JAX 0.6，更新了现有的 DLAMI 和 DLC，并推出了一款全新的 vLLM 推理容器。","2025-06-25T02:54:54",{"id":218,"version":219,"summary_zh":220,"released_at":221},222757,"v2.23.0","在 Neuron 2.23 版本中，我们正式将 NxD 推理（NxDI）库从测试版转为正式发布。现在，NxDI 已被推荐用于所有多芯片推理场景。此外，Neuron 还新增了训练能力，包括上下文并行和 ORPO，以及 NKI 的多项改进（新算子和 ISA 特性），并针对 Neuron Profiler 的调试与性能分析进行了优化。最后，Neuron 现已支持 PyTorch 2.6 和 JAX 0.5.3。\n\n**推理：** NxD 推理（NxDI）已从测试版进入 GA 阶段。NxDI 现在支持持久化缓存，以缩短编译时间，并通过优化权重分片性能来提升模型加载效率。\n\n**训练：** NxD 训练（NxDT）为 Llama 模型新增了上下文并行支持（测试版），可支持最长 32K 的序列长度。NxDT 现在还支持基于 DPO 风格数据集的模型对齐和 ORPO 训练。同时，NxDT 对第三方库的支持也得到了升级，具体包括：PyTorch Lightning 2.5、Transformers 4.48 和 NeMo 2.1。\n\n**Neuron 内核接口（NKI）：** GPSIMD 引擎新增了对 32 位整数 nki.language.add 和 nki.language.multiply 的支持。NKI.ISA 方面的改进包括 Trainium2 的 range_select 功能、更精细的引擎控制，以及增强的张量运算能力。此外，还新增了性能调优 API `no_reorder`，允许用户手动调度指令。结合内存分配机制，这一功能可实现软件流水线化。针对不同循环类型、PSUM 和 SBUF，算术运算符（+=、-=、\u002F=、*=）的语言一致性也得到了进一步提升。\n\n**Neuron Profiler：** 性能剖析能力显著增强，用户平均可快 5 倍查看剖析结果。新增特性包括基于时间线的错误追踪和 JSON 格式的错误事件报告，支持执行时错误及 OOB 错误的检测。此外，本次版本还通过 Perfetto 改进了多进程可视化效果。\n\n**Neuron 监控：** 在 neuron monitor 的 Prometheus 输出中新增了 Kubernetes 上下文信息（pod_name、namespace 和 container_name），从而支持按 Pod、命名空间和容器粒度进行资源利用率的跟踪。\n\n**Neuron DLCs：** 本次版本更新了容器镜像，为 PyTorch 2.6 提供了推理和训练支持。对于 JAX DLC，此次新增了对 JAX 0.5.0 的训练支持。\n\n**Neuron DLAMIs：** 本次版本更新了多框架 AMI，加入了 PyTorch 2.6、JAX 0.5 和 TensorFlow 2.10；同时也更新了单框架 AMI，分别包含 PyTorch 2.6 和 JAX 0.5。","2025-05-20T19:03:53",{"id":223,"version":224,"summary_zh":225,"released_at":226},222758,"v2.22.1","Neuron 2.22.1 release includes a Neuron Driver update that resolves DMA abort errors on Trainium2 devices. These errors were previously occurring in the Neuron Runtime during specific workload executions.\r\n\r\n","2025-05-12T23:10:32",{"id":228,"version":229,"summary_zh":230,"released_at":231},222759,"v2.22.0","The Neuron 2.22 release includes performance optimizations, enhancements and new capabilities across the Neuron software stack. \r\n\r\nFor inference workloads, the NxD Inference library now supports Llama-3.2-11B model and supports multi-LoRA serving, allowing customers to load and serve multiple LoRA adapters. Flexible quantization features have been added, enabling users to specify which model layers or NxDI modules to quantize. Asynchronous inference mode has also been introduced, improving performance by overlapping Input preparation with model execution.\r\n\r\nFor training, we added LoRA supervised fine-tuning to NxD Training to enable additional model customization and adaptation.\r\n\r\nNeuron Kernel Interface (NKI): This release adds new APIs in nki.isa, nki.language, and nki.profile. These enhancements provide customers with greater flexibility and control.\r\n\r\nThe updated Neuron Runtime includes optimizations for reduced latency and improved device memory footprint. On the tooling side, the Neuron Profiler 2.0 (beta) has added UI enhancements and new event type support.\r\n\r\nNeuron DLCs: this release reduces DLC image size by up to 50% and enables faster build times with updated Dockerfiles structure. On the Neuron DLAMI side, new PyTorch 2.5 single framework DLAMIs have been added for Ubuntu 22.04 and Amazon Linux 2023, along with several new virtual environments within the Neuron Multi Framework DLAMIs.","2025-04-04T05:52:46",{"id":233,"version":234,"summary_zh":235,"released_at":236},222760,"v2.21.1","Neuron 2.21.1 release pins Transformers NeuronX dependency to transformers\u003C4.48 and fixes DMA abort errors on Trn2.\r\n\r\nAdditionally, this release addresses NxD Core and Training improvements, including fixes for sequence parallel support in quantized models and a new flag for dtype control in Llama3\u002F3.1 70B configurations. See [NxD Training Release Notes](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Frelease-notes\u002Fneuronx-distributed-training\u002Fneuronx-distributed-training.html#neuronx-distributed-training-rn-1-1-0) (neuronx-distributed-training) for details.\r\n\r\nNxD Inference update includes minor bug fixes for sampling parameters. See [NxD Inference Release Notes](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Frelease-notes\u002Fneuronx-distributed-inference\u002Fneuronx-distributed-inference.html#neuronx-distributed-inference-rn).\r\n\r\nNeuron supported DLAMIs and DLCs have been updated to Neuron 2.21.1 SDK. Users should be aware of an incompatibility between Tensorflow-Neuron 2.10 (Inf1) and Neuron Runtime 2.21 in DLAMIs, which will be addressed in the next minor release. See [Neuron DLAMI Release Notes](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Frelease-notes\u002Fdlami\u002Fneuron-dlami.html#neuron-dlami-release-notes).\r\n\r\nThe Neuron Compiler includes bug fixes and performance enhancements specifically targeting the Trn2 platform.","2025-01-15T06:22:46",{"id":238,"version":239,"summary_zh":240,"released_at":241},222761,"v2.21.0","**Overview**: Neuron 2.21.0 introduces support for [AWS Trainium 2](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Fgeneral\u002Farch\u002Fneuron-hardware\u002Ftrainium2.html#trainium2-arch) and [Trn2 instances](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Fgeneral\u002Farch\u002Fneuron-hardware\u002Ftrn2-arch.html#aws-trn2-arch), including the trn2.48xlarge instance type and Trn2 UltraServer. The release adds new capabilities in both training and inference of large-scale models. It introduces [NxD Inference (beta)](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Fgeneral\u002Fappnotes\u002Fneuronx-distributed\u002Fintroducing-nxd-inference.html#introduce-nxd-inference), a PyTorch-based library for deployment, [Neuron Profiler 2.0 (beta)](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Ftools\u002Fneuron-sys-tools\u002Fneuron-profiler-2-0-beta-user-guide.html#neuron-profiler-2-0-guide), and [PyTorch 2.5](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Fgeneral\u002Fappnotes\u002Ftorch-neuronx\u002Fintroducing-pytorch-2-x.html#introduce-pytorch-2-5) support across the Neuron SDK, and [Logical NeuronCore Configuration (LNC)](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Fgeneral\u002Farch\u002Fneuron-features\u002Flogical-neuroncore-config.html#logical-neuroncore-config) for optimizing NeuronCore allocation. The release enables [Llama 3.1 405B model inference](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Flibraries\u002Fnxd-inference\u002Ftutorials\u002Ftrn2-llama3.1-405b-tutorial.html#nxdi-trn2-llama3-1-405b-tutorial) on a single trn2.48xlarge instance.\r\n\r\n**NxD Inference**: [NxD Inference (beta)](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Flibraries\u002Fnxd-inference\u002Fnxdi-overview.html#nxdi-overview) is a new PyTorch-based inference library for deploying large-scale models on AWS Inferentia and Trainium instances. It enables PyTorch model onboarding with minimal code changes and integrates with [vLLM](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Flibraries\u002Fnxd-inference\u002Fdeveloper_guides\u002Fvllm-user-guide.html#nxdi-vllm-user-guide). NxDI supports various model architectures, including Llama versions for text processing (Llama 2, Llama 3, Llama 3.1, Llama 3.2, and Llama 3.3), [Llama 3.2 multimodal for multimodal tasks](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Flibraries\u002Fnxd-inference\u002Ftutorials\u002Fllama3.2-multimodal-tutorial.html#nxdi-llama3-2-multimodal-tutorial), and Mixture-of-Experts (MoE) model architectures including Mixtral and DBRX. The library supports quantization methods, includes dynamic sampling, and is compatible with HuggingFace checkpoints and generate() API. NxDI also supports distributed strategies including tensor parallelism and incorporates speculative decoding techniques (Draft model and EAGLE). The release includes a Llama 3.1 405B model sample on a single trn2.48xlarge instance [Llama 3.1 405B model inference](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Flibraries\u002Fnxd-inference\u002Ftutorials\u002Ftrn2-llama3.1-405b-tutorial.html#nxdi-trn2-llama3-1-405b-tutorial).\r\n\r\nFor more information, see [NxD Inference documentation](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Flibraries\u002Fnxd-inference\u002Fnxdi-overview.html#nxdi-overview) and check the NxD Inference Github repository: [aws-neuron\u002Fneuronx-distributed-inference](https:\u002F\u002Fgithub.com\u002Faws-neuron\u002Fneuronx-distributed-inference)\r\n\r\n**Transformers NeuronX (TNx)**: This release introduces several new features, including flash decoding support for speculative decoding, and on-device generation in speculative decoding flows. It adds [Eagle speculative decoding](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Flibraries\u002Ftransformers-neuronx\u002Ftransformers-neuronx-developer-guide-for-continuous-batching.html#cb-eagle-speculative-decoding) with greedy and lossless sampling, as well as support for [CPU compilation](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Flibraries\u002Ftransformers-neuronx\u002Ftransformers-neuronx-developer-guide.html#transformers-neuronx-developer-guide) and sharded model saving. Performance improvements include optimized MLP and QKV for Llama models with sequence parallel norm and control over concurrent compilation workers.\r\n\r\n**Training Highlights:** NxD Training in this release adds support for HuggingFace [Llama3\u002F3.1 70B](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Flibraries\u002Fnxd-training\u002Ftutorials\u002Fhf_llama3_70B_pretraining.html#hf-llama3-70b-pretraining) on trn2 instances, introduces [DPO support](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Flibraries\u002Fnxd-training\u002Ftutorials\u002Fhf_llama3_8B_DPO.html#hf-llama3-8b-dpo) for post-training model alignment, and adds support for Mixture-of-Experts (MoE) models including Mixtral 7B. The release includes improved [checkpoint conversion](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Flibraries\u002Fnxd-training\u002Ftutorials\u002Fcheckpoint_conversion.html#checkpoint-conversion) capabilities and supports MoE with Tensor, Sequence, Pipeline, and Expert parallelism.\r\n","2024-12-21T07:34:50",{"id":243,"version":244,"summary_zh":245,"released_at":246},222762,"v2.21.0.beta","Neuron 2.21 beta introduces support for [AWS Trainium2](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Fgeneral\u002Farch\u002Fneuron-hardware\u002Ftrainium2.html#trainium2-arch) and [Trn2 instances](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Fgeneral\u002Farch\u002Fneuron-hardware\u002Ftrn2-arch.html#aws-trn2-arch), including the trn2.48xlarge instance type and u-trn2 UltraServer. The release showcases Llama 3.1 405B model inference using NxD Inference on a single trn2.48xlarge instance, and FUJI 70B model training using the AXLearn library across eight trn2.48xlarge instances.\r\n\r\n[NxD Inference](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Flibraries\u002Fnxd-inference\u002Findex.html#nxdi-index), a new PyTorch-based library for deploying large language models and multi-modality models, is introduced in this release. It integrates with vLLM and enables PyTorch model onboarding with minimal code changes. The release also adds support for [AXLearn](https:\u002F\u002Fgithub.com\u002Fapple\u002Faxlearn) training for JAX models.\r\n\r\nThe new [Neuron Profiler 2.0](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Ftools\u002Fneuron-sys-tools\u002Fneuron-profiler-2-0-beta-user-guide.html#neuron-profiler-2-0-guide) introduced in this release offers system and device-level profiling, timeline annotations, and container integration. The profiler supports distributed workloads and provides trace export capabilities for Perfetto visualization.\r\n\r\nThe documentation has been updated to include architectural details about [Trainium2](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Fgeneral\u002Farch\u002Fneuron-hardware\u002Ftrainium2.html#trainium2-arch) and [NeuronCore-v3](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Fgeneral\u002Farch\u002Fneuron-hardware\u002Fneuron-core-v3.html#neuroncores-v3-arch), along with specifications and topology information for the trn2.48xlarge instance type and u-trn2 UltraServer.\r\n\r\n\r\n_**Note:**_\r\nThis release (Neuron 2.21 Beta) was only tested with Trn2 instances. The next release (Neuron 2.21) will support all instances (Inf1, Inf2, Trn1, and Trn2).\r\n\r\nFor access to this release (Neuron 2.21 Beta) contact your account manager.","2024-12-03T20:50:53",{"id":248,"version":249,"summary_zh":250,"released_at":251},222763,"v2.20.2","Neuron 2.20.2 release fixes a stability issue in Neuron Scheduler Extension that previously caused crashes in Kubernetes (K8) deployments. See [Neuron K8 Release Notes](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Frelease-notes\u002Fcontainers\u002Fneuron-k8.html#neuron-k8-rn).\r\n\r\nThis release also addresses a security patch update to Neuron Driver that fixes a kernel address leak issue. See more on [Neuron Driver Release Notes](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Frelease-notes\u002Fruntime\u002Faws-neuronx-dkms\u002Findex.html#neuron-driver-release-notes) and [Neuron Runtime Release Notes](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Frelease-notes\u002Fruntime\u002Faws-neuronx-runtime-lib\u002Findex.html#neuron-runtime-rn).\r\n\r\nAddtionally, Neuron 2.20.2 release updates `torch-neuronx` and `libneuronxla` packages to add support for `torch-xla` 2.1.5 package which fixes checkpoint loading issues with Zero Redundancy Optimizer (ZeRO-1). See [PyTorch Neuron (torch-neuronx) release notes](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Frelease-notes\u002Ftorch\u002Ftorch-neuronx\u002Findex.html#torch-neuronx-rn) and [Neuron XLA pluggable device (libneuronxla) release notes](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Frelease-notes\u002Flibneuronxla\u002Findex.html#libneuronxla-rn).\r\n\r\nNeuron supported DLAMIs and DLCs are updated with this release (Neuron 2.20.2 SDK). The Training DLC is also updated to address the version dependency issues in NxD Training library. See [Neuron DLC Release Notes](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Frelease-notes\u002Fcontainers\u002Fneuron-dlc.html#neuron-dlc-release-notes).\r\n\r\nNxD Training library in Neuron 2.20.2 release is updated to transformers 4.36.0 package. See [NxD Training Release Notes (neuronx-distributed-training)](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Frelease-notes\u002Fneuronx-distributed-training\u002Fneuronx-distributed-training.html#neuronx-distributed-training-rn).","2024-11-21T03:15:38",{"id":253,"version":254,"summary_zh":255,"released_at":256},222764,"v2.20.1","Neuron 2.20.1 release addresses an issue with the Neuron Persistent Cache that was brought forth in 2.20 release. In the 2.20 release, the Neuron persistent cache issue resulted in a cache-miss scenario when attempting to load a previously compiled Neuron Executable File Format (NEFF) from a different path or Python environment than the one used for the initial Neuron SDK installation and NEFF compilation. This release resolves the cache-miss problem, ensuring that NEFFs can be loaded correctly regardless of the path or Python environment used to install the Neuron SDK, as long as they were compiled using the same Neuron SDK version.\r\n\r\nThis release also addresses the excessive lock wait time issue during neuron_parallel_compile graph extraction for large cluster training. See [PyTorch Neuron (torch-neuronx) release notes](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Frelease-notes\u002Ftorch\u002Ftorch-neuronx\u002Findex.html#torch-neuronx-rn) and [Neuron XLA pluggable device (libneuronxla) release notes](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Frelease-notes\u002Flibneuronxla\u002Findex.html#libneuronxla-rn).\r\n\r\nAdditionally, Neuron 2.20.1 introduces new Multi Framework DLAMI for Amazon Linux 2023 (AL2023) that customers can use to easily get started with latest Neuron SDK on multiple frameworks that Neuron supports. See [Neuron DLAMI Release Notes](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Frelease-notes\u002Fdlami\u002Fneuron-dlami.html#neuron-dlami-release-notes).\r\n\r\nNeuron 2.20.1 Training DLC is also updated to pre-install the necessary dependencies and support NxD Training library out of the box. See [Neuron DLC Release Notes](https:\u002F\u002Fawsdocs-neuron.readthedocs-hosted.com\u002Fen\u002Flatest\u002Frelease-notes\u002Fcontainers\u002Fneuron-dlc.html#neuron-dlc-release-notes)","2024-10-26T04:04:18",{"id":258,"version":259,"summary_zh":260,"released_at":261},222767,"v2.19.0","Neuron 2.19 release adds Llama 3 training support and introduces Flash Attention kernel support to enable LLM training and inference for large sequence lengths. Neuron 2.19 also introduces new features and performance improvements to LLM training, improves LLM inference performance for Llama 3 model by upto 20%, and adds tools for monitoring, problem detection and recovery in Kubernetes (EKS) environments, improving efficiency and reliability.\r\n\r\n**Training highlights:** LLM model training user experience using NeuronX Distributed (NxD) is improved by support for Flash Attention to enable training with longer sequence lengths >= 8K. Neuron 2.19 adds support for Llama 3 model training. This release also adds support for Interleaved pipeline parallelism to reduce idle time (bubble size) and enhance training efficiency and resource utilization for large cluster sizes.\r\n\r\n**Inference highlights:** Flash Attention kernel support in the Transformers NeuronX library enables LLM inference for context lengths of up to 32k. This release also adds [Beta] support for continuous batching with `mistralai\u002FMistral-7B-v0.2` in Transformers NeuronX.\r\n\r\n**Tools and Neuron DLAMI\u002FDLC highlights:** This release introduces the new Neuron Node Problem Detector and Recovery plugin in EKS supported Kubernetes environments:a tool to monitor the health of Neuron instances and triggers automatic node replacement upon detecting an unrecoverable error. Neuron 2.19 introduces the new Neuron Monitor container to enable easy monitoring of Neuron metrics in Kubernetes, and adds monitoring support with Prometheus and Grafana. This release also introduces new PyTorch 2.1 and PyTorch 1.13 single framework DLAMIs for Ubuntu 22. Neuron DLAMIs and Neuron DLCs are also updated to support this release (Neuron 2.19).","2024-07-04T01:21:00"]