[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Jamie-Stirling--RetNet":3,"tool-Jamie-Stirling--RetNet":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",142651,2,"2026-04-06T23:34:12",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":76,"owner_url":77,"languages":78,"stars":83,"forks":84,"last_commit_at":85,"license":86,"difficulty_score":32,"env_os":87,"env_gpu":88,"env_ram":89,"env_deps":90,"category_tags":95,"github_topics":76,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":96,"updated_at":97,"faqs":98,"releases":129},4826,"Jamie-Stirling\u002FRetNet","RetNet","An implementation of \"Retentive Network: A Successor to Transformer for Large Language Models\" ","RetNet 是一个基于 PyTorch 实现的开源项目，旨在复现论文《Retentive Network: A Successor to Transformer for Large Language Models》中提出的保留网络架构。作为 Transformer 的潜在继任者，RetNet 致力于解决传统大语言模型在长序列处理时计算效率低、显存占用高以及难以兼顾并行训练与快速推理的痛点。\n\n该项目特别适合 AI 研究人员和深度学习开发者使用。它提供了一个最小化、纯 PyTorch 的代码库，优先保证代码的正确性与可读性，而非极致的运行优化，因此非常适合作为学习新型网络架构的教学资源或算法验证的基线工具。设计师和普通用户暂时不是其主要受众，因为该工具主要面向底层模型构建与实验。\n\nRetNet 的核心技术亮点在于其独特的“保留机制”，能够灵活支持并行、递归和分块三种计算范式。这意味着模型既能在训练阶段利用并行计算加速，又能在推理阶段以恒定的内存消耗进行高效的递归生成。此外，项目还实现了多层保留网络结构，并集成了前馈神经网络（FFN）、层归一化（LayerNorm）以及因果语言模型（C","RetNet 是一个基于 PyTorch 实现的开源项目，旨在复现论文《Retentive Network: A Successor to Transformer for Large Language Models》中提出的保留网络架构。作为 Transformer 的潜在继任者，RetNet 致力于解决传统大语言模型在长序列处理时计算效率低、显存占用高以及难以兼顾并行训练与快速推理的痛点。\n\n该项目特别适合 AI 研究人员和深度学习开发者使用。它提供了一个最小化、纯 PyTorch 的代码库，优先保证代码的正确性与可读性，而非极致的运行优化，因此非常适合作为学习新型网络架构的教学资源或算法验证的基线工具。设计师和普通用户暂时不是其主要受众，因为该工具主要面向底层模型构建与实验。\n\nRetNet 的核心技术亮点在于其独特的“保留机制”，能够灵活支持并行、递归和分块三种计算范式。这意味着模型既能在训练阶段利用并行计算加速，又能在推理阶段以恒定的内存消耗进行高效的递归生成。此外，项目还实现了多层保留网络结构，并集成了前馈神经网络（FFN）、层归一化（LayerNorm）以及因果语言模型（CLM），同时支持微软提出的 xPos 位置编码及复数位置编码方案，为探索下一代高效大模型提供了宝贵的实践参考。","# RetNet\nAn implementation of [Retentive Network: A Successor to Transformer\nfor Large Language Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.08621.pdf) in PyTorch.\n\n## About this repository\nThis is a minimal, pure pytorch implementation of RetNet. RetNet paper: [Retentive Network: A Successor to Transformer\nfor Large Language Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.08621.pdf).\n\nThe contributors(s) to this repository are not authors of the original paper. All credit for the idea and formulation of RetNet goes to the original authors.\n\nThe purpose of this repository is to aid scientific and technological understanding and advancement. The code prioritizes correctness and readability over optimization.\n\n## Features implemented\n* Single-scale and MultiScale retention:\n  - parallel paradigm\n  - recurrent paradigm\n  - chunkwise paradigm\n* Multi-layer retentive network with FFN and LayerNorm\n  - parallel paradigm\n  - recurrent paradigm\n  - chunkwise paradigm\n* Causal language model (CLM) built on top of the the retentive network\n\n## Usage and Examples:\n* See scripts prefixed with `test_` for examples of basic usage\n\n## Positional Encodings\nThe main implementation in `src\u002F` uses [Microsoft's xPos](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Ftorchscale\u002Fblob\u002Fmain\u002Ftorchscale\u002Fcomponent\u002Fxpos_relative_position.py) for positional encoding.\n\nThe implementation in `src\u002Fcomplex` uses complex values to encode position, which requires parameter and data throughput types to be `torch.ComplexFloat` (64-bit). This has some limitations due to there not yet being torch support for half-precision complex types. It also requires twice the amount of memory as real-valued data at 32-bit precision.\n\n## Contributions\nAll contributions are welcome. Please see [issues](https:\u002F\u002Fgithub.com\u002FJamie-Stirling\u002FRetNet\u002Fissues) for an idea of what needs doing.\n\nIf you would like to contribute to this project, please fork it and submit a pull request for review.\n\n## References\n```\n@misc{sun2023retentive,\n      title={Retentive Network: A Successor to Transformer for Large Language Models}, \n      author={Yutao Sun and Li Dong and Shaohan Huang and Shuming Ma and Yuqing Xia and Jilong Xue and Jianyong Wang and Furu Wei},\n      year={2023},\n      eprint={2307.08621},\n      archivePrefix={arXiv},\n      primaryClass={cs.CL}\n}\n```\n","# RetNet\n基于 PyTorch 的 [Retentive Network：大型语言模型的 Transformer 替代方案](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.08621.pdf) 实现。\n\n## 关于本仓库\n这是一个极简、纯 PyTorch 实现的 RetNet。RetNet 论文：[Retentive Network：大型语言模型的 Transformer 替代方案](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.08621.pdf)。\n\n本仓库的贡献者并非原论文的作者。RetNet 的思想与公式设计完全归功于原作者。\n\n本仓库的目的是促进科学与技术的理解与进步。代码在优先考虑正确性和可读性的同时，暂未进行高度优化。\n\n## 已实现的功能\n* 单尺度与多尺度保持机制：\n  - 并行范式\n  - 递归范式\n  - 分块范式\n* 带有 FFN 和 LayerNorm 的多层保持网络：\n  - 并行范式\n  - 递归范式\n  - 分块范式\n* 构建于保持网络之上的因果语言模型（CLM）\n\n## 使用与示例：\n* 请参阅以 `test_` 为前缀的脚本，了解基本用法示例。\n\n## 位置编码\n`src\u002F` 中的主要实现使用了 [Microsoft 的 xPos](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Ftorchscale\u002Fblob\u002Fmain\u002Ftorchscale\u002Fcomponent\u002Fxpos_relative_position.py) 进行位置编码。\n\n`src\u002Fcomplex` 中的实现则采用复数值来编码位置，这要求参数和数据的类型为 `torch.ComplexFloat`（64 位）。由于目前 PyTorch 尚未支持半精度复数类型，这一实现存在一些限制；此外，它所需的内存是 32 位精度实数值的两倍。\n\n## 贡献\n欢迎所有贡献。请查看 [issues](https:\u002F\u002Fgithub.com\u002FJamie-Stirling\u002FRetNet\u002Fissues)，了解当前需要完成的工作。\n\n如果您希望为本项目贡献力量，请先 Fork 本仓库，然后提交 Pull Request 以供审核。\n\n## 参考文献\n```\n@misc{sun2023retentive,\n      title={Retentive Network: A Successor to Transformer for Large Language Models}, \n      author={Yutao Sun and Li Dong and Shaohan Huang and Shuming Ma and Yuqing Xia and Jilong Xue and Jianyong Wang and Furu Wei},\n      year={2023},\n      eprint={2307.08621},\n      archivePrefix={arXiv},\n      primaryClass={cs.CL}\n}\n```","# RetNet 快速上手指南\n\nRetNet 是 Transformer 架构的潜在继任者，本仓库提供了基于 PyTorch 的极简、纯净实现，优先保证代码的正确性与可读性。\n\n## 环境准备\n\n*   **系统要求**：Linux \u002F macOS \u002F Windows\n*   **Python 版本**：建议 Python 3.8+\n*   **核心依赖**：\n    *   PyTorch (最新稳定版)\n    *   `torchscale` (用于 xPos 位置编码，可选但推荐)\n\n> **注意**：若使用 `src\u002Fcomplex` 目录下的复数实现，需确保数据类型为 `torch.ComplexFloat` (64-bit)，目前 PyTorch 尚不支持半精度复数类型，且内存占用约为实数类型的两倍。\n\n## 安装步骤\n\n1.  **克隆仓库**\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002FJamie-Stirling\u002FRetNet.git\n    cd RetNet\n    ```\n\n2.  **安装依赖**\n    推荐使用国内镜像源加速安装：\n    ```bash\n    pip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n    # 如果需要使用 xPos 位置编码，安装 torchscale\n    pip install torchscale -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n    ```\n    *(注：若项目中包含 `requirements.txt`，请优先执行 `pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`)*\n\n## 基本使用\n\n本仓库未提供封装好的 CLI 工具，主要通过运行测试脚本来验证功能和作为使用示例。\n\n1.  **查看示例脚本**\n    进入项目根目录，查找以 `test_` 开头的脚本：\n    ```bash\n    ls scripts\u002Ftest_*.py\n    # 或直接在 src 目录下查找\n    find . -name \"test_*.py\"\n    ```\n\n2.  **运行基础示例**\n    运行任意测试脚本即可看到 RetNet 的基本调用方式（包括并行、递归和分块范式）：\n    ```bash\n    python scripts\u002Ftest_retention.py\n    ```\n    *具体文件名请以实际仓库中的 `scripts` 或根目录下的文件为准。*\n\n3.  **代码集成示例**\n    在你的 Python 项目中导入并使用核心模块：\n    ```python\n    import torch\n    from src.retention import MultiScaleRetention # 假设路径，具体请参考 test 脚本导入方式\n\n    # 初始化模型参数\n    model = MultiScaleRetention(\n        dim=512,\n        heads=8,\n        chunk_size=64\n    )\n\n    # 准备输入 (batch, seq_len, dim)\n    x = torch.randn(2, 1024, 512)\n    \n    # 前向传播 (平行范式示例)\n    output = model(x)\n    print(output.shape)\n    ```\n\n> **提示**：由于代码优先追求可读性而非极致优化，建议先阅读 `scripts\u002F` 目录下的 `test_` 系列文件，它们是理解不同范式（Parallel, Recurrent, Chunkwise）用法的最佳文档。","某边缘计算团队正在为资源受限的工业物联网网关部署本地化大语言模型，以实现对设备日志的实时异常检测与自动回复。\n\n### 没有 RetNet 时\n- **显存占用过高**：传统 Transformer 架构在长序列处理时需存储巨大的注意力矩阵，导致模型无法在低显存的边缘设备上加载运行。\n- **推理延迟波动大**：随着输入文本长度增加，计算复杂度呈平方级增长，造成响应时间不可预测，无法满足工业场景的实时性要求。\n- **训练效率低下**：并行训练长上下文数据时，内存带宽成为瓶颈，导致模型迭代周期漫长，难以快速适配新的故障模式。\n- **部署成本高昂**：为了维持性能，不得不依赖昂贵的云端 GPU 集群进行推理，增加了长期的运营支出和数据隐私风险。\n\n### 使用 RetNet 后\n- **显存需求大幅降低**：利用 RetNet 的循环范式（recurrent paradigm），将长序列推理的内存占用从线性降为常数级，成功在边缘网关上跑通模型。\n- **推理速度稳定高效**：无论输入日志多长，RetNet 均能保持恒定的单步计算耗时，确保了毫秒级的实时响应能力。\n- **训练吞吐量显著提升**：借助其并行范式（parallel paradigm）保留了对长序列的高效并行处理能力，模型微调时间缩短了数倍。\n- **本地化部署落地**：摆脱了对云端算力的依赖，实现了数据完全本地的闭环处理，既降低了成本又保障了敏感工业数据的安全。\n\nRetNet 通过突破传统 Transformer 的计算瓶颈，让高性能大语言模型真正得以在低成本、低延迟的边缘侧场景中规模化落地。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FJamie-Stirling_RetNet_fc81ef83.png","Jamie-Stirling","Jamie","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FJamie-Stirling_3a50abbe.png",null,"https:\u002F\u002Fgithub.com\u002FJamie-Stirling",[79],{"name":80,"color":81,"percentage":82},"Python","#3572A5",100,1212,106,"2026-04-01T06:52:36","MIT","","未说明（纯 PyTorch 实现，具体取决于模型规模；若使用复数编码需更多显存）","未说明（若使用复数编码 `src\u002Fcomplex`，内存需求为同精度实数数据的两倍）",{"notes":91,"python":92,"dependencies":93},"该仓库是 RetNet 的极简纯 PyTorch 实现，优先保证正确性和可读性而非优化。位置编码默认使用 Microsoft 的 xPos；若使用 `src\u002Fcomplex` 中的复数编码方案，数据类型必须为 `torch.ComplexFloat` (64-bit)，目前 PyTorch 尚不支持半精度复数类型，且该模式下的内存占用是 32 位实数数据的两倍。","未说明",[94],"torch",[35,14],"2026-03-27T02:49:30.150509","2026-04-07T11:35:33.580247",[99,104,109,114,119,124],{"id":100,"question_zh":101,"answer_zh":102,"source_url":103},21937,"为什么 RetNet 的训练速度比 Transformer 慢很多，且内存使用不稳定？","训练速度慢主要是因为早期版本使用了自定义的复数算法（complex-valued implementation），这些算法在 Python 中实现，无法充分利用 PyTorch 底层 C++ 优化的内置函数。维护者已实现了实数版本（real-valued version），该版本能更好地利用 PyTorch 内置功能，现已作为 `\u002Fsrc\u002F` 目录下的默认实现。建议使用实数版本以获得更好的性能，复数版本仅用于理解 RetNet 的工作原理。此外，相关的代码错误也已修复。","https:\u002F\u002Fgithub.com\u002FJamie-Stirling\u002FRetNet\u002Fissues\u002F4",{"id":105,"question_zh":106,"answer_zh":107,"source_url":108},21938,"Chunkwise retention（分块保留）模式的输出与其他两种模式不一致，原因是什么？","这是因为原始论文中的公式 (7) 遗漏了一项。正确的实现需要在计算中加入 `D[-1].view(1, chunk_size, 1)` 这一项。具体修复代码如下：\n```python\nr_i = (K.transpose(-1, -2) @ (V * D[-1].view(1, chunk_size, 1))) + (self.gamma ** chunk_size) * r_i_1\n```\n最新的 arXiv 论文版本 (v4) 已经修正了该公式。参考微软 TorchScale 的实现也可找到正确逻辑。","https:\u002F\u002Fgithub.com\u002FJamie-Stirling\u002FRetNet\u002Fissues\u002F10",{"id":110,"question_zh":111,"answer_zh":112,"source_url":113},21939,"RetNet 代码中为什么要使用复数（Complex type）？","使用复数主要是为了利用欧拉公式（Euler's formula）将指数运算转化为余弦和正弦的实数对应部分，类似于 xPos 论文中的做法。其中虚部主要负责对输入进行旋转操作。虽然可以用实数向量表示（需要双倍分量分别表示实部和虚部），但直接使用复数类型可以更简洁地实现这种旋转机制。具体实现可参考微软 TorchScale 中的 xPos 相对位置编码代码。","https:\u002F\u002Fgithub.com\u002FJamie-Stirling\u002FRetNet\u002Fissues\u002F1",{"id":115,"question_zh":116,"answer_zh":117,"source_url":118},21940,"MultiScaleRetention 类中状态变量 s_n_1 的初始值是多少？论文中没有提到。","在代码实现中，状态变量 `s_n_1` 被初始化为零（zeros）。虽然论文未明确提及此细节，但将其设为零可以确保在 t=1 时刻的状态仅受第一个 token 计算出的键和值影响，这与 Transformer 的行为类似。如果设置为非零常数或可学习参数，则相当于引入了偏置项（bias term），可能会影响 RetNet 的训练方式。","https:\u002F\u002Fgithub.com\u002FJamie-Stirling\u002FRetNet\u002Fissues\u002F36",{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},21941,"运行代码时遇到 GPU 设备不匹配错误（Expected all tensors to be on the same device），如何解决？","该错误通常是因为模型权重或输入张量分布在不同的设备上（例如部分在 CPU，部分在 CUDA）。请确保在将模型移动到 GPU 后，所有输入数据也同时移动到相同的 GPU 设备上。检查代码中是否漏掉了 `.to(device)` 或 `.cuda()` 调用。有用户反馈重新运行代码并确保设备一致性后问题得以解决。","https:\u002F\u002Fgithub.com\u002FJamie-Stirling\u002FRetNet\u002Fissues\u002F27",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},21942,"RetNet 模型的输出维度是隐藏层维度而不是词表大小，训练语言模型时是否需要添加 LM Head？","是的，代码中的最终输出维度是隐藏层维度（hidden dim），而非词表大小（vocab size）。如果要训练语言模型，需要在模型输出后额外添加一个线性层（LM Head），将隐藏层维度映射到词表大小，然后再进行损失计算。","https:\u002F\u002Fgithub.com\u002FJamie-Stirling\u002FRetNet\u002Fissues\u002F32",[]]