[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-kyegomez--LongNet":3,"tool-kyegomez--LongNet":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",160411,2,"2026-04-18T23:33:24",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":78,"owner_twitter":79,"owner_website":80,"owner_url":81,"languages":82,"stars":87,"forks":88,"last_commit_at":89,"license":90,"difficulty_score":32,"env_os":91,"env_gpu":92,"env_ram":92,"env_deps":93,"category_tags":98,"github_topics":99,"view_count":32,"oss_zip_url":78,"oss_zip_packed_at":78,"status":17,"created_at":110,"updated_at":111,"faqs":112,"releases":140},9361,"kyegomez\u002FLongNet","LongNet","Implementation of plug in and play Attention from \"LongNet: Scaling Transformers to 1,000,000,000 Tokens\"","LongNet 是一款专为突破大模型上下文长度限制而设计的开源工具，它实现了论文《LongNet: Scaling Transformers to 1,000,000,000 Tokens》中提出的核心算法。传统 Transformer 架构在处理超长文本时，往往面临计算资源爆炸或性能下降的难题，而 LongNet 成功将序列处理能力扩展至惊人的 10 亿个 token，同时确保在短序列任务上的表现不受影响。\n\n这一突破主要得益于其独特的“膨胀注意力”（Dilated Attention）机制。该技术通过巧妙的稀疏化策略，让模型能够以极低的计算成本捕捉长距离依赖关系，从而轻松应对整本书籍、长篇法律文档、海量代码库或超长视频帧序列的分析需求。\n\nLongNet 非常适合 AI 研究人员、大模型开发者以及需要处理极端长上下文数据的企业技术团队使用。对于希望探索下一代长序列建模能力，或正在构建需要理解海量信息应用的专业人士来说，LongNet 提供了一个即插即用的高效解决方案。只需简单的安装与调用，即可将强大的长文本处理能力集成到现有项目中，助力解锁更多人工智能的应用场景。","[![Multi-Modality](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkyegomez_LongNet_readme_641983e15637.png)](https:\u002F\u002Fdiscord.gg\u002FqUtxnK2NMf)\n\n\n# LongNet: Scaling Transformers to 1,000,000,000 Tokens\n![LongNetBanner](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkyegomez_LongNet_readme_f2e0df3ebb7b.jpg)\n\n\n[![GitHub issues](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues\u002Fkyegomez\u002FLongNet)](https:\u002F\u002Fgithub.com\u002Fkyegomez\u002FLongNet\u002Fissues) \n[![GitHub forks](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fforks\u002Fkyegomez\u002FLongNet)](https:\u002F\u002Fgithub.com\u002Fkyegomez\u002FLongNet\u002Fnetwork) \n[![GitHub stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fkyegomez\u002FLongNet)](https:\u002F\u002Fgithub.com\u002Fkyegomez\u002FLongNet\u002Fstargazers) [![GitHub license](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fkyegomez\u002FLongNet)](https:\u002F\u002Fgithub.com\u002Fkyegomez\u002FLongNet\u002Fblob\u002Fmaster\u002FLICENSE)\n[![Share on Twitter](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Furl\u002Fhttps\u002Ftwitter.com\u002Fcloudposse.svg?style=social&label=Share%20%40kyegomez\u002FLongNet)](https:\u002F\u002Ftwitter.com\u002Fintent\u002Ftweet?text=Excited%20to%20introduce%20LongNet,%20the%20all-new%20LongSequence%20model%20with%20the%20potential%20to%20revolutionize%20automation.%20Join%20us%20on%20this%20journey%20towards%20a%20smarter%20future.%20%23LongNet%20%23LongSequence&url=https%3A%2F%2Fgithub.com%2Fkyegomez%2FLongNet)\n[![Share on Facebook](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FShare-%20facebook-blue)](https:\u002F\u002Fwww.facebook.com\u002Fsharer\u002Fsharer.php?u=https%3A%2F%2Fgithub.com%2Fkyegomez%2FLongNet)\n[![Share on LinkedIn](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FShare-%20linkedin-blue)](https:\u002F\u002Fwww.linkedin.com\u002FshareArticle?mini=true&url=https%3A%2F%2Fgithub.com%2Fkyegomez%2FLongNet&title=Introducing%20LongNet%2C%20the%20All-New%20LongSequence%20Model&summary=LongNet%20is%20the%20next-generation%20LongSequence%20model%20that%20promises%20to%20transform%20industries%20with%20its%20intelligence%20and%20efficiency.%20Join%20us%20to%20be%20a%20part%20of%20this%20revolutionary%20journey%20%23LongNet%20%23LongSequence&source=)\n![Discord](https:\u002F\u002Fimg.shields.io\u002Fdiscord\u002F999382051935506503)\n[![Share on Reddit](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Share%20on%20Reddit-orange)](https:\u002F\u002Fwww.reddit.com\u002Fsubmit?url=https%3A%2F%2Fgithub.com%2Fkyegomez%2FLongNet&title=Exciting%20Times%20Ahead%20with%20LongNet%2C%20the%20All-New%20LongSequence%20Model%20%23LongNet%20%23LongSequence) [![Share on Hacker News](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Share%20on%20Hacker%20News-orange)](https:\u002F\u002Fnews.ycombinator.com\u002Fsubmitlink?u=https%3A%2F%2Fgithub.com%2Fkyegomez%2FLongNet&t=Exciting%20Times%20Ahead%20with%20LongNet%2C%20the%20All-New%20LongSequence%20Model%20%23LongNet%20%23LongSequence)\n[![Share on Pinterest](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Share%20on%20Pinterest-red)](https:\u002F\u002Fpinterest.com\u002Fpin\u002Fcreate\u002Fbutton\u002F?url=https%3A%2F%2Fgithub.com%2Fkyegomez%2FLongNet&media=https%3A%2F%2Fexample.com%2Fimage.jpg&description=LongNet%2C%20the%20Revolutionary%20LongSequence%20Model%20that%20will%20Change%20the%20Way%20We%20Work%20%23LongNet%20%23LongSequence)\n[![Share on WhatsApp](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Share%20on%20WhatsApp-green)](https:\u002F\u002Fapi.whatsapp.com\u002Fsend?text=I%20just%20discovered%20LongNet,%20the%20all-new%20LongSequence%20model%20that%20promises%20to%20revolutionize%20automation.%20Join%20me%20on%20this%20exciting%20journey%20towards%20a%20smarter%20future.%20%23LongNet%20%23LongSequence%0A%0Ahttps%3A%2F%2Fgithub.com%2Fkyegomez%2FLongNet)\n\n\n\nThis is an open source implementation for the paper [LongNet: Scaling Transformers to 1,000,000,000 Tokens](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.02486) by Jiayu Ding, Shuming Ma, Li Dong, Xingxing Zhang, Shaohan Huang, Wenhui Wang, Furu Wei. The LongNet is a Transformer variant designed to scale sequence length up to more than 1 billion tokens without sacrificing performance on shorter sequences.\n\n\n## Installation\n\n```shell\npip install longnet\n```\n\n## Usage\n\nOnce you have installed LongNet, you can use the `DilatedAttention` class as follows:\n\n```python\nimport torch\nfrom long_net import DilatedAttention\n\n\n# model config\ndim = 512\nheads = 8\ndilation_rate = 2\nsegment_size = 64\n\n# input data\nbatch_size = 32\nseq_len = 8192\n\n\n# create model and data\nmodel = DilatedAttention(dim, heads, dilation_rate, segment_size, qk_norm=True)\nx = torch.randn((batch_size, seq_len, dim))\n\noutput = model(x)\nprint(output)\n\n\n```\n\n### `LongNetTransformer`\nA fully ready to train transformer model with dilated transformer blocks with Feedforwards with layernorm, SWIGLU, and a parallel transformer block\n\n```python\nimport torch\nfrom long_net.model import LongNetTransformer\n\nlongnet = LongNetTransformer(\n    num_tokens=20000,\n    dim=512,\n    depth=6,\n    dim_head=64,\n    heads=8,\n    ff_mult=4,\n)\n\ntokens = torch.randint(0, 20000, (1, 512))\nlogits = longnet(tokens)\nprint(logits)\n\n\n```\n\n# Train\n- To run a simple training run on the enwiki8 dataset, gitclone, install the requirements.txt, and then run `python3 train.py`\n\n## LongNet Summarized\n\nScaling sequence length has become a critical bottleneck in the era of large language models. However, existing methods struggle with either computational complexity or model expressivity, rendering the maximum sequence length restricted. In this paper, they introduce LongNet, a Transformer variant that can scale sequence length to more than 1 billion tokens, without sacrificing the performance on shorter sequences. Specifically, they propose dilated attention, which expands the attentive field exponentially as the distance grows.\n\n## Features\nLongNet has significant advantages:\n1. It has a linear computation complexity and a logarithm dependency between tokens.\n2. It can be served as a distributed trainer for extremely long sequences.\n3. Its dilated attention is a drop-in replacement for standard attention, which can be seamlessly integrated with the existing Transformer-based optimization.\n\nExperiment results demonstrate that LongNet yields strong performance on both long-sequence modeling and general language tasks. Their work opens up new possibilities for modeling very long sequences, e.g., treating a whole corpus or even the entire Internet as a sequence.\n\n\n## Citation\n```bibtex\n@inproceedings{ding2023longnet,\n  title={LongNet: Scaling Transformers to 1,000,000,000 Tokens},\n  author={Ding, Jiayu and Ma, Shuming and Dong, Li and Zhang, Xingxing and Huang, Shaohan and Wang, Wenhui and Wei, Furu},\n  booktitle={Proceedings of the 10th International Conference on Learning Representations},\n  year={2023}\n}\n```\n\n-----\n\n# Todo\n\n- [ ] Fix the ParallelTransformer Block's forward pass with dilated attn\n- [ ] Train on enwiki 8 and test\n- [ ] Create multihead iteration\n","[![多模态](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkyegomez_LongNet_readme_641983e15637.png)](https:\u002F\u002Fdiscord.gg\u002FqUtxnK2NMf)\n\n\n# LongNet：将Transformer扩展至10亿个标记\n![LongNetBanner](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkyegomez_LongNet_readme_f2e0df3ebb7b.jpg)\n\n\n[![GitHub 问题](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues\u002Fkyegomez\u002FLongNet)](https:\u002F\u002Fgithub.com\u002Fkyegomez\u002FLongNet\u002Fissues) \n[![GitHub 分叉](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fforks\u002Fkyegomez\u002FLongNet)](https:\u002F\u002Fgithub.com\u002Fkyegomez\u002FLongNet\u002Fnetwork) \n[![GitHub 星标](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fkyegomez\u002FLongNet)](https:\u002F\u002Fgithub.com\u002Fkyegomez\u002FLongNet\u002Fstargazers) [![GitHub 许可证](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fkyegomez\u002FLongNet)](https:\u002F\u002Fgithub.com\u002Fkyegomez\u002FLongNet\u002Fblob\u002Fmaster\u002FLICENSE)\n[![分享到 Twitter](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Furl\u002Fhttps\u002Ftwitter.com\u002Fcloudposse.svg?style=social&label=Share%20%40kyegomez\u002FLongNet)](https:\u002F\u002Ftwitter.com\u002Fintent\u002Ftweet?text=Excited%20to%20introduce%20LongNet,%20the%20all-new%20LongSequence%20model%20with%20the%20potential%20to%20revolutionize%20automation.%20Join%20us%20on%20this%20journey%20towards%20a%20smarter%20future.%20%23LongNet%20%23LongSequence&url=https%3A%2F%2Fgithub.com%2Fkyegomez%2FLongNet)\n[![分享到 Facebook](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FShare-%20facebook-blue)](https:\u002F\u002Fwww.facebook.com\u002Fsharer\u002Fsharer.php?u=https%3A%2F%2Fgithub.com%2Fkyegomez%2FLongNet)\n[![分享到 LinkedIn](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FShare-%20linkedin-blue)](https:\u002F\u002Fwww.linkedin.com\u002FshareArticle?mini=true&url=https%3A%2F%2Fgithub.com%2Fkyegomez%2FLongNet&title=Introducing%20LongNet%2C%20the%20All-New%20LongSequence%20Model&summary=LongNet%20is%20the%20next-generation%20LongSequence%20model%20that%20promises%20to%20transform%20industries%20with%20its%20intelligence%20and%20efficiency.%20Join%20us%20to%20be%20a%20part%20of%20this%20revolutionary%20journey%20%23LongNet%20%23LongSequence&source=)\n![Discord](https:\u002F\u002Fimg.shields.io\u002Fdiscord\u002F999382051935506503)\n[![分享到 Reddit](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Share%20on%20Reddit-orange)](https:\u002F\u002Fwww.reddit.com\u002Fsubmit?url=https%3A%2F%2Fgithub.com%2Fkyegomez%2FLongNet&title=Exciting%20Times%20Ahead%20with%20LongNet%2C%20the%20All-New%20LongSequence%20Model%20%23LongNet%20%23LongSequence) [![分享到 Hacker News](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Share%20on%20Hacker%20News-orange)](https:\u002F\u002Fnews.ycombinator.com\u002Fsubmitlink?u=https%3A%2F%2Fgithub.com%2Fkyegomez%2FLongNet&t=Exciting%20Times%20Ahead%20with%20LongNet%2C%20the%20All-New%20LongSequence%20Model%20%23LongNet%20%23LongSequence)\n[![分享到 Pinterest](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Share%20on%20Pinterest-red)](https:\u002F\u002Fpinterest.com\u002Fpin\u002Fcreate\u002Fbutton\u002F?url=https%3A%2F%2Fgithub.com%2Fkyegomez%2FLongNet&media=https%3A%2F%2Fexample.com%2Fimage.jpg&description=LongNet%2C%20the%20Revolutionary%20LongSequence%20Model%20that%20will%20Change%20the%20Way%20We%20Work%20%23LongNet%20%23LongSequence)\n[![分享到 WhatsApp](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Share%20on%20WhatsApp-green)](https:\u002F\u002Fapi.whatsapp.com\u002Fsend?text=I%20just%20discovered%20LongNet,%20the%20all-new%20LongSequence%20model%20that%20promises%20to%20revolutionize%20automation.%20Join%20me%20on%20this%20exciting%20journey%20towards%20a%20smarter%20future.%20%23LongNet%20%23LongSequence%0A%0Ahttps%3A%2F%2Fgithub.com%2Fkyegomez%2FLongNet)\n\n\n\n这是论文《LongNet：将Transformer扩展至10亿个标记》（作者：丁家宇、马书铭、董莉、张星星、黄绍涵、王文辉、魏福鲁）的开源实现。LongNet是一种Transformer变体，旨在将序列长度扩展到超过10亿个标记，同时不牺牲短序列上的性能。\n\n\n## 安装\n\n```shell\npip install longnet\n```\n\n## 使用方法\n\n安装LongNet后，您可以按如下方式使用`DilatedAttention`类：\n\n```python\nimport torch\nfrom long_net import DilatedAttention\n\n\n# 模型配置\ndim = 512\nheads = 8\ndilation_rate = 2\nsegment_size = 64\n\n# 输入数据\nbatch_size = 32\nseq_len = 8192\n\n\n# 创建模型和数据\nmodel = DilatedAttention(dim, heads, dilation_rate, segment_size, qk_norm=True)\nx = torch.randn((batch_size, seq_len, dim))\n\noutput = model(x)\nprint(output)\n\n\n```\n\n### `LongNetTransformer`\n一个完全可训练的Transformer模型，包含带有层归一化的前馈网络、SWIGLU以及并行Transformer块的扩张注意力层。\n\n```python\nimport torch\nfrom long_net.model import LongNetTransformer\n\nlongnet = LongNetTransformer(\n    num_tokens=20000,\n    dim=512,\n    depth=6,\n    dim_head=64,\n    heads=8,\n    ff_mult=4,\n)\n\ntokens = torch.randint(0, 20000, (1, 512))\nlogits = longnet(tokens)\nprint(logits)\n\n\n```\n\n# 训练\n- 要在enwiki8数据集上运行一个简单的训练任务，请先克隆仓库，安装`requirements.txt`中的依赖项，然后运行`python3 train.py`。\n\n## LongNet 简介\n\n在大型语言模型时代，序列长度的扩展已成为关键瓶颈。然而，现有方法要么面临计算复杂度问题，要么受限于模型表达能力，从而限制了最大序列长度。本文提出了LongNet，一种能够将序列长度扩展到超过10亿个标记的Transformer变体，且不会降低短序列上的性能。具体而言，他们提出了扩张注意力机制，该机制随着距离的增加呈指数级扩大注意力范围。\n\n## 特点\nLongNet具有显著优势：\n1. 其计算复杂度为线性，且与标记数呈对数关系。\n2. 可作为分布式训练器用于极长序列。\n3. 其扩张注意力机制可以直接替代标准注意力机制，能够无缝集成到现有的基于Transformer的优化框架中。\n\n实验结果表明，LongNet在长序列建模和通用语言任务上均表现出色。他们的工作为处理超长序列开辟了新的可能性，例如将整个语料库甚至整个互联网视为一个序列来处理。\n\n\n## 引用\n```bibtex\n@inproceedings{ding2023longnet,\n  title={LongNet: Scaling Transformers to 1,000,000,000 Tokens},\n  author={Ding, Jiayu and Ma, Shuming and Dong, Li and Zhang, Xingxing and Huang, Shaohan and Wang, Wenhui and Wei, Furu},\n  booktitle={Proceedings of the 10th International Conference on Learning Representations},\n  year={2023}\n}\n```\n\n-----\n\n# 待办事项\n\n- [ ] 修复ParallelTransformer Block的前向传播，使其使用扩张注意力\n- [ ] 在enwiki 8数据集上进行训练并测试\n- [ ] 实现多头注意力机制","# LongNet 快速上手指南\n\nLongNet 是一种 Transformer 变体，旨在将序列长度扩展至 10 亿（1,000,000,000）个 token，同时不牺牲短序列上的性能。其核心创新在于“膨胀注意力机制”（Dilated Attention），能够以线性计算复杂度处理超长序列。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：Linux、macOS 或 Windows\n*   **Python 版本**：建议 Python 3.8 及以上\n*   **前置依赖**：\n    *   `torch` (PyTorch)\n    *   `pip` 包管理工具\n\n> **提示**：国内用户建议使用清华源或阿里源加速 pip 安装过程。\n\n## 安装步骤\n\n使用 pip 直接安装 LongNet：\n\n```shell\npip install longnet\n```\n\n**国内加速安装（推荐）：**\n\n```shell\npip install longnet -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n## 基本使用\n\nLongNet 提供了两种主要的使用方式：直接使用核心的 `DilatedAttention` 模块，或使用封装好的 `LongNetTransformer` 模型。\n\n### 1. 使用 DilatedAttention 模块\n\n这是最基础的用法，适用于将膨胀注意力机制集成到现有架构中。\n\n```python\nimport torch\nfrom long_net import DilatedAttention\n\n\n# 模型配置\ndim = 512\nheads = 8\ndilation_rate = 2\nsegment_size = 64\n\n# 输入数据\nbatch_size = 32\nseq_len = 8192\n\n\n# 创建模型和数据\nmodel = DilatedAttention(dim, heads, dilation_rate, segment_size, qk_norm=True)\nx = torch.randn((batch_size, seq_len, dim))\n\noutput = model(x)\nprint(output)\n```\n\n### 2. 使用 LongNetTransformer 完整模型\n\n这是一个包含前馈网络、层归一化、SWIGLU 激活函数以及并行 Transformer 块的即训即用模型。\n\n```python\nimport torch\nfrom long_net.model import LongNetTransformer\n\nlongnet = LongNetTransformer(\n    num_tokens=20000,\n    dim=512,\n    depth=6,\n    dim_head=64,\n    heads=8,\n    ff_mult=4,\n)\n\ntokens = torch.randint(0, 20000, (1, 512))\nlogits = longnet(tokens)\nprint(logits)\n```\n\n### 3. 简单训练示例\n\n若需在 `enwiki8` 数据集上进行简单的训练测试，请克隆仓库并安装依赖后运行：\n\n```shell\ngit clone \u003Crepository_url>\ncd LongNet\npip install -r requirements.txt\npython3 train.py\n```","某大型法律科技团队正在构建智能合同审查系统，需要让 AI 一次性读取并分析长达数百页的历史诉讼案卷与合同条款，以识别潜在的法律风险。\n\n### 没有 LongNet 时\n- **上下文严重丢失**：受限于传统 Transformer 的上下文窗口（通常仅 4k-32k tokens），系统被迫将长文档切割成碎片处理，导致跨章节的关键逻辑关联（如前言定义与附录条款的矛盾）被彻底切断。\n- **检索精度低下**：为了弥补截断问题，团队不得不引入复杂的向量检索（RAG）机制，但这往往只能找到局部关键词匹配，无法理解全文宏观叙事，漏报率高。\n- **推理成本高昂**：维持长上下文需要极高的显存占用和计算开销，处理一份百页文档不仅速度慢，还经常因显存溢出（OOM）导致服务崩溃。\n- **开发维护复杂**：工程师需花费大量时间编写额外的数据分块、重叠滑动窗口及结果拼接代码，系统架构臃肿且难以调试。\n\n### 使用 LongNet 后\n- **全篇无损理解**：借助 LongNet 支持的十亿级 token 上下文能力，系统可直接将整个案卷作为单一序列输入，精准捕捉跨越数十页的法律逻辑链条。\n- **端到端精准分析**：无需再依赖外部检索模块，模型直接基于完整上下文进行推理，显著提升了对于隐蔽性法律风险的识别准确率。\n- **线性扩展高效运行**：利用其稀疏注意力机制，即使处理超长序列，计算资源消耗也保持在线性增长范围内，大幅降低了单次推理的延迟与成本。\n- **架构极简部署**：开发者只需替换标准的注意力模块为 `DilatedAttention`，即可实现“即插即用”，省去了繁琐的分块逻辑代码，系统稳定性显著提升。\n\nLongNet 通过突破序列长度瓶颈，让 AI 真正具备了像人类专家一样通读并理解海量长文档的核心能力。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkyegomez_LongNet_f2e0df3e.jpg","kyegomez","Kye Gomez","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fkyegomez_0b95c3bb.jpg","Founder of swarms.ai","Swarms","Palo Alto",null,"KyeGomezB","https:\u002F\u002Fgithub.com\u002Fkyegomez\u002Fswarms","https:\u002F\u002Fgithub.com\u002Fkyegomez",[83],{"name":84,"color":85,"percentage":86},"Python","#3572A5",100,716,60,"2026-03-30T08:13:08","Apache-2.0","","未说明",{"notes":94,"python":92,"dependencies":95},"README 中未明确列出具体的操作系统、GPU、内存及 Python 版本要求。安装方式仅为 'pip install longnet'，主要依赖 PyTorch（代码示例中导入 torch）。该项目旨在处理长达 10 亿 token 的序列，实际运行时对显存和内存的需求将取决于具体的序列长度和模型配置。训练部分提到需克隆仓库并安装 requirements.txt（但文件中具体依赖未在 README 文本中列出）。",[96,97],"torch","longnet",[35,14],[100,101,102,103,104,105,106,107,108,109],"artificial-intelligence","attention","attention-is-all-you-need","attention-mechanisms","chatgpt","gpt3","gpt4","machine-learning","transformer","context-length","2026-03-27T02:49:30.150509","2026-04-19T09:15:02.530054",[113,118,123,127,132,136],{"id":114,"question_zh":115,"answer_zh":116,"source_url":117},41988,"安装时遇到 'flash_attn' 构建失败或 'No module named torch' 错误怎么办？","该项目已移除对第三方 'flash_attn' 仓库的依赖，转而使用 LongNet 内部的自定义实现（位于 LongNet\u002Fattend.py）。请更新您的 requirements.txt 文件，删除 'flash_attn'、'unittest' 和 'timeit'（后两者为 Python 内置模块）。更新后的依赖列表应包含：torch, einops, accelerate, bitsandbytes, fairscale, timm, ninja, packaging, transformers, beartype。","https:\u002F\u002Fgithub.com\u002Fkyegomez\u002FLongNet\u002Fissues\u002F3",{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},41989,"运行示例代码时出现与 'torchscale' 相关的错误如何解决？","这是一个已知问题。通过 pip 安装 LongNet 时会自动安装官方的 torchscale，但 LongNet 仓库中使用了经过修改的 fork 版本（特别是 __init__.py 文件不同）。解决方法有两种：1. 直接克隆 LongNet 仓库并使用源码运行，这样会包含正确的修改版 torchscale；2. 如果必须使用 pip 安装的版本，需手动克隆 torchscale 到工作目录，并根据 LongNet 仓库中的版本修改其 __init__.py 文件。","https:\u002F\u002Fgithub.com\u002Fkyegomez\u002FLongNet\u002Fissues\u002F5",{"id":124,"question_zh":125,"answer_zh":126,"source_url":122},41990,"项目是否提供了可用于测试的演示脚本（demo）？","是的，项目中包含示例脚本。如果在运行 'python example.py' 时出错，通常是因为上述的 torchscale 或 flash_attn 依赖问题。请确保您使用的是从 GitHub 克隆的最新代码库（而非仅通过 pip 安装的旧包），因为维护者已在仓库中修复了这些依赖冲突并移除了外部 flash_attn 依赖，改用内部实现。",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},41991,"在哪里可以找到基于真实数据集的训练实验示例？","目前官方正在准备在 enwiki（英文维基百科）数据集上进行训练。维护者提到有一个针对 1GB 维基百科数据的竞赛活动。对于想要尝试的用户，建议使用具有长样本特征的数据集（如小说文本、音乐序列或图像数据）来展示 LongNet 处理长上下文的能力。具体的训练脚本可能需要参考仓库中的最新提交或等待官方更新的示例。","https:\u002F\u002Fgithub.com\u002Fkyegomez\u002FLongNet\u002Fissues\u002F15",{"id":133,"question_zh":134,"answer_zh":135,"source_url":122},41992,"RTX 4090 显卡是否足以运行 LongNet？","是的，RTX 4090 足以运行 LongNet。用户在 Ubuntu 系统上配备 RTX 4090 已成功安装环境。如果遇到运行错误，通常不是硬件性能不足，而是由于 'torchscale' 版本不匹配或 'flash_attn' 依赖问题导致的，请参考相关安装问题的解决方案进行修复。",{"id":137,"question_zh":138,"answer_zh":139,"source_url":117},41993,"requirements.txt 中哪些依赖项是多余或需要调整的？","需要删除 'unittest' 和 'timeit'，因为它们是 Python 标准库的一部分，无需通过 pip 安装。此外，'flash_attn' 也应被移除，因为项目已切换至内部实现。建议的 requirements.txt 内容应包括：torch, einops, accelerate, bitsandbytes, fairscale, timm, ninja, packaging, transformers, beartype。",[141,146,151,156,161,166,170,174,178,182,186,190,194,198,202,206,210,214,218,222],{"id":142,"version":143,"summary_zh":144,"released_at":145},334033,"0.4.8","### DilatedAttention 与 ParallelWrapper 的变更日志：\n\n#### **1. 新增 `ParallelWrapper` 类**\n- 引入了 `ParallelWrapper` 类，以简化数据并行的使用。\n- `ParallelWrapper` 类：\n  - 接受一个神经网络模型作为输入。\n  - 允许用户指定运行设备（“cuda”或“cpu”）。\n  - 包含一个标志 `use_data_parallel`，用于启用或禁用数据并行。\n  - 检查是否有多个 GPU 可用，并相应地对模型应用 `nn.DataParallel`。\n  - 将属性访问重定向到内部模型，以实现无缝使用。\n\n#### **2. 修改了 `DilatedAttention` 模型的使用方式**\n- 使用 `ParallelWrapper` 类包装了 `DilatedAttention` 模型。\n- 使该模型能够在有可用 GPU 的情况下在多 GPU 上运行。\n\n#### **3. 设备分配**\n- 显式定义了一个设备，并用其指定了 `DilatedAttention` 模型应加载到的位置。\n- 如果 CUDA 可用，则设备默认为 GPU（`cuda:0`）；否则，默认为 CPU。\n\n#### **4. 示例用法**\n- 提供了如何初始化并使用 `ParallelWrapper` 类与 `DilatedAttention` 模型的示例。\n\n### 总结：\n此次主要新增了 `ParallelWrapper` 类，以方便且可配置地将数据并行应用于提供的 `DilatedAttention` 模型。这确保了在不显著改变现有工作流程的情况下，模型能够跨多个 GPU 进行扩展。用户现在只需通过一个标志即可启用或禁用数据并行。","2023-08-10T19:04:14",{"id":147,"version":148,"summary_zh":149,"released_at":150},334034,"0.4.3","### 更改日志：\n\n1. **张量形状调整**：\n   - 确保所有操作中张量的形状保持一致。\n   - 将 `a_indices` 压缩为 2D，以匹配 `att_denom_sums` 的维度。\n   \n        ```python\n        a_indices = a_indices[:, :, 0].squeeze(-1).squeeze(-1)\n        ```\n   \n   - 在进行散射操作之前，将 `a_indices` 切片到未填充的序列长度。\n   \n        ```python\n        a_indices = a_indices[:, :unpadded_seq_len]\n        ```\n\n2. **散射与聚集操作**：\n   - 使用压缩后的 2D `a_indices` 进行散射操作，并使用这些索引对稀疏求和结果进行聚集。\n   \n        ```python\n        att_denom_sums.scatter_add_(1, a_indices, a_denoms)\n        sparse_att_denom_sum = torch.gather(att_denom_sums, 1, a_indices)\n        ```\n\n3. **数据类型处理**：\n   - 将“稀疏索引”张量转换为 `torch.int64`（或 `torch.long`），以确保与 PyTorch 的索引操作兼容。\n   - 保留“X”张量的 `torch.float16` 数据类型，以提高内存效率。\n\n4. **代码清理**：\n   - 删除了重复打印“稀疏索引”形状和数据类型的代码行，使代码更加简洁。\n   - 统一调试打印语句的格式。\n   - 在散射操作之前打印张量的形状，以验证维度是否匹配。\n   - 添加注释说明维度压缩、切片及其他调整，以提高代码可读性。\n\n5. **验证检查**：\n   - 添加检查以确保张量位于同一设备上（全部在 CPU 上或全部在 CUDA 上）。\n   - 在执行操作之前，检查张量“X”的大小是否符合预期形状。\n\n6. **增强错误信息**：\n   - 改进了调试错误信息，使其更加详细和易懂。\n\n7. **优化**：\n   - 移除了对最终结果无贡献的多余张量操作。\n   - 优化了张量切片和索引操作，以提高内存效率。\n\n8. **边界情况处理**：\n   - 处理了 `head_idx` 为负值的边界情况。\n\n9. **其他小修复**：\n   - 确保仅当输入张量位于 CUDA 上且检测到非 A100 GPU 时，才使用数学或内存高效的注意力机制。\n   - 确保张量操作符合 PyTorch 的最佳实践。\n\n10. **文档**：\n    - 添加注释以突出显示重要更改，并解释代码中的某些决策。","2023-08-10T18:30:43",{"id":152,"version":153,"summary_zh":154,"released_at":155},334035,"0.4.2","* 新的稀疏化函数\n* 新的改进型拼接操作","2023-08-02T15:16:51",{"id":157,"version":158,"summary_zh":159,"released_at":160},334036,"0.4.1","## 更改记录\n\n### 错误修复\n\n1. **错误：** `DilatedAttentionLLAMA` 类的前向方法中，张量运算存在尺寸不匹配的问题。\n   - **根本原因：** 由于步幅操作不当，参与运算的张量维度不一致。\n   - **解决方案：** 通过在分割后的张量上引入一个内层循环，分别处理每一部分，从而解决了维度不匹配的问题。\n\n2. **错误：** 在转置张量时出现索引越界错误。\n   - **根本原因：** 传递给转置操作的索引超出了张量的总维度数。\n   - **解决方案：** 调整了传递给转置操作的索引，使其不超过张量的维度数。\n\n### 改进\n\n1. **优化张量运算：** 对前向方法中的张量运算进行了优化，确保所有运算都作用于维度匹配的张量上，从而提高了模型的运行效率。\n\n2. **增加错误处理：** 在张量运算中添加了维度不匹配的检查机制，当输入数据与预期形状不符时，会抛出有意义的错误信息。\n\n### 功能\n\n1. **DilatedAttentionLLAMA 类：** 引入了一个新的 `DilatedAttentionLLAMA` 类，该类在前向方法中使用扩张注意力机制。这一新实现旨在提升对较长序列长度的处理效率。\n\n2. **性能测试：** 添加了一项简单的性能测试，用于基准测试 `DilatedAttentionLLAMA` 类中前向方法的速度。\n","2023-07-17T19:54:33",{"id":162,"version":163,"summary_zh":164,"released_at":165},334037,"0.4.0","更新日志\n错误修复\n问题：ValueError: 解包值过多（期望 3 个）\n\n根本原因：注意力函数返回了超过三个值，但代码却试图将其返回值解包到仅三个变量中。\n\n解决方案：修改调用注意力函数的那行代码，使用 * 运算符将所有额外的返回值收集到一个列表中。\n\n问题：RuntimeError: 张量 a 的大小 (64) 必须与张量 b 的大小 (2) 在非单例维度 1 上匹配\n\n根本原因：在 DynamicDilatedAttention 类的前向传播方法中，代码尝试对两个尺寸不同的张量进行相加。\n\n解决方案：修改张量相加的那行代码，确保 attn_output 的尺寸与 outputs 的对应切片相同，然后再进行相加操作。\n\n问题：ValueError: 解包值不足（期望 7 个，得到 6 个）\n\n根本原因：FlashAttention 类中的 flash_attn 函数试图将 q 张量的形状解包为七个变量，但 q 张量只有六个维度。\n\n解决方案：修改 DilatedAttention 类的前向传播方法，在将 x 张量传递给注意力函数之前，先对其进行正确的重塑。\n\n改进\n改进：在 DilatedAttention 类的 __init__ 方法中添加断言，以检查参数的类型和取值，防止错误使用。\n\n改进：在 DilatedAttention 类的 __init__ 方法中增加对 Distributed 参数的检查，以决定是否对 FlashAttention 模块使用 DataParallel 包装器。\n\n改进：修改 DilatedAttention 类的前向传播方法，使每个注意力头分别处理输入的各个片段，从而允许不同片段之间的注意力头共享信息。\n\n改进：修改 DilatedAttention 类的前向传播方法，使用缓冲区来存储 attn_output_resized 张量，而不是在每次前向传播时都创建一个新的零张量，以此提高效率。","2023-07-14T20:15:35",{"id":167,"version":168,"summary_zh":78,"released_at":169},334038,"0.3.9","2023-07-14T19:12:41",{"id":171,"version":172,"summary_zh":78,"released_at":173},334039,"0.3.8","2023-07-14T03:36:06",{"id":175,"version":176,"summary_zh":78,"released_at":177},334040,"0.3.7","2023-07-12T21:56:13",{"id":179,"version":180,"summary_zh":78,"released_at":181},334041,"0.3.6","2023-07-12T21:05:13",{"id":183,"version":184,"summary_zh":78,"released_at":185},334042,"0.3.5","2023-07-12T20:55:49",{"id":187,"version":188,"summary_zh":78,"released_at":189},334043,"0.3.3","2023-07-12T20:32:00",{"id":191,"version":192,"summary_zh":78,"released_at":193},334044,"0.3.2","2023-07-12T19:33:31",{"id":195,"version":196,"summary_zh":78,"released_at":197},334045,"0.3.1","2023-07-12T19:05:23",{"id":199,"version":200,"summary_zh":78,"released_at":201},334046,"0.3.0","2023-07-12T18:54:10",{"id":203,"version":204,"summary_zh":78,"released_at":205},334047,"0.2.9","2023-07-12T18:25:14",{"id":207,"version":208,"summary_zh":78,"released_at":209},334048,"0.2.8","2023-07-12T18:05:48",{"id":211,"version":212,"summary_zh":78,"released_at":213},334049,"0.2.7","2023-07-12T17:53:58",{"id":215,"version":216,"summary_zh":78,"released_at":217},334050,"0.2.6","2023-07-12T17:40:17",{"id":219,"version":220,"summary_zh":78,"released_at":221},334051,"0.2.5","2023-07-10T19:45:38",{"id":223,"version":224,"summary_zh":78,"released_at":225},334052,"0.2.4","2023-07-10T19:33:45"]