[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Victorwz--LongMem":3,"tool-Victorwz--LongMem":64},[4,17,27,35,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",144730,2,"2026-04-07T23:26:32",[13,14,15],"开发框架","Agent","语言模型","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,3,"2026-04-06T11:19:32",[15,26,14,13],"图像",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":10,"last_commit_at":33,"category_tags":34,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":10,"last_commit_at":41,"category_tags":42,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85013,"2026-04-06T11:09:19",[26,43,44,45,14,46,15,13,47],"数据工具","视频","插件","其他","音频",{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":23,"last_commit_at":54,"category_tags":55,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[14,26,13,15,46],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":23,"last_commit_at":62,"category_tags":63,"status":16},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",75097,"2026-04-07T22:51:14",[15,26,13,46],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":80,"owner_email":81,"owner_twitter":80,"owner_website":80,"owner_url":82,"languages":83,"stars":121,"forks":122,"last_commit_at":123,"license":124,"difficulty_score":125,"env_os":126,"env_gpu":127,"env_ram":126,"env_deps":128,"category_tags":136,"github_topics":137,"view_count":10,"oss_zip_url":80,"oss_zip_packed_at":80,"status":16,"created_at":141,"updated_at":142,"faqs":143,"releases":174},5406,"Victorwz\u002FLongMem","LongMem","Official implementation of our NeurIPS 2023 paper \"Augmenting Language Models with Long-Term Memory\". ","LongMem 是一个旨在增强大型语言模型长期记忆能力的开源项目，源自 NeurIPS 2023 的研究论文。它主要解决了传统语言模型因上下文窗口限制而难以有效利用历史知识、容易遗忘早期信息的痛点。通过引入动态记忆库机制，LongMem 能让模型在生成回答时主动检索并融合过往的关键信息，从而显著提升其在长文本理解和少样本学习场景下的表现。\n\n该项目特别适合人工智能研究人员和开发者使用，尤其是那些希望探索记忆增强架构、复现前沿论文成果或基于 Fairseq 框架进行二次开发的团队。其核心技术亮点在于独特的“侧网络”（SideNetwork）设计与联合注意力机制，能够在不大幅修改原有模型结构的前提下，高效实现外部记忆的存储、检索与融合。此外，项目提供了完整的训练脚本、数据预处理流程以及在 Pile 数据集上的适配方案，并支持在多种 GPU 环境下部署。虽然配置环境需要一定的技术基础，但详细的文档和模块化代码结构为用户提供了清晰的实践路径，是研究长程依赖问题的有力工具。","# LongMem\n\nOfficial implementation of our paper \"[Augmenting Language Models with Long-Term Memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F\u002F2306.07174)\".\n\nPlease cite our paper if you find this repository interesting or helpful:\n```bibtex\n@article{LongMem,\n  title={Augmenting Language Models with Long-Term Memory},\n  author={Wang, Weizhi and Dong, Li and Cheng, Hao and Liu, Xiaodong and Yan, Xifeng and Gao, Jianfeng and Wei, Furu},\n  journal={arXiv preprint arXiv:2306.07174},\n  year={2023}\n}\n```\n\n## Environment Setup \n* torch: Please follow [torch official installation guide](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Fprevious-versions\u002F). We recommend torch>=1.8.0. Please select the torch-gpu version which is consistent with your cuda driver version.\n\n* Faiss-GPU: For Nvidia V100 GPUs, simply install via ``pip install faiss-gpu``. For Nvidia A100, A6000 GPUs, please run ``conda install faiss-gpu cudatoolkit=11.0 -c pytorch``. The A100 GPU is not officially supported by faiss-gpu, sometimes it will lead to errors, you can refer to this git [issue](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Ffaiss\u002Fissues\u002F2064) of faiss for help.\n\n* fairseq: ``pip install --editable .\u002Ffairseq`` Then the revised `fairseq` and dependency packages will be installed. We strongly recommend you to use python 3.8 for stability.\n\n* other packages: ``pip install -r requirements.txt``\n\n## Project Structure\n* Pre-trained LLM Class (L24, E1024, Alibi positional embedding): [`fairseq\u002Ffairseq\u002Fmodels\u002Fnewgpt.py`](fairseq\u002Ffairseq\u002Fmodels\u002Fnewgpt.py)\n\n* Transformer Decoder with SideNetwork (L12, E1024): [`fairseq\u002Ffairseq\u002Fmodels\u002Fsidenet\u002Ftransformer_decoder_sidenet.py`](fairseq\u002Ffairseq\u002Fmodels\u002Fsidenet\u002Ftransformer_decoder_sidenet.py)\n\n* Transformer Language Model with SideNetwork Class: [`fairseq\u002Ffairseq\u002Fmodels\u002Ftransformer_lm_sidenet.py`](fairseq\u002Ffairseq\u002Fmodels\u002Ftransformer_lm_sidenet.py)\n\n* Memory Bank and Retrieval: [`fairseq\u002Ffairseq\u002Fmodules\u002Fdynamic_memory_with_chunk.py`](fairseq\u002Ffairseq\u002Fmodules\u002Fdynamic_memory_with_chunk.py)\n\n* Joint Attention for Memory Fusion: [`fairseq\u002Ffairseq\u002Fmodules\u002Fjoint_multihead_attention_sum.py`](fairseq\u002Ffairseq\u002Fmodules\u002Fjoint_multihead_attention_sum.py)\n\n## Memory-Augmented Adaptation Training\n### Data collection and Preprocessing\nPlease download the Pile from [official release](https:\u002F\u002Fpile.eleuther.ai\u002F). Each sub-dataset in the Pile is organized as various jsonline splits. You can refer to [`preprocess\u002Ffilter_shard_tnlg.py`](preprocess\u002Ffilter_shard_tnlg.py) fpr how we sample the training set and binalize following standard fairseq preprocessing process.\n\nMemory-Augmented Adaptation Training:\n```\nbash train_scripts\u002Ftrain_longmem.sh\n```\n\n## Evaluation\nPlease firstly download the checkpoints for pre-trained [GPT2-medium model and LongMem model](https:\u002F\u002Fhuggingface.co\u002Fweizhiwang\u002FLongMem-558M) to ``checkpoints\u002F``.\n\n### Memory-Augmented In-Context Learning\n```\n# Evaluate gpt2 baseline\npython eval_scripts\u002Feval_longmem_icl.py --path \u002Fpath\u002Fto\u002Fgpt2_pretrained_model\n# Evaluate LongMem model\npython eval_scripts\u002Feval_longmem_icl.py --path \u002Fpath\u002Fto\u002Flongmem_model --pretrained-model-path \u002Fpath\u002Fto\u002Fgpt2_pretrained_model\n```\n\n## Credits\nLongMem is developed based on [fairseq](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Ffairseq). Thanks to the team from eleuther.ai who constructed the largest high-quality corpora, the Pile.\n","# LongMem\n\n我们论文《通过长期记忆增强语言模型》（[arXiv:2306.07174](https:\u002F\u002Farxiv.org\u002Fabs\u002F\u002F2306.07174)）的官方实现。\n\n如果您觉得本仓库有趣或有帮助，请引用我们的论文：\n\n```bibtex\n@article{LongMem,\n  title={Augmenting Language Models with Long-Term Memory},\n  author={Wang, Weizhi and Dong, Li and Cheng, Hao and Liu, Xiaodong and Yan, Xifeng and Gao, Jianfeng and Wei, Furu},\n  journal={arXiv preprint arXiv:2306.07174},\n  year={2023}\n}\n```\n\n## 环境配置\n* PyTorch：请按照 [PyTorch 官方安装指南](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Fprevious-versions\u002F) 进行安装。建议使用 PyTorch ≥ 1.8.0。请根据您的 CUDA 驱动版本选择对应的 GPU 版本。\n\n* Faiss-GPU：对于 Nvidia V100 显卡，直接运行 `pip install faiss-gpu` 即可。对于 Nvidia A100 和 A6000 显卡，请运行 `conda install faiss-gpu cudatoolkit=11.0 -c pytorch`。需要注意的是，Faiss-GPU 尚未正式支持 A100 显卡，有时可能会出现错误，您可以参考 Faiss 的 [GitHub 问题](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Ffaiss\u002Fissues\u002F2064) 获取帮助。\n\n* fairseq：运行 `pip install --editable .\u002Ffairseq`，即可安装修改后的 `fairseq` 及其依赖包。为保证稳定性，强烈建议使用 Python 3.8。\n\n* 其他依赖：运行 `pip install -r requirements.txt`。\n\n## 项目结构\n* 预训练 LLM 类（L24，E1024，Alibi 位置编码）：[`fairseq\u002Ffairseq\u002Fmodels\u002Fnewgpt.py`](fairseq\u002Ffairseq\u002Fmodels\u002Fnewgpt.py)\n\n* 带侧网络的 Transformer 解码器（L12，E1024）：[`fairseq\u002Ffairseq\u002Fmodels\u002Fsidenet\u002Ftransformer_decoder_sidenet.py`](fairseq\u002Ffairseq\u002Fmodels\u002Fsidenet\u002Ftransformer_decoder_sidenet.py)\n\n* 带侧网络的 Transformer 语言模型类：[`fairseq\u002Ffairseq\u002Fmodels\u002Ftransformer_lm_sidenet.py`](fairseq\u002Ffairseq\u002Fmodels\u002Ftransformer_lm_sidenet.py)\n\n* 记忆库与检索模块：[`fairseq\u002Ffairseq\u002Fmodules\u002Fdynamic_memory_with_chunk.py`](fairseq\u002Ffairseq\u002Fmodules\u002Fdynamic_memory_with_chunk.py)\n\n* 用于记忆融合的联合注意力机制：[`fairseq\u002Ffairseq\u002Fmodules\u002Fjoint_multihead_attention_sum.py`](fairseq\u002Ffairseq\u002Fmodules\u002Fjoint_multihead_attention_sum.py)\n\n## 记忆增强的适配训练\n### 数据收集与预处理\n请从 [官方发布页面](https:\u002F\u002Fpile.eleuther.ai\u002F) 下载 Pile 数据集。Pile 中的每个子数据集都以多个 JSON Lines 文件的形式组织。您可以参考 [`preprocess\u002Ffilter_shard_tnlg.py`](preprocess\u002Ffilter_shard_tnlg.py)，了解我们如何采样训练集并按照标准的 fairseq 预处理流程进行二进制化处理。\n\n记忆增强的适配训练：\n```\nbash train_scripts\u002Ftrain_longmem.sh\n```\n\n## 评估\n请先将预训练的 [GPT2-medium 模型和 LongMem 模型的检查点](https:\u002F\u002Fhuggingface.co\u002Fweizhiwang\u002FLongMem-558M) 下载到 `checkpoints\u002F` 目录下。\n\n### 记忆增强的上下文学习\n```\n# 评估 GPT2 基线\npython eval_scripts\u002Feval_longmem_icl.py --path \u002Fpath\u002Fto\u002Fgpt2_pretrained_model\n# 评估 LongMem 模型\npython eval_scripts\u002Feval_longmem_icl.py --path \u002Fpath\u002Fto\u002Flongmem_model --pretrained-model-path \u002Fpath\u002Fto\u002Fgpt2_pretrained_model\n```\n\n## 致谢\nLongMem 是基于 [fairseq](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Ffairseq) 开发的。同时感谢 eleuther.ai 团队构建了最大规模的高质量语料库——Pile。","# LongMem 快速上手指南\n\nLongMem 是一个通过引入长期记忆机制来增强语言模型能力的开源项目。本指南将帮助中国开发者快速完成环境配置、安装及基础评估运行。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu)\n*   **Python 版本**: 强烈推荐使用 **Python 3.8** 以保证稳定性。\n*   **GPU 驱动**: 需安装与显卡匹配的 CUDA 驱动。\n    *   **Nvidia V100**: 标准 CUDA 环境即可。\n    *   **Nvidia A100\u002FA6000**: 需注意 Faiss 兼容性，建议指定 `cudatoolkit=11.0`。\n*   **PyTorch**: 版本需 >= 1.8.0，且必须为 GPU 版本。\n\n## 安装步骤\n\n请按顺序执行以下命令完成依赖安装和项目配置。为提高下载速度，国内用户可配置 pip 使用清华或阿里镜像源（例如添加 `-i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`）。\n\n### 1. 安装 PyTorch\n请访问 [PyTorch 官网](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Fprevious-versions\u002F) 根据您的 CUDA 版本获取安装命令。示例如下：\n```bash\npip install torch>=1.8.0 torchvision torchaudio --extra-index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu111\n```\n\n### 2. 安装 Faiss-GPU\n根据显卡型号选择安装方式：\n\n*   **V100 显卡**:\n    ```bash\n    pip install faiss-gpu\n    ```\n*   **A100 \u002F A6000 显卡** (需指定 toolkit 版本以避免兼容性问题):\n    ```bash\n    conda install faiss-gpu cudatoolkit=11.0 -c pytorch\n    ```\n\n### 3. 安装 Fairseq 及其他依赖\n克隆或进入项目目录后，执行以下命令安装修改版的 fairseq 及所需包：\n\n```bash\n# 安装修改版 fairseq\npip install --editable .\u002Ffairseq\n\n# 安装其他依赖包\npip install -r requirements.txt\n```\n*(注：国内用户可在上述命令后追加 `-i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`)*\n\n## 基本使用\n\n本项目最核心的功能是**记忆增强型上下文学习（Memory-Augmented In-Context Learning）**的评估。以下是基于预训练模型的快速评估示例。\n\n### 1. 下载预训练模型\n首先从 Hugging Face 下载 GPT2-medium 基座模型和 LongMem 模型权重，并存放至 `checkpoints\u002F` 目录。\n*   模型地址：[weizhiwang\u002FLongMem-558M](https:\u002F\u002Fhuggingface.co\u002Fweizhiwang\u002FLongMem-558M)\n*   国内加速：建议使用镜像站下载或通过脚本代理下载。\n\n### 2. 运行评估脚本\n\n**评估 GPT2 基线模型：**\n```bash\npython eval_scripts\u002Feval_longmem_icl.py --path \u002Fpath\u002Fto\u002Fgpt2_pretrained_model\n```\n\n**评估 LongMem 模型：**\n需要同时指定 LongMem 模型路径和对应的 GPT2 预训练模型路径。\n```bash\npython eval_scripts\u002Feval_longmem_icl.py --path \u002Fpath\u002Fto\u002Flongmem_model --pretrained-model-path \u002Fpath\u002Fto\u002Fgpt2_pretrained_model\n```\n\n> **提示**: 请将 `\u002Fpath\u002Fto\u002F...` 替换为您本地实际的模型文件路径。","某法律科技团队正在开发一款智能合同审查助手，需要模型在处理长达数十页的合同时，能精准引用前文定义的条款细节或数月前的历史修订记录。\n\n### 没有 LongMem 时\n- **上下文遗忘严重**：受限于标准 Transformer 的固定窗口，模型无法“记住”文档开头定义的关键术语，导致后续分析出现逻辑断层。\n- **重复输入成本高**：为了让模型理解背景，开发者被迫将大量历史对话或文档片段反复拼接到 Prompt 中，显著增加了推理延迟和 Token 消耗。\n- **长程关联失效**：当用户询问“这与三个月前修改的第 12 条有何冲突”时，模型因缺乏长期记忆机制，只能基于当前片段瞎编或回答不知道。\n- **微调数据冗余**：传统微调难以让模型学会动态检索外部知识，每次更新知识库都需要重新训练整个模型，效率极低。\n\n### 使用 LongMem 后\n- **动态记忆检索**：LongMem 通过侧边网络（SideNetwork）和动态记忆库，让模型能主动从海量历史数据中精准“召回”相关条款，突破上下文长度限制。\n- **推理效率提升**：无需将所有历史信息塞入输入窗口，模型仅读取检索到的关键记忆片段，大幅降低了显存占用和响应时间。\n- **长程逻辑连贯**：面对跨段落、跨时间的复杂质询，LongMem 能利用联合注意力机制融合记忆，准确指出条款间的演变与冲突。\n- **自适应知识更新**：新的法律案例或合同模板可直接写入记忆库，模型无需重新训练即可即时掌握最新领域知识。\n\nLongMem 通过赋予语言模型真正的“长期记忆”，将原本受限于短上下文的静态模型，升级为能持续学习并精准处理超长文档的智能专家。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FVictorwz_LongMem_21eae76a.png","Victorwz","Weizhi Wang","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FVictorwz_0a426e41.jpg","Researcher @Tencent-Hunyuan ","Tencent",null,"wangweizhihy@gmail.com","https:\u002F\u002Fgithub.com\u002FVictorwz",[84,88,92,96,100,104,108,112,115,118],{"name":85,"color":86,"percentage":87},"Python","#3572A5",95.2,{"name":89,"color":90,"percentage":91},"Shell","#89e051",2.9,{"name":93,"color":94,"percentage":95},"Cuda","#3A4E3A",1,{"name":97,"color":98,"percentage":99},"C++","#f34b7d",0.5,{"name":101,"color":102,"percentage":103},"Cython","#fedf5b",0.2,{"name":105,"color":106,"percentage":107},"Lua","#000080",0.1,{"name":109,"color":110,"percentage":111},"Perl","#0298c3",0,{"name":113,"color":114,"percentage":111},"C","#555555",{"name":116,"color":117,"percentage":111},"Batchfile","#C1F12E",{"name":119,"color":120,"percentage":111},"Makefile","#427819",824,74,"2026-04-07T06:56:12","Apache-2.0",4,"未说明","必需 NVIDIA GPU。V100 可直接安装 faiss-gpu；A100\u002FA6000 需通过 conda 安装并指定 cudatoolkit=11.0（faiss-gpu 官方未完全支持 A100，可能报错）。CUDA 版本需与 torch-gpu 版本一致。",{"notes":129,"python":130,"dependencies":131},"1. 对于 A100 或 A6000 显卡，安装 faiss-gpu 时建议使用命令 'conda install faiss-gpu cudatoolkit=11.0 -c pytorch'，因为官方 pip 包可能不兼容。2. fairseq 需要以可编辑模式安装（pip install --editable .\u002Ffairseq）。3. 训练数据需从 The Pile 下载并按脚本进行预处理。4. 评估前需手动下载 GPT2-medium 和 LongMem 预训练模型权重。","3.8 (强烈推荐使用以保证稳定性)",[132,133,134,135],"torch>=1.8.0","faiss-gpu","fairseq (editable install)","requirements.txt 中的其他依赖包",[15],[138,139,140],"large-language-models","long-context-modeling","long-term-memory","2026-03-27T02:49:30.150509","2026-04-08T13:59:07.014456",[144,149,154,159,164,169],{"id":145,"question_zh":146,"answer_zh":147,"source_url":148},24530,"代码仓库为什么是空的？在哪里可以找到代码？","由于个人原因，代码发布稍晚了一些。目前代码已向公众开放。维护者表示将立即整理文档以便于复现和讨论。","https:\u002F\u002Fgithub.com\u002FVictorwz\u002FLongMem\u002Fissues\u002F2",{"id":150,"question_zh":151,"answer_zh":152,"source_url":153},24531,"Pile 数据集在原网站无法下载，如何获取训练数据？","Eleuther AI 已将 Pile 数据集从原网站下线。替代方案是从 Hugging Face 下载去重后的原始数据集。下载地址为：https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FEleutherAI\u002Fraw_deduplicated_pile\u002Ftree\u002Fmain。该数据集包含 19 个文件，命名为 pile_train_deduped0-19.jsonl。","https:\u002F\u002Fgithub.com\u002FVictorwz\u002FLongMem\u002Fissues\u002F16",{"id":155,"question_zh":156,"answer_zh":157,"source_url":158},24532,"训练脚本中的预训练模型路径设置为 Bloom-1b7，但论文中使用的是 GPT-2，应该使用哪个模型？","这是一个配置错误。维护者忘记将训练脚本（train_scripts\u002Ftrain_longmem.sh）中的 pre-trained-model-path 超参数改回 GPT-2-Medium。作者已使用 GPT-2-Medium 和 Bloom-1b7 分别进行了实验，并已提交修复。请参考最新的训练脚本，将路径指向 GPT-2-Medium。","https:\u002F\u002Fgithub.com\u002FVictorwz\u002FLongMem\u002Fissues\u002F12",{"id":160,"question_zh":161,"answer_zh":162,"source_url":163},24533,"运行验证集时报错\"Is a directory\"，如何构建有效的验证数据集？","该问题通常是因为使用的 fairseq 版本较高（如 0.12），而原作者代码基于较低版本编写，不需要单独加载验证集二进制文件。解决方法是找到 fairseq 子文件夹下的训练代码（例如 xxx\u002Flongmem\u002Ffairseq\u002Ffairseq_cli\u002Ftrain.py），注释掉加载验证数据集的相关代码块：\n# Load valid dataset (we load training data below, based on the latest checkpoint)\n# We load the valid dataset AFTER building the model\ndata_utils.raise_if_valid_subsets_unintentionally_ignored(cfg)\nif cfg.dataset.combine_valid_subsets:\n    task.load_dataset(\"valid\", combine=True, epoch=1)\nelse:\n    for valid_sub_split in cfg.dataset.valid_subset.split(\",\"):\n        task.load_dataset(...)","https:\u002F\u002Fgithub.com\u002FVictorwz\u002FLongMem\u002Fissues\u002F19",{"id":165,"question_zh":166,"answer_zh":167,"source_url":168},24534,"运行评估脚本时出现 FileNotFoundError: dict.txt 找不到，如何解决？","这是一个已知 bug，原因是评估脚本中硬编码了特定的数据路径。维护者已确认并修复了此问题。请拉取最新的代码更新即可解决。","https:\u002F\u002Fgithub.com\u002FVictorwz\u002FLongMem\u002Fissues\u002F11",{"id":170,"question_zh":171,"answer_zh":172,"source_url":173},24535,"是否会发布训练\u002F评估脚本以及预训练的模型检查点？","是的，维护者承诺会发布用于收集训练和评估数据集的脚本、数据集本身以及预训练的检查点。通常在代码开源后的一周内发布。","https:\u002F\u002Fgithub.com\u002FVictorwz\u002FLongMem\u002Fissues\u002F7",[]]