[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-google-research--adapter-bert":3,"tool-google-research--adapter-bert":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",143909,2,"2026-04-07T11:33:18",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":65,"owner_location":65,"owner_email":65,"owner_twitter":65,"owner_website":76,"owner_url":77,"languages":78,"stars":83,"forks":84,"last_commit_at":85,"license":86,"difficulty_score":10,"env_os":87,"env_gpu":88,"env_ram":87,"env_deps":89,"category_tags":94,"github_topics":65,"view_count":32,"oss_zip_url":65,"oss_zip_packed_at":65,"status":17,"created_at":95,"updated_at":96,"faqs":97,"releases":117},5026,"google-research\u002Fadapter-bert","adapter-bert",null,"adapter-bert 是谷歌研究团队基于经典 BERT 模型推出的一个开源变体，专为提升自然语言处理（NLP）任务的迁移学习效率而设计。在传统模式下，让大模型适应新任务通常需要微调整个网络的海量参数，这不仅计算成本高昂，还导致每个任务都需要存储一份独立的庞大模型副本。\n\nadapter-bert 巧妙地在预训练模型的层间插入了轻量级的“适配器”模块。当面对新任务时，用户只需训练这些极少量的新增参数，而保持原有的 BERT 主体参数冻结不变。这种“参数高效”的策略不仅大幅降低了显存需求和训练时间，还能让多个任务共享同一个基础模型，仅通过加载不同的微型适配器即可切换功能，极大地节省了存储资源，且性能表现与全量微调相当。\n\n该工具非常适合 NLP 领域的研究人员和开发者，尤其是那些需要在资源受限环境下探索多任务学习、或希望快速将大模型应用于垂直领域场景的技术团队。其核心技术亮点在于以极小的参数量改动实现了高效的迁移学习，为大规模语言模型的落地应用提供了一种轻量化、低成本的解决方案。","# Adapter-BERT\n\n## Introduction\n\nThis repository contains a version of BERT that can be trained using adapters.\nOur ICML 2019 paper contains a full description of this technique:\n[Parameter-Efficient Transfer Learning for NLP](http:\u002F\u002Fproceedings.mlr.press\u002Fv97\u002Fhoulsby19a.html).\n\nAdapters allow one to train a model to solve new tasks, but adjust only a few\nparameters per task. This technique yields compact models that share many\nparameters across tasks, whilst performing similarly to fine-tuning the entire\nmodel independently for every task.\n\nThe code here is forked from the\n[original BERT repo](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fbert).\nIt provides our version of BERT with adapters, and the capability to train it on\nthe [GLUE tasks](https:\u002F\u002Fgluebenchmark.com\u002F).\nFor additional details on BERT, and support for additional tasks, see the\noriginal repo.\n\n\n## Tuning BERT with Adapters\n\nThe following command provides an example of tuning with adapters on GLUE.\n\nFine-tuning may be run on a GPU with at least 12GB of RAM, or a Cloud TPU. The\nsame constraints apply as for full fine-tuning of BERT. For additional details,\nand instructions on downloading a pre-trained checkpoint and the GLUE tasks,\nsee\n[https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fbert](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fbert).\n\n\n```shell\nexport BERT_BASE_DIR=\u002Fpath\u002Fto\u002Fbert\u002Funcased_L-12_H-768_A-12\nexport GLUE_DIR=\u002Fpath\u002Fto\u002Fglue\n\npython run_classifier.py \\\n  --task_name=MRPC \\\n  --do_train=true \\\n  --do_eval=true \\\n  --data_dir=$GLUE_DIR\u002FMRPC \\\n  --vocab_file=$BERT_BASE_DIR\u002Fvocab.txt \\\n  --bert_config_file=$BERT_BASE_DIR\u002Fbert_config.json \\\n  --init_checkpoint=$BERT_BASE_DIR\u002Fbert_model.ckpt \\\n  --max_seq_length=128 \\\n  --train_batch_size=32 \\\n  --learning_rate=3e-4 \\\n  --num_train_epochs=5.0 \\\n  --output_dir=\u002Ftmp\u002Fadapter_bert_mrpc\u002F\n```\n\nYou should see an output like this:\n\n```\n***** Eval results *****\n  eval_accuracy = 0.85784316\n  eval_loss = 0.48347527\n  global_step = 573\n  loss = 0.48347527\n```\n\nThis means that the Dev set accuracy was 85.78%. Small sets like MRPC have a\nhigh variance in the Dev set accuracy, even when starting from the same\npre-training checkpoint. Therefore results may deviate from this by 2%.\n\n## Citation\n\nPlease use the following citation for this work:\n\n```\n@inproceedings{houlsby2019parameter,\n  title = {Parameter-Efficient Transfer Learning for {NLP}},\n  author = {Houlsby, Neil and Giurgiu, Andrei and Jastrzebski, Stanislaw and Morrone, Bruna and De Laroussilhe, Quentin and Gesmundo, Andrea and Attariyan, Mona and Gelly, Sylvain},\n  booktitle = {Proceedings of the 36th International Conference on Machine Learning},\n  year = {2019},\n}\n```\n\nThe paper is uploaded to [ArXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1902.00751).\n\n## Disclaimer\n\nThis is not an official Google product.\n\n## Contact information\n\nFor personal communication, please contact Neil Houlsby\n(neilhoulsby@google.com).\n","# Adapter-BERT\n\n## 简介\n\n本仓库包含一个可以使用适配器进行训练的 BERT 版本。我们的 ICML 2019 论文对这一技术进行了详细描述：\n[参数高效的 NLP 迁移学习](http:\u002F\u002Fproceedings.mlr.press\u002Fv97\u002Fhoulsby19a.html)。\n\n适配器允许我们在仅调整每个任务中少量参数的情况下，训练模型来解决新任务。这种技术能够生成紧凑的模型，这些模型在不同任务之间共享大量参数，同时其性能与为每个任务独立地微调整个模型相当。\n\n此处的代码源自\n[原始 BERT 仓库](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fbert)。\n它提供了我们带有适配器的 BERT 版本，并支持在 [GLUE 任务](https:\u002F\u002Fgluebenchmark.com\u002F) 上进行训练。有关 BERT 的更多细节以及对其他任务的支持，请参阅原始仓库。\n\n\n## 使用适配器调优 BERT\n\n以下命令提供了一个在 GLUE 数据集上使用适配器进行调优的示例。\n\n微调可以在至少拥有 12GB 显存的 GPU 或云端 TPU 上运行。其约束条件与完整 BERT 微调相同。有关更多详情以及如何下载预训练检查点和 GLUE 任务数据的说明，请参阅\n[https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fbert](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fbert)。\n\n\n```shell\nexport BERT_BASE_DIR=\u002Fpath\u002Fto\u002Fbert\u002Funcased_L-12_H-768_A-12\nexport GLUE_DIR=\u002Fpath\u002Fto\u002Fglue\n\npython run_classifier.py \\\n  --task_name=MRPC \\\n  --do_train=true \\\n  --do_eval=true \\\n  --data_dir=$GLUE_DIR\u002FMRPC \\\n  --vocab_file=$BERT_BASE_DIR\u002Fvocab.txt \\\n  --bert_config_file=$BERT_BASE_DIR\u002Fbert_config.json \\\n  --init_checkpoint=$BERT_BASE_DIR\u002Fbert_model.ckpt \\\n  --max_seq_length=128 \\\n  --train_batch_size=32 \\\n  --learning_rate=3e-4 \\\n  --num_train_epochs=5.0 \\\n  --output_dir=\u002Ftmp\u002Fadapter_bert_mrpc\u002F\n```\n\n您应该会看到如下输出：\n\n```\n***** 评估结果 *****\n  eval_accuracy = 0.85784316\n  eval_loss = 0.48347527\n  global_step = 573\n  loss = 0.48347527\n```\n\n这意味着验证集准确率为 85.78%。像 MRPC 这样的小型数据集，即使从相同的预训练检查点开始，验证集准确率也会有较大波动。因此，实际结果可能会与此相差约 2%。\n\n## 引用\n\n请使用以下引用方式来引用这项工作：\n\n```\n@inproceedings{houlsby2019parameter,\n  title = {参数高效的 NLP 迁移学习},\n  author = {Houlsby, Neil and Giurgiu, Andrei and Jastrzebski, Stanislaw and Morrone, Bruna and De Laroussilhe, Quentin and Gesmundo, Andrea and Attariyan, Mona and Gelly, Sylvain},\n  booktitle = {第36届国际机器学习大会论文集},\n  year = {2019},\n}\n```\n\n该论文已上传至 [ArXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1902.00751)。\n\n## 免责声明\n\n本项目并非 Google 官方产品。\n\n## 联系方式\n\n如需个人沟通，请联系 Neil Houlsby\n(neilhoulsby@google.com)。","# Adapter-BERT 快速上手指南\n\nAdapter-BERT 是一种基于 BERT 的参数高效迁移学习实现。它通过在每个任务中仅训练少量新增的“适配器（Adapter）”参数，使模型能够适应新任务，同时保持预训练主体参数冻结。该方法生成的模型紧凑且多任务共享参数，性能媲美全量微调。\n\n## 环境准备\n\n*   **系统要求**：Linux 或 macOS 环境。\n*   **硬件要求**：\n    *   GPU：显存至少 12GB。\n    *   或：Cloud TPU 环境。\n*   **前置依赖**：\n    *   Python 3.x\n    *   TensorFlow 1.x (基于原始 BERT 仓库版本)\n    *   已下载预训练的 BERT 检查点（如 `uncased_L-12_H-768_A-12`）\n    *   已下载 GLUE 基准数据集\n\n> **提示**：国内开发者可通过阿里云镜像或清华开源镜像站加速下载 TensorFlow 及相关 Python 依赖。预训练模型和数据集建议从国内云存储（如 ModelScope、AI Studio）获取以提升下载速度。\n\n## 安装步骤\n\n本项目代码派生自官方 BERT 仓库，需手动克隆并配置环境。\n\n1.  **克隆代码仓库**\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fbert.git\n    cd bert\n    # 注意：adapter-bert 的具体实现代码需替换为该项目提供的 run_classifier.py 等文件\n    # 请确保将 adapter-bert 仓库中的修改文件覆盖到此处\n    ```\n\n2.  **安装 Python 依赖**\n    ```bash\n    pip install -r requirements.txt\n    # 若国内下载慢，推荐使用清华源：\n    # pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n    ```\n\n3.  **准备数据与模型**\n    确保本地路径包含以下资源：\n    *   BERT 预训练模型目录（含 `bert_model.ckpt`, `vocab.txt`, `bert_config.json`）\n    *   GLUE 数据集目录（如 `MRPC` 文件夹）\n\n## 基本使用\n\n以下示例展示如何在 MRPC（语义相似度判断）任务上使用 Adapter 进行微调和评估。\n\n1.  **设置环境变量**\n    请根据实际路径修改以下变量：\n    ```shell\n    export BERT_BASE_DIR=\u002Fpath\u002Fto\u002Fbert\u002Funcased_L-12_H-768_A-12\n    export GLUE_DIR=\u002Fpath\u002Fto\u002Fglue\n    ```\n\n2.  **运行训练与评估**\n    执行以下命令启动训练：\n    ```shell\n    python run_classifier.py \\\n      --task_name=MRPC \\\n      --do_train=true \\\n      --do_eval=true \\\n      --data_dir=$GLUE_DIR\u002FMRPC \\\n      --vocab_file=$BERT_BASE_DIR\u002Fvocab.txt \\\n      --bert_config_file=$BERT_BASE_DIR\u002Fbert_config.json \\\n      --init_checkpoint=$BERT_BASE_DIR\u002Fbert_model.ckpt \\\n      --max_seq_length=128 \\\n      --train_batch_size=32 \\\n      --learning_rate=3e-4 \\\n      --num_train_epochs=5.0 \\\n      --output_dir=\u002Ftmp\u002Fadapter_bert_mrpc\u002F\n    ```\n\n3.  **查看结果**\n    训练完成后，终端将输出类似以下的评估结果：\n    ```text\n    ***** Eval results *****\n      eval_accuracy = 0.85784316\n      eval_loss = 0.48347527\n      global_step = 573\n      loss = 0.48347527\n    ```\n    上述结果表明开发集准确率约为 85.78%。由于 MRPC 数据集较小，不同随机种子下的结果可能存在约 2% 的波动，属正常现象。","某金融科技公司的算法团队需要在同一套基础语言模型上，快速为信贷审批、欺诈检测和客服问答三个不同业务线定制专属的 NLP 模型。\n\n### 没有 adapter-bert 时\n- **存储成本高昂**：每个业务任务都需要独立微调并保存一份完整的 BERT 模型副本，导致数百 GB 的存储空间被重复占用。\n- **部署维护困难**：上线多个全量模型不仅占用大量显存，还使得版本管理和灰度发布变得极其复杂。\n- **训练效率低下**：每次新增业务场景都要对数亿参数进行全量更新，训练周期长且算力资源消耗巨大。\n- **灾难性遗忘风险**：在旧任务数据上重新微调以适应新任务时，容易破坏模型原有的通用语言能力。\n\n### 使用 adapter-bert 后\n- **极致参数压缩**：仅需为每个新任务训练并存储极小的“适配器”模块，共享底层 BERT 参数，存储占用减少 90% 以上。\n- **轻量级多任务部署**：同一套基础模型可动态加载不同的适配器来切换业务功能，显著降低服务器显存压力。\n- **敏捷迭代开发**：冻结大部分预训练参数，只更新少量适配器参数，将新任务的训练时间从数天缩短至数小时。\n- **知识稳定保留**：在适配新任务时有效保护了预训练模型的通用知识，避免了因全量微调导致的性能回退。\n\nadapter-bert 通过“冻结主干、微调旁路”的机制，让企业在多任务场景下以极低的算力与存储成本，实现了高效、灵活的模型定制化落地。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgoogle-research_adapter-bert_3a2d9f88.png","google-research","Google Research","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fgoogle-research_c23b2adf.png","","https:\u002F\u002Fresearch.google","https:\u002F\u002Fgithub.com\u002Fgoogle-research",[79],{"name":80,"color":81,"percentage":82},"Python","#3572A5",100,506,53,"2026-03-12T14:30:51","Apache-2.0","未说明","必需（GPU 或 Cloud TPU），显存至少 12GB",{"notes":90,"python":87,"dependencies":91},"该工具是基于原始 Google BERT 仓库的分支，主要支持在 GPU（至少 12GB 显存）或 Cloud TPU 上运行。需自行下载预训练检查点和 GLUE 任务数据。由于代码较旧（2019 年论文配套代码），具体依赖库版本需参考原始 BERT 仓库要求。",[92,93],"TensorFlow (基于原始 BERT 仓库)","未说明其他具体库版本",[35,14],"2026-03-27T02:49:30.150509","2026-04-07T22:50:56.201886",[98,103,108,113],{"id":99,"question_zh":100,"answer_zh":101,"source_url":102},22847,"如何高效地通过服务提供多个 Adapter（适配器）模型？","服务器必须知晓相关的 Adapter 参数。主要有两种方案：\n1. 在服务器上存储各种任务的 Adapter（类似于词嵌入矩阵），每个请求需指定要使用的 Adapter。这需要用户拥有该服务的控制权。\n2. 在请求时将 Adapter 参数与输入文本一起传递给服务器。这种方法仅在使用非常小的 Adapter（适用于某些任务）时才有效。","https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fadapter-bert\u002Fissues\u002F3",{"id":104,"question_zh":105,"answer_zh":106,"source_url":107},22848,"Adapter 微调过程中，为什么没有冻结原始 Transformer 的参数？代码中哪里限制了训练范围？","实际上代码限制了只训练 Adapter、Layer-Norm 和 Head 中的参数。这是通过在优化器中使用集合（collections）来实现的，具体代码如下：\n```\ntvars = []\nfor collection in [\"adapters\", \"layer_norm\", \"head\"]:\n  tvars += tf.get_collection(collection)\n```\n只有属于这些集合的变量会被更新，原始 Transformer 参数保持冻结。","https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fadapter-bert\u002Fissues\u002F2",{"id":109,"question_zh":110,"answer_zh":111,"source_url":112},22849,"加载预训练 BERT 检查点时遇到 'ValueError: Tensor not found in checkpoint' 错误，特别是添加了 Adapter 层后，如何解决？","这是因为使用 `tf.estimator.WarmStartSettings` 加载权重时，默认会尝试加载所有变量（`vars_to_warm_start` 默认为 *），包括新添加但检查点中不存在的 Adapter 层。\n解决方案是显式指定只加载检查点中存在的变量。将 `tf.trainable_variables()` 转换为列表并传给 `vars_to_warm_start` 参数，确保只加载已初始化的变量：\n```python\n# 错误用法（默认加载所有）\nwarm_start = tf.estimator.WarmStartSettings(ckpt_to_initialize_from=FLAGS.init_checkpoint)\n\n# 正确用法（仅加载存在变量）\nvars_to_warm_start = list(tf.trainable_variables()) # 或更精确地过滤只在检查点中的变量\nwarm_start = tf.estimator.WarmStartSettings(\n    ckpt_to_initialize_from=FLAGS.init_checkpoint,\n    vars_to_warm_start=vars_to_warm_start\n)\n```","https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fadapter-bert\u002Fissues\u002F1",{"id":114,"question_zh":115,"answer_zh":116,"source_url":102},22850,"是否可以使用 Adapter 进行在线学习（Online Learning）或主动学习？","这是一个有趣的方向，虽然官方尚未正式尝试，但理论上可行。由于 Adapter 允许使用更高的学习率且参数量少，非常适合在线学习场景（即每个训练样本只看一次然后丢弃）。对于需要立即结果的场景，可以直接更新 Adapter；后续也可以像论文建议的那样，通过加权采样进行完整重训练。",[]]