[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-google-research--FLAN":3,"tool-google-research--FLAN":65},[4,18,28,36,44,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",151918,2,"2026-04-12T11:33:05",[14,13,27],"语言模型",{"id":29,"name":30,"github_repo":31,"description_zh":32,"stars":33,"difficulty_score":10,"last_commit_at":34,"category_tags":35,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[27,15,13,14],{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":24,"last_commit_at":42,"category_tags":43,"status":17},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[14,27],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":24,"last_commit_at":50,"category_tags":51,"status":17},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85092,"2026-04-10T11:13:16",[15,16,52,53,13,54,27,14,55],"视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":62,"last_commit_at":63,"category_tags":64,"status":17},5784,"funNLP","fighting41love\u002FfunNLP","funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为\"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。\n\n面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。\n\n无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。",79857,1,"2026-04-08T20:11:31",[27,16,54],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":71,"readme_en":72,"readme_zh":73,"quickstart_zh":74,"use_case_zh":75,"hero_image_url":76,"owner_login":77,"owner_name":78,"owner_avatar_url":79,"owner_bio":80,"owner_company":69,"owner_location":69,"owner_email":69,"owner_twitter":69,"owner_website":81,"owner_url":82,"languages":83,"stars":92,"forks":93,"last_commit_at":94,"license":95,"difficulty_score":96,"env_os":80,"env_gpu":97,"env_ram":97,"env_deps":98,"category_tags":102,"github_topics":69,"view_count":24,"oss_zip_url":69,"oss_zip_packed_at":69,"status":17,"created_at":103,"updated_at":104,"faqs":105,"releases":134},6953,"google-research\u002FFLAN","FLAN",null,"FLAN 是一个专注于指令微调（Instruction Tuning）的开源项目，旨在帮助开发者构建高质量的训练数据集，从而让大型语言模型更好地理解和执行各类自然语言指令。它主要解决了传统模型在缺乏特定任务训练数据时表现不佳的问题，通过提供多样化的指令模板和数据混合策略，显著提升了模型的零样本（Zero-Shot）学习和泛化能力。\n\n该项目包含了两个核心版本：2021 年发布的原始 FLAN 数据集，以及 2022 年扩展后的\"FLAN 集合”。后者不仅规模更大，还经过精心设计，直接孕育了业界知名的 Flan-T5 和 Flan-PaLM 等强大模型。FLAN 的独特亮点在于其模块化的数据生成代码，允许用户灵活配置不同的任务混合比例，为研究指令微调的有效性提供了坚实基础。\n\nFLAN 非常适合人工智能研究人员、算法工程师以及对大模型微调感兴趣的开发者使用。如果你希望深入探索如何让模型更聪明地响应人类指令，或者需要复现前沿论文中的实验结果，FLAN 提供的代码库和数据构建方法将是得力的助手。虽然普通用户无法直接操作代码，但日常使用的许多智能助手背后，可能正运行着基于 FLAN 技术优化的","FLAN 是一个专注于指令微调（Instruction Tuning）的开源项目，旨在帮助开发者构建高质量的训练数据集，从而让大型语言模型更好地理解和执行各类自然语言指令。它主要解决了传统模型在缺乏特定任务训练数据时表现不佳的问题，通过提供多样化的指令模板和数据混合策略，显著提升了模型的零样本（Zero-Shot）学习和泛化能力。\n\n该项目包含了两个核心版本：2021 年发布的原始 FLAN 数据集，以及 2022 年扩展后的\"FLAN 集合”。后者不仅规模更大，还经过精心设计，直接孕育了业界知名的 Flan-T5 和 Flan-PaLM 等强大模型。FLAN 的独特亮点在于其模块化的数据生成代码，允许用户灵活配置不同的任务混合比例，为研究指令微调的有效性提供了坚实基础。\n\nFLAN 非常适合人工智能研究人员、算法工程师以及对大模型微调感兴趣的开发者使用。如果你希望深入探索如何让模型更聪明地响应人类指令，或者需要复现前沿论文中的实验结果，FLAN 提供的代码库和数据构建方法将是得力的助手。虽然普通用户无法直接操作代码，但日常使用的许多智能助手背后，可能正运行着基于 FLAN 技术优化的模型。","# The FLAN Instruction Tuning Repository\n\n[**Original Flan (2021)**](#flan-2021) | [**The Flan Collection (2022)**](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002FFLAN\u002Ftree\u002Fmain\u002Fflan\u002Fv2) | [**Flan 2021 Citation**](#flan-2021-citation) | [**License**](#license)\n\nThis repository contains code to generate instruction tuning dataset collections. The first is the original Flan 2021, documented in [Finetuned Language Models are Zero-Shot Learners](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.01652), and the second is the expanded version, called the Flan Collection, described in [The Flan Collection: Designing Data and Methods for Effective Instruction Tuning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.13688) and used to produce [Flan-T5](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fmodel_doc\u002Fflan-t5) and [Flan-PaLM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11416).\n\n## Flan 2021\nTo generate the Flan 2021 data as Seqio mixtures, first install the relevant `requirements.txt` then use [mixtures.py](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002FFLAN\u002Fblob\u002Fmain\u002Fflan\u002Fmixtures.py).\n\n## Flan 2021 Citation\nPlease cite the following if you found Flan 2021 useful in your research.\n```\n@inproceedings{weifinetuned,\n  title={Finetuned Language Models are Zero-Shot Learners},\n  author={Wei, Jason and Bosma, Maarten and Zhao, Vincent and Guu, Kelvin and Yu, Adams Wei and Lester, Brian and Du, Nan and Dai, Andrew M and Le, Quoc V},\n  booktitle={International Conference on Learning Representations}\n}\n```\n\n## License\nThe code in this repository is licensed according to the [LICENSE](LICENSE) file.\n\n## Contact Us\nTo contact us feel free to create an Issue in this repository, or email the respective authors that contributed to this code base: Jason Wei for the [Flan 2021](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.01652) paper, Le Hou for the [Scaling Flan](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11416) paper, and Shayne Longpre for the [Flan Collection](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.13688).\n","# FLAN 指令微调仓库\n\n[**原始 Flan (2021)**](#flan-2021) | [**Flan 数据集合 (2022)**](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002FFLAN\u002Ftree\u002Fmain\u002Fflan\u002Fv2) | [**Flan 2021 引用**](#flan-2021-citation) | [**许可证**](#license)\n\n本仓库包含用于生成指令微调数据集集合的代码。第一个是原始的 Flan 2021，相关工作发表在论文《微调语言模型是零样本学习者》（[arXiv:2109.01652](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.01652)）中；第二个是扩展版本，称为 Flan 数据集，其设计与方法在论文《Flan 数据集：为高效指令微调设计数据与方法》（[arXiv:2301.13688](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.13688)）中有所介绍，并被用于训练 [Flan-T5](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fmodel_doc\u002Fflan-t5) 和 [Flan-PaLM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11416)。\n\n## Flan 2021\n要以 Seqio 混合格式生成 Flan 2021 数据，请先安装 `requirements.txt` 中列出的依赖项，然后使用 [mixtures.py](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002FFLAN\u002Fblob\u002Fmain\u002Fflan\u002Fmixtures.py) 脚本。\n\n## Flan 2021 引用\n如果您在研究中使用了 Flan 2021，请引用以下文献：\n```\n@inproceedings{weifinetuned,\n  title={Finetuned Language Models are Zero-Shot Learners},\n  author={Wei, Jason and Bosma, Maarten and Zhao, Vincent and Guu, Kelvin and Yu, Adams Wei and Lester, Brian and Du, Nan and Dai, Andrew M and Le, Quoc V},\n  booktitle={International Conference on Learning Representations}\n}\n```\n\n## 许可证\n本仓库中的代码遵循 [LICENSE](LICENSE) 文件所规定的许可协议。\n\n## 联系我们\n如需联系我们，欢迎在此仓库中提交 Issue，或直接发送邮件至以下作者：Jason Wei（负责 [Flan 2021](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.01652) 论文）、Le Hou（负责 [Scaling Flan](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11416) 论文）以及 Shayne Longpre（负责 [Flan 数据集](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.13688)）。","# FLAN 指令微调数据生成快速上手指南\n\n本指南基于 Google Research 的 FLAN 开源仓库，帮助开发者快速生成用于指令微调（Instruction Tuning）的数据集（包括 Flan 2021 和 Flan Collection）。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：Linux 或 macOS（推荐），Windows 需使用 WSL。\n*   **Python 版本**：建议 Python 3.8 或更高版本。\n*   **前置依赖**：\n    *   `git`：用于克隆代码库。\n    *   `pip`：Python 包管理工具。\n    *   （可选但推荐）国内用户可配置 pip 镜像源以加速下载，例如清华源：\n        ```bash\n        pip config set global.index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n        ```\n\n## 安装步骤\n\n1.  **克隆仓库**\n    将 FLAN 代码库克隆到本地：\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002FFLAN.git\n    cd FLAN\n    ```\n\n2.  **安装依赖**\n    根据您想要生成的数据集版本，安装对应的依赖包。通常根目录或子目录下包含 `requirements.txt`。\n    \n    执行以下命令安装核心依赖：\n    ```bash\n    pip install -r requirements.txt\n    ```\n    *注意：如果提示找不到文件，请检查当前目录下是否存在 `requirements.txt`，或参考 `flan\u002Fv2` 等子目录下的具体依赖文件。*\n\n## 基本使用\n\n本仓库的核心功能是通过代码生成 Seqio 格式的数据混合集（mixtures）。以下以生成 **Flan 2021** 数据集为例：\n\n1.  **定位脚本**\n    主要逻辑位于 `flan\u002Fmixtures.py` 文件中。\n\n2.  **运行生成命令**\n    直接使用 Python 运行该脚本即可启动数据生成流程。最简单的调用方式如下：\n    ```bash\n    python flan\u002Fmixtures.py\n    ```\n\n    *说明：具体的参数配置（如选择特定的任务子集、输出路径等）通常需要在 `mixtures.py` 内部修改或通过命令行参数传递，建议先阅读该文件顶部的注释以了解可用选项。*\n\n3.  **后续处理**\n    生成的数据将遵循 Seqio 格式，可直接配合 [Seqio](https:\u002F\u002Fgithub.com\u002Fgoogle\u002Fseqio) 库或 Hugging Face `datasets` 库加载，用于训练 Flan-T5、Flan-PaLM 等模型。","某初创教育科技公司希望快速构建一个能同时处理数学解题、作文润色和代码生成的多功能 AI 助教，但团队缺乏海量标注数据。\n\n### 没有 FLAN 时\n- 团队需人工收集并清洗成千上万条不同任务的指令数据，耗时数月且成本高昂。\n- 模型在未见过的任务（如“用莎士比亚风格解释量子力学”）上表现极差，几乎无法进行零样本推理。\n- 为每个新任务单独微调模型导致维护困难，系统臃肿且难以扩展到新场景。\n- 由于训练数据分布单一，模型容易过拟合特定格式，泛化能力严重不足。\n\n### 使用 FLAN 后\n- 直接利用 FLAN 生成的多样化指令微调数据集，将数据准备周期从数月缩短至几天。\n- 基于 FLAN 训练的模型展现出强大的零样本学习能力，无需额外训练即可准确执行陌生指令。\n- 单个模型即可统一处理数百种不同类型的任务，大幅简化了架构部署与后续维护流程。\n- 得益于混合了多种任务源的数据设计，模型在面对复杂或多步骤指令时表现出极高的鲁棒性。\n\nFLAN 通过提供高质量的指令微调数据范式，让开发者能以极低门槛打造出具备通用理解与泛化能力的智能模型。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgoogle-research_FLAN_d5a9f066.png","google-research","Google Research","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fgoogle-research_c23b2adf.png","","https:\u002F\u002Fresearch.google","https:\u002F\u002Fgithub.com\u002Fgoogle-research",[84,88],{"name":85,"color":86,"percentage":87},"Python","#3572A5",100,{"name":89,"color":90,"percentage":91},"Shell","#89e051",0,1561,159,"2026-04-01T07:14:14","Apache-2.0",4,"未说明",{"notes":99,"python":97,"dependencies":100},"该仓库主要用于生成指令微调数据集（Flan 2021 及 Flan Collection），而非直接运行模型推理。文中明确提到需先安装 `requirements.txt` 中的依赖，并使用 `seqio` 库来生成数据混合包（mixtures）。具体的 Python 版本、操作系统及硬件需求需参考仓库中未提供的 `requirements.txt` 文件。",[101],"seqio",[27,16],"2026-03-27T02:49:30.150509","2026-04-13T04:24:19.818658",[106,111,116,121,126,130],{"id":107,"question_zh":108,"answer_zh":109,"source_url":110},31331,"如何处理超过模型最大允许长度（如 512 或 2048）的输入序列？","T5 和 Flan-T5 模型使用相对位置编码，理论上可以处理任意长度的序列，不像 BERT 受限于 512 个 token。主要限制是显存容量（注意力机制的内存需求随序列长度呈二次方增长）以及模型在训练时未见过如此长的序列可能导致性能下降。模型不会自动进行分块或滑动窗口处理，而是直接截断超出预定义输入\u002F输出大小的 token。如果显存不足，建议使用梯度累积（gradient accumulation）来模拟大 batch size，或者适当减小序列长度。","https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002FFLAN\u002Fissues\u002F36",{"id":112,"question_zh":113,"answer_zh":114,"source_url":115},31332,"运行示例代码时遇到 'KeyError' 或 'Failed to load task' 错误（特别是涉及 NIv2 few-shot 或 T0 任务时），如何解决？","这通常是由于数据预处理中的 bug 导致的。维护者确认该问题已在最近的 PR 中修复，特别是针对 NIv2 few-shot 和 T0 数据集的部分。请确保拉取最新的代码提交（latest commit），重新安装依赖或清理缓存后再次运行。如果问题依旧，检查是否所有相关的数据集修复补丁都已合并。","https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002FFLAN\u002Fissues\u002F37",{"id":117,"question_zh":118,"answer_zh":119,"source_url":120},31333,"在复现数据收集时发现 T0 任务中 '_no_opt' 模板的目标值（target）不正确，这是原始数据的 bug 吗？","是的，这是一个已知的数据预处理 bug。维护者确认 T0 数据集的相关问题已经在之前修复，且 NIv2 few-shot 的修复也已合并。如果您使用的是旧版本代码或数据，请更新到最新版本以获取正确的目标值映射。","https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002FFLAN\u002Fissues\u002F25",{"id":122,"question_zh":123,"answer_zh":124,"source_url":125},31334,"运行脚本时出现 'TypeError: Invalid `datasets`. `datasets` must have compatible element specs.' 错误，原因是什么？","该错误表明尝试混合的数据集具有不兼容的字段结构（element specs）。这通常发生在某些数据集缺少预期字段或字段类型不一致时。解决方法包括：1. 确保使用的是仓库指定的虚拟环境（如 flan\u002Fv2\u002Frequirements.txt 中定义的依赖）；2. 检查特定数据集源是否有更新或修复；3. 如果是自定义混合，需确保所有参与混合的任务输出格式（inputs\u002Ftargets 等）完全一致。","https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002FFLAN\u002Fissues\u002F50",{"id":127,"question_zh":128,"answer_zh":129,"source_url":110},31335,"在使用提供的超参数进行微调时显存溢出（OOM），即使使用了小模型也如此，该怎么办？","这是因为注意力日志（attention logits）的内存消耗随序列长度和 batch size 呈二次方增长。例如，batch size 为 64 且序列长度为 2048 时，仅注意力部分就需要约 116GB 显存。解决方案是使用梯度累积（gradient accumulation）：保持较小的单步 batch size（以适应显存），但通过累积多个 step 的梯度来等效于大 batch size 的训练效果。不要过度减小 batch size，否则可能影响训练稳定性。",{"id":131,"question_zh":132,"answer_zh":133,"source_url":115},31336,"CosmosQA 数据集加载失败并报错，是 TensorFlow Datasets (TFDS) 的问题吗？","是的，这可能是 TFDS 中 CosmosQA 数据集本身的问题。用户已在 TensorFlow Datasets 仓库提交了相关 issue（#4817）。建议关注该 issue 的进展，或者尝试手动构建该数据集。如果其他同事能成功构建，则可能是本地环境或特定版本的问题。",[]]