[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-zyds--transformers-code":3,"tool-zyds--transformers-code":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",159267,2,"2026-04-17T11:29:14",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":75,"owner_location":76,"owner_email":75,"owner_twitter":75,"owner_website":75,"owner_url":77,"languages":78,"stars":87,"forks":88,"last_commit_at":89,"license":75,"difficulty_score":10,"env_os":90,"env_gpu":91,"env_ram":90,"env_deps":92,"category_tags":103,"github_topics":104,"view_count":32,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":108,"updated_at":109,"faqs":110,"releases":145},8650,"zyds\u002Ftransformers-code","transformers-code","手把手带你实战 Huggingface Transformers 课程视频同步更新在B站与YouTube","transformers-code 是一个专为 Hugging Face Transformers 库打造的实战学习资源库，旨在通过“手把手”的代码演示与同步视频课程，帮助用户从零掌握大模型应用开发。它有效解决了初学者面对庞大 Transformer 生态时“理论难懂、代码难跑、环境难配”的痛点，提供了一套从基础组件讲解到复杂场景落地的完整路径。\n\n这套资源特别适合 AI 开发者、算法研究人员以及希望深入理解 NLP 技术的学生使用。其内容规划循序渐进：从 Pipeline、Tokenizer 等基础入门，覆盖命名实体识别、机器阅读理解、对话机器人等丰富实战案例；更进阶地探讨了基于 PEFT 的高效微调（如 LoRA、P-tuning）、利用 bitsandbytes 实现的低精度训练（含 QLoRA），以及基于 accelerate 的分布式训练方案。\n\ntransformers-code 的独特亮点在于其极强的时效性与工程落地性，代码严格适配主流版本（如 PyTorch 2.2+、Transformers 4.42+），并紧跟 LLaMA2、ChatGLM2 等热门模型的最新训练技","transformers-code 是一个专为 Hugging Face Transformers 库打造的实战学习资源库，旨在通过“手把手”的代码演示与同步视频课程，帮助用户从零掌握大模型应用开发。它有效解决了初学者面对庞大 Transformer 生态时“理论难懂、代码难跑、环境难配”的痛点，提供了一套从基础组件讲解到复杂场景落地的完整路径。\n\n这套资源特别适合 AI 开发者、算法研究人员以及希望深入理解 NLP 技术的学生使用。其内容规划循序渐进：从 Pipeline、Tokenizer 等基础入门，覆盖命名实体识别、机器阅读理解、对话机器人等丰富实战案例；更进阶地探讨了基于 PEFT 的高效微调（如 LoRA、P-tuning）、利用 bitsandbytes 实现的低精度训练（含 QLoRA），以及基于 accelerate 的分布式训练方案。\n\ntransformers-code 的独特亮点在于其极强的时效性与工程落地性，代码严格适配主流版本（如 PyTorch 2.2+、Transformers 4.42+），并紧跟 LLaMA2、ChatGLM2 等热门模型的最新训练技巧。配合 B 站与 YouTube 上的同步视频讲解，它将枯燥的技术文档转化为可运行的代码实例，是用户系统构建大模型开发能力的优质指南。","![手把手带你实战Transformers](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzyds_transformers-code_readme_17a7a04c9b31.png)\n\n# 简介\n\n手把手带你实战Transformers课程的代码仓库\n\n## 代码适配\n\n- torch==2.2.1+cu118\n\n- transformers==4.42.4\n\n- peft==0.11.1\n\n- datasets==2.20.0\n\n- accelerate==0.32.1\n\n- bitsandbytes==0.43.1\n\n- faiss-cpu==1.7.4\n\n- tensorboard==2.14.0\n\n# 课程规划\n\n- 基础入门篇：Transformers入门，从环境安装到各个基础组件的介绍，包括Pipeline、Tokenizer、Model、Datasets、Evaluate、Trainer，并通过一个最基本的文本分类实例将各个模块进行串讲\n\n- 实战演练篇：Transformers实战，通过丰富的实战案例对Transformers在NLP任务中的解决方案进行介绍，包括命名实体识别、机器阅读理解、多项选择、文本相似度、检索式对话机器人、掩码语言模型、因果语言模型、摘要生成、生成式对话机器人\n\n- 高效微调篇：Transformers模型高效微调，以PEFT库为核心，介绍各种常用的参数高效微调方法的原理与实战，包括BitFit、Prompt-tuning、P-tuning、Prefix-Tuning、Lora和IA3\n\n- 低精度训练篇：Transformers模型低精度训练，基于bitsandbytes库，进行模型的低精度训练，包括LlaMA2-7B和ChatGLM2-6B两个模型的多个不同精度训练的实战演练，包括半精度训练、8bit训练、4bit训练（QLoRA）\n\n- 分布式训练篇：Transformers模型分布式训练，基于accelerate库讲解transformers模型的分布式训练解决方案，介绍分布式训练的基本原理以及accelerate库的基本使用方式，包括与Deepspeed框架的集成\n\n- 对齐训练篇: ...\n\n- 性能优化篇: ...\n\n- 系统演示篇: ...\n\n\n# 课程地址\n\n课程视频发布在B站与YouTube，代码与视频会逐步进行更新，目前课程主要更新在B站，YouTube后续会持续更新\n\n- [Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1ma4y1g791)\n\n- [YouTube](https:\u002F\u002Fwww.youtube.com\u002F@lunatic-zzz)\n\n## Transformers 基础入门篇 (已更新完成)\n\n- 01- 基础知识与环境安装\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1ma4y1g791) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=ddCfxkCh-O8)\n\n- 02 基础组件之 Pipeline | \n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1ta4y1g7bq) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=Xeu3qFTP9qY&t=7s)\n\n- 03 基础组件之 Tokenizer\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1NX4y1177c) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=G4JmQu-VWrU)\n\n- 04 基础组件之 Model(上) 基本使用\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1KM4y1q7Js) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=xK-6VcLqa94)\n\n- 04 基础组件之 Model(下) BERT文本分类代码实例\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV18T411t7h6) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=nkwOQQDCDvc)\n\n- 05 基础组件之 Datasets\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1Ph4y1b76w) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=LRhcUjbSOEk)\n\n- 06 基础组件之 Evaluate\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1uk4y1W7tK) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=tpE2bleqk6A)\n\n- 07 基础组件之 Trainer\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1KX4y1a7Jk) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=YzS-BvHeSGE)\n\n## Transformers 实战演练篇 (已更新完成)\n\n- 08 基于 Transformers的 NLP解决方案\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV18N411C71F) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=WRBPd86T1Fc)\n\n- 09 实战演练之 命名实体识别\n   \n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1gW4y197CT) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=3xQR-7sly_I)\n\n- 10 实战演练之 机器阅读理解（上，过长截断策略）\n   \n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1rs4y1k7FX) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=-rzKZIpELOk)\n\n- 10 实战演练之 机器阅读理解（下，滑动窗口策略）\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1uN411D7oy) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=oTlpbISOkaE)\n\n- 11 实战演练之 多项选择 \n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1FM4y1E77w) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=xHM1PjIihJs)\n\n- 12 实战演练之 文本相似度（上，基于交互策略） \n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1Tm4y1J7EF) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=SElN5_LqZls)\n\n- 12 实战演练之 文本相似度（下，基于匹配策略） \n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV13P411C7UD) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=7zxNXBBDqwA)\n\n- 13 实战演练之 检索式对话机器人\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1Lh4y117KJ) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=gHOUoqqXb8I)\n\n- 14 实战演练之 预训练模型\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1B44y1c7x2) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=jHRo2qgtE7Y)\n\n- 15 实战演练篇之 文本摘要（上，基于T5模型）\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1Kp4y137ar) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=5AusJJbpWaA)\n\n- 15 实战演练篇之 文本摘要（下，基于GLM模型）\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1CF411y7hw) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=BK2wUNZZbRg)\n\n- 16 实战演练篇之 生成式对话机器人（基于Bloom）\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV11r4y197Ht) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=McE0XUG5Gw4)\n\n## Transformers 参数高效微调篇 (已更新完成)\n\n- 17 参数高效微调与BitFit实战\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1Xu4y1k7Ls) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=ynBE40yVTSk)\n\n- 18 Prompt-Tuning 原理与实战\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1Fu4y1C7tJ) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=aAbVsm6tWIM)\n\n- 19 P-Tuning 原理与实战\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV17V411N7Ld) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=xNC12IhNuw4)\n\n- 20 Prefix-Tuning 原理与实战\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1Ru411g7Qa) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=EYd-sJHXCio)\n\n- 21 LoRA 原理与实战\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV13w411y7fq) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=-xVJtu9pyoA)\n\n- 22 IA3 原理与实战\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1Y8411k7yD) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=WOrHqOkMqxY)\n\n- 23 PEFT 进阶操作\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1YH4y1o7rg) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=KJljAinRXs8)\n   \n\n## Transformers 低精度训练篇（已更新完成）\n\n- 24 低精度训练与模型下载\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1y34y1M7t1) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=mWiXtVs9ZzY)\n\n- 25 半精度模型训练（上，基于LLaMA2的半精度模型训练）\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1CB4y1R78v) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=Is4T8u1Astk)\n\n- 25 半精度模型训练（下，基于ChatGLM3的半精度模型训练）\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1aw411M7Cv) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=8SmlpNuY_pU)\n\n- 26 量化与8bit模型训练\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1EN411g7Yn) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=XKImkaWv7-Y)\n\n- 27 4bit量化与QLoRA模型训练\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1DQ4y1t7e8) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=CY0jTExZlKE)\n\n## Transformers 分布式训练篇（已更新完成）\n\n- 28 分布式训练基础与环境配置\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1cK4y1z7Mv) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=eNOoIlUCX6Q)\n\n- 29 Data Parallel原理与应用\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1qN4y1n7iG) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=WiRpMjHL79s)\n\n- 30 Distributed Data Parallel原理与应用\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1wS421w7ug) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=hoa-AIE_yxk)\n\n- 31 Accelerate 分布式训练入门\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV12Z421t74R) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=eDaT_bBoiJ4)\n\n- 32 Accelerate 使用进阶（上）\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1vq421F7Cf) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=IhpuxmYoKgI)\n\n- 32 Accelerate 使用进阶（下）\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1Lp421975B) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=WmZ94u9QDME)\n\n- 33 Accelerate + Deepspeed\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1hb421E7WY) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=Vegqv1PDboY)\n\n## Transformers 番外技能篇\n\n- 基于Optuna的Transformers模型自动调参\n\n   - 视频地址：[Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1NN4y1S7i8) | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=ugiAW2ukZZw)\n\n# Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzyds_transformers-code_readme_6b4e0c186122.png)](https:\u002F\u002Fstar-history.com\u002F#zyds\u002Ftransformers-code&Date)\n\n\n# 请作者喝杯奶茶\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzyds_transformers-code_readme_9d9f2dbe9d99.jpg)","# Transformers 实战快速上手指南\n\n本指南基于 `transformers-code` 开源项目，旨在帮助开发者快速搭建环境并掌握 Transformers 库的核心用法，涵盖从基础入门到高效微调、低精度训练及分布式训练的全流程。\n\n## 1. 环境准备\n\n### 系统要求\n- **操作系统**: Linux (推荐) 或 Windows\n- **Python 版本**: 建议 Python 3.8 - 3.10\n- **GPU**: 支持 CUDA 的 NVIDIA 显卡（用于加速训练和推理）\n- **CUDA 版本**: 本项目代码适配 **CUDA 11.8**\n\n### 前置依赖\n确保已安装以下基础工具：\n- Git\n- pip (包管理工具)\n- conda (推荐用于创建隔离环境)\n\n## 2. 安装步骤\n\n推荐使用 Conda 创建虚拟环境以避免依赖冲突，并使用国内镜像源加速下载。\n\n### 第一步：创建并激活虚拟环境\n```bash\nconda create -n transformers-env python=3.9\nconda activate transformers-env\n```\n\n### 第二步：安装 PyTorch (CUDA 11.8 版本)\n访问 PyTorch 官网获取最新命令，或使用以下针对 CUDA 11.8 的安装命令：\n```bash\npip install torch==2.2.1 torchvision==0.17.1 torchaudio==2.2.1 --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n```\n> **国内加速提示**：如遇下载缓慢，可临时使用清华源：\n> `pip install ... -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n\n### 第三步：安装项目核心依赖\n根据项目 `README` 指定的版本安装关键库：\n```bash\npip install transformers==4.42.4 \\\n    peft==0.11.1 \\\n    datasets==2.20.0 \\\n    accelerate==0.32.1 \\\n    bitsandbytes==0.43.1 \\\n    faiss-cpu==1.7.4 \\\n    tensorboard==2.14.0\n```\n\n### 第四步：验证安装\n运行以下 Python 代码检查环境是否就绪：\n```python\nimport torch\nimport transformers\nprint(f\"PyTorch: {torch.__version__}, CUDA Available: {torch.cuda.is_available()}\")\nprint(f\"Transformers: {transformers.__version__}\")\n```\n\n## 3. 基本使用\n\n本项目提供了从基础组件到高级实战的完整代码示例。以下是基于 Hugging Face `pipeline` 的最简文本分类示例，对应课程“基础入门篇”内容。\n\n### 最简单的文本分类示例\n\n```python\nfrom transformers import pipeline\n\n# 加载预训练的文本分类管道\nclassifier = pipeline(\"sentiment-analysis\")\n\n# 进行预测\nresult = classifier(\"I love using Transformers for NLP tasks!\")\n\nprint(result)\n# 输出示例：[{'label': 'POSITIVE', 'score': 0.9998}]\n```\n\n### 进阶学习路径\n安装完成后，您可以克隆本仓库代码，按照以下模块深入学习：\n\n1.  **基础入门**: 学习 Tokenizer, Model, Datasets, Trainer 等核心组件的使用。\n2.  **实战演练**: 覆盖命名实体识别 (NER)、机器阅读理解、文本摘要、对话机器人等 NLP 任务。\n3.  **高效微调 (PEFT)**: 实践 LoRA, Prefix-Tuning, P-Tuning 等参数高效微调技术。\n4.  **低精度训练**: 使用 bitsandbytes 进行 8bit\u002F4bit (QLoRA) 量化训练（如 LLaMA2, ChatGLM）。\n5.  **分布式训练**: 利用 Accelerate 和 DeepSpeed 进行多卡或多机训练。\n\n更多详细代码案例请参考仓库中的具体脚本，配合 Bilibili 或 YouTube 上的视频教程进行学习。","某初创公司的算法工程师小李，需要在两周内为客服部门构建一个能自动识别用户意图并生成摘要的智能对话系统。\n\n### 没有 transformers-code 时\n- **环境配置耗时极长**：面对 PyTorch、bitsandbytes、accelerate 等复杂的版本依赖冲突，小李花费了三天时间反复调试环境，甚至因版本不兼容导致代码无法运行。\n- **实战案例缺失**：网上教程多停留在理论讲解或简单的文本分类，缺乏针对“检索式对话”和“文本摘要”等具体业务场景的完整代码参考，导致开发无从下手。\n- **微调门槛过高**：想要适配公司私有数据，必须全量微调大模型，但受限于显存资源，尝试多次均因内存溢出（OOM）而失败，且不懂如何实施 LoRA 或 QLoRA 等高效微调策略。\n- **分布式训练迷茫**：面对多卡训练需求，不清楚如何配置 DeepSpeed 或 accelerate，只能单卡慢速训练，严重拖慢项目进度。\n\n### 使用 transformers-code 后\n- **一键复现环境**：直接复用仓库中经过验证的 `requirements` 配置（如 torch==2.2.1+cu118），半小时内即可完成环境搭建，彻底告别依赖报错。\n- **场景代码即拿即用**：参考“实战演练篇”中关于检索式对话机器人和基于 T5\u002FGLM 的文本摘要代码，快速修改数据接口，两天内便跑通了核心业务流程。\n- **低成本高效微调**：依据“高效微调篇”和“低精度训练篇”的教程，成功应用 QLoRA 技术将 LlaMA2-7B 模型在单张消费级显卡上完成微调，显存占用降低 70%。\n- **平滑升级分布式训练**：利用仓库提供的 accelerate 集成方案，轻松实现多卡并行训练，模型迭代速度提升了数倍，确保项目按时交付。\n\ntransformers-code 通过提供从环境搭建到前沿微调策略的全链路实战代码，将大模型落地周期从数周缩短至数天，极大降低了企业的研发成本与技术门槛。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzyds_transformers-code_17a7a04c.png","zyds","你可是处女座啊","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fzyds_798238ba.jpg",null,"Beijing, China","https:\u002F\u002Fgithub.com\u002Fzyds",[79,83],{"name":80,"color":81,"percentage":82},"Jupyter Notebook","#DA5B0B",80.8,{"name":84,"color":85,"percentage":86},"Python","#3572A5",19.2,3924,512,"2026-04-17T12:17:09","未说明","需要 NVIDIA GPU (由 cu118 推断)，支持 CUDA 11.8；显存需求视具体模型而定，课程涵盖 LLaMA2-7B 和 ChatGLM2-6B 的 4bit\u002F8bit 训练，建议显存 8GB 以上以支持低精度微调",{"notes":93,"python":90,"dependencies":94},"该仓库为 Transformers 实战课程代码，涵盖从基础入门到分布式训练、低精度训练（QLoRA）及高效微调（LoRA 等）。核心依赖 torch 需匹配 CUDA 11.8 版本。课程涉及大模型（如 LLaMA2, ChatGLM）的微调，建议使用支持 CUDA 的 Linux 环境以获得最佳兼容性。",[95,96,97,98,99,100,101,102],"torch==2.2.1+cu118","transformers==4.42.4","peft==0.11.1","datasets==2.20.0","accelerate==0.32.1","bitsandbytes==0.43.1","faiss-cpu==1.7.4","tensorboard==2.14.0",[15,35],[105,106,107],"huggingface","peft","transformers","2026-03-27T02:49:30.150509","2026-04-18T03:33:01.314950",[111,116,121,125,130,135,140],{"id":112,"question_zh":113,"answer_zh":114,"source_url":115},38746,"推理时遇到 Tensor 尺寸不匹配错误（RuntimeError: The expanded size of the tensor must match...）怎么办？","这通常是因为在 Jupyter 环境中模型没有重新加载导致的。请尝试重启内核并重新运行所有单元格，确保模型被正确初始化。同时，请确认您的环境与 README 中的环境配置完全对齐，检查代码是否有疏忽。","https:\u002F\u002Fgithub.com\u002Fzyds\u002Ftransformers-code\u002Fissues\u002F12",{"id":117,"question_zh":118,"answer_zh":119,"source_url":120},38747,"AutoModel 和 AutoModelForCausalLM 加载模型（如 Llama2、Bloom）时有什么区别？会额外添加 Head 层吗？","AutoModelForCausalLM 会在基础模型后添加用于生成 logits 的头部（Head），而 AutoModel 通常只输出隐藏状态（Hidden State）。对于本身包含下游任务头的模型（如 instruct 版本），使用 AutoModelForCausalLM 通常会保留或适配其原有的语言建模头。具体行为可参考 SFTTrainer 源码，它默认使用 DataCollatorForLanguageModeling 来补全 labels，这是训练所必须的。核心在于明确你的训练目标，DataCollator 只是数据填充格式的工具，你完全可以自定义 Label 设置（例如将非回复部分设为 -100）。","https:\u002F\u002Fgithub.com\u002Fzyds\u002Ftransformers-code\u002Fissues\u002F13",{"id":122,"question_zh":123,"answer_zh":124,"source_url":120},38748,"训练时应该使用 Causal Data (DataCollatorForLanguageModeling) 还是 Seq2Seq Data (DataCollatorForSeq2Seq)？","选择取决于你的训练目标和数据格式，而非单纯由模型决定。DataCollatorForSeq2Seq 通常会对输入部分（Prompt\u002FInstruction）的 Label 填充 -100（不计入损失），只对输出部分计算损失；而 DataCollatorForLanguageModeling 通常对整个序列计算损失（除非手动处理）。如果你希望模型仅学习回复部分，应确保输入部分的 Label 为 -100。建议查看实战篇章节中不同 DataCollator 将数据填充成了什么格式，根据实验效果选择最适合你任务的方式。",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},38749,"使用 Trainer 训练保存模型时报错：ValueError: You are trying to save a non contiguous tensor... 如何解决？","这是 Transformers 4.43.0+ 版本引入的特性导致的兼容性问题。解决方案有三种：\n1. 降低 transformers 版本至 4.42.4（实测有效）。\n2. 在训练参数中设置 save_safetensors=False。\n3. 修改模型源码（如 BertPreTrainedModel 类），加入 _supports_param_buffer_assignment = False 属性。","https:\u002F\u002Fgithub.com\u002Fzyds\u002Ftransformers-code\u002Fissues\u002F11",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},38750,"LoRA 或 BitFit 等微调方法保存的权重，可以和原模型合并吗？","可以的。LoRA 和 BitFit 等方法保存的是增量权重或特定参数，可以通过代码将这些权重合并到原模型中，替换或更新原模型的相关权重，从而得到一个完整的独立模型。具体操作可以参考项目中关于 LoRA 的视频教程或相关文档。","https:\u002F\u002Fgithub.com\u002Fzyds\u002Ftransformers-code\u002Fissues\u002F4",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},38751,"断点续训时，相同 Step 的 Loss 值与之前不一致，如何解决随机性问题？","这是因为 DataLoader 在每次加载数据时的随机打乱（shuffle）顺序不同导致的。若要复现完全一致的 Loss 曲线，需要在创建 DataLoader 时取消 shuffle 参数（即设置 shuffle=False），或者固定随机种子以确保数据加载顺序一致。","https:\u002F\u002Fgithub.com\u002Fzyds\u002Ftransformers-code\u002Fissues\u002F9",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},38752,"未来会有自定义 Trainer（如自定义 Loss、Training Step 实现 GAN）的深入教程吗？","虽然未来可能会有更深入的 Trainer 教程，但对于像 GAN 这样需要大量细节控制的任务，维护者建议直接自己编写训练流程（Training Loop），因为使用 Trainer 进行此类高度自定义的实现可能会不太方便且受限。","https:\u002F\u002Fgithub.com\u002Fzyds\u002Ftransformers-code\u002Fissues\u002F2",[]]