[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-liguodongiot--llm-action":3,"tool-liguodongiot--llm-action":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",142651,2,"2026-04-06T23:34:12",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":78,"owner_twitter":76,"owner_website":79,"owner_url":80,"languages":81,"stars":102,"forks":103,"last_commit_at":104,"license":105,"difficulty_score":10,"env_os":106,"env_gpu":107,"env_ram":106,"env_deps":108,"category_tags":119,"github_topics":120,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":126,"updated_at":127,"faqs":128,"releases":159},4708,"liguodongiot\u002Fllm-action","llm-action","本项目旨在分享大模型相关技术原理以及实战经验（大模型工程化、大模型应用落地）","llm-action 是一个专注于大模型技术原理分享与工程化实战的开源知识库。它系统地梳理了从底层算法架构到上层应用落地的全链路技术，旨在帮助从业者解决大模型“怎么用、怎么训、怎么优”的核心难题。\n\n无论是想深入理解分布式训练并行策略、参数高效微调（PEFT）原理，还是寻求推理加速、模型量化压缩及对齐技术的具体方案，llm-action 都提供了详尽的理论解析与代码实战指南。此外，项目还涵盖数据工程、提示工程、性能评测、国产化适配以及 LLMOps 等关键领域，并附带丰富的面试题与基础环境搭建教程，形成了完整的学习闭环。\n\n该项目特别适合 AI 开发者、算法研究人员以及对大模型工程化感兴趣的技术人员使用。其独特亮点在于不仅停留在理论层面，更结合 Lab4AI 提供了大量基于真实场景的实践案例（如数字人打造、垂直领域模型微调等），让抽象的技术概念变得可操作、可落地。如果你希望系统掌握大模型核心技术并提升实战能力，llm-action 将是一份极具价值的参考指南。","\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fliguodongiot_llm-action_readme_ba4fa5187fb8.jpg\" >\n\u003C\u002Fp>\n\n\n\u003Cp> \n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fstargazers\">\n\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fliguodongiot\u002Fllm-action?style=social\" > \u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fliguodongiot_llm-action_readme_e4d0752be381.jpg\"> \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F吃果冻不吐果冻皮-1AAD19.svg?style=plastic&logo=wechat&logoColor=white\" > \u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fliguodong-iot\"> \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F吃果冻不吐果冻皮-0079FF.svg?style=plastic&logo=zhihu&logoColor=white\"> \u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fjuejin.cn\u002Fuser\u002F3642056016410728\"> \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F掘金-吃果冻不吐果冻皮-000099.svg?style=plastic&logo=juejin\"> \u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fliguodong.blog.csdn.net\u002F\"> \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FCSDN-吃果冻不吐果冻皮-6B238E.svg\"> \u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fwww.lab4ai.cn\u002Fregister?agentID=user-PqCML6LJZO\"> \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLab4AI-大模型实验室-1E90FF.svg\"> \u003C\u002Fa>\n\u003C\u002Fp> \n\n\n## 目录\n\n- :snail: [LLM训练](#llm训练)\n  - 🐫 [LLM训练实战](#llm训练实战)\n  - 🐼 [LLM参数高效微调技术原理](#llm微调技术原理)\n  - 🐰 [LLM参数高效微调技术实战](#llm微调实战)\n  - 🐘 [LLM分布式训练并行技术](#llm分布式训练并行技术)\n  - 🌋 [分布式AI框架](#分布式ai框架)\n  - 📡 [分布式训练网络通信](#分布式训练网络通信)\n  - :herb: [LLM训练优化技术](#llm训练优化技术)\n  - :hourglass: [LLM对齐技术](#llm对齐技术)\n- 🐎 [LLM推理](#llm推理)\n  - 🚀 [LLM推理框架](#llm推理框架)\n  - ✈️ [LLM推理优化技术](#llm推理优化技术)\n- ♻️ [LLM压缩](#llm压缩)\n  - 📐 [LLM量化](#llm量化)\n  - 🔰 [LLM剪枝](#llm剪枝)\n  - 💹 [LLM知识蒸馏](#llm知识蒸馏)\n  - ♑️ [低秩分解](#低秩分解)\n- :herb: [LLM测评](#llm测评)\n  - 🔯 [LLM效果评测](#llm效果评测)\n  - 🔘 [LLM推理性能压测](#llm推理性能压测)\n- :palm_tree: [LLM数据工程](#llm数据工程)\n  - :dolphin: [LLM微调高效数据筛选技术](#llm微调高效数据筛选技术)\n- :cyclone: [提示工程](#提示工程)\n- ♍️ [LLM算法架构](#llm算法架构)\n- :jigsaw: [LLM应用开发](#llm应用开发)\n- 🀄️ [LLM国产化适配](#llm国产化适配)\n- 🔯 [AI编译器](#ai编译器)\n- 🔘 [AI基础设施](#ai基础设施)\n  - :maple_leaf: [AI加速卡](#ai加速卡)\n  - :octocat: [AI集群网络通信](#ai集群网络通信)\n- 💟 [LLMOps](#llmops)\n- 🍄 [LLM生态相关技术](#llm生态相关技术)\n- 💹 [LLM性能分析](#llm性能分析)\n- :dizzy: [LLM面试题](#llm面试题)\n- 🔨 [服务器基础环境安装及常用工具](#服务器基础环境安装及常用工具)\n- 💬 [LLM学习交流群](#llm学习交流群)\n- 👥 [微信公众号](#微信公众号)\n- ⭐️ [Star History](#star-history)\n- :link: [AI工程化课程推荐](#ai工程化课程推荐)\n\n\n## 大模型实验室Lab4AI普惠算力\n\n**基于大模型实验室的GPU算力实践**\n\n\n|  主题      | 实践          | 博客\u002F视频     |\n|:------------ |:-----------------------------:|:--------:| \n| 基于ComfyUI调用Flux文生图模型生成动漫风格图像      | [链接](https:\u002F\u002Fwww.lab4ai.cn\u002Fproject\u002Fdetail?utm_source=guodong&id=f82ca14acda040ba8a3412feb541ba29&type=project)          | [链接](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002FOEDQO-IkT4uo_HMjBXGuCA)     |\n| 告别传统客服：三步骤，LLaMA-Factory零代码打造会订票的专属大模型      | [链接](https:\u002F\u002Fwww.lab4ai.cn\u002Fproject\u002Fdetail?utm_source=guodong&id=a78043adcef84cd998516e1bcd39562f&type=project)          | [链接](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002FN_CQEBEjN0E31x4Vg31rEQ)    |\n| 打造基于多模态AI的苏东坡数字人      | [链接](https:\u002F\u002Fwww.lab4ai.cn\u002Fproject\u002Fdetail?utm_source=guodong&id=1f1097f45ea64abca3359e4c0615720a&type=project)          | -     |\n| WeClone：从聊天记录创造数字分身的一站式解决方案      | [链接](https:\u002F\u002Fwww.lab4ai.cn\u002Fproject\u002Fdetail?utm_source=guodong&id=ab83d14684fa45d197f67eddb3d8316c&type=project)          | [链接](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002F2pOD8YexWtmuPhV4C7uKJA)     |\n| LightX2V 4步蒸馏模型：20倍速的高质量视频生成革命      | [链接](https:\u002F\u002Fwww.lab4ai.cn\u002Fproject\u002Fdetail?utm_source=guodong&id=d5556b93078d4defbb58c9f722b674df&type=project)          | [链接](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002FkVz1dwthn3nOLT0jTeiQgg)     |\n| 基于Qwen3-8B的沉浸式苏东坡角色扮演大模型      | [链接](https:\u002F\u002Fwww.lab4ai.cn\u002Fproject\u002Fdetail?utm_source=guodong&id=315457fba1b3432c935865d1c5aa1ffe&type=project)          | [链接](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002FbCCHa2RsKieJZizORU19dQ)     |\n| LightLLM轻量化部署新范式，打造高性能法律智能体      | [链接](https:\u002F\u002Fwww.lab4ai.cn\u002Fproject\u002Fdetail?utm_source=guodong&id=b417085ae8cd4dd0bef7161c3d583b15&type=project)          | [链接](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002Fj8rJyoBA02ypPEkxb9XSVg)     |\n| RoboMIND——机器人多形态通用智能评测基准      | [链接](https:\u002F\u002Fwww.lab4ai.cn\u002Fproject\u002Fdetail?utm_source=guodong&id=492a471cd6054a179660c760f0026704&type=project)          | [链接](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002Fi_QPGuqaXfql6cPELxlUVg)     |\n| 经典论文复现：《Attention Is All You Need》      | [链接](https:\u002F\u002Fwww.lab4ai.cn\u002Fpaper\u002Fdetail?utm_source=guodong&id=e90aa38fdff9420e8902bc71909fa005&type=paper)          | [链接](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1Fvp3zBEAN\u002F?spm_id_from=333.1387.homepage.video_card.click)     |\n| 经典论文复现：《SELF-INSTRUCT: Aligning Language Models \u003Cbr> with Self-Generated Instructions》| [链接](https:\u002F\u002Fwww.lab4ai.cn\u002Fpaper\u002Fdetail?utm_source=guodong&id=2bbf2f4971f74c6e8def26879233f2fe&type=paper)          | -     |\n\n\n\n**GPU算力优惠活动**\n\n- 资源不够用，来 Lab4AI 享 H800 GPU，用 H800 比 4090 还划算: [详情](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002F61OtlvP3N4vl0D67eCzSWA)\n\n\n**算力福利**\n\n- 大模型实验室Lab4AI：[免费领取50元GPU算力](https:\u002F\u002Fwww.lab4ai.cn\u002Fregister?agentID=user-PqCML6LJZO)\n- 大模型实验室群：[点击加入](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fliguodongiot\u002Ftree\u002Fmain\u002Fimages\u002Flab4ai.png)\n\n\n\n**AI训练营**\n\n- AI应用开发工程师技能 & 春招面试训练营：[点击加入](https:\u002F\u002Fwww.lab4ai.cn\u002Fcourse\u002Fdetail?utm_source=guodong&id=2b86361ed6a54611850c073defe04327)\n- 斯坦福CS336 从零手搓大语言模型实战：[点击加入](https:\u002F\u002Fwww.lab4ai.cn\u002Fcourse\u002Fdetail?utm_source=guodong&id=49325466ca58436782b65a887883805f)\n- 7天AI智能体全栈开发实战集训营：[点击加入](https:\u002F\u002Fwww.lab4ai.cn\u002Fcourse\u002Fdetail?utm_source=guodong&id=f3fba5d60b2542bf8783e59dcc24d836)\n\n\n\n## LLM训练\n\n### LLM训练实战\n\n下面汇总了我在大模型实践中训练相关的所有教程。从6B到65B，从全量微调到高效微调（LoRA，QLoRA，P-Tuning v2），再到RLHF（基于人工反馈的强化学习）。\n\n| LLM                         | 预训练\u002FSFT\u002FRLHF...            | 参数     | 教程                                                                                                                                                                                                                     | 代码                                                                                     |\n| --------------------------- | ----------------------------- | -------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ | ---------------------------------------------------------------------------------------- |\n| Alpaca                      | full fine-turning             | 7B       | [从0到1复现斯坦福羊驼（Stanford Alpaca 7B）](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F618321077)                                                                                                                                        | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fllm-train\u002Falpaca)               |\n| Alpaca(LLaMA)               | LoRA                          | 7B~65B   | 1.[足够惊艳，使用Alpaca-Lora基于LLaMA(7B)二十分钟完成微调，效果比肩斯坦福羊驼](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F619426866)\u003Cbr>2. [使用 LoRA 技术对 LLaMA 65B 大模型进行微调及推理](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F632492604)    | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fllm-train\u002Falpaca-lora)          |\n| BELLE(LLaMA\u002FBloom)          | full fine-turning             | 7B       | 1.[基于LLaMA-7B\u002FBloomz-7B1-mt复现开源中文对话大模型BELLE及GPTQ量化](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F618876472) \u003Cbr> 2. [BELLE(LLaMA-7B\u002FBloomz-7B1-mt)大模型使用GPTQ量化后推理性能测试](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F621128368) | N\u002FA                                                                                      |\n| ChatGLM                     | LoRA                          | 6B       | [从0到1基于ChatGLM-6B使用LoRA进行参数高效微调](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F621793987)                                                                                                                                      | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fllm-train\u002Fchatglm-lora)         |\n| ChatGLM                     | full fine-turning\u002FP-Tuning v2 | 6B       | [使用DeepSpeed\u002FP-Tuning v2对ChatGLM-6B进行微调](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F622351059)                                                                                                                                     | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fllm-train\u002Fchatglm)              |\n| Vicuna(LLaMA)               | full fine-turning             | 7B       | [大模型也内卷，Vicuna训练及推理指南，效果碾压斯坦福羊驼](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F624012908)                                                                                                                            | N\u002FA                                                                                      |\n| OPT                         | RLHF                          | 0.1B~66B | 1.[一键式 RLHF 训练 DeepSpeed Chat（一）：理论篇](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F626159553) \u003Cbr> 2. [一键式 RLHF 训练 DeepSpeed Chat（二）：实践篇](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F626214655)                                 | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fllm-train\u002Fdeepspeedchat)        |\n| MiniGPT-4(LLaMA)            | full fine-turning             | 7B       | [大杀器，多模态大模型MiniGPT-4入坑指南](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F627671257)                                                                                                                                             | N\u002FA                                                                                      |\n| Chinese-LLaMA-Alpaca(LLaMA) | LoRA（预训练+微调）           | 7B       | [中文LLaMA&amp;Alpaca大语言模型词表扩充+预训练+指令精调](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F631360711)                                                                                                                            | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fllm-train\u002Fchinese-llama-alpaca) |\n| LLaMA                       | QLoRA                         | 7B\u002F65B   | [高效微调技术QLoRA实战，基于LLaMA-65B微调仅需48G显存，真香](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F636644164)                                                                                                                         | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fllm-train\u002Fqlora)                |\n| LLaMA                       | GaLore                         | 60M\u002F7B   | [突破内存瓶颈，使用 GaLore 一张4090消费级显卡也能预训练LLaMA-7B](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F686686751)   | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-train\u002Fgalore\u002Ftorchrun_main.py)  |\n\n**[⬆ 一键返回目录](#目录)**\n\n### LLM微调技术原理\n\n对于普通大众来说，进行大模型的预训练或者全量微调遥不可及。由此，催生了各种参数高效微调技术，让科研人员或者普通开发者有机会尝试微调大模型。\n\n因此，该技术值得我们进行深入分析其背后的机理，本系列大体分七篇文章进行讲解。\n\n![peft方法](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fliguodongiot_llm-action_readme_9505e9d72683.jpg)\n\n\n- [大模型参数高效微调技术原理综述（一）-背景、参数高效微调简介](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F635152813)\n- [大模型参数高效微调技术原理综述（二）-BitFit、Prefix Tuning、Prompt Tuning](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F635686756)\n- [大模型参数高效微调技术原理综述（三）-P-Tuning、P-Tuning v2](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F635848732)\n- [大模型参数高效微调技术原理综述（四）-Adapter Tuning及其变体](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F636038478)\n- [大模型参数高效微调技术原理综述（五）-LoRA、AdaLoRA、QLoRA](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F636215898)\n- [大模型参数高效微调技术原理综述（六）-MAM Adapter、UniPELT](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F636362246)\n- [大模型参数高效微调技术原理综述（七）-最佳实践、总结](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F649755252)\n\n### LLM微调实战\n\n下面给大家分享**大模型参数高效微调技术实战**，该系列主要针对 HuggingFace PEFT 框架支持的一些高效微调技术进行讲解。\n\n| 教程          | 代码             | 框架             |\n| ------------- | --------------- | --------------- |\n| [大模型参数高效微调技术实战（一）-PEFT概述及环境搭建](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F651744834)          | N\u002FA                                                                                                       | HuggingFace PEFT |\n| [大模型参数高效微调技术实战（二）-Prompt Tuning](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F646748939)               | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-train\u002Fpeft\u002Fclm\u002Fpeft_prompt_tuning_clm.ipynb) | HuggingFace PEFT |\n| [大模型参数高效微调技术实战（三）-P-Tuning](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F646876256)                    | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-train\u002Fpeft\u002Fclm\u002Fpeft_p_tuning_clm.ipynb)      | HuggingFace PEFT |\n| [大模型参数高效微调技术实战（四）-Prefix Tuning \u002F P-Tuning v2](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F648156780) | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-train\u002Fpeft\u002Fclm\u002Fpeft_p_tuning_v2_clm.ipynb)   | HuggingFace PEFT |\n| [大模型参数高效微调技术实战（五）-LoRA](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F649315197)                        | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-train\u002Fpeft\u002Fclm\u002Fpeft_lora_clm.ipynb)          | HuggingFace PEFT |\n| [大模型参数高效微调技术实战（六）-IA3](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F649707359)                         | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-train\u002Fpeft\u002Fclm\u002Fpeft_ia3_clm.ipynb)           | HuggingFace PEFT |\n| [大模型微调实战（七）-基于LoRA微调多模态大模型](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F670048482)       |     [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-train\u002Fpeft\u002Fmultimodal\u002Fblip2_lora_int8_fine_tune.py) | HuggingFace PEFT |\n| [大模型微调实战（八）-使用INT8\u002FFP4\u002FNF4微调大模型](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F670116171)    |     [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-train\u002Fpeft\u002Fmultimodal\u002Ffinetune_bloom_bnb_peft.ipynb) | PEFT、bitsandbytes |\n\n\n\n\n**[⬆ 一键返回目录](#目录)**\n\n### [LLM分布式训练并行技术](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fdocs\u002Fllm-base\u002Fdistribution-parallelism)\n\n近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，传统的单机单卡模式已经无法满足超大模型进行训练的要求。因此，我们需要基于单机多卡、甚至是多机多卡进行分布式大模型的训练。\n\n而利用AI集群，使深度学习算法更好地从大量数据中高效地训练出性能优良的大模型是分布式机器学习的首要目标。为了实现该目标，一般需要根据硬件资源与数据\u002F模型规模的匹配情况，考虑对计算任务、训练数据和模型进行划分，从而进行分布式训练。因此，分布式训练相关技术值得我们进行深入分析其背后的机理。\n\n下面主要对大模型进行分布式训练的并行技术进行讲解，本系列大体分九篇文章进行讲解。\n\n- [大模型分布式训练并行技术（一）-概述](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F598714869)\n- [大模型分布式训练并行技术（二）-数据并行](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F650002268)\n- [大模型分布式训练并行技术（三）-流水线并行](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F653860567)\n- [大模型分布式训练并行技术（四）-张量并行](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F657921100)\n- [大模型分布式训练并行技术（五）-序列并行](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F659792351)\n- [大模型分布式训练并行技术（六）-多维混合并行](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F661279318)\n- [大模型分布式训练并行技术（七）-自动并行](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F662517647)\n- [大模型分布式训练并行技术（八）-MOE并行](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F662518387)\n- [大模型分布式训练并行技术（九）-总结](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F667051845)\n\n**[⬆ 一键返回目录](#目录)**\n\n### 分布式AI框架\n\n- [PyTorch](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Ftrain\u002Fpytorch\u002F)\n  - PyTorch 单机多卡训练\n  - PyTorch 多机多卡训练\n- [Megatron-LM](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Ftrain\u002Fmegatron)\n  - Megatron-LM 单机多卡训练\n  - Megatron-LM 多机多卡训练\n  - [基于Megatron-LM从0到1完成GPT2模型预训练、模型评估及推理](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7259682893648724029)\n- [DeepSpeed](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Ftrain\u002Fdeepspeed)\n  - DeepSpeed 单机多卡训练\n  - DeepSpeed 多机多卡训练\n- [Megatron-DeepSpeed](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Ftrain\u002Fmegatron-deepspeed)\n  - 基于 Megatron-DeepSpeed 从 0 到1 完成 LLaMA 预训练\n  - 基于 Megatron-DeepSpeed 从 0 到1 完成 Bloom 预训练\n\n\n### 分布式训练网络通信\n\n待更新...\n\n\n### LLM训练优化技术\n\n- FlashAttention V1、V2\n- 混合精度训练\n- 重计算\n- MQA \u002F GQA\n- 梯度累积\n\n\n### LLM对齐技术\n\n\n- PPO（近端策略优化）\n- DPO\n- ORPO\n\n\n\n**[⬆ 一键返回目录](#目录)**\n\n## [LLM推理](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Finference)\n\n\n### 推理引擎\n\n- [大模型推理框架概述](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F625415776\u002Fanswer\u002F3243562246)\n- [大模型的好伙伴，浅析推理加速引擎FasterTransformer](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F626008090)\n- [TensorRT-LLM保姆级教程（一）-快速入门](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F666849728)\n- [TensorRT-LLM保姆级教程（二）-离线环境搭建、模型量化及推理](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F667572720)\n- [TensorRT-LLM保姆级教程（三）-使用Triton推理服务框架部署模型](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7398122968200593419)\n- [一文搞懂大模型生成文本的解码策略](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1921914053485376792)\n- [谈谈LLM生成文本的惩罚参数](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1965476299419132173)\n- [LLM 确定性推理](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1961192621759242664)\n\n\n迷你LLM推理引擎（非常适合源码学习）：\n\n- [Nano-vLLM源码注释](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fnano-vllm)：从头开始构建的轻量级 vLLM 实现。\n- [Mini-SGLang](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fmini-sglang)：一个轻量但高性能的大型语言模型推理框架，SGLang 的紧凑实现。\n\n\n生产级LLM推理引擎：\n\n- [vLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm)\n- [SGLang](https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang)\n\n其他推理引擎：\n\n- [LMDeploy](https:\u002F\u002Fgithub.com\u002FInternLM\u002Flmdeploy)\n- [LightLLM](https:\u002F\u002Fgithub.com\u002FModelTC\u002Flightllm)：纯Python开发的大语言模型推理和服务框架\n- [MNN-LLM](https:\u002F\u002Fgithub.com\u002Falibaba\u002FMNN)：基于MNN引擎开发的大型语言模型运行时解决方案\n- [赤兔](https:\u002F\u002Fgithub.com\u002Fthu-pacman\u002Fchitu)\n- [mllm](https:\u002F\u002Fgithub.com\u002FUbiquitousLearning\u002Fmllm)：端侧多模态LLM推理引擎\n\n\n\n### 推理服务\n\n- [模型推理服务工具综述](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F721395381)\n- [模型推理服务化框架Triton保姆式教程（一）：快速入门](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F629336492)\n- [模型推理服务化框架Triton保姆式教程（二）：架构解析](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F634143650)\n- [模型推理服务化框架Triton保姆式教程（三）：开发实践](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F634444666)\n\n\n### LLM推理优化技术\n\n- [LLM推理优化技术-概述]()\n- [大模型推理优化技术-KV Cache](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F653658936\u002Fanswer\u002F3569365986)\n- [大模型推理服务调度优化技术-Continuous batching](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F719610083)\n- [大模型低显存推理优化-Offload技术](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7405158045628596224)\n- [大模型推理优化技术-KV Cache量化](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7420231738558627874)\n- [大模型推理优化技术-张量并行]()\n- [大模型推理服务调度优化技术-Chunked Prefill]()\n- [大模型推理优化技术-KV Cache优化方法综述]()\n- 大模型吞吐优化技术-多LoRA推理服务\n- 大模型推理服务调度优化技术-公平性调度\n- 大模型访存优化技术-FlashAttention\n- 大模型显存优化技术-PagedAttention\n- 大模型解码优化-Speculative Decoding及其变体\n- 大模型推理优化-结构化文本生成\n- Flash Decoding\n- FlashDecoding++\n\n\n## LLM压缩\n\n近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。\n模型压缩主要分为如下几类：\n\n-   模型剪枝（Pruning）\n-   知识蒸馏（Knowledge Distillation）\n-   模型量化（Quantization）\n-   低秩分解（Low-Rank Factorization）\n\n### [LLM量化](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fmodel-compression\u002Fquantization)\n\n本系列将针对一些常见大模型量化方案（GPTQ、LLM.int8()、SmoothQuant、AWQ等）进行讲述。\n\n- [大模型量化概述](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F627484732\u002Fanswer\u002F3261671478)\n- 量化感知训练：\n    - [大模型量化感知训练技术原理：LLM-QAT](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F647589650)\n    - [大模型量化感知微调技术原理：QLoRA]()\n    - PEQA\n- 训练后量化：\n    - [大模型量化技术原理：GPTQ、LLM.int8()](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F680212402)\n    - [大模型量化技术原理：SmoothQuant](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F576376372\u002Fanswer\u002F3388402085)\n    - [大模型量化技术原理：AWQ、AutoAWQ](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F681578090)\n    - [大模型量化技术原理：SpQR](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F682871823)\n    - [大模型量化技术原理：ZeroQuant系列](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F683813769)\n    - [大模型量化技术原理：FP8](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F658712811\u002Fanswer\u002F3596678896)\n    - [大模型量化技术原理：FP6](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7412893752090853386)\n    - [大模型量化技术原理：KIVI、IntactKV、KVQuant](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7420231738558627874)\n    - [大模型量化技术原理：Atom、QuaRot](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7424334647570513972)\n    - [大模型量化技术原理：QoQ量化及QServe推理服务系统](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F8047106486)\n    - 大模型量化技术原理：QuIP、QuIP#、OmniQuant\n    - [大模型量化技术原理：FP4]()\n- [大模型量化技术原理：总结](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F11886909512)\n\n\n\n### LLM稀疏化\n\n- [万字长文谈深度神经网络剪枝综述](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F692858636?)\n\n\n目前，大多数针对大模型模型的压缩技术都专注于模型量化领域，即降低单个权重的数值表示的精度。另一种模型压缩方法模型剪枝的研究相对较少，即删除网络元素，包括从单个权重（非结构化剪枝）到更高粒度的组件，如权重矩阵的整行\u002F列（结构化剪枝）。\n\n本系列将针对一些常见大模型稀疏化方案（LLM-Pruner、SliceGPT、SparseGPT、Wanda等）进行讲述。\n\n- [大模型稀疏化技术原理：概述](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F652126515\u002Fanswer\u002F3457652467)\n- [大模型稀疏化技术原理：Double Sparsity](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1912877769827783344)\n- 大模型稀疏化技术原理：LLM-Pruner、SliceGPT\n- 大模型稀疏化技术原理：SparseGPT、Wanda\n- 大模型稀疏化技术原理：总结\n\n\n**结构化剪枝**：\n\n- LLM-Pruner(LLM-Pruner: On the Structural Pruning of Large Language Models)\n- LLM-Shearing(Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning)\n- SliceGPT: Compress Large Language Models by Deleting Rows and Columns\n- LoSparse\n\n\n**非结构化剪枝**：\n\n- SparseGPT(SparseGPT: Massive Language Models Can be Accurately Pruned in One-Shot)\n- LoRAPrune(LoRAPrune: Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning)\n- Wanda(A Simple and Effective Pruning Approach for Large Language Models)\n- Flash-LLM(Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative Model Inference with Unstructured Sparsity)\n\n\n\n### LLM知识蒸馏\n\n- [大模型知识蒸馏概述](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F625415893\u002Fanswer\u002F3243565375)\n\n**Standard KD**:\n\n使学生模型学习教师模型(LLM)所拥有的常见知识，如输出分布和特征信息，这种方法类似于传统的KD。\n\n- MINILLM\n- GKD\n\n**EA-based KD**:\n\n不仅仅是将LLM的常见知识转移到学生模型中，还涵盖了蒸馏它们独特的涌现能力。具体来说，EA-based KD又分为了上下文学习（ICL）、思维链（CoT）和指令跟随（IF）。\n\nIn-Context Learning：\n\n- In-Context Learning distillation\n\nChain-of-Thought：\n\n- MT-COT\n- Fine-tune-CoT\n- DISCO\n- SCOTT\n- SOCRATIC CoT\n\nInstruction Following：\n\n- Lion\n\n### 低秩分解\n\n低秩分解旨在通过将给定的权重矩阵分解成两个或多个较小维度的矩阵，从而对其进行近似。低秩分解背后的核心思想是找到一个大的权重矩阵W的分解，得到两个矩阵U和V，使得W≈U V，其中U是一个m×k矩阵，V是一个k×n矩阵，其中k远小于m和n。U和V的乘积近似于原始的权重矩阵，从而大幅减少了参数数量和计算开销。\n\n在LLM研究的模型压缩领域，研究人员通常将多种技术与低秩分解相结合，包括修剪、量化等。\n\n- ZeroQuant-FP（低秩分解+量化）\n- LoRAPrune（低秩分解+剪枝）\n\n\n\n## LLM测评\n\n\n\n### LLM效果评测\n\n\n- [C-Eval](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fceval)：全面的中文基础模型评估套件，涵盖了52个不同学科的13948个多项选择题，分为四个难度级别。\n- [CMMLU](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002FCMMLU)：一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外，CMMLU中的许多任务具有中国特定的答案，可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。\n- [LVEval](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002FLVEval)：一个具备5个长度等级（16k、32k、64k、128k和256k）、最大文本测试长度达到256k的长文本评测基准。LV-Eval的平均文本长度达到102,380字，最小\u002F最大文本长度为11,896\u002F387,406字。LV-Eval主要有两类评测任务——单跳QA和多跳QA，共包含11个涵盖中英文的评测数据子集。LV-Eval设计时引入3个关键技术：干扰事实插入（Confusiong Facts Insertion，CFI）提高挑战性，关键词和短语替换（Keyword and Phrase Replacement，KPR）减少信息泄漏，以及基于关键词召回的评测指标（Answer Keywords，AK，指代结合答案关键词和字词黑名单的评价指标）提高评测数值客观性。\n- [IFEval: Instruction Following Eval](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fgoogle-research\u002Ftree\u002Fmaster\u002Finstruction_following_eval)\u002F[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.07911)：专注评估大模型遵循指令的能力,包含关键词检测、标点控制、输出格式要求等25种任务。\n- [SuperCLUE](https:\u002F\u002Fgithub.com\u002FCLUEbenchmark\u002FSuperCLUE)：一个综合性大模型评测基准，本次评测主要聚焦于大模型的四个能力象限，包括语言理解与生成、专业技能与知识、Agent智能体和安全性，进而细化为12项基础能力。\n- [AGIEval](https:\u002F\u002Fgithub.com\u002Fruixiangcui\u002FAGIEval\u002F)：用于评估基础模型在与人类认知和解决问题相关的任务中的能力。该基准源自 20 项面向普通考生的官方、公开、高标准的入学和资格考试，例如：普通大学入学考试（例如：中国高考（Gaokao）和美国 SAT）、法学院入学考试、数学竞赛、律师资格考试、国家公务员考试。\n- [OpenCompass](https:\u002F\u002Fgithub.com\u002Fopen-compass\u002Fopencompass\u002Fblob\u002Fmain\u002FREADME_zh-CN.md)：司南 2.0 大模型评测体系。\n- [LongBench](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FLongBench)：一个双语（中英文）多任务基准数据集，旨在评估大语言模型的长上下文理解能力。它包含21个任务，涵盖单文档问答、多文档问答、摘要、小样本学习、合成任务和代码补全等。数据集平均任务长度范围为5k到15k，共包含4750个测试数据。LongBench 采用全自动评估方法，旨在以最低的成本衡量和评估模型理解长上下文的能力。\n- [EvalScope](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002Fevalscope)：魔搭社区官方推出的模型评测与性能基准测试框架，专为多样化的模型评估需求而设计。它支持广泛的模型类型，包括但不限于大语言模型、多模态模型、Embedding 模型、Reranker 模型和 CLIP 模型。EvalScope还适用于多种评测场景，如端到端RAG评测、竞技场模式和模型推理性能压测等，其内置多个常用测试基准和评测指标，如MMLU、CMMLU、C-Eval、GSM8K等。\n\n\n\n### LLM推理性能压测\n\n\n- [你真的搞懂了LLM性能压测的各项指标吗？](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1989359577871954448)\n- [AIPerf](https:\u002F\u002Fgithub.com\u002Fai-dynamo\u002Faiperf)：英伟达开源的性能测试工具\n- [GuideLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fguidellm)：vLLM开源的性能测试工具\n- [EvalScope](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002Fevalscope)：魔搭社区开源的性能测试工具\n- [Inference Perf](https:\u002F\u002Fgithub.com\u002Fkubernetes-sigs\u002Finference-perf)\n- [genai-bench](https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fgenai-bench)：SGLang开源的性能测试工具\n- [GenAI-Perf](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fperf_analyzer\u002Ftree\u002Fmain\u002Fgenai-perf)：英伟达开源的一个命令行工具（**已逐渐被淘汰，建议使用AIPerf**），用于测量通过推理服务提供生成式AI模型的吞吐量和延迟。GenAI-Perf 收集一组不同的指标来捕获推理服务的性能。\n\n| 指标 | 描述 | Aggregations |\n| - | - | - |\n| \u003Cspan id=\"time_to_first_token_metric\">Time to First Token\u003C\u002Fspan> | Time between when a request is sent and when its first response is received, one value per request in benchmark | Avg, min, max, p99, p90, p75 |\n| \u003Cspan id=\"time_to_second_token_metric\">Time to Second Token\u003C\u002Fspan> | Time between when the first streaming response is received and when the second streaming response is received, one value per request in benchmark | Avg, min, max, p99, p90, p75 |\n| \u003Cspan id=\"inter_token_latency_metric\">Inter Token Latency\u003C\u002Fspan> | Time between intermediate responses for a single request divided by the number of generated tokens of the latter response, one value per response per request in benchmark | Avg, min, max, p99, p90, p75 |\n| Request Latency | Time between when a request is sent and when its final response is received, one value per request in benchmark | Avg, min, max, p99, p90, p75 |\n| Output Sequence Length | Total number of output tokens of a request, one value per request in benchmark | Avg, min, max, p99, p90, p75 |\n| Input Sequence Length | Total number of input tokens of a request, one value per request in benchmark | Avg, min, max, p99, p90, p75 |\n| \u003Cspan id=\"output_token_throughput_metric\">Output Token Throughput\u003C\u002Fspan> | Total number of output tokens from benchmark divided by benchmark duration | None–one value per benchmark |\n| \u003Cspan id=\"request_throughput_metric\">Request Throughput\u003C\u002Fspan> | Number of final responses from benchmark divided by benchmark duration | None–one value per benchmark |\n\n\n\n\n## LLM数据工程\n\nLLM Data Engineering\n\n\n### 预训练语料处理技术\n\n![llm-pretrain-pipeline](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fliguodongiot_llm-action_readme_ac35daef81b1.png)\n\n- 数据收集\n- 数据处理\n  - 去重\n  - 过滤\n  - 选择\n  - 组合\n\n### LLM微调高效数据筛选技术\n\n- [LLM微调高效数据筛选技术原理-DEITA]()\n- [LLM微调高效数据筛选技术原理-MoDS]()\n- [LLM微调高效数据筛选技术原理-IFD]()\n- [LLM微调高效数据筛选技术原理-CaR]()\n- [LESS：仅选择5%有影响力的数据优于全量数据集进行目标指令微调](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F686007325)\n- [LESS 实践：用少量的数据进行目标指令微调](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F686687923)\n\n\n\n## 提示工程\n\n- Zero-Shot Prompting\n- Few-Shot Prompting\n- Chain-of-Thought (CoT) Prompting\n- Automatic Chain-of-Thought (Auto-CoT) Prompting\n- Tree-of-Thoughts (ToT) Prompting\n\n\n\n## [LLM算法架构](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fdocs\u002Fllm-base\u002Fai-algo)\n\n![llm-famliy](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fliguodongiot_llm-action_readme_62ded6a9a467.jpg)\n\n\n- [大模型算法演进](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F600016134)\n\n![llm-famliy](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fliguodongiot_llm-action_readme_f8a0c15f3802.png)\n\n- [百川智能开源大模型baichuan-7B技术剖析](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F606757218\u002Fanswer\u002F3075464500)\n- [百川智能开源大模型baichuan-13B技术剖析](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F611507751\u002Fanswer\u002F3114988669)\n- [LLaMA3 技术剖析](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F653374932\u002Fanswer\u002F3470909634)\n- [大模型算法架构：DeepSeek技术演进及剖析](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1912877300439037789)\n- [大模型算法架构：QWen技术演进及剖析]()\n- ChatGLM \u002F ChatGLM2 \u002F ChatGLM3 大模型解析\n- Bloom 大模型解析\n- LLaMA \u002F LLaMA2 大模型解析\n- [DeepSeek 视觉语言大模型技术演进（从DeepSeek VL\u002FVL2到DeepSeek OCR）](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1976731060562842519)\n- Qwen3-Next\n\n\n\n\n## LLM应用开发\n\n大模型是基座，要想让其变成一款产品，我们还需要一些其他相关的技术，比如：向量数据库（Pinecone、Milvus、Vespa、Weaviate），LangChain等。\n\n- [云原生向量数据库Milvus（一）-简述、系统架构及应用场景](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F476025527)\n- [云原生向量数据库Milvus（二）-数据与索引的处理流程、索引类型及Schema](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F477231485)\n- [关于大模型驱动的AI智能体Agent的一些思考](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F651921120)\n\n\n### Agent应用\n\n\n\nAI Assistant:\n\n- [OpenClaw](https:\u002F\u002Fgithub.com\u002Fopenclaw\u002Fopenclaw)：一款个人 AI 助手\n\n\nCode Agent:\n\n- [OpenCode](https:\u002F\u002Fgithub.com\u002Fanomalyco\u002Fopencode)：一个开源代码智能体，[项目文档](https:\u002F\u002Fopencode.ai\u002Fdocs\u002Fzh-cn\u002F)\n\n\n\n\n## [LLM国产化适配](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fdocs\u002Fllm_localization)\n\n随着 ChatGPT 的现象级走红，引领了AI大模型时代的变革，从而导致 AI 算力日益紧缺。与此同时，中美贸易战以及美国对华进行AI芯片相关的制裁导致 AI 算力的国产化适配势在必行。本系列将对一些国产化 AI 加速卡进行讲解。\n\n- [大模型国产化适配1-华为昇腾AI全栈软硬件平台总结](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F637918406)\n- [大模型国产化适配2-基于昇腾910使用ChatGLM-6B进行模型推理](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F650730807)\n- [大模型国产化适配3-基于昇腾910使用ChatGLM-6B进行模型训练](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F651324599)\n  - MindRecord数据格式说明、全量微调、LoRA微调\n- [大模型国产化适配4-基于昇腾910使用LLaMA-13B进行多机多卡训练](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F655902796)\n- [大模型国产化适配5-百度飞浆PaddleNLP大语言模型工具链总结](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F665807431)\n- [大模型国产化适配6-基于昇腾910B快速验证ChatGLM3-6B\u002FBaiChuan2-7B模型推理](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F677799157)\n- [大模型国产化适配7-华为昇腾LLM落地可选解决方案（MindFormers、ModelLink、MindIE）](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F692377206)\n- [MindIE 1.0.RC1 发布，华为昇腾终于推出了针对LLM的完整部署方案，结束小米加步枪时代](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F654472145\u002Fanswer\u002F3482521709)\n- [大模型国产化适配8-基于昇腾MindIE推理工具部署Qwen-72B实战（推理引擎、推理服务化）](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7365879319598727180)\n  - Qwen-72B、Baichuan2-7B、ChatGLM3-6B\n- [大模型国产化适配9-LLM推理框架MindIE-Service性能基准测试](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F704649189)\n- [大模型国产化适配10-快速迁移大模型到昇腾910B保姆级教程（Pytorch版）](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7375351908896866323)\n- [大模型国产化适配11-LLM训练性能基准测试（昇腾910B3）](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7380995631790964772)\n- [国产知名AI芯片厂商产品大揭秘-昇腾、海光、天数智芯...](https:\u002F\u002Ff46522gm22.feishu.cn\u002Fdocx\u002FPfWfdMKo8oXYN6xi7uycuhgFnKg)\n- [国内AI芯片厂商的计算平台大揭秘-昇腾、海光、天数智芯...](https:\u002F\u002Ff46522gm22.feishu.cn\u002Fdocx\u002FXnhcdXVDholUBpxYoMccS11Mnfc)\n- [【LLM国产化】量化技术在MindIE推理框架中的应用](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7416723051377377316)\n\n\n\n\n**[⬆ 一键返回目录](#目录)**\n\n\n## [AI编译器](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fai-compiler)\n\nAI编译器是指将机器学习算法从开发阶段，通过变换和优化算法，使其变成部署状态。\n\n- [AI编译器技术剖析（一）-概述](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F669347560)\n- [AI编译器技术剖析（二）-传统编译器](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F671477784)\n- [AI编译器技术剖析（三）-树模型编译工具 Treelite 详解](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F676723324)\n- [AI编译器技术剖析（四）-编译器前端]()\n- [AI编译器技术剖析（五）-编译器后端]()\n- [AI编译器技术剖析（六）-主流编译框架]()\n- [AI编译器技术剖析（七）-深度学习模型编译优化]()\n- [lleaves：使用 LLVM 编译梯度提升决策树将预测速度提升10+倍](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F672584013)\n\n框架：\n\n- MLIR\n- XLA\n- TVM\n\n\n## AI基础设施\n\n- [AI 集群基础设施 NVMe SSD 详解](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F672098336)\n- [AI 集群基础设施 InfiniBand 详解](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F673903240)\n- [大模型训练基础设施：算力篇]()\n\n\n### AI加速卡\n\n- [AI芯片技术原理剖析（一）：国内外AI芯片概述](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F667686665)\n- AI芯片技术原理剖析（二）：英伟达GPU \n- AI芯片技术原理剖析（三）：谷歌TPU\n\n### AI集群\n\n待更新...\n\n\n### [AI集群网络通信](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fdocs\u002Fllm-base\u002Fnetwork-communication)\n\n待更新...\n\n- 分布式训练网络通讯原语\n- AI 集群通信软硬件\n\n\n## LLMOps\n\n- [在 Kubernetes 上部署机器学习模型的指南](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F676389726)\n- [使用 Kubernetes 部署机器学习模型的优势](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7320513026188099619)\n\n\n\n## LLM生态相关技术\n\n- [大模型词表扩充必备工具SentencePiece](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F630696264)\n- [大模型实践总结](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F601594836\u002Fanswer\u002F3032763174)\n- [ChatGLM 和 ChatGPT 的技术区别在哪里？](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F604393963\u002Fanswer\u002F3061358152)\n- [现在为什么那么多人以清华大学的ChatGLM-6B为基座进行试验？](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F602504880\u002Fanswer\u002F3041965998)\n- [为什么很多新发布的大模型默认使用BF16而不是FP16？](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F616600181\u002Fanswer\u002F3195333332)\n- [大模型训练时ZeRO-2、ZeRO-3能否和Pipeline并行相结合？](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F652836990\u002Fanswer\u002F3468210626)\n- [一文详解模型权重存储新格式 Safetensors](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7386360803039838235)\n- [一文搞懂大模型文件存储格式新宠GGUF](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7408858126042726435)\n- [DeepGEMM 技术剖析](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7520475965081813055)\n\n\n## LLM性能分析\n\n\n- PyTorch Profiler\n- NVIDIA Nsight Systems \n- NVIDIA Nsight Compute\n\n\n## [LLM面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002FREADME.md)\n\n正在收集中...\n\n- [大模型基础常见面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fbase.md)\n- [大模型算法常见面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fllm-algo.md)\n- [大模型训练常见面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fllm-train.md)\n- [大模型微调常见面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fllm-ft.md)\n- [大模型评估常见面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fllm-eval.md)\n- [大模型压缩常见面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fllm-compress.md)\n- [大模型推理常见面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fllm-inference.md)\n- [大模型应用常见面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fllm-app.md)\n- [大模型综合性面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fcomprehensive.md)\n\n\n\n\n**[⬆ 一键返回目录](#目录)**\n\n## 服务器基础环境安装及常用工具\n\n基础环境安装：\n\n- [英伟达A800加速卡常见软件包安装命令](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fdocs\u002Fllm-base\u002Fa800-env-install.md)\n- [英伟达H800加速卡常见软件包安装命令](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fdocs\u002Fllm-base\u002Fh800-env-install.md)\n- [昇腾910加速卡常见软件包安装命令](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm_localization\u002Fascend910-env-install.md)\n\n常用工具：\n\n- [Linux 常见命令大全](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F6992742028605915150)\n- [Conda 常用命令大全](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7089093437223338015)\n- [Poetry 常用命令大全](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F6999405667261874183)\n- [Docker 常用命令大全](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7016238524286861325)\n- [Docker Dockerfile 指令大全](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7016595442062327844)\n- [Kubernetes 常用命令大全](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7031201391553019911)\n- [集群环境 GPU 管理和监控工具 DCGM 常用命令大全](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fdocs\u002Fllm-base\u002Fdcgmi.md)\n\n## LLM学习交流群\n\n我创建了大模型相关的学习交流群，供大家一起学习交流大模型相关的最新技术，目前已有5个群，每个群都有上百人的规模，**可加我微信进群**（加微信请备注来意，如：进大模型学习交流群+GitHub，进大模型推理加速交流群+GitHub、进大模型应用开发交流群+GitHub、进大模型校招交流群+GitHub等）。**一定要备注哟，否则不予通过**。\n\nPS：**成都有个本地大模型交流群，想进可以另外单独备注下。**\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fliguodongiot_llm-action_readme_e4d0752be381.jpg\">\n\u003C\u002Fp>\n\n## 微信公众号\n\n微信公众号：**吃果冻不吐果冻皮**，该公众号主要分享AI工程化（大模型、MLOps等）相关实践经验，免费电子书籍、论文等。\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fliguodongiot_llm-action_readme_7ede356c2045.png\" >\n\u003C\u002Fp>\n\n**[⬆ 一键返回目录](#目录)**\n\n## Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fliguodongiot_llm-action_readme_9e1f99f78375.png)](https:\u002F\u002Fstar-history.com\u002F#liguodongiot\u002Fllm-action&Date)\n\n\n## AI工程化课程推荐\n\n如今人工智能的发展可谓是如火如荼，ChatGPT、Sora、文心一言等AI大模型如雨后春笋般纷纷涌现。AI大模型优势在于它能处理复杂性问题；因此，越来越多的企业需要具备**AI算法设计、AI应用开发、模型推理加速及模型压缩**等AI工程化落地的能力。这就导致行业内的工程师，需要快速提升自身的技术栈，以便于在行业内站稳脚跟。我在[llm-resource](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-resource) 和 [ai-system](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fai-system)梳理了一些大模型和AI工程化相关资料。\n\n\n\n\n\n\n","\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fliguodongiot_llm-action_readme_ba4fa5187fb8.jpg\" >\n\u003C\u002Fp>\n\n\n\u003Cp> \n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fstargazers\">\n\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fliguodongiot\u002Fllm-action?style=social\" > \u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fliguodongiot_llm-action_readme_e4d0752be381.jpg\"> \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F吃果冻不吐果冻皮-1AAD19.svg?style=plastic&logo=wechat&logoColor=white\" > \u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fliguodong-iot\"> \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F吃果冻不吐果冻皮-0079FF.svg?style=plastic&logo=zhihu&logoColor=white\"> \u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fjuejin.cn\u002Fuser\u002F3642056016410728\"> \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F掘金-吃果冻不吐果冻皮-000099.svg?style=plastic&logo=juejin\"> \u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fliguodong.blog.csdn.net\u002F\"> \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FCSDN-吃果冻不吐果冻皮-6B238E.svg\"> \u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fwww.lab4ai.cn\u002Fregister?agentID=user-PqCML6LJZO\"> \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLab4AI-大模型实验室-1E90FF.svg\"> \u003C\u002Fa>\n\u003C\u002Fp> \n\n\n## 目录\n\n- :snail: [LLM训练](#llm训练)\n  - 🐫 [LLM训练实战](#llm训练实战)\n  - 🐼 [LLM参数高效微调技术原理](#llm微调技术原理)\n  - 🐰 [LLM参数高效微调技术实战](#llm微调实战)\n  - 🐘 [LLM分布式训练并行技术](#llm分布式训练并行技术)\n  - 🌋 [分布式AI框架](#分布式ai框架)\n  - 📡 [分布式训练网络通信](#分布式训练网络通信)\n  - :herb: [LLM训练优化技术](#llm训练优化技术)\n  - :hourglass: [LLM对齐技术](#llm对齐技术)\n- 🐎 [LLM推理](#llm推理)\n  - 🚀 [LLM推理框架](#llm推理框架)\n  - ✈️ [LLM推理优化技术](#llm推理优化技术)\n- ♻️ [LLM压缩](#llm压缩)\n  - 📐 [LLM量化](#llm量化)\n  - 🔰 [LLM剪枝](#llm剪枝)\n  - 💹 [LLM知识蒸馏](#llm知识蒸馏)\n  - ♑️ [低秩分解](#低秩分解)\n- :herb: [LLM测评](#llm测评)\n  - 🔯 [LLM效果评测](#llm效果评测)\n  - 🔘 [LLM推理性能压测](#llm推理性能压测)\n- :palm_tree: [LLM数据工程](#llm数据工程)\n  - :dolphin: [LLM微调高效数据筛选技术](#llm微调高效数据筛选技术)\n- :cyclone: [提示工程](#提示工程)\n- ♍️ [LLM算法架构](#llm算法架构)\n- :jigsaw: [LLM应用开发](#llm应用开发)\n- 🀄️ [LLM国产化适配](#llm国产化适配)\n- 🔯 [AI编译器](#ai编译器)\n- 🔘 [AI基础设施](#ai基础设施)\n  - :maple_leaf: [AI加速卡](#ai加速卡)\n  - :octocat: [AI集群网络通信](#ai集群网络通信)\n- 💟 [LLMOps](#llmops)\n- 🍄 [LLM生态相关技术](#llm生态相关技术)\n- 💹 [LLM性能分析](#llm性能分析)\n- :dizzy: [LLM面试题](#llm面试题)\n- 🔨 [服务器基础环境安装及常用工具](#服务器基础环境安装及常用工具)\n- 💬 [LLM学习交流群](#llm学习交流群)\n- 👥 [微信公众号](#微信公众号)\n- ⭐️ [Star History](#star-history)\n- :link: [AI工程化课程推荐](#ai工程化课程推荐)\n\n\n## 大模型实验室Lab4AI普惠算力\n\n**基于大模型实验室的GPU算力实践**\n\n\n|  主题      | 实践          | 博客\u002F视频     |\n|:------------ |:-----------------------------:|:--------:| \n| 基于ComfyUI调用Flux文生图模型生成动漫风格图像      | [链接](https:\u002F\u002Fwww.lab4ai.cn\u002Fproject\u002Fdetail?utm_source=guodong&id=f82ca14acda040ba8a3412feb541ba29&type=project)          | [链接](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002FOEDQO-IkT4uo_HMjBXGuCA)     |\n| 告别传统客服：三步骤，LLaMA-Factory零代码打造会订票的专属大模型      | [链接](https:\u002F\u002Fwww.lab4ai.cn\u002Fproject\u002Fdetail?utm_source=guodong&id=a78043adcef84cd998516e1bcd39562f&type=project)          | [链接](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002FN_CQEBEjN0E31x4Vg31rEQ)    |\n| 打造基于多模态AI的苏东坡数字人      | [链接](https:\u002F\u002Fwww.lab4ai.cn\u002Fproject\u002Fdetail?utm_source=guodong&id=1f1097f45ea64abca3359e4c0615720a&type=project)          | -     |\n| WeClone：从聊天记录创造数字分身的一站式解决方案      | [链接](https:\u002F\u002Fwww.lab4ai.cn\u002Fproject\u002Fdetail?utm_source=guodong&id=ab83d14684fa45d197f67eddb3d8316c&type=project)          | [链接](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002F2pOD8YexWtmuPhV4C7uKJA)     |\n| LightX2V 4步蒸馏模型：20倍速的高质量视频生成革命      | [链接](https:\u002F\u002Fwww.lab4ai.cn\u002Fproject\u002Fdetail?utm_source=guodong&id=d5556b93078d4defbb58c9f722b674df&type=project)          | [链接](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002FkVz1dwthn3nOLT0jTeiQgg)     |\n| 基于Qwen3-8B的沉浸式苏东坡角色扮演大模型      | [链接](https:\u002F\u002Fwww.lab4ai.cn\u002Fproject\u002Fdetail?utm_source=guodong&id=315457fba1b3432c935865d1c5aa1ffe&type=project)          | [链接](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002FbCCHa2RsKieJZizORU19dQ)     |\n| LightLLM轻量化部署新范式，打造高性能法律智能体      | [链接](https:\u002F\u002Fwww.lab4ai.cn\u002Fproject\u002Fdetail?utm_source=guodong&id=b417085ae8cd4dd0bef7161c3d583b15&type=project)          | [链接](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002Fj8rJyoBA02ypPEkxb9XSVg)     |\n| RoboMIND——机器人多形态通用智能评测基准      | [链接](https:\u002F\u002Fwww.lab4ai.cn\u002Fproject\u002Fdetail?utm_source=guodong&id=492a471cd6054a179660c760f0026704&type=project)          | [链接](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002Fi_QPGuqaXfql6cPELxlUVg)     |\n| 经典论文复现：《Attention Is All You Need》      | [链接](https:\u002F\u002Fwww.lab4ai.cn\u002Fpaper\u002Fdetail?utm_source=guodong&id=e90aa38fdff9420e8902bc71909fa005&type=paper)          | [链接](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1Fvp3zBEAN\u002F?spm_id_from=333.1387.homepage.video_card.click)     |\n| 经典论文复现：《SELF-INSTRUCT: Aligning Language Models \u003Cbr> with Self-Generated Instructions》| [链接](https:\u002F\u002Fwww.lab4ai.cn\u002Fpaper\u002Fdetail?utm_source=guodong&id=2bbf2f4971f74c6e8def26879233f2fe&type=paper)          | -     |\n\n\n\n**GPU算力优惠活动**\n\n- 资源不够用，来 Lab4AI 享 H800 GPU，用 H800 比 4090 还划算: [详情](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002F61OtlvP3N4vl0D67eCzSWA)\n\n\n**算力福利**\n\n- 大模型实验室Lab4AI：[免费领取50元GPU算力](https:\u002F\u002Fwww.lab4ai.cn\u002Fregister?agentID=user-PqCML6LJZO)\n- 大模型实验室群：[点击加入](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fliguodongiot\u002Ftree\u002Fmain\u002Fimages\u002Flab4ai.png)\n\n\n\n**AI训练营**\n\n- AI应用开发工程师技能 & 春招面试训练营：[点击加入](https:\u002F\u002Fwww.lab4ai.cn\u002Fcourse\u002Fdetail?utm_source=guodong&id=2b86361ed6a54611850c073defe04327)\n- 斯坦福CS336 从零手搓大语言模型实战：[点击加入](https:\u002F\u002Fwww.lab4ai.cn\u002Fcourse\u002Fdetail?utm_source=guodong&id=49325466ca58436782b65a887883805f)\n- 7天AI智能体全栈开发实战集训营：[点击加入](https:\u002F\u002Fwww.lab4ai.cn\u002Fcourse\u002Fdetail?utm_source=guodong&id=f3fba5d60b2542bf8783e59dcc24d836)\n\n\n\n## LLM训练\n\n### 大模型训练实战\n\n下面汇总了我在大模型实践中训练相关的所有教程。从6B到65B，从全量微调到高效微调（LoRA，QLoRA，P-Tuning v2），再到RLHF（基于人工反馈的强化学习）。\n\n| LLM                         | 预训练\u002FSFT\u002FRLHF...            | 参数     | 教程                                                                                                                                                                                                                     | 代码                                                                                     |\n| --------------------------- | ----------------------------- | -------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ | ---------------------------------------------------------------------------------------- |\n| Alpaca                      | full fine-turning             | 7B       | [从0到1复现斯坦福羊驼（Stanford Alpaca 7B）](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F618321077)                                                                                                                                        | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fllm-train\u002Falpaca)               |\n| Alpaca(LLaMA)               | LoRA                          | 7B~65B   | 1.[足够惊艳，使用Alpaca-Lora基于LLaMA(7B)二十分钟完成微调，效果比肩斯坦福羊驼](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F619426866)\u003Cbr>2. [使用 LoRA 技术对 LLaMA 65B 大模型进行微调及推理](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F632492604)    | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fllm-train\u002Falpaca-lora)          |\n| BELLE(LLaMA\u002FBloom)          | full fine-turning             | 7B       | 1.[基于LLaMA-7B\u002FBloomz-7B1-mt复现开源中文对话大模型BELLE及GPTQ量化](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F618876472) \u003Cbr> 2. [BELLE(LLaMA-7B\u002FBloomz-7B1-mt)大模型使用GPTQ量化后推理性能测试](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F621128368) | N\u002FA                                                                                      |\n| ChatGLM                     | LoRA                          | 6B       | [从0到1基于ChatGLM-6B使用LoRA进行参数高效微调](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F621793987)                                                                                                                                      | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fllm-train\u002Fchatglm-lora)         |\n| ChatGLM                     | full fine-turning\u002FP-Tuning v2 | 6B       | [使用DeepSpeed\u002FP-Tuning v2对ChatGLM-6B进行微调](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F622351059)                                                                                                                                     | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fllm-train\u002Fchatglm)              |\n| Vicuna(LLaMA)               | full fine-turning             | 7B       | [大模型也内卷，Vicuna训练及推理指南，效果碾压斯坦福羊驼](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F624012908)                                                                                                                            | N\u002FA                                                                                      |\n| OPT                         | RLHF                          | 0.1B~66B | 1.[一键式 RLHF 训练 DeepSpeed Chat（一）：理论篇](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F626159553) \u003Cbr> 2. [一键式 RLHF 训练 DeepSpeed Chat（二）：实践篇](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F626214655)                                 | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fllm-train\u002Fdeepspeedchat)        |\n| MiniGPT-4(LLaMA)            | full fine-turning             | 7B       | [大杀器，多模态大模型MiniGPT-4入坑指南](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F627671257)                                                                                                                                             | N\u002FA                                                                                      |\n| Chinese-LLaMA-Alpaca(LLaMA) | LoRA（预训练+微调）           | 7B       | [中文LLaMA&amp;Alpaca大语言模型词表扩充+预训练+指令精调](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F631360711)                                                                                                                            | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fllm-train\u002Fchinese-llama-alpaca) |\n| LLaMA                       | QLoRA                         | 7B\u002F65B   | [高效微调技术QLoRA实战，基于LLaMA-65B微调仅需48G显存，真香](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F636644164)                                                                                                                         | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fllm-train\u002Fqlora)                |\n| LLaMA                       | GaLore                         | 60M\u002F7B   | [突破内存瓶颈，使用 GaLore 一张4090消费级显卡也能预训练LLaMA-7B](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F686686751)   | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-train\u002Fgalore\u002Ftorchrun_main.py)  |\n\n**[⬆ 一键返回目录](#目录)**\n\n### LLM微调技术原理\n\n对于普通大众来说，进行大模型的预训练或者全量微调遥不可及。由此，催生了各种参数高效微调技术，让科研人员或者普通开发者有机会尝试微调大模型。\n\n因此，该技术值得我们进行深入分析其背后的机理，本系列大体分七篇文章进行讲解。\n\n![peft方法](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fliguodongiot_llm-action_readme_9505e9d72683.jpg)\n\n\n- [大模型参数高效微调技术原理综述（一）-背景、参数高效微调简介](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F635152813)\n- [大模型参数高效微调技术原理综述（二）-BitFit、Prefix Tuning、Prompt Tuning](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F635686756)\n- [大模型参数高效微调技术原理综述（三）-P-Tuning、P-Tuning v2](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F635848732)\n- [大模型参数高效微调技术原理综述（四）-Adapter Tuning及其变体](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F636038478)\n- [大模型参数高效微调技术原理综述（五）-LoRA、AdaLoRA、QLoRA](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F636215898)\n- [大模型参数高效微调技术原理综述（六）-MAM Adapter、UniPELT](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F636362246)\n- [大模型参数高效微调技术原理综述（七）-最佳实践、总结](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F649755252)\n\n### 大模型微调实战\n\n下面给大家分享**大模型参数高效微调技术实战**，该系列主要针对 HuggingFace PEFT 框架支持的一些高效微调技术进行讲解。\n\n| 教程          | 代码             | 框架             |\n| ------------- | --------------- | --------------- |\n| [大模型参数高效微调技术实战（一）-PEFT概述及环境搭建](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F651744834)          | N\u002FA                                                                                                       | HuggingFace PEFT |\n| [大模型参数高效微调技术实战（二）-Prompt Tuning](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F646748939)               | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-train\u002Fpeft\u002Fclm\u002Fpeft_prompt_tuning_clm.ipynb) | HuggingFace PEFT |\n| [大模型参数高效微调技术实战（三）-P-Tuning](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F646876256)                    | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-train\u002Fpeft\u002Fclm\u002Fpeft_p_tuning_clm.ipynb)      | HuggingFace PEFT |\n| [大模型参数高效微调技术实战（四）-Prefix Tuning \u002F P-Tuning v2](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F648156780) | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-train\u002Fpeft\u002Fclm\u002Fpeft_p_tuning_v2_clm.ipynb)   | HuggingFace PEFT |\n| [大模型参数高效微调技术实战（五）-LoRA](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F649315197)                        | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-train\u002Fpeft\u002Fclm\u002Fpeft_lora_clm.ipynb)          | HuggingFace PEFT |\n| [大模型参数高效微调技术实战（六）-IA3](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F649707359)                         | [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-train\u002Fpeft\u002Fclm\u002Fpeft_ia3_clm.ipynb)           | HuggingFace PEFT |\n| [大模型微调实战（七）-基于LoRA微调多模态大模型](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F670048482)       |     [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-train\u002Fpeft\u002Fmultimodal\u002Fblip2_lora_int8_fine_tune.py) | HuggingFace PEFT |\n| [大模型微调实战（八）-使用INT8\u002FFP4\u002FNF4微调大模型](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F670116171)    |     [配套代码](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-train\u002Fpeft\u002Fmultimodal\u002Ffinetune_bloom_bnb_peft.ipynb) | PEFT、bitsandbytes |\n\n\n\n\n**[⬆ 一键返回目录](#目录)**\n\n### [LLM分布式训练并行技术](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fdocs\u002Fllm-base\u002Fdistribution-parallelism)\n\n近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，传统的单机单卡模式已经无法满足超大模型进行训练的要求。因此，我们需要基于单机多卡、甚至是多机多卡进行分布式大模型的训练。\n\n而利用AI集群，使深度学习算法更好地从大量数据中高效地训练出性能优良的大模型是分布式机器学习的首要目标。为了实现该目标，一般需要根据硬件资源与数据\u002F模型规模的匹配情况，考虑对计算任务、训练数据和模型进行划分，从而进行分布式训练。因此，分布式训练相关技术值得我们进行深入分析其背后的机理。\n\n下面主要对大模型进行分布式训练的并行技术进行讲解，本系列大体分九篇文章进行讲解。\n\n- [大模型分布式训练并行技术（一）-概述](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F598714869)\n- [大模型分布式训练并行技术（二）-数据并行](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F650002268)\n- [大模型分布式训练并行技术（三）-流水线并行](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F653860567)\n- [大模型分布式训练并行技术（四）-张量并行](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F657921100)\n- [大模型分布式训练并行技术（五）-序列并行](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F659792351)\n- [大模型分布式训练并行技术（六）-多维混合并行](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F661279318)\n- [大模型分布式训练并行技术（七）-自动并行](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F662517647)\n- [大模型分布式训练并行技术（八）-MOE并行](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F662518387)\n- [大模型分布式训练并平行技术（九）-总结](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F667051845)\n\n**[⬆ 一键返回目录](#目录)**\n\n### 分布式AI框架\n\n- [PyTorch](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Ftrain\u002Fpytorch\u002F)\n  - PyTorch 单机多卡训练\n  - PyTorch 多机多卡训练\n- [Megatron-LM](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Ftrain\u002Fmegatron)\n  - Megatron-LM 单机多卡训练\n  - Megatron-LM 多机多卡训练\n  - [基于Megatron-LM从0到1完成GPT2模型预训练、模型评估及推理](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7259682893648724029)\n- [DeepSpeed](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Ftrain\u002Fdeepspeed)\n  - DeepSpeed 单机多卡训练\n  - DeepSpeed 多机多卡训练\n- [Megatron-DeepSpeed](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Ftrain\u002Fmegatron-deepspeed)\n  - 基于 Megatron-DeepSpeed 从 0 到1 完成 LLaMA 预训练\n  - 基于 Megatron-DeepSpeed 从 0 到1 完成 Bloom 预训练\n\n\n### 分布式训练网络通信\n\n待更新...\n\n\n### LLM训练优化技术\n\n- FlashAttention V1、V2\n- 混合精度训练\n- 重计算\n- MQA \u002F GQA\n- 梯度累积\n\n\n### LLM对齐技术\n\n\n- PPO（近端策略优化）\n- DPO\n- ORPO\n\n\n\n**[⬆ 一键返回目录](#目录)**\n\n## [LLM推理](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Finference)\n\n\n### 推理引擎\n\n- [大模型推理框架概述](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F625415776\u002Fanswer\u002F3243562246)\n- [大模型的好伙伴，浅析推理加速引擎FasterTransformer](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F626008090)\n- [TensorRT-LLM保姆级教程（一）-快速入门](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F666849728)\n- [TensorRT-LLM保姆级教程（二）-离线环境搭建、模型量化及推理](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F667572720)\n- [TensorRT-LLM保姆级教程（三）-使用Triton推理服务框架部署模型](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7398122968200593419)\n- [一文搞懂大模型生成文本的解码策略](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1921914053485376792)\n- [谈谈LLM生成文本的惩罚参数](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1965476299419132173)\n- [LLM 确定性推理](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1961192621759242664)\n\n\n迷你LLM推理引擎（非常适合源码学习）：\n\n- [Nano-vLLM源码注释](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fnano-vllm)：从头开始构建的轻量级 vLLM 实现。\n- [Mini-SGLang](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fmini-sglang)：一个轻量但高性能的大型语言模型推理框架，SGLang 的紧凑实现。\n\n\n生产级LLM推理引擎：\n\n- [vLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm)\n- [SGLang](https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang)\n\n其他推理引擎：\n\n- [LMDeploy](https:\u002F\u002Fgithub.com\u002FInternLM\u002Flmdeploy)\n- [LightLLM](https:\u002F\u002Fgithub.com\u002FModelTC\u002Flightllm)：纯Python开发的大语言模型推理和服务框架\n- [MNN-LLM](https:\u002F\u002Fgithub.com\u002Falibaba\u002FMNN)：基于MNN引擎开发的大型语言模型运行时解决方案\n- [赤兔](https:\u002F\u002Fgithub.com\u002Fthu-pacman\u002Fchitu)\n- [mllm](https:\u002F\u002Fgithub.com\u002FUbiquitousLearning\u002Fmllm)：端侧多模态LLM推理引擎\n\n\n\n### 推理服务\n\n- [模型推理服务工具综述](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F721395381)\n- [模型推理服务化框架Triton保姆式教程（一）：快速入门](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F629336492)\n- [模型推理服务化框架Triton保姆式教程（二）：架构解析](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F634143650)\n- [模型推理服务化框架Triton保姆式教程（三）：开发实践](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F634444666)\n\n\n### LLM推理优化技术\n\n- [LLM推理优化技术-概述]()\n- [大模型推理优化技术-KV Cache](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F653658936\u002Fanswer\u002F3569365986)\n- [大模型推理服务调度优化技术-Continuous batching](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F719610083)\n- [大模型低显存推理优化-Offload技术](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7405158045628596224)\n- [大模型推理优化技术-KV Cache量化](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7420231738558627874)\n- [大模型推理优化技术-张量并行]()\n- [大模型推理服务调度优化技术-Chunked Prefill]()\n- [大模型推理优化技术-KV Cache优化方法综述]()\n- 大模型吞吐优化技术-多LoRA推理服务\n- 大模型推理服务调度优化技术-公平性调度\n- 大模型访存优化技术-FlashAttention\n- 大模型显存优化技术-PagedAttention\n- 大模型解码优化-Speculative Decoding及其变体\n- 大模型推理优化-结构化文本生成\n- Flash Decoding\n- FlashDecoding++\n\n\n## LLM压缩\n\n近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。\n模型压缩主要分为如下几类：\n\n-   模型剪枝（Pruning）\n-   知识蒸馏（Knowledge Distillation）\n-   模型量化（Quantization）\n-   低秩分解（Low-Rank Factorization）\n\n### [LLM量化](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fmodel-compression\u002Fquantization)\n\n本系列将针对一些常见大模型量化方案（GPTQ、LLM.int8()、SmoothQuant、AWQ等）进行讲述。\n\n- [大模型量化概述](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F627484732\u002Fanswer\u002F3261671478)\n- 量化感知训练：\n    - [大模型量化感知训练技术原理：LLM-QAT](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F647589650)\n    - [大模型量化感知微调技术原理：QLoRA]()\n    - PEQA\n- 训练后量化：\n    - [大模型量化技术原理：GPTQ、LLM.int8()](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F680212402)\n    - [大模型量化技术原理：SmoothQuant](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F576376372\u002Fanswer\u002F3388402085)\n    - [大模型量化技术原理：AWQ、AutoAWQ](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F681578090)\n    - [大模型量化技术原理：SpQR](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F682871823)\n    - [大模型量化技术原理：ZeroQuant系列](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F683813769)\n    - [大模型量化技术原理：FP8](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F658712811\u002Fanswer\u002F3596678896)\n    - [大模型量化技术原理：FP6](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7412893752090853386)\n    - [大模型量化技术原理：KIVI、IntactKV、KVQuant](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7420231738558627874)\n    - [大模型量化技术原理：Atom、QuaRot](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7424334647570513972)\n    - [大模型量化技术原理：QoQ量化及QServe推理服务系统](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F8047106486)\n    - 大模型量化技术原理：QuIP、QuIP#、OmniQuant\n    - [大模型量化技术原理：FP4]()\n- [大模型量化技术原理：总结](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F11886909512)\n\n\n\n### LLM稀疏化\n\n- [万字长文谈深度神经网络剪枝综述](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F692858636?)\n\n\n目前，大多数针对大模型模型的压缩技术都专注于模型量化领域，即降低单个权重的数值表示的精度。另一种模型压缩方法模型剪枝的研究相对较少，即删除网络元素，包括从单个权重（非结构化剪枝）到更高粒度的组件，如权重矩阵的整行\u002F列（结构化剪枝）。\n\n本系列将针对一些常见大模型稀疏化方案（LLM-Pruner、SliceGPT、SparseGPT、Wanda等）进行讲述。\n\n- [大模型稀疏化技术原理：概述](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F652126515\u002Fanswer\u002F3457652467)\n- [大模型稀疏化技术原理：Double Sparsity](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1912877769827783344)\n- 大模型稀疏化技术原理：LLM-Pruner、SliceGPT\n- 大模型稀疏化技术原理：SparseGPT、Wanda\n- 大模型稀疏化技术原理：总结\n\n\n**结构化剪枝**：\n\n- LLM-Pruner(LLM-Pruner: On the Structural Pruning of Large Language Models)\n- LLM-Shearing(Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning)\n- SliceGPT: Compress Large Language Models by Deleting Rows and Columns\n- LoSparse\n\n\n**非结构化剪枝**：\n\n- SparseGPT(SparseGPT: Massive Language Models Can be Accurately Pruned in One-Shot)\n- LoRAPrune(LoRAPrune: Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning)\n- Wanda(A Simple and Effective Pruning Approach for Large Language Models)\n- Flash-LLM(Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative Model Inference with Unstructured Sparsity)\n\n\n\n### LLM知识蒸馏\n\n- [大模型知识蒸馏概述](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F625415893\u002Fanswer\u002F3243565375)\n\n**Standard KD**:\n\n使学生模型学习教师模型(LLM)所拥有的常见知识，如输出分布和特征信息，这种方法类似于传统的KD。\n\n- MINILLM\n- GKD\n\n**EA-based KD**:\n\n不仅仅是将LLM的常见知识转移到学生模型中，还涵盖了蒸馏它们独特的涌现能力。具体来说，EA-based KD又分为了上下文学习（ICL）、思维链（CoT）和指令跟随（IF）。\n\nIn-Context Learning：\n\n- In-Context Learning distillation\n\nChain-of-Thought：\n\n- MT-COT\n- Fine-tune-CoT\n- DISCO\n- SCOTT\n- SOCRATIC CoT\n\nInstruction Following：\n\n- Lion\n\n### 低秩分解\n\n低秩分解旨在通过将给定的权重矩阵分解成两个或多个较小维度的矩阵，从而对其进行近似。低秩分解背后的核心思想是找到一个大的权重矩阵W的分解，得到两个矩阵U和V，使得W≈U V，其中U是一个m×k矩阵，V是一个k×n矩阵，其中k远小于m和n。U和V的乘积近似于原始的权重矩阵，从而大幅减少了参数数量和计算开销。\n\n在LLM研究的模型压缩领域，研究人员通常将多种技术与低秩分解相结合，包括修剪、量化等。\n\n- ZeroQuant-FP（低秩分解+量化）\n- LoRAPrune（低秩分解+剪枝）\n\n\n\n## LLM测评\n\n\n\n### LLM效果评测\n\n\n- [C-Eval](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fceval)：全面的中文基础模型评估套件，涵盖了52个不同学科的13948个多项选择题，分为四个难度级别。\n- [CMMLU](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002FCMMLU)：一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外，CMMLU中的许多任务具有中国特定的答案，可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。\n- [LVEval](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002FLVEval)：一个具备5个长度等级（16k、32k、64k、128k和256k）、最大文本测试长度达到256k的长文本评测基准。LV-Eval的平均文本长度达到102,380字，最小\u002F最大文本长度为11,896\u002F387,406字。LV-Eval主要有两类评测任务——单跳QA和多跳QA，共包含11个涵盖中英文的评测数据子集。LV-Eval设计时引入3个关键技术：干扰事实插入（Confusiong Facts Insertion，CFI）提高挑战性，关键词和短语替换（Keyword and Phrase Replacement，KPR）减少信息泄漏，以及基于关键词召回的评测指标（Answer Keywords，AK，指代结合答案关键词和字词黑名单的评价指标）提高评测数值客观性。\n- [IFEval: Instruction Following Eval](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fgoogle-research\u002Ftree\u002Fmaster\u002Finstruction_following_eval)\u002F[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.07911)：专注评估大模型遵循指令的能力,包含关键词检测、标点控制、输出格式要求等25种任务。\n- [SuperCLUE](https:\u002F\u002Fgithub.com\u002FCLUEbenchmark\u002FSuperCLUE)：一个综合性大模型评测基准，本次评测主要聚焦于大模型的四个能力象限，包括语言理解与生成、专业技能与知识、Agent智能体和安全性，进而细化为12项基础能力。\n- [AGIEval](https:\u002F\u002Fgithub.com\u002Fruixiangcui\u002FAGIEval\u002F)：用于评估基础模型在与人类认知和解决问题相关的任务中的能力。该基准源自 20 项面向普通考生的官方、公开、高标准的入学和资格考试，例如：普通大学入学考试（例如：中国高考（Gaokao）和美国 SAT）、法学院入学考试、数学竞赛、律师资格考试、国家公务员考试。\n- [OpenCompass](https:\u002F\u002Fgithub.com\u002Fopen-compass\u002Fopencompass\u002Fblob\u002Fmain\u002FREADME_zh-CN.md)：司南 2.0 大模型评测体系。\n- [LongBench](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FLongBench)：一个双语（中英文）多任务基准数据集，旨在评估大语言模型的长上下文理解能力。它包含21个任务，涵盖单文档问答、多文档问答、摘要、小样本学习、合成任务和代码补全等。数据集平均任务长度范围为5k到15k，共包含4750个测试数据。LongBench 采用全自动评估方法，旨在以最低的成本衡量和评估模型理解长上下文的能力。\n- [EvalScope](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002Fevalscope)：魔搭社区官方推出的模型评测与性能基准测试框架，专为多样化的模型评估需求而设计。它支持广泛的模型类型，包括但不限于大语言模型、多模态模型、Embedding 模型、Reranker 模型和 CLIP 模型。EvalScope还适用于多种评测场景，如端到端RAG评测、竞技场模式和模型推理性能压测等，其内置多个常用测试基准和评测指标，如MMLU、CMMLU、C-Eval、GSM8K等。\n\n### LLM推理性能压测\n\n\n- [你真的搞懂了LLM性能压测的各项指标吗？](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1989359577871954448)\n- [AIPerf](https:\u002F\u002Fgithub.com\u002Fai-dynamo\u002Faiperf)：英伟达开源的性能测试工具\n- [GuideLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fguidellm)：vLLM开源的性能测试工具\n- [EvalScope](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002Fevalscope)：魔搭社区开源的性能测试工具\n- [Inference Perf](https:\u002F\u002Fgithub.com\u002Fkubernetes-sigs\u002Finference-perf)\n- [genai-bench](https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fgenai-bench)：SGLang开源的性能测试工具\n- [GenAI-Perf](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fperf_analyzer\u002Ftree\u002Fmain\u002Fgenai-perf)：英伟达开源的一个命令行工具（**已逐渐被淘汰，建议使用AIPerf**），用于测量通过推理服务提供生成式AI模型的吞吐量和延迟。GenAI-Perf 收集一组不同的指标来捕获推理服务的性能。\n\n| 指标 | 描述 | Aggregations |\n| - | - | - |\n| \u003Cspan id=\"time_to_first_token_metric\">Time to First Token\u003C\u002Fspan> | 请求发送到收到第一个响应之间的时间，基准测试中每个请求一个值 | 平均值、最小值、最大值、p99、p90、p75 |\n| \u003Cspan id=\"time_to_second_token_metric\">Time to Second Token\u003C\u002Fspan> | 收到第一个流式响应到收到第二个流式响应之间的时间，基准测试中每个请求一个值 | 平均值、最小值、最大值、p99、p90、p75 |\n| \u003Cspan id=\"inter_token_latency_metric\">Inter Token Latency\u003C\u002Fspan> | 单个请求的中间响应之间的时间除以后续响应生成的标记数，基准测试中每个请求的每个响应一个值 | 平均值、最小值、最大值、p99、p90、p75 |\n| Request Latency | 请求发送到收到最终响应之间的时间，基准测试中每个请求一个值 | 平均值、最小值、最大值、p99、p90、p75 |\n| Output Sequence Length | 一个请求的输出标记总数，基准测试中每个请求一个值 | 平均值、最小值、最大值、p99、p90、p75 |\n| Input Sequence Length | 一个请求的输入标记总数，基准测试中每个请求一个值 | 平均值、最小值、最大值、p99、p90、p75 |\n| \u003Cspan id=\"output_token_throughput_metric\">Output Token Throughput\u003C\u002Fspan> | 基准测试中的总输出标记数除以基准测试持续时间 | 无——每个基准测试一个值 |\n| \u003Cspan id=\"request_throughput_metric\">Request Throughput\u003C\u002Fspan> | 基准测试中的最终响应数量除以基准测试持续时间 | 无——每个基准测试一个值 |\n\n\n\n\n## LLM数据工程\n\nLLM Data Engineering\n\n\n### 预训练语料处理技术\n\n![llm-pretrain-pipeline](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fliguodongiot_llm-action_readme_ac35daef81b1.png)\n\n- 数据收集\n- 数据处理\n  - 去重\n  - 过滤\n  - 选择\n  - 组合\n\n### LLM微调高效数据筛选技术\n\n- [LLM微调高效数据筛选技术原理-DEITA]()\n- [LLM微调高效数据筛选技术原理-MoDS]()\n- [LLM微调高效数据筛选技术原理-IFD]()\n- [LLM微调高效数据筛选技术原理-CaR]()\n- [LESS：仅选择5%有影响力的数据优于全量数据集进行目标指令微调](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F686007325)\n- [LESS 实践：用少量的数据进行目标指令微调](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F686687923)\n\n\n\n## 提示工程\n\n- Zero-Shot Prompting\n- Few-Shot Prompting\n- Chain-of-Thought (CoT) Prompting\n- Automatic Chain-of-Thought (Auto-CoT) Prompting\n- Tree-of-Thoughts (ToT) Prompting\n\n\n\n## [LLM算法架构](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fdocs\u002Fllm-base\u002Fai-algo)\n\n![llm-famliy](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fliguodongiot_llm-action_readme_62ded6a9a467.jpg)\n\n\n- [大模型算法演进](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F600016134)\n\n![llm-famliy](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fliguodongiot_llm-action_readme_f8a0c15f3802.png)\n\n- [百川智能开源大模型baichuan-7B技术剖析](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F606757218\u002Fanswer\u002F3075464500)\n- [百川智能开源大模型baichuan-13B技术剖析](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F611507751\u002Fanswer\u002F3114988669)\n- [LLaMA3 技术剖析](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F653374932\u002Fanswer\u002F3470909634)\n- [大模型算法架构：DeepSeek技术演进及剖析](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1912877300439037789)\n- [大模型算法架构：QWen技术演进及剖析]()\n- ChatGLM \u002F ChatGLM2 \u002F ChatGLM3 大模型解析\n- Bloom 大模型解析\n- LLaMA \u002F LLaMA2 大模型解析\n- [DeepSeek 视觉语言大模型技术演进（从DeepSeek VL\u002FVL2到DeepSeek OCR）](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1976731060562842519)\n- Qwen3-Next\n\n\n\n\n## LLM应用开发\n\n大模型是基座，要想让其变成一款产品，我们还需要一些其他相关的技术，比如：向量数据库（Pinecone、Milvus、Vespa、Weaviate），LangChain等。\n\n- [云原生向量数据库Milvus（一）-简述、系统架构及应用场景](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F476025527)\n- [云原生向量数据库Milvus（二）-数据与索引的处理流程、索引类型及Schema](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F477231485)\n- [关于大模型驱动的AI智能体Agent的一些思考](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F651921120)\n\n\n### Agent应用\n\n\n\nAI Assistant:\n\n- [OpenClaw](https:\u002F\u002Fgithub.com\u002Fopenclaw\u002Fopenclaw)：一款个人 AI 助手\n\n\nCode Agent:\n\n- [OpenCode](https:\u002F\u002Fgithub.com\u002Fanomalyco\u002Fopencode)：一个开源代码智能体，[项目文档](https:\u002F\u002Fopencode.ai\u002Fdocs\u002Fzh-cn\u002F)\n\n\n\n\n## [LLM国产化适配](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fdocs\u002Fllm_localization)\n\n随着 ChatGPT 的现象级走红，引领了AI大模型时代的变革，从而导致 AI 算力日益紧缺。与此同时，中美贸易战以及美国对华进行AI芯片相关的制裁导致 AI 算力的国产化适配势在必行。本系列将对一些国产化 AI 加速卡进行讲解。\n\n- [大模型国产化适配1-华为昇腾AI全栈软硬件平台总结](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F637918406)\n- [大模型国产化适配2-基于昇腾910使用ChatGLM-6B进行模型推理](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F650730807)\n- [大模型国产化适配3-基于昇腾910使用ChatGLM-6B进行模型训练](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F651324599)\n  - MindRecord数据格式说明、全量微调、LoRA微调\n- [大模型国产化适配4-基于昇腾910使用LLaMA-13B进行多机多卡训练](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F655902796)\n- [大模型国产化适配5-百度飞浆PaddleNLP大语言模型工具链总结](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F665807431)\n- [大模型国产化适配6-基于昇腾910B快速验证ChatGLM3-6B\u002FBaiChuan2-7B模型推理](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F677799157)\n- [大模型国产化适配7-华为昇腾LLM落地可选解决方案（MindFormers、ModelLink、MindIE）](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F692377206)\n- [MindIE 1.0.RC1 发布，华为昇腾终于推出了针对LLM的完整部署方案，结束小米加步枪时代](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F654472145\u002Fanswer\u002F3482521709)\n- [大模型国产化适配8-基于昇腾MindIE推理工具部署Qwen-72B实战（推理引擎、推理服务化）](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7365879319598727180)\n  - Qwen-72B、Baichuan2-7B、ChatGLM3-6B\n- [大模型国产化适配9-LLM推理框架MindIE-Service性能基准测试](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F704649189)\n- [大模型国产化适配10-快速迁移大模型到昇腾910B保姆级教程（Pytorch版）](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7375351908896866323)\n- [大模型国产化适配11-LLM训练性能基准测试（昇腾910B3）](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7380995631790964772)\n- [国产知名AI芯片厂商产品大揭秘-昇腾、海光、天数智芯...](https:\u002F\u002Ff46522gm22.feishu.cn\u002Fdocx\u002FPfWfdMKo8oXYN6xi7uycuhgFnKg)\n- [国内AI芯片厂商的计算平台大揭秘-昇腾、海光、天数智芯...](https:\u002F\u002Ff46522gm22.feishu.cn\u002Fdocx\u002FXnhcdXVDholUBpxYoMccS11Mnfc)\n- [【LLM国产化】量化技术在MindIE推理框架中的应用](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7416723051377377316)\n\n\n\n\n**[⬆ 一键返回目录](#目录)**\n\n\n## [AI编译器](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fai-compiler)\n\nAI编译器是指将机器学习算法从开发阶段，通过变换和优化算法，使其变成部署状态。\n\n- [AI编译器技术剖析（一）-概述](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F669347560)\n- [AI编译器技术剖析（二）-传统编译器](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F671477784)\n- [AI编译器技术剖析（三）-树模型编译工具 Treelite 详解](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F676723324)\n- [AI编译器技术剖析（四）-编译器前端]()\n- [AI编译器技术剖析（五）-编译器后端]()\n- [AI编译器技术剖析（六）-主流编译框架]()\n- [AI编译器技术剖析（七）-深度学习模型编译优化]()\n- [lleaves：使用 LLVM 编译梯度提升决策树将预测速度提升10+倍](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F672584013)\n\n框架：\n\n- MLIR\n- XLA\n- TVM\n\n\n## AI基础设施\n\n- [AI 集群基础设施 NVMe SSD 详解](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F672098336)\n- [AI 集群基础设施 InfiniBand 详解](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F673903240)\n- [大模型训练基础设施：算力篇]()\n\n\n### AI加速卡\n\n- [AI芯片技术原理剖析（一）：国内外AI芯片概述](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F667686665)\n- AI芯片技术原理剖析（二）：英伟达GPU \n- AI芯片技术原理剖析（三）：谷歌TPU\n\n### AI集群\n\n待更新...\n\n\n### [AI集群网络通信](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fdocs\u002Fllm-base\u002Fnetwork-communication)\n\n待更新...\n\n- 分布式训练网络通讯原语\n- AI 集群通信软硬件\n\n\n## LLMOps\n\n- [在 Kubernetes 上部署机器学习模型的指南](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F676389726)\n- [使用 Kubernetes 部署机器学习模型的优势](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7320513026188099619)\n\n## 大模型生态相关技术\n\n- [大模型词表扩充必备工具SentencePiece](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F630696264)\n- [大模型实践总结](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F601594836\u002Fanswer\u002F3032763174)\n- [ChatGLM 和 ChatGPT 的技术区别在哪里？](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F604393963\u002Fanswer\u002F3061358152)\n- [现在为什么那么多人以清华大学的ChatGLM-6B为基座进行试验？](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F602504880\u002Fanswer\u002F3041965998)\n- [为什么很多新发布的大模型默认使用BF16而不是FP16？](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F616600181\u002Fanswer\u002F3195333332)\n- [大模型训练时ZeRO-2、ZeRO-3能否和Pipeline并行相结合？](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F652836990\u002Fanswer\u002F3468210626)\n- [一文详解模型权重存储新格式 Safetensors](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7386360803039838235)\n- [一文搞懂大模型文件存储格式新宠GGUF](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7408858126042726435)\n- [DeepGEMM 技术剖析](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7520475965081813055)\n\n\n## LLM性能分析\n\n\n- PyTorch Profiler\n- NVIDIA Nsight Systems \n- NVIDIA Nsight Compute\n\n\n## [LLM面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002FREADME.md)\n\n正在收集中...\n\n- [大模型基础常见面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fbase.md)\n- [大模型算法常见面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fllm-algo.md)\n- [大模型训练常见面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fllm-train.md)\n- [大模型微调常见面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fllm-ft.md)\n- [大模型评估常见面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fllm-eval.md)\n- [大模型压缩常见面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fllm-compress.md)\n- [大模型推理常见面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fllm-inference.md)\n- [大模型应用常见面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fllm-app.md)\n- [大模型综合性面试题](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm-interview\u002Fcomprehensive.md)\n\n\n\n\n**[⬆ 一键返回目录](#目录)**\n\n## 服务器基础环境安装及常用工具\n\n基础环境安装：\n\n- [英伟达A800加速卡常见软件包安装命令](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fdocs\u002Fllm-base\u002Fa800-env-install.md)\n- [英伟达H800加速卡常见软件包安装命令](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fdocs\u002Fllm-base\u002Fh800-env-install.md)\n- [昇腾910加速卡常见软件包安装命令](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fllm_localization\u002Fascend910-env-install.md)\n\n常用工具：\n\n- [Linux 常见命令大全](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F6992742028605915150)\n- [Conda 常用命令大全](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7089093437223338015)\n- [Poetry 常用命令大全](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F6999405667261874183)\n- [Docker 常用命令大全](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7016238524286861325)\n- [Docker Dockerfile 指令大全](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7016595442062327844)\n- [Kubernetes 常用命令大全](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7031201391553019911)\n- [集群环境 GPU 管理和监控工具 DCGM 常用命令大全](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fblob\u002Fmain\u002Fdocs\u002Fllm-base\u002Fdcgmi.md)\n\n## LLM学习交流群\n\n我创建了大模型相关的学习交流群，供大家一起学习交流大模型相关的最新技术，目前已有5个群，每个群都有上百人的规模，**可加我微信进群**（加微信请备注来意，如：进大模型学习交流群+GitHub，进大模型推理加速交流群+GitHub、进大模型应用开发交流群+GitHub、进大模型校招交流群+GitHub等）。**一定要备注哟，否则不予通过**。\n\nPS：**成都有个本地大模型交流群，想进可以另外单独备注下。**\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fliguodongiot_llm-action_readme_e4d0752be381.jpg\">\n\u003C\u002Fp>\n\n## 微信公众号\n\n微信公众号：**吃果冻不吐果冻皮**，该公众号主要分享AI工程化（大模型、MLOps等）相关实践经验，免费电子书籍、论文等。\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fliguodongiot_llm-action_readme_7ede356c2045.png\" >\n\u003C\u002Fp>\n\n**[⬆ 一键返回目录](#目录)**\n\n## Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fliguodongiot_llm-action_readme_9e1f99f78375.png)](https:\u002F\u002Fstar-history.com\u002F#liguodongiot\u002Fllm-action&Date)\n\n\n## AI工程化课程推荐\n\n如今人工智能的发展可谓是如火如荼，ChatGPT、Sora、文心一言等AI大模型如雨后春笋般纷纷涌现。AI大模型优势在于它能处理复杂性问题；因此，越来越多的企业需要具备**AI算法设计、AI应用开发、模型推理加速及模型压缩**等AI工程化落地的能力。这就导致行业内的工程师，需要快速提升自身的技术栈，以便于在行业内站稳脚跟。我在[llm-resource](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-resource) 和 [ai-system](https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fai-system)梳理了一些大模型和AI工程化相关资料。","# llm-action 快速上手指南\n\n`llm-action` 是一个专注于大语言模型（LLM）全链路技术的开源知识库与实战项目，涵盖从训练、微调、推理、压缩到评测的完整流程。本项目主要提供详细的教程文档、原理分析及配套代码示例，帮助开发者快速掌握 LLM 工程化落地技能。\n\n## 环境准备\n\n在开始之前，请确保你的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04\u002F22.04) 或 macOS。Windows 用户建议使用 WSL2。\n*   **Python 版本**: Python 3.8 - 3.10。\n*   **GPU 硬件**: \n    *   基础微调\u002F推理：建议显存 ≥ 16GB (如 RTX 3090\u002F4090)。\n    *   全量训练\u002F大模型预训练：需要多卡环境或高性能计算集群 (如 A100\u002FH800)。\n*   **前置依赖**:\n    *   CUDA Toolkit (版本需与 PyTorch 匹配，通常建议 11.7 或 12.1+)\n    *   Git\n    *   Conda 或 Miniconda (推荐用于环境管理)\n\n> **提示**：国内开发者推荐使用 [Lab4AI](https:\u002F\u002Fwww.lab4ai.cn\u002Fregister?agentID=user-PqCML6LJZO) 获取 GPU 算力支持，或使用国内镜像源加速依赖下载。\n\n## 安装步骤\n\n### 1. 克隆项目\n首先将仓库克隆到本地：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action.git\ncd llm-action\n```\n\n### 2. 创建虚拟环境\n使用 Conda 创建独立的 Python 环境：\n\n```bash\nconda create -n llm-action python=3.9\nconda activate llm-action\n```\n\n### 3. 安装核心依赖\n根据具体实践章节（如训练、推理或量化），项目提供了不同的代码目录。以通用的参数高效微调（PEFT）为例，安装基础深度学习框架：\n\n**使用国内镜像源加速安装：**\n\n```bash\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\npip install transformers datasets accelerate peft bitsandbytes -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n> **注意**：具体的代码示例位于 `llm-train\u002F` 等子目录下，部分示例可能包含独立的 `requirements.txt`，请进入对应目录后执行 `pip install -r requirements.txt`。\n\n## 基本使用\n\n`llm-action` 的核心价值在于其结构化的教程与对应的代码实现。以下是基于项目中 **LoRA 微调** 场景的最简使用流程。\n\n### 1. 定位代码示例\n进入 LoRA 微调相关的代码目录（以 ChatGLM-6B 为例）：\n\n```bash\ncd llm-train\u002Fchatglm-lora\n```\n\n### 2. 准备数据\n确保你拥有格式化的训练数据（通常为 JSONL 格式），例如 `data.json`：\n```json\n{\"instruction\": \"解释一下量子纠缠\", \"input\": \"\", \"output\": \"量子纠缠是...\"}\n```\n\n### 3. 运行微调脚本\n项目中的脚本通常基于 HuggingFace `transformers` 和 `peft` 库编写。以下是一个典型的启动命令示例（具体参数请参考对应目录下的 README 或脚本注释）：\n\n```bash\npython train_lora.py \\\n    --model_name_or_path THUDM\u002Fchatglm-6b \\\n    --data_path data.json \\\n    --output_dir .\u002Foutput\u002Fchatglm-lora \\\n    --num_train_epochs 3 \\\n    --per_device_train_batch_size 4 \\\n    --learning_rate 5e-4 \\\n    --lora_r 8 \\\n    --lora_alpha 32\n```\n\n### 4. 推理验证\n微调完成后，使用生成的权重进行推理：\n\n```python\nfrom transformers import AutoTokenizer, AutoModel\nfrom peft import PeftModel\n\n# 加载基座模型\ntokenizer = AutoTokenizer.from_pretrained(\"THUDM\u002Fchatglm-6b\", trust_remote_code=True)\nmodel = AutoModel.from_pretrained(\"THUDM\u002Fchatglm-6b\", trust_remote_code=True).half().cuda()\n\n# 加载 LoRA 权重\nmodel = PeftModel.from_pretrained(model, \".\u002Foutput\u002Fchatglm-lora\")\n\n# 生成回答\ninputs = tokenizer(\"量子纠缠是什么？\", return_tensors=\"pt\").to(model.device)\noutputs = model.generate(**inputs, max_length=100)\nprint(tokenizer.decode(outputs[0], skip_special_tokens=True))\n```\n\n### 更多资源\n*   **完整教程目录**：查看项目根目录的 `README.md` 获取从预训练、RLHF 到模型量化的详细文章链接。\n*   **实战案例**：参考 `llm-train\u002F` 下不同模型（Alpaca, Vicuna, LLaMA 等）的子目录获取特定模型的复现代码。\n*   **社区交流**：关注作者微信公众号“吃果冻不吐果冻皮”或加入 LLM 学习交流群获取最新动态。","某初创团队急需将通用大模型改造为懂法律条文、能处理案件咨询的垂直领域助手，但缺乏系统的工程化落地经验。\n\n### 没有 llm-action 时\n- **技术选型迷茫**：面对 LoRA、P-Tuning 等多种微调技术及 vLLM、TGI 等推理框架，团队难以判断哪种组合最适合法律场景，反复试错消耗大量算力资源。\n- **数据准备低效**：缺乏专业的数据筛选与清洗指南，导致微调数据中混入大量噪声，模型训练后出现“胡言乱语”或幻觉严重的问题。\n- **部署性能瓶颈**：不懂量化剪枝与分布式并行策略，模型上线后显存占用过高，并发请求下响应延迟高达数秒，无法满足实时咨询需求。\n- **评估标准缺失**：仅凭主观感觉判断模型好坏，缺乏科学的评测基准和压测方法，无法量化模型在法律问答上的准确率提升幅度。\n\n### 使用 llm-action 后\n- **路径清晰明确**：参考项目中\"LLM 参数高效微调实战”与“推理优化技术”章节，团队迅速锁定 QLoRA 微调搭配 vLLM 部署的最佳实践，缩短调研周期 80%。\n- **数据质量飞跃**：依据\"LLM 微调高效数据筛选技术”指导，构建了高质量法律指令数据集，显著降低模型幻觉，使法条引用准确率大幅提升。\n- **推理极速响应**：应用\"LLM 量化”与“分布式训练并行技术”方案，成功将模型显存占用降低 60%，并发吞吐量提升 3 倍，实现毫秒级回复。\n- **效果可量化**：利用\"LLM 效果评测”与“推理性能压测”模块建立标准化测试集，用数据证明模型在专业任务上超越基线 40%，顺利交付客户。\n\nllm-action 通过提供从数据处理、模型微调到推理部署的全链路实战指南，帮助团队将大模型落地周期从数月缩短至数周，真正实现了技术原理到生产力的转化。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fliguodongiot_llm-action_774d188c.png","liguodongiot","Jelly Lee","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fliguodongiot_05ceedb1.png","LLM\u002FLLMOps，博客：吃果冻不吐果冻皮\r\n",null,"Chengdu, China","liguodongiot@foxmail.com","https:\u002F\u002Fliguodong.blog.csdn.net","https:\u002F\u002Fgithub.com\u002Fliguodongiot",[82,86,90,94,98],{"name":83,"color":84,"percentage":85},"HTML","#e34c26",49.5,{"name":87,"color":88,"percentage":89},"Python","#3572A5",27,{"name":91,"color":92,"percentage":93},"Jupyter Notebook","#DA5B0B",19.6,{"name":95,"color":96,"percentage":97},"Shell","#89e051",3.8,{"name":99,"color":100,"percentage":101},"Dockerfile","#384d54",0.1,23883,2749,"2026-04-06T12:32:39","Apache-2.0","未说明","需要 NVIDIA GPU。根据文中案例，全量微调或大模型推理需高显存（如 65B 模型）；使用 QLoRA 技术微调 LLaMA-65B 仅需 48GB 显存；使用 GaLore 技术预训练 LLaMA-7B 可在单张 RTX 4090（24GB 显存）上运行。CUDA 版本未说明。",{"notes":109,"python":106,"dependencies":110},"该项目主要是一个大模型（LLM）学习、训练、推理及优化的教程与代码合集，而非单一的可安装软件包。内容涵盖从 6B 到 65B 参数模型的实战，支持全量微调、高效微调（LoRA, QLoRA, P-Tuning v2 等）及 RLHF。具体环境依赖需参考各个子项目（如 alpaca-lora, chatglm, qlora 等）的独立代码库。文中特别提到了基于 Lab4AI 平台的 GPU 算力实践案例。",[111,112,113,114,115,116,117,118],"DeepSpeed","HuggingFace PEFT","LoRA","QLoRA","P-Tuning v2","GPTQ","RLHF (DeepSpeed Chat)","GaLore",[14,35],[121,122,123,124,125],"llm","llm-inference","llm-serving","llm-training","llmops","2026-03-27T02:49:30.150509","2026-04-07T08:19:23.678233",[129,134,139,144,149,154],{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},21413,"LLM 微调实战中的代码链接显示文件不存在（404），代码在哪里？","代码已移动至 `llm-train` 目录下。例如，微调相关代码位于：https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Ftree\u002Fmain\u002Fllm-train\u002Fpeft\u002Fclm。如果遇到具体文件如 `blip2_lora_int8_fine_tune.py` 或 `peft_prompt_tuning_clm.ipynb` 找不到，请检查是否在 `llm-train` 子文件夹中。","https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fissues\u002F25",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},21414,"没有 8 卡 H800\u002FA100 等高端显卡配置，如何学习本课程？","不需要高端集群，使用单张消费级显卡即可练习大部分教程。推荐使用一张 RTX 3090 或 RTX 4090，足以运行微调系列和大模型推理等核心内容。","https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fissues\u002F17",{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},21415,"项目中的数据集（如 peft\u002Fdata 和 raft.py 涉及的数据）去哪里下载？","这些数据集可以在 Hugging Face Datasets 中找到。例如 RAFT 数据集地址为：https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fought\u002Fraft\u002Ftree\u002Fmain，页面内包含具体的下载代码和数据说明。","https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fissues\u002F21",{"id":145,"question_zh":146,"answer_zh":147,"source_url":148},21416,"本地加载预训练模型进行 LoRA 微调时，非 target_modules 层的权重会自动冻结吗？推理时如何加载权重？","是的，调用 `model.train()` 后，非 target_modules 的其他层权重会自动冻结。推理时若不合并权重，可参考以下代码加载：\n```\nmodel = LlamaForCausalLM.from_pretrained(\n    base_model,\n    load_in_8bit=load_8bit,\n    torch_dtype=torch.float16,\n    device_map=\"auto\",\n)\nmodel = PeftModel.from_pretrained(\n    model,\n    lora_weights,\n    torch_dtype=torch.float16,\n)\n```","https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fissues\u002F22",{"id":150,"question_zh":151,"answer_zh":152,"source_url":153},21417,"使用 LoRA 微调 ChatGLM 时，data_collector 函数中为什么没有处理 attention_mask？","ChatGLM 模型内部会对 Input 进行检查并自动添加 attention_mask 和 position_id，因此在传给 trainer 时无需手动传递这些参数。","https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fissues\u002F8",{"id":155,"question_zh":156,"answer_zh":157,"source_url":158},21418,"如何申请将本项目内容转载到第三方教育平台？","作者欢迎优质内容的传播。申请方需在 Issue 下说明平台性质、合作形式及版权声明承诺（如标注原作者署名及仓库来源）。作者确认后，需将转载的原文和对应文章链接回复在该 Issue 下方备案。","https:\u002F\u002Fgithub.com\u002Fliguodongiot\u002Fllm-action\u002Fissues\u002F38",[]]