[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-skygazer42--DL-Hub":3,"tool-skygazer42--DL-Hub":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":76,"owner_url":79,"languages":80,"stars":99,"forks":100,"last_commit_at":101,"license":76,"difficulty_score":23,"env_os":102,"env_gpu":103,"env_ram":104,"env_deps":105,"category_tags":111,"github_topics":112,"view_count":23,"oss_zip_url":76,"oss_zip_packed_at":76,"status":16,"created_at":121,"updated_at":122,"faqs":123,"releases":124},2619,"skygazer42\u002FDL-Hub","DL-Hub","llms 大模型 笔记50篇 此仓库包含关于机器学习、深度学习、计算机视觉、自然语言处理、大模型 爬虫等领域 项目实战","DL-Hub 是一个基于 PyTorch 的深度学习统一学习项目，旨在通过“从零手写”的方式，帮助用户循序渐进地掌握机器学习与大模型技术。它解决了传统教程中代码风格杂乱、环境配置困难以及理论难以落地等痛点，提供了一套风格统一、可复现的训练脚手架，让学习者不仅能跑通代码，更能真正理解并修改模型。\n\n该项目非常适合希望系统提升实战能力的开发者、人工智能领域的研究人员以及高校学生。无论是初学者还是进阶专家，都能在这里找到适合的学习路径。DL-Hub 涵盖了视觉、自然语言处理、图神经网络、3D 点云、生成模型、多模态、大语言模型及联邦学习等八大核心领域，内置了超过 2500 种模型架构和 76 节精选课程。\n\n其独特的技术亮点在于极致的易用性与全面性：所有课程均支持“离线冒烟测试”，无需下载庞大数据集即可在 2 分钟内验证环境并跑通流程；同时提供了从 NumPy 基础算法手写到大模型论文笔记的全栈资源。通过标准化的代码结构与详细的文档，DL-Hub 让深度学习的学习过程变得清晰、高效且充满乐趣。","\u003Cdiv align=\"center\">\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fskygazer42_DL-Hub_readme_5f6c8fd1c109.png\" width=\"100%\" alt=\"DL-Hub — Deep Learning from Scratch\" \u002F>\n\n# DL-Hub\n\n**从零手写，循序渐进 — PyTorch 深度学习统一学习项目**\n\n\u003Cbr\u002F>\n\n[![Python](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPython-3.10+-3776AB?style=for-the-badge&logo=python&logoColor=white)](https:\u002F\u002Fpython.org)\n[![PyTorch](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPyTorch-2.0+-EE4C2C?style=for-the-badge&logo=pytorch&logoColor=white)](https:\u002F\u002Fpytorch.org)\n[![NumPy](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FNumPy-1.24+-013243?style=for-the-badge&logo=numpy&logoColor=white)](https:\u002F\u002Fnumpy.org)\n[![License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-green?style=for-the-badge)](LICENSE)\n\n\u003Cbr\u002F>\n\n\u003Ccode>76 Lessons\u003C\u002Fcode> · \u003Ccode>8 Learning Tracks\u003C\u002Fcode> · \u003Ccode>27 ML Algorithms\u003C\u002Fcode> · \u003Ccode>2500+ Model Zoo Architectures\u003C\u002Fcode> · \u003Ccode>126 Test Files\u003C\u002Fcode>\n\n\u003Cbr\u002F>\n\n统一代码风格、统一训练脚手架、统一运行方式\u003Cbr\u002F>\n让学习者真正能 **\"循序渐进跑通 → 改得动 → 能验收\"**\n\n[Quick Start](#-quick-start) · [Learning Tracks](#-learning-tracks) · [Model Zoo](#-model-zoo) · [Federated Zoo](#-federated-learning-zoo) · [ML Algorithms](#-numpy-ml-algorithms) · [Docs](#-documentation)\n\n\u003C\u002Fdiv>\n\n---\n\n## What You'll Build\n\n\u003Ctable>\n\u003Ctr>\n\u003Ctd align=\"center\" width=\"25%\">\n\u003Cbr\u002F>\n\u003Cb>Vision\u003C\u002Fb>\u003Cbr\u002F>\n\u003Csub>从 LeNet 到 ViT，\u003Cbr\u002F>736 架构 · 图像分类 \u002F 检测 \u002F 分割\u003C\u002Fsub>\n\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"25%\">\n\u003Cbr\u002F>\n\u003Cb>NLP\u003C\u002Fb>\u003Cbr\u002F>\n\u003Csub>从词嵌入到 Transformer，\u003Cbr\u002F>813 架构 · 分类 \u002F NER \u002F 阅读理解\u003C\u002Fsub>\n\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"25%\">\n\u003Cbr\u002F>\n\u003Cb>GNN\u003C\u002Fb>\u003Cbr\u002F>\n\u003Csub>从 GCN 到 PinSAGE，\u003Cbr\u002F>图分类 \u002F 节点嵌入 \u002F 推荐\u003C\u002Fsub>\n\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"25%\">\n\u003Cbr\u002F>\n\u003Cb>Point Cloud\u003C\u002Fb>\u003Cbr\u002F>\n\u003Csub>从 PointNet 到 PCT，\u003Cbr\u002F>64 架构 · 分类 \u002F 部件分割 \u002F 重建 \u002F 15 种自监督\u003C\u002Fsub>\n\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" width=\"25%\">\n\u003Cbr\u002F>\n\u003Cb>Generative\u003C\u002Fb>\u003Cbr\u002F>\n\u003Csub>VAE & GAN，\u003Cbr\u002F>手写数字重建与生成\u003C\u002Fsub>\n\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"25%\">\n\u003Cbr\u002F>\n\u003Cb>Multimodal\u003C\u002Fb>\u003Cbr\u002F>\n\u003Csub>从 CLIP 到 LLaVA，20 VLM 架构\u003Cbr\u002F>视觉问答 \u002F 目标检测 \u002F 时序定位\u003C\u002Fsub>\n\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"25%\">\n\u003Cbr\u002F>\n\u003Cb>LLM\u003C\u002Fb>\u003Cbr\u002F>\n\u003Csub>Causal LM + 资源库，\u003Cbr\u002F>50+ 论文笔记\u003C\u002Fsub>\n\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"25%\">\n\u003Cbr\u002F>\n\u003Cb>Federated\u003C\u002Fb>\u003Cbr\u002F>\n\u003Csub>36 联邦策略\u003Cbr\u002F>差分隐私 \u002F 安全聚合 \u002F 个性化\u003C\u002Fsub>\n\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fskygazer42_DL-Hub_readme_19c48d500642.png\" width=\"80%\" alt=\"DL-Hub 八大领域：Vision · NLP · GNN · Point Cloud · Generative · Multimodal · LLM · Federated\" \u002F>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\u003Csub>① Vision — CNN \u002F ViT 图像分类 · ② NLP — 文本分类 \u002F NER · ③ GNN — 图神经网络 · ④ Point Cloud — 3D 点云 · ⑤ Generative — VAE \u002F GAN · ⑥ Multimodal — VLM 视觉语言 · ⑦ LLM — 大语言模型 · ⑧ Federated — 联邦学习\u003C\u002Fsub>\u003C\u002Fp>\n\n---\n\n## Contents\n\n- [What You'll Build](#what-youll-build)\n- [Quick Start](#-quick-start)\n- [Prerequisites](#-prerequisites)\n- [Learning Path](#-learning-path)\n- [Learning Tracks](#-learning-tracks)\n  - [Foundations](#-foundations--基础) · [Vision](#-vision--视觉) · [NLP](#-nlp--自然语言处理) · [GNN](#-gnn--图神经网络) · [Point Cloud](#-point-cloud--点云) · [Generative](#-generative--生成模型) · [LLM](#-llm--大语言模型) · [Multimodal](#-multimodal--多模态)\n- [Model Zoo](#-model-zoo)\n  - [Vision Zoo (736 architectures)](#vision-zoo--736-architectures) · [NLP Zoo (813 architectures)](#nlp-zoo--813-architectures) · [Point Cloud Zoo (64 architectures)](#point-cloud-zoo--64-architectures) · [VLM Zoo (20 families)](#vlm-zoo--20-families) · [Generative Zoo (GAN + Diffusion)](#generative-zoo--gan--diffusion)\n- [Federated Learning Zoo](#-federated-learning-zoo)\n- [NumPy ML Algorithms](#-numpy-ml-algorithms)\n- [Optimization Toolkit](#-optimization-toolkit)\n- [Documentation](#-documentation)\n- [Design Philosophy](#-design-philosophy)\n- [Contributing](#-contributing)\n- [Citation](#-citation)\n\n---\n\n## Quick Start\n\n> [!TIP]\n> 所有 lesson 均支持 `--dataset fake` 离线冒烟 — **无需下载任何数据集，2 分钟即可跑通**。\n\n```bash\n# 克隆仓库\ngit clone https:\u002F\u002Fgithub.com\u002Fskygazer42\u002FDL-Hub.git\ncd DL-Hub\npip install -r requirements.txt\n\n# 仓库级冒烟测试（验证环境）\npython scripts\u002Fsmoke_check.py\n\n# 跑通第一个 lesson\npython -m tracks.vision.lesson_01_mnist_lenet.train \\\n  --dataset fake --epochs 1 \\\n  --max-train-batches 2 --max-eval-batches 2\n```\n\n**列出所有可运行的 lesson**：\n\n```bash\npython scripts\u002Frun_lesson.py --list\n```\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>统一 CLI 参数（所有 lesson 通用）\u003C\u002Fb>\u003C\u002Fsummary>\n\n| 参数 | 说明 | 示例 |\n|------|------|------|\n| `--dataset` | 数据模式 | `fake` (离线冒烟) \u002F `toy` \u002F `real` |\n| `--epochs` | 训练轮数 | `10` |\n| `--batch-size` | 批大小 | `32` |\n| `--learning-rate` | 学习率 | `0.001` |\n| `--seed` | 随机种子 | `42` |\n| `--device` | 计算设备 | `cpu` \u002F `cuda` \u002F `mps` \u002F `auto` |\n| `--max-train-batches` | 限制训练 batch 数 | `2` |\n| `--max-eval-batches` | 限制评估 batch 数 | `2` |\n\n\u003C\u002Fdetails>\n\n---\n\n## Prerequisites\n\n> [!NOTE]\n> 本项目适合有一定 Python 基础的学习者。以下是各 track 的先修建议。\n\n| Track | 先修知识 |\n|-------|---------|\n| Foundations | Python 基础、线性代数入门 |\n| Vision | Foundations track + 卷积直觉 |\n| NLP | Foundations track + 文本处理基础 |\n| GNN | Foundations track + 图论基本概念 |\n| Point Cloud | Vision track + 3D 几何直觉 |\n| Generative | Vision track + 概率论基础 |\n| LLM | NLP track + Transformer 机制 |\n| Multimodal | Vision track + NLP track + 注意力机制 |\n\n---\n\n## Learning Path\n\n不知道从哪开始？根据你的时间选择一条学习路线：\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fskygazer42_DL-Hub_readme_c51734ac5820.png\" width=\"85%\" alt=\"8 Learning Tracks: Foundations → Vision → NLP → GNN → Point Cloud → Generative → LLM → Multimodal\" \u002F>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\u003Csub>Step 1–8 对应：Foundations → Vision → NLP → GNN → Point Cloud → Generative → LLM → Multimodal\u003C\u002Fsub>\u003C\u002Fp>\n\n\u003Ctable>\n\u003Ctr>\n\u003Cth width=\"20%\">路线\u003C\u002Fth>\n\u003Cth width=\"15%\">时间\u003C\u002Fth>\n\u003Cth width=\"15%\">Lessons\u003C\u002Fth>\n\u003Cth width=\"50%\">内容\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>\u003Cb>Weekend Sprint\u003C\u002Fb>\u003C\u002Ftd>\n\u003Ctd>1-2 天\u003C\u002Ftd>\n\u003Ctd>6 lessons\u003C\u002Ftd>\n\u003Ctd>Foundations (2) → Vision lesson 01-02 → Generative lesson 01 → LLM lesson 01\u003Cbr\u002F>\u003Csub>快速建立从张量到生成模型的完整直觉\u003C\u002Fsub>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>\u003Cb>Two-Week Deep Dive\u003C\u002Fb>\u003C\u002Ftd>\n\u003Ctd>2 周\u003C\u002Ftd>\n\u003Ctd>18 lessons\u003C\u002Ftd>\n\u003Ctd>Foundations (2) → Vision (5) → NLP (4) → GNN (3) → Generative (2) → LLM (1) → Point Cloud (1)\u003Cbr\u002F>\u003Csub>覆盖所有 track 的核心 lesson\u003C\u002Fsub>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>\u003Cb>Full Curriculum\u003C\u002Fb>\u003C\u002Ftd>\n\u003Ctd>6-8 周\u003C\u002Ftd>\n\u003Ctd>76 lessons\u003C\u002Ftd>\n\u003Ctd>按顺序完成全部 8 个 track 的所有 lesson\u003Cbr\u002F>\u003Csub>系统掌握从经典 ML 到前沿深度学习的完整技能树\u003C\u002Fsub>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n> [!TIP]\n> 推荐顺序：**Foundations → Vision → NLP → GNN → Point Cloud → Generative → LLM → Multimodal**。每个 lesson 都有独立的 README 说明目标、先修和验收标准。\n\n---\n\n## 课程及代码合集\n\n\u003Ctable>\n\u003Ctr>\n\u003Ctd align=\"center\" width=\"12%\">\u003Cb>Foundations\u003C\u002Fb>\u003Cbr\u002F>\u003Csub>2 lessons\u003C\u002Fsub>\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"12%\">\u003Cb>Vision\u003C\u002Fb>\u003Cbr\u002F>\u003Csub>14 lessons\u003C\u002Fsub>\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"12%\">\u003Cb>NLP\u003C\u002Fb>\u003Cbr\u002F>\u003Csub>7 lessons\u003C\u002Fsub>\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"12%\">\u003Cb>GNN\u003C\u002Fb>\u003Cbr\u002F>\u003Csub>11 lessons\u003C\u002Fsub>\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"12%\">\u003Cb>Point Cloud\u003C\u002Fb>\u003Cbr\u002F>\u003Csub>23 lessons\u003C\u002Fsub>\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"12%\">\u003Cb>Generative\u003C\u002Fb>\u003Cbr\u002F>\u003Csub>2 lessons\u003C\u002Fsub>\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"12%\">\u003Cb>LLM\u003C\u002Fb>\u003Cbr\u002F>\u003Csub>1 lesson\u003C\u002Fsub>\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"12%\">\u003Cb>Multimodal\u003C\u002Fb>\u003Cbr\u002F>\u003Csub>16 lessons\u003C\u002Fsub>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n---\n\n### ⚡ 1. Foundations \u002F 基础\n\n> 张量、自动求导、训练循环入门 — 所有后续 track 的基石。\n\n| 序号 | 项目 | 代码文档 | 核心概念 |\n|------|------|----------|----------|\n| 1 | 张量操作 & Autograd 机制 | [lesson_01_tensors](tracks\u002Ffoundations\u002Flesson_01_tensors\u002F) | `torch.Tensor`, `backward()`, 计算图 |\n| 2 | 从零实现线性回归 | [lesson_02_linear_regression](tracks\u002Ffoundations\u002Flesson_02_linear_regression_autograd\u002F) | 梯度下降, 损失函数, 参数更新 |\n\n---\n\n### 👁️ 2. Vision \u002F 视觉\n\n> 从 MNIST 入门到目标检测、语义分割、Vision Transformer。\n\n| 序号 | 项目 | 代码文档 | 核心概念 |\n|------|------|----------|----------|\n| 1 | LeNet-5 图像分类 | [mnist_lenet](tracks\u002Fvision\u002Flesson_01_mnist_lenet\u002F) | 卷积层, 池化, 全连接 |\n| 2 | MLP 图像分类 | [mnist_mlp](tracks\u002Fvision\u002Flesson_02_mnist_mlp\u002F) | 多层感知机, Flatten |\n| 3 | AlexNet 图像分类 | [mnist_alexnet](tracks\u002Fvision\u002Flesson_03_mnist_alexnet\u002F) | 深层卷积网络, Dropout |\n| 4 | FCOS 目标检测 | [synthetic_detection_fcos](tracks\u002Fvision\u002Flesson_04_synthetic_detection_fcos\u002F) | Anchor-free, FPN, 回归头 |\n| 5 | ViT 图像分类 | [vit_toy_classification](tracks\u002Fvision\u002Flesson_05_vit_toy_classification\u002F) | Patch Embedding, Self-Attention |\n| 6 | Swin Transformer 图像分类 | [swin_toy_classification](tracks\u002Fvision\u002Flesson_06_swin_toy_classification\u002F) | Window Attention, Shifted Window |\n| 7 | 关键点回归 | [toy_keypoint_regression](tracks\u002Fvision\u002Flesson_07_toy_keypoint_regression\u002F) | 坐标回归, Heatmap |\n| 8 | UNet 语义分割 | [synthetic_segmentation_unet](tracks\u002Fvision\u002Flesson_08_synthetic_segmentation_unet\u002F) | Encoder-Decoder, Skip Connection |\n| 9 | 多 Backbone 对比 | [cnn_backbones_toy_classification](tracks\u002Fvision\u002Flesson_09_cnn_backbones_toy_classification\u002F) | 统一接口, 特征提取 |\n| 10 | 图像去噪（多模型） | [synthetic_denoising](tracks\u002Fvision\u002Flesson_10_synthetic_denoising\u002F) | 合成噪声建模, 去噪回归 |\n| 11 | YOLACT 实例分割 | [synthetic_instance_segmentation_yolact](tracks\u002Fvision\u002Flesson_11_synthetic_instance_segmentation_yolact\u002F) | Prototype + Coefficients |\n| 12 | YOLO 风格目标检测 | [synthetic_detection_yolo](tracks\u002Fvision\u002Flesson_12_synthetic_detection_yolo\u002F) | Grid\u002FObjectness + BBox |\n| 13 | 行人检测（FCOS） | [synthetic_pedestrian_detection_fcos](tracks\u002Fvision\u002Flesson_13_synthetic_pedestrian_detection_fcos\u002F) | Anchor-free 检测头 |\n| 14 | 视频多目标跟踪（MOT） | [video_mot_basics](tracks\u002Fvision\u002Flesson_14_video_mot_basics\u002F) | 多目标轨迹预测, Presence + IoU |\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>支持的 Vision Backbones（208 算法族 \u002F 736 架构 ID）\u003C\u002Fb>\u003C\u002Fsummary>\n\n| 类别 | 代表架构 |\n|------|---------|\n| 经典 CNN | AlexNet, VGG, GoogLeNet, ResNet, DenseNet, SqueezeNet |\n| 高效网络 | MobileNet v1-v4, EfficientNet, GhostNet v1\u002Fv2, ShuffleNet, MNASNet, FBNet, MicroNet |\n| 注意力 CNN | SENet, CBAM, BAM, ECA-Net, SK-Net, CoordAtt, SimAM, Triplet Attention |\n| 现代 CNN | ConvNeXt v1\u002Fv2, RepVGG, RepLKNet, InceptionNeXt, HorNet, FocalNet, SLaK |\n| Vision Transformer | ViT, DeiT, DeiT3, BEiT, EVA, CaiT, CrossViT, Swin v2, CSwin, MAE-ViT |\n| 高效 Transformer | EfficientViT, TinyViT, EdgeViT, LightViT, FastViT, FasterViT, SwiftFormer |\n| MLP 系列 | MLP-Mixer, gMLP, ResMLP, FNet, CycleMLP, AS-MLP, WaveMLP, MorphMLP |\n| Hybrid | CoAtNet, MobileFormer, ConvFormer, Uniformer, CMT, MaxViT, MobileViT v1-v3 |\n| 特殊结构 | CapsNet, ScatterNet, FractalNet, HighwayNet, HRNet, NAS 系列 |\n\n> 完整列表见 `python -m dlhub.vision.backbones.catalog --list`，所有 backbone 均为纯 PyTorch 本地实现。\n\n\u003C\u002Fdetails>\n\n---\n\n### 📝 3. NLP \u002F 自然语言处理\n\n> 从 toy 文本分类到 Transformer、NER、阅读理解。\n\n| 序号 | 项目 | 代码文档 | 核心概念 |\n|------|------|----------|----------|\n| 1 | Embedding + FC 文本分类 | [toy_text_classification](tracks\u002Fnlp\u002Flesson_01_toy_text_classification\u002F) | 词嵌入, 词袋 |\n| 2 | Transformer Encoder 文本分类 | [toy_text_classification_transformer](tracks\u002Fnlp\u002Flesson_02_toy_text_classification_transformer\u002F) | Self-Attention, 位置编码 |\n| 3 | BiLSTM 命名实体识别 | [toy_ner_bilstm](tracks\u002Fnlp\u002Flesson_03_toy_ner_bilstm\u002F) | 序列标注, BIO 标签 |\n| 4 | Seq2Seq + Attention 序列生成 | [toy_seq2seq_attention_generation](tracks\u002Fnlp\u002Flesson_04_toy_seq2seq_attention_generation\u002F) | Encoder-Decoder, Bahdanau Attention |\n| 5 | TextCNN 文本分类 | [toy_text_classification_textcnn](tracks\u002Fnlp\u002Flesson_05_toy_text_classification_textcnn\u002F) | 多尺度卷积核, 文本特征 |\n| 6 | BiLSTM 文本分类 | [toy_text_classification_bilstm](tracks\u002Fnlp\u002Flesson_06_toy_text_classification_bilstm\u002F) | 双向 LSTM, 隐藏状态 |\n| 7 | Span Prediction 阅读理解 | [reading_comprehension](tracks\u002Fnlp\u002Flesson_07_reading_comprehension\u002F) | SQuAD 风格, Start\u002FEnd Logits |\n\n---\n\n### 🕸️ 4. GNN \u002F 图神经网络\n\n> 最丰富的 track — 从 toy 图分类到 Cora 节点分类、图嵌入、异构图推荐。\n\n**Graph Classification**\n\n| 序号 | 项目 | 代码文档 | 核心概念 |\n|------|------|----------|----------|\n| 1 | GCN 图分类 | [toy_graph_classification](tracks\u002Fgnn\u002Flesson_01_toy_graph_classification\u002F) | 邻接矩阵, 消息传递 |\n| 2 | GIN 图分类 | [gin_toy_graph_classification](tracks\u002Fgnn\u002Flesson_02_gin_toy_graph_classification\u002F) | WL Test, 图同构 |\n| 3 | GAT 图分类 | [gat_toy_graph_classification](tracks\u002Fgnn\u002Flesson_03_gat_toy_graph_classification\u002F) | 注意力系数, 多头注意力 |\n\n**Node Classification**\n\n| 序号 | 项目 | 代码文档 | 核心概念 |\n|------|------|----------|----------|\n| 4 | GCN Cora 节点分类 | [cora_node_classification_gcn](tracks\u002Fgnn\u002Flesson_04_cora_node_classification_gcn\u002F) | 半监督学习, 谱方法 |\n| 5 | Label Propagation Cora | [label_propagation_cora](tracks\u002Fgnn\u002Flesson_05_label_propagation_cora\u002F) | 经典基线, 无参数方法 |\n| 6 | GraphSAGE Cora | [graphsage_cora](tracks\u002Fgnn\u002Flesson_06_graphsage_cora\u002F) | 采样聚合, 归纳学习 |\n\n**Embedding & Advanced**\n\n| 序号 | 项目 | 代码文档 | 核心概念 |\n|------|------|----------|----------|\n| 7 | SDNE 节点嵌入 | [sdne_karate_embedding](tracks\u002Fgnn\u002Flesson_07_sdne_karate_embedding\u002F) | 自编码器, 一阶\u002F二阶近似 |\n| 8 | LINE 节点嵌入 | [line_karate_embedding](tracks\u002Fgnn\u002Flesson_08_line_karate_embedding\u002F) | 大规模网络, 边采样 |\n| 9 | Metapath2Vec 异构图嵌入 | [metapath2vec_toy_hetero_embedding](tracks\u002Fgnn\u002Flesson_09_metapath2vec_toy_hetero_embedding\u002F) | 元路径, 异构随机游走 |\n| 10 | PinSAGE 推荐 | [pinsage_toy_recommender](tracks\u002Fgnn\u002Flesson_10_pinsage_toy_recommender\u002F) | 随机游走采样, 工业级图推荐 |\n| 11 | R-GCN 关系图节点分类 | [rgcn_toy_node_classification](tracks\u002Fgnn\u002Flesson_11_rgcn_toy_node_classification\u002F) | 关系特定权重, 知识图谱 |\n\n---\n\n### ☁️ 5. Point Cloud \u002F 点云\n\n> 3D 点云分类：PointNet → DGCNN → PointNet++ → 30+ Backbone Zoo。\n\n| 序号 | 项目 | 代码文档 | 核心概念 |\n|------|------|----------|----------|\n| 1 | PointNet 点云分类 | [pointnet_toy_classification](tracks\u002Fpointcloud\u002Flesson_01_pointnet_toy_classification\u002F) | 点集排列不变性, T-Net |\n| 2 | DGCNN 点云分类 | [dgcnn_toy_classification](tracks\u002Fpointcloud\u002Flesson_02_dgcnn_toy_classification\u002F) | 动态图, EdgeConv |\n| 3 | PointNet++ 点云分类 | [pointnet2_toy_classification](tracks\u002Fpointcloud\u002Flesson_03_pointnet2_toy_classification\u002F) | 层级采样, Set Abstraction |\n| 4 | 30+ Backbone Zoo 对比 | [pointcloud_zoo_toy_classification](tracks\u002Fpointcloud\u002Flesson_04_pointcloud_zoo_toy_classification\u002F) | 统一接口, Backbone 对比 |\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>支持的 Point Cloud Backbones（30 算法 \u002F 64 架构 ID）\u003C\u002Fb>\u003C\u002Fsummary>\n\n| 类别 | 架构 |\n|------|------|\n| Set Models | PointNet, PointNet++, DeepSets |\n| Graph Models | DGCNN, PointGAT, PointGCN, PointWeb |\n| MLP Models | PointMLP, PointMixer, PointNeXt |\n| Transformer | PCT, Point Transformer, PointBERT, PointMAE |\n| Conv Models | KPConv, PointCNN, PointConv, ShellNet |\n| Extra | CurveNet, GDANet, PAConv, PVCNN, RandLANet, RSCNN, SpiderCNN 等 |\n\n\u003C\u002Fdetails>\n\n---\n\n### 🎨 6. Generative \u002F 生成模型\n\n> VAE & GAN 最小实现 — 支持 `--dataset fake` 离线冒烟。\n\n| 序号 | 项目 | 代码文档 | 核心概念 |\n|------|------|----------|----------|\n| 1 | VAE 重建 & 生成 | [vae_mnist](tracks\u002Fgenerative\u002Flesson_01_vae_mnist\u002F) | 重参数化技巧, KL 散度, ELBO |\n| 2 | GAN 生成 | [gan_mnist](tracks\u002Fgenerative\u002Flesson_02_gan_mnist\u002F) | 生成器\u002F判别器对抗, 纳什均衡 |\n\n---\n\n### 🤖 7. LLM \u002F 大语言模型\n\n> Toy Causal Language Model — 从零搭建 Transformer 生成模型。\n\n| 序号 | 项目 | 代码文档 | 核心概念 |\n|------|------|----------|----------|\n| 1 | Transformer 文本生成 | [toy_causal_lm_transformer](tracks\u002Fllm\u002Flesson_01_toy_causal_lm_transformer\u002F) | Causal Mask, 自回归解码 |\n\n> [!NOTE]\n> `resources\u002Fpdfs\u002Fllms\u002F` 下保留了 50+ 篇 LLM 相关论文与笔记，包括 PaLM、大模型综述等，可作为延伸阅读。\n\n---\n\n### 🌐 8. Multimodal \u002F 多模态\n\n> 从 CLIP 双塔对齐到 LLaVA 指令跟随，再到开放词汇检测、时序定位 — 16 步走完现代视觉语言建模核心脉络。\n\n| 序号 | 项目 | 代码文档 | 核心概念 |\n|------|------|----------|----------|\n| 1 | CLIP-Style Retrieval | [lesson_01_clip_toy_retrieval](tracks\u002Fmultimodal\u002Flesson_01_clip_toy_retrieval\u002F) | 对比学习, 双塔编码器 |\n| 2 | BLIP-Lite Captioning + ITM | [lesson_02_blip_toy_captioning](tracks\u002Fmultimodal\u002Flesson_02_blip_toy_captioning\u002F) | 视觉 token 融合, ITM |\n| 3 | LLaVA-Lite Instruction VLM | [lesson_03_llava_toy_instruction_vlm](tracks\u002Fmultimodal\u002Flesson_03_llava_toy_instruction_vlm\u002F) | 视觉前缀, 指令跟随 |\n| 4 | Grounding Referring | [lesson_04_grounding_toy_refexp](tracks\u002Fmultimodal\u002Flesson_04_grounding_toy_refexp\u002F) | 指代表达, Box 回归 |\n| 5 | Mask Grounding | [lesson_05_mask_grounding_toy_refexp](tracks\u002Fmultimodal\u002Flesson_05_mask_grounding_toy_refexp\u002F) | 文本条件 Mask 预测 |\n| 6 | Flamingo Interleaved VLM | [lesson_06_flamingo_toy_interleaved_vlm](tracks\u002Fmultimodal\u002Flesson_06_flamingo_toy_interleaved_vlm\u002F) | 交错图文, Few-shot |\n| 7 | Q-Former Bridge VLM | [lesson_07_qformer_toy_bridge_vlm](tracks\u002Fmultimodal\u002Flesson_07_qformer_toy_bridge_vlm\u002F) | Cross-attention 瓶颈 |\n| 8 | Perceiver Resampler VLM | [lesson_08_perceiver_resampler_toy_vlm](tracks\u002Fmultimodal\u002Flesson_08_perceiver_resampler_toy_vlm\u002F) | 多视图 token 池化 |\n| 9 | PaliGemma Multitask VLM | [lesson_09_paligemma_toy_siglip_decoder_vlm](tracks\u002Fmultimodal\u002Flesson_09_paligemma_toy_siglip_decoder_vlm\u002F) | 提示式多任务 |\n| 10 | OWL-ViT Open-Vocab Detection | [lesson_10_owlvit_toy_open_vocab_detection](tracks\u002Fmultimodal\u002Flesson_10_owlvit_toy_open_vocab_detection\u002F) | 开放词汇检测 |\n| 11 | Grounded-SAM Segmentation | [lesson_11_grounded_sam_toy_open_vocab_segmentation](tracks\u002Fmultimodal\u002Flesson_11_grounded_sam_toy_open_vocab_segmentation\u002F) | 开放词汇分割 |\n| 12 | Key-Value OCR Document VLM | [lesson_12_key_value_ocr_toy_doc_vlm](tracks\u002Fmultimodal\u002Flesson_12_key_value_ocr_toy_doc_vlm\u002F) | 文档字段提取 |\n| 13 | Video VLM Temporal QA | [lesson_13_video_vlm_toy_temporal_qa](tracks\u002Fmultimodal\u002Flesson_13_video_vlm_toy_temporal_qa\u002F) | 短视频 QA |\n| 14 | BMN Temporal Grounding | [lesson_14_bmn_toy_temporal_grounding](tracks\u002Fmultimodal\u002Flesson_14_bmn_toy_temporal_grounding\u002F) | 时序定位, 边界预测 |\n| 15 | 2D-TAN Temporal Grounding | [lesson_15_2dtan_toy_temporal_grounding](tracks\u002Fmultimodal\u002Flesson_15_2dtan_toy_temporal_grounding\u002F) | 密集时序段图 |\n| 16 | Multi-Scale 2D-TAN | [lesson_16_multiscale_2dtan_toy_temporal_grounding](tracks\u002Fmultimodal\u002Flesson_16_multiscale_2dtan_toy_temporal_grounding\u002F) | 多尺度时序金字塔 |\n\n```bash\n# 冒烟测试 Multimodal lesson\npython -m tracks.multimodal.lesson_01_clip_toy_retrieval.train \\\n  --device cpu --epochs 1 --max-train-batches 2 --max-eval-batches 1\n```\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>VLM Zoo — 20 个视觉语言模型族（教学实现 + 时间线）\u003C\u002Fb>\u003C\u002Fsummary>\n\n| Family | 年份 | 核心创新 |\n|--------|------|---------|\n| CLIP | 2021 | 对比图文预训练 |\n| ALIGN | 2021 | 大规模噪声对比学习 |\n| ViLT | 2021 | Patch 级视觉语言 Transformer |\n| SimVLM | 2021 | 简单视觉语言预训练 |\n| ALBEF | 2021 | 先对齐再融合 |\n| LiT | 2022 | 锁定图像的文本微调 |\n| BLIP | 2022 | 引导式图文预训练 |\n| CoCa | 2022 | 对比式描述器 |\n| OFA | 2022 | 统一架构、任务、模态 |\n| Flamingo | 2022 | 交错图文视觉语言模型 |\n| PaLI | 2022 | Pathways 图文模型 |\n| BLIP-2 | 2023 | Q-Former 桥接视觉与 LLM |\n| InstructBLIP | 2023 | 指令微调 BLIP-2 |\n| LLaVA | 2023 | 视觉指令微调 |\n| MiniGPT-4 | 2023 | 投影前缀视觉 LLM |\n| Kosmos-2 | 2023 | 接地多模态 LLM |\n| mPLUG-Owl2 | 2023 | 模态自适应模块 |\n| CogVLM | 2023 | LLM 层内视觉专家 |\n| PaLI-X | 2023 | 缩放版 Pathways 图文模型 |\n| Qwen-VL | 2023 | 通义千问视觉语言模型 |\n\n> 完整列表与变体见 `python scripts\u002Fvlm_zoo.py --list`\n\n\u003C\u002Fdetails>\n\n---\n\n## Model Zoo\n\n> 全领域统一模型动物园 — 纯 PyTorch 本地实现，无需下载预训练权重，2500+ 架构 ID 一行切换\n\n### Zoo 子系统总览（21 个子系统）\n\n| 领域 | 子系统 | 算法族 | CLI 脚本 |\n|------|--------|--------|---------|\n| Vision | Backbones | 208 族 \u002F 736 IDs | `scripts\u002Fvision_zoo.py` |\n| Vision | Detection (2D) | ~120 | `scripts\u002Fdetection_zoo.py` |\n| Vision | Instance Segmentation | 40 | `scripts\u002Finstance_segmentation_zoo.py` |\n| Vision | Panoptic Segmentation | 40 | `scripts\u002Fpanoptic_segmentation_zoo.py` |\n| Vision | Lane Detection | 24 | `scripts\u002Flane_detection_zoo.py` |\n| Vision | Co-segmentation | 6 | `scripts\u002Fco_segmentation_zoo.py` |\n| Vision | Fine-Grained Recognition | 72 | `scripts\u002Ffine_grained_recognition_zoo.py` |\n| Vision | Action Recognition | 22 | `scripts\u002Faction_recognition_zoo.py` |\n| Vision | MOT (2D) | 81 | `scripts\u002Fmot_zoo.py` |\n| NLP | Text Encoders | 49 族 \u002F 813 IDs | `scripts\u002Fnlp_zoo.py` |\n| Point Cloud | Backbones | 30 族 \u002F 64 IDs | `scripts\u002Fpointcloud_zoo.py` |\n| Point Cloud | 3D Detection | 40 | `scripts\u002Fdetection3d_zoo.py` |\n| Point Cloud | 3D Segmentation | 40 | `scripts\u002Fsegmentation3d_zoo.py` |\n| Point Cloud | 3D Instance Seg | 30 | `scripts\u002Finstance_segmentation3d_zoo.py` |\n| Point Cloud | 3D Tracking | 131 | `scripts\u002Ftracking3d_zoo.py` |\n| Multimodal | VLM | 20 | `scripts\u002Fvlm_zoo.py` |\n| Generative | GAN | 24 | `scripts\u002Fgan_zoo.py` |\n| Generative | Diffusion | 12 | `scripts\u002Fdiffusion_zoo.py` |\n| Federated | FL Strategies | 36 | `scripts\u002Ffederated_zoo.py` |\n\n所有 Zoo 遵循相同的设计模式：\n\n- **一文件一算法族** — 如 `resnet.py` 包含 ResNet-18\u002F34\u002F50\u002F101 所有变体\n- **Lazy Import** — 仅在使用时加载，启动零开销\n- **统一接口** — `build(arch_id, num_classes=...)` 即可构建任意模型\n- **CLI 工具** — `--list` 列表、`--search` 搜索、`--smoke` 冒烟测试\n\n---\n\n### Vision Zoo \u002F 736 Architectures\n\n```bash\n# 列出所有可用架构\npython scripts\u002Fvision_zoo.py --list\n\n# 搜索特定架构\npython scripts\u002Fvision_zoo.py --search convnext\n\n# 冒烟测试\npython scripts\u002Fvision_zoo.py --smoke resnet50\n```\n\n#### Fine-Grained Recognition (FGVC) Local Zoo\n\n> 细粒度视觉识别（FGVC）模型族补充：Bilinear \u002F Part-based \u002F Transformer \u002F Prompt \u002F CLIP \u002F MLLM reasoning（toy-first, no downloads）\n\n```bash\npython scripts\u002Ffine_grained_recognition_zoo.py --list\npython scripts\u002Ffine_grained_recognition_zoo.py --search transfg\npython scripts\u002Ffine_grained_recognition_zoo.py --smoke dlfgvc:fine_r1_tiny\n```\n\n> 时间线与方法说明见 `dlhub\u002Fvision\u002Ffine_grained_recognition\u002FREADME.md`\n\n#### Action Recognition (Video + Skeleton) Local Zoo\n\n> 行为识别（动作识别）模型族补充：Video (NCTHW) + Skeleton (NCTV)，toy-first, no downloads\n\n```bash\npython scripts\u002Faction_recognition_zoo.py --list\npython scripts\u002Faction_recognition_zoo.py --search stgcn\npython scripts\u002Faction_recognition_zoo.py --smoke dlactv:c3d_tiny\npython scripts\u002Faction_recognition_zoo.py --smoke dlacts:stgcn_tiny\n```\n\n> 时间线与方法说明见 `dlhub\u002Fvision\u002Faction_recognition\u002FREADME.md`\n\n#### Multi-Object Tracking (MOT) Local Zoo\n\n> 多目标跟踪模型族补充：2D 单相机 MOT，80 算法族（每族 `tiny\u002Fsmall\u002Fbase`），toy-first, no downloads\n\n```bash\npython scripts\u002Fmot_zoo.py --list\npython scripts\u002Fmot_zoo.py --search bytetrack\npython scripts\u002Fmot_zoo.py --timeline\npython scripts\u002Fmot_zoo.py --recommend realtime --top-k 8 --variant tiny\npython scripts\u002Fmot_zoo.py --recommend occlusion --top-k 8 --variant tiny --emit-train-cmds\npython scripts\u002Fmot_zoo.py --recommend realtime --top-k 3 --variant tiny --run-train-cmds\npython scripts\u002Fmot_zoo.py --recommend realtime --top-k 3 --variant tiny --run-train-cmds --skip-existing\npython scripts\u002Fmot_zoo.py --recommend realtime --top-k 3 --variant tiny --run-train-cmds --summary-only\npython scripts\u002Fmot_zoo.py --recommend realtime --top-k 3 --variant tiny --run-train-cmds --rank-by loss\npython scripts\u002Fmot_zoo.py --recommend realtime --top-k 3 --variant tiny --run-train-cmds --save-leaderboard outputs\u002Fvision\u002Fmot_leaderboard.json\npython scripts\u002Fmot_zoo.py --recommend realtime --top-k 3 --variant tiny --run-train-cmds --save-artifacts-dir outputs\u002Fvision\u002Fmot_artifacts\npython scripts\u002Fmot_zoo.py --recommend realtime --top-k 3 --variant tiny --run-train-cmds --save-artifacts-dir auto\npython scripts\u002Fmot_zoo.py --smoke mot2d:sort_tiny\n```\n\n> 组别、选型建议与 80 族列表见 `dlhub\u002Fvision\u002Fmot\u002FREADME.md`\n\n#### Detection Zoo (2D)\n\n> 2D 目标检测模型族：Anchor-based \u002F Anchor-free \u002F Transformer-based \u002F 轻量级检测器，~120 算法\n\n```bash\npython scripts\u002Fdetection_zoo.py --list\npython scripts\u002Fdetection_zoo.py --search fcos\npython scripts\u002Fdetection_zoo.py --smoke dldet:fcos_r50_tiny\n```\n\n#### Instance & Panoptic Segmentation Zoo\n\n> 实例分割 + 全景分割：Mask R-CNN \u002F YOLACT \u002F Panoptic FPN 等\n\n```bash\n# 实例分割\npython scripts\u002Finstance_segmentation_zoo.py --list\npython scripts\u002Finstance_segmentation_zoo.py --smoke dlinsseg:maskrcnn_r50_tiny\n\n# 全景分割\npython scripts\u002Fpanoptic_segmentation_zoo.py --list\npython scripts\u002Fpanoptic_segmentation_zoo.py --smoke dlpanseg:panfpn_r50_tiny\n```\n\n#### Lane Detection Zoo\n\n> 车道线检测模型族：24 算法族，Anchor \u002F Parametric \u002F Segmentation \u002F Keypoint \u002F Transformer 五大范式\n\n```bash\npython scripts\u002Flane_detection_zoo.py --list\npython scripts\u002Flane_detection_zoo.py --search laneatt\npython scripts\u002Flane_detection_zoo.py --smoke dllane:laneatt_r18_tiny\n```\n\n#### Co-segmentation Zoo\n\n> 协同分割模型族：6 算法族，Group \u002F Pair 级别图像共分割\n\n```bash\npython scripts\u002Fco_segmentation_zoo.py --list\npython scripts\u002Fco_segmentation_zoo.py --smoke dlcoseg:coatt_tiny\n```\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>主要架构分类\u003C\u002Fb>\u003C\u002Fsummary>\n\n| 类别 | 代表架构 | 数量 |\n|------|---------|------|\n| 经典 CNN | AlexNet, VGG, GoogLeNet, ResNet, DenseNet | ~60 |\n| 高效网络 | MobileNet v1-v4, EfficientNet v1\u002Fv2, GhostNet, ShuffleNet | ~80 |\n| 注意力 CNN | SENet, CBAM, BAM, ECA-Net, SK-Net, CoordAtt | ~50 |\n| 现代 CNN | ConvNeXt v1\u002Fv2, RepVGG, RepLKNet, HorNet, FocalNet | ~40 |\n| Vision Transformer | ViT, DeiT, BEiT, Swin v2, CSwin, CaiT, CrossViT | ~120 |\n| 高效 Transformer | EfficientViT, TinyViT, EdgeViT, FastViT, SwiftFormer | ~60 |\n| MLP 系列 | MLP-Mixer, gMLP, ResMLP, FNet, CycleMLP, WaveMLP | ~50 |\n| Hybrid | CoAtNet, MobileFormer, Uniformer, MaxViT, MobileViT | ~60 |\n| 特殊结构 | CapsNet, FractalNet, HRNet, NAS 系列, Mamba | ~50 |\n\n\u003C\u002Fdetails>\n\n---\n\n### NLP Zoo \u002F 813 Architectures\n\n```bash\n# 列出所有可用架构\npython scripts\u002Fnlp_zoo.py --list\n\n# 搜索特定架构\npython scripts\u002Fnlp_zoo.py --search bert\n\n# 冒烟测试\npython scripts\u002Fnlp_zoo.py --smoke bert_base\n```\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>主要架构分类\u003C\u002Fb>\u003C\u002Fsummary>\n\n| 类别 | 代表架构 |\n|------|---------|\n| Transformer | BERT, GPT, T5, ALBERT, DistilBERT, Longformer, BigBird |\n| 高效 Transformer | Performer, Nystromformer, FNet, Synthesizer, Linformer |\n| RNN 系列 | LSTM, GRU, BiLSTM, BiGRU, IndRNN, SRU, QRNN |\n| CNN 系列 | TextCNN, InceptionCNN, DPCNN, VDCNN, ResConv |\n| MLP 系列 | gMLP, ResMLP, MLP-Mixer |\n| 轻量级 | FastText, WaveNet, TCN |\n\n\u003C\u002Fdetails>\n\n---\n\n### Point Cloud Zoo \u002F 64 Architectures\n\n```bash\n# 在 lesson_04 中切换 backbone\npython -m tracks.pointcloud.lesson_04_pointcloud_zoo_toy_classification.train \\\n  --arch pointnet --dataset fake --epochs 1\n```\n\n> 详细列表见 [Point Cloud Track](#-point-cloud--点云) 的 Backbone 表格。\n\n#### 3D Detection Zoo\n\n> 3D 目标检测模型族：40 算法族，Point-based \u002F Voxel-based \u002F Pillar-based \u002F Multi-modal\n\n```bash\npython scripts\u002Fdetection3d_zoo.py --list\npython scripts\u002Fdetection3d_zoo.py --search pointpillars\npython scripts\u002Fdetection3d_zoo.py --smoke dldet3d:pointpillars_tiny\n```\n\n#### 3D Segmentation Zoo\n\n> 3D 语义分割模型族：40 算法族，Point \u002F Voxel \u002F Range-view \u002F Fusion\n\n```bash\npython scripts\u002Fsegmentation3d_zoo.py --list\npython scripts\u002Fsegmentation3d_zoo.py --search randlanet\npython scripts\u002Fsegmentation3d_zoo.py --smoke dlseg3d:randlanet_tiny\n```\n\n#### 3D Instance Segmentation Zoo\n\n> 3D 实例分割模型族：30 算法族，Proposal-based \u002F Grouping-based \u002F Panoptic\n\n```bash\npython scripts\u002Finstance_segmentation3d_zoo.py --list\npython scripts\u002Finstance_segmentation3d_zoo.py --smoke dlinsseg3d:pointgroup_tiny\n```\n\n#### 3D Tracking Zoo\n\n> 3D 多目标跟踪模型族：131 算法族，LiDAR \u002F Camera-LiDAR \u002F Radar-LiDAR\n\n```bash\npython scripts\u002Ftracking3d_zoo.py --list\npython scripts\u002Ftracking3d_zoo.py --search centerpoint\npython scripts\u002Ftracking3d_zoo.py --smoke dltrk3d:centerpoint_tiny\n```\n\n---\n\n### VLM Zoo \u002F 20 Families\n\n> 视觉语言模型族：20 个 Family，从 CLIP 到 Qwen-VL，纯 PyTorch 教学实现\n\n```bash\npython scripts\u002Fvlm_zoo.py --list\npython scripts\u002Fvlm_zoo.py --search llava\npython scripts\u002Fvlm_zoo.py --timeline\npython scripts\u002Fvlm_zoo.py --smoke dlvlm:clip_tiny\n```\n\n> 详细 Family 列表见 [Multimodal Track](#-multimodal--多模态) 的 VLM Zoo 表格。\n\n---\n\n### Generative Zoo \u002F GAN + Diffusion\n\n> 生成模型族：GAN（24 算法族）+ Diffusion（12 算法族），纯 PyTorch toy 实现\n\n```bash\n# GAN Zoo\npython scripts\u002Fgan_zoo.py --list\npython scripts\u002Fgan_zoo.py --search stylegan\npython scripts\u002Fgan_zoo.py --smoke dlgan:dcgan_tiny\n\n# Diffusion Zoo\npython scripts\u002Fdiffusion_zoo.py --list\npython scripts\u002Fdiffusion_zoo.py --search ddpm\npython scripts\u002Fdiffusion_zoo.py --smoke dldiff:ddpm_tiny\n```\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>GAN 主要架构\u003C\u002Fb>\u003C\u002Fsummary>\n\n| 类别 | 代表架构 |\n|------|---------|\n| 无条件 GAN | DCGAN, WGAN, WGAN-GP, LSGAN, SNGAN |\n| 条件 GAN | cGAN, ACGAN, InfoGAN, Pix2Pix |\n| 图像翻译 | CycleGAN, StarGAN, UNIT, MUNIT |\n| 高分辨率 | ProGAN, StyleGAN, StyleGAN2, StyleGAN3 |\n| 轻量级 | LightGAN, FastGAN |\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>Diffusion 主要架构\u003C\u002Fb>\u003C\u002Fsummary>\n\n| 类别 | 代表架构 |\n|------|---------|\n| 基础扩散 | DDPM, DDIM, Score-SDE |\n| 条件扩散 | Classifier-Guided, Classifier-Free |\n| 隐空间扩散 | Latent Diffusion, Stable Diffusion |\n| 快速采样 | DPM-Solver, Consistency Models |\n\n\u003C\u002Fdetails>\n\n---\n\n## Federated Learning Zoo\n\n> 联邦学习策略库 — 36 种联邦优化 \u002F 个性化 \u002F 隐私策略，纯 PyTorch 教学实现\n\n```bash\npython scripts\u002Ffederated_zoo.py --list\npython scripts\u002Ffederated_zoo.py --search fedavg\npython scripts\u002Ffederated_zoo.py --timeline\n```\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>全部 36 种策略（按 13 个分组）\u003C\u002Fb>\u003C\u002Fsummary>\n\n| 分组 | 策略 | 说明 |\n|------|------|------|\n| **Optimization** | FedAvg | 迭代式模型平均 |\n| | FedProx | 近端正则化 FedAvg |\n| | FedNova | 归一化平均 |\n| | FedDyn | 动态正则化联邦优化 |\n| **Server Optimizer** | FedAdam | 服务端 Adam |\n| | FedYogi | 服务端 Yogi |\n| **Control Variate** | SCAFFOLD | 控制变量修正客户端漂移 |\n| **Feature Normalization** | FedBN | 本地 Batch Normalization |\n| **Personalization** | FedPer | Base\u002FHead 分割个性化 |\n| | APFL | 自适应个性化联邦学习 |\n| | Ditto | 近端本地头个性化 |\n| | pFedMe | 元正则化个性化 |\n| | MOON | 模型对比个性化 |\n| | Per-FedAvg | 元学习个性化 |\n| | FedRep | 共享表示 + 个性化头 |\n| | FedAMP | 注意力消息传递个性化 |\n| | FedProto | 原型化联邦学习 |\n| | IFCA | 聚类个性化联邦学习 |\n| **Fairness** | q-FedAvg | 公平资源分配 |\n| | AFL | 不可知联邦学习 |\n| | TERM | 倾斜经验风险最小化 |\n| **Long-tail Robustness** | FedRS | 类不平衡重平衡 Softmax |\n| | FedLC | 长尾 Logit 校准 |\n| | FedRoD | 鲁棒蒸馏 |\n| **Split Learning** | SplitFed | 联邦分割学习 |\n| | SplitFedV2 | 增强分割联邦混合训练 |\n| **Heterogeneous Width** | HeteroFL | 异构宽度联邦学习 |\n| | FjORD | 联邦 Dropout |\n| **Distillation** | FedGKT | 联邦组知识转移 |\n| | FedDF | 集成蒸馏联邦学习 |\n| **Privacy** | DP-FedAvg | 差分隐私联邦平均 |\n| | DP-FedProx | 差分隐私近端联邦学习 |\n| **Compression** | FedPAQ | 周期平均 + 量化 |\n| | STC | 稀疏三值压缩 |\n| **Secure Aggregation** | SecureAgg | 隐私保护安全求和 |\n| | LightSecAgg | 轻量安全聚合 |\n\n\u003C\u002Fdetails>\n\n---\n\n## NumPy ML Algorithms\n\n> 纯 NumPy 手写经典机器学习算法 — 零深度学习依赖，理解算法本质\n\n| 类别 | 算法 | 文件 | 核心原理 |\n|------|------|------|---------|\n| **线性模型** | Linear Regression | `linear_models.py` | 最小二乘, 梯度下降 |\n| **线性模型** | Ridge Regression | `linear_models.py` | L2 正则化, 闭式解 |\n| **线性模型** | Logistic Regression | `linear_models.py` | Sigmoid, 交叉熵 |\n| **线性模型** | Softmax Regression | `linear_models.py` | Softmax, 多分类交叉熵 |\n| **核方法** | Linear SVM | `svm.py` | Hinge Loss, 最大间隔 |\n| **树模型** | Decision Tree | `decision_tree.py` | Gini 不纯度, 递归分裂 |\n| **集成方法** | Random Forest | `random_forest.py` | Bagging, 特征随机采样 |\n| **集成方法** | AdaBoost (Classification) | `adaboost.py` | Boosting, Decision Stumps |\n| **集成方法** | Gradient Boosting (Regression) | `gradient_boosting.py` | Boosting, 残差拟合 |\n| **概率模型** | Naive Bayes | `naive_bayes.py` | 条件独立, 平滑 |\n| **概率模型** | GMM | `gmm.py` | EM 算法, 高斯混合 |\n| **生成模型** | LDA \u002F QDA | `discriminant_analysis.py` | 高斯假设, 判别函数 |\n| **近邻** | KNN | `knn.py` | 距离度量, 多数投票 |\n| **聚类** | K-Means | `kmeans.py` | 质心迭代, Lloyd 算法 |\n| **聚类** | K-Medoids | `kmedoids.py` | Medoid, PAM |\n| **聚类** | Agglomerative Clustering | `clustering.py` | 层次聚类, Linkage |\n| **聚类** | DBSCAN | `clustering.py` | 密度聚类, 邻域扩展 |\n| **聚类** | Spectral Clustering | `spectral_clustering.py` | 图拉普拉斯, 特征向量 |\n| **降维** | PCA | `pca.py` | 特征值分解, 方差最大化 |\n| **降维** | NMF | `nmf.py` | 非负分解, 乘法更新 |\n| **降维** | FastICA | `ica.py` | 独立成分, Fixed-point |\n| **降维** | Isomap | `isomap.py` | 测地距离, MDS |\n| **序列模型** | Markov Chain | `markov_chain.py` | 转移矩阵, 平滑 |\n| **序列模型** | N-gram LM | `ngram.py` | 计数, Laplace 平滑 |\n| **序列模型** | Categorical HMM | `hmm.py` | Forward \u002F Viterbi, log-space |\n| **神经网络** | Perceptron | `perceptron.py` | 感知机学习规则 |\n| **神经网络** | MLP | `mlp.py` | 反向传播, 链式法则 |\n\n\u003Csub>所有文件位于 `ml_algorithms\u002Fpython\u002F`，使用 `@dataclass` 模式实现。\u003C\u002Fsub>\n\n---\n\n## Optimization Toolkit\n\n> 纯 NumPy 实现 — 理解优化器和调度器的数学本质\n\n\u003Ctable>\n\u003Ctr>\n\u003Ctd valign=\"top\" width=\"25%\">\n\n**Optimizers**\n| 算法 | 特点 |\n|------|------|\n| SGD | 基础随机梯度下降 |\n| Momentum | 动量加速 |\n| RMSProp | 自适应学习率 |\n| Adagrad | 稀疏梯度友好 |\n| Adam | Momentum + RMSProp |\n\n\u003C\u002Ftd>\n\u003Ctd valign=\"top\" width=\"25%\">\n\n**LR Schedulers**\n| 策略 | 特点 |\n|------|------|\n| StepDecay | 阶梯式衰减 |\n| ExponentialDecay | 指数衰减 |\n| CosineAnnealing | 余弦退火 |\n| WarmupCosine | 预热 + 余弦 |\n\n\u003C\u002Ftd>\n\u003Ctd valign=\"top\" width=\"25%\">\n\n**Losses**\n| 函数 | 用途 |\n|------|------|\n| MSE | 回归 |\n| MAE | 鲁棒回归 |\n| Binary CE | 二分类 |\n| Categorical CE | 多分类 |\n\n\u003C\u002Ftd>\n\u003Ctd valign=\"top\" width=\"25%\">\n\n**Metrics**\n| 指标 | 用途 |\n|------|------|\n| Accuracy | 分类准确率 |\n| Precision | 精确率 |\n| Recall \u002F F1 | 召回率 \u002F F1 |\n| R² Score | 回归拟合度 |\n\n\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>更多优化算法\u003C\u002Fb>\u003C\u002Fsummary>\n\n| 算法 | 目录 | 说明 |\n|------|------|------|\n| 蚁群优化 (ACO) | `optimization\u002FACO\u002F` | 旅行商问题求解，含原理图 |\n| 遗传算法 (GA) | `optimization\u002FGA\u002F` | 进化搜索，含流程图 |\n| 粒子群优化 (PSO) | `optimization\u002FPSO\u002F` | 群体智能优化 |\n| 层次分析法 (AHP) | `optimization\u002FAHP\u002F` | 多准则决策 |\n| Lasso 优化 | `optimization\u002FLasso\u002F` | L1 正则化路径，含可视化 |\n\n\u003C\u002Fdetails>\n\n---\n\n## Documentation\n\n| 文档 | 说明 | 适合谁 |\n|------|------|--------|\n| [`ROADMAP.md`](docs\u002FROADMAP.md) | 学习路线图与推荐顺序 | 初学者 |\n| [`INSTALL.md`](docs\u002FINSTALL.md) | 安装指南 | 所有人 |\n| [`RUNNING.md`](docs\u002FRUNNING.md) | 如何运行 Lesson | 所有人 |\n| [`STRUCTURE.md`](docs\u002FSTRUCTURE.md) | 仓库结构详解 | 想深入了解的人 |\n| [`CONVENTIONS.md`](docs\u002FCONVENTIONS.md) | 运行 & 实验约定 | 贡献者 |\n| [`STYLEGUIDE.md`](docs\u002FSTYLEGUIDE.md) | 代码规范 | 贡献者 |\n| [`FAQ.md`](docs\u002FFAQ.md) | 常见问题 | 遇到问题时 |\n\n---\n\n## Design Philosophy\n\n```\n              ┌───────────────────────────────────────────────────────┐\n              │                   DL-Hub 设计理念                      │\n              ├──────────────┬──────────────┬─────────────────────────┤\n              │ Offline-first │  统一脚手架   │     可复现              │\n              │ 所有 lesson   │ 共享 dlhub\u002F  │ 种子 + 配置 + 日志      │\n              │ 支持离线冒烟   │ 训练框架      │ 每次实验可追溯          │\n              ├──────────────┼──────────────┼─────────────────────────┤\n              │   渐进式      │  测试覆盖     │  Model Zoo             │\n              │ 由浅入深       │ 126 pytest  │ 2500+ 架构 ID          │\n              │ 8 track 递进  │ CI 可集成    │ 全领域统一接口           │\n              └──────────────┴──────────────┴─────────────────────────┘\n```\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>详细说明\u003C\u002Fb>\u003C\u002Fsummary>\n\n- **Offline-first** — 所有 lesson 支持 `--dataset fake` 离线冒烟，无需下载任何数据集，10 秒内验证环境\n- **统一脚手架** — 所有 lesson 共享 `dlhub\u002F` 框架：训练循环、设备管理、种子、检查点、JSONL 指标记录\n- **可复现** — 种子管理 + 配置自动保存 + 指标日志，每次实验完整可追溯\n- **渐进式** — 从基础张量操作到 Vision Transformer、GraphSAGE、PointNet++、LLaVA，由浅入深，8 个 track 层层递进\n- **测试覆盖** — 126 pytest 测试文件覆盖框架核心与所有 track，支持 CI 集成\n- **Model Zoo** — 全领域（Vision \u002F NLP \u002F Point Cloud \u002F Multimodal \u002F Generative \u002F Federated）共 2500+ 架构 ID，纯 PyTorch 本地实现，统一接口一行切换\n\n\u003C\u002Fdetails>\n\n---\n\n## Contributing\n\n欢迎贡献！无论是修复 typo、补充 lesson 还是提出新的 track 想法。\n\n1. Fork 本仓库\n2. 创建你的分支 (`git checkout -b feature\u002Famazing-lesson`)\n3. 遵循 [`docs\u002FSTYLEGUIDE.md`](docs\u002FSTYLEGUIDE.md) 代码规范\n4. 确保 `python scripts\u002Fsmoke_check.py` 通过\n5. 提交 PR\n\n> [!NOTE]\n> 每个新 lesson 应包含：`model.py` \u002F `data.py` \u002F `train.py` \u002F `README.md`，并支持 `--dataset fake` 冒烟模式。详见 [`docs\u002FCONVENTIONS.md`](docs\u002FCONVENTIONS.md)。\n\n---\n\n## Citation\n\n如果本项目对你的学习或研究有帮助，欢迎引用：\n\n```bibtex\n@misc{dlhub2026,\n  title  = {DL-Hub: A Unified PyTorch Deep Learning Learning Project},\n  author = {DL-Hub Contributors},\n  year   = {2026},\n  url    = {https:\u002F\u002Fgithub.com\u002Fyour-username\u002FDL-Hub}\n}\n```\n\n---\n\n## License\n\n本项目采用 [MIT License](LICENSE) 开源。代码自由使用，`resources\u002Fpdfs\u002F` 下的论文版权归原作者所有。\n\n---\n\n\u003Cdiv align=\"center\">\n\n**Built for learning. Built to run.**\n\n\u003Csub>如果觉得有帮助，欢迎 Star 支持 ⭐\u003C\u002Fsub>\n\n\u003C\u002Fdiv>\n","\u003Cdiv align=\"center\">\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fskygazer42_DL-Hub_readme_5f6c8fd1c109.png\" width=\"100%\" alt=\"DL-Hub — Deep Learning from Scratch\" \u002F>\n\n# DL-Hub\n\n**从零手写，循序渐进 — PyTorch 深度学习统一学习项目**\n\n\u003Cbr\u002F>\n\n[![Python](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPython-3.10+-3776AB?style=for-the-badge&logo=python&logoColor=white)](https:\u002F\u002Fpython.org)\n[![PyTorch](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPyTorch-2.0+-EE4C2C?style=for-the-badge&logo=pytorch&logoColor=white)](https:\u002F\u002Fpytorch.org)\n[![NumPy](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FNumPy-1.24+-013243?style=for-the-badge&logo=numpy&logoColor=white)](https:\u002F\u002Fnumpy.org)\n[![License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-green?style=for-the-badge)](LICENSE)\n\n\u003Cbr\u002F>\n\n\u003Ccode>76 Lessons\u003C\u002Fcode> · \u003Ccode>8 Learning Tracks\u003C\u002Fcode> · \u003Ccode>27 ML Algorithms\u003C\u002Fcode> · \u003Ccode>2500+ Model Zoo Architectures\u003C\u002Fcode> · \u003Ccode>126 Test Files\u003C\u002Fcode>\n\n\u003Cbr\u002F>\n\n统一代码风格、统一训练脚手架、统一运行方式\u003Cbr\u002F>\n让学习者真正能 **\"循序渐进跑通 → 改得动 → 能验收\"**\n\n[Quick Start](#-quick-start) · [Learning Tracks](#-learning-tracks) · [Model Zoo](#-model-zoo) · [Federated Zoo](#-federated-learning-zoo) · [ML Algorithms](#-numpy-ml-algorithms) · [Docs](#-documentation)\n\n\u003C\u002Fdiv>\n\n---\n\n## What You'll Build\n\n\u003Ctable>\n\u003Ctr>\n\u003Ctd align=\"center\" width=\"25%\">\n\u003Cbr\u002F>\n\u003Cb>Vision\u003C\u002Fb>\u003Cbr\u002F>\n\u003Csub>从 LeNet 到 ViT，\u003Cbr\u002F>736 架构 · 图像分类 \u002F 检测 \u002F 分割\u003C\u002Fsub>\n\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"25%\">\n\u003Cbr\u002F>\n\u003Cb>NLP\u003C\u002Fb>\u003Cbr\u002F>\n\u003Csub>从词嵌入到 Transformer，\u003Cbr\u002F>813 架构 · 分类 \u002F NER \u002F 阅读理解\u003C\u002Fsub>\n\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"25%\">\n\u003Cbr\u002F>\n\u003Cb>GNN\u003C\u002Fb>\u003Cbr\u002F>\n\u003Csub>从 GCN 到 PinSAGE，\u003Cbr\u002F>图分类 \u002F 节点嵌入 \u002F 推荐\u003C\u002Fsub>\n\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"25%\">\n\u003Cbr\u002F>\n\u003Cb>Point Cloud\u003C\u002Fb>\u003Cbr\u002F>\n\u003Csub>从 PointNet 到 PCT，\u003Cbr\u002F>64 架构 · 分类 \u002F 部件分割 \u002F 重建 \u002F 15 种自监督\u003C\u002Fsub>\n\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" width=\"25%\">\n\u003Cbr\u002F>\n\u003Cb>Generative\u003C\u002Fb>\u003Cbr\u002F>\n\u003Csub>VAE & GAN，\u003Cbr\u002F>手写数字重建与生成\u003C\u002Fsub>\n\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"25%\">\n\u003Cbr\u002F>\n\u003Cb>Multimodal\u003C\u002Fb>\u003Cbr\u002F>\n\u003Csub>从 CLIP 到 LLaVA，20 VLM 架构\u003Cbr\u002F>视觉问答 \u002F 目标检测 \u002F 时序定位\u003C\u002Fsub>\n\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"25%\">\n\u003Cbr\u002F>\n\u003Cb>LLM\u003C\u002Fb>\u003Cbr\u002F>\n\u003Csub>Causal LM + 资源库，\u003Cbr\u002F>50+ 论文笔记\u003C\u002Fsub>\n\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"25%\">\n\u003Cbr\u002F>\n\u003Cb>Federated\u003C\u002Fb>\u003Cbr\u002F>\n\u003Csub>36 联邦策略\u003Cbr\u002F>差分隐私 \u002F 安全聚合 \u002F 个性化\u003C\u002Fsub>\n\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fskygazer42_DL-Hub_readme_19c48d500642.png\" width=\"80%\" alt=\"DL-Hub 八大领域：Vision · NLP · GNN · Point Cloud · Generative · Multimodal · LLM · Federated\" \u002F>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\u003Csub>① Vision — CNN \u002F ViT 图像分类 · ② NLP — 文本分类 \u002F NER · ③ GNN — 图神经网络 · ④ Point Cloud — 3D 点云 · ⑤ Generative — VAE \u002F GAN · ⑥ Multimodal — VLM 视觉语言 · ⑦ LLM — 大语言模型 · ⑧ Federated — 联邦学习\u003C\u002Fsub>\u003C\u002Fp>\n\n---\n\n## Contents\n\n- [What You'll Build](#what-youll-build)\n- [Quick Start](#-quick-start)\n- [Prerequisites](#-prerequisites)\n- [Learning Path](#-learning-path)\n- [Learning Tracks](#-learning-tracks)\n  - [Foundations](#-foundations--基础) · [Vision](#-vision--视觉) · [NLP](#-nlp--自然语言处理) · [GNN](#-gnn--图神经网络) · [Point Cloud](#-point-cloud--点云) · [Generative](#-generative--生成模型) · [LLM](#-llm--大语言模型) · [Multimodal](#-multimodal--多模态)\n- [Model Zoo](#-model-zoo)\n  - [Vision Zoo (736 architectures)](#vision-zoo--736-architectures) · [NLP Zoo (813 architectures)](#nlp-zoo--813-architectures) · [Point Cloud Zoo (64 architectures)](#point-cloud-zoo--64-architectures) · [VLM Zoo (20 families)](#vlm-zoo--20-families) · [Generative Zoo (GAN + Diffusion)](#generative-zoo--gan--diffusion)\n- [Federated Learning Zoo](#-federated-learning-zoo)\n- [NumPy ML Algorithms](#-numpy-ml-algorithms)\n- [Optimization Toolkit](#-optimization-toolkit)\n- [Documentation](#-documentation)\n- [Design Philosophy](#-design-philosophy)\n- [Contributing](#-contributing)\n- [Citation](#-citation)\n\n---\n\n## Quick Start\n\n> [!TIP]\n> 所有 lesson 均支持 `--dataset fake` 离线冒烟 — **无需下载任何数据集，2 分钟即可跑通**。\n\n```bash\n# 克隆仓库\ngit clone https:\u002F\u002Fgithub.com\u002Fskygazer42\u002FDL-Hub.git\ncd DL-Hub\npip install -r requirements.txt\n\n# 仓库级冒烟测试（验证环境）\npython scripts\u002Fsmoke_check.py\n\n# 跑通第一个 lesson\npython -m tracks.vision.lesson_01_mnist_lenet.train \\\n  --dataset fake --epochs 1 \\\n  --max-train-batches 2 --max-eval-batches 2\n```\n\n**列出所有可运行的 lesson**：\n\n```bash\npython scripts\u002Frun_lesson.py --list\n```\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>统一 CLI 参数（所有 lesson 通用）\u003C\u002Fb>\u003C\u002Fsummary>\n\n| 参数 | 说明 | 示例 |\n|------|------|------|\n| `--dataset` | 数据模式 | `fake` (离线冒烟) \u002F `toy` \u002F `real` |\n| `--epochs` | 训练轮数 | `10` |\n| `--batch-size` | 批大小 | `32` |\n| `--learning-rate` | 学习率 | `0.001` |\n| `--seed` | 随机种子 | `42` |\n| `--device` | 计算设备 | `cpu` \u002F `cuda` \u002F `mps` \u002F `auto` |\n| `--max-train-batches` | 限制训练 batch 数 | `2` |\n| `--max-eval-batches` | 限制评估 batch 数 | `2` |\n\n\u003C\u002Fdetails>\n\n---\n\n## Prerequisites\n\n> [!NOTE]\n> 本项目适合有一定 Python 基础的学习者。以下是各 track 的先修建议。\n\n| Track | 先修知识 |\n|-------|---------|\n| Foundations | Python 基础、线性代数入门 |\n| Vision | Foundations track + 卷积直觉 |\n| NLP | Foundations track + 文本处理基础 |\n| GNN | Foundations track + 图论基本概念 |\n| Point Cloud | Vision track + 3D 几何直觉 |\n| Generative | Vision track + 概率论基础 |\n| LLM | NLP track + Transformer 机制 |\n| Multimodal | Vision track + NLP track + 注意力机制 |\n\n---\n\n## Learning Path\n\n不知道从哪开始？根据你的时间选择一条学习路线：\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fskygazer42_DL-Hub_readme_c51734ac5820.png\" width=\"85%\" alt=\"8 Learning Tracks: Foundations → Vision → NLP → GNN → Point Cloud → Generative → LLM → Multimodal\" \u002F>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\u003Csub>Step 1–8 对应：Foundations → Vision → NLP → GNN → Point Cloud → Generative → LLM → Multimodal\u003C\u002Fsub>\u003C\u002Fp>\n\n\u003Ctable>\n\u003Ctr>\n\u003Cth width=\"20%\">路线\u003C\u002Fth>\n\u003Cth width=\"15%\">时间\u003C\u002Fth>\n\u003Cth width=\"15%\">Lessons\u003C\u002Fth>\n\u003Cth width=\"50%\">内容\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>\u003Cb>Weekend Sprint\u003C\u002Fb>\u003C\u002Ftd>\n\u003Ctd>1-2 天\u003C\u002Ftd>\n\u003Ctd>6 lessons\u003C\u002Ftd>\n\u003Ctd>Foundations (2) → Vision lesson 01-02 → Generative lesson 01 → LLM lesson 01\u003Cbr\u002F>\u003Csub>快速建立从张量到生成模型的完整直觉\u003C\u002Fsub>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>\u003Cb>Two-Week Deep Dive\u003C\u002Fb>\u003C\u002Ftd>\n\u003Ctd>2 周\u003C\u002Ftd>\n\u003Ctd>18 lessons\u003C\u002Ftd>\n\u003Ctd>Foundations (2) → Vision (5) → NLP (4) → GNN (3) → Generative (2) → LLM (1) → Point Cloud (1)\u003Cbr\u002F>\u003Csub>覆盖所有 track 的核心 lesson\u003C\u002Fsub>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>\u003Cb>Full Curriculum\u003C\u002Fb>\u003C\u002Ftd>\n\u003Ctd>6-8 周\u003C\u002Ftd>\n\u003Ctd>76 lessons\u003C\u002Ftd>\n\u003Ctd>按顺序完成全部 8 个 track 的所有 lesson\u003Cbr\u002F>\u003Csub>系统掌握从经典 ML 到前沿深度学习的完整技能树\u003C\u002Fsub>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n> [!TIP]\n> 推荐顺序：**Foundations → Vision → NLP → GNN → Point Cloud → Generative → LLM → Multimodal**。每个 lesson 都有独立的 README 说明目标、先修和验收标准。\n\n---\n\n## 课程及代码合集\n\n\u003Ctable>\n\u003Ctr>\n\u003Ctd align=\"center\" width=\"12%\">\u003Cb>Foundations\u003C\u002Fb>\u003Cbr\u002F>\u003Csub>2 lessons\u003C\u002Fsub>\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"12%\">\u003Cb>Vision\u003C\u002Fb>\u003Cbr\u002F>\u003Csub>14 lessons\u003C\u002Fsub>\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"12%\">\u003Cb>NLP\u003C\u002Fb>\u003Cbr\u002F>\u003Csub>7 lessons\u003C\u002Fsub>\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"12%\">\u003Cb>GNN\u003C\u002Fb>\u003Cbr\u002F>\u003Csub>11 lessons\u003C\u002Fsub>\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"12%\">\u003Cb>Point Cloud\u003C\u002Fb>\u003Cbr\u002F>\u003Csub>23 lessons\u003C\u002Fsub>\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"12%\">\u003Cb>Generative\u003C\u002Fb>\u003Cbr\u002F>\u003Csub>2 lessons\u003C\u002Fsub>\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"12%\">\u003Cb>LLM\u003C\u002Fb>\u003Cbr\u002F>\u003Csub>1 lesson\u003C\u002Fsub>\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"12%\">\u003Cb>Multimodal\u003C\u002Fb>\u003Cbr\u002F>\u003Csub>16 lessons\u003C\u002Fsub>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n---\n\n### ⚡ 1. 基础\n\n> 张量、自动求导、训练循环入门 — 所有后续 track 的基石。\n\n| 序号 | 项目 | 代码文档 | 核心概念 |\n|------|------|----------|----------|\n| 1 | 张量操作 & Autograd 机制 | [lesson_01_tensors](tracks\u002Ffoundations\u002Flesson_01_tensors\u002F) | `torch.Tensor`, `backward()`, 计算图 |\n| 2 | 从零实现线性回归 | [lesson_02_linear_regression](tracks\u002Ffoundations\u002Flesson_02_linear_regression_autograd\u002F) | 梯度下降, 损失函数, 参数更新 |\n\n---\n\n### 👁️ 2. 视觉\n\n> 从 MNIST 入门到目标检测、语义分割、Vision Transformer。\n\n| 序号 | 项目 | 代码文档 | 核心概念 |\n|------|------|----------|----------|\n| 1 | LeNet-5 图像分类 | [mnist_lenet](tracks\u002Fvision\u002Flesson_01_mnist_lenet\u002F) | 卷积层, 池化, 全连接 |\n| 2 | MLP 图像分类 | [mnist_mlp](tracks\u002Fvision\u002Flesson_02_mnist_mlp\u002F) | 多层感知机, Flatten |\n| 3 | AlexNet 图像分类 | [mnist_alexnet](tracks\u002Fvision\u002Flesson_03_mnist_alexnet\u002F) | 深层卷积网络, Dropout |\n| 4 | FCOS 目标检测 | [synthetic_detection_fcos](tracks\u002Fvision\u002Flesson_04_synthetic_detection_fcos\u002F) | Anchor-free, FPN, 回归头 |\n| 5 | ViT 图像分类 | [vit_toy_classification](tracks\u002Fvision\u002Flesson_05_vit_toy_classification\u002F) | Patch Embedding, Self-Attention |\n| 6 | Swin Transformer 图像分类 | [swin_toy_classification](tracks\u002Fvision\u002Flesson_06_swin_toy_classification\u002F) | Window Attention, Shifted Window |\n| 7 | 关键点回归 | [toy_keypoint_regression](tracks\u002Fvision\u002Flesson_07_toy_keypoint_regression\u002F) | 坐标回归, Heatmap |\n| 8 | UNet 语义分割 | [synthetic_segmentation_unet](tracks\u002Fvision\u002Flesson_08_synthetic_segmentation_unet\u002F) | Encoder-Decoder, Skip Connection |\n| 9 | 多 Backbone 对比 | [cnn_backbones_toy_classification](tracks\u002Fvision\u002Flesson_09_cnn_backbones_toy_classification\u002F) | 统一接口, 特征提取 |\n| 10 | 图像去噪（多模型） | [synthetic_denoising](tracks\u002Fvision\u002Flesson_10_synthetic_denoising\u002F) | 合成噪声建模, 去噪回归 |\n| 11 | YOLACT 实例分割 | [synthetic_instance_segmentation_yolact](tracks\u002Fvision\u002Flesson_11_synthetic_instance_segmentation_yolact\u002F) | Prototype + Coefficients |\n| 12 | YOLO 风格目标检测 | [synthetic_detection_yolo](tracks\u002Fvision\u002Flesson_12_synthetic_detection_yolo\u002F) | Grid\u002FObjectness + BBox |\n| 13 | 行人检测（FCOS） | [synthetic_pedestrian_detection_fcos](tracks\u002Fvision\u002Flesson_13_synthetic_pedestrian_detection_fcos\u002F) | Anchor-free 检测头 |\n| 14 | 视频多目标跟踪（MOT） | [video_mot_basics](tracks\u002Fvision\u002Flesson_14_video_mot_basics\u002F) | 多目标轨迹预测, Presence + IoU |\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>支持的 Vision Backbones（208 算法族 \u002F 736 架构 ID）\u003C\u002Fb>\u003C\u002Fsummary>\n\n| 类别 | 代表架构 |\n|------|---------|\n| 经典 CNN | AlexNet, VGG, GoogLeNet, ResNet, DenseNet, SqueezeNet |\n| 高效网络 | MobileNet v1-v4, EfficientNet, GhostNet v1\u002Fv2, ShuffleNet, MNASNet, FBNet, MicroNet |\n| 注意力 CNN | SENet, CBAM, BAM, ECA-Net, SK-Net, CoordAtt, SimAM, Triplet Attention |\n| 现代 CNN | ConvNeXt v1\u002Fv2, RepVGG, RepLKNet, InceptionNeXt, HorNet, FocalNet, SLaK |\n| Vision Transformer | ViT, DeiT, DeiT3, BEiT, EVA, CaiT, CrossViT, Swin v2, CSwin, MAE-ViT |\n| 高效 Transformer | EfficientViT, TinyViT, EdgeViT, LightViT, FastViT, FasterViT, SwiftFormer |\n| MLP 系列 | MLP-Mixer, gMLP, ResMLP, FNet, CycleMLP, AS-MLP, WaveMLP, MorphMLP |\n| Hybrid | CoAtNet, MobileFormer, ConvFormer, Uniformer, CMT, MaxViT, MobileViT v1-v3 |\n| 特殊结构 | CapsNet, ScatterNet, FractalNet, HighwayNet, HRNet, NAS 系列 |\n\n> 完整列表见 `python -m dlhub.vision.backbones.catalog --list`，所有 backbone 均为纯 PyTorch 本地实现。\n\n\u003C\u002Fdetails>\n\n---\n\n### 📝 3. 自然语言处理\n\n> 从 toy 文本分类到 Transformer、NER、阅读理解。\n\n| 序号 | 项目 | 代码文档 | 核心概念 |\n|------|------|----------|----------|\n| 1 | Embedding + FC 文本分类 | [toy_text_classification](tracks\u002Fnlp\u002Flesson_01_toy_text_classification\u002F) | 词嵌入, 词袋 |\n| 2 | Transformer Encoder 文本分类 | [toy_text_classification_transformer](tracks\u002Fnlp\u002Flesson_02_toy_text_classification_transformer\u002F) | Self-Attention, 位置编码 |\n| 3 | BiLSTM 命名实体识别 | [toy_ner_bilstm](tracks\u002Fnlp\u002Flesson_03_toy_ner_bilstm\u002F) | 序列标注, BIO 标签 |\n| 4 | Seq2Seq + Attention 序列生成 | [toy_seq2seq_attention_generation](tracks\u002Fnlp\u002Flesson_04_toy_seq2seq_attention_generation\u002F) | Encoder-Decoder, Bahdanau Attention |\n| 5 | TextCNN 文本分类 | [toy_text_classification_textcnn](tracks\u002Fnlp\u002Flesson_05_toy_text_classification_textcnn\u002F) | 多尺度卷积核, 文本特征 |\n| 6 | BiLSTM 文本分类 | [toy_text_classification_bilstm](tracks\u002Fnlp\u002Flesson_06_toy_text_classification_bilstm\u002F) | 双向 LSTM, 隐藏状态 |\n| 7 | Span Prediction 阅读理解 | [reading_comprehension](tracks\u002Fnlp\u002Flesson_07_reading_comprehension\u002F) | SQuAD 风格, Start\u002FEnd Logits |\n\n---\n\n### 🕸️ 4. 图神经网络\n\n> 最丰富的 track — 从 toy 图分类到 Cora 节点分类、图嵌入、异构图推荐。\n\n**图分类**\n\n| 序号 | 项目 | 代码文档 | 核心概念 |\n|------|------|----------|----------|\n| 1 | GCN 图分类 | [toy_graph_classification](tracks\u002Fgnn\u002Flesson_01_toy_graph_classification\u002F) | 邻接矩阵, 消息传递 |\n| 2 | GIN 图分类 | [gin_toy_graph_classification](tracks\u002Fgnn\u002Flesson_02_gin_toy_graph_classification\u002F) | WL Test, 图同构 |\n| 3 | GAT 图分类 | [gat_toy_graph_classification](tracks\u002Fgnn\u002Flesson_03_gat_toy_graph_classification\u002F) | 注意力系数, 多头注意力 |\n\n**节点分类**\n\n| 序号 | 项目 | 代码文档 | 核心概念 |\n|------|------|----------|----------|\n| 4 | GCN Cora 节点分类 | [cora_node_classification_gcn](tracks\u002Fgnn\u002Flesson_04_cora_node_classification_gcn\u002F) | 半监督学习, 谱方法 |\n| 5 | Label Propagation Cora | [label_propagation_cora](tracks\u002Fgnn\u002Flesson_05_label_propagation_cora\u002F) | 经典基线, 无参数方法 |\n| 6 | GraphSAGE Cora | [graphsage_cora](tracks\u002Fgnn\u002Flesson_06_graphsage_cora\u002F) | 采样聚合, 归纳学习 |\n\n**嵌入与进阶**\n\n| 序号 | 项目 | 代码文档 | 核心概念 |\n|------|------|----------|----------|\n| 7 | SDNE 节点嵌入 | [sdne_karate_embedding](tracks\u002Fgnn\u002Flesson_07_sdne_karate_embedding\u002F) | 自编码器, 一阶\u002F二阶近似 |\n| 8 | LINE 节点嵌入 | [line_karate_embedding](tracks\u002Fgnn\u002Flesson_08_line_karate_embedding\u002F) | 大规模网络, 边采样 |\n| 9 | Metapath2Vec 异构图嵌入 | [metapath2vec_toy_hetero_embedding](tracks\u002Fgnn\u002Flesson_09_metapath2vec_toy_hetero_embedding\u002F) | 元路径, 异构随机游走 |\n| 10 | PinSAGE 推荐 | [pinsage_toy_recommender](tracks\u002Fgnn\u002Flesson_10_pinsage_toy_recommender\u002F) | 随机游走采样, 工业级图推荐 |\n| 11 | R-GCN 关系图节点分类 | [rgcn_toy_node_classification](tracks\u002Fgnn\u002Flesson_11_rgcn_toy_node_classification\u002F) | 关系特定权重, 知识图谱 |\n\n---\n\n### ☁️ 5. 点云\n\n> 3D 点云分类：PointNet → DGCNN → PointNet++ → 30+ Backbone Zoo。\n\n| 序号 | 项目 | 代码文档 | 核心概念 |\n|------|------|----------|----------|\n| 1 | PointNet 点云分类 | [pointnet_toy_classification](tracks\u002Fpointcloud\u002Flesson_01_pointnet_toy_classification\u002F) | 点集排列不变性, T-Net |\n| 2 | DGCNN 点云分类 | [dgcnn_toy_classification](tracks\u002Fpointcloud\u002Flesson_02_dgcnn_toy_classification\u002F) | 动态图, EdgeConv |\n| 3 | PointNet++ 点云分类 | [pointnet2_toy_classification](tracks\u002Fpointcloud\u002Flesson_03_pointnet2_toy_classification\u002F) | 层级采样, Set Abstraction |\n| 4 | 30+ Backbone Zoo 对比 | [pointcloud_zoo_toy_classification](tracks\u002Fpointcloud\u002Flesson_04_pointcloud_zoo_toy_classification\u002F) | 统一接口, Backbone 对比 |\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>支持的 Point Cloud Backbones（30 算法 \u002F 64 架构 ID）\u003C\u002Fb>\u003C\u002Fsummary>\n\n| 类别 | 架构 |\n|------|------|\n| Set Models | PointNet, PointNet++, DeepSets |\n| Graph Models | DGCNN, PointGAT, PointGCN, PointWeb |\n| MLP Models | PointMLP, PointMixer, PointNeXt |\n| Transformer | PCT, Point Transformer, PointBERT, PointMAE |\n| Conv Models | KPConv, PointCNN, PointConv, ShellNet |\n| Extra | CurveNet, GDANet, PAConv, PVCNN, RandLANet, RSCNN, SpiderCNN 等 |\n\n\u003C\u002Fdetails>\n\n---\n\n### 🎨 6. 生成模型\n\n> VAE 和 GAN 的最小实现 — 支持 `--dataset fake` 离线冒烟。\n\n| 序号 | 项目 | 代码文档 | 核心概念 |\n|------|------|----------|----------|\n| 1 | VAE 重建 & 生成 | [vae_mnist](tracks\u002Fgenerative\u002Flesson_01_vae_mnist\u002F) | 重参数化技巧, KL 散度, ELBO |\n| 2 | GAN 生成 | [gan_mnist](tracks\u002Fgenerative\u002Flesson_02_gan_mnist\u002F) | 生成器\u002F判别器对抗, 纳什均衡 |\n\n---\n\n### 🤖 7. LLM \u002F 大语言模型\n\n> 玩具因果语言模型 — 从零搭建 Transformer 生成模型。\n\n| 序号 | 项目 | 代码文档 | 核心概念 |\n|------|------|----------|----------|\n| 1 | Transformer 文本生成 | [toy_causal_lm_transformer](tracks\u002Fllm\u002Flesson_01_toy_causal_lm_transformer\u002F) | Causal Mask, 自回归解码 |\n\n> [!NOTE]\n> `resources\u002Fpdfs\u002Fllms\u002F` 下保留了 50+ 篇 LLM 相关论文与笔记，包括 PaLM、大模型综述等，可作为延伸阅读。\n\n---\n\n### 🌐 8. 多模态\n\n> 从 CLIP 双塔对齐到 LLaVA 指令跟随，再到开放词汇检测、时序定位 — 16 步走完现代视觉语言建模核心脉络。\n\n| 序号 | 项目 | 代码文档 | 核心概念 |\n|------|------|----------|----------|\n| 1 | CLIP-Style 检索 | [lesson_01_clip_toy_retrieval](tracks\u002Fmultimodal\u002Flesson_01_clip_toy_retrieval\u002F) | 对比学习, 双塔编码器 |\n| 2 | BLIP-Lite 描述 + ITM | [lesson_02_blip_toy_captioning](tracks\u002Fmultimodal\u002Flesson_02_blip_toy_captioning\u002F) | 视觉 token 融合, ITM |\n| 3 | LLaVA-Lite 指令 VLM | [lesson_03_llava_toy_instruction_vlm](tracks\u002Fmultimodal\u002Flesson_03_llava_toy_instruction_vlm\u002F) | 视觉前缀, 指令跟随 |\n| 4 | 基于描述的定位 | [lesson_04_grounding_toy_refexp](tracks\u002Fmultimodal\u002Flesson_04_grounding_toy_refexp\u002F) | 指代表达, Box 回归 |\n| 5 | 掩膜定位 | [lesson_05_mask_grounding_toy_refexp](tracks\u002Fmultimodal\u002Flesson_05_mask_grounding_toy_refexp\u002F) | 文本条件 Mask 预测 |\n| 6 | Flamingo 交错 VLM | [lesson_06_flamingo_toy_interleaved_vlm](tracks\u002Fmultimodal\u002Flesson_06_flamingo_toy_interleaved_vlm\u002F) | 交错图文, Few-shot |\n| 7 | Q-Former 桥接 VLM | [lesson_07_qformer_toy_bridge_vlm](tracks\u002Fmultimodal\u002Flesson_07_qformer_toy_bridge_vlm\u002F) | Cross-attention 瓶颈 |\n| 8 | Perceiver Resampler VLM | [lesson_08_perceiver_resampler_toy_vlm](tracks\u002Fmultimodal\u002Flesson_08_perceiver_resampler_toy_vlm\u002F) | 多视图 token 池化 |\n| 9 | PaliGemma 多任务 VLM | [lesson_09_paligemma_toy_siglip_decoder_vlm](tracks\u002Fmultimodal\u002Flesson_09_paligemma_toy_siglip_decoder_vlm\u002F) | 提示式多任务 |\n| 10 | OWL-ViT 开放词汇检测 | [lesson_10_owlvit_toy_open_vocab_detection](tracks\u002Fmultimodal\u002Flesson_10_owlvit_toy_open_vocab_detection\u002F) | 开放词汇检测 |\n| 11 | Grounded-SAM 分割 | [lesson_11_grounded_sam_toy_open_vocab_segmentation](tracks\u002Fmultimodal\u002Flesson_11_grounded_sam_toy_open_vocab_segmentation\u002F) | 开放词汇分割 |\n| 12 | Key-Value OCR 文档 VLM | [lesson_12_key_value_ocr_toy_doc_vlm](tracks\u002Fmultimodal\u002Flesson_12_key_value_ocr_toy_doc_vlm\u002F) | 文档字段提取 |\n| 13 | 视频 VLM 时序问答 | [lesson_13_video_vlm_toy_temporal_qa](tracks\u002Fmultimodal\u002Flesson_13_video_vlm_toy_temporal_qa\u002F) | 短视频 QA |\n| 14 | BMN 时序定位 | [lesson_14_bmn_toy_temporal_grounding](tracks\u002Fmultimodal\u002Flesson_14_bmn_toy_temporal_grounding\u002F) | 时序定位, 边界预测 |\n| 15 | 2D-TAN 时序定位 | [lesson_15_2dtan_toy_temporal_grounding](tracks\u002Fmultimodal\u002Flesson_15_2dtan_toy_temporal_grounding\u002F) | 密集时序段图 |\n| 16 | 多尺度 2D-TAN | [lesson_16_multiscale_2dtan_toy_temporal_grounding](tracks\u002Fmultimodal\u002Flesson_16_multiscale_2dtan_toy_temporal_grounding\u002F) | 多尺度时序金字塔 |\n\n```bash\n# 冒烟测试 Multimodal lesson\npython -m tracks.multimodal.lesson_01_clip_toy_retrieval.train \\\n  --device cpu --epochs 1 --max-train-batches 2 --max-eval-batches 1\n```\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>VLM 动物园 — 20 个视觉语言模型家族（教学实现 + 时间线）\u003C\u002Fb>\u003C\u002Fsummary>\n\n| 家族 | 年份 | 核心创新 |\n|--------|------|---------|\n| CLIP | 2021 | 对比图文预训练 |\n| ALIGN | 2021 | 大规模噪声对比学习 |\n| ViLT | 2021 | Patch 级视觉语言 Transformer |\n| SimVLM | 2021 | 简单视觉语言预训练 |\n| ALBEF | 2021 | 先对齐再融合 |\n| LiT | 2022 | 锁定图像的文本微调 |\n| BLIP | 2022 | 引导式图文预训练 |\n| CoCa | 2022 | 对比式描述器 |\n| OFA | 2022 | 统一架构、任务、模态 |\n| Flamingo | 2022 | 交错图文视觉语言模型 |\n| PaLI | 2022 | Pathways 图文模型 |\n| BLIP-2 | 2023 | Q-Former 桥接视觉与 LLM |\n| InstructBLIP | 2023 | 指令微调 BLIP-2 |\n| LLaVA | 2023 | 视觉指令微调 |\n| MiniGPT-4 | 2023 | 投影前缀视觉 LLM |\n| Kosmos-2 | 2023 | 接地多模态 LLM |\n| mPLUG-Owl2 | 2023 | 模态自适应模块 |\n| CogVLM | 2023 | LLM 层内视觉专家 |\n| PaLI-X | 2023 | 缩放版 Pathways 图文模型 |\n| Qwen-VL | 2023 | 通义千问视觉语言模型 |\n\n> 完整列表与变体见 `python scripts\u002Fvlm_zoo.py --list`\n\n\u003C\u002Fdetails>\n\n---\n\n## 模型动物园\n\n> 全领域统一模型动物园 — 纯 PyTorch 本地实现，无需下载预训练权重，2500+ 架构 ID 一行切换\n\n### 动物园子系统总览（21 个子系统）\n\n| 领域 | 子系统 | 算法族 | CLI 脚本 |\n|------|--------|--------|---------|\n| Vision | Backbones | 208 族 \u002F 736 IDs | `scripts\u002Fvision_zoo.py` |\n| Vision | Detection (2D) | ~120 | `scripts\u002Fdetection_zoo.py` |\n| Vision | Instance Segmentation | 40 | `scripts\u002Finstance_segmentation_zoo.py` |\n| Vision | Panoptic Segmentation | 40 | `scripts\u002Fpanoptic_segmentation_zoo.py` |\n| Vision | Lane Detection | 24 | `scripts\u002Flane_detection_zoo.py` |\n| Vision | Co-segmentation | 6 | `scripts\u002Fco_segmentation_zoo.py` |\n| Vision | 细粒度识别 | 72 | `scripts\u002Ffine_grained_recognition_zoo.py` |\n| Vision | 行动识别 | 22 | `scripts\u002Faction_recognition_zoo.py` |\n| Vision | MOT (2D) | 81 | `scripts\u002Fmot_zoo.py` |\n| NLP | Text Encoders | 49 族 \u002F 813 IDs | `scripts\u002Fnlp_zoo.py` |\n| Point Cloud | Backbones | 30 族 \u002F 64 IDs | `scripts\u002Fpointcloud_zoo.py` |\n| Point Cloud | 3D Detection | 40 | `scripts\u002Fdetection3d_zoo.py` |\n| Point Cloud | 3D Segmentation | 40 | `scripts\u002Fsegmentation3d_zoo.py` |\n| Point Cloud | 3D Instance Seg | 30 | `scripts\u002Finstance_segmentation3d_zoo.py` |\n| Point Cloud | 3D Tracking | 131 | `scripts\u002Ftracking3d_zoo.py` |\n| Multimodal | VLM | 20 | `scripts\u002Fvlm_zoo.py` |\n| Generative | GAN | 24 | `scripts\u002Fgan_zoo.py` |\n| Generative | Diffusion | 12 | `scripts\u002Fdiffusion_zoo.py` |\n| Federated | FL Strategies | 36 | `scripts\u002Ffederated_zoo.py` |\n\n所有 Zoo 遵循相同的设计模式：\n\n- **一文件一算法族** — 如 `resnet.py` 包含 ResNet-18\u002F34\u002F50\u002F101 所有变体\n- **Lazy Import** — 仅在使用时加载，启动零开销\n- **统一接口** — `build(arch_id, num_classes=...)` 即可构建任意模型\n- **CLI 工具** — `--list` 列表、`--search` 搜索、`--smoke` 冒烟测试\n\n---\n\n### Vision Zoo \u002F 736 Architectures\n\n```bash\n# 列出所有可用架构\npython scripts\u002Fvision_zoo.py --list\n\n# 搜索特定架构\npython scripts\u002Fvision_zoo.py --search convnext\n\n# 冒烟测试\npython scripts\u002Fvision_zoo.py --smoke resnet50\n```\n\n#### 细粒度视觉识别（FGVC）本地模型库\n\n> 细粒度视觉识别（FGVC）模型族补充：双线性 \u002F 基于部件 \u002F Transformer \u002F 提示词 \u002F CLIP \u002F 多模态大语言模型推理（玩具级，无下载）\n\n```bash\npython scripts\u002Ffine_grained_recognition_zoo.py --list\npython scripts\u002Ffine_grained_recognition_zoo.py --search transfg\npython scripts\u002Ffine_grained_recognition_zoo.py --smoke dlfgvc:fine_r1_tiny\n```\n\n> 时间线与方法说明见 `dlhub\u002Fvision\u002Ffine_grained_recognition\u002FREADME.md`\n\n#### 行为识别（视频 + 骨骼）本地模型库\n\n> 行为识别（动作识别）模型族补充：视频 (NCTHW) + 骨骼 (NCTV)，玩具级，无下载\n\n```bash\npython scripts\u002Faction_recognition_zoo.py --list\npython scripts\u002Faction_recognition_zoo.py --search stgcn\npython scripts\u002Faction_recognition_zoo.py --smoke dlactv:c3d_tiny\npython scripts\u002Faction_recognition_zoo.py --smoke dlacts:stgcn_tiny\n```\n\n> 时间线与方法说明见 `dlhub\u002Fvision\u002Faction_recognition\u002FREADME.md`\n\n#### 多目标跟踪（MOT）本地模型库\n\n> 多目标跟踪模型族补充：2D 单相机 MOT，80 个算法族（每族 `tiny\u002Fsmall\u002Fbase`），玩具级，无下载\n\n```bash\npython scripts\u002Fmot_zoo.py --list\npython scripts\u002Fmot_zoo.py --search bytetrack\npython scripts\u002Fmot_zoo.py --timeline\npython scripts\u002Fmot_zoo.py --recommend realtime --top-k 8 --variant tiny\npython scripts\u002Fmot_zoo.py --recommend occlusion --top-k 8 --variant tiny --emit-train-cmds\npython scripts\u002Fmot_zoo.py --recommend realtime --top-k 3 --variant tiny --run-train-cmds\npython scripts\u002Fmot_zoo.py --recommend realtime --top-k 3 --variant tiny --run-train-cmds --skip-existing\npython scripts\u002Fmot_zoo.py --recommend realtime --top-k 3 --variant tiny --run-train-cmds --summary-only\npython scripts\u002Fmot_zoo.py --recommend realtime --top-k 3 --variant tiny --run-train-cmds --rank-by loss\npython scripts\u002Fmot_zoo.py --recommend realtime --top-k 3 --variant tiny --run-train-cmds --save-leaderboard outputs\u002Fvision\u002Fmot_leaderboard.json\npython scripts\u002Fmot_zoo.py --recommend realtime --top-k 3 --variant tiny --run-train-cmds --save-artifacts-dir outputs\u002Fvision\u002Fmot_artifacts\npython scripts\u002Fmot_zoo.py --recommend realtime --top-k 3 --variant tiny --run-train-cmds --save-artifacts-dir auto\npython scripts\u002Fmot_zoo.py --smoke mot2d:sort_tiny\n```\n\n> 组别、选型建议与 80 族列表见 `dlhub\u002Fvision\u002Fmot\u002FREADME.md`\n\n#### 目标检测模型库（2D）\n\n> 2D 目标检测模型族：基于锚点 \u002F 无锚点 \u002F 基于Transformer \u002F 轻量级检测器，约120种算法\n\n```bash\npython scripts\u002Fdetection_zoo.py --list\npython scripts\u002Fdetection_zoo.py --search fcos\npython scripts\u002Fdetection_zoo.py --smoke dldet:fcos_r50_tiny\n```\n\n#### 实例分割与全景分割模型库\n\n> 实例分割 + 全景分割：Mask R-CNN \u002F YOLACT \u002F Panoptic FPN 等\n\n```bash\n# 实例分割\npython scripts\u002Finstance_segmentation_zoo.py --list\npython scripts\u002Finstance_segmentation_zoo.py --smoke dlinsseg:maskrcnn_r50_tiny\n\n# 全景分割\npython scripts\u002Fpanoptic_segmentation_zoo.py --list\npython scripts\u002Fpanoptic_segmentation_zoo.py --smoke dlpanseg:panfpn_r50_tiny\n```\n\n#### 车道线检测模型库\n\n> 车道线检测模型族：24种算法，涵盖锚点式 \u002F 参数化 \u002F 分割式 \u002F 关键点式 \u002F Transformer五大范式\n\n```bash\npython scripts\u002Flane_detection_zoo.py --list\npython scripts\u002Flane_detection_zoo.py --search laneatt\npython scripts\u002Flane_detection_zoo.py --smoke dllane:laneatt_r18_tiny\n```\n\n#### 协同分割模型库\n\n> 协同分割模型族：6种算法，用于组别或成对级别的图像共同分割\n\n```bash\npython scripts\u002Fco_segmentation_zoo.py --list\npython scripts\u002Fco_segmentation_zoo.py --smoke dlcoseg:coatt_tiny\n```\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>主要架构分类\u003C\u002Fb>\u003C\u002Fsummary>\n\n| 类别 | 代表架构 | 数量 |\n|------|---------|------|\n| 经典 CNN | AlexNet, VGG, GoogLeNet, ResNet, DenseNet | ~60 |\n| 高效网络 | MobileNet v1-v4, EfficientNet v1\u002Fv2, GhostNet, ShuffleNet | ~80 |\n| 注意力 CNN | SENet, CBAM, BAM, ECA-Net, SK-Net, CoordAtt | ~50 |\n| 现代 CNN | ConvNeXt v1\u002Fv2, RepVGG, RepLKNet, HorNet, FocalNet | ~40 |\n| Vision Transformer | ViT, DeiT, BEiT, Swin v2, CSwin, CaiT, CrossViT | ~120 |\n| 高效 Transformer | EfficientViT, TinyViT, EdgeViT, FastViT, SwiftFormer | ~60 |\n| MLP 系列 | MLP-Mixer, gMLP, ResMLP, FNet, CycleMLP, WaveMLP | ~50 |\n| 混合架构 | CoAtNet, MobileFormer, Uniformer, MaxViT, MobileViT | ~60 |\n| 特殊结构 | CapsNet, FractalNet, HRNet, NAS 系列, Mamba | ~50 |\n\n\u003C\u002Fdetails>\n\n---\n\n### 自然语言处理模型库 \u002F 813种架构\n\n```bash\n# 列出所有可用架构\npython scripts\u002Fnlp_zoo.py --list\n\n# 搜索特定架构\npython scripts\u002Fnlp_zoo.py --search bert\n\n# 冒烟测试\npython scripts\u002Fnlp_zoo.py --smoke bert_base\n```\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>主要架构分类\u003C\u002Fb>\u003C\u002Fsummary>\n\n| 类别 | 代表架构 |\n|------|---------|\n| Transformer | BERT, GPT, T5, ALBERT, DistilBERT, Longformer, BigBird |\n| 高效 Transformer | Performer, Nystromformer, FNet, Synthesizer, Linformer |\n| RNN系列 | LSTM, GRU, BiLSTM, BiGRU, IndRNN, SRU, QRNN |\n| CNN系列 | TextCNN, InceptionCNN, DPCNN, VDCNN, ResConv |\n| MLP系列 | gMLP, ResMLP, MLP-Mixer |\n| 轻量级 | FastText, WaveNet, TCN |\n\n\u003C\u002Fdetails>\n\n---\n\n### 点云模型库 \u002F 64种架构\n\n```bash\n# 在 lesson_04 中切换骨干网络\npython -m tracks.pointcloud.lesson_04_pointcloud_zoo_toy_classification.train \\\n  --arch pointnet --dataset fake --epochs 1\n```\n\n> 详细列表见 [点云赛道](#-point-cloud--点云) 的骨干网络表格。\n\n#### 3D目标检测模型库\n\n> 3D 目标检测模型族：40种算法，基于点云 \u002F 体素 \u002F 柱状图 \u002F 多模态\n\n```bash\npython scripts\u002Fdetection3d_zoo.py --list\npython scripts\u002Fdetection3d_zoo.py --search pointpillars\npython scripts\u002Fdetection3d_zoo.py --smoke dldet3d:pointpillars_tiny\n```\n\n#### 3D语义分割模型库\n\n> 3D 语义分割模型族：40种算法，基于点云 \u002F 体素 \u002F 范围视图 \u002F 融合\n\n```bash\npython scripts\u002Fsegmentation3d_zoo.py --list\npython scripts\u002Fsegmentation3d_zoo.py --search randlanet\npython scripts\u002Fsegmentation3d_zoo.py --smoke dlseg3d:randlanet_tiny\n```\n\n#### 3D实例分割模型库\n\n> 3D 实例分割模型族：30种算法，基于提案 \u002F 聚类 \u002F 全景分割\n\n```bash\npython scripts\u002Finstance_segmentation3d_zoo.py --list\npython scripts\u002Finstance_segmentation3d_zoo.py --smoke dlinsseg3d:pointgroup_tiny\n```\n\n#### 3D多目标跟踪模型库\n\n> 3D 多目标跟踪模型族：131种算法，基于激光雷达 \u002F 摄像头-激光雷达 \u002F 雷达-激光雷达\n\n```bash\npython scripts\u002Ftracking3d_zoo.py --list\npython scripts\u002Ftracking3d_zoo.py --search centerpoint\npython scripts\u002Ftracking3d_zoo.py --smoke dltrk3d:centerpoint_tiny\n```\n\n---\n\n### 视觉语言模型库 \u002F 20个家族\n\n> 视觉语言模型族：20个家族，从 CLIP 到 Qwen-VL，纯 PyTorch 教学实现\n\n```bash\npython scripts\u002Fvlm_zoo.py --list\npython scripts\u002Fvlm_zoo.py --search llava\npython scripts\u002Fvlm_zoo.py --timeline\npython scripts\u002Fvlm_zoo.py --smoke dlvlm:clip_tiny\n```\n\n> 详细家族列表见 [多模态赛道](#-multimodal--多模态) 的视觉语言模型库表格。\n\n---\n\n### 生成模型库 \u002F GAN + 扩散模型\n\n> 生成模型族：GAN（24种算法）+ 扩散模型（12种算法），纯 PyTorch 玩具级实现\n\n```bash\n# GAN模型库\npython scripts\u002Fgan_zoo.py --list\npython scripts\u002Fgan_zoo.py --search stylegan\npython scripts\u002Fgan_zoo.py --smoke dlgan:dcgan_tiny\n\n# 扩散动物园\npython scripts\u002Fdiffusion_zoo.py --list\npython scripts\u002Fdiffusion_zoo.py --search ddpm\npython scripts\u002Fdiffusion_zoo.py --smoke dldiff:ddpm_tiny\n```\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>GAN 主要架构\u003C\u002Fb>\u003C\u002Fsummary>\n\n| 类别 | 代表架构 |\n|------|---------|\n| 无条件 GAN | DCGAN, WGAN, WGAN-GP, LSGAN, SNGAN |\n| 条件 GAN | cGAN, ACGAN, InfoGAN, Pix2Pix |\n| 图像翻译 | CycleGAN, StarGAN, UNIT, MUNIT |\n| 高分辨率 | ProGAN, StyleGAN, StyleGAN2, StyleGAN3 |\n| 轻量级 | LightGAN, FastGAN |\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>Diffusion 主要架构\u003C\u002Fb>\u003C\u002Fsummary>\n\n| 类别 | 代表架构 |\n|------|---------|\n| 基础扩散 | DDPM, DDIM, Score-SDE |\n| 条件扩散 | Classifier-Guided, Classifier-Free |\n| 隐空间扩散 | Latent Diffusion, Stable Diffusion |\n| 快速采样 | DPM-Solver, Consistency Models |\n\n\u003C\u002Fdetails>\n\n---\n\n## 联邦学习动物园\n\n> 联邦学习策略库 — 36 种联邦优化 \u002F 个性化 \u002F 隐私策略，纯 PyTorch 教学实现\n\n```bash\npython scripts\u002Ffederated_zoo.py --list\npython scripts\u002Ffederated_zoo.py --search fedavg\npython scripts\u002Ffederated_zoo.py --timeline\n```\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>全部 36 种策略（按 13 个分组）\u003C\u002Fb>\u003C\u002Fsummary>\n\n| 分组 | 策略 | 说明 |\n|------|------|------|\n| **Optimization** | FedAvg | 迭代式模型平均 |\n| | FedProx | 近端正则化 FedAvg |\n| | FedNova | 归一化平均 |\n| | FedDyn | 动态正则化联邦优化 |\n| **Server Optimizer** | FedAdam | 服务端 Adam |\n| | FedYogi | 服务端 Yogi |\n| **Control Variate** | SCAFFOLD | 控制变量修正客户端漂移 |\n| **Feature Normalization** | FedBN | 本地 Batch Normalization |\n| **Personalization** | FedPer | Base\u002FHead 分割个性化 |\n| | APFL | 自适应个性化联邦学习 |\n| | Ditto | 近端本地头个性化 |\n| | pFedMe | 元正则化个性化 |\n| | MOON | 模型对比个性化 |\n| | Per-FedAvg | 元学习个性化 |\n| | FedRep | 共享表示 + 个性化头 |\n| | FedAMP | 注意力消息传递个性化 |\n| | FedProto | 原型化联邦学习 |\n| | IFCA | 聚类个性化联邦学习 |\n| **Fairness** | q-FedAvg | 公平资源分配 |\n| | AFL | 不可知联邦学习 |\n| | TERM | 倾斜经验风险最小化 |\n| **Long-tail Robustness** | FedRS | 类不平衡重平衡 Softmax |\n| | FedLC | 长尾 Logit 校准 |\n| | FedRoD | 鲁棒蒸馏 |\n| **Split Learning** | SplitFed | 联邦分割学习 |\n| | SplitFedV2 | 增强分割联邦混合训练 |\n| **Heterogeneous Width** | HeteroFL | 异构宽度联邦学习 |\n| | FjORD | 联邦 Dropout |\n| **Distillation** | FedGKT | 联邦组知识转移 |\n| | FedDF | 集成蒸馏联邦学习 |\n| **Privacy** | DP-FedAvg | 差分隐私联邦平均 |\n| | DP-FedProx | 差分隐私近端联邦学习 |\n| **Compression** | FedPAQ | 周期平均 + 量化 |\n| | STC | 稀疏三值压缩 |\n| **Secure Aggregation** | SecureAgg | 隐私保护安全求和 |\n| | LightSecAgg | 轻量安全聚合 |\n\n\u003C\u002Fdetails>\n\n---\n\n## NumPy ML 算法\n\n> 纯 NumPy 手写经典机器学习算法 — 零深度学习依赖，理解算法本质\n\n| 类别 | 算法 | 文件 | 核心原理 |\n|------|------|------|---------|\n| **线性模型** | Linear Regression | `linear_models.py` | 最小二乘, 梯度下降 |\n| **线性模型** | Ridge Regression | `linear_models.py` | L2 正则化, 闭式解 |\n| **线性模型** | Logistic Regression | `linear_models.py` | Sigmoid, 交叉熵 |\n| **线性模型** | Softmax Regression | `linear_models.py` | Softmax, 多分类交叉熵 |\n| **核方法** | Linear SVM | `svm.py` | Hinge Loss, 最大间隔 |\n| **树模型** | Decision Tree | `decision_tree.py` | Gini 不纯度, 递归分裂 |\n| **集成方法** | Random Forest | `random_forest.py` | Bagging, 特征随机采样 |\n| **集成方法** | AdaBoost (Classification) | `adaboost.py` | Boosting, Decision Stumps |\n| **集成方法** | Gradient Boosting (Regression) | `gradient_boosting.py` | Boosting, 残差拟合 |\n| **概率模型** | Naive Bayes | `naive_bayes.py` | 条件独立, 平滑 |\n| **概率模型** | GMM | `gmm.py` | EM 算法, 高斯混合 |\n| **生成模型** | LDA \u002F QDA | `discriminant_analysis.py` | 高斯假设, 判别函数 |\n| **近邻** | KNN | `knn.py` | 距离度量, 多数投票 |\n| **聚类** | K-Means | `kmeans.py` | 质心迭代, Lloyd 算法 |\n| **聚类** | K-Medoids | `kmedoids.py` | Medoid, PAM |\n| **聚类** | Agglomerative Clustering | `clustering.py` | 层次聚类, Linkage |\n| **聚类** | DBSCAN | `clustering.py` | 密度聚类, 邻域扩展 |\n| **聚类** | Spectral Clustering | `spectral_clustering.py` | 图拉普拉斯, 特征向量 |\n| **降维** | PCA | `pca.py` | 特征值分解, 方差最大化 |\n| **降维** | NMF | `nmf.py` | 非负分解, 乘法更新 |\n| **降维** | FastICA | `ica.py` | 独立成分, Fixed-point |\n| **降维** | Isomap | `isomap.py` | 测地距离, MDS |\n| **序列模型** | Markov Chain | `markov_chain.py` | 转移矩阵, 平滑 |\n| **序列模型** | N-gram LM | `ngram.py` | 计数, Laplace 平滑 |\n| **序列模型** | Categorical HMM | `hmm.py` | Forward \u002F Viterbi, log-space |\n| **神经网络** | Perceptron | `perceptron.py` | 感知机学习规则 |\n| **神经网络** | MLP | `mlp.py` | 反向传播, 链式法则 |\n\n\u003Csub>所有文件位于 `ml_algorithms\u002Fpython\u002F`，使用 `@dataclass` 模式实现。\u003C\u002Fsub>\n\n---\n\n## 优化工具包\n\n> 纯 NumPy 实现 — 理解优化器和调度器的数学本质\n\n\u003Ctable>\n\u003Ctr>\n\u003Ctd valign=\"top\" width=\"25%\">\n\n**Optimizers**\n| 算法 | 特点 |\n|------|------|\n| SGD | 基础随机梯度下降 |\n| Momentum | 动量加速 |\n| RMSProp | 自适应学习率 |\n| Adagrad | 稀疏梯度友好 |\n| Adam | Momentum + RMSProp |\n\n\u003C\u002Ftd>\n\u003Ctd valign=\"top\" width=\"25%\">\n\n**LR Schedulers**\n| 策略 | 特点 |\n|------|------|\n| StepDecay | 阶梯式衰减 |\n| ExponentialDecay | 指数衰减 |\n| CosineAnnealing | 余弦退火 |\n| WarmupCosine | 预热 + 余弦 |\n\n\u003C\u002Ftd>\n\u003Ctd valign=\"top\" width=\"25%\">\n\n**Losses**\n| 函数 | 用途 |\n|------|------|\n| MSE | 回归 |\n| MAE | 鲁棒回归 |\n| Binary CE | 二分类 |\n| Categorical CE | 多分类 |\n\n\u003C\u002Ftd>\n\u003Ctd valign=\"top\" width=\"25%\">\n\n**Metrics**\n| 指标 | 用途 |\n|------|------|\n| Accuracy | 分类准确率 |\n| Precision | 精确率 |\n| Recall \u002F F1 | 召回率 \u002F F1 |\n| R² Score | 回归拟合度 |\n\n\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>更多优化算法\u003C\u002Fb>\u003C\u002Fsummary>\n\n| 算法 | 目录 | 说明 |\n|------|------|------|\n| 蚁群优化 (ACO) | `optimization\u002FACO\u002F` | 旅行商问题求解，含原理图 |\n| 遗传算法 (GA) | `optimization\u002FGA\u002F` | 进化搜索，含流程图 |\n| 粒子群优化 (PSO) | `optimization\u002FPSO\u002F` | 群体智能优化 |\n| 层次分析法 (AHP) | `optimization\u002FAHP\u002F` | 多准则决策 |\n| Lasso 优化 | `optimization\u002FLasso\u002F` | L1 正则化路径，含可视化 |\n\n\u003C\u002Fdetails>\n\n---\n\n## 文档\n\n| 文档 | 说明 | 适合谁 |\n|------|------|--------|\n| [`ROADMAP.md`](docs\u002FROADMAP.md) | 学习路线图与推荐顺序 | 初学者 |\n| [`INSTALL.md`](docs\u002FINSTALL.md) | 安装指南 | 所有人 |\n| [`RUNNING.md`](docs\u002FRUNNING.md) | 如何运行 Lesson | 所有人 |\n| [`STRUCTURE.md`](docs\u002FSTRUCTURE.md) | 仓库结构详解 | 想深入了解的人 |\n| [`CONVENTIONS.md`](docs\u002FCONVENTIONS.md) | 运行 & 实验约定 | 贡献者 |\n| [`STYLEGUIDE.md`](docs\u002FSTYLEGUIDE.md) | 代码规范 | 贡献者 |\n| [`FAQ.md`](docs\u002FFAQ.md) | 常见问题 | 遇到问题时 |\n\n---\n\n## 设计理念\n\n```\n              ┌───────────────────────────────────────────────────────┐\n              │                   DL-Hub 设计理念                      │\n              ├──────────────┬──────────────┬─────────────────────────┤\n              │ Offline-first │  统一脚手架   │     可复现              │\n              │ 所有 lesson   │ 共享 dlhub\u002F  │ 种子 + 配置 + 日志      │\n              │ 支持离线冒烟   │ 训练框架      │ 每次实验可追溯          │\n              ├──────────────┼──────────────┼─────────────────────────┤\n              │   渐进式      │  测试覆盖     │  Model Zoo             │\n              │ 由浅入深       │ 126 pytest  │ 2500+ 架构 ID          │\n              │ 8 track 递进  │ CI 可集成    │ 全领域统一接口           │\n              └──────────────┴──────────────┴─────────────────────────┘\n```\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>详细说明\u003C\u002Fb>\u003C\u002Fsummary>\n\n- **Offline-first** — 所有 lesson 支持 `--dataset fake` 离线冒烟，无需下载任何数据集，10 秒内验证环境\n- **统一脚手架** — 所有 lesson 共享 `dlhub\u002F` 框架：训练循环、设备管理、种子、检查点、JSONL 指标记录\n- **可复现** — 种子管理 + 配置自动保存 + 指标日志，每次实验完整可追溯\n- **渐进式** — 从基础张量操作到 Vision Transformer、GraphSAGE、PointNet++、LLaVA，由浅入深，8 个 track 层层递进\n- **测试覆盖** — 126 pytest 测试文件覆盖框架核心与所有 track，支持 CI 集成\n- **Model Zoo** — 全领域（Vision \u002F NLP \u002F Point Cloud \u002F Multimodal \u002F Generative \u002F Federated）共 2500+ 架构 ID，纯 PyTorch 本地实现，统一接口一行切换\n\n\u003C\u002Fdetails>\n\n---\n\n## 贡献\n\n欢迎贡献！无论是修复 typo、补充 lesson 还是提出新的 track 想法。\n\n1. Fork 本仓库\n2. 创建你的分支 (`git checkout -b feature\u002Famazing-lesson`)\n3. 遵循 [`docs\u002FSTYLEGUIDE.md`](docs\u002FSTYLEGUIDE.md) 代码规范\n4. 确保 `python scripts\u002Fsmoke_check.py` 通过\n5. 提交 PR\n\n> [!NOTE]\n> 每个新 lesson 应包含：`model.py` \u002F `data.py` \u002F `train.py` \u002F `README.md`，并支持 `--dataset fake` 冒烟模式。详见 [`docs\u002FCONVENTIONS.md`](docs\u002FCONVENTIONS.md)。\n\n---\n\n## 引用\n\n如果本项目对你的学习或研究有帮助，欢迎引用：\n\n```bibtex\n@misc{dlhub2026,\n  title  = {DL-Hub: 一个统一的 PyTorch 深度学习学习项目},\n  author = {DL-Hub 贡献者},\n  year   = {2026},\n  url    = {https:\u002F\u002Fgithub.com\u002Fyour-username\u002FDL-Hub}\n}\n```\n\n---\n\n## 许可证\n\n本项目采用 [MIT 许可证](LICENSE) 开源。代码自由使用，`resources\u002Fpdfs\u002F` 下的论文版权归原作者所有。\n\n---\n\n\u003Cdiv align=\"center\">\n\n**为学习而建。为运行而建。**\n\n\u003Csub>如果觉得有帮助，欢迎 Star 支持 ⭐\u003C\u002Fsub>\n\n\u003C\u002Fdiv>","# DL-Hub 快速上手指南\n\nDL-Hub 是一个从零手写、循序渐进的 PyTorch 深度学习统一学习项目。它涵盖了视觉、NLP、图神经网络、大模型等 8 大领域，旨在帮助学习者真正“跑通代码、改得动、能验收”。\n\n## 1. 环境准备\n\n在开始之前，请确保你的开发环境满足以下要求：\n\n*   **操作系统**: Linux, macOS 或 Windows\n*   **Python 版本**: 3.10 或更高\n*   **硬件建议**: 支持 CUDA 的 NVIDIA GPU（可选，CPU 亦可运行冒烟测试）\n*   **前置知识**: 具备基础 Python 编程能力，了解线性代数基本概念。\n\n## 2. 安装步骤\n\n### 克隆项目\n首先，从 GitHub 克隆仓库并进入项目目录：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fskygazer42\u002FDL-Hub.git\ncd DL-Hub\n```\n\n### 安装依赖\n使用 `pip` 安装所需依赖包。\n> **国内用户加速建议**：推荐使用清华或阿里镜像源以加快下载速度。\n\n```bash\n# 使用默认源\npip install -r requirements.txt\n\n# 或使用清华镜像源 (推荐国内用户)\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n### 环境验证\n运行仓库级冒烟测试，确保环境配置正确：\n\n```bash\npython scripts\u002Fsmoke_check.py\n```\n\n## 3. 基本使用\n\nDL-Hub 的最大特色是支持**离线冒烟模式**。所有课程均支持 `--dataset fake` 参数，无需下载任何真实数据集，即可在 2 分钟内跑通完整训练流程。\n\n### 运行第一个 Lesson (Vision  track)\n以下命令将运行视觉领域的第一个课程（LeNet-5 MNIST 分类），使用伪造数据进行快速验证：\n\n```bash\npython -m tracks.vision.lesson_01_mnist_lenet.train \\\n  --dataset fake --epochs 1 \\\n  --max-train-batches 2 --max-eval-batches 2\n```\n\n### 浏览可用课程\n查看项目中所有可运行的课程列表：\n\n```bash\npython scripts\u002Frun_lesson.py --list\n```\n\n### 通用命令行参数\n所有课程均支持统一的 CLI 参数，常用参数如下：\n\n| 参数 | 说明 | 示例值 |\n| :--- | :--- | :--- |\n| `--dataset` | 数据模式 (`fake`为离线冒烟，`real`为真实数据) | `fake` |\n| `--epochs` | 训练轮数 | `10` |\n| `--batch-size` | 批大小 | `32` |\n| `--learning-rate` | 学习率 | `0.001` |\n| `--device` | 计算设备 (`cpu`, `cuda`, `mps`, `auto`) | `auto` |\n| `--max-train-batches` | 限制训练 batch 数量 (用于快速测试) | `2` |\n\n### 推荐学习路径\n如果你是初学者，建议按照以下顺序进阶：\n1.  **Foundations**: 张量操作与自动求导\n2.  **Vision**: 从 LeNet 到 ViT\n3.  **NLP**: 从词嵌入到 Transformer\n4.  **GNN \u002F Point Cloud \u002F Generative**: 专项领域深入\n5.  **LLM \u002F Multimodal**: 前沿大模型与多模态技术\n\n你可以参考项目中的 `Learning Path` 章节，选择\"Weekend Sprint\"（周末冲刺）或\"Full Curriculum\"（完整课程）模式进行学习。","某高校人工智能实验室的研究生团队正试图复现一篇关于“多模态大模型在医疗影像诊断中应用”的前沿论文，需要快速搭建从基础 CNN 到最新 VLM 架构的实验环境。\n\n### 没有 DL-Hub 时\n- **代码风格割裂**：团队成员各自从 GitHub 零散下载不同作者的代码，导致数据加载、训练循环和评估逻辑五花八门，合并代码时冲突不断，调试成本极高。\n- **环境配置噩梦**：每个项目依赖不同的 PyTorch 版本和第三方库，新人入职第一周往往全花在解决报错和配置环境中，无法立即开始算法研究。\n- **复现门槛过高**：想要对比经典模型（如 ResNet）与最新架构（如 ViT 或 LLaVA），需手动重写大量底层代码，且缺乏统一的“冒烟测试”机制，往往运行数小时后才发现数据管道有误。\n- **知识断层严重**：从基础机器学习到大模型的理论跨度大，缺乏循序渐进的实战代码指引，学生难以理解复杂架构的具体实现细节。\n\n### 使用 DL-Hub 后\n- **统一工程标准**：DL-Hub 提供了覆盖视觉、NLP、多模态等 8 大领域的统一训练脚手架，所有 2500+ 模型架构均采用一致的代码风格，团队成员可无缝切换和协作。\n- **极速启动验证**：利用 `--dataset fake` 功能，无需下载任何真实数据集即可在 2 分钟内跑通整个训练流程，迅速验证环境配置和代码逻辑的正确性。\n- **按需灵活扩展**：内置的 Model Zoo 让研究者能直接调用从 LeNet 到 LLaVA 的成熟架构，只需修改少量配置即可进行对比实验，将精力集中在核心算法创新上。\n- **系统化学习路径**：通过 76 节课程和 8 条学习轨道，团队成员能从零手写代码逐步过渡到复杂的大模型实战，真正实现了“跑得通、改得动、能验收”。\n\nDL-Hub 通过标准化的工程体系和丰富的模型库，将原本数周的环境搭建与代码重构工作压缩至小时级，让研发团队能专注于真正的算法创新。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fskygazer42_DL-Hub_5f6c8fd1.png","skygazer42",null,"https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fskygazer42_76c30576.png","\r\n\r\n\r\n","https:\u002F\u002Fgithub.com\u002Fskygazer42",[81,85,89,93,97],{"name":82,"color":83,"percentage":84},"Python","#3572A5",98.3,{"name":86,"color":87,"percentage":88},"TeX","#3D6117",1,{"name":90,"color":91,"percentage":92},"MATLAB","#e16737",0.7,{"name":94,"color":95,"percentage":96},"Makefile","#427819",0,{"name":98,"color":76,"percentage":96},"Limbo",1090,55,"2026-04-02T15:46:55","Linux, macOS, Windows","非必需。支持 CPU、NVIDIA GPU (CUDA) 及 Apple Silicon (MPS)。具体型号和显存未说明，可根据任务规模调整。","未说明",{"notes":106,"python":107,"dependencies":108},"项目支持离线冒烟测试（--dataset fake），无需下载数据集即可在 2 分钟内验证环境。设备参数可通过 --device 指定为 cpu、cuda、mps 或 auto。","3.10+",[109,110],"torch>=2.0","numpy>=1.24",[14,26],[113,114,115,116,117,118,119,120],"cv","deeplearning","llms","nlp","notes","project","spider","sql","2026-03-27T02:49:30.150509","2026-04-06T07:05:51.976926",[],[]]