AI-Research-SKILLs
AI-Research-SKILLs 是一个专为赋能 AI 智能体而设计的开源技能库,旨在让 Claude、Codex 或 Gemini 等模型化身具备全栈能力的"AI 科研助手”。它解决了当前 AI 研究中科研人员耗费大量时间调试基础设施、难以独立覆盖从创意构思到论文撰写全流程的痛点。通过提供 87 项涵盖 22 个专业领域的标准化技能,该工具让智能体能够自主执行文献调研、实验设计、模型训练、评估验证乃至最终的科学论文写作。
这套工具特别适合 AI 研究人员、机器学习工程师以及希望构建自动化科研工作流的开发者使用。其核心亮点在于独特的“双循环”自主研究架构:外层循环负责统筹整个科研生命周期,内层则灵活调用具体的领域专家技能。这些技能不仅覆盖了模型架构、微调、分布式训练等硬核工程环节,还包含了安全性对齐、机械可解释性等前沿方向。所有技能文档均源自官方仓库、真实 GitHub 议题及经过生产环境验证的工作流,确保了极高的专业度与实用性。借助 AI-Research-SKILLs,用户可以将繁琐的工程实现交给智能体,从而更专注于科学假设的探索与创新。
使用场景
某初创实验室的算法团队正试图复现一篇最新的分布式大模型训练论文,并在此基础上进行微调实验以验证新假设。
没有 AI-Research-SKILLs 时
- 研究人员需花费数天手动查阅 Megatron-LM、vLLM 等框架的官方文档及 GitHub Issues,排查环境配置与算子兼容性问题。
- 在从“想法”到“实验”的转化中,因缺乏标准化的工程模板,导致代码重构频繁,难以快速搭建可复现的分布式训练流水线。
- 团队精力被基础设施调试大量占用,原本用于验证核心假设和设计创新实验的时间被严重压缩,研发周期被迫拉长。
- 实验结果记录分散,缺乏统一的评估与观测技能支持,导致最终撰写技术报告时数据追溯困难,逻辑链条断裂。
使用 AI-Research-SKILLs 后
- AI 代理直接调用内置的“分布式训练”与“微调”技能包,自动匹配生产级代码模板,瞬间完成复杂框架的环境部署与接口对接。
- 通过"Autoresearch"技能编排,系统自主将文献调研转化为可执行代码,实现了从创意构思到实验运行的端到端自动化闭环。
- 研究人员只需关注高阶策略,AI-Research-SKILLs 接管了繁琐的工程实现,使假设验证效率提升数倍,加速科学发现进程。
- 依托内置的“评估”与“可观测性”技能,实验数据自动归档并生成结构化分析,为高质量论文写作提供了坚实的数据支撑。
AI-Research-SKILLs 将科研人员从重复的基础设施调试中解放出来,真正赋予 AI 代理独立执行从灵感萌芽到论文产出全生命周期研究的能力。
运行环境要求
- Linux
- macOS
- Windows
未说明 (具体需求取决于所选用的技能模块,如分布式训练或大模型推理通常需要 NVIDIA GPU)
未说明

快速开始
AI 研究 技能 库
最全面的开源技能库,使 AI 代理能够自主开展 AI 研究——从创意到论文撰写
87 项技能助力 2026 年的 AI 研究
查看全部 22 个类别
| 自动研究 (1) | 构思 (2) | ML 论文写作 (2) |
| 模型架构 (5) | 微调 (4) | 训练后处理 (8) |
| 分布式训练 (6) | 优化 (6) | 推理 (4) |
| 分词 (2) | 数据处理 (2) | 评估 (3) |
| 安全与对齐 (4) | 智能体 (4) | RAG (5) |
| 多模态 (7) | 提示工程 (4) | MLOps (3) |
| 可观测性 (2) | 基础设施 (3) | 机制解释 (4) |
| 新兴技术 (6) |
目录
我们的使命
我们赋能 AI 代理,使其能够自主进行 AI 研究——从文献综述和创意生成,到实验执行,再到论文撰写。该库既提供研究编排层(自动研究、构思、论文写作),也提供每个阶段所需的工程技能(训练、评估、部署)。
AI 研究代理系统示意图
迈向 AI 研究代理之路
现代 AI 研究需要掌握数十种专业工具和框架。研究人员往往花费大量时间调试基础设施,而非验证假设,这大大拖慢了科学发现的速度。我们提供的全面技能库,使 AI 代理能够自主完成整个研究周期——从头脑风暴到论文撰写。
- 自主研究——自动研究技能采用双环架构编排整个研究流程,并根据需要路由至各领域技能。
- 专业知识——每项领域技能都提供针对特定框架(Megatron-LM、vLLM、TRL 等)的深入且可投入生产的知识。
- 全链路覆盖——87 项技能覆盖完整的 AI 研究生命周期,从构思和文献综述,到实验设计和论文撰写。
- 研究级质量——文档源自官方仓库、真实的 GitHub 问题以及经过实战检验的生产流程。
可用的 AI 研究工程技能
质量胜于数量:每项技能都提供全面、专家级别的指导,包含真实代码示例、故障排除指南和可直接用于生产的流程。
📦 快速安装(推荐)
供人类使用——只需一条命令即可完成交互式安装:
npx @orchestra-research/ai-research-skills
供 AI 代理使用——只需让代理阅读欢迎文档,其余步骤将自动完成:
请阅读 https://www.orchestra-research.com/ai-research-skills/welcome.md,并按照说明安装和使用 AI 研究技能。
此操作将安装全部 87 项技能,加载自动研究编排层,并启动自主研究。
安装程序的功能
- 自动检测您已安装的编码代理
- 将技能安装至
~/.orchestra/skills/,并为每个代理创建符号链接(Windows 上则回退为复制) - 提供完整包、快速入门包、按类别或单独技能的选项
- 更新已安装的技能至最新版本
- 卸载所有或选定的技能
CLI 命令
# 推荐的交互式安装程序
npx @orchestra-research/ai-research-skills
# 直接命令
npx @orchestra-research/ai-research-skills list # 查看已安装的技能
npx @orchestra-research/ai-research-skills update # 更新已安装的技能
Claude Code Marketplace(替代方案)
使用 Claude Code CLI 直接安装技能类别:
# 添加市场
/plugin marketplace add orchestra-research/AI-research-SKILLs
# 按类别安装(共 22 个类别可供选择)
/plugin install fine-tuning@ai-research-skills # Axolotl、LLaMA-Factory、PEFT、Unsloth
/plugin install post-training@ai-research-skills # TRL、GRPO、OpenRLHF、SimPO、verl、slime、miles、torchforge
/plugin install inference-serving@ai-research-skills # vLLM、TensorRT-LLM、llama.cpp、SGLang
/plugin install distributed-training@ai-research-skills
/plugin install optimization@ai-research-skills
所有 22 个类别(87 项技能)
| 类别 | 技能 | 包含内容 |
|---|---|---|
| 自动研究 | 1 | 自主研究编排——管理全生命周期并路由至所有其他技能的核心层 |
| 构思 | 2 | 研究头脑风暴、创造性思维 |
| 机器学习论文写作 | 2 | 机器学习论文写作(LaTeX模板、引用验证)、学术绘图 |
| 模型架构 | 5 | LitGPT、Mamba、NanoGPT、RWKV、TorchTitan |
| 分词 | 2 | HuggingFace分词器、SentencePiece |
| 微调 | 4 | Axolotl、LLaMA-Factory、PEFT、Unsloth |
| 机制解释 | 4 | TransformerLens、SAELens、pyvene、nnsight |
| 数据处理 | 2 | NeMo Curator、Ray Data |
| 训练后优化 | 8 | TRL、GRPO、OpenRLHF、SimPO、verl、slime、miles、torchforge |
| 安全性 | 4 | 宪法AI、LlamaGuard、NeMo Guardrails、Prompt Guard |
| 分布式训练 | 6 | DeepSpeed、FSDP、Accelerate、Megatron-Core、Lightning、Ray Train |
| 基础设施 | 3 | Modal、Lambda Labs、SkyPilot |
| 优化 | 6 | Flash Attention、bitsandbytes、GPTQ、AWQ、HQQ、GGUF |
| 评估 | 3 | lm-eval-harness、BigCode、NeMo Evaluator |
| 推理 | 4 | vLLM、TensorRT-LLM、llama.cpp、SGLang |
| MLOps | 3 | W&B、MLflow、TensorBoard |
| 代理 | 4 | LangChain、LlamaIndex、CrewAI、AutoGPT |
| RAG | 5 | Chroma、FAISS、Pinecone、Qdrant、Sentence Transformers |
| 提示工程 | 4 | DSPy、Instructor、Guidance、Outlines |
| 可观测性 | 2 | LangSmith、Phoenix |
| 多模态 | 7 | CLIP、Whisper、LLaVA、BLIP-2、SAM、Stable Diffusion、AudioCraft |
| 新兴技术 | 6 | MoE、模型融合、长上下文、推测解码、蒸馏、剪枝 |
查看全部87项技能详情
🔬 自动研究(1项技能)——核心编排层
- Autoresearch - 使用双环架构(内部优化+外部综合)的自主研究编排。管理从文献综述到论文写作的完整生命周期,并将任务路由至所有领域特定技能。支持Claude Code /loop和OpenClaw心跳机制以实现持续运行(390行 + 3篇参考文献)
🏗️ 模型架构(5项技能)
- LitGPT - Lightning AI提供的20余种干净的LLM实现及生产级训练配方(462行 + 4篇参考文献)
- Mamba - 状态空间模型,复杂度为O(n),速度是Transformer的5倍(253行 + 3篇参考文献)
- RWKV - RNN+Transformer混合模型,支持无限上下文,属于Linux基金会项目(253行 + 3篇参考文献)
- NanoGPT - Karpathy用约300行代码实现的教育版GPT(283行 + 3篇参考文献)
- TorchTitan - PyTorch原生分布式训练框架,适用于Llama 3.1,支持4D并行化
🔤 分词(2项技能)
- HuggingFace Tokenizers - 基于Rust的分词工具,处理速度小于20秒/GB,支持BPE/WordPiece/Unigram等算法(486行 + 4篇参考文献)
- SentencePiece - 语言无关的分词工具,每秒可处理5万条句子,被T5/ALBERT等模型使用(228行 + 2篇参考文献)
🎯 微调(4项技能)
- Axolotl - 基于YAML的微调工具,支持100多种模型(156行 + 4篇参考文献)
- LLaMA-Factory - 提供WebUI的无代码微调工具(78行 + 5篇参考文献)
- Unsloth - QLoRA微调速度提升2倍(75行 + 4篇参考文献)
- PEFT - 参数高效微调方法,包括LoRA、QLoRA、DoRA等25种以上技术(431行 + 2篇参考文献)
🔬 机制解释(4项技能)
- TransformerLens - Neel Nanda开发的用于机制解释的库,配备HookPoints和激活缓存功能(346行 + 3篇参考文献)
- SAELens - 用于特征发现的稀疏自编码器训练与分析工具(386行 + 3篇参考文献)
- pyvene - 斯坦福大学开发的因果干预库,支持声明式配置(473行 + 3篇参考文献)
- nnsight - 通过NDIF实现远程解释能力,可在70B+参数模型上运行实验(436行 + 3篇参考文献)
📊 数据处理(2项技能)
- Ray Data - 分布式机器学习数据处理框架,支持流式执行和GPU加速(318行 + 2篇参考文献)
- NeMo Curator - GPU加速的数据整理工具,去重速度提升16倍(375行 + 2篇参考文献)
🎓 训练后优化(8项技能)
- TRL微调 - 变换器强化学习框架(447行 + 4篇参考文献)
- GRPO-RL训练(TRL) - 基于TRL的群体相对策略优化(569行,黄金标准)
- OpenRLHF - 结合Ray和vLLM的完整RLHF流水线(241行 + 4篇参考文献)
- SimPO - 简单偏好优化,无需参考模型(211行 + 3篇参考文献)
- verl - 字节跳动的HybridFlow RL框架,后端支持FSDP/Megatron以及vLLM/SGLang(389行 + 2篇参考文献)
- slime - THUDM基于Megatron+SGLang的框架,驱动GLM-4.x系列模型(464行 + 2篇参考文献)
- miles - slime的企业级分支,支持FP8、INT4以及针对MoE训练的推测式强化学习(315行 + 2篇参考文献)
- torchforge - Meta基于PyTorch的原生强化学习框架,结合Monarch、TorchTitan和vLLM(380行 + 2篇参考文献)
🛡️ 安全与对齐(4项技能)
- 宪法AI - 基于原则的AI自我改进方法(282行)
- LlamaGuard - 用于LLM输入输出的安全分类器(329行)
- NeMo Guardrails - 基于Colang语言的可编程护栏系统(289行)
- Prompt Guard - Meta开发的8600万规模提示注入与越狱检测器,TPR超过99%,GPU响应时间小于2毫秒(313行)
⚡ 分布式训练(6项技能)
- Megatron-Core - NVIDIA用于训练2B至462B参数模型的框架,在H100上可达到47%的MFU(359行 + 4篇参考文献)
- DeepSpeed - Microsoft的ZeRO优化技术(137行 + 9篇参考文献)
- PyTorch FSDP2 - 全量分片数据并行v2版本,支持
fully_shard和DTensor功能(231行 + 12篇参考文献) - Accelerate - HuggingFace提供的4行代码分布式训练API(324行 + 3篇参考文献)
- PyTorch Lightning - 高层次训练框架,包含Trainer类(339行 + 3篇参考文献)
- Ray Train - 多节点任务编排与超参数调优工具(399行 + 1篇参考文献)
🚀 优化(6项技能)
- Flash Attention - 更快且内存高效的注意力机制,速度提升2-4倍(359行代码 + 2篇参考文献)
- bitsandbytes - 8位/4位量化,可减少50%-75%的内存占用(403行代码 + 3篇参考文献)
- GPTQ - 4位训练后量化,内存占用减少4倍,精度损失不到2%(443行代码 + 3篇参考文献)
- AWQ - 激活值感知的权重量化,4位量化时精度损失极小(310行代码 + 2篇参考文献)
- HQQ - 半二次量化,无需校准数据,支持多后端(370行代码 + 2篇参考文献)
- GGUF - llama.cpp使用的量化格式,提供K-quant方法,支持CPU/Metal推理(380行代码 + 2篇参考文献)
📊 评估(3项技能)
- lm-evaluation-harness - EleutherAI用于LLM基准测试的标准工具,覆盖60+任务(482行代码 + 4篇参考文献)
- BigCode Evaluation Harness - 针对代码模型的基准测试工具,包含HumanEval、MBPP、MultiPL-E等数据集及pass@k指标(406行代码 + 3篇参考文献)
- NeMo Evaluator - NVIDIA的企业级平台,支持18+种基准测试框架下的100+项评测,并可在多后端执行(454行代码 + 4篇参考文献)
☁️ 基础设施(3项技能)
- Modal - 无服务器GPU云服务,提供原生Python API,按需使用T4-H200 GPU(342行代码 + 2篇参考文献)
- SkyPilot - 跨20+云服务商的多云编排工具,支持竞价实例恢复功能(390行代码 + 2篇参考文献)
- Lambda Labs - 提供预留或按需GPU资源的云服务,配备H100/A100 GPU及持久化文件系统(390行代码 + 2篇参考文献)
🔥 推理与服务(4项技能)
- vLLM - 高吞吐量的LLM推理服务框架,采用分页注意力机制(356行代码 + 4篇参考文献,已生产就绪)
- TensorRT-LLM - NVIDIA提供的最快速推理方案,可达24k tokens/s,支持FP8/INT4量化(180行代码 + 3篇参考文献)
- llama.cpp - 支持CPU/Apple Silicon设备上的推理,采用GGUF量化格式(251行代码 + 3篇参考文献)
- SGLang - 基于RadixAttention的结构化生成框架,适用于智能体场景时速度提升5-10倍(435行代码 + 3篇参考文献)
🤖 智能体(4项技能)
- LangChain - 最流行的智能体开发框架,拥有500+集成组件及ReAct模式(658行代码 + 3篇参考文献,已生产就绪)
- LlamaIndex - 面向LLM应用的数据框架,提供300+连接器,专注于RAG技术(535行代码 + 3篇参考文献)
- CrewAI - 多智能体协同工作平台,支持角色分工协作及自动化流程(498行代码 + 3篇参考文献)
- AutoGPT - 自主型AI智能体平台,提供可视化工作流构建工具及持续执行功能(400行代码 + 2篇参考文献)
🔍 RAG(5项技能)
- Chroma - 开源嵌入数据库,支持本地和云端部署,获2.4万颗星(385行代码 + 1篇参考文献)
- FAISS - Facebook推出的相似度搜索库,可处理数十亿级别的数据并支持GPU加速(295行代码)
- Sentence Transformers - 提供5000+种嵌入模型,支持多语言,获1.5万颗星(370行代码)
- Pinecone - 托管式向量数据库,具备自动扩展能力,延迟低于100毫秒(410行代码)
- Qdrant - 高性能向量检索引擎,基于Rust开发,支持混合搜索及过滤功能(493行代码 + 2篇参考文献)
🎨 多模态(7项技能)
- CLIP - OpenAI推出的视觉-语言模型,支持零样本分类,获2.5万颗星(320行代码)
- Whisper - 强大的语音识别模型,支持99种语言,获7.3万颗星(395行代码)
- LLaVA - 视觉-语言助手,支持图像聊天,性能接近GPT-4V水平(360行代码)
- Stable Diffusion - 通过HuggingFace Diffusers实现文生图功能,支持SDXL、ControlNet等模型(380行代码 + 2篇参考文献)
- Segment Anything - Meta推出的SAM模型,支持基于点或框的零样本图像分割(500行代码 + 2篇参考文献)
- BLIP-2 - 视觉-语言预训练模型,结合Q-Former进行图像描述及VQA任务(500行代码 + 2篇参考文献)
- AudioCraft - Meta推出的MusicGen/AudioGen模型,支持文生音乐及文生声音功能(470行代码 + 2篇参考文献)
🎯 提示工程(4项技能)
- DSPy - 声明式提示编程工具,内置优化器,由斯坦福NLP团队开发,获2.2万颗星(438行代码 + 3篇参考文献)
- Instructor - 通过Pydantic验证确保LLM输出结构化的工具,获1.5万颗星(726行代码 + 3篇参考文献)
- Guidance - 使用正则表达式或语法约束生成内容的工具,由微软研究院开发,获1.8万颗星(485行代码 + 3篇参考文献)
- Outlines - 基于有限状态机的结构化文本生成工具,开销极低,获8千颗星(601行代码 + 3篇参考文献)
📊 MLOps(3项技能)
- Weights & Biases - 用于实验跟踪、超参数调优、模型资产管理和模型注册表的工具(427行代码 + 3篇参考文献)
- MLflow - 提供模型注册、跟踪、部署及自动日志记录功能(514行代码 + 3篇参考文献)
- TensorBoard - 用于可视化、性能分析、嵌入展示及标量/图像监控的工具(538行代码 + 3篇参考文献)
👁️ 可观测性(2项技能)
- LangSmith - 面向AI应用的LLM可观测性工具,提供追踪、评估和监控功能(422行代码 + 2篇参考文献)
- Phoenix - 开源AI可观测性平台,集成OpenTelemetry追踪与LLM评估功能(380行代码 + 2篇参考文献)
🔬 新兴技术(6项技能)
- MoE训练 - 使用DeepSpeed进行专家混合模型训练,如Mixtral 8x7B,可将成本降低5倍(515行代码 + 3篇参考文献)
- 模型合并 - 使用TIES、DARE、SLERP等方法通过mergekit合并模型(528行代码 + 3篇参考文献)
- 长上下文 - 通过RoPE、YaRN、ALiBi等技术扩展上下文窗口,支持32k-128k个token(624行代码 + 3篇参考文献)
- 推测解码 - 利用Medusa、Lookahead等技术使推理速度提升1.5-3.6倍(379行代码)
- 知识蒸馏 - 使用MiniLLM和温度缩放等方法将70B模型压缩至7B(424行代码)
- 模型剪枝 - 通过Wanda、SparseGPT等方法实现50%稀疏化,精度损失不到1%(417行代码)
📝 机器学习论文写作(2项技能)
- ML 论文写作 - 使用 LaTeX 模板、引用验证和写作最佳实践,撰写适用于 NeurIPS、ICML、ICLR、ACL、AAAI、COLM 等会议的出版级论文(532 行 + 5 篇参考文献)
- 学术绘图 - 为机器学习论文生成出版质量的图表:通过 Gemini AI 绘制架构图,借助 matplotlib/seaborn 制作数据驱动的图表,并应用特定会议的样式(479 行 + 3 篇参考文献)
💡 创意构思(2项技能)
演示
本仓库中的 87 项技能已自动同步至 Orchestra Research,您可一键将其添加到项目中,并与 AI 研究代理协同使用。
查看技能实际应用 → demos/
我们维护了一系列精选的演示仓库,展示如何将这些技能应用于真实的 AI 研究任务:
| 演示 | 使用的技能 | 功能 |
|---|---|---|
| 归一化异质性 → LoRA 脆弱性 | 自动研究、ML 论文写作、创意构思 | 代理自主发现归一化异质性可预测微调难度(r=-0.99),并在 ETF 重叠这一无效结果的基础上进行了研究方向的调整 |
| 强化学习算法脑部扫描 | 自动研究、GRPO、TRL、SAELens、TransformerLens、ML 论文写作 | 代理发现 DPO 是一种秩-1 的扰动(从一个 SVD 方向即可恢复 95.6%),而在线强化学习则是分布式的且保持结构不变的 |
| NeMo 评估:GPQA 基准测试 | NeMo 评估器 | 对 Llama 8B、70B 和 405B 在研究生级别科学问题上的表现进行比较 |
| 无后悔 LoRA 复现 | GRPO、TRL | 通过提示工程复现 SFT + GRPO RL 实验 |
| 逐层量化实验 | llama.cpp、GGUF | 探究最优的层精度分配——早期层采用 Q8 格式可实现 1.9 倍压缩,同时仅损失 1.3% 的困惑度 |
| 跨语言对齐分析 | FAISS | 使用 FAISS 相似度搜索量化多语言嵌入在 8 种语言之间对语义概念的对齐程度 |
| 科学绘图演示 | 学术绘图 | 为关于安第斯地区 QoE 感知型 LLM 服务的论文生成出版质量的图表——Gemini AI 架构图 + matplotlib 数据图表(CDF、多面板网格、柱状图) |
重点演示:两篇完全由 AI 代理使用 autoresearch 技能生成的论文。其中,《归一化异质性》论文展示了自主研究方向的调整——代理推翻了自身假设并发现了更有力的结论。而《强化学习脑部扫描》论文则体现了多技能的协同运作——代理训练了强化学习模型,利用可解释性工具分析其内部机制,并得出“DPO 是一种秩-1 对齐”的洞察。这两篇论文均由代理端到端完成。
技能结构
每项技能均遵循经过实战检验的格式,以确保最大实用性:
技能名称/
├── SKILL.md # 快速参考(50–150 行)
│ ├── 元数据(名称、描述、版本)
│ ├── 何时使用此技能
│ ├── 快速模式与示例
│ └── 参考文献链接
│
├── references/ # 深度文档(300KB+)
│ ├── README.md # 来自 GitHub 官方文档
│ ├── api.md # API 参考
│ ├── tutorials.md # 分步指南
│ ├── issues.md # 真实的 GitHub 问题及解决方案
│ ├── releases.md # 版本历史及破坏性变更
│ └── file_structure.md # 代码库导航
│
├── scripts/ # 辅助脚本(可选)
└── assets/ # 模板与示例(可选)
质量标准
- 来自官方来源的 300KB+ 文档
- 真实的 GitHub 问题及解决方案(如有)
- 包含语言检测的代码示例
- 版本历史及破坏性变更
- 官方文档链接
路线图
我们正致力于构建覆盖整个 AI 研究生命周期的 80 项全面技能。完整的开发计划请参阅我们的 详细路线图。
详细统计数据
| 指标 | 当前 | 目标 |
|---|---|---|
| 技能数量 | 87(高质量、标准化 YAML) | 80 ✅ |
| 平均每项技能行数 | 420 行(聚焦且逐步展开) | 200–600 行 |
| 文档总量 | 总计约 130,000 行(SKILL.md + 参考文献) | 100,000+ 行 |
| 黄金标准技能 | 65 项具备全面参考文献 | 50+ |
| 贡献者数量 | 1 | 100+ |
| 覆盖范围 | 架构、分词、微调、机制性可解释性、数据处理、后训练、安全、分布式计算、优化、评估、基础设施、推理、智能体、RAG、多模态、提示工程、MLOps、可观ability、ML 论文写作、创意构思、自动研究 | 全生命周期 ✅ |
近期进展:npm 包 @orchestra-research/ai-research-skills 实现了所有编码代理的一键安装。
理念:质量胜于数量。遵循 Anthropic 官方最佳实践,每项技能提供 200–500 行聚焦且可操作的指导,并采用逐步展开的方式呈现。
仓库结构
claude-ai-research-skills/
├── README.md ← 您当前所在
├── CONTRIBUTING.md ← 贡献指南
├── demos/ ← 精选演示画廊(指向演示仓库的链接)
├── docs/
├── 0-autoresearch-skill/ (1项技能 ✓ - 自主研究编排)
├── 01-model-architecture/ (5项技能 ✓ - LitGPT、Mamba、RWKV、NanoGPT、TorchTitan)
├── 02-tokenization/ (2项技能 ✓ - HuggingFace Tokenizers、SentencePiece)
├── 03-fine-tuning/ (4项技能 ✓ - Axolotl、LLaMA-Factory、Unsloth、PEFT)
├── 04-mechanistic-interpretability/ (4项技能 ✓ - TransformerLens、SAELens、pyvene、nnsight)
├── 05-data-processing/ (2项技能 ✓ - Ray Data、NeMo Curator)
├── 06-post-training/ (8项技能 ✓ - TRL、GRPO、OpenRLHF、SimPO、verl、slime、miles、torchforge)
├── 07-safety-alignment/ (4项技能 ✓ - 宪法AI、LlamaGuard、NeMo Guardrails、Prompt Guard)
├── 08-distributed-training/ (6项技能 ✓ - Megatron-Core、DeepSpeed、FSDP、Accelerate、Lightning、Ray Train)
├── 09-infrastructure/ (3项技能 ✓ - Modal、SkyPilot、Lambda Labs)
├── 10-optimization/ (6项技能 ✓ - Flash Attention、bitsandbytes、GPTQ、AWQ、HQQ、GGUF)
├── 11-evaluation/ (3项技能 ✓ - lm-evaluation-harness、BigCode、NeMo Evaluator)
├── 12-inference-serving/ (4项技能 ✓ - vLLM、TensorRT-LLM、llama.cpp、SGLang)
├── 13-mlops/ (3项技能 ✓ - Weights & Biases、MLflow、TensorBoard)
├── 14-agents/ (4项技能 ✓ - LangChain、LlamaIndex、CrewAI、AutoGPT)
├── 15-rag/ (5项技能 ✓ - Chroma、FAISS、Sentence Transformers、Pinecone、Qdrant)
├── 16-prompt-engineering/ (4项技能 ✓ - DSPy、Instructor、Guidance、Outlines)
├── 17-observability/ (2项技能 ✓ - LangSmith、Phoenix)
├── 18-multimodal/ (7项技能 ✓ - CLIP、Whisper、LLaVA、Stable Diffusion、SAM、BLIP-2、AudioCraft)
├── 19-emerging-techniques/ (6项技能 ✓ - MoE、模型合并、长上下文、推测解码、蒸馏、剪枝)
├── 20-ml-paper-writing/ (2项技能 ✓ - 使用LaTeX模板撰写机器学习论文、学术绘图)
├── 21-research-ideation/ (2项技能 ✓ - 研究头脑风暴、创造性思维)
└── packages/ai-research-skills/ (用于一键安装的npm包)
使用场景
对于研究人员
“我需要用自定义数据微调Llama 3” → 03-fine-tuning/axolotl/ - YAML配置文件,支持100多种模型
对于机器学习工程师
“如何优化推理延迟?” → 12-inference-serving/vllm/ - 分页注意力机制、批处理
对于学生
“我想了解Transformer的工作原理” → 01-model-architecture/litgpt/ - 清晰的实现代码
对于团队
“我们需要将训练扩展到100个GPU” → 08-distributed-training/deepspeed/ - ZeRO阶段、3D并行化
许可证
MIT许可证 - 详情请参阅 LICENSE。
注意: 各项技能可能引用了不同许可证的库。请在使用前查看每个项目的许可证。
引用
如果您在工作中使用了AI Research Skills,或发现它对您的出版物有所帮助,我们非常感谢您的引用:
BibTeX
@software{ai_research_skills,
title = {AI Research Skills Library},
author = {{Orchestra Research}},
year = {2025},
url = {https://github.com/orchestra-research/AI-research-SKILLs},
note = {开源技能库,使AI智能体能够自主进行AI研究}
}
APA
Orchestra Research. (2025). AI Research Skills Library [计算机软件]. https://github.com/orchestra-research/AI-research-SKILLs
Chicago
Orchestra Research. "AI Research Skills Library." GitHub, 2025. https://github.com/orchestra-research/AI-research-SKILLs.
IEEE
Orchestra Research, "AI Research Skills Library," 2025. [在线]. 可用地址: https://github.com/orchestra-research/AI-research-SKILLs
提示: 您也可以点击GitHub侧边栏中的“引用此仓库”以获取自动格式化的引用。
致谢
构建过程中使用了:
- Claude Code - AI配对编程
- Skill Seeker - 自动文档抓取
- 开源AI社区 - 提供了出色的工具和文档
特别感谢:
- EleutherAI、HuggingFace、NVIDIA、Lightning AI、Meta AI、Anthropic
- 所有维护优秀文档的研究人员
贡献者
感谢所有为AI Research Skills Library做出贡献的人:
我们欢迎来自AI研究社区的贡献!请参阅 CONTRIBUTING.md 以获取详细指南,内容包括:
- 添加新技能
- 改进现有技能
- 质量标准和最佳实践
- 提交流程
最新更新
2026年3月 - v1.4.0 🔬 自主研究与86项技能 — 全面覆盖研究生命周期
- 🔬 新增技能: Autoresearch — 基于双环架构的自主研究编排(内层优化环 + 外层综合环)
- 🧠 能够管理完整的研究生命周期:文献综述 → 创意构思 → 实验 → 综合 → 论文写作
- 🔄 自动路由至所有86项领域技能 — 智能体无需知道该使用哪项技能
- ⏰ 必须配备
/loop(Claude Code)和cron作业(OpenClaw),以实现持续的自主运行 - 📊 生成研究汇报(HTML/PDF),附带优化轨迹图,供人类审阅
- 📝 Findings.md作为跨会话的持久项目记忆,记录“经验教训与限制条件”
- 🗂️ 结构化工作空间:research-state.yaml、findings.md、research-log.md、literature/、experiments/、src/、data/、to_human/
- 📄 由autoresearch生成的两篇演示论文: 范数异质性 → LoRA脆性 和 强化学习算法脑部扫描
- 🚀 WELCOME.md用于冷启动代理的引导 — 一个URL即可从零开始实现自主研究
- 📦 npm v1.4.x版本,包含Windows符号链接回退功能,所有22个类别均可安装
- 📊 总计87项技能,覆盖22个类别 — 完整覆盖研究生命周期
2026年2月 - v0.15.0 🛡️ Prompt Guard与83项技能
- 🛡️ 新增技能: Prompt Guard - Meta开发的8600万参数规模的提示注入与越狱检测器
- ⚡ TPR超过99%,FPR低于1%,GPU延迟小于2毫秒,支持多语言(8种语言)
- 🔒 包括三种工作流:用户输入过滤、第三方数据过滤以及批量RAG处理
- 📊 总计83项技能,涵盖20个类别
2026年1月 - v0.14.0 📦 npm包与82项技能
- 📦 新增:
npx @orchestra-research/ai-research-skills- 一键安装所有编码代理 - 🤖 支持的代理: Claude Code、OpenCode、Cursor、Codex、Gemini CLI、Qwen Code
- ✨ 带有类别/单个技能选择的交互式安装程序
- 🔄 更新已安装的技能,可选择性卸载
- 📊 共82项技能(5项训练后新增技能:verl、slime、miles、torchforge + TorchTitan)
- 🏗️ Megatron-Core 已移至分布式训练类别
2026年1月 - v0.13.0 📝 机器学习论文写作与演示图库
- 📝 新类别: 机器学习论文写作(第20类,第77项技能)
- 🎯 为 NeurIPS、ICML、ICLR、ACL、AAAI、COLM 等会议撰写可直接投稿的论文
- 📚 来自顶尖研究者的写作理念(Neel Nanda、Farquhar、Gopen & Swan、Lipton、Perez)
- 🔬 引用验证工作流——绝不凭空捏造参考文献
- 📄 适用于6大主要会议的LaTeX模板
- 🎪 新增: 精选演示图库(
demos/),展示技能的实际应用 - 🔗 演示仓库:NeMo Evaluator 基准测试、LoRA Without Regret 复现
- 📖 936行全面的 SKILL.md 文件,包含4个工作流程
2026年1月 - v0.12.0 📊 NeMo Evaluator SDK
- 📊 新技能: NeMo Evaluator SDK,用于企业级LLM基准测试
- 🔧 NVIDIA 的评估平台,包含来自18+测试框架的100+项基准测试(MMLU、HumanEval、GSM8K、安全性、VLM)
- ⚡ 支持多后端执行:本地Docker、Slurm HPC、Lepton云
- 📦 以容器为中心的架构,确保评估结果可复现
- 📝 454行的 SKILL.md 文件 + 4份综合参考文档(约48KB文档)
2025年12月 - v0.11.0 🔬 机制可解释性
- 🔬 新类别: 机制可解释性(4项技能)
- 🔍 TransformerLens 技能:Neel Nanda 的库,用于通过HookPoints、激活缓存和电路分析进行机制可解释性研究
- 🧠 SAELens 技能:稀疏自编码器的训练与分析,用于特征发现和单义性研究
- ⚡ pyvene 技能:斯坦福大学的因果干预库,提供声明式配置、DAS和激活修补功能
- 🌐 nnsight 技能:通过NDIF实现远程可解释性,在无需本地GPU的情况下对70B+模型进行实验
- 📝 在16个文件中新增约6,500行文档
- 共76项技能(填补了缺失的04类别位置)
2025年11月25日 - v0.10.0 🎉 70项技能全部完成!
- 🎉 路线图已完成: 达到70项技能里程碑!
- 🚀 新增4项技能:Lambda Labs、Segment Anything (SAM)、BLIP-2、AudioCraft
- ☁️ Lambda Labs 技能:预留/按需GPU云,配备H100/A100显卡、持久化文件系统和一键集群
- 🖼️ SAM 技能:Meta的Segment Anything,可通过点/框/掩码实现零样本图像分割
- 👁️ BLIP-2 技能:结合Q-Former的视觉-语言预训练,支持图像描述和VQA任务
- 🎵 AudioCraft 技能:Meta的MusicGen/AudioGen,用于文本转音乐和文本转声音生成
- 📝 在12个文件中新增约10,000行文档
- 共70项技能(100%完成路线图!)
2025年11月25日 - v0.9.0
- 🚀 新增2项基础设施技能:Modal、SkyPilot
- ☁️ Modal 技能:无服务器GPU云,提供Python原生API,可按需使用T4-H200,并具备自动扩展功能
- 🌐 SkyPilot 技能:跨20多家服务商的多云编排,支持竞价实例恢复
- ✨ 新增基础设施类别(2项技能——无服务器GPU和多云编排)
- 📝 在6个文件中新增约2,500行文档
- 共66项技能(距离70项技能目标还有94%)
2025年11月25日 - v0.8.0
- 🚀 新增5项高优先级技能:HQQ、GGUF、Phoenix、AutoGPT、Stable Diffusion
- ⚡ HQQ 技能:无需校准数据的半二次量化,支持多后端
- 📦 GGUF 技能:llama.cpp量化格式,K-quant方法,支持CPU/Metal推理
- 👁️ Phoenix 技能:开源AI可观测性工具,结合OpenTelemetry追踪和LLM评估
- 🤖 AutoGPT 技能:自主AI代理平台,配备可视化工作流构建器
- 🎨 Stable Diffusion 技能:通过Diffusers、SDXL、ControlNet和LoRA实现文生图
- 📝 在15个文件中新增约9,000行文档
- 共64项技能(距离70项技能目标还有91%)
2025年11月25日 - v0.7.0
- 🚀 新增5项高优先级技能:PEFT、CrewAI、Qdrant、AWQ、LangSmith
- ✨ 新增可观测性类别,其中LangSmith用于LLM追踪和评估
- 🎯 PEFT 技能:参数高效微调技术,包括LoRA、QLoRA、DoRA等25+种方法
- 🤖 CrewAI 技能:基于角色协作的多智能体编排
- 🔍 Qdrant 技能:高性能Rust向量检索,支持混合过滤
- ⚡ AWQ 技能:感知激活的4位量化,精度损失极小
- 📝 在15个文件中新增约8,000行文档
- 共59项技能(距离70项技能目标还有84%)
2025年11月15日 - v0.6.0
- 📊 新增3项全面的MLOps技能:Weights & Biases、MLflow、TensorBoard
- ✨ 新增MLOps类别(3项技能——实验跟踪、模型注册、可视化)
- 📝 在13个文件中新增约10,000行文档
- 🔧 全面覆盖:实验跟踪、超参数搜索、模型注册、性能分析、嵌入可视化
- 共54项技能(距离70项技能目标还有77%)
2025年11月12日 - v0.5.0
- 🎯 新增4项全面的提示工程技能:DSPy、Instructor、Guidance、Outlines
- ✨ 新增提示工程类别(4项技能——DSPy、Instructor、Guidance、Outlines)
- 📝 在16个文件中新增约10,000行文档
- 🔧 全面覆盖:声明式编程、结构化输出、约束生成以及基于FSM的生成
- 共47项技能(距离70项技能目标还有67%)
2025年11月9日 - v0.4.0
- 🤖 新增11项全面技能:LangChain、LlamaIndex、Chroma、FAISS、Sentence Transformers、Pinecone、CLIP、Whisper、LLaVA
- ✨ 新增代理类别(2项技能——LangChain、LlamaIndex)
- 🔍 新增RAG类别(4项技能——Chroma、FAISS、Sentence Transformers、Pinecone)
- 🎨 新增多模态类别(3项技能——CLIP、Whisper、LLaVA)
- 📝 新增约15,000行文档
- 共43项技能(距离70项技能目标还有61%)
2025年11月8日 - v0.3.0
- 🚀 新增8项全面技能:TensorRT-LLM、llama.cpp、SGLang、GPTQ、HuggingFace Tokenizers、SentencePiece、Ray Data、NeMo Curator
- ⚡ 完成了推理与服务类别(4/4项技能)
- 🔤 新增分词类别(2项技能)
- 📊 新增数据处理类别(2项技能)
- 📝 在30个文件中新增9,617行文档
- 共32项技能(距离70项技能目标还有45%)
2025年11月6日 - v0.2.0
- 新增来自 GitHub 的 10 项技能(Megatron-Core、Lightning、Ray Train 等)
- 完善了技能结构,并提供了全面的参考文献
- 制定了包含 70 项技能的战略路线图
- 添加了贡献指南
2025年11月3日 - v0.1.0
- 🎉 初始发布,包含 5 项微调技能
社区
加入我们的社区,及时获取最新动态、提问并与其他 AI 研究人员交流:
- SkillEvolve 元技能 - 将您的智能体连接到社区的集体智慧。它会记录在会话中发现的技术,并将其整理为精选技能后共享。
- Slack 社区 - 与团队及其他用户交流
- Twitter/X - 关注以获取最新资讯和公告
- LinkedIn - 进行专业联系
星标历史
版本历史
v1.4.02026/03/16v1.3.62026/02/08v1.2.02026/02/06v1.1.02026/01/31v0.15.02026/01/29v0.14.02026/01/29v0.13.02026/01/23v0.10.02025/11/25常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备