Awesome-LLM-Post-training

2.4k 157 非常简单 1 次阅读昨天开发框架语言模型

AI 解读由 AI 自动生成，仅供参考

Awesome-LLM-Post-training 是一个专注于大语言模型（LLM）后训练方法的精选资源库，旨在帮助开发者和研究人员深入理解并提升模型的推理能力。随着大模型基础能力的成熟，如何通过微调、强化学习及测试时扩展等技术进一步挖掘其逻辑推理与决策潜力，成为当前技术落地的关键难点。该资源库系统性地梳理了相关领域最具影响力的论文、代码实现、基准测试及教程，涵盖了从理论综述、奖励学习、策略优化到多智能体协作等全方位内容。

其核心亮点在于提供了一套清晰的技术分类体系，将复杂的后训练方法归纳为微调、强化学习和测试时扩展三大类，并关联了最新的学术成果与开源框架。无论是希望复现前沿算法的工程师，还是致力于探索模型推理机制的研究人员，都能在此快速找到所需的理论依据与实践工具。通过整合分散的行业资源，Awesome-LLM-Post-training 有效降低了进入高阶大模型研发领域的门槛，是构建具备深度推理能力 AI 系统的得力助手。

使用场景

某金融科技公司的算法团队正致力于将通用大模型改造为具备复杂逻辑推理能力的智能投顾助手，以处理高风险的投资决策分析。

没有 Awesome-LLM-Post-training 时

技术路线迷茫：面对微调、强化学习（RL）和测试时扩展等多种后训练范式，团队难以快速厘清哪种方案最适合金融推理场景，导致选型周期长达数周。
资源检索低效：研究人员需分散在 arXiv、GitHub 和各大学术博客中手动筛选论文与代码，极易遗漏如“基于偏好的 RL"或“因果推理”等关键前沿成果。
复现门槛过高：缺乏系统化的开源框架指引，团队在尝试复现 SOTA（最先进）模型时，常因缺少标准的奖励学习或策略优化实现而反复踩坑。
理论实践脱节：资深工程师难以将抽象的“内在动机”或“分层 RL"理论直接映射到具体的代码库，导致算法落地进度严重滞后。

使用 Awesome-LLM-Post-training 后

路径清晰明确：借助其清晰的分类体系（微调/RL/测试时扩展），团队迅速锁定了“偏好强化学习”作为核心优化方向，将技术选型时间缩短至 2 天。
一站式资源聚合：直接获取 curated 的最新论文、基准测试及代码实现，特别是“奖励学习”与“自主智能体”板块，让团队无缝对接了行业最新进展。
工程落地加速：利用收录的开源 RL-LLM 框架库，团队快速搭建了包含人类反馈（Human Feedback）的训练流水线，显著降低了复现成本。
知行合一：通过关联的教程与课程链接，团队成员迅速理解了“因果推理”在决策中的具体应用，并成功将其转化为可运行的代码模块。

Awesome-LLM-Post-training 通过构建从理论综述到代码实现的完整闭环，将大模型后训练的探索效率提升了数倍，让研发团队能专注于核心业务逻辑而非基础基建。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库（Awesome-LLM-Post-training）是一个 curated collection（精选合集），主要收录了关于大语言模型后训练方法（如微调、强化学习、测试时扩展等）的论文、代码实现、基准测试和资源列表。它本身不是一个可直接运行的单一软件工具或框架，因此 README 中未提供具体的操作系统、GPU、内存、Python 版本或依赖库的安装需求。用户需根据列表中引用的具体论文或子项目（如 DeepSeek-R1, ReFT 等）的独立仓库来获取相应的运行环境配置。

python未说明

快速开始

LLM 后训练：深入探究推理大型语言模型

Oryx Video-ChatGPT

欢迎来到 Awesome-LLM-Post-training 仓库！本仓库精心整理了与 大型语言模型（LLMs）后训练方法 相关的最具影响力的论文、代码实现、基准测试及各类资源。

我们的工作基于以下论文：
📄 LLM 后训练：深入探究推理大型语言模型 – 可在上获取。

科马尔·库马尔* , 塔贾穆勒·阿什拉夫* , 奥姆卡尔·塔瓦卡尔 , 拉奥·穆罕默德·安韦尔 , 希沙姆·乔拉卡尔 , 穆巴拉克·沙赫 , 杨明轩 , 菲利普·H.S. 托尔 , 法哈德·沙巴兹·汗，以及萨尔曼·汗

* 平等贡献的第一作者

通讯作者: 科马尔·库马尔, 塔贾穆勒·阿什拉夫。

欢迎 ⭐ 收藏并 fork 本仓库，以随时掌握最新进展，并为社区贡献力量。

针对 **LLMs** 的后训练方法分类体系，分为微调、强化学习和测试时缩放方法。我们总结了近期 LLM 模型中使用的关键技术。

📌 内容

版块	子版块
📖 论文	综述, 理论, 可解释性
🤖 LLMs 在 RL 中的应用	LLM 增强的强化学习
🏆 奖励学习	人类反馈, 基于偏好的 RL, 内在动机
🚀 策略优化	离线 RL, 模仿学习, 层次化 RL
🧠 LLMs 用于推理与决策	因果推理, 规划, 常识强化学习
🌀 探索与泛化	零样本 RL, RL 中的泛化, 自监督 RL
🤝 多智能体 RL (MARL)	涌现式通信, 协调, 社交 RL
⚡ 应用与基准测试	自主代理, 模拟, LLM-RL 基准测试
📚 教程与课程	讲座, 研讨会
🛠️ 库与实现	开源 RL-LLM 框架
🔗 其他资源	补充研究与阅读材料

📖 论文

🔍 调查

标题	发表日期	链接
VLM与合成数据桥梁作用的调查	2025年5月16日	OpenReview
大型语言模型后训练的调查	2025年3月8日	Arxiv
LLM后训练：深入探讨推理型大型语言模型	2025年2月28日	Arxiv
从系统1到系统2：推理型大型语言模型的调查	2025年2月25日	Arxiv
以逻辑推理赋能LLM：全面调查	2025年2月24日	Arxiv
迈向大型推理模型：基于大型语言模型的强化推理调查	2025年1月16日	Arxiv
大型语言模型的危害性微调攻击与防御：调查	2024年9月26日	Arxiv
使用大型语言模型进行推理，一项调查	2024年7月16日	Arxiv
大型语言模型增强型强化学习的调查：概念、分类与方法	2024年3月30日	Arxiv
强化学习增强的LLM：一项调查	2024年12月5日	Arxiv
在代码生成中利用强化学习提升代码LLM：一项调查	2024年12月29日	Arxiv
大型语言模型：其发展、能力与应用的调查	2025年1月15日	Springer
多模态大型语言模型的调查	2025年2月10日	Oxford Academic
大型语言模型（LLMs）：调查、技术框架及未来方向	2024年7月20日	Springer
利用大型语言模型自动化并加速带有奖励机器的强化学习	2024年2月11日	Arxiv
ExploRLLM：利用大型语言模型引导强化学习中的探索	2024年3月14日	Arxiv
基于大型语言模型的强化学习问题解决	2024年4月29日	Arxiv
针对强化学习的大型语言模型调查	2023年12月10日	Arxiv
大型语言模型作为决策者：一项调查	2023年8月23日	Arxiv
大型语言模型对齐技术的调查	2023年5月6日	Arxiv
带有人类反馈的强化学习：一项调查	2023年4月12日	Arxiv
基于大型语言模型的推理：一项调查	2023年2月14日	Arxiv
面向决策的基础模型调查	2023年1月9日	Arxiv
大型语言模型在强化学习中的机遇与挑战	2022年12月5日	Arxiv
通过人类反馈训练语言模型遵循指令	2022年3月4日	Arxiv

🤖 LLMs-in-RL

Vision-Zero：通过战略游戏化自我博弈实现可扩展的VLM自我改进 [论文]
Satori：行动-思维链增强的强化学习通过自回归搜索提升LLM推理能力 [论文]
DeepScaleR：通过扩展RL超越O1预览版，仅用15亿参数模型 [论文]
QLASS：通过Q引导的逐步搜索提升语言智能体推理能力 [论文]
通过隐式奖励推进强化过程 [论文]
通过强化学习和推理规模扩展推进语言模型推理能力 [论文]
确保DeepSeek-R1模型AI安全的挑战：强化学习策略的不足 [论文]
DeepSeek-R1：通过强化学习激励LLM的推理能力 [论文]
Kimi k1.5：利用LLM扩展强化学习 [论文]
RLHF能扩展吗？探索数据、模型和方法的影响 [论文]
面向LLM多步推理的离线强化学习 [论文]
ReFT：面向语言模型的表示微调 [论文]
Deepseekmath：突破开放语言模型的数学推理极限 [论文]
通过强化功能标记调优进行推理 [论文]
基于价值的深度强化学习可预测地扩展 [论文]
InfAlign：面向推理的语言模型对齐 [论文]
LIMR：对于RL扩展而言，少即是多 [论文]
关于大型语言模型数学领域基于反馈的多步推理的调查 [论文]

🏆 奖励学习（过程奖励模型）

PRMBench：面向过程级奖励模型的细粒度且具有挑战性的基准测试。[论文]
ReARTeR：基于可信过程奖励的检索增强推理 [论文]
在数学推理中开发过程奖励模型的经验教训。[论文]
ToolComp：多工具推理与过程监督基准测试。[论文]
AutoPSV：自动化过程监督验证器 [论文]
ReST-MCTS*：通过过程奖励引导的树搜索进行大语言模型自训练 [论文]
无需过程标签的自由过程奖励。[论文]
针对代码生成的结果精炼型过程监督 [论文]
Math-Shepherd：无需人工标注，逐步验证并强化大语言模型 [论文]
OVM：用于数学推理规划的结果监督价值模型 [论文]
Step-DPO：针对大语言模型长链推理的分步偏好优化 [论文]
让我们逐步验证。[论文]
通过自动化过程监督提升语言模型的数学推理能力 [论文]
利用步骤感知验证器使大型语言模型成为更好的推理者 [论文]
利用过程与结果反馈解决数学应用题 [论文]
基于生成式奖励模型的不确定性感知分步验证 [论文]
AdaptiveStep：根据模型置信度自动划分推理步骤 [论文]
内部奖励模型的自洽性可提升自我奖励语言模型 [论文]
10亿参数的语言模型能否超越4050亿参数的语言模型？重新思考计算最优的推理时缩放策略 [论文]
代理式奖励建模：将人类偏好与可验证的正确性信号相结合，构建可靠的奖励系统 [论文]
凭直觉指导：利用强化的内在信心实现高效的推理时缩放 [论文]
大语言模型与金融的结合：为开放FinLLM排行榜微调基础模型 [论文]

策略优化

挤干湿海绵：大型语言模型的高效离策略强化微调 [论文]

MCTS/树搜索

关于马尔可夫决策过程中最优值估计的MCTS收敛速率 [论文]
Search-o1: 基于智能体搜索增强的大规模推理模型 [论文]
rStar-Math: 小型LLM可通过自我进化式深度思考掌握数学推理能力 [论文]
ReST-MCTS*: 基于过程奖励引导的树搜索实现LLM自训练 [论文]
思维森林：通过增加测试时计算量来提升LLM推理能力 [论文]
华佗GPT-o1，迈向基于LLM的医学复杂推理 [论文]
桑葚：通过集体蒙特卡洛树搜索赋予多模态LLM类似o1的推理与反思能力 [论文]
利用引导式树搜索提出并解决奥数几何问题 [论文]
SPaR：结合树搜索精炼的自我博弈方法，用于提升大型语言模型的指令遵循能力 [论文]
基于迭代偏好学习的蒙特卡洛树搜索增强推理中的内在自我修正能力 [论文]
CodeTree：大型语言模型辅助代码生成的代理引导树搜索 [论文]
GPT引导的蒙特卡洛树搜索在金融欺诈检测中的符号回归应用 [论文]
MC-NEST——利用蒙特卡洛纳什均衡自我精炼树提升大型语言模型的数学推理能力 [论文]
Marco-o1：迈向开放式解决方案的开放性推理模型 [论文]
SRA-MCTS：利用蒙特卡洛树搜索进行代码生成的自我驱动式推理增强 [论文]
别丢掉你的价值模型！通过价值引导的蒙特卡洛树搜索解码生成更优文本 [论文]
AFlow：自动化智能体工作流生成 [论文]
可解释的对比式蒙特卡洛树搜索推理 [论文]
LLaMA-Berry：针对O1级别奥数数学推理的成对优化 [论文]
通过MCTS实现LLM自我改进：利用循序渐进的知识与课程式偏好学习 [论文]
TreeBoN：通过推测式树搜索和最佳N次采样提升推理时的一致性 [论文]
理解思维树何时奏效：更大规模的模型在生成方面表现更佳，而非在判别方面 [论文]
RethinkMCTS：为代码生成优化蒙特卡洛树搜索中的错误思路 [论文]
策略家：LLM通过双层树搜索学习战略技能 [论文]
LiteSearch：高效的LLM树搜索 [论文]
针对语言模型代理的树搜索 [论文]
大型语言模型搜索树上的不确定性引导优化 [论文]
- 通过蒙特卡洛树自我精炼，借助LLaMa-3 8B获得GPT-4级别的数学奥赛解法 [论文]
超越A*：通过搜索动力学自举实现更好的Transformer规划 [论文]
LLM推理者：大型语言模型逐步推理的新评估、库及分析 [论文]
AlphaMath几乎为零：无需流程监督的过程监督 [论文]
利用蒙特卡洛树搜索引导大型语言模型生成代码世界模型 [论文]
MindStar：在推理时提升预训练LLM的数学推理能力 [论文]
通过迭代偏好学习提升蒙特卡洛树搜索的推理能力 [论文]
搜索之流（SoS）：学习如何在语言中进行搜索 [论文]
通过想象、搜索和批判实现LLM自我改进 [论文]
思维的不确定性：不确定性感知规划增强了大型语言模型的信息获取能力 [论文]
使用语言模型进行推理即是在使用世界模型进行规划 [论文]
大型语言模型作为大规模任务规划中的常识知识 [论文]
类似ALPHAZERO的树搜索可以指导大型语言模型的解码和训练 [论文]
类似Alphazero的树搜索可以指导大型语言模型的解码和训练 [论文]
让PPO变得更好：价值引导的蒙特卡洛树搜索解码 [论文]
利用受限蒙特卡洛树搜索生成可靠的长链式数学推理 [论文]
基于假设的心智理论推理应用于大型语言模型 [论文]
细粒度会话解码：基于各向同性和近端搜索 [论文]
控制-DAG：使用加权有限状态自动机实现非自回归定向无环T5的约束解码 [论文]
回溯解码用于开放式文本生成 [论文]
LeanProgress：通过证明进度预测引导神经定理证明的搜索 [论文]

可解释性

快速思考与慢速思考的智能体：讲者-推理者架构 [论文]
在针对快速与慢速思考进行训练时，大语言模型各层发生了什么？——基于梯度的视角 [论文]
当语言模型被优化用于推理时，它是否仍会表现出自回归的痕迹？对OpenAI o1的分析 [论文]
推理步骤长度对大型语言模型的影响 [论文]
将系统2提炼为系统1 [论文]
系统2注意力机制（你可能也需要） [论文]
朝着大语言模型中的系统2推理迈进：通过元思维链学习如何思考 [论文]
LlamaV-o1：重新思考大语言模型中的分步视觉推理 [论文]
两个脑袋胜过一个：推理时的双模型言语反思 [论文]
探索迭代增强以改进由学习者提供的多选题解释 [论文]
演绎规则：训练Transformer模型以解释意外输入 [论文]

多模态智能体相关的快慢系统

深入研究多模态推理的自我进化式训练 [论文]
视觉智能体作为快速与慢速思考者 [论文]
Virgo：关于重现o1-like MLLM的初步探索 [论文]
利用视觉价值模型扩展推理时搜索范围，以提升视觉理解能力 [论文]
慢速感知：让我们逐步感知几何图形 [论文]
AtomThink：面向多模态数学推理的慢速思考框架 [论文]
LLaVA-o1：让视觉语言模型能够分步推理 [论文]
视觉-语言模型可通过反思实现推理的自我改进 [论文]
我思故我扩散：在扩散模型中实现多模态上下文推理 [论文]
RAG-Gym：通过过程监督优化推理与搜索智能体 [论文]

基准测试与数据集

PhyX：你的模型具备物理推理的“智慧”吗？[论文]
Big-Math：面向语言模型强化学习的大规模高质量数学数据集[论文]
PRMBench：面向过程级奖励模型的细粒度且具有挑战性的基准测试[论文]
MR-Ben：用于评估大语言模型中系统2思维的元推理基准测试[论文]
对于2+3=?，别想太多：关于o1类大语言模型过度思考的问题[论文]
o1在医学领域的初步研究：我们离人工智能医生更近了吗？[论文]
EquiBench：通过等价性检查来评估大型语言模型的代码推理能力[论文]
SuperGPQA：跨285个研究生学科扩展大语言模型评估[论文]
多模态RewardBench：对视觉语言模型奖励模型的全面评估[论文]
FrontierMath：评估人工智能高级数学推理能力的基准测试[论文]
OpenAI o1评估：AGI的机遇与挑战[论文]
MATH-Perturb：针对困难扰动项的大语言模型数学推理能力基准测试[论文]
LongReason：通过上下文扩展构建的合成长上下文推理基准测试[论文]
人类的最后一场考试[论文]
LR²Bench：通过约束满足问题评估大型语言模型的长链式反思推理能力[论文]
BIG-Bench 极难版[论文]
利用任务结构变化评估和增强大型语言模型逻辑推理的鲁棒性[论文]
自然语言上的多步演绎推理：关于分布外泛化能力的实证研究[论文]
大型语言模型并非强大的抽象推理者[论文]

推理与安全

安全税：安全对齐使你的大型推理模型变得不那么合理[论文]
过度思考：针对推理型大语言模型的减速攻击[论文]
GuardReasoner：迈向基于推理的大语言模型安全保障[论文]
SafeChain：具备长链式思维推理能力的语言模型安全性[论文]
ThinkGuard：深思熟虑的慢速思考带来谨慎的安全护栏[论文]
SafeChain：具备长链式思维推理能力的语言模型安全性[论文]
H-CoT：劫持链式思维安全推理机制以越狱大型推理模型，包括OpenAI o1/o3、DeepSeek-R1和Gemini 2.0 Flash Thinking[论文]
BoT：通过后门攻击破坏o1类大型语言模型的长思维过程[论文]
基于抽象语义表示的逻辑驱动数据增强用于逻辑推理[论文]
ChatLogic：将逻辑编程与大型语言模型结合以实现多步推理[论文]

🚀 强化学习与大语言模型微调仓库

#	仓库与链接	描述
1	RL4VLM 自2024年12月15日起已归档且只读	提供通过强化学习微调大型视觉-语言模型作为决策代理的代码。包含使用特定任务奖励训练模型并在各种环境中进行评估的实现。
2	LlamaGym	简化了使用在线强化学习微调大型语言模型（LLM）代理的过程。提供一个抽象的 `Agent` 类来处理强化学习训练的各个方面，从而能够在不同环境中快速迭代和实验。
3	基于强化学习的扩散模型在生物序列上的微调	配合一篇关于基于强化学习微调的教程和综述论文，重点在于生物序列（DNA/RNA）的设计。提供了使用强化学习训练和微调扩散模型的全面教程和代码实现。
4	LM-RL-Finetune	旨在通过解析计算KL惩罚项来优化语言模型强化学习微调中的KL惩罚优化问题。包含使用近端策略优化（PPO）进行训练的配置。
5	InstructLLaMA	实现了预训练、监督微调（SFT）以及基于人类反馈的强化学习（RLHF），以训练和微调LLaMA2模型，使其能够遵循人类指令，类似于InstructGPT或ChatGPT。
6	SEIKO	介绍了一种新颖的强化学习方法，可在在线设置中高效微调扩散模型。其技术在微调Stable Diffusion方面优于PPO、基于分类器的引导以及直接奖励反向传播等基线方法。
7	TRL（用强化学习训练Transformer语言模型）	一个最先进的库，用于使用监督微调（SFT）、近端策略优化（PPO）、GRPO和直接偏好优化（DPO）等方法对基础模型进行后训练。构建于🤗 Transformers生态系统之上，支持多种模型架构，并能高效地扩展到不同的硬件配置。
8	将强化学习模型的微调视为持续学习	探讨将强化学习模型的微调视为遗忘缓解问题（持续学习）。提供了应对强化学习模型遗忘现象的见解和代码实现。
9	RL4LMs	一个模块化的强化学习库，用于将语言模型微调至符合人类偏好。通过GRUE基准测试进行了2000多次严格评估，确保其在各类NLP任务中的鲁棒性。
10	Lamorel	一种高吞吐量、分布式架构，用于在交互式环境中无缝集成LLM。虽然默认情况下不专门针对强化学习或RLHF，但它支持自定义实现，非常适合需要最大灵活性的用户。
11	LLM-Reverse-Curriculum-RL	实现了ICML 2024论文《通过逆向课程强化学习训练大型语言模型以进行推理》。专注于使用逆向课程强化学习方法提升LLM的推理能力。
12	veRL	一个灵活、高效且可用于生产的强化学习训练库，专为大型语言模型（LLMs）设计。它是HybridFlow框架的开源实现，支持多种强化学习算法（PPO、GRPO），具备先进的资源利用率，并可扩展至数百张GPU上的70B参数模型。与Hugging Face模型、监督微调以及RLHF结合，支持多种奖励类型。
13	trlX	一个用于通过强化学习微调大型语言模型（LLMs）的分布式训练框架。同时支持Accelerate和NVIDIA NeMo后端，允许训练高达20B+参数的模型。实现了PPO和ILQL，并与CHEESE集成以进行人机协作的数据收集。
14	Okapi	一个用于LLMs中基于RLHF的指令微调框架，支持26种语言。提供多语言资源，如ChatGPT提示词、指令数据集和响应排序数据，以及基于BLOOM和LLaMa的模型和评估基准。
15	LLaMA-Factory	统一高效的100+ LLMs和VLMs微调（ACL 2024）。支持广泛的模型（如LLaMA、LLaVA、Qwen、Mistral），采用的方法包括预训练、多模态微调、奖励建模、PPO、DPO和ORPO。提供可扩展的微调方式（16位、LoRA、QLoRA），并配有高级优化和日志集成；同时通过API、Gradio UI和CLI配合vLLM工作进程实现快速推理。

⚡ 应用与基准测试

"AutoGPT：用于自主强化学习智能体的大型语言模型" - OpenAI（2023）[论文]
"Barkour：评估LLM增强型强化学习的基准测试" - Wu等人（2023）[论文]

Colon-X：从多模态理解到临床推理，推动智能结肠镜检查的进步（医学理解与推理）[论文] [代码]
Big-Math：面向语言模型强化学习的大规模高质量数学数据集 [论文]
PRMBench：面向过程级奖励模型的细粒度且具有挑战性的基准测试 [论文]
MR-Ben：用于评估大型语言模型中系统2思维的元推理基准测试 [论文]
对于2+3=?不要想太多：关于o1类大型语言模型过度思考的问题 [论文]
o1在医学领域的初步研究：我们离人工智能医生更近了吗？[论文]
EquiBench：通过等价性检查评估大型语言模型的代码推理能力 [论文]
SuperGPQA：跨285个研究生学科扩展大型语言模型评估 [论文]
多模态RewardBench：视觉语言模型奖励模型的整体评估 [论文]
FrontierMath：评估人工智能高级数学推理能力的基准测试 [论文]
OpenAI o1评估：AGI的机遇与挑战 [论文]
MATH-Perturb：针对高难度扰动评估大型语言模型数学推理能力的基准测试 [论文]
LongReason：通过上下文扩展构建的合成长上下文推理基准测试 [论文]
人类的最后一场考试 [论文]
LR²Bench：通过约束满足问题评估大型语言模型的长链反思推理能力 [论文]
BIG-Bench Extra Hard [论文]

📚 教程与课程

🎥 深度强化学习训练营（伯克利） [官网]
🎥 DeepMind强化学习系列 [官网]

🛠️ 库与实现

🔗 其他资源

📌 贡献说明

欢迎各位贡献！如果您有相关的论文、代码或见解，请随时提交拉取请求。

引用

如果您觉得我们的工作有用，或在您的研究中使用了它，请考虑引用：

@misc{kumar2025llmposttrainingdeepdive,
      title={LLM后训练：深入探索大型语言模型的推理能力}, 
      author={Komal Kumar和Tajamul Ashraf和Omkar Thawakar和Rao Muhammad Anwer和Hisham Cholakkal和Mubarak Shah和Ming-Hsuan Yang和Phillip H. S. Torr和Fahad Shahbaz Khan和Salman Khan},
      year={2025},
      eprint={2502.21321},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2502.21321}, 
}

许可证 :scroll:

本作品采用知识共享署名-非商业性使用-相同方式共享4.0国际许可协议授权。

星标历史图

期待您的反馈、贡献和星标！ :star2: 如有任何问题或建议，请在此处提出这里.

Awesome-LLM-Post-training 快速上手指南

Awesome-LLM-Post-training 并非一个可直接安装的单一软件库，而是一个精选的资源知识库。它汇集了关于大语言模型（LLM）后训练（Post-Training）、推理增强、强化学习（RL）及奖励建模等领域的顶尖论文、代码实现、基准测试和教程。

本指南将帮助开发者快速利用该仓库获取核心资源，并搭建相关的实验环境。

📌 环境准备

由于本仓库主要提供论文链接和对应开源项目的索引，您需要根据具体想复现的论文或模型来配置环境。以下是通用的推荐基础环境：

系统要求

操作系统: Linux (推荐 Ubuntu 20.04/22.04) 或 macOS
硬件: NVIDIA GPU (建议显存 ≥ 24GB，用于运行 7B+ 参数模型的微调或推理)
CUDA: 版本 ≥ 11.8 (取决于具体框架需求)

前置依赖

大多数列出的项目基于以下主流深度学习框架：

Python: 3.9 - 3.11
PyTorch: 2.0+
Transformers: 4.30+
Accelerate / DeepSpeed: 用于分布式训练
vLLM / TGI: 用于高效推理

💡 国内加速建议：在安装 Python 依赖时，推荐使用清华或阿里镜像源以提升下载速度：
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

🚀 安装步骤

由于这是一个资源列表仓库，您只需克隆该仓库以获取最新的论文清单和代码链接。

1. 克隆仓库

git clone https://github.com/zzli2022/System2-Reasoning-LLM.git
cd System2-Reasoning-LLM

2. 获取特定项目代码

浏览仓库中的 README.md 或分类列表（如 LLMs-in-RL, Reward Learning），找到您感兴趣的项目（例如 DeepSeek-R1, ReFT, Kimi k1.5 等）。

点击对应的 [Paper] 或代码链接跳转到原始项目页面。通常安装方式如下（以典型的 RLHF 项目为例）：

# 示例：假设您选择了某个具体的开源实现项目
git clone <目标项目仓库地址>
cd <目标项目目录>

# 创建虚拟环境
python -m venv venv
source venv/bin/activate

# 安装依赖 (优先使用国内镜像)
pip install -e . -i https://pypi.tuna.tsinghua.edu.cn/simple

🛠️ 基本使用

本仓库的核心用法是作为技术选型和文献检索的入口。以下是典型的使用流程：

场景：寻找并复现一个“过程奖励模型 (Process Reward Model)"

检索资源：在克隆后的 README.md 中查找 🏆 Reward Learning 章节。找到相关论文，例如：ReST-MCTS: LLM Self-Training via Process Reward Guided Tree Search。
定位代码：点击该条目对应的链接（通常会指向 arXiv 论文或 GitHub 代码库）。

运行示例：进入该项目的主页后，参照其提供的 Quick Start 进行推理或训练。以下是一个通用的推理命令示例（具体参数需参考对应项目文档）：

# 示例：使用 HuggingFace Transformers 加载经过后训练的模型
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "path/to/downloaded/model" # 替换为具体模型路径
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")

input_text = "Solve this math problem step by step: 1 + 1 = ?"
inputs = tokenizer(input_text, return_tensors="pt").to(model.device)

outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

核心分类速查

根据您的研究需求，可直接跳转至 README 中的以下板块：

📖 Papers/Survey: 了解后训练领域的最新综述和理论进展。
🤖 LLMs in RL: 查找结合强化学习的推理增强方法（如 DeepScaleR, Satori）。
🏆 Reward Learning: 获取过程奖励模型（PRM）和人类反馈（RLHF）的相关实现。
🛠️ Libraries: 寻找开源的 RL-LLM 训练框架。

注：本仓库持续更新，建议定期 git pull 获取最新的论文列表和资源链接。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2周前

Agent开发框架图像

n8n

n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。

★ 184.7k|★★☆☆☆|今天

数据工具开发框架Agent

AutoGPT

AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台，核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点，让用户只需设定目标，AI 即可自主规划步骤、调用工具并持续运行直至完成任务。无论是开发者、研究人员，还是希望提升工作效率的普通用户，都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体；研究人员能基于开源架构探索多智能体协作机制；而非技术背景用户也可直接选用预置的智能体模板，立即投入实际工作场景。 AutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑，每个块负责单一动作，灵活且易于调试。同时，平台支持本地自托管与云端部署两种模式，兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本，即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛，让人人都能成为 AI 的创造者与受益者。

★ 183.6k|★★★☆☆|今天

Agent语言模型插件

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 161.1k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|2天前