LightReasoner

598 33 中等 1 次阅读 3天前MIT语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

LightReasoner 是一项旨在突破大语言模型推理能力瓶颈的创新技术，其核心理念令人耳目一新：让小模型来“教”大模型如何更好地推理。传统方法往往依赖海量数据进行 exhaustive（穷尽式）训练，不仅计算成本高昂，且效率低下。LightReasoner 另辟蹊径，通过策略性的令牌选择机制，精准挖掘大模型潜在的推理能力，在显著降低计算开销的同时实现性能跃升。

实验数据显示，相比传统的监督微调（SFT），LightReasoner 能将总耗时减少 90%，采样问题量减少 80%，而用于微调的令牌数量更是惊人地减少了 99%。这意味着开发者无需昂贵的算力集群，也能高效地提升模型在数学解题、逻辑推导等复杂任务上的表现。该项目已收录于 ACL 2026 主会，并开源了基于 Qwen2.5-Math 和 DeepSeek-R1 的核心实现及预收集的训练样本。

LightReasoner 特别适合 AI 研究人员、大模型开发者以及希望以低成本优化模型推理能力的技术团队使用。它证明了在人工智能进阶之路上，“更聪明”的策略远比“更费力”的蛮练有效，为资源受限环境下的大模型优化提供了极具价值的新范式。

使用场景

某教育科技公司的算法团队正致力于将大型语言模型（LLM）集成到其自适应数学辅导系统中，以生成高质量的解题步骤供学生参考。

没有 LightReasoner 时

训练成本高昂：为了提升大模型的逻辑推理能力，团队不得不进行全量监督微调（SFT），消耗了巨大的 GPU 算力和时间资源。
数据冗余严重：传统的训练方式需要处理海量的解题样本，其中包含大量对推理能力提升无效的冗余 token，导致数据处理效率极低。
响应延迟过高：由于模型未经过针对性的“精简”优化，生成的推理过程往往冗长啰嗦，增加了用户端的等待时间和计算开销。
小模型价值被忽视：团队仅依赖大模型自身迭代，未能利用轻量级小模型（SLM）中蕴含的高效推理模式来指导大模型。

使用 LightReasoner 后

算力开销骤降：LightReasoner 通过策略性的 Token 选择机制，在总耗时上减少了 90%，调优 Token 数量更是降低了 99%，大幅节省了训练预算。
数据精准高效：不再盲目堆砌数据，而是让小模型“教”大模型筛选出最具价值的推理路径，仅需 20% 的采样问题即可达到更优效果。
推理敏捷精准：经过增强的大模型在零样本（zero-shot）测试中准确率显著提升，且生成的解题步骤更加简练，显著降低了端到端延迟。
大小模型协同：成功验证了小模型在大模型推理进化中的导师角色，以“更聪明”的策略替代了“更暴力”的训练方式。

LightReasoner 证明了通过小模型引导的策略性训练，能以极低的成本解锁大模型的深层推理潜能，实现了效率与性能的双重飞跃。

运行环境要求

操作系统

未说明

GPU

必需（用于运行 Expert/Amateur 模型采样及微调），具体型号与显存大小取决于所选模型（如 Qwen2.5-Math-7B 或 1.5B），需支持 CUDA

内存

未说明

依赖

notes1. 核心机制依赖'专家 - 业余'模型配对（Expert-Amateur Pairing），需自行下载两个不同能力的模型（例如专家用 Qwen2.5-Math-1.5B，业余用 Qwen2.5-0.5B）。2. 若使用高难度数据集（如 MATH），建议将业余模型升级为同系列的数学专用版本以保证推理连贯性。3. 项目提供了预采集的训练样本（LRsamples），可跳过耗时的采样步骤直接进行微调。4. 默认使用 GSM8K 数据集进行逻辑推理训练。

python3.10+

requirements.txt 中定义的依赖（具体列表未在 README 中展示，通常包含 torch, transformers, accelerate, huggingface_hub 等）

快速开始

💡 LightReasoner: 能否让小型语言模型教会<强>大型语言模型推理能力？

王景远 · 陈彦凯 · 李中航 · 黄超

欢迎横幅

$Baselines$

图1：LightReasoner以卓越的令牌效率实现更优性能——在零样本pass@1准确率上持续提升，同时与传统SFT相比，总耗时减少90%，采样问题数量减少80%，调优令牌数减少99%。

💡 核心洞见：

这一效率突破表明，策略性地选择令牌而非进行穷举式训练，才能最有效地释放LLM推理的潜在能力——这证明了“更智能而非盲目加大投入”才是实现AI规模化改进的道路。

🎉 新闻

[2026/04/06] 🚀 LightReasoner已被ACL 2026主会接受！衷心感谢所有合著者及合作者的支持。
[2025/10/14] 🚀 新发布：LRsamples — 预先收集的LightReasoner训练样本，可直接用于微调。该数据集无需完整的采样流程即可进行模型训练，从而简化复现工作并加速下游研究流程。
[2025/10/14] 🚀 新发布：LightReasoner增强模型现已在🤗 Hugging Face Hub 上线。这些即用型模型采用我们高效的推理增强方法进行微调，可立即部署和实验。
[2025/10/12] 🚀 新发布：核心实现已支持Qwen2.5-Math和DeepSeek-R1模型。

⚡ TL;DR

**✨ LightReasoner ✨**颠覆了传统的AI训练模式——小型语言模型（SLMs）不仅能从大型语言模型（LLMs）那里“学习”，还能反过来“教导”LLMs，使其学得更好、更快！

🔥 挑战：

监督微调（SFT）面临三大瓶颈：

📊 数据密集型： 依赖人工标注或拒绝采样的数据集。
⚖️ 均匀学习： 对所有令牌一视同仁地进行训练，尽管真正重要的只是其中一小部分。
🔗 对真实标签的依赖： 这种方式限制了模型对新领域和新推理形式的适应能力。

🔍 核心洞见：

我们将90%的计算资源投入到模型已经掌握的内容上，而对那关键的10%——真正能带来突破的部分——则投入不足。

📈 LightReasoner：更好且更快

在7个基准测试和5种模型上进行了验证

🚀 性能提升

LightReasoner在多个数据集上持续提升了推理准确率：

📈 Qwen2.5-Math-1.5B： GSM8K提升28.1%，MATH提升25.1%，SVAMP提升7.2%，ASDIV提升11.7%
📈 DeepSeek-R1-Distill-Qwen-1.5B： GSM8K提升4.3%，MATH提升6.0%，OlympiadBench提升17.4%
📈 Qwen2.5-Math-7B： GSM8K提升10.4%，MATH提升6.0%，SVAMP提升9.3%，ASDIV提升7.9%
📈 Qwen2.5-Math-1.5B-Instruct： GSM8K提升1.9%，Minerva Math提升2.6%
🌍 强大的泛化能力： 仅在GSM8K上训练，却能在7个基准测试上取得改进。

⚡ 效率突破

以Qwen2.5-Math-1.5B为例，与SFT相比，LightReasoner实现了显著的效率提升：

⏱️ 总耗时减少90%： 4小时→0.5小时
🧾 采样问题数量减少80%： 3,952→1,000个问题
🔢 调优令牌数减少99%： 177万→2万个令牌

🌟 主要特性

🎯 SLM–LLM教学：

出人意料地利用较小的“业余”模型来识别那些更强的“专家”模型应当重点学习的关键推理时刻。

⚡ 极致的令牌效率：

通过有选择地优化高影响力推理步骤，而不是对整个推理过程进行均匀训练，LightReasoner实现了比SFT少99%的调优令牌数。

🔄 三阶段轻量级框架：

(1) 通过专家-业余KLD检测进行关键步骤选择

(2) 通过捕捉专家与业余行为差异的对比监督

(3) 通过自我蒸馏内化专家的优势

📈 KL引导的学习：

利用专家与业余预测之间的行为分歧来** pinpoint 推理瓶颈**——这一切都不需要真实标签。

🧠 专业知识胜过模型规模：

这表明，推动有效对比学习的是领域知识差距，而非模型大小——即使是具有不同知识的同规模模型也能产生强大的教学信号。

🧩 LightReasoner 框架

图2：LightReasoner 框架概览。 (1) 采样阶段：专家模型和业余模型分别生成分布 π_E 和 π_A。通过保留 D_KL(π_E ∥ π_A) > β 的步骤，进行信息性步长选择；同时，对比监督机制会构建软标签 v_C,以捕捉专家模型的优势。 (2) 微调阶段：通过最小化专家模型输出与 v_C 之间的 KL 散度，进一步提升专家模型性能。

🚀 快速入门

LightReasoner 使用起来极其简单。我们精心设计了它，使其易于上手——任何人都可以亲自尝试，并亲身体验其 “反直觉的有效性”。

毫不费力——只需按照下面几个 🪄 简单步骤，你就能将其设置好，并用自己选择的模型运行起来！

📦 准备工作

git clone https://github.com/HKUDS/LightReasoner.git
cd LightReasoner

1️⃣ 安装所有依赖项：

pip install -r requirements.txt

2️⃣ 下载你选择的专家模型和业余模型。例如：

🦉 专家模型

huggingface-cli download Qwen/Qwen2.5-Math-1.5B --local-dir ./Qwen2.5-Math-1.5B

🐣 业余模型

huggingface-cli download Qwen/Qwen2.5-0.5B --local-dir ./Qwen2.5-0.5B

3️⃣ 准备训练数据：

python data_prep.py

⚠️ 注意事项

LightReasoner 依赖于 专家-业余模型配对 来生成监督信号。因此，这对模型的选择对方法的成功至关重要。

⚖️ 经验法则：

专家模型应 显著优于 业余模型，而业余模型则必须具备 足够的能力，能够产生连贯的推理过程。实际上，性能的最佳点往往在于一个平衡的 “最佳区间”，而非单纯扩大能力差距。

在我们的实验中，专家模型包括 Qwen2.5-Math-1.5B、7B，以及它们的 Instruct 对应版本，还有 DeepSeek-R1-Distill 系列变体。业余模型则固定为 Qwen2.5-0.5B，它既能提供强烈的对比，又具备足够的推理能力，从而产生有意义的监督信号。

我们鼓励你尝试其他模型家族（如 Llama），但在搭建专家-业余合作时，请务必牢记这一 平衡原则。

📋 注意

我们默认使用 GSM8K 数据集，因为它强调逐步推进、广泛适用的逻辑推理，而非特定领域的符号表示。这确保了即使业余模型没有接受过数学专项训练，仍能产生可解释的输出，适合用于对比监督。
你完全可以尝试其他数据集——LightReasoner 全面兼容。然而，根据所选数据集的不同，你可能需要调整超参数以及业余模型的选择，以保证训练的稳定性和对比效果的显著性。
- 例如，如果你尝试使用 MATH 数据集——一组难度远高于 GSM8K 的高中竞赛题目——建议将业余模型从通用的 Qwen2.5 基础模型升级为专门针对数学的 Qwen2.5-Math 变体。基础模型并未经过数学预训练，可能难以在 MATH 数据上生成连贯的输出，从而削弱专家-业余模型之间的对比效果。
- 此处同样适用 平衡原则——业余模型应当 足够弱于 专家模型，以形成清晰的对比，但同时也需具备维持连贯推理的能力。

🎯 采样

此步骤用于构建 LightReasoner 监督数据集，以便后续微调使用。我们会保留那些专家与业余模型之间 KL 散度较高的步骤。这些选定的步骤将被转化为监督样本，通过 分布对比 来编码专家模型的优势。更多详细信息请参阅我们的论文 arXiv:2510.07962。

python LightR_sampling.py --max_questions 1000

📋 注意

在运行脚本之前，你需要：

更新 配置部分，填入你自己的相对路径。
调整最大问题数量，以控制监督数据集的大小；调整采样参数，探索更优的组合；并根据可用的计算资源，优化批处理大小。
- 作为参考，在实践中，我们发现从 GSM8K 训练集中采样 1,000 个问题（过滤阈值设为 β = 0.4），大约能得到 20,000 个 LightReasoner 对比样本，而这已经足以让我们在测试过的基准模型上实现 LoRA 微调的收敛。

⚡ 快捷方式

为了省去运行采样流程的麻烦——尽管 LightReasoner 的采样流程已经轻量且简便，但对于计算资源有限的人来说，仍然可能有些吃力——我们现在提供了 即用型 LightReasoner 样本，让你可以直接跳到 微调阶段！🚀

你可以在 LRsamples 文件夹下的压缩包中找到以下预先收集的 LightReasoner 采样数据集：

LR_Qwen7_gsm8k — 适用于 Qwen2.5-Math-7B
LR_ds1.5_gsm8k — 适用于 DeepSeek-R1-Distill-Qwen-1.5B
LR_Qwen1.5_gsm8k — 适用于 Qwen2.5-Math-1.5B
- 我们提供了 两个版本，分别基于 Torch 3.1 和 Torch 3.8 采样，因为我们发现不同版本的 Torch 会导致采样结果（即模型生成的输出）略有差异。
- 性能波动非常小——通常在 2–3% 以内，较新版本的 Torch 一般表现略好一些。

这些数据集使得你能够 更轻松地复现 我们的实验结果——无需额外采样！✨

⚙️ 微调

此步骤启动完整的 LightReasoner 微调流程——将 数据加载、LoRA 配置 和 对比 KL 散度训练 整合为一个统一的工作流。

💻 运行选项

前台运行（简单模式）：

python LightR_finetuning.py

后台运行（推荐用于长时间训练）：

nohup python LightR_finetuning.py > finetune.log 2>&1 &

监控进度：

tail -f finetune.log

⚠️ 注意事项

用于微调的专家模型必须与采样时使用的模型完全一致——这种一致性对于正确执行至关重要。

📋 注意

在运行脚本之前，请编辑 配置部分 以匹配你的设置：

🔹 将 <path_to_expert_model> 替换为你使用的基模型路径（例如 "./Qwen2.5-Math-7B" 或本地文件夹）。
🔹 将 <path_to_training_dataset> 替换为你准备好的数据集 JSONL 文件。
🔹 将 <output_directory> 替换为你希望保存检查点和最终模型的目录。
🔹 根据你的硬件设备设置 torch_dtype（例如，对于 H100 使用 torch.bfloat16，对于 A100 则使用 torch.float16）。

🔗 模型合并

使用此步骤在本地合并完整模型（基础模型 + LoRA），使其作为独立模型运行，无需任何 LoRA 依赖。

python merge.py

📋 注意

在运行合并脚本之前，请根据您的实际路径更新配置部分：

🔹 base_model_path 设置为您的基础模型目录 (例如：./Qwen2.5-Math-7B)
🔹 lora_ckpt_path 设置为您的 LoRA 检查点目录 (例如：./ft_qw7_gsm8k/checkpoint-1000)
🔹 merged_model_path 设置为您希望保存合并后模型的路径 (例如：./ft-7B-merged)

📈 评估

所有评估均使用官方 Qwen2.5-Math 工具包进行。

请参阅 evaluation 文件夹，获取详细的使用和设置说明。

📊 主要结果

模型	GSM8K	MATH	SVAMP	ASDiv	Minerva Math	Olympiad Bench	MMLU STEM	AVG.
Qwen2.5-Math-1.5B
基线	42.5	34.2	68.8	68.1	9.9	23.7	49.8	42.4
+ SFT	69.2	57.1	64.1	70.2	15.1	27.6	47.7	50.1
+ LightR	70.6	59.3	76.0	79.8	11.4	27.1	54.9	54.2
Qwen2.5-Math-1.5B-Instruct
基线	84.8	75.8	94.2	94.7	29.4	37.5	57.4	67.7
+ SFT	85.4	75.8	93.5	94.7	31.6	37.5	56.2	67.8
+ LightR	86.7	75.5	93.0	94.1	32.0	37.8	55.2	67.8
DeepSeek-R1-Distill-Qwen-1.5B
基线	75.2	54.2	79.9	84.9	16.2	19.1	22.3	50.3
+ SFT	78.2	60.3	81.5	87.4	18.4	21.2	26.2	53.3
+ LightR	79.5	60.2	83.5	87.5	18.0	36.5	26.2	55.9
Qwen2.5-Math-7B
基线	57.5	51.8	67.9	72.7	14.0	16.0	69.8	50.0
+ SFT	64.4	63.3	76.2	76.6	12.1	20.5	68.5	54.5
+ LightR	67.9	57.8	77.2	80.6	12.1	16.9	70.5	54.7
Qwen2.5-Math-7B-Instruct
基线	95.2	83.2	93.9	95.3	33.8	41.5	69.3	73.2
+ SFT	95.4	83.1	94.1	95.2	38.2	40.7	68.2	73.6
+ LightR	95.8	83.6	93.1	95.2	34.2	39.0	67.8	72.7

LightReasoner 仅基于 GSM8K 数据训练，却能有效泛化到 5 种基础模型，在 7 个基准测试中均取得一致提升。
对于 Qwen2.5-Math-1.5B，GSM8K 提升 28.1%，MATH 提升 25.1%，SVAMP 提升 7.2%，ASDIV 提升 11.7%。
对于 DeepSeek-R1-Distill-Qwen-1.5B，GSM8K 提升 4.3%，MATH 提升 6.0%，OlympiadBench 提升 17.4%。
对于 Qwen2.5-Math-7B，GSM8K 提升 10.4%，MATH 提升 6.0%，SVAMP 提升 9.3%，ASDIV 提升 7.9%。
效率对比 SFT：总耗时减少 90%，采样问题数量减少 80%，调优的 token 数量减少 99%。

⏱️ 效率研究

方法	总时间	采样问题	调整的标记数	平均增益
Qwen2.5-Math-1.5B
+ SFT	4.0小时	3952	177万	+7.7%
+ LightReasoner	0.5小时	1000	0.02百万	+11.8%
Qwen2.5-Math-7B
+ SFT	9.5小时	6029	220万	+4.5%
+ LightReasoner	0.75小时	1000	0.02百万	+4.7%
DeepSeek-R1-Distill-Qwen-1.5B
+ SFT	3.6小时	6023	595万	+3.0%
+ LightReasoner	0.5小时	1000	0.02百万	+5.6%
Qwen2.5-Math-1.5B-Instruct
+ SFT	3.4小时	7153	208万	+0.1%
+ LightReasoner	0.4小时	1000	0.02百万	+0.1%

🧑‍🏫 监督微调 (SFT):
- 采用拒绝采样实现，模型在正确推理轨迹的示范上进行微调。
- 为公平比较，SFT 采用了与 LightReasoner 相同的实验配置，仅在 GSM8K 训练集上进行基于 LoRA 的微调。
- 🎯 关键区别:
  - LightReasoner 基于选择性的下一个标记预测进行训练，而 SFT 则优化整个推理轨迹——这是由各自训练范式决定的固有差异。
  - 因此，每个 LightReasoner 训练实例对应于单个下一个标记预测，而每个 SFT 示例则对应于包含一系列连续下一个标记预测的完整推理轨迹。
📈 效率评估:
- ⏱️ 时间预算 — 采样时间加上微调时间，在单个 NVIDIA H200 GPU 上测量，未使用推理加速器（如 vLLM）。
- 📘 训练实例 — 用于生成监督数据集的不同 GSM8K 训练集问题数量。
- 🔢 调整的标记数 — 以标记为单位计算的计算开销。

图3: LightReasoner 以显著的资源效率匹配或超越 SFT 性能 — 在达到竞争性准确率的同时，将训练时间缩短90%，采样问题减少80%，所需调整的标记数减少99%。

💡 关键洞察:

*这标志着模型训练方式的根本转变——针对关键推理步骤的效果优于蛮力学习，使得即使在有限的计算资源下，高质量的人工智能训练也成为可能。*

🧠 专家驱动的对比

业余模型	性能差距	GSM8K	MATH	SVAMP	ASDiv	MMLU STEM	平均
专家: Qwen2.5-Math-1.5B
Qwen2.5-0.5B	38.2	70.6	59.3	76.0	79.8	54.9	68.1
Qwen2.5-1.5B	35.1	63.4	57.1	69.7	75.7	54.8	64.1
Qwen2.5-Math-1.5B	/	/	/	/	/	/	/
Qwen2.5-Math-1.5B-Ins	-42.3	41.4	35.5	67.5	66.4	55.0	53.2
仅专家（基准）	/	42.5	34.2	68.8	68.1	49.8	52.7
专家: Qwen2.5-Math-7B
Qwen2.5-0.5B	53.2	67.9	57.8	77.2	80.6	70.5	70.8
Qwen2.5-1.5B	50.1	69.0	56.0	77.6	78.9	69.5	70.2
Qwen2.5-Math-1.5B	15.0	56.9	50.2	63.5	63.4	70.7	60.9
Qwen2.5-Math-1.5B-Ins	-27.3	59.4	49.0	68.3	69.6	70.3	63.3
仅专家（基准）	/	57.5	51.8	67.9	72.7	69.8	63.9

领域专业知识胜过规模: 专家–业余合作的成功最有效地由领域特定知识驱动，而非模型大小（例如 Qwen2.5-Math-1.5B 与 Qwen2.5-1.5B），从而使 LightReasoner 摆脱了严格的规模限制。
对专业知识差距的依赖: 性能提升与专业知识差距的大小密切相关——随着业余模型接近专家的能力，对比信号减弱，改进也随之减少。

🔍 更多见解

采样阶段微调阶段

👈 图4(a): 专家–业余配对效果 — 每个点代表一个固定的专家模型与一个业余模型配对。随着专业知识差距的缩小，LightReasoner 所取得的性能增益逐渐减弱。

👉 图4(b): 缺失项的影响 — 从 LightReasoner 中移除关键组件会持续降低性能，揭示了它们的关键贡献。

🏆 与竞争方法的比较

属性	时间	SFT	LightR
完整轨迹	⬆️	✅	❌
全标记调优	⬆️	✅	❌
前缀终止	⬇️	❌	✅
选择性标记	⬇️	❌	✅
无需验证	⬇️	❌	✅

属性	效用	CD	LightR
对比使用	/	推理	训练
基于规模的对比	⬇️	✅	❌
专业知识对比	⬆️	❌	✅
持续性收益	⬆️	❌	✅
独立推理	⬆️	❌	✅

👈 左: 一目了然的效率对比。⬆️ 和 ⬇️ 表示每个方面是有助于还是不利于该方法的整体效率。
👉 右: 传统对比解码 (CD) 方法与 LightReasoner 的关键区别。⬆️ 和 ⬇️ 表示每个方面是有助于还是不利于该方法的实用性。

☕️ 引用

如果您觉得这项工作有用，请考虑引用我们的论文：

@article{wang2025lightreasoner,
  title={LightReasoner: 小型语言模型能否教会大型语言模型推理？},
  author={Wang, Jingyuan and Chen, Yankai and Li, Zhonghang and Huang, Chao},
  journal={arXiv 预印本 arXiv:2510.07962},
  year={2025}
}

感谢您对我们工作的关注！

📜 许可证

本项目采用 MIT 许可证发布。

❤️ 感谢您的访问 ✨ LightReasoner ✨

浏览量

LightReasoner 快速上手指南

LightReasoner 是一个创新的推理增强框架，核心理念是利用小型语言模型（SLM）来教导大型语言模型（LLM）。它通过识别专家模型与业余模型之间的关键推理差异，仅对高影响力的推理步骤进行微调，从而实现比传统监督微调（SFT）更高的准确率和极致的令牌效率（减少 99% 的微调令牌量）。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐) 或 macOS
Python 版本: 3.10 或更高
硬件要求: 支持 CUDA 的 NVIDIA GPU（显存需求取决于所选的 Expert/Amateur 模型大小，建议至少 16GB 以运行 1.5B-7B 模型组合）
前置依赖:
- git
- pip
- huggingface-cli (用于下载模型)

💡 国内加速建议 鉴于网络环境，强烈建议使用国内镜像源加速依赖安装和模型下载：

pip 源: 使用清华源或阿里源 (-i https://pypi.tuna.tsinghua.edu.cn/simple)

Hugging Face: 设置环境变量 HF_ENDPOINT=https://hf-mirror.com 或使用 huggingface-cli 的镜像配置。

安装步骤

1. 克隆项目代码

git clone https://github.com/HKUDS/LightReasoner.git
cd LightReasoner

2. 安装依赖

推荐使用国内 pip 源以加快安装速度：

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 下载模型

LightReasoner 需要成对的 Expert (专家) 和 Amateur (业余) 模型。

Expert: 性能较强，负责提供高质量推理分布。
Amateur: 性能较弱但具备基本推理能力，用于对比发现关键步骤。

以下以官方推荐的 Qwen2.5-Math-1.5B (Expert) 和 Qwen2.5-0.5B (Amateur) 为例：

# 设置 HF 镜像加速 (可选，国内用户推荐)
export HF_ENDPOINT=https://hf-mirror.com

# 下载 Expert 模型
huggingface-cli download Qwen/Qwen2.5-Math-1.5B --local-dir ./Qwen2.5-Math-1.5B

# 下载 Amateur 模型
huggingface-cli download Qwen/Qwen2.5-0.5B --local-dir ./Qwen2.5-0.5B

4. 准备数据

运行数据预处理脚本（默认使用 GSM8K 数据集）：

python data_prep.py

⚠️ 模型搭配原则

Expert 必须显著强于 Amateur。

Amateur 不能太弱，必须能生成连贯的推理过程（否则无法形成有效的对比信号）。

若使用高难度数据集（如 MATH），建议将 Amateur 升级为同系列的数学专用模型（如 Qwen2.5-Math-0.5B）。

基本使用

LightReasoner 的核心流程分为两步：采样构建监督数据 和微调。

方案 A：完整流程（自行采样）

如果您希望从头构建训练数据，请执行以下步骤：

1. 采样阶段 (Sampling) 此步骤通过计算 Expert 和 Amateur 的 KL 散度，筛选出关键推理步骤，构建轻量级监督数据集。

python LightR_sampling.py --max_questions 1000

--max_questions: 控制采样的问题数量。官方实验表明，从 GSM8K 中采样 1,000 个问题即可生成约 20,000 个对比样本，足以让 LoRA 收敛。
注意: 运行前请在脚本中配置好模型本地路径。

2. 微调阶段 (Fine-tuning) 使用生成的对比样本对 Expert 模型进行微调（具体微调命令请参考项目中的训练脚本，通常基于 HuggingFace Trainer 或 LLaMA-Factory）。

方案 B：快捷流程（使用预采集数据）⭐ 推荐

为了节省算力和时间，项目提供了预采集好的训练样本，您可以直接跳过采样阶段，立即开始微调。

1. 获取预采集数据 访问项目目录下的 LRsamples 文件夹（或在 HuggingFace Collection 中下载），选择对应您模型的压缩包：

LR_Qwen7_gsm8k.zip: 适用于 Qwen2.5-Math-7B
LR_ds1.5_gsm8k.zip: 适用于 DeepSeek-R1-Distill-Qwen-1.5B
LR_Qwen1.5_gsm8k.zip: 适用于 Qwen2.5-Math-1.5B

解压后即可获得 ready-to-use 的训练数据。

2. 开始微调 直接使用解压后的数据启动微调任务。这种方式将总训练时间从数小时缩短至几十分钟，并减少了 99% 的 Token 处理量。

# 示例：使用预采集数据启动训练 (具体训练命令需参考项目内的 train.py 或相关文档)
python train.py --data_path ./LRsamples/LR_Qwen1.5_gsm8k --model_path ./Qwen2.5-Math-1.5B

通过以上步骤，您即可体验 LightReasoner“以小教大”的高效推理增强效果。

常见问题

项目的中文 README 文档是否完整？

LightReasoner 方法中计算 KL 散度时，Expert 和 Amateur 模型的词表（Tokenizer/Vocabulary）必须完全一致吗？如果不一致该如何处理？

为什么 LightReasoner 的 token 使用量与传统 SFT（监督微调）相比有如此大的差异？

如何在 Hugging Face Hub 上找到或链接 LightReasoner 的模型？

使用 $\log\frac{\pi_{expert}}{\pi_{amateur}}$ 作为监督信号是否会导致 Reward Hacking（奖励黑客），即 Expert 输出奇怪抽象的文字以压低 Amateur 的概率？

目前的代码实现中，固定不变的 Expert/Amateur 对比是否存在局限性？是否有动态调整的建议？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 159.3k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|1周前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架