Awesome-LLM-Strawberry

6.9k 369 非常简单 2 次阅读 3天前Apache-2.0语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

Awesome-LLM-Strawberry 是一个专注于大语言模型推理能力的开源资源合集，核心围绕 OpenAI o1（代号 Strawberry）及各类前沿推理技术展开。它系统性地整理了相关的学术论文、技术博客、官方文档以及复现项目，旨在帮助从业者快速掌握从基础理论到最新架构突破的全貌。

面对大模型领域推理技术迭代极快、信息分散且难以追踪的痛点，Awesome-LLM-Strawberry 提供了持续更新的“一站式”导航。它不仅收录了 OpenAI 关于 o1、o3 系列的官方解读，还涵盖了 Google DeepMind、DeepSeek、月之暗面等机构在推理模型上的最新进展，甚至包括对 o1 架构的深度逆向工程分析和强化学习训练技巧探讨。

该资源库特别适合 AI 研究人员、算法工程师以及对大模型底层机制感兴趣的开发者使用。无论是希望复现 o1 推理能力的团队，还是想要了解“思维链”、“过程监督”等独特技术亮点的学者，都能从中找到高价值的参考依据。通过汇聚全球顶尖的智慧成果，Awesome-LLM-Strawberry 成为了探索下一代具备深度思考能力 AI 系统的重要窗口。

使用场景

某 AI 初创公司的算法团队正致力于复现 OpenAI o1 的推理能力，以构建垂直领域的复杂问题解决模型。

没有 Awesome-LLM-Strawberry 时

信息搜集效率低下：研究人员需手动在 arXiv、Twitter 和技术博客间穿梭，耗费数天才能拼凑出关于"o1 架构”或“强化学习验证（RLVR）”的零散资讯。
错过关键前沿动态：由于缺乏统一追踪源，团队容易遗漏如 DeepSeek-R1、Kimi k1 等竞品发布的最新推理技术细节，导致技术路线滞后。
理论复现门槛高：面对晦涩的论文和缺失的代码实现参考，工程师难以快速理解从“监督结果”转向“监督过程”的核心训练范式，试错成本极高。
资源分散难整合：官方文档、深度分析文章与开源项目分散各处，缺乏系统性整理，阻碍了团队对推理缩放定律（Inference Scaling Laws）的整体认知。

使用 Awesome-LLM-Strawberry 后

一站式获取前沿情报：团队直接通过该仓库即可获取涵盖 OpenAI o3、Gemini 2.0 Flash Thinking 及国内大模型的最新推理进展，将调研时间从数天压缩至数小时。
精准锁定核心技术路径：借助仓库中精选的"REINFORCE++ baseline"、"Online IcePop"等技术博客，工程师迅速掌握了稳定 MoE 路由与高效推理训练的关键方法。
加速模型复现进程：依托整理的 o1 逆向工程分析与 ARC-AGI 评测突破案例，团队快速构建了基于“过程监督”的实验框架，显著减少了盲目尝试。
构建系统化知识体系：从官方指南到社区深度解读，所有资源按逻辑分类，帮助团队成员快速对齐对推理机制的理解，提升了协作效率。

Awesome-LLM-Strawberry 将碎片化的推理技术情报转化为系统化的研发燃料，让团队在激烈的模型竞赛中抢占先机。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该项目（Awesome-LLM-Strawberry）是一个收集关于 OpenAI o1 及大模型推理相关研究论文、博客、开源模型和代码库的资源列表，本身不是一个可直接运行的软件工具或框架，因此 README 中未包含具体的操作系统、GPU、内存、Python 版本或依赖库等运行环境需求。用户若需运行列表中提到的具体开源模型（如 DeepSeek-R1, QwQ 等）或代码库（如 OpenRLHF, SkyRL 等），需参考各自项目仓库的说明文档。

python未说明

快速开始

令人惊叹的LLM草莓（OpenAI o1）

GitHub stars GitHub forks

这是一个关于OpenAI草莓(o1)及推理能力的研究论文与博客合集。

该仓库将持续更新，以追踪LLM推理领域的前沿进展。

OpenAI官方文档

https://platform.openai.com/docs/guides/reasoning

新闻

[OpenAI] 推出深度研究
[OpenAI] o3预览版与o3 mini
[OpenAI] 推出ChatGPT Pro
[Google DeepMind] Gemini 2.0闪电思维
[Ilya Sutskever] 具备推理能力的AI将更难预测
[SemianAlysis] 规模法则——O1 Pro架构、推理训练基础设施、Orion以及Claude 3.5 Opus的“失败”
[DeepSeek] DeepSeek-R1-Lite预览版现已上线：释放超强推理能力！
[Moonshoot] 数学对标o1系列，搜索再次进化，Kimi 新推理模型与你一起拓展智能边界
[Moonshoot] Kimi 发布视觉思考模型 k1，多项理科测试行业领先
[InternLM] 强推理模型书生InternThinker开放体验：自主生成高智力密度数据、具备元动作思考能力
[新智元] 万字独家爆光，首揭o1 pro架构！惊人反转，Claude 3.5 Opus没失败？

博客

[OpenAI] 学习如何用LLM进行推理
[OpenAI] OpenAI o1-mini推动低成本高效推理
[OpenAI] 用GPT-4找出GPT-4的错误
[ARC-AGI] OpenAI o3在ARC-AGI-Pub上取得突破性高分
[Anthropic] 构建高效智能体
[hijkzzz] 无需路由器重放即可稳定MoE RL：在线IcePop解决方案
[hijkzzz] 在RLVR中，REINFORCE++基准线就足够了
[hijkzzz] 探索OpenAI O1模型的复现
[Nathan Lambert] OpenAI的草莓、语言模型自我对话、推理规模法则以及更多推理成本
[Nathan Lambert] 逆向工程OpenAI的o1
[Andreas Stuhlmüller, jungofthewon] 监督过程，而非结果
[Nouha Dziri] O1模型是否已经破解了人类的推理能力？
[Rishabh Agarwal] 利用自动生成的数据改进LLM推理：强化学习与验证器
[Wei Shen] RLHF中的泛化进展：奖励模型和PPO的影响洞察
[Dominater069] Codeforces - 分析O1-Mini到底有多好
[Tibor Blaho] 总结我们在与OpenAI o1团队AMA一小时中所学到的内容

演讲

课程

[DeepLearning.AI] 使用o1进行推理

Twitter

OpenAI开发者

Noam Brown

Jason Wei

其他

开源项目

模型

[阿里巴巴通义实验室] Qwen3
[阿里巴巴通义实验室] QwQ
[阿里巴巴通义实验室] QvQ
[DeepSeek] DeepSeek R1
[NVIDIA] Nemotron-Research-Reasoning-Qwen-1.5B
[Skywork] Skywork R1V2
[rLLM] DeepScaler
[NovaSky] Sky-T1
[GAIR-NLP] O1 复现之旅：战略进展报告
[OpenO1 团队] 开源 O1
[腾讯] DRT-o1
[阿里巴巴] Marco-o1
[香港中文大学深圳分校] HuatuoGPT-o1

代码库

[OpenRLHF 团队] OpenRLHF
[OpenRLHF 团队] REINFORCE++ | REINFORCE++ 基线 | 代码
[NovaSky-AI] SkyRL
[RUCAIBox] STILL：使用 LLM 进行慢思考
[香港科技大学] 用于推理的简单强化学习
- 这是对 DeepSeek-R1-Zero 的复现，以及在小模型上用有限数据训练 DeepSeek-R1 的过程。
[Ubiquant] Logic-RL：基于规则的强化学习释放 LLM 推理能力
[StepFun] Open-Reasoner-Zero
[TideDra] LMM-R1
[ModalMinds] MM-EUREKA：通过大规模规则强化学习探索视觉顿悟时刻
[R1-V 团队] R1-V
[LLaMA-Factory 团队] EasyR1：高效、可扩展、多模态的 RL 训练框架
[阿里巴巴] ROLL | 论文
[Sea AI Lab] Dr. GRPO
[伯克利人工智能研究组] TinyZero
[Maitrix.org] LLM 推理器

论文

格式：
- [标题](论文链接) [链接]
  - 作者1、作者2、作者3…
  - 出版社
  - 代码
  - 实验环境和数据集

关于 o1 模型的技术报告

INTELLECT-3：技术报告
- Prime Intellect 团队
DeepSeek V3.2
- DeepSeek AI
MiMo-V2 Flash
- 小米
Nemotron 3 Nano：面向代理式推理的开放、高效的混合专家混合 Mamba-Transformer 模型
- NVIDIA
Qwen3 技术报告
- 通义实验室
通过持续预训练扩展智能体
- 通义实验室
WebResearcher：释放长时程智能体的无限推理能力
- 通义实验室
通过环境扩展迈向通用代理智能
- 通义实验室
Magistral
- Mistral AI
ERINE-4.5
- 百度
LongCat Flash
- 美团
GLM-4.5：代理式、推理与编程（ARC）基础模型
- 之普 AI
Seed Thinking v1.5
- 字节跳动 Seed
DeepSeek-V3 技术报告
- DeepSeek
DeepSeek-R1：通过强化学习激励 LLM 的推理能力
- DeepSeek AI
DeepSeek-Prover-V2：通过强化学习进行子目标分解以推进形式数学推理
- DeepSeek AI
MiniMax-M1：利用闪电注意力高效扩展推理时计算能力
- MiniMax
Kimi k2：开放的代理智能
- MoonShot
Kimi k1.5：用 LLM 扩展强化学习
- MoonShot
KIMI-VL 技术报告
- MoonShot
Kimina-Prover 预览：迈向大型形式推理模型的强化学习
- MoonShot 和 Numina
Llama-Nemotron：高效推理模型
- NVIDIA
Skywork Open Reasoner 1 技术报告
- Skywork

2025年

Nemotron-Cascade：面向通用推理模型的级联强化学习扩展
- 英伟达
QwenLong-L1.5：长上下文推理与记忆的后训练配方
- 通义实验室团队
DeepSeekMath-V2：迈向自我验证的数学推理
- DeepSeek-AI
利用大语言模型稳定强化学习：方法与实践
- 通义实验室团队
为大语言模型扩展强化学习计算资源的艺术
- Devvrit Khatri、Lovish Madaan、Rishabh Tiwari、Rachit Bansal、Sai Surya Duvvuri、Manzil Zaheer、Inderjit S. Dhillon、David Brandfonbrener、Rishabh Agarwal
BroRL：通过拓宽探索范围实现强化学习规模化
- 刘健、刘明杰、卢希明、吴芳、扎伊德·哈尔乔伊、刁世哲、崔艺珍、帕夫洛·莫尔恰诺夫、杨俊、扬·考茨、董毅
为什么语言模型会出现幻觉
- OpenAI
rStar2-Agent：代理式推理技术报告
- 尚宁、刘一飞、朱毅、张丽琳娜、徐伟江、关鑫宇、张步泽、董炳成、周旭东、张博文、辛颖、苗子明、李斯嘉、杨帆、杨茂
强化学习既非万能药，也非海市蜃楼：理解大语言模型的监督学习与强化学习微调
- 金航展、思诚、吴思凡、穆罕默德·哈姆达卡
DuPO：通过双重偏好优化实现可靠的大语言模型自我验证
- 佘帅杰、鲍宇、陆宇、许陆、李涛、朱文浩、黄树坚、程善博、陆陆、王宇轩
多采样以减少思考：用于简洁推理的分组过滤策略优化
- 施里瓦斯塔瓦、阿瓦达拉、巴拉昌德兰、加格、贝赫尔、帕派伊利奥普洛斯
ProRL V2——长期训练验证强化学习缩放定律
- 刘健、刘明杰、刁世哲、卢希明、董欣、帕夫洛·莫尔恰诺夫、崔艺珍、扬·考茨、董毅
第一部分：技巧还是陷阱？深入探讨用于大语言模型推理的强化学习
- 刘子赫、刘家顺、何燕城、王伟勋、刘嘉恒、潘玲、胡鑫宇、熊绍攀、黄巨、刘健、黄圣义、杨思然、王佳芒、苏文博、郑博
分组序列策略优化
- 郑楚杰、刘世轩、李明泽、陈雄辉、于博文、高昌、邓凯、刘玉琼、门锐、杨安、周京仁、林俊阳
你的高效强化学习框架正悄悄为你带来离策略强化学习训练
- 姚峰、刘立源、张定怀、董承宇、尚景波、高建峰
Gemini 2.5 Pro 有望在2025年国际数学奥林匹克竞赛中夺冠
- 黄一辰、杨林福
DeepSWE：通过强化学习规模化训练一个完全开源的最先进编码代理
- together.ai
OctoThinker：中期激励推动强化学习规模化
- 王增志、周凡、李雪峰、刘鹏飞
ProRL：长期强化学习拓展大型语言模型的推理边界
- 刘明杰、刁世哲、卢希明、刘健、董欣、崔艺珍、扬·考茨、董毅
REINFORCE++：一种高效的RLHF算法，对提示和奖励模型均具有鲁棒性
- 刘健、刘杰森·克莱因、沈伟
- 代码：REINFORCE++-baseline
超越80/20法则：高熵少数标记驱动大语言模型推理的有效强化学习
- 通义实验室团队
负强化在大语言模型推理中的惊人效果
- 朱新宇、夏孟州、魏哲沛、陈伟林、陈丹琪、孟宇
借助生成图像进行思考
- 切恩·伊森、胡竹林、切恩·斯特菲、寇思琪、苏嘉迪、马彦、邓志杰、刘鹏飞
像素推理者：以好奇心驱动的强化学习激励像素空间推理
- 苏亚历克斯、王浩哲、任伟明、林方振、陈文虎
DeepEyes：通过强化学习激励“用图像思考”
- 郑子威、杨迈克尔、洪杰克、赵晨晓、徐国海、杨乐、申超、于兴
让视觉拥有推理能力：通过模型融合理解感知与推理
- 陈诗琪、张静涵、朱彤瑶、刘伟、高思洋、熊淼、李曼玲、何俊贤
QwenLong-L1：借助强化学习迈向长上下文大型推理模型
- 万凡奇、沈伟洲、廖圣义、施英成、李晨亮、杨子怡、张继、黄飞、周京仁、严明
代理强化学习缩放定律：具备自发代码执行能力的代理强化学习用于解数学题
- 麦新吉、徐浩天、W星、王伟农、张莹莹、张文强
- 代码：https://github.com/yyht/openrlhf_async_pipline
大语言模型推理的极简主义方法：从拒绝采样到Reinforce
- 熊伟、姚家睿、徐雨慧、庞博、王雷、萨霍伊院长、李俊楠、蒋楠、张同、熊才明、董汉泽
仅需一次训练样本即可实现大型语言模型的推理强化学习
- 王一平、杨青、曾志远、任利昂、刘卢卡斯、彭宝林、程浩、何学海、王宽、高建峰、陈伟珠、王书航、杜思明、沈业龙
能够思考的过程奖励模型
- 哈利法、阿加瓦尔、洛格斯瓦兰、金在谦、彭浩、李蒙泰、李洪洛克、王陆
M1：迈向可扩展的测试时计算，采用Mamba推理模型
- 王俊雄、李文丁、帕利奥塔、里特尔、拉什、陶三
对语言模型推理进展的清醒审视：陷阱与可重复性的路径
- 霍赫莱纳特、巴特纳加尔、乌丹达劳、阿尔巴尼、普拉布、贝特格
通过强化学习实现简洁推理
- 法特米、拉菲、唐明杰、塔拉马杜普拉
VAPO：高效且可靠的强化学习，适用于高级推理任务
- 余悦、袁玉凤、俞启英、左晓晨、朱若飞、徐文渊、陈家泽、王承义、范甜甜、杜正印、魏向鹏、刘高宏、刘俊才、刘玲君、林海斌、林志奇、马伯乐等
通用奖励模型的推理时间缩放
- 刘子俊、王佩仪、徐润欣、马士荣、阮冲、李鹏、刘洋、吴宇
JudgeLRM：将大型推理模型作为裁判
- 陈诺、胡志远、邹清云、吴佳颖、王茜、胡布莱恩、何炳生
DAPO：大规模开源的大语言模型强化学习系统
- 俞启英、张正、朱若飞、袁玉凤、左晓晨、余悦、范甜甜、刘高宏、刘玲君、刘欣、林海斌等
利用潜在推理扩展测试时计算：递归深度方法
- 盖平、麦克莱什、贾因、基尔亨鲍尔、辛格、巴托尔德森、凯尔库拉、巴特勒、戈德斯坦
通过元强化微调优化测试时计算
- 曲宇晓、杨马修、塞特卢尔、坦斯托尔、比钦、萨拉胡丁诺夫、库马尔
R1-Searcher：通过强化学习激励大语言模型的搜索能力
- 宋华通、姜金浩、闵英倩、陈杰、陈志鹏、赵韦恩新、方雷、温继荣
Visual-RFT：视觉强化微调
- 刘子宇、孙泽依、臧宇航、董晓依、曹宇航、段浩东、林大华、王佳琪
将视觉感知标记引入多模态大型语言模型
- 于润鹏、马新寅、王新超
不进行验证或强化学习而扩展测试时计算是次优的
- 塞特卢尔、拉贾拉曼、列维、库马尔
大语言模型可以轻松地从演示中学会推理：重要的是结构，而非内容！
- 李大成、曹世义、格里格斯、刘舒、莫湘溪、帕蒂尔、扎哈里亚、冈萨雷斯、斯托伊卡
揭秘大语言模型中的长链式思维推理
- 叶欧德、童宇轩、牛莫瑞、纽比格、岳翔
LIMR：更少反而更多，适用于强化学习缩放
- 李雪峰、邹浩洋、刘鹏飞
LIMO：更少反而更多，适用于推理
- 叶新怡、黄震、肖杨、切恩·伊森、夏世杰、刘鹏飞
s1：简单的测试时缩放
- 缪尼霍夫、杨子彤、史伟佳、李香丽莎、费费·李、哈吉希尔齐、泽特洛伊默、梁珀西、坎德斯、桥本达津诺里
SFT记住细节，RL则泛化：基础模型后训练的比较研究
- 楚天哲、翟月祥、杨纪韩、佟盛邦、谢赛宁、舒尔曼斯、黎光越、列维、马毅
通过强化学习和推理缩放推进语言模型推理
- 侯振宇、吕欣、陆锐、张佳杰、李宇江、姚子俊、李娟子、唐杰、董宇晓
Satori：基于行动—思维链的强化学习，通过自回归搜索增强大语言模型的推理能力
- 沈茂浩、曾广涛、齐振廷、洪章伟、陈真芳、魏陆、沃内尔、达斯、考克斯、甘创
大型语言模型的蒸馏量化
- 李孙博文、周俊婷、敖超等
rStar-Math：小型大语言模型可通过自我进化式深度思考掌握数学推理
- 关鑫宇、张丽琳娜、刘一飞、尚宁、孙友然、朱毅、杨帆、杨茂
进化更深层次的大语言模型思维
- 李匡辉、费舍尔、吴岳华、马伍德、巴鲁贾、舒尔曼斯、陈新云
在数学推理中开发过程奖励模型的经验教训
- 张振儒、郑楚杰、吴阳镇、张培臣、林润基、于博文、刘大亨、周京仁、林俊阳
迈向大语言模型中的系统2式推理：学习如何用元思维链思考
- 谢向薇、斯奈尔、甘地、阿尔巴拉克、辛格、布拉格登、冯杜、拉斐尔、莱尔、马汉、卡斯特里卡托、弗兰肯、哈伯、芬恩
PRMBENCH：针对过程级奖励模型的细粒度且具有挑战性的基准测试
- 宋明阳、苏兆晨、曲晓叶、周嘉伟、程宇
Virgo：关于复现o1类MLLM的初步探索
- 杜一凡、刘子康、李一凡、赵韦恩新、霍宇琪、王炳宁、陈伟鹏、刘郑、王中原、温继荣
在思考空间中想象：多模态思维可视化
- 李成祖、吴文山、张焕宇、夏燕、毛绍光、李东、武利奇、魏富
LlamaV-o1：重新思考大语言模型中的逐步视觉推理
- 塔瓦卡尔、迪桑纳亚克、莫雷、索卡尔、希克尔、阿赫桑、李宇豪、祖姆里、拉胡德、安维尔、乔拉卡尔、拉普捷夫、沙赫、汗、汗

2024年

审慎对齐：推理使语言模型更安全
- OpenAI
MLE-bench：在机器学习工程领域评估机器学习智能体
- Jun Shern Chan、Neil Chowdhury、Oliver Jaffe、James Aung、Dane Sherburn、Evan Mays、Giulio Starace、Kevin Liu、Leon Maksin、Tejal Patwardhan、Lilian Weng、Aleksander Mądry
从Medprompt到o1：医疗挑战问题及其他场景下的运行时策略探索
- Scott McKinney
LLM批评者助力捕捉LLM中的缺陷
- Nat McAleese、Rai Michael Pokorny、Juan Felipe Ceron Uribe、Evgenia Nitishinskaya、Maja Trebacz、Jan Leike
通过强化学习将大型视觉—语言模型微调为决策智能体
- Yuexiang Zhai、Hao Bai、Zipeng Lin、Jiayi Pan、Shengbang Tong、Yifei Zhou、Alane Suhr、Saining Xie、Yann LeCun、Yi Ma、Sergey Levine
ZoomEye：通过基于树的图像探索增强多模态LLM的人类式缩放能力
- Haozhan Shen、Kangjia Zhao、Tiancheng Zhao、Ruochen Xu、Zilun Zhang、Mingwei Zhu、Jianwei Yin
分而治之再合并：一种无需训练的框架，用于提升多模态大型语言模型的高分辨率图像感知能力
- Wenbin Wang、Liang Ding、Minyan Zeng、Xiabin Zhou、Li Shen、Yong Luo、Dacheng Tao
在LLM测试时以最优方式扩展计算资源，可能比单纯扩大模型参数更为有效
- Charlie Snell、Jaehoon Lee、Kelvin Xu、Aviral Kumar
针对语言模型解决问题时计算最优推理的实证分析
- Yangzhen Wu、Zhiqing Sun、Shanda Li、Sean Welleck、Yiming Yang
更小、更弱却更好：通过计算最优采样训练LLM推理模型
- Hritik Bansal、Arian Hosseini、Rishabh Agarwal、Vinh Q. Tran、Mehran Kazemi
大型语言猴子：利用重复采样扩展推理计算能力
- Bradley Brown、Jordan Juravsky、Ryan Ehrlich、Ronald Clark、Quoc V. Le、Christopher Ré、Azalia Mirhoseini
模仿、探索与自我改进：慢思考推理系统的复现报告
- Yingqian Min、Zhipeng Chen、Jinhao Jiang、Jie Chen、Jia Deng、Yiwen Hu、Yiru Tang、Jiapeng Wang、Xiaoxue Cheng、Huatong Song、Wayne Xin Zhao、Zheng Liu、Zhongyuan Wang、Ji-Rong Wen
通过强化学习训练语言模型进行自我修正
- Aviral Kumar、Vincent Zhuang、Rishabh Agarwal、Yi Su、John D Co-Reyes、Avi Singh、Kate Baumli、Shariq Iqbal、Colton Bishop、Rebecca Roelofs、Lei M Zhang、Kay McKinney、Disha Shrivastava、Cosmin Paduraru、George Tucker、Doina Precup、Feryal Behbahani、Aleksandra Faust
对于2+3=?这样的简单问题，请不要过度思考——关于o1类LLM的过度思考问题
- Xingyu Chen、Jiahao Xu、Tian Liang、Zhiwei He、Jianhui Pang、Dian Yu、Linfeng Song、Qiuzhi Liu、Mengfei Zhou、Zhuosheng Zhang、Rui Wang、Zhaopeng Tu、Haitao Mi、Dong Yu
MEDEC：临床笔记中医学错误检测与纠正的基准测试
- Asma Ben Abacha、Wen-wai Yim、Yujuan Fu、Zhaoyi Sun、Meliha Yetisgen、Fei Xia、Thomas Lin
Qwen2.5-Math技术报告：通过自我改进迈向数学专家模型
- An Yang、Beichen Zhang、Binyuan Hui、Bofei Gao、Bowen Yu、Chengpeng Li、Dayiheng Liu、Jianhong Tu、Jingren Zhou、Junyang Lin、Keming Lu、Mingfeng Xue、Runji Lin、Tianyu Liu、Xingzhang Ren、Zhenru Zhang
RLHF能规模化吗？数据、模型和方法的影响探究
- Zhenyu Hou、Pengfan Du、Yilin Niu、Zhengxiao Du、Aohan Zeng、Xiao Liu、Minlie Huang、Hongning Wang、Jie Tang、Yuxiao Dong
搜索、验证与反馈：通过验证器工程迈向基础模型的下一代后训练范式
- Xinyan Guan、Yanjiang Liu、Xinyu Lu、Boxi Cao、Ben He、Xianpei Han、Le Sun、Jie Lou、Bowen Yu、Yaojie Lu、Hongyu Lin
搜索与学习的规模化：从强化学习视角复现o1的路线图
- Zhiyuan Zeng、Qinyuan Cheng、Zhangyue Yin、Bo Wang、Shimin Li、Yunhua Zhou、Qipeng Guo、Xuanjing Huang、Xipeng Qiu
Quiet-STaR：语言模型可以教会自己先思考再说话
- Eric Zelikman、Georges Harik、Yijia Shao、Varuna Jayasiri、Nick Haber、Noah D. Goodman
- https://github.com/ezelikman/quiet-star
通过带有测试时和训练时监督的批评模型提升LLM推理能力
- Zhiheng Xi、Dingwen Yang、Jixuan Huang、Jiafu Tang、Guanyu Li、Yiwen Ding、Wei He、Boyang Hong、Shihan Do、Wenyu Zhan、Xiao Wang、Rui Zheng、Tao Ji、Xiaowei Shi、Yitao Zhai、Rongxiang Weng、Jingang Wang、Xunliang Cai、Tao Gui、Zuxuan Wu、Qi Zhang、Xipeng Qiu、Xuanjing Huang、Yu-Gang Jiang
- https://mathcritique.github.io/
关于为LLM推理设计有效的训练时RL奖励
- Jiaxuan Gao、Shusheng Xu、Wenjie Ye、Weilin Liu、Chuyi He、Wei Fu、Zhiyu Mei、Guangju Wang、Yi Wu
生成式验证器：将奖励建模视为下一个标记预测
- Lunjun Zhang、Arian Hosseini、Hritik Bansal、Mehran Kazemi、Aviral Kumar、Rishabh Agarwal
奖励进展：为LLM推理扩展自动化流程验证器
- Amrith Setlur、Chirag Nagpal、Adam Fisch、Xinyang Geng、Jacob Eisenstein、Rishabh Agarwal、Alekh Agarwal、Jonathan Berant、Aviral Kumar
通过自动化流程监督提升语言模型的数学推理能力
- Liangchen Luo、Yinxiao Liu、Rosanne Liu、Samrat Phatale、Harsh Lara、Yunxuan Li、Lei Shu、Yun Zhu、Lei Meng、Jiao Sun、Abhinav Rastogi
Math-Shepherd：无需人工标注，逐步验证并强化LLM
- Peiyi Wang、Lei Li、Zhihong Shao、R.X. Xu、Damai Dai、Yifei Li、Deli Chen、Y.Wu、Zhifang Sui
自然语言规划提升LLM代码生成搜索能力
- Evan Wang、Federico Cassano、Catherine Wu、Yunfeng Bai、Will Song、Vaskar Nath、Ziwen Han、Sean Hendryx、Summer Yue、Hugh Zhang
PROCESSBENCH：识别数学推理中的过程性错误
- Chujie Zheng、Zhenru Zhang、Beichen Zhang、Runji Lin、Keming Lu、Bowen Yu、Dayiheng Liu、Jingren Zhou、Junyang Lin
AFlow：自动化代理式工作流生成
- Jiayi Zhang、Jinyu Xiang、Zhaoyang Yu、Fengwei Teng、Xionghui Chen、Jiaqi Chen、Mingchen Zhuge、Xin Cheng、Sirui Hong、Jinlin Wang、Bingnan Zheng、Bang Liu、Yuyu Luo、Chenglin Wu
可解释的对比蒙特卡洛树搜索推理
- Zitian Gao、Boye Niu、Xuzheng He、Haotian Xu、Hongzhang Liu、Aiwei Liu、Xuming Hu、Lijie Wen
Agent Q：面向自主AI智能体的高级推理与学习
- Pranav Putta、Edmund Mills、Naman Garg、Sumeet Motwani、Chelsea Finn、Divyansh Garg、Rafael Rafailov
混合代理增强大型语言模型能力
- Junlin Wang、Jue Wang、Ben Athiwaratkun、Ce Zhang、James Zou
思维的不确定性：基于不确定性的规划提升大型语言模型的信息获取能力
- Zhiyuan Hu、Chumin Liu、Xidong Feng、Yilun Zhao、See-Kiong Ng、Anh Tuan Luu、Junxian He、Pang Wei Koh、Bryan Hooi
借助偏好树推进LLM通用型推理
- Lifan Yuan、Ganqu Cui、Hanbin Wang、Ning Ding、Xingyao Wang、Jia Deng、Boji Shan等
通过想象、搜索和批评实现LLM的自我改进
- Ye Tian、Baolin Peng、Linfeng Song、Lifeng Jin、Dian Yu、Haitao Mi和Dong Yu。
AlphaMath几乎为零：无流程的流程监督
- Guoxin Chen、Minpeng Liao、Chengxi Li、Kai Fan。
ReST-MCTS*：通过流程奖励引导的树搜索实现LLM自我训练
- Dan Zhang、Sining Zhoubian、Yisong Yue、Yuxiao Dong和Jie Tang。
Mulberry：借助集体蒙特卡洛树搜索赋予MLLM类似o1的推理与反思能力
- Huanjin Yao、Jiaxing Huang、Wenhao Wu、Jingyi Zhang、Yibo Wang、Shunyu Liu、Yingjie Wang、Yuxin Song、Haocheng Feng、Li Shen、Dacheng Tao
Insight-V：利用多模态大型语言模型探索长链视觉推理
- Yuhao Dong、Zuyan Liu、Hai-Long Sun、Jingkang Yang、Winston Hu、Yongming Rao、Ziwei Liu
MindStar：在推理阶段增强预训练LLM的数学推理能力
- Jikun Kang、Xin Zhe Li、Xi Chen、Amirreza Kazemi、Qianyi Sun、Boxing Chen、Dong Li、Xu He、Quan He、Feng Wen、Jianye Hao、Jun Yao。
蒙特卡洛树搜索通过迭代偏好学习提升推理能力
- Yuxi Xie、Anirudh Goyal、Wenyue Zheng、Min-Yen Kan、Timothy P. Lillicrap、Kenji Kawaguchi、Michael Shieh。
何时树搜索对LLM规划有用？这取决于判别器
- Ziru Chen、Michael White、Raymond Mooney、Ali Payani、Yu Su、Huan Sun
思维链使Transformer能够解决本质上串行的问题
- Zhiyuan Li、Hong Liu、Denny Zhou、Tengyu Ma。
是否使用思维链？思维链主要有助于数学和符号推理
- Zayne Sprague、Fangcong Yin、Juan Diego Rodriguez、Dongwei Jiang、Manya Wadhwa、Prasann Singhal、Xinyu Zhao、Xi Ye、Kyle Mahowald、Greg Durrett
大型语言模型是否会潜在地进行多跳推理？
- Sohee Yang、Elena Gribovskaya、Nora Kassner、Mor Geva、Sebastian Riedel
无需提示的思维链推理
- Xuezhi Wang、Denny Zhou
相互推理使小型LLM成为更强大的问题解决者
- Zhenting Qi、Mingyuan Ma、Jiahang Xu、Li Lyna Zhang、Fan Yang、Mao Yang
偏好优化链：改进LLM中的思维链推理
- Xuan Zhang、Chao Du、Tianyu Pang、Qian Liu、Wei Gao、Min Lin
ReFT：通过强化微调进行推理
- Trung Quoc Luong、Xinbo Zhang、Zhanming Jie、Peng Sun、Xiaoran Jin、Hang Li
VinePPO：通过精细化信用分配释放LLM推理的RL潜力
- Amirhossein Kazemnejad、Milad Aghajohari、Eva Portelance、Alessandro Sordoni、Siva Reddy、Aaron Courville、Nicolas Le Roux
搜索流（SoS）：学习如何在语言中进行搜索
- Kanishk Gandhi、Denise Lee、Gabriel Grand、Muxin Liu、Winson Cheng、Archit Sharma、Noah D. Goodman
GSM-符号：理解大型语言模型数学推理的局限性
- Iman Mirzadeh、Keivan Alizadeh、Hooman Shahrokhi、Oncel Tuzel、Samy Bengio、Mehrdad Farajtabar
OpenAI o1的评估：AGI的机遇与挑战
- Tianyang Zhong、Zhengliang Liu、Yi Pan、Yutong Zhang、Yifan Zhou、Shizhe Liang、Zihao Wu、Yanjun Lyu、Peng Shu、Xiaowei Yu、Chao Cao、Hanqi Jiang、Hanxu Chen、Yiwei Li、Junhao Chen等
评估LLM检测自身响应中错误的能力
- Ryo Kamoi、Sarkar Snigdha Sarathi Das、Renze Lou、Jihyun Janice Ahn、Yilun Zhao、Xiaoxin Lu、Nan Zhang、Yusen Zhang、Ranran Haoran Zhang、Sujeeth Reddy Vummanthala、Salika Dave、Shaobo Qin、Arman Cohan、Wenpeng Yin、Rui Zhang
关于OpenAI的o1模型的规划能力：可行性、最优性和泛化能力
- Kevin Wang、Junbo Li、Neel P. Bhatt、Yihan Xi、Qiang Liu、Ufuk Topcu、Zhangyang Wang
并非所有LLM推理者都生而平等
- Arian Hosseini、Alessandro Sordoni、Daniel Toyama、Aaron Courville、Rishabh Agarwal
LLM仍然无法规划；LRM呢？对OpenAI的o1在PlanBench上的初步评估
- Karthik Valmeekam、Kaya Stechly、Subbarao Kambhampati
OpenAI的o1模型推理模式比较研究
- Siwei Wu、Zhongyuan Peng、Xinrun Du、Tuney Zheng、Minghao Liu、Jialong Wu、Jiachen Ma、Yizhi Li、Jian Yang、Wangchunshu Zhou、Qunshu Lin、Junbo Zhao、Zhaoxiang Zhang、Wenhao Huang、Ge Zhang、Chenghua Lin、J.H. Liu
思考型LLM：结合思维生成的通用指令遵循
- Tianhao Wu、Janice Lan、Weizhe Yuan、Jiantao Jiao、Jason Weston、Sainbayar Sukhbaatar
通过陷阱问题探索大型语言模型在数学推理中的组合性不足
- Jun Zhao、Jingqi Tong、Yurong Mou、Ming Zhang、Qi Zhang、Xuanjing Huang
V-STaR：为自学型推理者培训验证器
- Arian Hosseini、Xingdi Yuan、Nikolay Malkin、Aaron Courville、Alessandro Sordoni、Rishabh Agarwal
CPL：关键计划步骤学习提升LLM在推理任务中的泛化能力
- Tianlong Wang、Junzhe Chen、Xuting Han、Jing Bai
RLEF：通过强化学习将代码LLM扎根于执行反馈
- Tianhao Wu、Janice Lan、Weizhe Yuan、Jiantao Jiao、Jason Weston、Sainbayar Sukhbaatar
Q*：通过审慎规划改进LLM的多步推理
- Chaojie Wang、Yanchen Deng、Zhiyi Lyu、Liang Zeng、Jujie He、Shuicheng Yan、Bo An
视觉思维链：借助全面的数据集和基准测试推进多模态语言模型的思维链推理
- Hao Shao、Shengju Qian、Han Xiao、Guanglu Song、Zhuofan Zong、Letian Wang、Yu Liu、Hongsheng Li

2023年

让我们逐步验证
- Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe
V*：引导式视觉搜索作为多模态大语言模型的核心机制
- 吴鹏浩, 谢赛宁
通过潜在变量推理训练思维链
- 杜潘, 马修·D·霍夫曼, 大卫·多汉, 肖尔托·道格拉斯, 段安赫, 亚伦·帕里西, 帕维尔·绍佐夫, 查尔斯·萨顿, 沙拉德·维克拉姆, 里夫·A·索罗斯
类似AlphaZero的树搜索可以指导大型语言模型的解码和训练
- 冯锡东, 万子宇, 文慕宁, 斯蒂芬·马库斯·麦卡利尔, 温颖, 张伟楠, 王军
OVM：面向数学推理规划的结果监督价值模型
- 于飞, 高安宁哲, 王本友
利用语言模型进行推理就是使用世界模型进行规划
- 郝世博, 顾毅, 马浩迪, 洪家华·乔舒亚, 王振, 王哲·黛西, 胡志廷
别丢掉你的价值模型！用价值引导的蒙特卡洛树搜索解码生成更优文本
- 刘、贾成、安德鲁·科恩、拉马克特·帕苏努鲁、叶金·崔、汉娜内·哈吉希尔齐以及阿斯莉·切利基尔马兹。
使用语言模型进行可认证的推理
- 加布里埃尔·波西亚、卡尼什克·甘地、埃里克·泽利克曼、诺亚·D·古德曼
大型语言模型目前仍无法自我纠正推理
- 黄杰、陈欣云、斯瓦鲁普·米什拉、郑怀秀·史蒂文、余亚当斯·魏、宋欣莹、周登尼

2022年

思维链提示在大型语言模型中激发推理能力
- 杰森·韦伊、王雪芝、戴尔·舒尔曼斯、马尔滕·博斯马、布莱恩·伊希特、费伊·夏、埃德·奇、阮国、周登尼
自洽性提升语言模型中的思维链推理
- 王雪芝、杰森·韦伊、戴尔·舒尔曼斯、阮国、埃德·奇、沙兰·纳朗、阿坎克莎·乔德里、周登尼
用于辅助人类评估者的自我批判模型
- 威廉·桑德斯、凯瑟琳·叶、杰夫·吴、史蒂文·比尔斯、龙·欧扬、乔纳森·沃德、扬·莱克
基于程序克隆的思维链模仿
- 杨孟娇、戴尔·舒尔曼斯、皮特·阿贝尔、奥菲尔·纳楚姆
STaR：以推理启动推理
- 埃里克·泽利克曼、吴宇怀、杰西·穆、诺亚·D·古德曼
利用过程与结果反馈解决数学应用题
- 乔纳森·乌萨托、内特·库什曼、拉马纳·库马尔、弗朗西斯·宋、诺亚·西格尔、丽莎·王、安东尼娅·克雷斯威尔、杰弗里·欧文、伊琳娜·希金斯

2021年

训练验证器解决数学应用题
- 卡尔·科布、维尼特·科萨拉朱、穆罕默德·巴瓦里安、马克·陈、何伟·俊、卢卡什·凯泽、马蒂亚斯·普拉珀特、杰里·特沃雷克、雅各布·希尔顿、赖一郎·中野、克里斯托弗·赫塞、约翰·舒尔曼
通过强化学习微调实现可扩展的在线规划
- 阿诺·菲金格、恒元·胡、布兰登·阿莫斯、斯图尔特·拉塞尔、诺姆·布朗
用棋类游戏扩展规模法则
- 安迪·L·琼斯
展示你的工作：语言模型的中间计算草稿纸
- 马克斯韦尔·奈、安德斯·约翰·安德烈森、盖伊·古尔-阿里、亨里克·米哈列夫斯基、雅各布·奥斯汀、大卫·比伯、大卫·多汉、艾托尔·莱夫科维奇、马尔滕·博斯马、大卫·卢安、查尔斯·萨顿、奥古斯都·奥德纳

2021年之前

通过合作式部分可观测博弈中的搜索改进策略
- 亚当·莱勒、恒元·胡、雅各布·福斯特、诺姆·布朗
用于自动定理证明的生成式语言建模
- 斯塔尼斯拉夫·波卢、伊利亚·苏茨克维尔
通过通用强化学习算法的自我对弈掌握国际象棋和将棋
- 大卫·西尔弗、托马斯·休伯特、朱利安·施里特维瑟、伊万尼斯·安东格鲁、马修·莱、阿瑟·格兹、马克·兰克托特、洛朗·西弗、达尔尚·库马拉恩、托雷·格雷佩尔、蒂莫西·利利克拉普、卡伦·西蒙尼扬、德米斯·哈萨比斯。

Awesome-LLM-Strawberry 快速上手指南

Awesome-LLM-Strawberry 并非一个可直接安装的单一软件包，而是一个汇聚了 OpenAI o1（Strawberry）及各类大模型推理（Reasoning）前沿研究论文、博客、开源模型和代码库的精选资源列表。本指南将帮助开发者快速利用该仓库中的资源，搭建本地推理环境并运行开源的类 o1 推理模型。

环境准备

要复现或体验类 o1 的推理能力，您需要准备支持大模型推理的硬件和软件环境。

系统要求

操作系统: Linux (推荐 Ubuntu 20.04/22.04) 或 macOS。
GPU: 推荐使用 NVIDIA GPU。
- 运行小参数模型（如 7B-14B）：显存建议 ≥ 16GB (如 RTX 3090/4090)。
- 运行中等参数模型（如 32B-70B）：显存建议 ≥ 24GB-48GB (多卡或 A100/A800/H800)。
- 运行大型推理模型（如 DeepSeek-R1 671B）：需要多卡集群或使用量化版本。
内存: 系统 RAM 建议 ≥ 32GB，处理长上下文推理时建议 64GB+。
存储: 至少预留 50GB+ 空间用于存放模型权重和依赖库。

前置依赖

确保已安装以下基础工具：

Python: 3.10 或更高版本
Git: 用于克隆仓库
CUDA Toolkit: 与您的 GPU 驱动版本匹配（通常建议 12.1+）
Package Manager: pip 或 conda

安装步骤

由于本仓库是资源集合，"安装"主要指获取相关开源代码库并配置推理框架。以下以目前最热门的 DeepSeek-R1 或 QwQ 模型为例，使用通用的推理框架进行部署。

1. 克隆资源仓库

首先获取最新的资源列表和研究动态：

git clone https://github.com/hijkzzz/Awesome-LLM-Strawberry.git
cd Awesome-LLM-Strawberry

2. 选择并安装推理框架

根据仓库中 Open-source -> Codebase 部分的推荐，您可以选择以下任一主流框架。这里以 vLLM（高性能推理）或 Hugging Face Transformers 为例。

方案 A：使用 vLLM (推荐，速度快)

# 创建虚拟环境
conda create -n strawberry-reason python=3.10 -y
conda activate strawberry-reason

# 安装 vLLM (建议使用国内镜像源加速)
pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple

方案 B：使用 LLaMA-Factory (适合微调与推理一体化)

仓库中提到了 EasyR1 和 LLaMA-Factory，适合想要复现训练过程的用户：

git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]" -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 下载开源推理模型

从 Open-source -> Models 列表中选择一个模型。以 QwQ-32B 或 DeepSeek-R1-Distill 为例，使用 huggingface-cli 下载（国内用户可使用镜像）：

# 安装 huggingface hub 工具
pip install huggingface_hub -i https://pypi.tuna.tsinghua.edu.cn/simple

# 下载 QwQ-32B 模型 (示例)
# 注意：大模型文件较大，请确保磁盘空间充足
huggingface-cli download --resume-download Qwen/QwQ-32B --local-dir ./models/QwQ-32B --local-dir-use-symlinks False

注：若无法访问 HuggingFace，可尝试使用 ModelScope (魔搭社区) 下载对应模型。

基本使用

安装完成后，您可以加载下载的模型进行推理测试。类 o1 模型的特点是会在输出最终答案前生成一段“思维链”（Chain of Thought）。

使用 vLLM 启动服务

以下命令将启动一个兼容 OpenAI API 格式的本地服务：

python -m vllm.entrypoints.openai.api_server \
    --model ./models/QwQ-32B \
    --tensor-parallel-size 1 \
    --trust-remote-code \
    --port 8000

如果是多卡环境，请调整 --tensor-parallel-size 为显卡数量。

发送推理请求

使用 curl 或 Python 脚本向本地服务发送问题。观察输出，您会看到模型先进行长时间的思考（Thinking Process），然后给出结论。

curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "./models/QwQ-32B",
        "messages": [
            {"role": "user", "content": "If I have 3 apples and buy 5 more, then give away half, how many do I have left? Think step by step."}
        ],
        "max_tokens": 2048
    }'

预期输出示例

模型返回的内容将包含类似以下的结构（具体取决于模型实现）：

思考过程: 模型内部推导步骤（例如："First, calculate total apples... then divide by two..."）。
最终答案: 清晰的结论。

提示: 对于更复杂的复现项目（如 OpenRLHF 或 SkyRL），请参考仓库中 Open-source -> Codebase 部分对应的 GitHub 链接，查阅其具体的 README.md 以获取训练和高级推理指令。

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|昨天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架