DecryptPrompt

3.4k 318 非常简单 2 次阅读今天开发框架语言模型Agent

AI 解读由 AI 自动生成，仅供参考

DecryptPrompt是一个专注于整理和解析大模型相关技术内容的开源项目，旨在帮助开发者和研究者更高效地理解和应用提示工程、模型微调、对齐技术以及AIGC（人工智能生成内容）等前沿领域。它汇总了大量论文、开源模型、数据集、框架及实际应用场景，同时通过系列博客深入解读关键技术和方法。对于希望快速掌握LLM技术、进行模型优化或探索AI应用的用户来说，DecryptPrompt提供了系统化的学习资源和实践指南。其内容覆盖广泛，适合研究人员、开发者及对AI技术感兴趣的群体使用。

使用场景

某AI实验室的研究员正在开发一个基于大语言模型的智能客服系统，需要快速了解当前Prompt工程、微调方法、对齐策略以及AIGC应用的最新进展，以便优化模型性能并提升用户体验。

没有 DecryptPrompt 时

需要手动搜索大量论文和博客，耗时且容易遗漏关键信息
缺乏系统的资源整理，难以快速定位到具体技术方向
对Prompt工程、微调方法等概念理解不深入，影响实际应用效果
无法及时跟进最新的AIGC应用场景和案例

使用 DecryptPrompt 后

快速获取全面的Prompt工程、微调、对齐等技术总结，节省大量时间
通过结构化的资源分类，精准找到所需技术资料和实践案例
系统学习Prompt设计与优化方法，提升模型表现和用户交互体验
及时掌握AIGC在客服领域的最新应用，指导产品迭代方向

DecryptPrompt 帮助研究人员高效整合前沿知识，显著提升了模型开发与应用落地的效率和质量。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

需要 NVIDIA GPU，显存 8GB+，CUDA 11.7+

内存

16GB+

依赖

notes建议使用 conda 管理环境，首次运行需下载约 5GB 模型文件

python3.8+

torch>=2.0

transformers>=4.30

accelerate

datasets

sentencepiece

peft

evaluate

deepspeed

wandb

快速开始

解密提示

如果大语言模型的突然兴起让你感到沮丧，不妨阅读一下项目根目录下的《Choose Your Weapon：抑郁的AI研究者的生存策略》。以下内容将持续更新，请点赞以保持关注~

LLM资源汇总

跟着博客读论文

论文汇总

论文列表

图像生成

神经离散表征学习
去噪扩散概率模型
基于Transformer的可扩展扩散模型
具有深度语言理解能力的逼真文本到图像扩散模型
基于潜在扩散模型的高分辨率图像合成

后训练（与COT、RL有交集）

推理扩展
- 针对语言模型问题解决的计算最优推理的实证分析
- 更多的LM调用就是全部所需吗？迈向复合AI系统的扩展特性
- 大型语言猴子：通过重复采样扩展推理计算
- 在测试时以最优方式扩展LLM的计算量，可能比单纯增加模型参数更有效 :star:
- Q*：通过深思熟虑的规划提升LLM的多步推理能力
- 以自然语言进行规划可改善LLM在代码生成中的搜索表现
- ReST-MCTS∗：通过过程奖励引导的树搜索实现LLM自我训练
- 类AlphaZero的树搜索可以指导大型语言模型的解码和训练
- 更小、更弱但更好：通过计算最优采样训练LLM推理器
- 测试时训练在抽象推理中的惊人效果
- 长上下文检索增强生成的推理扩展
- 通过想象、搜索和批判，迈向LLM的自我改进
- InfAlign：推理感知的语言模型对齐
- 利用潜在推理扩大测试时计算规模：一种递归深度方法
- 规划属于哪种类型的推理？
- Goedel-Prover：开源自动定理证明的前沿模型
- 从Grokking的学习动力学中涌现特征的可证明扩展规律
- 机器学习模型是记忆还是泛化？
慢速思维COT
- O1复现之旅：战略进展报告——第一部分 :star:
- Marco-o1：迈向用于开放式解决方案的开放推理模型
- OpenAI o1模型推理模式的比较研究
- 模仿、探索与自我改进：慢速思维推理系统的复现报告
- Dualformer：通过随机化推理轨迹学习，实现可控的快慢思维
- 训练大型语言模型在连续潜在空间中进行推理
- 超越A∗：利用搜索动态自举，通过Transformer实现更好的规划
- o1-Coder：面向编码的o1复现版
- 搜索与学习的扩展：从强化学习视角复现o1的路线图
- Sky-T1：仅需450美元即可训练自己的O1预览模型
- 向LLM中的系统2式推理迈进：通过元思维链学习如何思考
- rStar-Math：小型LLM可通过自我进化式深度思考掌握数学推理 :star:
- 解密LLM中的长思维链推理
- 向大型推理模型迈进：大型语言模型强化推理综述
- Huggingface Open R1
- CODEI/O：通过代码输入输出预测凝练推理模式
- 训练语言模型高效推理
- s1：简单的测试时扩展
- 内省Transformer：利用动态深度缩放促进自适应内部思考
- ALPHAONE：测试时兼具慢速与快速思维的推理模型
O3相关
- 使用大型推理模型进行竞技编程
RL COT原理
- SFT记忆，RL泛化：基础模型后训练的比较研究
- 赋予推理模型自我改进能力的认知行为，或高效STaR的四种习惯
- 思维四处游离：关于o1类LLM的思考不足
- 条条大路通似然：强化学习在微调中的价值
- 强化学习是否真的能在基础模型之外激励LLM的推理能力？
- 不要只追求长度，更要深入思考：通过深度思考标记衡量LLM的推理努力
R1复现
- LogicRL：基于规则的强化学习释放LLM推理潜能
- SimpleR1
- Huggingface Open R1
- DianJin-R1：评估并提升大型语言模型的金融推理能力
- 大型混合推理模型仅在需要时才进行思考
- 推理拓扑：通过推理图属性理解大型推理模型
- Skywork开放推理者1技术报告
- 学习推理：使用GPT-OSS或DeepSeek R1推理轨迹训练LLM
RL智能体
- RAGEN：通过多轮强化学习理解LLM智能体的自我进化
- ToolRL：奖励是工具学习所需要的全部
- ReTool：针对LLM的战略性工具使用强化学习
- ReSearch：通过强化学习让LLM学会利用搜索进行推理
- 利用强化学习改进多轮工具使用
- WebThinker：赋予大型推理模型深度研究能力
- 面向机器学习工程领域的强化学习智能体
- AgentGym-RL：通过多轮强化学习训练LLM智能体进行长期决策
- rStar2-Agent：代理式推理技术报告
- LLM代理式强化学习的现状：综述
- 流畅的代理系统优化，实现高效规划与工具使用
- UI-TARS-2技术报告：利用多轮强化学习推进GUI智能体发展
- PokeeResearch：通过来自AI的反馈和稳健的推理框架，借助强化学习实现有效的深度研究
- DeepAnalyze：面向自主数据科学的代理式大型语言模型
- 以编程视觉思考：迈向统一的图像思考视角
- 通过经验合成扩展智能体学习
- CaveAgent：将LLM转变为有状态的运行时操作员
经验学习
- 欢迎来到经验时代
- 通过早期经验学习智能体
其他训练方式
- QWENLONG-L1：迈向具有强化学习的长上下文大型推理模型
- REWARDBENCH 2：推进奖励模型评估
- 计算即教师：将推理计算转化为无参考监督
- DiffusionNFT：利用前向过程进行在线扩散强化
- 大规模进化策略：超越强化学习的LLM微调
- 在平行样本间学习推理，以提升LLM的推理能力
- PARAM∆用于直接权重混合：零成本后训练大型语言模型
- LaSeR：基于最后一令牌自我奖励的强化学习
- Delta学习假设：在弱数据上进行偏好调整也能带来显著收益
RL概述
- 强化学习：概述
- 迈向大型语言模型后训练的统一视角
RL数据集
- ReasonMed：一个包含37万个多智能体生成的数据集，用于推动医学推理的发展

上下文工程

针对大型语言模型的上下文工程综述
代理式上下文工程：为自我改进的语言模型演化上下文
通过上下文折叠扩展长周期LLM智能体
向代理系统扩展科学迈进
预算意识下的工具使用有助于有效扩展智能体
上下文工程2.0
面向长上下文的端到端测试时训练

新模型架构

SPG：用于掩码扩散语言模型的夹层策略梯度
少即是多：基于小型网络的递归推理
连续思维机器
TiDAR：在扩散过程中思考，在自回归过程中生成
嵌套学习：深度学习架构的幻象

主流大语言模型及预训练

GLM-130B：一款开放的双语预训练模型
PaLM：通过Pathways扩展语言建模
PaLM 2 技术报告
GPT-4 技术报告
Backpack 语言模型
LLaMA：开放且高效的基座语言模型
Llama 2：开放的基座模型与微调后的对话模型
Sheared LLaMA：通过结构化剪枝加速语言模型预训练
OpenBA：一款从头开始预训练的开源150亿参数双语非对称序列到序列模型
Mistral 7B
Ziya2：以数据为中心的学习是所有大语言模型所需要的
MEGABLOCKS：使用专家混合实现高效的稀疏训练
TUTEL：大规模下的自适应专家混合
Phi1——教科书就是全部所需：star:
Phi1.5——教科书就是全部所需 II：phi-1.5技术报告
Phi-3技术报告：一款可在您手机本地运行的强大语言模型
Gemini：一系列强大的多模态模型家族
上下文预训练：超越文档边界的语言建模
LLAMA PRO：具有块扩展能力的渐进式LLaMA
QWEN 技术报告
减少截断可提升语言建模效果
ChatGLM：从GLM-130B到GLM-4的一系列大型语言模型，涵盖所有工具
Phi-4技术报告
Byte潜伏变换器：补丁的扩展性优于标记
Qwen2.5技术报告
DeepSeek-V3技术报告
混合专家模型
DeepSeek_R1 ：star:
KIMI K1.5：利用大语言模型扩展强化学习：star:
CWM：一款权重公开的大语言模型，用于研究结合世界模型的代码生成
DeepSeek V3.2技术报告
DeepSeek-V3.2：推动开源大型语言模型的前沿发展

思维链 (prompt_chain_of_thought)

基础&进阶用法
- 【zero-shot-COT】大型语言模型是零样本推理者 :star:
- 【few-shot COT】思维链提示在大型语言模型中激发推理能力 :star:
- 【SELF-CONSISTENCY 】提升语言模型中的思维链推理
- 【LEAST-TO-MOST】提示使大型语言模型具备复杂推理能力 :star:
- 【TOT】思维之树：利用大型语言模型进行深思熟虑的问题解决 :star:
- 【Plan-and-Solve】提示：通过大型语言模型改进零样本思维链推理
- 【Verify-and-Edit】：一种知识增强的思维链框架
- 【GOT】超越思维链，大型语言模型中的有效图式推理
- 【TOMT】混合思维之树：结合快思考与慢思考的多跳视觉推理
- 【LAMBADA】：自然语言中的自动推理反向链
- 【AOT】思想算法：增强大型语言模型中的创意探索 :star:
- 【GOT】思想图谱：利用大型语言模型解决复杂问题 :star:
- 【PHP】渐进式提示改进大型语言模型的推理能力
- 【HtT】大型语言模型可以学习规则 :star:
- 【DIVSE】思想多样性提升大型语言模型的推理能力
- 【CogTree】从复杂到简单：为小型语言模型解开认知树以进行推理
- 【Step-Back】退一步：通过抽象化激发大型语言模型的推理能力 :star:
- 【OPRO】大型语言模型作为优化器 :star:
- 【BOT】思想缓冲区：基于思想增强的大型语言模型推理
- 思想抽象让语言模型成为更好的推理者
- 【SymbCoT】通过符号化思维链实现忠实的逻辑推理
- 【XOT】一切关于思想：违背彭罗斯三角定律生成思想
- 【IoT】思想迭代：利用内部对话实现大型语言模型的自主推理
- 【DOT】论思想图谱
- 【ROT】思想反转：通过偏好引导的逆向推理预热来增强大型语言模型
- 正向与逆向思考：利用大型语言模型进行有效的逆向规划
- 【KR】K级推理：在大型语言模型中建立高阶信念以进行战略推理
- 【Self-Discover】自我发现：大型语言模型自行构建推理结构
- 【Theory-of-Mind】大型语言模型距离具有心智理论的智能体还有多远？
- 【PC-SUBQ】提示策略，使大型语言模型能够从相关性中推断因果关系
- 逆向思维使LLM成为更强大的推理者
- 草稿链：通过减少写作加快思考速度
- 马尔可夫LLM测试时缩放的思想原子
非传统COT问题分解方向
- 分解式提示：一种模块化方法来解决复杂任务
- 连续提示用于分解复杂问题
分领域COT [数学、代码、表格、问答]
- 利用语言模型解决定量推理问题
- 展示你的解题过程：语言模型的中间计算草稿本
- 通过过程和结果反馈解决数学应用题
- CodeRL：通过预训练模型和深度强化学习掌握代码生成
- T-SciQ：通过大型语言模型信号教授科学问答中的多模态思维链推理
- 学习性能提升的代码编辑
- 代码链：使用语言模型增强的代码模拟器进行推理
原理分析
- 思维链赋予Transformer解决固有串行问题的能力 :star:
- 向理解思维链提示迈进：一项关于关键因素的实证研究 :star:
- 文本与模式：有效的思维链需要双方配合
- 揭示思维链背后的奥秘：理论视角
- 大型语言模型很容易被无关上下文分散注意力
- 无需提示的思维链推理
- 归纳还是演绎？重新思考LLM的基本推理能力
- 超越思维链：面向LLM的Chain-of-X范式综述
- 用不用思维链？思维链主要帮助数学和符号推理 :star:
- 为什么需要逐步思考？推理源于经验的局部性
- 大型语言模型中的内部一致性与自我反馈：综述 :star:
- 迭代之头：思维链的机制性研究 :star:
- 推理步骤长度对大型语言模型的影响 :star:
- 大型语言模型是否会在不利用捷径的情况下进行潜在的多跳推理？
- 压缩思维链：通过密集表示实现高效推理
- LLM真的会在隐式推理中逐步思考吗？
- 推理的认知基础及其在LLM中的体现
小模型COT蒸馏
- 专门化小型语言模型以实现多步推理 :star:
- 教导小型语言模型进行推理
- 大型语言模型是推理教师
- 将推理能力蒸馏到小型语言模型中
- CoT合集：通过思维链微调提升语言模型的零样本和少样本学习能力
- 将系统2蒸馏到系统1中
COT样本自动构建/选择
- AutoCOT：大型语言模型中的自动思维链提示
- 针对大型语言模型的思维链主动提示
- 基于复杂度的多步推理提示
COT能力学习
- 大型语言模型可以自我提升
- 通过潜变量推理训练思维链
- Quiet-STaR：语言模型可以自学在开口前思考
- STaR：自学者推理者通过推理自我启动推理
- V-STaR：为自学者推理者培训验证者
- 先思考再说话：用暂停标记训练语言模型
- 自主合成对话与修订技术报告
- COT-SELF-INSTRUCT：为推理和非推理任务构建高质量合成提示
others
- OlaGPT 赋予LLM类人般的问题解决能力
- 挑战BIG-Bench任务以及思维链能否解决它们
- 大型语言模型在自我验证后成为更好的推理者
- ThoughtSource 大型语言模型推理数据的中心枢纽
- LLM多步推理中自我一致性失败的两个案例

自我进化

达尔文哥德尔机器：自我改进智能体的开放式进化
Alpha Evolve
大型推理模型能否自我训练
通过GRPO对多模态LLM推理进行无监督后训练
超大规模下的进化策略
在极少人类监督下引导LLM自我进化

RLHF

DeepMind
- 教导语言模型以经验证的引用支持答案
- Sparrow：通过目标性人类判断改进对话代理的一致性 :star:
- 统计拒绝采样提升偏好优化效果
- 面向语言建模的强化自训练（ReST）
- SLiC-HF：结合人类反馈的序列似然校准
- 序列似然校准改善条件语言生成
- 基于语言模型的奖励设计
- 最终答案RL：利用过程与结果反馈解决数学应用题
- 利用过程与结果反馈解决数学应用题
- 超越人类数据：扩展语言模型的问题解决自训练规模
- BOND：通过最佳N个蒸馏对齐大语言模型
- 在错误的合成数据上进行RL可将LLM数学推理效率提升8倍
- 生成式验证器：将奖励建模视为下一个标记预测
- 通过强化学习训练语言模型自我修正
OpenAI
- PPO：近端策略优化算法 :star:
- 面向人类偏好的人工智能深度强化学习
- 基于人类偏好微调语言模型
- 从人类反馈中学习总结
- InstructGPT：利用人类反馈训练语言模型遵循指令 :star:
- 奖励模型过度优化的规模法则 :star:
- 弱到强泛化：以弱监督激发强大能力 :star:
- PRM：让我们逐步验证 :star:
- 训练验证者解决数学应用题 [PRM的前置依赖]
- OpenAI超级对齐博客
- LLM批评家有助于发现LLM中的漏洞 :star:
- 证明者-验证者游戏提升LLM输出的可读性
- 基于规则的语言模型安全奖励
- 自我批评模型辅助人类评估者
Anthropic
- 通用语言助手作为对齐研究的实验室
- 衡量大规模语言模型可扩展监管的进展
- 红队测试语言模型以减少危害：方法、规模化行为及经验教训
- 使用来自人类反馈的强化学习训练有益且无害的助手 :star:
- 宪法AI：基于AI反馈实现无害性 :star:
- 使用人类偏好预训练语言模型
- 大型语言模型的道德自我修正能力
- 潜伏代理：训练能够通过安全训练持续存在的欺骗性LLM
AllenAI，RL4LM：强化学习（不）适用于自然语言处理基准测试
改良方案
- RRHF：无需泪水地按响应排名使语言模型与人类反馈对齐
- 后见之明链使语言模型与反馈对齐
- AlpacaFarm：用于学习人类反馈方法的仿真框架
- RAFT：针对生成式基础模型对齐的奖励排序微调
- RLAIF：借助AI反馈扩大来自人类反馈的强化学习规模
- 在模拟人类社会中训练具有社会一致性的语言模型
- RAIN：您的语言模型无需微调即可自行对齐
- 用于评估对齐的生成式法官
- 透过偏好窥探：解开大规模语言模型对齐的反馈获取难题
- SALMON：遵循原则的奖励模型实现自我对齐
- 大型语言模型遗忘机制 :star:
- 对抗性偏好优化 :star:
- 面向人类对齐的偏好排序优化
- 道路漫漫：探究RLHF中的长度相关性
- 让语言模型从数据中隐式学习自我提升
- 奖励模型集成有助于缓解过度优化
- 从偏好中学习最优优势并误以为是奖励
- 超级反馈：用高质量反馈增强语言模型
- MOTIF：来自人工智能反馈的内在动机
- 通过优势模型和选择性复习稳定RLHF
- Shepherd：语言模型生成的批评家
- 学习生成比您的LLM更好的内容
- 细粒度人类反馈为语言模型训练提供更好奖励
- 从零开始、在最少人类监督下实现语言模型的原则驱动自我对齐
- 直接偏好优化：您的语言模型其实是奖励模型
- HIR：后见之智让语言模型更善于遵循指令
- Aligner：通过弱到强纠正实现高效对齐
- 基于最小化主义的人类反馈强化学习方法
- PANDA：偏好适应以增强LLM的特定领域能力
- 弱到强搜索：通过小型语言模型搜索对齐大型语言模型
- 弱到强外推加速对齐进程
- DPO是否优于PPO用于LLM对齐？一项全面研究
- 标记级直接偏好优化
- SimPO：无参考奖励的简单偏好优化
- AUTODETECT：迈向大型语言模型自动化弱点检测的统一框架
- 元奖励语言模型：以LLM作为元评判者实现自我改进的对齐
- HELPSTEER：面向STEERLM的多属性助益数据集
- 递归内省：教导语言模型代理如何自我改进
- 通过直接Q函数优化提升语言模型的多步推理能力
- DeepSeekMath：推动开放语言模型的数学推理极限
- GLoRe：何时、何地以及如何通过全局和局部优化提升LLM推理能力
- REFT：强化微调下的推理
- SCPO：自我一致性偏好优化
- MONA：采用非近视批准的近视优化可缓解多步奖励作弊
- 通过元强化微调优化测试时计算资源
- 预训练策略判别器是通用奖励模型
RL探究
- 理解RLHF对LLM泛化能力和多样性的影响
- 道路漫漫：探究RLHF中的长度相关性
- 奖励（不）一致性对RLHF的涓滴效应
- 来自人类反馈的强化学习的未解决问题和根本局限性
- 人类反馈并非金标准
- 基于数据课程对比训练大型语言模型
- 语言模型抵制对齐
- 探索大型语言模型偏好学习的统一视角：综述

记忆

摆脱仅从长度这一狭隘视角，重新审视模型记忆

A-MEM：面向LLM智能体的主体性记忆
MemInsight：面向LLM智能体的自主记忆增强
G-Memory：用于多智能体系统的层次化追踪记忆
智能体工作流记忆
KBLAM：基于知识库增强的语言模型
MIRIX：基于LLM的多智能体系统记忆框架
M3-Agent：看见、倾听、记忆与推理——具备长期记忆的多模态智能体
MemTool：优化LLM智能体多轮对话中动态工具调用的短期记忆管理
Memory-R1：通过强化学习提升大型语言模型智能体的记忆管理与利用能力
多重记忆系统以增强智能体的长期记忆
PerPilot：通过记忆与探索实现基于VLM的移动智能体个性化
由粗到精的具身化记忆用于LLM智能体规划
内在记忆智能体：通过结构化情境记忆构建异构多智能体LLM系统
Memp：探索智能体程序性记忆
RCR-Router：面向具有结构化记忆的多智能体LLM系统的高效角色感知上下文路由
A-MEM：面向LLM智能体的主体性记忆
MemoryBank：为大型语言模型增添长期记忆功能
元认知复用：将重复性LLM推理转化为简洁行为
面向语言智能体的认知架构
ReasoningBank：借助推理记忆推动智能体自我进化规模化
LIGHTMEM：轻量高效的记忆增强生成
泰坦：在测试时学习记忆
在测试时根据反馈学习推理
带有测试时扩散机制的深度研究员
一切相互关联：一场关于测试时记忆、注意偏向、保持与在线优化的旅程
主体性记忆：为大型语言模型智能体学习统一的长短期记忆管理
MEMRL：基于情景记忆的运行时强化学习实现智能体自我进化

多轮对话

近期我们也陷入多轮对话优化，发现了角色混乱、理解下降等很多问题

LLM在多轮对话中迷失方向

指令微调&对齐 (instruction_tunning)

经典方案
- Flan: 微调后的语言模型是零样本学习者 :star:
- Flan-T5: 扩展指令微调语言模型
- ExT5: 面向迁移学习的极端多任务扩展
- Instruct-GPT: 通过人类反馈训练语言模型遵循指令 :star:
- T0: 多任务提示训练实现零样本任务泛化
- Natural Instructions: 通过自然语言众包指令实现跨任务泛化
- Tk-INSTRUCT: 超自然指令：基于1600多个NLP任务的声明式指令实现泛化
- ZeroPrompt: 将基于提示的预训练扩展到1000个任务，提升零样本泛化能力
- Unnatural Instructions: 几乎无需人工劳动的语言模型微调
- INSTRUCTEVAL：迈向指令微调大型语言模型的全面评估
SFT数据缩放定律
- LIMA: 对齐时“少即是多” :star:
- 或许仅需0.5%的数据：低训练数据指令微调的初步探索
- AlpaGasus: 用更少的数据训练更好的Alpaca
- InstructionGPT-4：用于微调MiniGPT-4的200条指令范式
- 指令挖掘：面向大型语言模型的高质量指令数据选择
- 带礼貌的Flamingo进行视觉指令微调
- 探索指令数据规模对大型语言模型的影响：基于真实场景的实证研究
- 大型语言模型学习数学推理的规模效应
- 当规模效应遇上LLM微调：数据、模型与微调方法的影响
新对齐/微调方案
- WizardLM: 赋能大型语言模型遵循复杂指令 :star:
- 自我指令化：引入早停准则以实现最小化指令微调
- 基于指令反译的自我对齐 :star:
- 混合专家模型与指令微调：大型语言模型的制胜组合
- Goat: 经过微调的LLaMA在算术任务上表现超越GPT-4
- PROMPT2MODEL: 从自然语言指令生成可部署模型
- OpinionGPT: 在指令微调的LLM中建模显式偏见
- 通过自我博弈和基于AI反馈的上下文学习提升语言模型谈判能力
- 通过元学习神经网络实现类人系统的泛化能力
- Magicoder: 只需要源代码
- 超越人类数据：利用语言模型进行问题解决的自训练扩展
- 生成式表征指令微调
- InsCL：一种数据高效的持续学习范式，用于指令微调大型语言模型
- 指令层级：训练LLM优先处理特权指令
- Magpie：通过使用无任何输入的对齐LLM生成提示，从零开始合成对齐数据
指令数据生成
- APE: 大型语言模型是人类级别的提示工程师 :star:
- SELF-INSTRUCT: 使用自动生成的指令对齐语言模型 :star:
- iPrompt: 通过可解释的自动提示功能，用自然语言解释数据模式
- 翻转学习：猜指令！翻转学习让语言模型成为更强的零样本学习者
- 面向大型语言模型的公平性导向少量示例提示
- 指令归纳：从少量示例到自然语言任务描述
- SELF-QA：无监督知识引导的对齐
- GPT自我监督以成为更好的数据标注者
- Flan数据集的设计与方法
- 自消费生成模型走向疯狂
- InstructEval：系统性评估指令选择方法
- 用微调数据覆盖预训练偏置
- 利用大型语言模型改进文本嵌入
- MAGPIE：通过使用无任何输入的对齐LLM生成提示，从零开始合成对齐数据
- 通过10亿个人物角色扩展合成数据的创建
- 通过可扩展的全新问题合成释放LLM的推理能力
- 关于大型语言模型数据合成与增强的综述
- AgentInstruct：迈向基于代理流的生成式教学
- 揭示缺陷：探索大型语言模型中合成数据的不足及缓解策略
如何降低通用能力损失
- 大型语言模型的能力如何受监督微调数据组成的影响
- 两阶段LLM微调：减少专业化，增加泛化能力
微调经验/实验报告
- BELLE: 探索指令数据规模对大型语言模型的影响：基于真实场景的实证研究
- Baize: Baize：一款开源聊天模型，采用参数高效微调技术，在自我对话数据上进行训练
- 面向中文指令数据的大型语言模型全参数微调与LoRA微调对比研究
- 探讨ChatGPT的内容排序能力：一项关于其与人类偏好一致性的初步研究
- 为中文用户打造更好的指令遵循语言模型：探究训练数据与评估的影响
- 面向企业的LLM微调：实用指南与建议
其他
- 通过多任务微调实现跨语言泛化
- 通过自然语言众包指令实现跨任务泛化
- UNIFIEDSKG：利用文本到文本的语言模型实现结构化知识的统一与多任务应用
- PromptSource：一个集成的自然语言提示开发环境与资源库
- ROLELLM：大型语言模型的角色扮演能力的基准测试、激发与提升

LLM代理让模型使用工具 (llm_agent)

AGENT AI: 探索多模态交互的前沿
基于大型语言模型的自主代理综述
个人LLM代理：能力、效率与安全性的洞察与调查
基于prompt通用方案
- ReAct: 在语言模型中协同推理与行动 :star:
- Self-ask: 衡量并缩小语言模型中的组合性差距 :star:
- MRKL系统：一种模块化、神经符号架构，结合了大型语言模型、外部知识源和离散推理
- PAL：程序辅助语言模型
- ART：大型语言模型的自动多步推理与工具使用
- ReWOO：为高效增强型语言模型解耦推理与观察 :star:
- 将检索与思维链推理交织用于知识密集型多步问题
- Chameleon：使用大型语言模型进行即插即用的组合式推理 :star:
- 忠实的思维链推理
- Reflexion：具有言语强化学习的语言代理 :star:
- Verify-and-Edit：一种知识增强型思维链框架
- RestGPT：将大型语言模型与现实世界的RESTful API连接起来
- ChatCoT：基于聊天的大型语言模型上的工具增强型思维链推理
- InstructTODS：面向端到端任务导向对话系统的大型语言模型
- TPTU：基于大型语言模型的AI代理的任务规划与工具使用
- ControlLLM：通过图搜索为语言模型添加工具
- Reflexion：一种具有动态记忆和自我反思的自主代理
- AutoAgents：一个自动代理生成框架
- GitAgent：通过工具扩展促进GitHub上的自主代理
- PreAct：在ReAct中预测未来以增强代理的规划能力
- TOOLLLM：助力大型语言模型掌握16000+真实世界API :star:
- AnyTool：用于大规模API调用的自省式分层代理
- AIOS：LLM代理操作系统
- LLMCompiler：用于并行函数调用的LLM编译器
- Re-Invoke：用于零样本工具检索的工具调用重写
基于微调通用方案
- TALM：工具增强型语言模型
- Toolformer：语言模型可以自我教授如何使用工具 :star:
- 使用基础模型进行工具学习
- Tool Maker：大型语言模型作为工具制造者
- TaskMatrix.AI：通过连接基础模型与数百万个API来完成任务
- AgentTuning：为LLM赋予通用代理能力
- SWIFTSAGE：一种具有快慢思维的生成式代理，适用于复杂的交互任务
- FireAct：迈向语言代理的微调
- Pangu-Agent：一种可微调的通用代理，具备结构化推理能力
- REST遇见REACT：多步推理LLM代理的自我改进
- 通过抽象链推理实现高效的工具使用
- Agent-FLAN：为大型语言模型设计有效的代理微调数据与方法
- AgentOhana：设计统一的数据与训练管道，以实现高效的代理学习
- Agent Lumos：面向开源语言代理的统一且模块化的训练
- ToolGen：通过生成实现统一的工具检索与调用
- 通过持续预训练扩展代理规模
- LIMI：少即是多的代理之道
调用模型方案
- HuggingGPT：利用ChatGPT及其在HuggingFace中的伙伴解决AI任务
- Gorilla：与海量API连接的大语言模型 :star:
- OpenAGI：当LLM遇到领域专家时
垂直领域
- 数据分析
  - DS-Agent：通过案例推理赋能大型语言模型实现自动化数据科学
  - InsightLens：在大型语言模型驱动的数据分析中从对话上下文中发现并探索洞见
  - Data-Copilot：通过自主工作流连接数十亿条数据与人类
  - InsightPilot演示：一个由LLM赋能的自动化数据探索系统
  - TaskWeaver：一个以代码优先的代理框架
  - 自动化社会科学：语言模型作为科学家和研究对象
  - Data Interpreter：一款用于数据科学的LLM代理
  - FDABench：针对异构数据上分析查询的数据代理基准测试
- 金融
  - WeaverBird：利用大型语言模型、知识库和搜索引擎赋能金融决策
  - FinGPT：开源的金融大型语言模型
  - FinMem：一种性能增强的LLM交易代理，具有分层记忆和角色设计
  - AlphaFin：使用检索增强的股票链框架对财务分析进行基准测试
  - FinAgent：一种多模态基础代理，用于金融交易：工具增强、多样化且通用 :star:
  - 大型语言模型能否击败华尔街？揭示AI在选股方面的潜力
  - 利用基于LLM的多智能体框架提升金融市场异常检测能力
  - TRADINGGPT：具有分层记忆和不同角色的多智能体系统，以提升金融交易表现
  - FinRobot：一个开源的AI代理平台，用于基于大型语言模型的金融应用
  - LLMFactor：通过提示提取盈利因子，实现可解释的股票走势预测
  - Alpha-GPT：人机交互的Alpha挖掘，用于量化投资
  - 推进异常检测：利用LLM对非语义金融数据进行编码
  - TradExpert：混合专家LLM彻底革新交易方式
  - FinVision：一个用于股市预测的多智能体框架
  - 投资分析中的AI：LLM用于股票评级
  - AAPM：基于大型语言模型代理的资产定价模型
  - FinCon：一个合成的LLM多智能体系统，采用概念性言语强化，以提升金融决策
  - TradingAgents：多智能体LLM金融交易框架
  - 经LoRA适配的预训练LLM作为决策转换器，用于量化交易中的离线强化学习
  - FinRL-DeepSeek：为交易代理注入LLM的敏感风险强化学习
  - FinSphere：一款配备实时数据库定量工具的会话式股票分析代理
  - FLAG-Trader：将LLM代理与基于梯度的强化学习融合，用于金融交易
  - Ploutos：朝着可解释的股票走势预测迈进，利用金融大型语言模型
  - HedgeAgents：一个注重平衡的多智能体金融交易系统
  - TIMERAG：通过检索增强生成提升LLM时间序列预测
  - CausalStock：深度端到端因果发现，用于新闻驱动的股票走势预测
  - 基于LLM的金融投资策略能否在长期中跑赢市场？
  - 利用基础模型推进金融工程：进展、应用与挑战
  - AlphaAgents：基于大型语言模型的多智能体，用于构建股票投资组合
- 生物医疗
  - GeneGPT：通过领域工具增强大型语言模型，以改善生物医学信息的获取
  - ChemCrow：用化学工具增强大型语言模型
  - 通过证据上的期望最大化推断，在医学问答中生成解释
  - Agent Hospital：一个拥有可进化医疗代理的医院模拟器
  - 通过提示工程将化学知识整合到大型语言模型中
  - CHEMAGENT：大型语言模型中的自我更新库提升了化学推理能力
- web/mobile代理
  - AutoWebGLM：启动并强化一个基于大型语言模型的网页导航代理
  - 一个具备规划、长上下文理解及程序合成能力的现实世界Web代理
  - Mind2Web：迈向通用的网络代理
  - MiniWoB++：利用工作流引导的探索，在网页界面上进行强化学习
  - WEBARENA：一个用于构建自主代理的真实网络环境
  - AutoCrawler：一个渐进式理解网络的代理，用于生成网络爬虫
  - WebLINX：通过多轮对话进行现实网站导航
  - WebVoyager：利用大型多模态模型构建端到端网络代理
  - CogAgent：一款用于GUI代理的视觉语言模型
  - Mobile-Agent-v2：通过多智能体协作实现高效导航的移动设备操作助手
  - WebCanvas：在网络环境中对网络代理进行基准测试
  - GUI代理的黎明：Claude 3.5计算机使用的初步案例研究
  - UI-TARS：率先使用原生代理实现自动化GUI交互
  - 揭示语言模型代理在网页上顺序任务组合中的局限性
  - WebSailor：以超人般的推理能力导航网络代理
  - WebShaper：通过信息寻求的形式化进行数据合成的代理
  - WebWatcher：突破视觉-语言深度研究代理的新边界
  - OS-Genesis：通过逆向任务合成自动化GUI代理轨迹构建
  - 可扩展的视频到数据集生成，用于跨平台移动代理
  - Explorer：为多模态网络代理扩展探索驱动的网络轨迹合成
  - 观看并学习：从在线视频中学习使用电脑
  - Fara-7B：一款高效的用于计算机使用的代理模型
- 软件工程师
  - 软件工程中的代理：调查、现状与展望
  - ChatDev：用于软件开发的沟通型代理
- 研究代理
  - PaSa：一款用于全面学术论文搜索的LLM代理
  - ResearchAgent：利用大型语言模型在科学文献中迭代生成研究想法
  - Agent Laboratory：将LLM代理用作研究助理
  - 自动假设验证：通过代理式的顺序证伪
  - 迈向AI联合科学家
  - AI4Research：人工智能在科学研究中的综述
  - Kosmos：一位用于自主发现的AI科学家
  - 通过协作的大型语言模型代理进行知识驱动的自动特征提取
- 设计
  - PosterGen：一款考虑美学的纸张到海报生成工具，由多智能体LLM提供支持
  - Paper2Poster：迈向从科学论文出发的多模态海报自动化
- 其他
  - WebShop：迈向与具身语言代理的可扩展现实世界互动
  - ToolkenGPT：通过工具嵌入为冻结语言模型增添大量工具
  - PointLLM：赋能大型语言模型理解点云数据
  - 可解释的长篇法律问答：借助检索增强型大型语言模型
  - CarExpert：利用大型语言模型实现车载会话式问答
  - SCIAGENTS：通过多智能体智能图推理自动化科学发现
评估
- 评估生成式搜索引擎的可验证性
- Auto-GPT用于在线决策：基准测试与补充意见
- API-Bank：一个用于工具增强型LLM的基准测试
- ToolLLM：助力大型语言模型掌握16000+真实世界API
- 大型语言模型对归属权的自动评估
- 大型语言模型在检索增强生成中的基准测试
- ARES：一个用于检索增强生成系统的自动化评估框架
- 代理作为法官：用代理评估代理
多智能体
- 对AI代理框架中代理开发者实践的实证研究
- 生成式代理
- 让模型说密码：通过嵌入进行多智能体辩论
- 战争与和平（WarAgent）：基于大型语言模型的世界大战多智能体模拟
- 小型LLM是薄弱的工具学习者：一个多LLM代理
- 合并、集成与合作！大型语言模型时代下协作策略的调查
- 生成式代理：互动的人类行为模拟 :star:
- AgentVerse：促进多智能体协作并探索代理中的涌现行为
- System-1.x：学习如何用语言模型平衡快速与慢速规划
- 思考快与慢的代理：一种说话者-推理者架构
- 生成式代理对1000人的模拟
- 面向自主AI代理的高级推理与学习
- 多智能体设计：通过更好的提示和拓扑优化代理
- 多智能体语言模型中的涌现协调
- TUMIX：多智能体在测试时通过工具使用混合进行扩展
- 以零错误解决一百万步的LLM任务
- 多智能体系统中的潜在协作
- 智能体互联网：编织异质智能体网络，实现协作智能
- 多智能体协作：释放智能LLM代理的力量
- Magentic-One：一个通用的多智能体系统，用于解决复杂任务
- 组建你的团队：通过自回归图生成自动设计多智能体通信拓扑
任务型智能体协作
- METAAGENTS：通过协作模拟人类行为，实现基于LLM的任务导向协调
- CAMEL：用于探索大型语言模型社会“心智”的沟通型代理 :star:
- 探索大型语言模型在交流游戏中的应用：关于狼人杀的实证研究
- 用于软件开发的沟通型代理 :star:
- MedAgents：大型语言模型作为零样本医学推理的合作者
- METAGPT：用于多智能体协作框架的元编程
智能体路由
- 一个代理统治一切：迈向多智能体会话式AI
- 一个多智能体会话式推荐系统
基础模型路由&Ensemble
- 大型语言模型路由与基准数据集
- LLM-BL E N D E R：通过两两排名和生成式融合对大型语言模型进行集成
- RouteLLM：学习如何根据偏好数据路由LLM
- 更多代理就是你需要的一切
- 路由至专家：高效奖励引导的大型语言模型集成
自主学习和探索进化
- AppAgent：多模态代理作为智能手机用户
- 调查-整合-利用：代理跨任务自我进化的通用策略
- LLMs在想象空间中：通过模拟试错进行工具学习
- 通过行动学习赋能大型语言模型代理
- 试错：基于探索的LLM代理轨迹优化
- OS-COPILOT：迈向具有自我改进能力的通用计算机代理
- LLAMA RIDER：激励大型语言模型探索开放世界
- 以过去为指导：利用回顾性学习完成Python代码
- AutoGuide：为大型语言模型代理自动生成和选择状态感知指南
- 关于大型语言模型自我进化的调查
- ExpeL：LLM代理是体验式学习者
- ReAct遇见ActRe：当语言代理享受训练数据自主权时
- 主动代理：将LLM代理从被动响应转向主动协助
- 从新手到专家：通过逐步强化学习优化LLM代理政策
- AGILE：一种新颖的LLM代理强化学习框架
- Agent Q：面向自主AI代理的高级推理与学习
- ARMAP：通过自动奖励建模和计划扩大自主代理规模
- Search-R1：通过强化学习训练LLM进行推理并利用搜索引擎
- 语言代理的持续学习：情境经验回放
- TaskCraft：自动生成代理任务
MCP
- SCALEMCP：为LLM代理提供动态且自动同步的模型上下文协议工具
- LIVEMCP-101：对启用MCP的代理在挑战性查询上的压力测试与诊断
其他
- LLM+P：赋能大型语言模型最佳的规划能力
- 带参考的推理：无损加速大型语言模型
- RecallM：一种用于时间上下文理解和问答的架构
- LLaMA Rider：激励大型语言模型探索开放世界
- LLM无法规划，但在LLM模组框架中可以帮助规划
- Routine：一种用于企业中LLM代理系统的结构性规划框架
自定义代理
- 从计算机使用中创建通用用户模型

RAG

经典论文
- WebGPT：浏览器辅助的带人类反馈的问题回答
- WebGLM：面向高效网络增强型问题回答系统的、结合人类偏好的方法
- WebCPM：用于中文长文本问题回答的交互式网络搜索 :star:
- REPLUG：检索增强的黑盒语言模型 :star:
- RETA-LLM：一个检索增强型大语言模型工具包
- Atlas：基于检索增强语言模型的小样本学习
- RRAML：强化学习驱动的检索增强机器学习
- FRESHLLMS：利用搜索引擎增强刷新大型语言模型
微调
- RLCF：通过对比反馈对齐大语言模型能力与信息检索上下文
- RA-DIT：检索增强的双指令微调
- CHAIN-OF-NOTE：提升检索增强语言模型的鲁棒性
- RAFT：将语言模型适配到特定领域的RAG场景
- 丰富的知识来源带来复杂的知识冲突：重新校准模型以反映相互矛盾的证据
其他论文
- 探究检索增强下大语言模型的事实知识边界
- PDFTriage：针对长篇结构化文档的问题回答
- 穿越记忆迷宫：通过交互式阅读突破上下文限制 :star:
- 主动检索增强生成
- kNN-LM并不能改善开放式文本生成
- 检索增强语言模型能进行推理吗？检索器与语言模型之间的责任归属
- DORIS-MAE：使用多层级基于方面的查询进行科学文献检索
- 面向开放式文本生成的事实性增强语言模型
- KwaiAgents：基于大语言模型的通用信息搜索代理系统
- 基于野外检索证据的复杂主张验证
- 大语言模型的检索增强生成综述
- ChatQA：构建GPT-4级别的对话式问答模型
- RAG与微调：流程、权衡及农业领域的案例研究
- 检索增强生成中大语言模型的基准测试
- T-RAG：来自大语言模型实战的经验教训
- ARAGOG：高级RAG输出评分
- ActiveRAG：通过主动学习揭示知识宝藏
- OpenResearcher：释放AI潜力加速科学研究
- Contextual.ai-RAG2.0
- Mindful-RAG：检索增强生成中的失效点研究
- Memory3：带有显式记忆的语言建模
优化检索
- IAG：用于解答推理型问题的归纳增强生成框架
- HyDE：无需相关性标签的精准零样本密集检索
- PROMPTAGATOR：仅需8个示例即可实现的少样本密集检索
- 检索增强型大语言模型的查询重写
- Query2doc：利用大语言模型进行查询扩展 :star:
- 通过提示词引导大语言模型进行查询扩展 :star:
- Anthropic情境检索
- 基于知识金字塔的多层级查询
- 大语言模型中查询优化综述
排序
- 使用大语言模型进行有效且高效的零样本排序的集合式方法
- RankVicuna：利用开源大语言模型进行零样本列表式文档重排
- 通过零样本问题生成改进段落检索
- 大语言模型在配对排序提示下是有效的文本排序器
- RankRAG：统一上下文排序与大语言模型中的检索增强生成
- 针对对话式搜索引擎的排序操控
- ChatGPT擅长搜索吗？探究大语言模型作为重排序代理的作用
- 开源大语言模型是强大的零样本查询似然模型，可用于文档排序
- T2Ranking：大规模中文段落排序基准
- 学习为检索增强生成过滤上下文
传统搜索方案
- 提出正确的问题：利用强化学习进行主动问题重述
- 信息检索中的查询扩展技术综述
- 学习如何改写查询
- 管理Airbnb搜索中的多样性
新型向量模型用于召回和排序
- 面向定制检索的增强嵌入
- BGE M3-Embedding：通过自我知识蒸馏实现的多语言、多功能、多粒度文本嵌入
- 网易为RAG设计的BCE嵌入技术报告
- BGE Landmark Embedding：一种无需分块的嵌入方法，适用于检索增强型长上下文大语言模型
- D2LLM：分解并蒸馏的大语言模型，用于语义搜索
- Piccolo2：采用多任务混合损失训练的通用文本嵌入
- UniSearch：用统一生成式架构重新思考搜索系统
- UniDex：用统一语义建模重新思考搜索倒排索引
优化推理结果
- Speculative RAG：通过草稿机制增强检索增强生成
动态RAG（何时检索与检索计划）
- SELF-RAG：通过自我反思学习检索、生成和批判 :star:
- 自我知识引导的大语言模型检索增强
- Self-DC：何时检索、何时生成——针对组合型未知问题的自我分割与征服策略
- 小模型，大洞察：利用精简代理模型决定大语言模型何时以及检索什么内容
- Adaptive-RAG：通过问题复杂度学习适应检索增强型大语言模型
- REAPER：面向复杂RAG系统的基于推理的检索规划
- 何时检索：教导大语言模型有效利用信息检索
- PlanRAG：一种先规划后检索的生成式大语言模型增强生成方式，作为决策者
- ONEGEN：面向大语言模型的高效单次统一生成与检索
- Probing-RAG：自我探测引导语言模型进行选择性文档检索
图RAG
- 图形检索增强生成综述
- 从局部到全局：面向查询聚焦摘要的图RAG方法
- GRAG：图检索增强生成
- GNN-RAG：用于大语言模型推理的图神经网络检索
- THINK-ON-GRAPH：大语言模型在知识图谱上的深度且负责任的推理
- LightRAG：简单快速的检索增强生成
- THINK-ON-GRAPH：大语言模型在知识图谱上的深度且负责任的推理
- StructRAG：通过推理时的混合信息结构化提升大语言模型的知识密集型推理能力
多步RAG
- 搜索与大语言模型之间在信息检索中的协同作用
- 在知识密集型多步问题中穿插检索与思维链推理
- 通过迭代的检索-生成协同作用增强检索增强型大语言模型
- RAT：检索增强思维激发长跨度生成中的上下文感知推理
- IM-RAG：通过学习内部独白实现多轮检索增强生成
- 展示-搜索-预测：将检索与语言模型结合用于知识密集型自然语言处理
- 链中搜索：迈向准确、可信且可追溯的大语言模型，以应对知识密集型任务
- MindSearch 思·索：模仿人类思维激发深度AI搜索者
- RQ-RAG：学习为检索增强生成提炼查询
- AutoPRM：通过可控的问题分解自动化多步推理的过程性监督
时间线RAG
- 展开头条：新闻检索与时间线摘要的迭代自问
快速RAG
- MINIRAG：迈向极其简单的检索增强生成
- EasyRAG：面向自动化网络运营的高效检索增强生成框架
深度研究
- 带有测试时扩散的深度研究员

其他提示工程师(prompt_engineer)

PDL：一种声明式提示编程语言
为什么提示设计很重要且有效：大型语言模型中提示搜索空间的复杂性分析
提示作为科学探究
使用前校准：提升语言模型的少样本性能
上下文指令学习
学习提升性能的代码编辑
通过提示增强大型语言模型的心智理论能力
基于生成知识的提示用于常识推理
背诵增强的语言模型
kNN提示：无需校准的最近邻推理实现超越上下文的学习
EmotionPrompt：利用心理学通过情感刺激增强大型语言模型
基于知识引导提示的因果感知概念提取
大型语言模型作为优化器
提示即程序：一种结构感知的高效编译时提示优化方法
集合标记提示释放GPT-4V中的非凡视觉接地能力
RePrompt：自动提示编辑以将AI生成艺术细化为精确表达
MedPrompt：通用基础模型能否胜过专用微调？以医学为例
DSPy断言：用于自我改进语言模型流水线的计算约束
提示作为自动优化的训练超参数：仅用10个黄金标签从头训练一流的信息检索模型
极端多标签分类的上下文学习
优化多阶段语言模型程序的指令和演示
DSPy：将声明式语言模型调用编译成自我改进的流水线
将大型语言模型与进化算法结合可产生强大的提示优化器
TextGrad：通过文本实现自动“微分”
任务面学习：一种结构化的提示优化方法
LangGPT：从编程语言角度重新思考LLM的结构化可重用提示设计框架
PAS：数据高效的即插即用提示增强系统
让我自由表达吗？格式限制对大型语言模型性能影响的研究
从笔到提示：创意作家如何将AI融入写作实践
提示格式是否会影响LLM性能？
自动演示提示：利用生成输出作为演示以增强批量提示效果
PROMPTBREEDER：通过提示进化实现自指式的自我改进
心理学增强的AI智能体
注意力推理查询：一种系统化的方法来优化大型语言模型的指令遵循能力
通过标准心理诊断实现确定性的AI智能体人格表达

大模型图表理解和生成

综述
- 表格遇见LLM：大型语言模型能否理解结构化表格数据？基准测试与实证研究
- 大型语言模型(LLMs)在表格数据上的应用：预测、生成与理解——综述
- 探索语言模型的数值推理能力：基于表格数据的全面分析
提示
- 大型语言模型是多功能分解者：分解证据和问题以进行基于表格的推理
- Tab-CoT：零样本表格思维链
- 表格链：在推理链中演化表格以理解表格
微调
- TableLlama：迈向开放的大型通用表格模型
- TableLLM：使LLM能够在实际办公场景中操作表格数据
多模态
- MMC：通过大规模指令微调推进多模态图表理解
- ChartLlama：一款用于图表理解和生成的多模态LLM
- ChartAssisstant：通过图表转表格预训练和多任务指令微调打造的通用图表多模态语言模型
- ChartInstruct：用于图表理解和推理的指令微调
- ChartX & ChartVLM：一套功能强大且适用于复杂图表推理的基准和基础模型
- MATCHA：借助数学推理和图表去渲染技术增强视觉语言预训练
- UniChart：一款用于图表理解和推理的通用视觉-语言预训练模型
- TinyChart：通过视觉令牌合并和思维程序学习实现高效图表理解
- 表格作为文本或图像：评估LLM和MLLM的表格推理能力
- TableVQA-Bench：一个多表格领域的视觉问答基准测试
- TabPedia：通过概念协同迈向全面的视觉表格理解
生成式UI
- 生成式UI：LLM是有效的UI生成器

LLM+KG

综述类
- 统一大型语言模型和知识图谱：路线图
- 大型语言模型和知识图谱：机遇与挑战
- 知识图谱与大模型融合实践研究报告2023
KG用于大模型推理
- 利用大型语言模型从知识图谱中进行零样本自然语言生成
- MindMap：知识图谱提示激发大型语言模型中的思维图
- 知识增强的语言模型提示用于零样本知识图谱问答
- 利用逻辑编程和大型语言模型进行特定领域的知识图谱问答
- 携带你的KG：自监督程序合成实现零样本KGQA
- StructGPT：大型语言模型处理结构化数据的通用框架
大模型用于KG构建
- 利用大型语言模型增强知识图谱构建
- LLM辅助的知识图谱工程：使用ChatGPT的实验
- 迭代式零样本LLM提示用于知识图谱构建
- 探索大型语言模型用于知识图谱补全

类人智能体

HABITAT 3.0：人类、化身和机器人的共居地
类人智能体：模拟类人生成式智能体的平台
Voyager：一个基于大型语言模型的开放式具身智能体
塑造先进机器人技术的未来
AUTORT：用于大规模协调机器人智能体的具身基础模型
基于事后轨迹草图的机器人任务泛化
ALFWORLD：对齐文本与具身环境以实现交互式学习
MINEDOJO：利用互联网规模的知识构建开放式具身智能体
LEGENT：具身智能体的开放平台

预训练数据与预训练

DoReMi：优化数据混合加速语言模型预训练
The Pile：用于语言建模的800GB多样化文本数据集
CCNet：从网络爬取数据中提取高质量单语数据集
WanJuan：一个用于推动英中文大型模型发展的综合性多模态数据集
CLUECorpus2020：用于预训练语言模型的大规模中文语料库
上下文内预训练：超越文档边界的语言建模
数据混合法则：通过预测语言建模性能来优化数据混合
Zyda：一个用于开放语言建模的1.3T数据集
熵定律：数据压缩与大语言模型性能背后的故事
无处不在的数据：预训练数据集构建指南
通过联合示例选择进行数据筛选进一步加速多模态学习
利用困惑度相关性改进预训练数据
当AI模型在递归生成的数据上训练时会崩溃

领域模型SFT（domain_llms）

金融
- BloombergGPT：面向金融领域的大型语言模型
- FinVis-GPT：用于金融图表分析的多模态大型语言模型
- CFGPT：基于大型语言模型的中文金融助手
- CFBenchmark：大型语言模型中文金融助手基准测试
- InvestLM：利用金融领域指令微调的大型投资语言模型
- BBT-Fin：全面构建中文金融领域预训练语言模型、语料库和基准测试
- PIXIU：面向金融领域的大型语言模型、指令数据及评估基准
- The FinBen：面向大型语言模型的综合性金融基准
- XuanYuan 2.0：一款拥有数千亿参数的大型中文金融聊天模型
- 向工业领域可信大型语言模型迈进
- 当AI遇见金融（StockAgent）：基于大型语言模型的股票交易，模拟真实环境
- 大型语言模型在金融领域的应用综述：进展、前景与挑战
生物医疗
- MedGPT：从临床叙述中预测医学概念
- BioGPT：用于生物医学文本生成与挖掘的生成式预训练Transformer
- PubMed GPT：一种面向生物医学文本的领域专用大型语言模型 :star:
- ChatDoctor：基于LLaMA模型，结合医学领域知识微调的医疗聊天模型
- Med-PaLM：大型语言模型编码临床知识[V1,V2] :star:
- SMILE：通过ChatGPT实现从单轮到多轮的包容性语言扩展，用于心理健康支持
- Zhongjing：通过专家反馈和真实世界多轮对话提升大型语言模型的中文医疗能力
其他
- Galactia：面向科学领域的大型语言模型
- 带有参数化知识引导的增强型大型语言模型
- ChatLaw：开源法律大型语言模型 :star:
- MediaGPT：面向中国媒体的大型语言模型
- KITLM：将领域特定知识整合到语言模型中以进行问答
- EcomGPT：使用任务链任务对大型语言模型进行指令微调，用于电子商务
- TableGPT：致力于将表格、自然语言和指令统一到一个GPT中
- LLEMMA：面向数学的开放语言模型
- MEDITAB：通过数据整合、丰富和精炼扩展医疗表格数据预测器
- PLLaMa：面向植物科学的开源大型语言模型
- 通过阅读理解调整大型语言模型

LLM超长文本处理 (long_input)

位置编码、注意力机制优化
- Unlimiformer: 长范围Transformer，支持无限长度输入
- 大型语言模型的并行上下文窗口
- 苏剑林, NBCE：使用朴素贝叶斯扩展LLM的Context处理长度 :star:
- 结构化提示：将上下文学习扩展到1,000个示例
- Vcc：通过优先处理重要token，将Transformer扩展到128K token或更多
- 使用RMT将Transformer扩展到1M token及以上
- 短训练，长测试：带有线性偏置的注意力机制实现输入长度外推 :star:
- 通过位置插值扩展大型语言模型的上下文窗口
- LongNet：将Transformer扩展到1,000,000,000个token
- https://kaiokendev.github.io/til#extending-context-to-8k
- 苏剑林, Transformer升级之路：10、RoPE是一种β进制编码 :star:
- 苏剑林, Transformer升级之路：11、将β进制位置进行到底
- 苏剑林, Transformer升级之路：12、无限外推的ReRoPE？
- 苏剑林, Transformer升级之路：15、Key归一化助力长度外推
- 带有注意力汇流的高效流式语言模型
- 带有块状Transformer的环形注意力，用于近乎无限的上下文
- YaRN：大型语言模型的高效上下文窗口扩展
- LM-INFINITE：大型语言模型的简单在线长度泛化
- 带有注意力汇流的高效流式语言模型
- 原生稀疏注意力：与硬件对齐且可原生训练的稀疏注意力
上文压缩排序方案
- 迷失在中间：语言模型如何利用长上下文 :star:
- LLMLingua：压缩提示以加速大型语言模型的推理
- LongLLMLingua：通过提示压缩加速和增强长上下文场景下的LLM :star:
- 使用要点token学习压缩提示
- 解锁LLM的上下文限制：基于自信息的内容过滤提升LLM的上下文效率
- LongAgent：通过多智能体协作将语言模型的上下文扩展到128k
- PCToolkit：大型语言模型的统一即插即用提示压缩工具包
- 长LLM是否是长上下文任务的必要条件？
- QwenLong-CPRS：通过动态上下文优化迈向\infty-LLMs
训练和模型架构方案
- 永远不要从零开始训练：对长序列模型的公平比较需要数据驱动的先验
- 从4K到400K飞跃：用激活信标扩展LLM的上下文
- 永远不会迷失在中间：通过强化问答任务改进大型语言模型
- 聚焦Transformer：用于上下文扩展的对比训练
- 基础模型的有效长上下文扩展
- 关于Transformer的长距离能力
- 高效长距离Transformer：你需要关注更多，但不一定要每一层都关注
- POSE：通过位置跳过式训练高效扩展LLM的上下文窗口
- LONGLORA：长上下文大型语言模型的高效微调
- LongAlign：大型语言模型长上下文对齐的配方
- 数据工程：将语言模型扩展到128K上下文
- MEGALODON：具有无限上下文长度的高效LLM预训练和推理
- 让你的LLM充分利用上下文
- 解开结：一种高效的长上下文预训练数据增强策略
- LIFT：通过长输入微调提升大型语言模型的长上下文理解能力
- REFRAG：重新思考基于RAG的解码
效率优化
- 高效注意力：线性复杂度的注意力
- Transformers就是RNNs：具有线性注意力的快速自回归Transformer
- HyperAttention：近线性时间内的长上下文注意力
- FlashAttention：具有IO感知的快速且内存高效的精确注意力
- 文本越长，需求越大：推理时训练有助于长文本生成
评估
- NOLIMA：超越字面匹配的长上下文评估
- 边际收益递减的幻觉：衡量LLM的长 horizon 执行能力
原理分析
- 检索头机制性地解释了长上下文的事实性

LLM长文本生成（long_output）

Re3：通过递归重提和修订生成更长的故事
RECURRENTGPT：交互式生成（任意）长文本
DOC：通过详细的大纲控制提升长篇故事的连贯性
Weaver：面向创意写作的基础模型
利用大型语言模型从零开始协助撰写维基百科式文章
进入未知的未知领域：通过参与语言模型代理对话进行主动式人类学习
不止于大纲：语言模型用于自适应长文写作的异构递归规划

NL2SQL

大模型方案
- DIN-SQL：带自我修正的分解式上下文学习文本转SQL :star:
- C3：使用ChatGPT进行零样本文本转SQL :star:
- SQL-PALM：改进大型语言模型的文本转SQL适应能力
- BIRD LLM是否已经可以作为数据库接口？大规模数据库驱动的文本转SQL大基准测试 :star:
- 用于跨领域文本转SQL中自适应提示的一致性推理框架
- ChatDB：将数据库作为符号记忆增强LLM
- 对ChatGPT零样本文本转SQL能力的全面评估
- 使用结构和内容提示学习进行少样本文本转SQL翻译
- 工具辅助代理在真实场景下进行SQL检查和精炼
- Agentar-Scale-SQL：通过协调的测试时扩展推进文本转SQL
领域知识密集型
- 基于公式化知识迈向知识密集型文本转SQL语义解析
- 通过模式扩展弥合文本转SQL解析中的泛化差距
- 努力提高文本转SQL模型对同义词替换的鲁棒性
- FinQA：金融数据上的数值推理数据集
其他
- RESDSQL：将模式链接与骨架解析分离用于文本转SQL
- MIGA：用于会话式文本转SQL的统一多任务生成框架

代码生成

使用AlphaCodium进行代码生成：从提示工程到流程工程
Codeforces作为数字化时代学习编程的教育平台
使用AlphaCode进行竞赛级代码生成
CODECHAIN：迈向模块化代码生成，通过代表子模块的自我修订链
AI程序员就在我们身边：重新思考编程语言语法以实现高效代码生成

降低模型幻觉 (reliability)

调查研究
- 大型语言模型及其幻觉的危险性
- 自然语言生成中的幻觉综述
- AI海洋中的塞壬之歌：大型语言模型中幻觉的综述
- 大型基础模型中的幻觉综述
- 大型语言模型中幻觉的综述：原理、分类、挑战与开放问题
- 校准后的语言模型必然会产生幻觉
- 为什么ChatGPT在提供真实答案方面有所不足？
- 语言模型为何会产生幻觉
提示工程或微调
- R-Tuning：教会大型语言模型拒绝回答未知问题
- 通过提示使GPT-3更加可靠
- 随便问：一种简单的语言模型提示策略 :star:
- 关于提升语言模型推理能力的研究进展
- RefGPT：参考→由GPT生成并为GPT定制的真实对话
- 基于检索的反思：忠实的大语言模型推理
- 生成而非检索：大型语言模型是强大的上下文生成器
- 大型语言模型难以学习长尾知识
解码策略
- 相信你的证据：通过上下文感知解码减少幻觉 :star:
- 自我精炼：基于自我反馈的迭代优化 :star:
- 通过自然语言推理提升预训练语言模型的自洽性和性能
- 推理时干预：从语言模型中获取真实答案
- 使大型语言模型能够生成带有引用的文本
- 面向开放式文本生成的事实性增强语言模型
- 基于KL散度的温度采样
- KCTS：基于知识约束的树搜索解码，具备令牌级别的幻觉检测功能
- 对比解码提升大型语言模型的推理能力
- 对比解码：将开放式文本生成视为优化问题
探测与检测
- 大型语言模型归属关系的自动评估
- QAFactEval：改进的基于问答的事实一致性评估，用于摘要生成
- 零资源大型语言模型幻觉预防
- LLM谎言：幻觉并非缺陷，而是作为对抗样本的特性
- 语言模型（大多）知道自己知道什么 :star:
- LM vs LM：通过交叉检验检测事实错误
- 语言模型是否知道自己在编造引用？
- SELFCHECKGPT：面向生成式大型语言模型的零资源黑盒幻觉检测
- 大型语言模型的自相矛盾的幻觉：评估、检测与缓解
- 开放式生成中的自洽性
- 通过多智能体辩论提升语言模型的事实性和推理能力
- Selective-LAMA：面向信心感知评估的语言模型选择性预测
- LLM能否表达其不确定性？LLM中置信度 elicitation 的实证评估
审查与校准
- 真相计量器：与LLM合作对抗其幻觉
- RARR：利用语言模型研究和修订语言模型所说内容
- CRITIC：大型语言模型可通过工具交互式批评实现自我修正
- 使用RELM验证大型语言模型
- PURR：通过去噪语言模型的污染来高效编辑语言模型的幻觉
- 核实事实并重试：借助外部知识和自动化反馈改进大型语言模型
- 自适应变色龙还是顽固的树懒？揭示大型语言模型在知识冲突中的行为
- 啄木鸟：针对多模态大型语言模型的幻觉修正
- 零样本忠实的事实错误修正
- 大型语言模型目前仍无法自我修正推理
- 通过强化学习训练语言模型进行自我修正
通过忏悔训练LLM保持诚实

大模型评估（evaluation）

事实性评估
- 可靠的LLMs：大型语言模型对齐性的调查与评估指南
- TrueTeacher：与大型语言模型一起学习事实一致性评估
- TRUE：重新评估事实一致性评估
- FACTSCORE：长篇文本生成中事实精确度的细粒度原子级评估
- KoLA：精心基准测试大型语言模型的世界知识
- 何时不应信任语言模型：探究参数化与非参数化记忆的有效性
- FACTOOL：生成式AI中的事实性检测——一个适用于多任务、多领域场景的工具增强框架
- 大型语言模型中的长篇事实性
检测任务
- 从大型语言模型中检测预训练数据
- 可扩展地从（生产用）语言模型中提取训练数据
- 重新思考语言模型的基准测试与污染问题：使用改写样本
通用评估
- G-EVAL：使用GPT-4进行NLG评估，具有更好的人类对齐性
工具调用评估
- ToolRM：面向调用工具的大型语言模型的结果奖励模型
代理评估
- SWE-Bench Pro：AI代理能否解决长期软件工程任务？
- ALE-Bench：面向长期目标驱动算法工程的基准测试
- FinSearchComp：迈向现实且专家级的金融搜索与推理评估
- 支持我们的AI霸主：重新设计数据系统以代理优先

推理优化(inference)

快速Transformer解码：一个写头就足够了
通过推测解码实现Transformer的快速推理
GQA：从多头检查点训练通用多查询Transformer模型
思维骨架：大型语言模型可以进行并行解码
SkipDecode：带批处理和缓存的自回归跳过解码，用于高效LLM推理
BatchPrompt：用更少的资源完成更多工作
你只需缓存一次：面向语言模型的解码器-解码器架构
XGrammar：灵活高效的大型语言模型结构化生成引擎
大型语言模型中的精确长度控制
Top-nσ：并非所有logits都是你需要的
上下文缓存
- 提示缓存：模块化注意力复用，实现低延迟推理
- SGLang：高效执行结构化语言模型程序
- 通过嵌入相似性实现高效的提示缓存
- ChunkAttention：带有前缀感知KV缓存和两阶段分区的高效自注意力机制
- Hydragen：使用共享前缀实现高吞吐量的LLM推理
- 使用PagedAttention实现大型语言模型服务中的高效内存管理

模型知识编辑黑科技(model_edit)

ROME：定位并编辑GPT中的事实关联
Transformer前馈层是键值记忆
MEMIT：大规模编辑Transformer中的记忆
MEND：大规模快速模型编辑
编辑大型语言模型：问题、方法与机遇
语言模型就像超级马里奥：可以免费吸收同源模型的能力
基于自动机的约束条件用于语言模型解码
SGLang：高效执行结构化语言模型程序

模型合并和剪枝(model_merge)

融合就是全部：更便宜、更好的万亿参数大模型替代方案
DARE语言模型就像超级马里奥：免费吸收同源模型的能力
使用任务算术编辑模型
TIES-Merging：解决模型合并时的干扰问题
LM-Cocktail：通过模型合并实现语言模型的稳健微调
SLICEGPT：通过删除行和列压缩大型语言模型
基于贝叶斯优化的LLM预训练检查点合并
Arcee's MergeKit：用于合并大型语言模型的工具包

MOE

训练稀疏翻译模型的技巧
ST-MoE：设计稳定且可迁移的稀疏专家模型
Switch Transformers：通过简单高效的稀疏性扩展到万亿参数模型
GLaM：利用专家混合高效扩展语言模型
GShard：通过条件计算和自动分片扩展巨型模型
极其庞大的神经网络：稀疏门控专家混合层
DeepSpeed-MoE：推进专家混合的推理和训练，以支持下一代AI规模
专家混合的稠密到稀疏门控机制
利用专家混合高效进行大规模语言建模

多模态

InstructBLIP：通过指令微调迈向通用视觉-语言模型
BLIP-2：利用冻结的图像编码器和大型语言模型启动语言-图像预训练
Visual ChatGPT：与视觉基础模型对话、绘图和编辑
LLava视觉指令微调
MiniGPT-4：借助先进大型语言模型增强视觉-语言理解能力
BLIVA：一款简单的多模态LLM，更好地处理富含文本的视觉问题
mPLUG-Owl：模块化赋能大型语言模型多模态能力
LVLM eHub：大型视觉语言模型的综合评估基准
Mirasol3B：一种多模态自回归模型，适用于时间对齐和上下文相关的模态
PaLM-E：具身多模态语言模型
TabLLM：利用大型语言模型进行少样本表格数据分类
AnyGPT：统一的多模态LLM，支持离散序列建模
Sora技术报告
向通用计算机控制迈进：以《荒野大镖客2》为例的多模态智能体
OCR
- Vary：为大型视觉-语言模型扩展视觉词汇量
- 大型OCR模型：OCR缩放规律的实证研究
- 大型多模态模型中OCR的隐藏奥秘
- DeepSeek-OCR：上下文光学压缩
PreFLMR：扩展细粒度晚期交互式多模态检索器
多模态基础模型中的多样本上下文学习
为文生图扩散模型添加条件控制
Ferret-UI：基于多模态LLM的接地移动UI理解
ShowUI：一个视觉-语言-行动模型，用于GUI视觉智能体
Flamingo：用于少样本学习的视觉语言模型
Segment Anything
Monkey：图像分辨率和文本标签对大型多模态模型至关重要
从自然语言监督中学习可迁移的视觉模型
一张图片胜过16×16个词：大规模图像识别的Transformer
InternVL1：扩展视觉基础模型并对其对齐，以应对通用视觉-语言任务
Vary：为大型视觉-语言模型扩展视觉词汇量
InternVL1.5：我们距离GPT-4V还有多远？通过开源套件缩小与商用多模态模型的差距
Qwen-VL：一款多功能视觉-语言模型，可用于理解、定位、文本阅读等任务
Qwen2-VL：在任何分辨率下提升视觉-语言模型的世界感知能力

综述

大型语言模型综述
预训练、提示与预测：自然语言处理中提示方法的系统性综述 :star:
自然语言处理的范式转变
预训练模型：过去、现在与未来
哪种语言模型架构和预训练目标最适合零样本泛化 :star:
向大型语言模型推理迈进：综述
利用语言模型提示进行推理：综述 :star:
语言模型概述：最新进展与展望 :star:
大型语言模型综述[6.29更新版]
统一大型语言模型与知识图谱：路线图
增强型语言模型：综述 :star:
领域专业化是使大型语言模型具有颠覆性的关键：全面综述
大型语言模型的挑战与应用
基于大型语言模型的智能体的兴起与潜力：综述
大型语言模型在信息检索中的应用：综述
AI对齐：全面综述
知识与大型语言模型融合的趋势：方法、基准和应用的综述与分类
用于时间序列和时空数据的大模型：综述与展望
代码相关语言模型综述
模型即服务(MaaS)：综述

大模型能力探究

上下文学习
- 更大的语言模型以不同方式执行上下文学习
- 上下文学习是如何工作的？理解其与传统监督学习差异的框架
- 为什么GPT能在上下文中学习？语言模型作为元优化器秘密地执行梯度下降：star:
- 重新思考示范的作用：是什么让上下文学习奏效？：star:
- 训练后的Transformer在上下文中学习线性模型
- 上下文学习会生成任务向量
- 大型语言模型中的函数向量
- 无需训练的学习：上下文学习的隐式动态
- 语言模型是单射的，因此可逆的
涌现能力
- 人工通用智能的火花：GPT-4的早期实验
- 大型语言模型的涌现能力：star:
- 语言模型表征空间和时间
- 大型语言模型的涌现能力是幻象吗？
能力评估
- ChatGPT是否为通用自然语言处理任务求解器？
- 大型语言模型能否从相关性中推断出因果关系？
- 语言模型的整体评估
- 在实践中利用LLM的力量：关于ChatGPT及更广泛领域的综述
- 理解他人心理的能力可能已在大型语言模型中自发涌现
- 超越模仿游戏：量化并外推语言模型的能力
- 模型能自我解释吗？自然语言解释的反事实可模拟性
- 揭秘GPT用于代码生成的自我修复机制
- 在基于程序训练的语言模型中发现意义的证据
- 解释是否有助于校准黑箱模型
- 关于ChatGPT的鲁棒性：对抗性和分布外视角
- 语言习得：儿童和语言模型是否遵循相似的学习阶段？
- 语言主要是交流工具，而非思维工具
领域能力
- GPT-4在医学挑战性问题上的能力
- 通用基础模型能否胜过特定用途的微调？以医学为例
- 人格向量：监控和控制语言模型中的角色特征
可解释性
- 理解用于回归的LLM嵌入
- 当模型操纵流形时：计数任务的几何结构
- 权重稀疏的Transformer具有可解释的电路

Prompt调优范式

无调优Prompt
- GPT2：语言模型是无监督的多任务学习者
- GPT3：语言模型是少样本学习者：star:
- LAMA：语言模型是知识库吗？
- AutoPrompt：从语言模型中提取知识
固定Prompt的LM调优
- T5：用统一的文本到文本Transformer探索迁移学习的极限
- PET-TC(a)：利用完形填空题进行少样本文本分类和自然语言推理：star:
- PET-TC(b)：PETSGLUE 不只是规模的问题小型语言模型也是少样本学习者
- GenPET：通过自然语言指令进行少样本文本生成
- LM-BFF：使预训练语言模型成为更好的少样本学习者：star:
- ADEPT：改进并简化模式挖掘训练
固定LM的Prompt调优
- Prefix-tuning：优化连续提示以用于生成
- Prompt调优：规模的力量实现参数高效的提示调优：star:
- P-tunning：GPT也懂：star:
- WARP：词级对抗性重编程
LM + Prompt调优
- P-tunning v2：提示调优在跨规模和任务上均可与微调相媲美
- PTR：用于文本分类的规则驱动提示调优
- PADA：基于示例的提示学习，用于即时适应未见领域
固定LM的Adapter调优
- LORA：大型语言模型的低秩适配：star:
- LST：阶梯式侧向调优，实现参数和内存高效的迁移学习
- NLP中的参数高效迁移学习
- 内在维度解释了语言模型微调的有效性
- DoRA：基于权重分解的低秩适配
表征调优
- ReFT：语言模型的表征微调

时间序列LLM

TimeGPT-1
用于时间序列和时空数据的大模型：综述与展望
TIME-LLM：通过重编程大型语言模型进行时间序列预测
大型语言模型是零样本时间序列预测器
TEMPO：基于Prompt的生成式预训练Transformer用于时间序列预测
用于半导体制造中无监督故障检测的时间序列数据生成式预训练
Lag-Llama：迈向时间序列预测的基础模型
PromptCast：一种新的基于Prompt的学习范式，用于时间序列预测

量化

AWQ：激活感知的权重量化，用于LLM压缩和加速
LLM-QAT：面向大型语言模型的数据无关量化感知训练
LLM.int8()：大规模Transformer的8位矩阵乘法
SmoothQuant：针对大型语言模型的准确且高效的后训练量化

对抗性攻击

基于好奇心的大型语言模型红队测试
使用语言模型对语言模型进行红队测试
探索、建立、利用：从零开始的语言模型红队测试

对话模型

LaMDA：用于对话应用的语言模型
Sparrow：通过有针对性的人类判断改善对话代理的一致性：star:
- BlenderBot 3：一款持续学习并负责任地互动的已部署对话代理
- 如何不要评估你的对话系统：对话响应生成无监督评估指标的实证研究
- DialogStudio：迈向最丰富、最多样化的统一对话AI数据集
- 通过扩大高质量指令性对话规模来增强聊天语言模型
- DiagGPT：一个基于LLM的聊天机器人，具备自动话题管理功能，适用于任务导向型对话

其他

在测试集上预训练就是你所需要的哈哈作者你是懂讽刺文学的
Learnware：小模型也能做大事
生成式AI的经济潜力
一位博士生对超大规模语言模型时代NLP研究的看法
人们如何使用ChatGPT

常见问题

作者是如何跟上LLM发展的？

Llama Index 框架是否应该被加入？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

使用场景

没有 DecryptPrompt 时

使用 DecryptPrompt 后

运行环境要求

快速开始

解密提示

LLM资源汇总

跟着博客读论文

论文汇总

论文列表

图像生成

后训练（与COT、RL有交集）

上下文工程

新模型架构

主流大语言模型及预训练

思维链 (prompt_chain_of_thought)

自我进化

RLHF

记忆

多轮对话

指令微调&对齐 (instruction_tunning)

LLM代理让模型使用工具 (llm_agent)

RAG

其他提示工程师(prompt_engineer)

大模型图表理解和生成

LLM+KG

类人智能体

预训练数据与预训练

领域模型SFT（domain_llms）

LLM超长文本处理 (long_input)

LLM长文本生成（long_output）

NL2SQL

代码生成

降低模型幻觉 (reliability)

大模型评估（evaluation）

推理优化(inference)

模型知识编辑黑科技(model_edit)

模型合并和剪枝(model_merge)

MOE

多模态

综述

大模型能力探究

Prompt调优范式

时间序列LLM

量化

对抗性攻击

对话模型

其他

DecryptPrompt 快速上手指南

环境准备

安装步骤

基本使用

常见问题

相似工具推荐

stable-diffusion-webui

everything-claude-code

ComfyUI

NextChat

ML-For-Beginners

ragflow