Awesome-Multimodal-Large-Language-Models
Awesome-Multimodal-Large-Language-Models 是一个专注于多模态大语言模型(MLLM)、大语言模型及扩散模型的前沿技术资源库。它不仅仅是一篇篇论文链接的简单堆砌,更核心价值在于提供了作者深度撰写的中文阅读笔记,帮助读者快速消化复杂的学术成果。
在人工智能技术飞速迭代的今天,研究人员往往面临海量文献难以追踪、核心观点提炼耗时等痛点。该资源库通过系统化的分类整理,覆盖了从基础综述、多模态推理、统一理解与生成,到人类偏好对齐等关键领域,有效解决了信息过载问题,让用户能高效把握行业最新动态与技术细节。
这里特别适合 AI 领域的研究人员、算法工程师以及希望深入理解多模态技术的开发者使用。无论是寻找最新的研究灵感,还是需要复现前沿算法,都能在此找到详实的参考依据。
其独特亮点在于“论文 + 深度笔记”的模式。作者作为中科院模式识别国家重点实验室的博士生,拥有微软、阿里达摩院等顶尖机构的研究背景,确保了内容的专业度与前瞻性。资源库持续更新,近期更涵盖了如 Skywork-R1V4 智能体、Thyme 图像外思考机制以及 MME-RealWorld 高难度基准测试等最新突破,是探索多模态智能不可或缺的知识导航。
使用场景
某高校实验室的博士生团队正致力于研发新一代多模态大模型,急需追踪最新的“图像思维”推理架构与人类偏好对齐数据以突破性能瓶颈。
没有 Awesome-Multimodal-Large-Language-Models 时
- 信息检索低效:研究人员需在 arXiv、GitHub 和知乎等多个平台手动筛选海量论文,难以快速定位如 Skywork-R1V4 或 Thyme 等前沿成果。
- 核心逻辑难懂:面对复杂的代理强化学习(Agentic RL)和新颖的“交错图像思考”机制,缺乏深度的解读笔记,导致复现思路模糊。
- 资源分散缺失:关键的基准测试(如 MME-RealWorld)和高质量标注数据集(如 MM-RLHF)散落在不同仓库,整理对齐工作耗时数周。
- 技术视野受限:难以系统性地掌握从多模态理解到生成统一模型的全链路进展,容易遗漏如 SliME 高分辨率视频分析等关键突破。
使用 Awesome-Multimodal-Large-Language-Models 后
- 一站式获取前沿:直接通过分类目录锁定最新更新的 RL 与多模态研究,瞬间获取 Skywork-R1V4 等模型的论文链接及作者亲撰的阅读笔记。
- 深度洞察加速:借助详细的中文解读笔记,快速吃透"Think Beyond Images"等复杂范式的技术细节,将理论转化为可执行的代码逻辑。
- 资源即时可用:一键直达 MME-Unify 基准测试代码和 120K 条人类偏好数据集,大幅缩短数据清洗与环境搭建周期,立即启动训练。
- 体系化知识构建:依托清晰的综述与展望板块,迅速建立从底层去偏算法到上层应用评估的完整知识图谱,精准指导实验方向。
Awesome-Multimodal-Large-Language-Models 将原本数周的文献调研与资源整理工作压缩至数小时,让研究者能专注于核心算法的创新与落地。
运行环境要求
未说明
未说明

快速开始
令人惊叹的多模态大语言模型
这是一个用于整理与多模态大语言模型、大语言模型和扩散模型相关文章的仓库;大多数论文都链接到了我的阅读笔记。欢迎访问我的个人主页,并与我联系以进行合作和讨论。
关于我 :high_brightness:
我是中国科学院大学模式识别国家重点实验室的博士四年级学生,导师是谭铁牛教授(Tieniu Tan)。我也曾在微软实习,导师是王井东教授(Jingdong Wang),还在阿里巴巴达摩院工作过,与金榕教授(Rong Jin)共事。
🔥 更新于2025年3月15日
- [2025-03-15] 更新了近期几篇关于强化学习/智能体强化学习、多模态大语言模型的研究,并附上了相应的阅读笔记。
- 我们提出了Skywork-R1V4:通过图像与深度研究的交织思考迈向智能体式多模态智能 [阅读笔记],Skywork-R1V4仅需3万条SFT数据即可激活“与图像一起思考”、搜索、规划以及图像操作与搜索的交织能力,在3B激活参数下,其在所有感知和深度研究基准测试中均优于Gemini 2.5 Flash。
- 我们提出了Thyme:超越图像的思考 [阅读笔记],Thyme通过可执行代码自主生成并执行多样化的图像处理和计算操作,从而超越了传统的“与图像一起思考”范式。
- 我们提出了R1-Reward [阅读笔记],这是一项综合性的项目,专注于通过强化学习提升多模态奖励建模能力。
- 我们提出了MME-Unify,这是一个针对统一多模态模型(GPT-4o、Gemini-2-flash、Janus-Pro、EMU3、Show-o、VILA-U)的综合性基准测试。
- 我们提出了MM-RLHF,这是一套包含12万条完全由人类标注的偏好数据的综合数据集,同时配备强大的奖励模型和训练算法,旨在提升MLLM对齐效果,并显著改善27项基准任务的表现。
- 我们的基准测试MME-RealWorld已发布,这是迄今为止最困难、规模最大的纯人工标注图像感知基准测试。[代码] [阅读笔记]
- 我们的模型SliME已发布,这是一种高分辨率的MLLM,也可扩展至视频分析。[代码] [阅读笔记]
- 我们的论文多模态大语言模型的去偏见方法已发布。[代码] [阅读笔记]
目录(持续更新)
- 令人惊叹的多模态大语言模型
- 目录(持续更新)
- 综述与展望
- 多模态推理与与图像一起思考 (o3)
- 多模态大语言模型
- 基准测试与数据集
- 统一多模态理解和生成
- 与人类偏好对齐(MLLM)
- 与人类偏好对齐(LLM)
综述与展望
- 近期有意思的10篇RL,Agentic RL论文-20260315
- 近期有意思的10篇RL,Agentic RL论文-20260307
- 万字长文总结Think with image最新进展 [1]
- 10篇有意思的近期论文,包含RL, agentic RL,LLM架构等
- 万字长文总结RL/on policy distillation的一些进展
- 万字长文总结rubric reward最新进展
- 万字长文总结多模态大模型评估最新进展
- 万字长文总结多模态大模型最新进展(Modality Bridging篇)
- 万字长文总结多模态大模型最新进展(Video篇)
- 将大语言模型与人类偏好对齐
- 万字长文梳理RL最新进展:从policy gradient到REINFORCE++
- 万字长文总结多模态大模型后训练:从幻觉到o1-reasoning
- 万字长文总结多模态大模型最新进展(生成-理解大一统)
- 大型推理模型的强化学习综述
- LLM智能体强化学习的现状综述
多模态推理与“以图思考”(o3)
- (以图思考)[Skywork-R1V4:通过穿插“以图思考”与深度研究,迈向具身多模态智能](https://zhuanlan.zhihu.com/p/1979848119471608282)(3万条数据的SFT训练,无需RL即可激活“以图思考”。具备规划、文本/图像搜索等功能。)
- (以图思考)[DeepEyesV2:迈向具身多模态模型](https://zhuanlan.zhihu.com/p/1971564951412924453)(图像操作+搜索,具身MLLM)
- (以图思考)[Thyme:超越图像的思考](https://zhuanlan.zhihu.com/p/1942175827547649963)(通过模型自身编码完成裁剪、旋转、对比度增强及复杂计算,是具身MLLM的初步探索。)
- (以图思考)[mini-o3:扩展视觉搜索中的推理模式与交互轮次](https://arxiv.org/abs/2509.00676)(高质量数据集、基准测试与强化学习算法。)
- (以图思考)[以3D思考:基于有限视角的几何想象与空间推理](https://zhuanlan.zhihu.com/p/1968671990681403733)(3D版的“以图思考”。)
- (以图思考)[潜在视觉推理](https://zhuanlan.zhihu.com/p/1966113562880619373)(直接预测视觉token实现“以图思考”。)
- (奖励模型)[basereward:多模态奖励模型的强大基线](https://zhuanlan.zhihu.com/p/1955620828617085143)(关于多模态奖励模型的一系列实用技巧。)
- (奖励模型)[R1-Reward:通过稳定强化学习训练多模态奖励模型](https://zhuanlan.zhihu.com/p/1903095194166997749)(利用StableReinforce算法提升多模态奖励模型的建模效果。)
- (LLM)[Ministral 3](https://zhuanlan.zhihu.com/p/1994760575448810344)(Ministral 3:极致的蒸馏与偏好对齐。)
- (LLM)[推出MiMo-V2-Flash](https://zhuanlan.zhihu.com/p/1984919167934170020)(MiMo-V2-Flash逐帧学习版本。)
- (LLM)[Deepseek-Math-v2](https://zhuanlan.zhihu.com/p/1977742909622211010)(为奖励模型训练一个奖励模型。)
- (LLM)[POLARIS-4B](https://zhuanlan.zhihu.com/p/1930601703209665224)(秘诀:四大技巧助力RL炼丹。)
- (LLM)[超越80/20法则:高熵少数token驱动LLM推理的有效强化学习](https://zhuanlan.zhihu.com/p/1913555493412115868)(仅使用20%的token进行推理训练,效果甚至能超越全梯度更新。)
- (LLM)[ProRL:延长强化学习时间可拓展大语言模型的推理边界](https://www.zhihu.com/people/yukio-2)(只要训练得够久、够稳定、够多样化,强化学习完全可以帮助模型发现全新的推理策略,突破原有的能力边界。)
- (LLM)[Thinker:学会快思考与慢思考](https://www.themoonlight.io/zh/review/thinker-learning-to-think-fast-and-slow)(先给予token预算进行快思考,若答案错误再进行慢思考。)
- (LLM)[Critique-GRPO:借助自然语言与数值反馈推进LLM推理](https://www.chatpaper.ai/zh/dashboard/paper/5be0c41c-29dc-4818-a870-e6d16eabc0d2)(在基于规则的奖励性能遇到瓶颈后,通过LLM生成critic还能进一步提升效果。)
- (LLM)[GLM 4.5](https://zhuanlan.zhihu.com/p/1947992148415873229)(GLM4.5技术路线:多阶段RL是实现具身+推理的关键。)
- (MLLM)[Kimi K 2.5](https://zhuanlan.zhihu.com/p/2000719027690030326)(Kimi K2.5技术报告阅读笔记。)
- (MLLM)[Deepseek OCR V2](https://www.zhihu.com/question/1999468225642119587)(如何评价DeepSeek-OCR-2模型?)
- (MLLM)[Qwen3-VL](https://zhuanlan.zhihu.com/p/1977442723322679677)(结构上采用了deep stack、新型mrope与Video Timestamp;算法上则运用了Distillation等技巧,如sapo等。)
- (MLLM奖励)[BaseReward:多模态奖励模型的强大基线](https://zhuanlan.zhihu.com/p/1955620828617085143)(关于多模态奖励模型的一系列实用技巧。)
- (MLLM)[InternVL3.5](https://zhuanlan.zhihu.com/p/1943711475937031695)(InternVL3.5技术报告速览:离线+在线RL有讲究。)
- (MLLM)[ERNIE 4.5技术报告](https://zhuanlan.zhihu.com/p/1923373773127655901)(文心一言的技术路线。)
- (MLLM)[longvila:面向长视频的长上下文视觉语言模型扩展](https://zhuanlan.zhihu.com/p/1929152101721830183)(AI长视频RL新突破:英伟达发布LongVILA。)
- (MLLM)[Skywork-R1V3技术报告](https://zhuanlan.zhihu.com/p/1928058102290310188)(解读Skywork-R1V3技术报告,MMMU 76分。)
- (MLLM)[快手Keye-VL技术报告](https://zhuanlan.zhihu.com/p/1924429130553857058)(快手Keye-vl,短视频理解,自动思考,以图思考。)
- (MLLM)[GLM-4.1V-Thinking:迈向可扩展强化学习的通用多模态推理](https://zhuanlan.zhihu.com/p/1924064703946158968)(智谱多模态大模型GLM-4.1V-thining技术路线。)
- (MLLM)[Seed1.5 VL](https://arxiv.org/abs/2505.07062)(混合基于规则与ORM的强化学习训练,SFT-RL多步迭代。)
- (MLLM)[MiMo VL](https://www.arxiv.org/abs/2506.03569)(混合基于规则与ORM的强化学习训练,GRPO。)
- (MLLM)[SynthRL:通过可验证的数据合成扩展视觉推理能力](https://www.chatpaper.ai/zh/dashboard/paper/c013bdbb-f0e8-41b3-a595-a836d14b68ce)(通过可验证数据(基于规则的数据)合成来扩展视觉推理能力。)
- (以图思考)[DeepEyes:通过强化学习激励“以图思考”](https://zhuanlan.zhihu.com/p/1908543355161417216)(纯强化学习激发“以图思考”的能力。)
- (具身)[rStar2-Agent:具身推理技术报告](https://zhuanlan.zhihu.com/p/1947981998569260594)(GRPO-RoC:轨迹质量过滤是具身RL的关键。)
多模态大语言模型
- (S-Lab) 从像素到文字——迈向大规模原生视觉-语言基础模型(原生多模态新突破:390M 数据超越InternVL3)
- (Meta,斯坦福) Apollo:大型多模态模型中的视频理解探索(什么是MLLM视频理解的关键因素)
- (上海人工智能实验室) 通过模型、数据与推理时缩放扩展开源多模态模型的性能边界(InternVL2.5技术细节-让开源多模态模型再进一步)
- (NVIDIA) NVLM:开放的前沿级多模态LLM(三种不同的特征融合框架深度探索)
- (艾伦人工智能研究所) Molmo和PixMo:用于最先进多模态模型的开放权重与开放数据(本文的改进集中在数据侧,包括了一些数据合成的方法,开放了更高质量得多模态数据等)
- (MixtralAI) Pixtral 12B(12B接近Qwen2-VL 72B和Llama-3.2 90B水平)
- (Rhymes AI) Aria:一个开放的多模态原生混合专家模型(细粒度混合专家(MoE)架构)
- (苹果) MM1.5:多模态LLM微调的方法、分析与洞见(apple:多模态大模型炼丹指南)
- (Hugging Face) 构建并更好地理解视觉-语言模型:洞见与未来方向(Hugging Face:探索多模态大模型的最佳技术路线)
- (阿里巴巴) Qwen2-VL:在任意分辨率下增强视觉-语言模型的世界感知能力(精细的动态分辨率策略+多模态旋转位置嵌入)
- LongLLaVA:通过混合架构高效扩展多模态LLM至1000张图像(在单个A100 80GB GPU上可以处理近千张图像)
- MME-RealWorld:你的多模态LLM能否挑战人类也难以应对的高分辨率真实场景?(最难多模态Benchmark. QwenVL-2第一但未及格!)
- VITA:迈向开源的交互式全能多模态LLM(VITA : 首个开源支持自然人机交互的全能多模态大语言模型)
- 超越LLaVA-HD:深入高分辨率大型多模态模型(高效处理高分辨率图像的多模态大模型)
- 套娃式多模态模型(如何在正确回答视觉问题的同时使用最少的视觉标记?)
- Chameleon:混合模态早期融合基础模型(meta: 所有模态都回到token回归以实现灵活的理解/生成)
- Flamingo:用于少样本学习的视觉语言模型(LLM每一层创建额外的block处理视觉信息)
- BLIP-2:利用冻结的图像编码器和大型语言模型进行语言-图像预训练(q-former融合视觉-语言信息)
- InstructBLIP:通过指令微调迈向通用型视觉-语言模型(qformer+instruction tuning)
- 视觉指令微调(MLP对齐特征,gpt4v生成instruction tuning数据)
- 通过视觉指令微调改进基线(对于llava数据集以及模型大小的初步scaling)
- LLaVA-NeXT:改进的推理能力、OCR与世界知识(分辨率*4,数据集更大)
- 廉价快捷:大型语言模型的高效视觉-语言指令微调(一种端到端的优化方案,通过轻量级适配器连接图像编码器和LLM)
- MIMIC-IT:多模态上下文指令微调( MIMIC-IT包含多个图片或视频的输入数据,并支持多模态上下文信息)
- LLaVAR:增强文本丰富的图像理解的视觉指令微调(使用公开可用的OCR工具在LAION数据集的422K个文本丰富的图像上收集结果)
- SVIT:扩大视觉指令微调规模(一个包含420万个视觉指导调整数据点的数据集)
- Qwen-VL:一款多功能的视觉-语言模型,适用于理解、定位、文本阅读等功能(cross attention对齐特征,更大的第一阶段训练数据)
- NExT-GPT:任意模态间的多模态LLM(端到端通用的任意对任意MM-LLM(Multimodal-Large Language Model)系统)
- InternLM-XComposer:一款用于高级文本-图像理解和创作的视觉-语言大模型(视觉信息的压缩采样)
- CogVLM:预训练语言模型的视觉专家(在LLM的各层添加visual expert,它具有独立的QKV和FFN相关的参数)
- OtterHD:一款高分辨率多模态模型(专门设计用于以细粒度精度解释高分辨率视觉输入)
- Monkey:图像分辨率和文本标签对大型多模态模型至关重要(Monkey模型提出了一种有效地提高输入分辨率的方法,最高可达 896 x 1344 像素)
- LLaMA-VID:在大型语言模型中,一张图像相当于2个token(LLaMA-VID赋予现有框架支持长达一小时的视频,并通过额外的上下文标记推动了它们的上限)
- MoE-LLaVA:大型视觉-语言模型的混合专家架构(解决了多模态稀疏学习中的性能下降问题)
- LLaVA-UHD:能够感知任意宽高比及高分辨率图像的LMM(高效处理任何纵横比和高分辨率的图像)
- Yi-VL(Yi-VL采用了LLaVA架构,经过全面的三阶段训练过程,以将视觉信息与Yi LLM的语义空间良好对齐:)
- Mini-Gemini(双视觉编码器,使用低分辨率的视觉编码器特征作为query,将高分辨率特征作为key 和value进行token mining)
- Chat-UniVi:统一视觉表示赋能大型语言模型的图像和视频理解能力(采用了一组动态视觉tokens来统一表示图像和视频。使模型能够高效利用有限数量的视觉tokens,同时捕捉图像所需的空间细节和视频所需的全面时间关系。)
- VILA:关于视觉-语言模型的预训练(交错的预训练数据是有益的,而单纯的图像-文本对并非最佳选择。)
- ST-LLM:大型语言模型是高效的时间序列学习者(ST-LLM提出了一种动态掩码策略,并设计了定制的训练目标。此外,针对特别长的视频,设计了一个全局-局部输入模块,以平衡效率和效果。)
- Video-LLaVA:通过投影前的对齐学习统一视觉表示(用视频特有的encoder提升视频理解能力而非image encoder)
基准测试与数据集
- MME-Reasoning:多模态大模型逻辑推理能力的全面基准(从三个维度评估多模态大模型的推理能力)
- MME-RealWorld:你的多模态大模型能否应对连人类都难以处理的高分辨率真实场景?(最难的多模态基准测试。通义千问VL-2排名第一,但仍不及格!)
- MMMU-Pro:更鲁棒的跨学科多模态理解基准(MMMU的进阶版,更加关注图像感知对问题解答的影响)
- 从像素到散文:大规模密集型图像描述数据集(包含1600万组生成的图像-文本对,利用最先进的视觉语言模型(Gemini 1.0 Pro Vision)进行详细且准确的描述。)
- ShareGPT4Video:通过更优质的字幕提升视频理解和生成能力(其中4万个来自GPT-4V,另有4814万个由自研模型生成)
- OBELICS:开放的网络规模过滤型图文混合文档数据集(从Common Crawl中提取了1.41亿个网页、3.53亿张相关图片以及1150亿个文本标记)
- 通过稳健的指令微调缓解大型多模态模型的幻觉问题(在数据层面,以细粒度片段级更正的形式收集人类反馈;在方法层面,我们提出了密集直接偏好优化(DDPO))
- 多模态自我指导:利用语言模型合成抽象图像与视觉推理指令(在数据层面, 通过代码作为媒介合成抽象图表,并且 benchmarking 了当前多模态模型在抽象图的理解上的不足.)
统一多模态理解与生成
- Chameleon:混合模态早期融合基础模型(Meta FAIR:“早期融合”的方法使得模型能够跨模态推理和生成真正的混合文档。)
- Show-o:一个单一的Transformer实现多模态理解与生成的统一(NUS&ByteDance:文本作为离散标记进行自回归建模,而连续图像像素则使用去噪扩散建模。)
- Transfusion:用一个多模态模型预测下一个标记并扩散生成图像(Meta:采用了文本的下一个标记预测和图像的扩散作为目标函数,在不增加计算成本的前提下,实现了更好的模态整合与生成效果。)
- VILA-U:集成视觉理解与生成的统一基础模型(清华&MIT:统一视频理解与生成)
- MoMa:基于模态感知专家混合的高效早期融合预训练(META:MOE是混合模态理解/生成的最佳选择)
- MIO:基于多模态标记的基础模型(01AI:四模态理解/生成大一统)
- 视觉文本理解与生成的协同优化(ECNU&ByteDance:结合视觉编码器、LLM、图像解码器实现多模态输入输出)
- SEED-X:具有统一多粒度理解与生成能力的多模态模型 (腾讯AI实验室:采用预训练的视觉分词器(如ViT)来统一图像理解和生成任务)
- NExT-GPT:任意模态之间的多模态大模型(NUS:使用预训练的编码器、扩散解码器和LLM,结合模态对齐训练和Lora指令微调实现any2any模态任务)
- 通过可组合扩散实现任意模态间的生成(微软:组合各种模态的扩散模型,实现多模态并行生成)
- X-VILA:面向大型语言模型的跨模态对齐(Nvidia&HKUST:将单模编码器与大型语言模型(LLM)的输入对齐,以及将单模扩散解码器与LLM的输出对齐,实现跨模态的理解、推理和生成)
- DreamLLM:协同的多模态理解与创造(XJU&IIISCT:解决MLLMs在多模态理解与创造中的协同问题,直接在原始多模态空间中采样,生成语言和图像后验)
- 联合训练大型自回归多模态模型(Meta AI:融合了现有的文本和图像生成模型,并引入了一种专门的、数据高效的指令调整策略)
- VL-GPT:用于视觉与语言理解及生成的生成式预训练Transformer(XJU&腾讯AI实验室:使用一个新的图像分词器-解码器框架将原始图像转换为连续的视觉嵌入序列,使用NTP训练目标实现图像文本统一预训练)
- Emu:多模态的生成式预训练(BAAI&THU:一个基于Transformer的多模态基础模型采用统一的自回归训练目标,通过预测多模态序列中的下一个元素(无论是文本标记还是视觉嵌入)进行训练)
- Video-LaVIT:解耦视觉-运动标记的统一视频-语言预训练(PKU&快手:将视频分解为关键帧和运动向量,视频、图像和文本数据统一为1D离散标记)
- Mini-Gemini:挖掘多模态视觉语言模型的潜力(CUHK:使用视觉双编码器处理高分辨率图像,文本自回归生成,图像使用扩散模型生成)
- 基于百万长度视频与语言的世界模型,采用分块环形注意力机制(UC Berkeley:使用VQGAN将图像/视频离散化,将理解与生成统一为NTP任务,使用RingAttention、渐进式训练等技术将上下文窗口扩大到1M tokens)
- Unified-IO 2:扩展包含视觉、语言、音频和动作的自回归多模态模型(AI2&UIUC:将不同模态的输入和输出(如图像、文本、音频、动作等)标记化(tokenize)到一个共享的语义空间中,然后使用单一的编码器-解码器变换器模型进行处理)
- AnyGPT:采用离散序列建模的统一多模态大模型(复旦:使用离散的标记来表示不同的模态(如图像、音乐、语音和文本))
- 书写与绘画:生成式视觉-语言模型是统一的模态学习者(HKUST&ByteDance:结合前缀语言建模和前缀图像建模的Dacinci模型)
- Gemini:一系列高性能多模态模型(Google Gemini团队:解决跨图像、音频、视频和文本理解任务中的高级推理和语言理解问题)
- Minigpt-5:通过生成性视觉标记实现视觉与语言的交错生成(UCSC:引入生成性视觉标记(Generative Vokens))
- Mm-interleaved:通过多模态特征同步器实现图像-文本交错生成建模(上海人工智能实验室:集成图像编码器、大型语言模型(LLM)和图像解码器)
- OMCAT:全情境感知Transformer(NVIDIA:跨模态时间理解,利用RoTE(Rotary Time Embeddings)通过嵌入绝对和相对时间信息到音频和视觉特征中)
- 百川-Omni技术报告(百川&西湖大学&浙大:全模态模型)
- Janus:解耦视觉编码以实现多模态理解与生成的统一(DeepSeek-AI&HKU:针对多模态理解和多模态生成解耦视觉编码)
- Emu3:只需预测下一个标记即可(BAAI:视觉标记离散化,使用DPO进行对齐)
- VITRON:统一像素级视觉语言大模型,用于理解、生成、分割、编辑(NUS&NTU:混合离散文本和连续信号的指令传递方法,进行像素级时空视觉-语言对比学习)(NeurIPS2024)
与人类偏好对齐(MLLM)
- (中科院)[MM-RLHF:多模态LLM对齐的下一步进展](https://arxiv.org/abs/2502.10391)(全人工标注数据,新算法,27个基准测试通过DPO全面提升)
- (中国科学技术大学)[DAMA:多模态LLM的数据与模型感知对齐](https://arxiv.org/abs/2502.01943)(动态调整beta参数加速视觉DPO优化)
- (苹果公司)[理解多模态LLM中的对齐:一项综合研究](https://zhuanlan.zhihu.com/p/6762892397)(通过独立分析各个因素,探索不同的对齐方法对MLLMs性能的影响)
- [使用事实增强的RLHF对齐大型多模态模型](https://llava-rlhf.github.io/)
- [CLIP-DPO:视觉-语言模型作为偏好来源,用于修复LVLM中的幻觉](https://www.arxiv.org/abs/2408.10433)(使用预训练的CLIP模型对LVLM自生成的标题进行排序,以构建DPO的正负样本对)
- [ODE:多模态大型语言模型中幻觉的开放集评估](https://www.arxiv.org/abs/2409.09318)(选择了一种动态生成方法来创建一个开放集基准测试,引入了开放集动态评估协议(ODE),专门用于评估MLLM中对象存在幻觉的情况)
- [超越幻觉:通过幻觉感知直接偏好优化提升LVLM](https://arxiv.org/abs/2311.16839)(本文将消除幻觉视为一种模型偏好,使模型偏向于无幻觉输出,于是提出了一种对幻觉敏感的多模态DPO策略——HA-DPO。我们还引入了句子级幻觉比率(SHR),它不受固定类别和范围的限制,为多模态幻觉提供了广泛、细粒度和定量的测量)
- [检测并预防大型视觉语言模型中的幻觉](https://arxiv.org/abs/2308.06394)(为了便于自动检测幻觉,我们首先使用InstructBLIP的VQA响应构建了一个多样化的人工标记数据集M-HalDetect,专注于在详细图像描述的子句级别上进行细粒度注释。在这个数据集上训练不同密度(句子级、子句子级)的多个奖励模型,用于幻觉检测。我们也使用细粒度直接偏好优化(FDPO)直接优化InstructBLIP)
- [RLAIF-V:通过开源AI反馈对齐MLLM,提升GPT-4V的可信度](https://arxiv.org/abs/2405.17220)(同一个大模型生成多个回复,将回复按句拆分,之后转化为问句让开源模型回复准确度,将所有准确度相加,得到偏好数据,用于迭代DPO)
- [通过自我完善提升大型视觉语言模型中的视觉-语言模态对齐](https://arxiv.org/abs/2405.15973)(我们提出了Self-Improvement Modality Alignment(SIMA),旨在通过自我完善机制进一步改善LVLM内视觉模态和语言模态之间的对齐)
- [MIA-DPO:面向大型视觉语言模型的多图像增强直接偏好优化](https://arxiv.org/abs/2410.17637)(将无关的单图像数据拼接为序列、网格、画中画数据,通过注意力值在正确目标上的多少来选择偏好数据,经过过滤得到数据,用于DPO)
- [CHiP:多模态LLM的跨模态层次化直接偏好优化](https://openreview.net/forum?id=7lpDn2MhM2)(为了使视觉信息对齐,引入了分层文本偏好优化模块,分别为回复级、片段级、token级偏好优化;同时引入了视觉偏好优化)
- [3D-CT-GPT++:利用直接偏好优化和大型视觉语言模型提升3D放射科报告生成](https://openreview.net/forum?id=LzycEbgLoi)(将无关的单图像数据拼接为序列、网格、画中画数据,通过注意力值在正确目标上的多少来选择偏好数据,经过过滤得到数据,用于DPO)
- [MAVIS:基于自动数据引擎的数学视觉指令微调](https://openreview.net/forum?id=MnJzJ2gvuf)(首先通过对比学习来微调数学特定的视觉编码器,随后将该编码器与LLM对齐,之后,采用MAVIS-Instruct进行指令调整,最后,在MAVIS-Instruct中使用带有注释的CoT基本原理的DPO)
- [HomieBot:开放环境中具身移动操作的自适应系统](https://openreview.net/forum?id=NQTrARs2pz)(由100个复杂的日常任务组成,从Replica Challenge中抽取了100个不同的片段来构建场景并设计任务,只使用Replica Challenge的配置文件来构造场景。手动控制机器人完成所有任务,将执行过程分解为几个子任务,最终得到966个子任务。使用GPT-4将最终任务的文本描述和每个子任务的分析重新生成三次,将它们重写为具有相同含义但不同表达的文本,得到3720个SFT数据。通过替换部分内容得到10104个DPO数据)
- [InteractiveCOT:具身决策中的动态思维链规划对齐](https://openreview.net/forum?id=Y4iaDU4yMi)(首先使用开源数据集LEVI-Project/sft-data对llava-v1.6-mistral-7b进行sft微调,然后使用模型与环境进行交互,在这些交互过程中优化其CoT能力,并在训练期间实时监控性能)
- [vVLM:在对抗语言先验的情况下探索VLM中的视觉推理](https://openreview.net/forum?id=lCqNxBGPp5)(通过扰动来破坏图像,同时保持文本(问题和答案)不变,从而构建被选中和被拒绝的偏好对。应用于图像的扰动包括语义编辑、高斯模糊和像素化)
- [AdPO:利用偏好优化提升大型视觉语言模型的对抗鲁棒性](https://openreview.net/forum?id=nbngu7H3ko)(通过PGD等迭代优化获得对抗图像(对抗性图像是通过在原始图像中引入微小的、几乎难以察觉的扰动来生成的),用原始图像与对抗图像生成对应的描述文本作为偏好数据进行DPO,同时引入了对抗性图像优化)
- [利用多轮偏好优化提升多模态LLM的精细准确视频字幕生成能力](https://openreview.net/forum?id=ufi0WPTgWp)(首先在大型音频数据集上进行训练音频对齐器实现音频模态对齐,然后进行audio-visual SFT,之后应用基于mrDPO的RL,最后重生微调)
- [通过偏好优化对齐视觉对比学习模型](https://openreview.net/forum?id=wgRQ2WAORJ)(步骤1:生成回应。步骤2:评分。步骤3:奖励偏好。迭代改进。)
- [SQuBa:具有查询注意力的语音Mamba语言模型,用于高效摘要生成](https://openreview.net/forum?id=zOMa82W1HV)(两阶段训练过程。在对准阶段,只有projector使用ASR任务进行训练。在微调阶段,LLM backbone和the projector都接受summarization任务的训练。微调结束后进行离线自生成DPO。)
与人类偏好对齐(LLM)
- ChatGLM-Math:通过自我批判流水线提升大语言模型的数学解题能力(ChatGLM-Math: 自我批判迭代对齐显著提升数学能力)
- 超越“一种偏好适用于所有”的对齐:多目标直接偏好优化(大语言模型的多目标对齐)
- 直接偏好优化:你的语言模型其实是个奖励模型(直接偏好优化克服RLHF不稳定的问题)
- KTO:将模型对齐视为前景理论优化(不需要成对数据的偏好优化)
- 带有偏移的直接偏好优化(带偏移的DPO, 要求首选响应和不受欢迎响应之间的可能性差异大于一个偏移值)
- 对比偏好学习:无需强化学习即可从人类反馈中学习(对比偏好学习(CPL)算法,该算法用于从偏好中学习最优策略而无需学习奖励函数,从而避免了对RL的需求)
- 统计拒绝采样改进偏好优化(使用拒绝抽样从目标最优策略中获取偏好数据,从而更准确地估计最优策略)
- 对于LLM对齐,DPO是否优于PPO?一项全面研究(在所有实验中,PPO始终优于DPO。特别是在最具挑战性的代码竞赛任务中,PPO实现了最先进的结果)
- 微调对齐的语言模型会损害安全性(微调对齐的语言模型会损害安全性)
- ChatGLM-Math:通过自我批判流水线提升大语言模型的数学解题能力(先用奖励模型训练,再进行拒绝式微调,最后通过DPO迭代提升模型数学性能)
- SimPO:无参考奖励的简单偏好优化(长度正则化+去掉参考模型)
- 关于分析和理解DPO局限性的理论视角(DPO的实际优化过程为何对SFT后LLMs对齐能力的初始条件如此敏感)
- 迭代长度正则化的直接偏好优化:以7B语言模型提升至GPT-4水平为例(表明迭代DPO (iDPO)可以通过精心设计将7B模型的LC胜率提升到GPT-4水平)
- Step-DPO:针对LLM长链推理的分步偏好优化(提出了一种有效且经济的流水线来收集成对数学问题偏好数据。引入了Step-DPO,旨在最大化下一个推理步骤正确的概率,同时最小化其出错的概率)
- 一种基于显式列表式奖励的语言模型新型软对齐方法(通过在现有强大LLM的指导下对比多个数据点,将生成建模问题转化为分类任务。SPO损失可以看作是k类交叉熵损失,带有更强大的教师LLM提供的软标签)
- 蒙特梭利指导:生成专为学生学习定制的影响性训练数据(教师模型根据使用Self-Instruct生成的数据集,然后收集这些数据点的本地数据对学生模型的影响,收集到的数据偏好形成偏好数据集,再用DPO更新教师模型,这一过程可迭代多轮,以根据学生更新的偏好不断改进教师)
- 相对偏好优化:通过对比相同与不同提示下的响应来增强LLM对齐(作者认为相似问题生成的答案也可以用于偏好学习,于是借助对比矩阵来研究此问题,提出了3种可适用的算法)
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。