[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-yfzhang114--Awesome-Multimodal-Large-Language-Models":3,"tool-yfzhang114--Awesome-Multimodal-Large-Language-Models":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":81,"owner_email":82,"owner_twitter":82,"owner_website":83,"owner_url":84,"languages":82,"stars":85,"forks":86,"last_commit_at":87,"license":82,"difficulty_score":88,"env_os":89,"env_gpu":90,"env_ram":90,"env_deps":91,"category_tags":94,"github_topics":82,"view_count":23,"oss_zip_url":82,"oss_zip_packed_at":82,"status":16,"created_at":95,"updated_at":96,"faqs":97,"releases":98},3249,"yfzhang114\u002FAwesome-Multimodal-Large-Language-Models","Awesome-Multimodal-Large-Language-Models","Reading notes about Multimodal Large Language Models, Large Language Models, and Diffusion Models","Awesome-Multimodal-Large-Language-Models 是一个专注于多模态大语言模型（MLLM）、大语言模型及扩散模型的前沿技术资源库。它不仅仅是一篇篇论文链接的简单堆砌，更核心价值在于提供了作者深度撰写的中文阅读笔记，帮助读者快速消化复杂的学术成果。\n\n在人工智能技术飞速迭代的今天，研究人员往往面临海量文献难以追踪、核心观点提炼耗时等痛点。该资源库通过系统化的分类整理，覆盖了从基础综述、多模态推理、统一理解与生成，到人类偏好对齐等关键领域，有效解决了信息过载问题，让用户能高效把握行业最新动态与技术细节。\n\n这里特别适合 AI 领域的研究人员、算法工程师以及希望深入理解多模态技术的开发者使用。无论是寻找最新的研究灵感，还是需要复现前沿算法，都能在此找到详实的参考依据。\n\n其独特亮点在于“论文 + 深度笔记”的模式。作者作为中科院模式识别国家重点实验室的博士生，拥有微软、阿里达摩院等顶尖机构的研究背景，确保了内容的专业度与前瞻性。资源库持续更新，近期更涵盖了如 Skywork-R1V4 智能体、Thyme 图像外思考机制以及 MME-RealWorld 高难度基","Awesome-Multimodal-Large-Language-Models 是一个专注于多模态大语言模型（MLLM）、大语言模型及扩散模型的前沿技术资源库。它不仅仅是一篇篇论文链接的简单堆砌，更核心价值在于提供了作者深度撰写的中文阅读笔记，帮助读者快速消化复杂的学术成果。\n\n在人工智能技术飞速迭代的今天，研究人员往往面临海量文献难以追踪、核心观点提炼耗时等痛点。该资源库通过系统化的分类整理，覆盖了从基础综述、多模态推理、统一理解与生成，到人类偏好对齐等关键领域，有效解决了信息过载问题，让用户能高效把握行业最新动态与技术细节。\n\n这里特别适合 AI 领域的研究人员、算法工程师以及希望深入理解多模态技术的开发者使用。无论是寻找最新的研究灵感，还是需要复现前沿算法，都能在此找到详实的参考依据。\n\n其独特亮点在于“论文 + 深度笔记”的模式。作者作为中科院模式识别国家重点实验室的博士生，拥有微软、阿里达摩院等顶尖机构的研究背景，确保了内容的专业度与前瞻性。资源库持续更新，近期更涵盖了如 Skywork-R1V4 智能体、Thyme 图像外思考机制以及 MME-RealWorld 高难度基准测试等最新突破，是探索多模态智能不可或缺的知识导航。","# Awesome-Multimodal-Large-Language-Models\nhis is a repository for organizing articles related to Multimodal Large Language Models, Large Language Models, and Diffusion Models; Most papers are linked to **my reading notes**. Feel free to visit my [personal homepage](https:\u002F\u002Fyfzhang114.github.io\u002F) and contact me for collaboration and discussion.\n\n\n### About Me :high_brightness: \nI'm a final-year Ph.D. student at the State Key Laboratory of Pattern Recognition, the University of Chinese Academy of Sciences, advised by Prof. [Tieniu Tan](http:\u002F\u002Fpeople.ucas.ac.cn\u002F~tantieniu). I have also spent time at Microsoft, advised by Prof. [Jingdong Wang](https:\u002F\u002Fjingdongwang2017.github.io\u002F), alibaba DAMO Academy, work with Prof. [Rong Jin](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=CS5uNscAAAAJ&hl=zh-CN).\n\n\n###  🔥 Updated 2025-03-15\n\n- [2025-03-15] Updated with several recent RL\u002FAgentic RL, MLLM studies, along with their reading notes.\n- We present [Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch](https:\u002F\u002Fskywork-r1v4-lite.netlify.app\u002F) [[Reading Notes]](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1979848119471608282), Skywork-R1V4 requires only 30K SFT data and activates \"think with image,\" search, planning, and interleaved image manipulation\u002Fsearch capabilities, with 3B activated parameters, outperforming Gemini 2.5 Flash on all perception and deep research benchmarks.\n- We present [Thyme: Think Beyond Images](https:\u002F\u002Fthyme-vl.github.io\u002F) [[Reading Notes]](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1942175827547649963), Thyme transcends traditional ``thinking with images'' paradigms by autonomously generating and executing diverse image processing and computational operations through executable code.\n- We present [R1-Reward](https:\u002F\u002Fgithub.com\u002Fyfzhang114\u002Fr1_reward) [[Reading Notes]](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1903095194166997749), which is a comprehensive project focused on enhancing multimodal reward modeling through reinforcement learning.\n- We present [MME-Unify](https:\u002F\u002Fmme-unify.github.io\u002F), a comprehensive benchmark for unified multimodal models (GPT-4o, Gemini-2-flash, Janus-Pro, EMU3, Show-o, VILA-U).\n- We present [MM-RLHF](https:\u002F\u002Fgithub.com\u002Fyfzhang114\u002FMM-RLHF), a comprehensive dataset of 120K fully human-annotated preference data, along with a robust reward model and training algorithm, designed to enhance MLLM alignment and significantly improve performance across 27 benchmark tasks.\n- Our benchmark  [MME-RealWorld](https:\u002F\u002Fmme-realworld.github.io\u002F) has been released, the most difficult and largest pure manual annotation image perception benchmark so far.  [[Code]](https:\u002F\u002Fgithub.com\u002Fyfzhang114\u002FMME-RealWorld) [[Reading Notes]](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F717129017)\n- Our model  [SliME](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.08487) has been released, a high-resolution MLLM that can also be extend to video analysis.  [[Code]](https:\u002F\u002Fgithub.com\u002Fyfzhang114\u002FSliME) [[Reading Notes]](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F703258020)\n- Our paper  [Debiasing Multimodal Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.05262) has been released.  [[Code]](https:\u002F\u002Fgithub.com\u002Fyfzhang114\u002FLLaVA-Align) [[Reading Notes]](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F686461442)\n\n# Table of Contents (ongoing)\n- [Awesome-Multimodal-Large-Language-Models](#awesome-multimodal-large-language-models)\n- [Table of Contents (ongoing)](#table-of-contents-ongoing)\n- [Survey and Outlook](#survey-and-outlook)\n- [Multimodal Reasoning & Think with Images (o3)](#multimodal-reasoning-and-think-with-images-o3)\n- [Multimodal Large Language Models](#multimodal-large-language-models)\n- [BenchMark and Dataset](#benchmark-and-dataset)\n- [Unify Multimodal Understanding and Generation](#unify-multimodal-understanding-and-generation)\n- [Alignment With Human Preference (MLLM)](#alignment-with-human-preference-mllm)\n- [Alignment With Human Preference (LLM)](#alignment-with-human-preference-llm)\n\n\n# Survey and Outlook\n1. [近期有意思的10篇RL,Agentic RL论文-20260315]([https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1993422372854847195](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F2000512568998003045))\n2. [近期有意思的10篇RL,Agentic RL论文-20260307](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1999894934791153576)\n3. [万字长文总结Think with image最新进展 [1]](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1985055659776049744)\n4. [10篇有意思的近期论文，包含RL, agentic RL，LLM架构等](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1993422372854847195)\n5. [万字长文总结RL\u002Fon policy distillation的一些进展](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F2004506304065065334)\n6. [万字长文总结rubric reward最新进展](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F2004149762870502827)\n7. [万字长文总结多模态大模型评估最新进展](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F16815782175)\n8. [万字长文总结多模态大模型最新进展（Modality Bridging篇）](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)\n9. [万字长文总结多模态大模型最新进展（Video篇）](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F704246896)\n10. [Aligning Large Language Models with Human](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F693160839)'\n11. [万字长文梳理RL最新进展：从policy gradient到REINFORCE++](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F24421624957)\n12. [万字长文总结多模态大模型后训练：从幻觉到o1-reasoning](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F31278114666)\n13. [万字长文总结多模态大模型最新进展(生成-理解大一统)](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F719475102)\n14. [A Survey of Reinforcement Learning for Large Reasoning Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2509.08827)\n15. [The Landscape of Agentic Reinforcement Learning for LLMs: A Survey](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2509.02547)\n\n# Multimodal Reasoning And Think With Images (o3)\n1. (Think with images) [Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1979848119471608282)(30K数据SFT，无需rl激活think with image。planning，text\u002Fimage search.)\n2. (Think with images) [DeepEyesV2: Toward Agentic Multimodal Model](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1971564951412924453)(图像操作+搜索，agentic mllm)\n3. (Think with images) [Thyme: Think Beyond Images](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1942175827547649963)(通过模型自身coding完成裁剪，旋转，对比度增强，复杂计算，agentic mllm的初步探索)\n4. (Think with images) [mini-o3: scaling up reasoning patterns and interaction turns for visual search](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.00676)(高分的数据，benchmark和rl算法)\n5. (Think with images) [Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1968671990681403733)(3D的think with image)\n6. (Think with images) [Latent Visual Reasoning](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1966113562880619373)(直接预测vision token实现Think with image)\n7. (Reward Model) [basereward: a strong baseline for multimodal reward model](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1955620828617085143)(关于多模态奖励模型的一堆有用的trick)\n8. (Reward Model) [R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1903095194166997749)(StableReinforce算法boost多模态奖励模型建模)\n9. (LLM) [Ministral 3](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1994760575448810344)(Ministral 3: 极致的蒸馏和偏好对齐)\n10. (LLM) [Introducing MiMo-V2-Flash](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1984919167934170020)(MiMo-V2-Flash逐帧学习版)\n11. (LLM) [Deepseek-Math-v2](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1977742909622211010)(给reward model训练一个reward model)\n12. (LLM)[ POLARIS-4B](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1930601703209665224)(Seed：四大技巧助力RL炼丹)\n13. (LLM)[Beyond the 80\u002F20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1913555493412115868)(仅使用20%的token进行推理训练，效果甚至能超越全梯度更新)\n14. (LLM)[ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models](https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fyukio-2)(只要训练得够久、够稳定、够多样化，强化学习完全可以帮助模型发现全新的推理策略，突破原有的能力边界)\n15. (LLM)[Thinker: Learning to Think Fast and Slow](https:\u002F\u002Fwww.themoonlight.io\u002Fzh\u002Freview\u002Fthinker-learning-to-think-fast-and-slow)(先给定token预算fast thinking，答案错误再slow thinking)\n16. (LLM)[Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback](https:\u002F\u002Fwww.chatpaper.ai\u002Fzh\u002Fdashboard\u002Fpaper\u002F5be0c41c-29dc-4818-a870-e6d16eabc0d2)(rule based reward性能瓶颈后通过LLM生成critic还能进一步提升)\n17. (LLM) [GLM 4.5](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1947992148415873229)(GLM4.5技术路线：多阶段rl是agentic+reasoning的关键)\n18. (MLLM) [Kimi K 2.5](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F2000719027690030326)(Kimi K2.5 技术报告阅读笔记)\n19. (MLLM) [Deepseek OCR V2](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F1999468225642119587)(如何评价DeepSeek-OCR-2 模型？)\n20. (MLLM) [Qwen3-VL](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1977442723322679677)(结构上用了deep stack，新的mrope与Video Timestamp，算法上用了Distillation的trick，sapo等)\n21. (MLLM Reward) [BaseReward: A Strong Baseline for Multimodal Reward Model](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1955620828617085143)(关于多模态奖励模型的一堆有用的trick)\n22. (MLLM) [InternVL3.5](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1943711475937031695)(InternVL3.5 技术报告速览:离线+在线RL有说法)\n23. (MLLM) [ERNIE 4.5 Technical Report](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1923373773127655901)(文心一言技术路线)\n24. (MLLM) [longvila scaling long-context visual language models for long videos](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1929152101721830183)(AI长视频RL新突破：英伟达发布LongVILA)\n25. (MLLM) [Skywork-R1V3 Technical Report](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1928058102290310188)(Skywork-R1V3 Technical Report解读，MMMU 76)\n26. (MLLM) [Kwai Keye-VL Technical Report](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1924429130553857058)(快手keye-vl，短视频理解，auto think，think with image)\n27. (MLLM) [GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1924064703946158968)(智谱多模态大模型GLM-4.1V-thining技术路线)\n28. (MLLM)[Seed1.5 VL](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.07062)(混合rule-based与ORM based的强化学习训练，sft-rl多步迭代)\n29. (MLLM)[MiMo VL](https:\u002F\u002Fwww.arxiv.org\u002Fabs\u002F2506.03569)(混合rule-based与ORM based的强化学习训练， GRPO)\n30. (MLLM)[SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis](https:\u002F\u002Fwww.chatpaper.ai\u002Fzh\u002Fdashboard\u002Fpaper\u002Fc013bdbb-f0e8-41b3-a595-a836d14b68ce)(通过可验证数据(rulse baed数据)合成扩展视觉推理能力)\n31. (Think with images) [DeepEyes: Incentivizing \"Thinking with Images\" via Reinforcement Learning](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1908543355161417216)(纯强化学习激发think with images的能力)\n32. (Agentic) [rStar2-Agent: Agentic Reasoning Technical Report](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1947981998569260594)(GRPO-RoC:轨迹质量过滤是agentic RL的关键)\n\n\n# Multimodal Large Language Models\n1. (S-Lab) [From Pixels to Words -- Towards Native Vision-Language Primitives at Scale](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1991924525370200332)(原生多模态新突破：390M 数据超越InternVL3)\n2. (Meta,Stanford) [Apollo: An Exploration of Video Understanding in Large Multimodal Models](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F13353334416)(什么是MLLM视频理解的关键因素)\n3. (Shanghai AI Lab) [Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F12309812997)(InternVL2.5技术细节-让开源多模态模型再进一步)\n4. (NVIDIA) [NVLM: Open Frontier-Class Multimodal LLMs](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F720542712)(三种不同的特征融合框架深度探索)\n5. (Allen Institute for AI) [Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F720542712)(本文的改进集中在数据侧，包括了一些数据合成的方法，开放了更高质量得多模态数据等)\n6. (MixtralAI) [Pixtral 12B](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F720542712)(12B接近Qwen2-VL 72B和Llama-3.2 90B水平)\n7. (Rhymes AI) [Aria: An Open Multimodal Native Mixture-of-Experts Mode](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F720542712)(细粒度混合专家（MoE）架构)\n8. (Apple) [MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F900354617)(apple：多模态大模型炼丹指南)\n9. (Hugging Face) [Building and better understanding vision-language models: insights and future directions](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F731680062)(Hugging Face：探索多模态大模型的最佳技术路线)\n10. (Alibaba) [Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F720542712)(精细的动态分辨率策略+多模态旋转位置嵌入)\n11. [LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2409.02889)(在单个A100 80GB GPU上可以处理近千张图像)\n12. [MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans?](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F717129017)(最难多模态Benchmark. QwenVL-2第一但未及格！)\n13. [VITA: Towards Open-Source Interactive Omni Multimodal LLM](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F714031459)(VITA : 首个开源支持自然人机交互的全能多模态大语言模型)\n14. [Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F703258020)(高效处理高分辨率图像的多模态大模型)\n15. [Matryoshka Multimodal Models](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F700906592)(如何在正确回答视觉问题的同时使用最少的视觉标记？)\n16. [Chameleon: Mixed-Modal Early-Fusion Foundation Models](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F698911049)(meta: 所有模态都回到token regreesion以达到灵活的理解\u002F生成)\n17. [Flamingo: a Visual Language Model for Few-Shot Learning](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(LLM每一层创建额外的block处理视觉信息)\n18. [BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(q-former融合视觉-语言信息)\n19. [InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(qformer+instruction tuning)\n20. [Visual Instruction Tuning](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(MLP对齐特征，gpt4v生成instruction tuning数据)\n21. [Improved Baselines with Visual Instruction Tuning](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(对于llava数据集以及模型大小的初步scaling)\n22. [LLaVA-NeXT: Improved reasoning, OCR, and world knowledge](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(分辨率*4，数据集更大)\n23. [Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(一种端到端的优化方案，通过轻量级适配器连接图像编码器和LLM)\n24. [MIMIC-IT: Multi-Modal In-Context Instruction Tuning](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)( MIMIC-IT包含多个图片或视频的输入数据，并支持多模态上下文信息)\n25. [LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(使用公开可用的OCR工具在LAION数据集的422K个文本丰富的图像上收集结果)\n26. [SVIT: Scaling up Visual Instruction Tuning](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(一个包含420万个视觉指导调整数据点的数据集)\n27. [Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(cross attention对齐特征，更大的第一阶段训练数据)\n28. [NExT-GPT: Any-to-Any Multimodal LLM](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(端到端通用的任意对任意MM-LLM（Multimodal-Large Language Model）系统)\n29. [InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(视觉信息的压缩采样)\n30. [CogVLM: Visual Expert for Pretrained Language Models](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(在LLM的各层添加visual expert，它具有独立的QKV和FFN相关的参数)\n31. [OtterHD: A High-Resolution Multi-modality Model](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(专门设计用于以细粒度精度解释高分辨率视觉输入)\n32. [Monkey : Image Resolution and Text Label Are Important Things for Large Multi-modal Models](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(Monkey模型提出了一种有效地提高输入分辨率的方法，最高可达 896 x 1344 像素)\n33. [LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(LLaMA-VID赋予现有框架支持长达一小时的视频，并通过额外的上下文标记推动了它们的上限)\n34. [MoE-LLaVA: Mixture of Experts for Large Vision-Language Models](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(解决了多模态稀疏学习中的性能下降问题)\n35. [LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(高效处理任何纵横比和高分辨率的图像)\n36. [Yi-VL](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(Yi-VL采用了LLaVA架构，经过全面的三阶段训练过程，以将视觉信息与Yi LLM的语义空间良好对齐：)\n37. [Mini-Gemini](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F693063778)(双视觉编码器，使用低分辨率的视觉编码器特征作为query，将高分辨率特征作为key 和value进行token mining)\n38. [Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F704246896)(采用了一组动态视觉tokens来统一表示图像和视频。使模型能够高效利用有限数量的视觉tokens，同时捕捉图像所需的空间细节和视频所需的全面时间关系。)\n39. [VILA: On Pre-training for Visual Language Models](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F704246896)(交错的预训练数据是有益的，而单纯的图像-文本对并非最佳选择。)\n40. [ST-LLM: Large Language Models Are Effective Temporal Learners](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F704246896)(ST-LLM提出了一种动态掩码策略，并设计了定制的训练目标。此外，针对特别长的视频，设计了一个全局-局部输入模块，以平衡效率和效果。)\n41. [Video-LLaVA: Learning United Visual Representation by Alignment Before Projection](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F704246896)(用视频特有的encoder提升视频理解能力而非image encoder)\n\n# BenchMark and Dataset\n1. [MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.21327)(三个维度评估多模态大模型reasoning能力)\n2. [MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans?](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F717129017)(最难多模态Benchmark. QwenVL-2第一但未及格！)\n3. [MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark](https:\u002F\u002Fhub.baai.ac.cn\u002Fpaper\u002Fbaeaa2a4-4374-4cf3-927e-82df61ec3e8e)(MMMU的进阶版，更注重图像的感知对问题的影响)\n4. [From Pixels to Prose: A Large Dataset of Dense Image Captions](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.10328)(1600万生成的image-text pair，利用尖端的视觉语言模型(Gemini 1.0 Pro Vision)进行详细和准确的描述。)\n5. [ShareGPT4Video: Improving Video Understanding and Generation with Better Captions](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F704246896)(40k from gpt4-v, 4814k生成于自己训练的模型)\n6. [OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2306.16527)(141 million web pages extracted from Common Crawl, 353 million associated images, and 115 billion text tokens)\n7. [Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.14565)(在数据层面，以细粒度片段级更正的形式收集人类反馈；在方法层面，我们提出了密集直接偏好优化(DDPO))\n8. [Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.07053)(在数据层面, 通过代码作为媒介合成抽象图表,并且 benchmarking 了当前多模态模型在抽象图的理解上的不足.)\n# Unify Multimodal Understanding and Generation\n1. [Chameleon: Mixed-Modal Early-Fusion Foundation Models](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F719475102)(Meta FAIR：“早期融合”的方法使得模型能够跨模态推理和生成真正的混合文档。)\n2. [Show-o: One Single Transformer to Unify Multimodal Understanding and Generation](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F719475102)(NUS&ByteDance：文本作为离散标记进行自回归建模，而连续图像像素则使用去噪扩散建模。)\n3. [Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F719475102)(Meta：采用了文本的下一个标记预测和图像的扩散作为目标函数,在不增加计算成本的前提下，实现了更好的模态整合与生成效果。)\n4. [VILA-U: a Unified Foundation Model Integrating Visual Understanding and Generation](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F785607305)(清华&MIT：统一视频理解与生成)\n5. [MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F858555788)(META：MOE是混合模态理解\u002F生成的最佳选择)\n6. [MIO: A Foundation Model on Multimodal Tokens](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F2186671721)(01AI: 四模态理解\u002F生成大一统)\n7. [Harmonizing Visual Text Comprehension and Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.16364)(ECNU&ByteDance：结合视觉编码器、LLM、图像解码器实现多模态输入输出)\n8. [SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.14396) (Tencent AI Lab：采用预训练的视觉分词器（如ViT）来统一图像理解和生成任务)\n9. [NExT-GPT: Any-to-Any Multimodal LLM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.05519)(NUS：使用预训练的编码器、扩散解码器和LLM，结合模态对齐训练和Lora指令微调实现any2any模态任务)\n10. [Any-to-Any Generation via Composable Diffusion](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.11846)(Microsoft：组合各种模态的扩散模型，实现多模态并行生成)\n11. [X-VILA: Cross-Modality Alignment for Large Language Model](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.19335)(Nvidia&HKUST：将单模编码器与大型语言模型（LLM）的输入对齐，以及将单模扩散解码器与LLM的输出对齐，实现跨模态的理解、推理和生成)\n12. [DreamLLM: Synergistic Multimodal Comprehension and Creation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.11499)(XJU&IIISCT：解决MLLMs在多模态理解与创造中的协同问题，直接在原始多模态空间中采样，生成语言和图像后验)\n13. [Jointly Training Large Autoregressive Multimodal Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.15564)(Meta AI：融合了现有的文本和图像生成模型，并引入了一种专门的、数据高效的指令调整策略)\n14. [VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.09251)(XJU&Tencent AI Lab：使用一个新的图像分词器-解码器框架将原始图像转换为连续的视觉嵌入序列，使用NTP训练目标实现图像文本统一预训练)\n15. [Emu:Generative pretraining in multimodality](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.05222)(BAAI&THU：一个基于Transformer的多模态基础模型采用统一的自回归训练目标，通过预测多模态序列中的下一个元素（无论是文本标记还是视觉嵌入）进行训练)\n16. [Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.03161)(PKU&快手：将视频分解为关键帧和运动向量，视频、图像和文本数据统一为1D离散标记)\n17. [Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.18814)(CUHK：使用视觉双编码器处理高分辨率图像，文本自回归生成，图像使用扩散模型生成)\n18. [World Model on Million-Length Video And Language With Blockwise RingAttention](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.08268)(UC Berkeley：使用VQGAN将图像\u002F视频离散化，理解生成统一为NTP任务，使用RingAttention、渐进式训练等技术将上下文窗口扩大到1M tokens)\n19. [Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.17172)(AI2&UIUC：将不同模态的输入和输出（如图像、文本、音频、动作等）标记化（tokenize）到一个共享的语义空间中，然后使用单一的编码器-解码器变换器模型进行处理)\n20. [AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.12226)(复旦：使用离散的标记来表示不同的模态（如图像、音乐、语音和文本）)\n21. [Write and Paint: Generative Vision-Language Models are Unified Modal Learners](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.07699)(HKUST&ByteDance：结合前缀语言建模和前缀图像建模的Dacinci模型)\n22. [Gemini: A family of highly capable multimodal models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.11805)(Google Gemini Team：解决跨图像、音频、视频和文本理解的任务中的高级推理和语言理解问题)\n23. [Minigpt-5: Interleaved vision-and-language generation via generative vokens](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.02239)(UCSC：引入生成性视觉标记（Generative Vokens）)\n24. [Mm-interleaved: Interleaved image-text generative modeling via multi-modal feature synchronizer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.10208)(Shanghai AI Lab：集成图像编码器、大型语言模型（LLM）和图像解码器)\n25. [OMCAT: Omni Context Aware Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.12109)(NVIDIA：跨模态时间理解，利用RoTE（Rotary Time Embeddings）通过嵌入绝对和相对时间信息到音频和视觉特征中)\n26. [Baichuan-Omni Technical Report](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.08565)(百川&西湖大学&浙大：全模态模型)\n27. [Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.13848)(DeepSeek-AI&HKU：针对多模态理解和多模态生成解耦视觉编码)\n28. [Emu3: Next-Token Prediction is All You Need](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.18869)(BAAI：视觉标记离散化，使用DPO进行对齐)\n29. [VITRON: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing](https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FVitron)(NUS&NTU：离散文本和连续信号的混合指令传递方法，像素级时空视觉-语言对比学习)(Neurips2024)\n# Alignment With Human Preference (MLLM)\n1. (CASIA) [MM-RLHF: The Next Step Forward in Multimodal LLM Alignment](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.10391)(全人工标注数据，新算法， 27个benchmark通过dpo全面提升)\n2. (USTC) [DAMA: Data- and Model-aware Alignment of Multi-modal LLMs)(https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.01943)(动态调整beta参数加速视觉dpo优化)\n3. (Apple) [Understanding Alignment in Multimodal LLMs: A Comprehensive Study](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F6762892397)(通过独立分析各个因素，探索不同的对齐方法对MLLMs性能的影响)\n4. [Aligning Large Multimodal Models with Factually Augmented RLHF](https:\u002F\u002Fllava-rlhf.github.io\u002F)\n5. [CLIP-DPO: Vision-Language Models as a Source of Preference for Fixing Hallucinations in LVLMs](https:\u002F\u002Fwww.arxiv.org\u002Fabs\u002F2408.10433)(使用预训练的 CLIP 模型对 LVLM 自生成的标题进行排序，以构建 DPO 的正负对)\n6. [ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models](https:\u002F\u002Fwww.arxiv.org\u002Fabs\u002F2409.09318)(选择了一种动态生成方法来创建一个 open-set benchmark，引入了开放集动态评估协议(ODE)，专门用于评估 MLLM 中的对象存在幻觉)\n7. [Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware Direct Preference Optimization](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.16839)(本文将消除幻觉视为一种模型偏好，使模型偏向于无幻觉输出，于是提出了一种对幻觉敏感的多模态DPO 策略 —— HA-DPO。我们还引入了句子级幻觉比率(SHR)，它不受固定类别和范围的限制，为多模态幻觉提供了广泛、细粒度和定量的测量)\n8. [Detecting and Preventing Hallucinations in Large Vision Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.06394)(为了便于自动检测幻觉，我们首先使用 InstructBLIP 的 VQA 响应构建了一个多样化的人工标记数据集 M-HalDetect，专注于在详细图像描述的子句级别上进行细粒度注释。在这个数据集上训练不同密度(句子级，子句子级)的多个奖励模型，用于幻觉检测。我们也使用细粒度直接偏好优化(FDPO)直接优化 InstructBLIP)\n9. [RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.17220)(同一个大模型生成多个回复，将回复按句拆分，之后转化为问句让开源模型回复准确度，将所有准确度相加，得到偏好数据，用于迭代DPO)\n10. [Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.15973)(我们提出了 Self-Improvement Modality Alignment(SIMA)，旨在通过自我完善机制进一步改善 LVLM 内视觉模态和语言模态之间的对齐)\n11. [MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.17637)(将无关的单图像数据拼接为序列、网格、画中画数据，通过注意力值在正确目标上的多少来选择偏好数据，经过过滤得到数据，用于DPO)\n12. [CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs](https:\u002F\u002Fopenreview.net\u002Fforum?id=7lpDn2MhM2)(为了使视觉信息对齐，引入了分层文本偏好优化模块，分别为回复级、片段级、token级偏好优化；同时引入了视觉偏好优化)\n13. [3D-CT-GPT++: Enhancing 3D Radiology Report Generation with Direct Preference Optimization and Large Vision-Language Models](https:\u002F\u002Fopenreview.net\u002Fforum?id=LzycEbgLoi)(将无关的单图像数据拼接为序列、网格、画中画数据，通过注意力值在正确目标上的多少来选择偏好数据，经过过滤得到数据，用于DPO)\n14. [MAVIS: Mathematical Visual Instruction Tuning with an Automatic Data Engine](https:\u002F\u002Fopenreview.net\u002Fforum?id=MnJzJ2gvuf)(首先通过对比学习来微调数学特定的视觉编码器，随后将该编码器与LLM对齐，之后，采用MAVIS-Instruct进行指令调整，最后，在MAVIS-Instruct中使用带有注释的CoT基本原理的DPO)\n15. [HomieBot: an Adaptive System for Embodied Mobile Manipulation in Open Environments](https:\u002F\u002Fopenreview.net\u002Fforum?id=NQTrARs2pz)(由100个复杂的日常任务组成，从Replica Challenge中抽取了100个不同的片段来构建场景并设计任务，只使用Replica Challenge的配置文件来构造场景。手动控制机器人完成所有任务，将执行过程分解为几个子任务，最终得到966个子任务。使用GPT-4将最终任务的文本描述和每个子任务的分析重新生成三次，将它们重写为具有相同含义但不同表达的文本，得到3720个SFT数据。通过替换部分内容得到10104个DPO数据)\n16. [InteractiveCOT: Aligning Dynamic Chain-of-Thought Planning for Embodied Decision-Making](https:\u002F\u002Fopenreview.net\u002Fforum?id=Y4iaDU4yMi)(首先使用开源数据集LEVI-Project\u002Fsft-data对llava-v1.6-mistral-7b进行sft微调，然后使用模型与环境进行交互，在这些交互过程中优化其CoT能力，并在训练期间实时监控性能)\n17. [vVLM: Exploring Visual Reasoning in VLMs against Language Priors](https:\u002F\u002Fopenreview.net\u002Fforum?id=lCqNxBGPp5)(通过扰动来破坏图像，同时保持文本(问题和答案)不变，从而构建被选中和被拒绝的偏好对。应用于图像的扰动包括语义编辑、高斯模糊和像素化)\n18. [AdPO: Enhancing the Adversarial Robustness of Large Vision-Language Models with Preference Optimization](https:\u002F\u002Fopenreview.net\u002Fforum?id=nbngu7H3ko)(通过PGD等迭代优化获得对抗图像（对抗性图像是通过在原始图像中引入微小的、几乎难以察觉的扰动来生成的），用原始图像与对抗图像生成对应的描述文本作为偏好数据进行DPO，同时引入了对抗性图像优化)\n19. [Enhancing Multimodal LLM for Detailed and Accurate Video Captioning using Multi-Round Preference Optimization](https:\u002F\u002Fopenreview.net\u002Fforum?id=ufi0WPTgWp)(首先在大型音频数据集上进行训练音频对齐器实现音频模态对齐，然后进行audio-visual SFT，之后应用基于mrDPO的RL，最后重生微调)\n20. [Aligning Visual Contrastive learning models via Preference Optimization](https:\u002F\u002Fopenreview.net\u002Fforum?id=wgRQ2WAORJ)(Step 1: Response generation. Step 2: Scoring. Step 3: Reward Preference. Iterative Improvement.)\n21. [SQuBa: Speech Mamba Language Model with Querying-Attention for Efficient Summarization](https:\u002F\u002Fopenreview.net\u002Fforum?id=zOMa82W1HV)(两阶段训练过程。在对准阶段，只有projector使用ASR任务进行训练。在微调阶段，LLM backbone and the projector都接受summarization任务的训练。微调结束后进行离线自生成DPO。)\n\n# Alignment With Human Preference (LLM)\n\n1. [ChatGLM-Math：Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F698983475)(ChatGLM-Math: Self-Critique迭代对齐显著提升数学能力)\n2. [Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F698782623)(大语言模型的多目标对齐)\n3. [Direct Preference Optimization: Your Language Model is Secretly a Reward Model](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F693163438)(直接偏好优化克服RLHF不稳定的问题)\n4. [KTO: Model Alignment as Prospect Theoretic Optimization](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F693163438)(不需要成对数据的偏好优化)\n5. [Direct Preference Optimization with an Offset](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F693163438)(带偏移的DPO, 要求首选响应和不受欢迎响应之间的可能性差异大于一个偏移值)\n6. [Contrastive preference learning: Learning from human feedback without reinforcement learning](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F693163438)(对比偏好学习（CPL）算法，该算法用于从偏好中学习最优策略而无需学习奖励函数，从而避免了对RL的需求)\n7. [Statistical Rejection Sampling Improves Preference Optimization](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F693163438)(使用拒绝抽样从目标最优策略中获取偏好数据，从而更准确地估计最优策略)\n8. [Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F693163438)(在所有实验中，PPO始终优于DPO。特别是在最具挑战性的代码竞赛任务中，PPO实现了最先进的结果)\n9. [Fine-tuning Aligned Language Models Compromises Safety](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F696707347)(微调对齐的语言模型会损害安全性)\n10. [ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002Flg7ueR9b-om0ecUEoT4x8w)(reward model, Rejective Fine-tuning, then DPO迭代提升模型数学性能)\n11. [SimPO: Simple Preference Optimization with a Reference-Free Reward](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F700438956)(length reg+去掉ref model)\n12. [towards analyzing and understanding the limitations of dpo: a theoretical perspective](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F701213691)(DPO的实际优化过程对SFT后的LLMs对齐能力的初始条件为什么敏感)\n13. [Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.11817)(表明迭代 DPO (iDPO)可以通过精心设计将 7B 模型的 LC win rate 增强到 GPT-4 水平)\n14. [Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.18629)(出了一种有效且经济的 pipeline 来收集成对数学问题偏好数据。引入了 Step-DPO，最大化下一个推理步骤正确的概率，最小化其错误的概率)\n15. [A Novel Soft Alignment Approach for Language Models with Explicit Listwise Rewards](https:\u002F\u002Fopenreview.net\u002Fforum?id=28TLorTMnP)(通过在现有强大的LLM的指导下对比多个数据点，将生成建模问题转化为分类任务。SPO损失可以看作是k类交叉熵损失，带有更强大的教师LLM提供的软标签)\n16. [Montessori-Instruct: Generate Influential Training Data Tailored for Student Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.14208)(教师模型根据使用Self-Instruct生成数据集，然后收集这些数据点的本地数据对学生模型的影响，收集到的数据偏好形成偏好数据集，然后用DPO更新教师模型，该过程可以迭代多轮，以根据学生更新的偏好不断改进教师)\n17. [Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts](https:\u002F\u002Fopenreview.net\u002Fforum?id=APDnmucgID)(作者认为相似的问题生成的答案应该也可以用来偏好学习，于是借助对比矩阵来研究此问题,提出了3种可适用的算法)\n","# 令人惊叹的多模态大语言模型\n这是一个用于整理与多模态大语言模型、大语言模型和扩散模型相关文章的仓库；大多数论文都链接到了**我的阅读笔记**。欢迎访问我的[个人主页](https:\u002F\u002Fyfzhang114.github.io\u002F)，并与我联系以进行合作和讨论。\n\n\n### 关于我 :high_brightness: \n我是中国科学院大学模式识别国家重点实验室的博士四年级学生，导师是谭铁牛教授([Tieniu Tan](http:\u002F\u002Fpeople.ucas.ac.cn\u002F~tantieniu))。我也曾在微软实习，导师是王井东教授([Jingdong Wang](https:\u002F\u002Fjingdongwang2017.github.io\u002F))，还在阿里巴巴达摩院工作过，与金榕教授([Rong Jin](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=CS5uNscAAAAJ&hl=zh-CN))共事。\n\n\n###  🔥 更新于2025年3月15日\n\n- [2025-03-15] 更新了近期几篇关于强化学习\u002F智能体强化学习、多模态大语言模型的研究，并附上了相应的阅读笔记。\n- 我们提出了[Skywork-R1V4：通过图像与深度研究的交织思考迈向智能体式多模态智能](https:\u002F\u002Fskywork-r1v4-lite.netlify.app\u002F) [[阅读笔记]](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1979848119471608282)，Skywork-R1V4仅需3万条SFT数据即可激活“与图像一起思考”、搜索、规划以及图像操作与搜索的交织能力，在3B激活参数下，其在所有感知和深度研究基准测试中均优于Gemini 2.5 Flash。\n- 我们提出了[Thyme：超越图像的思考](https:\u002F\u002Fthyme-vl.github.io\u002F) [[阅读笔记]](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1942175827547649963)，Thyme通过可执行代码自主生成并执行多样化的图像处理和计算操作，从而超越了传统的“与图像一起思考”范式。\n- 我们提出了[R1-Reward](https:\u002F\u002Fgithub.com\u002Fyfzhang114\u002Fr1_reward) [[阅读笔记]](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1903095194166997749)，这是一项综合性的项目，专注于通过强化学习提升多模态奖励建模能力。\n- 我们提出了[MME-Unify](https:\u002F\u002Fmme-unify.github.io\u002F)，这是一个针对统一多模态模型（GPT-4o、Gemini-2-flash、Janus-Pro、EMU3、Show-o、VILA-U）的综合性基准测试。\n- 我们提出了[MM-RLHF](https:\u002F\u002Fgithub.com\u002Fyfzhang114\u002FMM-RLHF)，这是一套包含12万条完全由人类标注的偏好数据的综合数据集，同时配备强大的奖励模型和训练算法，旨在提升MLLM对齐效果，并显著改善27项基准任务的表现。\n- 我们的基准测试[MME-RealWorld](https:\u002F\u002Fmme-realworld.github.io\u002F)已发布，这是迄今为止最困难、规模最大的纯人工标注图像感知基准测试。[[代码]](https:\u002F\u002Fgithub.com\u002Fyfzhang114\u002FMME-RealWorld) [[阅读笔记]](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F717129017)\n- 我们的模型[SliME](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.08487)已发布，这是一种高分辨率的MLLM，也可扩展至视频分析。[[代码]](https:\u002F\u002Fgithub.com\u002Fyfzhang114\u002FSliME) [[阅读笔记]](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F703258020)\n- 我们的论文[多模态大语言模型的去偏见方法](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.05262)已发布。[[代码]](https:\u002F\u002Fgithub.com\u002Fyfzhang114\u002FLLaVA-Align) [[阅读笔记]](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F686461442)\n\n# 目录（持续更新）\n- [令人惊叹的多模态大语言模型](#awesome-multimodal-large-language-models)\n- [目录（持续更新）](#table-of-contents-ongoing)\n- [综述与展望](#survey-and-outlook)\n- [多模态推理与与图像一起思考 (o3)](#multimodal-reasoning-and-think-with-images-o3)\n- [多模态大语言模型](#multimodal-large-language-models)\n- [基准测试与数据集](#benchmark-and-dataset)\n- [统一多模态理解和生成](#unify-multimodal-understanding-and-generation)\n- [与人类偏好对齐（MLLM）](#alignment-with-human-preference-mllm)\n- [与人类偏好对齐（LLM）](#alignment-with-human-preference-llm)\n\n\n# 综述与展望\n1. [近期有意思的10篇RL,Agentic RL论文-20260315]([https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1993422372854847195](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F2000512568998003045))\n2. [近期有意思的10篇RL,Agentic RL论文-20260307](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1999894934791153576)\n3. [万字长文总结Think with image最新进展 [1]](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1985055659776049744)\n4. [10篇有意思的近期论文，包含RL, agentic RL，LLM架构等](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1993422372854847195)\n5. [万字长文总结RL\u002Fon policy distillation的一些进展](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F2004506304065065334)\n6. [万字长文总结rubric reward最新进展](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F2004149762870502827)\n7. [万字长文总结多模态大模型评估最新进展](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F16815782175)\n8. [万字长文总结多模态大模型最新进展（Modality Bridging篇）](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)\n9. [万字长文总结多模态大模型最新进展（Video篇）](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F704246896)\n10. [将大语言模型与人类偏好对齐](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F693160839)\n11. [万字长文梳理RL最新进展：从policy gradient到REINFORCE++](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F24421624957)\n12. [万字长文总结多模态大模型后训练：从幻觉到o1-reasoning](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F31278114666)\n13. [万字长文总结多模态大模型最新进展(生成-理解大一统)](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F719475102)\n14. [大型推理模型的强化学习综述](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2509.08827)\n15. [LLM智能体强化学习的现状综述](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2509.02547)\n\n# 多模态推理与“以图思考”（o3）\n1. （以图思考）[Skywork-R1V4：通过穿插“以图思考”与深度研究，迈向具身多模态智能]（https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1979848119471608282）（3万条数据的SFT训练，无需RL即可激活“以图思考”。具备规划、文本\u002F图像搜索等功能。）\n2. （以图思考）[DeepEyesV2：迈向具身多模态模型]（https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1971564951412924453）（图像操作+搜索，具身MLLM）\n3. （以图思考）[Thyme：超越图像的思考]（https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1942175827547649963）（通过模型自身编码完成裁剪、旋转、对比度增强及复杂计算，是具身MLLM的初步探索。）\n4. （以图思考）[mini-o3：扩展视觉搜索中的推理模式与交互轮次]（https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.00676）（高质量数据集、基准测试与强化学习算法。）\n5. （以图思考）[以3D思考：基于有限视角的几何想象与空间推理]（https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1968671990681403733）（3D版的“以图思考”。）\n6. （以图思考）[潜在视觉推理]（https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1966113562880619373）（直接预测视觉token实现“以图思考”。）\n7. （奖励模型）[basereward：多模态奖励模型的强大基线]（https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1955620828617085143）（关于多模态奖励模型的一系列实用技巧。）\n8. （奖励模型）[R1-Reward：通过稳定强化学习训练多模态奖励模型]（https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1903095194166997749）（利用StableReinforce算法提升多模态奖励模型的建模效果。）\n9. （LLM）[Ministral 3]（https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1994760575448810344）（Ministral 3：极致的蒸馏与偏好对齐。）\n10. （LLM）[推出MiMo-V2-Flash]（https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1984919167934170020）（MiMo-V2-Flash逐帧学习版本。）\n11. （LLM）[Deepseek-Math-v2]（https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1977742909622211010）（为奖励模型训练一个奖励模型。）\n12. （LLM）[POLARIS-4B]（https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1930601703209665224）（秘诀：四大技巧助力RL炼丹。）\n13. （LLM）[超越80\u002F20法则：高熵少数token驱动LLM推理的有效强化学习]（https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1913555493412115868）（仅使用20%的token进行推理训练，效果甚至能超越全梯度更新。）\n14. （LLM）[ProRL：延长强化学习时间可拓展大语言模型的推理边界]（https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fyukio-2）（只要训练得够久、够稳定、够多样化，强化学习完全可以帮助模型发现全新的推理策略，突破原有的能力边界。）\n15. （LLM）[Thinker：学会快思考与慢思考]（https:\u002F\u002Fwww.themoonlight.io\u002Fzh\u002Freview\u002Fthinker-learning-to-think-fast-and-slow）（先给予token预算进行快思考，若答案错误再进行慢思考。）\n16. （LLM）[Critique-GRPO：借助自然语言与数值反馈推进LLM推理]（https:\u002F\u002Fwww.chatpaper.ai\u002Fzh\u002Fdashboard\u002Fpaper\u002F5be0c41c-29dc-4818-a870-e6d16eabc0d2）（在基于规则的奖励性能遇到瓶颈后，通过LLM生成critic还能进一步提升效果。）\n17. （LLM）[GLM 4.5]（https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1947992148415873229）（GLM4.5技术路线：多阶段RL是实现具身+推理的关键。）\n18. （MLLM）[Kimi K 2.5]（https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F2000719027690030326）（Kimi K2.5技术报告阅读笔记。）\n19. （MLLM）[Deepseek OCR V2]（https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F1999468225642119587）（如何评价DeepSeek-OCR-2模型？）\n20. （MLLM）[Qwen3-VL]（https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1977442723322679677）（结构上采用了deep stack、新型mrope与Video Timestamp；算法上则运用了Distillation等技巧，如sapo等。）\n21. （MLLM奖励）[BaseReward：多模态奖励模型的强大基线]（https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1955620828617085143）（关于多模态奖励模型的一系列实用技巧。）\n22. （MLLM）[InternVL3.5]（https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1943711475937031695）（InternVL3.5技术报告速览：离线+在线RL有讲究。）\n23. （MLLM）[ERNIE 4.5技术报告]（https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1923373773127655901）（文心一言的技术路线。）\n24. （MLLM）[longvila：面向长视频的长上下文视觉语言模型扩展]（https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1929152101721830183）（AI长视频RL新突破：英伟达发布LongVILA。）\n25. （MLLM）[Skywork-R1V3技术报告]（https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1928058102290310188）（解读Skywork-R1V3技术报告，MMMU 76分。）\n26. （MLLM）[快手Keye-VL技术报告]（https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1924429130553857058）（快手Keye-vl，短视频理解，自动思考，以图思考。）\n27. （MLLM）[GLM-4.1V-Thinking：迈向可扩展强化学习的通用多模态推理]（https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1924064703946158968）（智谱多模态大模型GLM-4.1V-thining技术路线。）\n28. （MLLM）[Seed1.5 VL]（https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.07062）（混合基于规则与ORM的强化学习训练，SFT-RL多步迭代。）\n29. （MLLM）[MiMo VL]（https:\u002F\u002Fwww.arxiv.org\u002Fabs\u002F2506.03569）（混合基于规则与ORM的强化学习训练，GRPO。）\n30. （MLLM）[SynthRL：通过可验证的数据合成扩展视觉推理能力]（https:\u002F\u002Fwww.chatpaper.ai\u002Fzh\u002Fdashboard\u002Fpaper\u002Fc013bdbb-f0e8-41b3-a595-a836d14b68ce）（通过可验证数据（基于规则的数据）合成来扩展视觉推理能力。）\n31. （以图思考）[DeepEyes：通过强化学习激励“以图思考”]（https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1908543355161417216）（纯强化学习激发“以图思考”的能力。）\n32. （具身）[rStar2-Agent：具身推理技术报告]（https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1947981998569260594）（GRPO-RoC：轨迹质量过滤是具身RL的关键。）\n\n# 多模态大语言模型\n1. (S-Lab) [从像素到文字——迈向大规模原生视觉-语言基础模型](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1991924525370200332)(原生多模态新突破：390M 数据超越InternVL3)\n2. (Meta,斯坦福) [Apollo：大型多模态模型中的视频理解探索](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F13353334416)(什么是MLLM视频理解的关键因素)\n3. (上海人工智能实验室) [通过模型、数据与推理时缩放扩展开源多模态模型的性能边界](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F12309812997)(InternVL2.5技术细节-让开源多模态模型再进一步)\n4. (NVIDIA) [NVLM：开放的前沿级多模态LLM](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F720542712)(三种不同的特征融合框架深度探索)\n5. (艾伦人工智能研究所) [Molmo和PixMo：用于最先进多模态模型的开放权重与开放数据](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F720542712)(本文的改进集中在数据侧，包括了一些数据合成的方法，开放了更高质量得多模态数据等)\n6. (MixtralAI) [Pixtral 12B](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F720542712)(12B接近Qwen2-VL 72B和Llama-3.2 90B水平)\n7. (Rhymes AI) [Aria：一个开放的多模态原生混合专家模型](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F720542712)(细粒度混合专家（MoE）架构)\n8. (苹果) [MM1.5：多模态LLM微调的方法、分析与洞见](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F900354617)(apple：多模态大模型炼丹指南)\n9. (Hugging Face) [构建并更好地理解视觉-语言模型：洞见与未来方向](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F731680062)(Hugging Face：探索多模态大模型的最佳技术路线)\n10. (阿里巴巴) [Qwen2-VL：在任意分辨率下增强视觉-语言模型的世界感知能力](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F720542712)(精细的动态分辨率策略+多模态旋转位置嵌入)\n11. [LongLLaVA：通过混合架构高效扩展多模态LLM至1000张图像](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2409.02889)(在单个A100 80GB GPU上可以处理近千张图像)\n12. [MME-RealWorld：你的多模态LLM能否挑战人类也难以应对的高分辨率真实场景？](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F717129017)(最难多模态Benchmark. QwenVL-2第一但未及格！)\n13. [VITA：迈向开源的交互式全能多模态LLM](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F714031459)(VITA : 首个开源支持自然人机交互的全能多模态大语言模型)\n14. [超越LLaVA-HD：深入高分辨率大型多模态模型](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F703258020)(高效处理高分辨率图像的多模态大模型)\n15. [套娃式多模态模型](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F700906592)(如何在正确回答视觉问题的同时使用最少的视觉标记？)\n16. [Chameleon：混合模态早期融合基础模型](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F698911049)(meta: 所有模态都回到token回归以实现灵活的理解\u002F生成)\n17. [Flamingo：用于少样本学习的视觉语言模型](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(LLM每一层创建额外的block处理视觉信息)\n18. [BLIP-2：利用冻结的图像编码器和大型语言模型进行语言-图像预训练](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(q-former融合视觉-语言信息)\n19. [InstructBLIP：通过指令微调迈向通用型视觉-语言模型](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(qformer+instruction tuning)\n20. [视觉指令微调](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(MLP对齐特征，gpt4v生成instruction tuning数据)\n21. [通过视觉指令微调改进基线](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(对于llava数据集以及模型大小的初步scaling)\n22. [LLaVA-NeXT：改进的推理能力、OCR与世界知识](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(分辨率*4，数据集更大)\n23. [廉价快捷：大型语言模型的高效视觉-语言指令微调](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(一种端到端的优化方案，通过轻量级适配器连接图像编码器和LLM)\n24. [MIMIC-IT：多模态上下文指令微调](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)( MIMIC-IT包含多个图片或视频的输入数据，并支持多模态上下文信息)\n25. [LLaVAR：增强文本丰富的图像理解的视觉指令微调](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(使用公开可用的OCR工具在LAION数据集的422K个文本丰富的图像上收集结果)\n26. [SVIT：扩大视觉指令微调规模](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(一个包含420万个视觉指导调整数据点的数据集)\n27. [Qwen-VL：一款多功能的视觉-语言模型，适用于理解、定位、文本阅读等功能](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(cross attention对齐特征，更大的第一阶段训练数据)\n28. [NExT-GPT：任意模态间的多模态LLM](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(端到端通用的任意对任意MM-LLM（Multimodal-Large Language Model）系统)\n29. [InternLM-XComposer：一款用于高级文本-图像理解和创作的视觉-语言大模型](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(视觉信息的压缩采样)\n30. [CogVLM：预训练语言模型的视觉专家](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(在LLM的各层添加visual expert，它具有独立的QKV和FFN相关的参数)\n31. [OtterHD：一款高分辨率多模态模型](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(专门设计用于以细粒度精度解释高分辨率视觉输入)\n32. [Monkey：图像分辨率和文本标签对大型多模态模型至关重要](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(Monkey模型提出了一种有效地提高输入分辨率的方法，最高可达 896 x 1344 像素)\n33. [LLaMA-VID：在大型语言模型中，一张图像相当于2个token](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(LLaMA-VID赋予现有框架支持长达一小时的视频，并通过额外的上下文标记推动了它们的上限)\n34. [MoE-LLaVA：大型视觉-语言模型的混合专家架构](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(解决了多模态稀疏学习中的性能下降问题)\n35. [LLaVA-UHD：能够感知任意宽高比及高分辨率图像的LMM](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(高效处理任何纵横比和高分辨率的图像)\n36. [Yi-VL](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F688215018)(Yi-VL采用了LLaVA架构，经过全面的三阶段训练过程，以将视觉信息与Yi LLM的语义空间良好对齐：)\n37. [Mini-Gemini](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F693063778)(双视觉编码器，使用低分辨率的视觉编码器特征作为query，将高分辨率特征作为key 和value进行token mining)\n38. [Chat-UniVi：统一视觉表示赋能大型语言模型的图像和视频理解能力](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F704246896)(采用了一组动态视觉tokens来统一表示图像和视频。使模型能够高效利用有限数量的视觉tokens，同时捕捉图像所需的空间细节和视频所需的全面时间关系。)\n39. [VILA：关于视觉-语言模型的预训练](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F704246896)(交错的预训练数据是有益的，而单纯的图像-文本对并非最佳选择。)\n40. [ST-LLM：大型语言模型是高效的时间序列学习者](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F704246896)(ST-LLM提出了一种动态掩码策略，并设计了定制的训练目标。此外，针对特别长的视频，设计了一个全局-局部输入模块，以平衡效率和效果。)\n41. [Video-LLaVA：通过投影前的对齐学习统一视觉表示](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F704246896)(用视频特有的encoder提升视频理解能力而非image encoder)\n\n# 基准测试与数据集\n1. [MME-Reasoning：多模态大模型逻辑推理能力的全面基准](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.21327)（从三个维度评估多模态大模型的推理能力）\n2. [MME-RealWorld：你的多模态大模型能否应对连人类都难以处理的高分辨率真实场景？](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F717129017)（最难的多模态基准测试。通义千问VL-2排名第一，但仍不及格！）\n3. [MMMU-Pro：更鲁棒的跨学科多模态理解基准](https:\u002F\u002Fhub.baai.ac.cn\u002Fpaper\u002Fbaeaa2a4-4374-4cf3-927e-82df61ec3e8e)（MMMU的进阶版，更加关注图像感知对问题解答的影响）\n4. [从像素到散文：大规模密集型图像描述数据集](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.10328)（包含1600万组生成的图像-文本对，利用最先进的视觉语言模型（Gemini 1.0 Pro Vision）进行详细且准确的描述。）\n5. [ShareGPT4Video：通过更优质的字幕提升视频理解和生成能力](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F704246896)（其中4万个来自GPT-4V，另有4814万个由自研模型生成）\n6. [OBELICS：开放的网络规模过滤型图文混合文档数据集](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2306.16527)（从Common Crawl中提取了1.41亿个网页、3.53亿张相关图片以及1150亿个文本标记）\n7. [通过稳健的指令微调缓解大型多模态模型的幻觉问题](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.14565)（在数据层面，以细粒度片段级更正的形式收集人类反馈；在方法层面，我们提出了密集直接偏好优化(DDPO)）\n8. [多模态自我指导：利用语言模型合成抽象图像与视觉推理指令](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.07053)（在数据层面, 通过代码作为媒介合成抽象图表,并且 benchmarking 了当前多模态模型在抽象图的理解上的不足.)\n# 统一多模态理解与生成\n1. [Chameleon：混合模态早期融合基础模型](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F719475102)（Meta FAIR：“早期融合”的方法使得模型能够跨模态推理和生成真正的混合文档。）\n2. [Show-o：一个单一的Transformer实现多模态理解与生成的统一](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F719475102)（NUS&ByteDance：文本作为离散标记进行自回归建模，而连续图像像素则使用去噪扩散建模。）\n3. [Transfusion：用一个多模态模型预测下一个标记并扩散生成图像](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F719475102)（Meta：采用了文本的下一个标记预测和图像的扩散作为目标函数,在不增加计算成本的前提下，实现了更好的模态整合与生成效果。）\n4. [VILA-U：集成视觉理解与生成的统一基础模型](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F785607305)（清华&MIT：统一视频理解与生成）\n5. [MoMa：基于模态感知专家混合的高效早期融合预训练](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F858555788)（META：MOE是混合模态理解\u002F生成的最佳选择）\n6. [MIO：基于多模态标记的基础模型](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F2186671721)（01AI：四模态理解\u002F生成大一统）\n7. [视觉文本理解与生成的协同优化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.16364)（ECNU&ByteDance：结合视觉编码器、LLM、图像解码器实现多模态输入输出）\n8. [SEED-X：具有统一多粒度理解与生成能力的多模态模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.14396) （腾讯AI实验室：采用预训练的视觉分词器（如ViT）来统一图像理解和生成任务）\n9. [NExT-GPT：任意模态之间的多模态大模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.05519)（NUS：使用预训练的编码器、扩散解码器和LLM，结合模态对齐训练和Lora指令微调实现any2any模态任务）\n10. [通过可组合扩散实现任意模态间的生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.11846)（微软：组合各种模态的扩散模型，实现多模态并行生成）\n11. [X-VILA：面向大型语言模型的跨模态对齐](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.19335)（Nvidia&HKUST：将单模编码器与大型语言模型（LLM）的输入对齐，以及将单模扩散解码器与LLM的输出对齐，实现跨模态的理解、推理和生成）\n12. [DreamLLM：协同的多模态理解与创造](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.11499)（XJU&IIISCT：解决MLLMs在多模态理解与创造中的协同问题，直接在原始多模态空间中采样，生成语言和图像后验）\n13. [联合训练大型自回归多模态模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.15564)（Meta AI：融合了现有的文本和图像生成模型，并引入了一种专门的、数据高效的指令调整策略）\n14. [VL-GPT：用于视觉与语言理解及生成的生成式预训练Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.09251)（XJU&腾讯AI实验室：使用一个新的图像分词器-解码器框架将原始图像转换为连续的视觉嵌入序列，使用NTP训练目标实现图像文本统一预训练）\n15. [Emu：多模态的生成式预训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.05222)（BAAI&THU：一个基于Transformer的多模态基础模型采用统一的自回归训练目标，通过预测多模态序列中的下一个元素（无论是文本标记还是视觉嵌入）进行训练）\n16. [Video-LaVIT：解耦视觉-运动标记的统一视频-语言预训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.03161)（PKU&快手：将视频分解为关键帧和运动向量，视频、图像和文本数据统一为1D离散标记）\n17. [Mini-Gemini：挖掘多模态视觉语言模型的潜力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.18814)（CUHK：使用视觉双编码器处理高分辨率图像，文本自回归生成，图像使用扩散模型生成）\n18. [基于百万长度视频与语言的世界模型，采用分块环形注意力机制](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.08268)（UC Berkeley：使用VQGAN将图像\u002F视频离散化，将理解与生成统一为NTP任务，使用RingAttention、渐进式训练等技术将上下文窗口扩大到1M tokens）\n19. [Unified-IO 2：扩展包含视觉、语言、音频和动作的自回归多模态模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.17172)（AI2&UIUC：将不同模态的输入和输出（如图像、文本、音频、动作等）标记化（tokenize）到一个共享的语义空间中，然后使用单一的编码器-解码器变换器模型进行处理）\n20. [AnyGPT：采用离散序列建模的统一多模态大模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.12226)（复旦：使用离散的标记来表示不同的模态（如图像、音乐、语音和文本））\n21. [书写与绘画：生成式视觉-语言模型是统一的模态学习者](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.07699)（HKUST&ByteDance：结合前缀语言建模和前缀图像建模的Dacinci模型）\n22. [Gemini：一系列高性能多模态模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.11805)（Google Gemini团队：解决跨图像、音频、视频和文本理解任务中的高级推理和语言理解问题）\n23. [Minigpt-5：通过生成性视觉标记实现视觉与语言的交错生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.02239)（UCSC：引入生成性视觉标记（Generative Vokens））\n24. [Mm-interleaved：通过多模态特征同步器实现图像-文本交错生成建模](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.10208)（上海人工智能实验室：集成图像编码器、大型语言模型（LLM）和图像解码器）\n25. [OMCAT：全情境感知Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.12109)（NVIDIA：跨模态时间理解，利用RoTE（Rotary Time Embeddings）通过嵌入绝对和相对时间信息到音频和视觉特征中）\n26. [百川-Omni技术报告](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.08565)（百川&西湖大学&浙大：全模态模型）\n27. [Janus：解耦视觉编码以实现多模态理解与生成的统一](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.13848)（DeepSeek-AI&HKU：针对多模态理解和多模态生成解耦视觉编码）\n28. [Emu3：只需预测下一个标记即可](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.18869)（BAAI：视觉标记离散化，使用DPO进行对齐）\n29. [VITRON：统一像素级视觉语言大模型，用于理解、生成、分割、编辑](https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FVitron)（NUS&NTU：混合离散文本和连续信号的指令传递方法，进行像素级时空视觉-语言对比学习）（NeurIPS2024）\n\n# 与人类偏好对齐（MLLM）\n1. （中科院）[MM-RLHF：多模态LLM对齐的下一步进展]（https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.10391）（全人工标注数据，新算法，27个基准测试通过DPO全面提升）\n2. （中国科学技术大学）[DAMA：多模态LLM的数据与模型感知对齐]（https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.01943）（动态调整beta参数加速视觉DPO优化）\n3. （苹果公司）[理解多模态LLM中的对齐：一项综合研究]（https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F6762892397）（通过独立分析各个因素，探索不同的对齐方法对MLLMs性能的影响）\n4. [使用事实增强的RLHF对齐大型多模态模型]（https:\u002F\u002Fllava-rlhf.github.io\u002F）\n5. [CLIP-DPO：视觉-语言模型作为偏好来源，用于修复LVLM中的幻觉]（https:\u002F\u002Fwww.arxiv.org\u002Fabs\u002F2408.10433）（使用预训练的CLIP模型对LVLM自生成的标题进行排序，以构建DPO的正负样本对）\n6. [ODE：多模态大型语言模型中幻觉的开放集评估]（https:\u002F\u002Fwww.arxiv.org\u002Fabs\u002F2409.09318）（选择了一种动态生成方法来创建一个开放集基准测试，引入了开放集动态评估协议(ODE)，专门用于评估MLLM中对象存在幻觉的情况）\n7. [超越幻觉：通过幻觉感知直接偏好优化提升LVLM]（https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.16839）（本文将消除幻觉视为一种模型偏好，使模型偏向于无幻觉输出，于是提出了一种对幻觉敏感的多模态DPO策略——HA-DPO。我们还引入了句子级幻觉比率(SHR)，它不受固定类别和范围的限制，为多模态幻觉提供了广泛、细粒度和定量的测量）\n8. [检测并预防大型视觉语言模型中的幻觉]（https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.06394）（为了便于自动检测幻觉，我们首先使用InstructBLIP的VQA响应构建了一个多样化的人工标记数据集M-HalDetect，专注于在详细图像描述的子句级别上进行细粒度注释。在这个数据集上训练不同密度（句子级、子句子级）的多个奖励模型，用于幻觉检测。我们也使用细粒度直接偏好优化(FDPO)直接优化InstructBLIP）\n9. [RLAIF-V：通过开源AI反馈对齐MLLM，提升GPT-4V的可信度]（https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.17220）（同一个大模型生成多个回复，将回复按句拆分，之后转化为问句让开源模型回复准确度，将所有准确度相加，得到偏好数据，用于迭代DPO）\n10. [通过自我完善提升大型视觉语言模型中的视觉-语言模态对齐]（https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.15973）（我们提出了Self-Improvement Modality Alignment(SIMA)，旨在通过自我完善机制进一步改善LVLM内视觉模态和语言模态之间的对齐）\n11. [MIA-DPO：面向大型视觉语言模型的多图像增强直接偏好优化]（https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.17637）（将无关的单图像数据拼接为序列、网格、画中画数据，通过注意力值在正确目标上的多少来选择偏好数据，经过过滤得到数据，用于DPO）\n12. [CHiP：多模态LLM的跨模态层次化直接偏好优化]（https:\u002F\u002Fopenreview.net\u002Fforum?id=7lpDn2MhM2）（为了使视觉信息对齐，引入了分层文本偏好优化模块，分别为回复级、片段级、token级偏好优化；同时引入了视觉偏好优化）\n13. [3D-CT-GPT++：利用直接偏好优化和大型视觉语言模型提升3D放射科报告生成]（https:\u002F\u002Fopenreview.net\u002Fforum?id=LzycEbgLoi）（将无关的单图像数据拼接为序列、网格、画中画数据，通过注意力值在正确目标上的多少来选择偏好数据，经过过滤得到数据，用于DPO）\n14. [MAVIS：基于自动数据引擎的数学视觉指令微调]（https:\u002F\u002Fopenreview.net\u002Fforum?id=MnJzJ2gvuf）（首先通过对比学习来微调数学特定的视觉编码器，随后将该编码器与LLM对齐，之后，采用MAVIS-Instruct进行指令调整，最后，在MAVIS-Instruct中使用带有注释的CoT基本原理的DPO）\n15. [HomieBot：开放环境中具身移动操作的自适应系统]（https:\u002F\u002Fopenreview.net\u002Fforum?id=NQTrARs2pz）（由100个复杂的日常任务组成，从Replica Challenge中抽取了100个不同的片段来构建场景并设计任务，只使用Replica Challenge的配置文件来构造场景。手动控制机器人完成所有任务，将执行过程分解为几个子任务，最终得到966个子任务。使用GPT-4将最终任务的文本描述和每个子任务的分析重新生成三次，将它们重写为具有相同含义但不同表达的文本，得到3720个SFT数据。通过替换部分内容得到10104个DPO数据）\n16. [InteractiveCOT：具身决策中的动态思维链规划对齐]（https:\u002F\u002Fopenreview.net\u002Fforum?id=Y4iaDU4yMi）（首先使用开源数据集LEVI-Project\u002Fsft-data对llava-v1.6-mistral-7b进行sft微调，然后使用模型与环境进行交互，在这些交互过程中优化其CoT能力，并在训练期间实时监控性能）\n17. [vVLM：在对抗语言先验的情况下探索VLM中的视觉推理]（https:\u002F\u002Fopenreview.net\u002Fforum?id=lCqNxBGPp5）（通过扰动来破坏图像，同时保持文本（问题和答案）不变，从而构建被选中和被拒绝的偏好对。应用于图像的扰动包括语义编辑、高斯模糊和像素化）\n18. [AdPO：利用偏好优化提升大型视觉语言模型的对抗鲁棒性]（https:\u002F\u002Fopenreview.net\u002Fforum?id=nbngu7H3ko）（通过PGD等迭代优化获得对抗图像（对抗性图像是通过在原始图像中引入微小的、几乎难以察觉的扰动来生成的），用原始图像与对抗图像生成对应的描述文本作为偏好数据进行DPO，同时引入了对抗性图像优化）\n19. [利用多轮偏好优化提升多模态LLM的精细准确视频字幕生成能力]（https:\u002F\u002Fopenreview.net\u002Fforum?id=ufi0WPTgWp）（首先在大型音频数据集上进行训练音频对齐器实现音频模态对齐，然后进行audio-visual SFT，之后应用基于mrDPO的RL，最后重生微调）\n20. [通过偏好优化对齐视觉对比学习模型]（https:\u002F\u002Fopenreview.net\u002Fforum?id=wgRQ2WAORJ）（步骤1：生成回应。步骤2：评分。步骤3：奖励偏好。迭代改进。）\n21. [SQuBa：具有查询注意力的语音Mamba语言模型，用于高效摘要生成]（https:\u002F\u002Fopenreview.net\u002Fforum?id=zOMa82W1HV）（两阶段训练过程。在对准阶段，只有projector使用ASR任务进行训练。在微调阶段，LLM backbone和the projector都接受summarization任务的训练。微调结束后进行离线自生成DPO。）\n\n# 与人类偏好对齐（LLM）\n\n1. [ChatGLM-Math：通过自我批判流水线提升大语言模型的数学解题能力](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F698983475)（ChatGLM-Math: 自我批判迭代对齐显著提升数学能力）\n2. [超越“一种偏好适用于所有”的对齐：多目标直接偏好优化](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F698782623)（大语言模型的多目标对齐）\n3. [直接偏好优化：你的语言模型其实是个奖励模型](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F693163438)（直接偏好优化克服RLHF不稳定的问题）\n4. [KTO：将模型对齐视为前景理论优化](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F693163438)（不需要成对数据的偏好优化）\n5. [带有偏移的直接偏好优化](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F693163438)（带偏移的DPO, 要求首选响应和不受欢迎响应之间的可能性差异大于一个偏移值）\n6. [对比偏好学习：无需强化学习即可从人类反馈中学习](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F693163438)（对比偏好学习（CPL）算法，该算法用于从偏好中学习最优策略而无需学习奖励函数，从而避免了对RL的需求）\n7. [统计拒绝采样改进偏好优化](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F693163438)（使用拒绝抽样从目标最优策略中获取偏好数据，从而更准确地估计最优策略）\n8. [对于LLM对齐，DPO是否优于PPO？一项全面研究](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F693163438)（在所有实验中，PPO始终优于DPO。特别是在最具挑战性的代码竞赛任务中，PPO实现了最先进的结果）\n9. [微调对齐的语言模型会损害安全性](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F696707347)（微调对齐的语言模型会损害安全性）\n10. [ChatGLM-Math：通过自我批判流水线提升大语言模型的数学解题能力](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002Flg7ueR9b-om0ecUEoT4x8w)（先用奖励模型训练，再进行拒绝式微调，最后通过DPO迭代提升模型数学性能）\n11. [SimPO：无参考奖励的简单偏好优化](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F700438956)（长度正则化+去掉参考模型）\n12. [关于分析和理解DPO局限性的理论视角](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F701213691)（DPO的实际优化过程为何对SFT后LLMs对齐能力的初始条件如此敏感）\n13. [迭代长度正则化的直接偏好优化：以7B语言模型提升至GPT-4水平为例](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.11817)（表明迭代DPO (iDPO)可以通过精心设计将7B模型的LC胜率提升到GPT-4水平）\n14. [Step-DPO：针对LLM长链推理的分步偏好优化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.18629)（提出了一种有效且经济的流水线来收集成对数学问题偏好数据。引入了Step-DPO，旨在最大化下一个推理步骤正确的概率，同时最小化其出错的概率）\n15. [一种基于显式列表式奖励的语言模型新型软对齐方法](https:\u002F\u002Fopenreview.net\u002Fforum?id=28TLorTMnP)（通过在现有强大LLM的指导下对比多个数据点，将生成建模问题转化为分类任务。SPO损失可以看作是k类交叉熵损失，带有更强大的教师LLM提供的软标签）\n16. [蒙特梭利指导：生成专为学生学习定制的影响性训练数据](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.14208)（教师模型根据使用Self-Instruct生成的数据集，然后收集这些数据点的本地数据对学生模型的影响，收集到的数据偏好形成偏好数据集，再用DPO更新教师模型，这一过程可迭代多轮，以根据学生更新的偏好不断改进教师）\n17. [相对偏好优化：通过对比相同与不同提示下的响应来增强LLM对齐](https:\u002F\u002Fopenreview.net\u002Fforum?id=APDnmucgID)（作者认为相似问题生成的答案也可以用于偏好学习，于是借助对比矩阵来研究此问题,提出了3种可适用的算法）","# Awesome-Multimodal-Large-Language-Models 快速上手指南\n\n`Awesome-Multimodal-Large-Language-Models` 并非一个可直接安装的软件库或框架，而是一个由中科院博士生维护的**开源论文与资源索引仓库**。它系统性地整理了多模态大语言模型（MLLM）、大语言模型（LLM）及扩散模型（Diffusion Models）的前沿研究、技术报告、基准测试（Benchmark）及数据集。\n\n本指南旨在帮助开发者快速利用该仓库获取最新的技术资讯、阅读笔记及相关项目的代码链接。\n\n## 环境准备\n\n由于本项目本质为资源列表，无需特定的深度学习环境即可浏览内容。但若要运行仓库中链接的具体模型（如 Skywork-R1V4, SliME, Qwen2-VL 等），建议准备以下基础环境：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04+) 或 macOS\n*   **浏览器**: 任意现代浏览器（用于访问 GitHub 页面及知乎阅读笔记）\n*   **可选开发环境** (用于复现链接中的具体模型):\n    *   Python 3.8+\n    *   PyTorch 2.0+\n    *   CUDA 11.8+ (如需本地部署推理)\n    *   Git\n\n## 安装步骤\n\n你不需要通过 `pip` 或 `conda` 安装此工具，只需克隆仓库到本地即可随时查阅更新。\n\n```bash\n# 1. 克隆仓库到本地\ngit clone https:\u002F\u002Fgithub.com\u002Fyfzhang114\u002FAwesome-Multimodal-Large-Language-Models.git\n\n# 2. 进入目录\ncd Awesome-Multimodal-Large-Language-Models\n\n# 3. (可选) 保持最新状态\ngit pull origin main\n```\n\n> **提示**：国内用户若遇到克隆速度慢的问题，可使用 Gitee 镜像（如有）或配置 Git 代理加速。\n\n## 基本使用\n\n本仓库的核心价值在于其分类清晰的**目录结构**和作者提供的**深度阅读笔记**。以下是三种最高效的使用方式：\n\n### 1. 在线浏览最新进展\n直接访问 GitHub 仓库页面，查看 `README.md` 中的更新日志（Updated 2025-03-15）。重点关注带有 `🔥` 标记的最新研究，例如：\n*   **Skywork-R1V4**: 仅需 30K SFT 数据即可激活“图像思考”能力的智能体模型。\n*   **Thyme**: 超越传统图像思考，通过代码自主执行图像处理的新范式。\n*   **MME-Unify \u002F MME-RealWorld**: 最新的统一多模态基准测试与现实世界高难度评测集。\n\n### 2. 查阅中文深度解读\n作者为绝大多数收录的论文撰写了详细的中文阅读笔记（托管于知乎）。\n*   **使用方法**：在 README 中找到感兴趣的论文标题，点击紧随其后的 `[[Reading Notes]]` 链接。\n*   **示例**：想了解多模态奖励模型的最新技巧，可点击 `[BaseReward]` 旁的笔记链接，获取关于多模态 Reward Model 的实用 Trick 总结。\n\n### 3. 定位具体项目代码\n该仓库是通往各个具体开源模型的门户。\n*   **使用方法**：在列表中查找目标模型（如 `SliME`, `R1-Reward`, `LLaVA-Align`），点击 `[[Code]]` 链接跳转至对应的 GitHub 仓库。\n*   **后续操作**：跳转后，请参照各子项目独立的 `README` 进行具体的环境配置和模型推理\u002F训练。\n\n### 4. 按主题检索\n利用仓库自带的目录（Table of Contents）快速定位研究领域：\n*   **Survey and Outlook**: 综述与未来展望（含 RL、Agentic RL 长文总结）。\n*   **Multimodal Reasoning & Think with Images**: 多模态推理与“图像思考”系列（o3 相关）。\n*   **BenchMark and Dataset**: 最新的评测基准与数据集。\n*   **Alignment With Human Preference**: 人类偏好对齐（RLHF\u002FRLAIF）相关研究。\n\n通过这种方式，你可以迅速构建起对多模态大模型领域从理论基础到前沿应用的完整知识图谱。","某高校实验室的博士生团队正致力于研发新一代多模态大模型，急需追踪最新的“图像思维”推理架构与人类偏好对齐数据以突破性能瓶颈。\n\n### 没有 Awesome-Multimodal-Large-Language-Models 时\n- **信息检索低效**：研究人员需在 arXiv、GitHub 和知乎等多个平台手动筛选海量论文，难以快速定位如 Skywork-R1V4 或 Thyme 等前沿成果。\n- **核心逻辑难懂**：面对复杂的代理强化学习（Agentic RL）和新颖的“交错图像思考”机制，缺乏深度的解读笔记，导致复现思路模糊。\n- **资源分散缺失**：关键的基准测试（如 MME-RealWorld）和高质量标注数据集（如 MM-RLHF）散落在不同仓库，整理对齐工作耗时数周。\n- **技术视野受限**：难以系统性地掌握从多模态理解到生成统一模型的全链路进展，容易遗漏如 SliME 高分辨率视频分析等关键突破。\n\n### 使用 Awesome-Multimodal-Large-Language-Models 后\n- **一站式获取前沿**：直接通过分类目录锁定最新更新的 RL 与多模态研究，瞬间获取 Skywork-R1V4 等模型的论文链接及作者亲撰的阅读笔记。\n- **深度洞察加速**：借助详细的中文解读笔记，快速吃透\"Think Beyond Images\"等复杂范式的技术细节，将理论转化为可执行的代码逻辑。\n- **资源即时可用**：一键直达 MME-Unify 基准测试代码和 120K 条人类偏好数据集，大幅缩短数据清洗与环境搭建周期，立即启动训练。\n- **体系化知识构建**：依托清晰的综述与展望板块，迅速建立从底层去偏算法到上层应用评估的完整知识图谱，精准指导实验方向。\n\nAwesome-Multimodal-Large-Language-Models 将原本数周的文献调研与资源整理工作压缩至数小时，让研究者能专注于核心算法的创新与落地。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyfzhang114_Awesome-Multimodal-Large-Language-Models_24d8ecc0.png","yfzhang114","Yi-Fan Zhang","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fyfzhang114_7c5f6c92.jpg","The final year Ph.D. student @CASIA, NLPR, advised by Prof. Tieniu Tan. Formerly @microsoft Research Asia and @Alibaba DAMO Academy.","State Key Laboratory of Pattern Recognition","Haidian Beijing",null,"https:\u002F\u002Fyfzhang114.github.io\u002F","https:\u002F\u002Fgithub.com\u002Fyfzhang114",1057,41,"2026-04-03T07:54:34",1,"","未说明",{"notes":92,"python":90,"dependencies":93},"该仓库（Awesome-Multimodal-Large-Language-Models）是一个多模态大模型、大语言模型及扩散模型相关论文和阅读笔记的整理列表，并非一个可直接运行的软件工具或代码库。因此，README 中未包含任何关于操作系统、GPU、内存、Python 版本或依赖库的安装运行环境需求。用户若需运行列表中提到的具体模型（如 Skywork-R1V4, Thyme, SliME 等），需前往各模型对应的独立代码仓库查看其特定的环境配置要求。",[],[26,14,54],"2026-03-27T02:49:30.150509","2026-04-06T08:52:25.505509",[],[]]