Awesome-LLMs-meet-Multimodal-Generation

546 30 非常简单 1 次阅读昨天图像开发框架视频音频语言模型其他

AI 解读由 AI 自动生成，仅供参考

Awesome-LLMs-meet-Multimodal-Generation 是一个专注于“大语言模型（LLM）与多模态生成”领域的精选论文资源库。它系统性地整理了利用大语言模型进行图像、视频、3D 内容以及音频（含语音、音乐）生成与编辑的前沿学术成果。

在 AI 技术快速迭代的当下，研究人员往往难以从海量文献中精准定位到结合 LLM 推理能力与多模态生成的关键论文。Awesome-LLMs-meet-Multimodal-Generation 正是为了解决这一痛点而生，它将分散的研究成果按模态（如图像、视频）、任务类型（生成、编辑、智能体）以及技术路线（基于 LLM 或非 LLM）进行了细致分类，并提供了关于安全性、数据集及基准测试的全面综述。

该资源库特别适合人工智能领域的研究人员、算法工程师及技术开发者使用。无论是希望追踪最新学术动态的学者，还是正在寻找技术灵感以构建多模态应用的专业人士，都能从中获益。其独特亮点在于不仅收录了纯 LLM 驱动的方法，还对比了传统方案，并支持通过作者名、标签（如“交互式”、“人体运动生成”）等多种方式快速检索论文，极大地提升了文献调研的效率。作为一个开放社区项目，它也欢迎全球开发者共同贡献，是探索大模型如何赋能视觉与听觉内容创作的宝贵指南。

使用场景

某游戏工作室的技术美术团队正致力于开发一款基于玩家语音指令实时生成 3D 角色与背景音效的原型系统，急需整合最新的多模态生成技术。

没有 Awesome-LLMs-meet-Multimodal-Generation 时

文献检索如大海捞针：团队需要在 arXiv、GitHub 和各类会议论文集中手动筛选，难以区分哪些是真正基于 LLM 驱动的 3D 或音频生成方案，哪些仍是传统的 CLIP/T5 架构。
技术选型盲目试错：由于缺乏对"LLM-based"与"Non-LLM-based"方法的清晰分类，开发人员容易误选不适合语音交互场景的模型，导致原型开发周期延长数周。
多模态协同困难：在寻找能同时处理“语音输入 +3D 输出 + 音频反馈”的联合生成论文时，往往只能找到单一模态的研究，缺乏系统性的跨模态代理（Multimodal Agents）参考。
前沿动态滞后：无法快速定位如"I Think, Therefore I Diffuse"这类最新发表的关于扩散模型上下文推理的关键论文，错失提升生成逻辑性的机会。

使用 Awesome-LLMs-meet-Multimodal-Generation 后

精准定位技术路线：利用仓库清晰的目录结构，团队直接锁定"3D Generation"和"Audio Generation"下的"LLM-based"板块，瞬间过滤掉非目标架构的旧方案。
高效匹配具体需求：通过 ctrl+F 搜索作者或利用 customization、interactive 等标签，迅速找到了支持语音交互且具备编辑能力的 3D 生成论文，大幅缩短调研时间。
构建完整生成链路：参考"Generation with Multiple Modalities"章节，团队成功组合了最新的 LLM 驱动方案，实现了从语音指令到 3D 资产及配套音效的一体化生成流程。
紧跟学术最前沿：仓库每日更新的列表让团队第一时间掌握了 2025 年最新的扩散模型推理机制，将其应用于优化角色生成的逻辑一致性上。

Awesome-LLMs-meet-Multimodal-Generation 将原本需要数周的碎片化文献调研压缩至数小时，为多模态创意应用提供了最权威的技术导航图。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库是一个综述（Survey）列表，汇集了关于“大语言模型与多模态生成/编辑”相关的论文、代码库和项目页面链接，本身不是一个可直接运行的单一软件工具。因此，README 中未包含具体的操作系统、GPU、内存、Python 版本或依赖库的安装要求。用户若需运行列表中提到的具体项目（如 ThinkDiff, Show-o, VILA-U 等），需分别前往对应的子项目仓库查看其独立的环境配置说明。

python未说明

Awesome-LLMs-meet-Multimodal-Generation hero image

快速开始

大型语言模型与多模态生成及编辑：综述

🤗 引言

本仓库包含一份精心整理的“大型语言模型与多模态生成”相关资源列表。这里的模态包括视觉（如图像、视频和3D）以及音频（如声音、语音和音乐）。
我们欢迎对本仓库的任何贡献和建议，也欢迎添加您自己的研究成果。请随时提交拉取请求或留下您的评论！！

📋 目录

🤗 引言
📋 目录
💘 小贴士
📍 多模态生成
📍 多模态编辑
📍 多模态智能体
📍 LLM驱动的多模态理解
📍 多模态LLM安全
📍 相关综述
- LLM
- 视觉
👨‍💻 团队
😉 引用
⭐️ 星标历史

💘 小贴士

✅ 通过目录搜索论文：直接点击目录内容，选择您感兴趣的研究领域，即可浏览相关论文。
✅ 通过作者姓名搜索论文：您可以使用 ctrl + F 快捷键并输入作者姓名来查找特定作者的论文。搜索时，作者下拉列表会自动展开。
✅ 通过标签搜索论文：您还可以通过以下标签搜索相关论文：customization、interactive、human motion generation、tokenizer。（更多标签正在持续更新中）

📍 多模态生成

图像生成

🔅 基于LLM

我思故我扩散：在扩散模型中实现多模态上下文推理（2025年2月12日）
米振兴、王冠杰、钱国成等
米振兴、王冠杰、钱国成、叶汉荣、刘润涛、谢尔盖·图利亚科夫、克菲尔·阿伯曼、徐丹
MetaMorph：通过指令微调实现多模态理解和生成（2024年12月18日）
童升邦、范大卫、朱嘉辰等
童升邦、范大卫、朱嘉辰、熊云阳、陈新磊、考斯图夫·辛哈、迈克尔·拉巴特、扬·勒丘恩、谢赛宁、刘壮
X-Prompt：迈向自回归视觉语言基础模型中的通用上下文图像生成（2024年12月2日）
孙泽义、储子洋、张攀等
孙泽义、储子洋、张攀、吴彤、董晓艺、臧宇航、熊元俊、林大华、王佳琪
Cosmos Tokenizer：一套图像和视频神经分词器（2024年11月6日）
菲茨姆·雷达、顾金伟、刘贤等
菲茨姆·雷达、顾金伟、刘贤、葛松伟、王廷春、王浩翔、刘明宇
 tokenizer
【ICLR 2025 Spotlight】稀有到常见：借助LLM指导，在罕见概念上释放扩散模型的组合生成能力（2024年10月29日）
朴东民、金世彬、文泰洪等
朴东民、金世彬、文泰洪、金珉奎、李康旭、曹在雄
ElasticTok：面向图像和视频的自适应分词（2024年10月10日）
威尔逊·颜、马泰·扎哈里亚、沃洛迪米尔·姆尼赫等
威尔逊·颜、马泰·扎哈里亚、沃洛迪米尔·姆尼赫、皮特·阿贝尔、亚历山德拉·福斯特、刘浩
 tokenizer
DART：用于可扩展文本到图像生成的去噪自回归Transformer（2024年10月10日）
贾涛·顾、王宇阳、张一哲等
贾涛·顾、王宇阳、张一哲、张启航、张丁怀、纳夫迪普·贾特利、乔什·萨斯金德、翟双飞
VILA-U：整合视觉理解和生成的统一基础模型（2024年9月6日）
吴业成、张卓洋、陈俊宇等
吴业成、张卓洋、陈俊宇、唐浩天、李大成、方云昊、朱立耕、谢恩泽、尹宏旭、李毅、韩松、陆瑶
OmniTokenizer：用于视觉生成的联合图像-视频分词器（2024年6月13日）
王俊科、江毅、袁泽寰等
王俊科、江毅、袁泽寰、彭彬悦、吴祖轩、蒋宇刚
 tokenizer
InstantUnify：将多模态LLM集成到扩散模型中（2024年8月）
王奇勋、白旭、王睿等
王奇勋、白旭、王睿、王浩凡
Show-o：一个单一Transformer统一多模态理解和生成（2024年8月22日）
谢金恒、毛伟佳、白泽辰等
谢金恒、毛伟佳、白泽辰、大卫·张俊豪、王伟浩、林庆鸿、顾宇超、陈志杰、杨振亨、郑守迈
图像文本化：创建准确且详细图像描述的自动化框架（2024年6月11日）
皮仁杰、张建树、张继鹏等
皮仁杰、张建树、张继鹏、潘锐、陈哲凯、张彤
T2S-GPT：基于动态向量量化，从文本自动生成手语（2024年6月11日）
[ACL 2024] 尹傲雄、李浩源、沈凯等
尹傲雄、李浩源、沈凯、汤思亮、庄玉婷
通过多模态提示进行开放世界人-物交互检测（2024年6月11日）
杨杰、李炳良、曾爱玲等
杨杰、李炳良、曾爱玲、张雷、张瑞茂
常识-T2I挑战：文本到图像生成模型能否理解常识？（2024年6月11日）
傅兴宇、何木雨、陆宇洁等
傅兴宇、何木雨、陆宇洁、威廉·杨王、丹·罗斯
一张图像对于重建和生成而言，价值相当于32个token（2024年6月11日）
于启航、马克·韦伯、邓雪晴等
于启航、马克·韦伯、邓雪晴、申晓辉、丹尼尔·克雷默斯、陈良杰
TRINS：迈向可阅读的多模态语言模型（2024年6月10日）
[CVPR 2024] 张睿毅、张彦哲、陈健等
张睿毅、张彦哲、陈健、周宇凡、顾九翔、陈昌友、孙彤
[LlamaGen] 自回归模型胜过扩散模型：用于可扩展图像生成的Llama（2024年6月10日）
孙培泽、蒋毅、陈寿发等
孙培泽、蒋毅、陈寿发、张士龙、彭冰悦、罗平、袁泽寰

Chameleon：混合模态早期融合基础模型（2024年5月16日）
Chameleon团队
SEED-X：具有统一多粒度理解与生成能力的多模态模型（2024年4月22日）
葛雨莹、赵思洁、朱金国等
葛雨莹、赵思洁、朱金国、葛一骁、易坤、宋琳、李晨、丁晓涵、单颖
大型多模态模型辅助平面设计（2024年4月22日）
程宇涛、张钊、杨茂科等
程宇涛、张钊、杨茂科、聂辉、李春元、吴兴隆和邵杰
PMG：基于大型语言模型的个性化多模态生成（2024年4月7日）
申晓腾、张锐、赵晓燕等
申晓腾、张锐、赵晓燕、朱继明、肖曦
MineDreamer：通过想象链学习指令以实现模拟世界控制（2024年3月19日）
周恩深、秦怡然、尹振飞等
周恩深、秦怡然、尹振飞、黄宇舟、张瑞茂、盛陆、乔宇、邵静
ELLA：为扩散模型配备LLM以增强语义对齐（2024年3月8日）
胡锡伟、王睿、方一骁等
胡锡伟、王睿、方一骁、傅斌、程沛、于刚
StrokeNUWA：用于矢量图形合成的笔画分词（2024年1月30日）
唐泽成、吴晨菲、张泽凯等
唐泽成、吴晨菲、张泽凯、倪明恒、殷圣明、刘宇、杨正源、王丽娟、刘子诚、李俊涛、段楠
 tokenizer
DiffusionGPT：由大语言模型驱动的文本到图像生成系统（2024年1月18日）
秦杰、吴杰、陈伟峰等
秦杰、吴杰、陈伟峰、任宇希、李慧霞、吴和峰、肖雪峰、王锐、温士磊
StarVector：从图像生成可扩展矢量图形代码（2023年12月17日）
胡安·A·罗德里格斯、舒巴姆·阿加瓦尔、伊萨姆·H·拉拉吉等
胡安·A·罗德里格斯、舒巴姆·阿加瓦尔、伊萨姆·H·拉拉吉、保·罗德里格斯、大卫·巴斯克斯、克里斯托弗·帕尔、马可·佩德罗索利
VL-GPT：用于视觉与语言理解及生成的生成式预训练Transformer（2023年12月14日）
朱金国、丁晓涵、葛一骁等
朱金国、丁晓涵、葛一骁、葛雨莹、赵思杰、赵恒爽、王晓华、单颖
StoryGPT-V：大型语言模型作为一致的故事可视化工具（2023年12月13日）
沈小倩、穆罕默德·埃尔霍赛尼
沈小倩、穆罕默德·埃尔霍赛尼
GENIXER：赋能多模态大型语言模型成为强大的数据生成器（2023年12月11日）
赵亨元、周攀、郑守迈克
赵亨元、周攀、郑守迈克
文本到图像生成的定制化助手（2023年12月5日）
周宇凡、张睿怡、顾九翔等
周宇凡、张睿怡、顾九翔、孙彤
 customization
ChatIllusion：高效对齐视觉指令模型的交错生成能力（2023年11月29日）
迟晓伟、刘义江、蒋正凯等
迟晓伟、刘义江、蒋正凯、张荣宇、林子毅、张仁瑞、高鹏、傅朝友、张尚航、刘启峰、郭益科
DreamSync：将文本到图像生成与图像理解反馈对齐（2023年11月29日）
孙娇、付德庆、胡宇诗等
孙娇、付德庆、胡宇诗、王苏、拉西尼·罗伊、Juan Da-Cheng、达娜·阿隆、查尔斯·赫尔曼、斯约尔德·范·斯滕基斯特、兰杰·克里希纳、塞勒斯·拉斯奇安
COLE：面向平面设计的层次化生成框架（2023年11月28日）
贾培东、李晨轩、刘泽宇等
贾培东、李晨轩、刘泽宇、申一超、陈星如、袁玉辉、郑英琳、陈栋、李济、谢晓东、张尚航、郭百宁
TextDiffuser-2：释放语言模型在文本渲染中的强大能力（2023年11月28日）
陈景业、黄宇潘、吕腾超等
陈景业、黄宇潘、吕腾超、崔雷、陈启峰、魏福儒
LLMGA：基于多模态大语言模型的生成助手（2023年11月27日）
夏彬、王世银、陶英凡等
夏彬、王世银、陶英凡、王一桐、贾佳亚
自纠正的LLM控制扩散模型（2023年11月27日）
吴宗翰、连龙、约瑟夫·E·冈萨雷斯等
吴宗翰、连龙、约瑟夫·E·冈萨雷斯、李博毅、特雷弗·达雷尔
[ParaDiffusion] 基于信息增强扩散模型的段落到图像生成（2023年11月29日）
吴伟嘉、李壮、何业飞等
吴伟嘉、李壮、何业飞、Mike Zheng Shou、沈春华、程乐乐、李燕、高婷婷、张迪、王中元
为多模态大语言模型对所有内容进行分词和嵌入（2023年11月8日）
杨振、张颖雪、孟凡东等
杨振、张颖雪、孟凡东、周杰
 tokenizer
WordArt设计师：利用大语言模型实现用户驱动的艺术字体合成（2023年10月20日）
何俊彦、程志奇、李晨阳等
何俊彦、程志奇、李晨阳、孙京东、向望蒙、林贤辉、康晓阳、金增科、胡宇森、罗斌、耿义峰、谢宣松、周景仁
LLM蓝图：通过复杂而详细的提示实现文本到图像生成（2023年10月16日）
[ICLR 2024] 哈南·加尼、沙里克·法鲁克·巴特、穆扎马尔·纳西尔等
哈南·加尼、沙里克·法鲁克·巴特、穆扎马尔·纳西尔、萨尔曼·汗、彼得·翁卡
让多模态生成更简单：当扩散模型遇到大语言模型（2023年10月13日）
赵翔宇、刘波、刘琪琼等
赵翔宇、刘波、刘琪琼、史广源、吴小明
Idea2Img：利用GPT-4V（vision）进行迭代自我精炼，实现自动图像设计与生成（2023年10月12日）
杨正元、王建峰、李林洁等
杨正元、王建峰、李林洁、凯文·林、林忠清、刘子成、王丽娟
OpenLEAF：开放域交叉图像-文本生成与评估（2023年10月11日）
安杰、杨正元、李林洁等
安杰、杨正元、李林洁、王建峰、凯文·林、刘子成、王丽娟、罗继波
Mini-DALLE3：通过提示大语言模型实现交互式文本到图像生成（2023年10月11日）
赖泽强、朱锡洲、戴继峰等
赖泽强、朱锡洲、戴继峰、乔宇、王文海
[DALL-E 3] 通过更优质的描述文本提升图像生成效果
詹姆斯·贝特克、加布里埃尔·戈、李静等
詹姆斯·贝特克、加布里埃尔·戈、李静、蒂姆·布鲁克斯、王建峰、李林杰、龙欧阳、庄俊堂、乔伊斯·李、郭宇飞、韦萨姆·马纳萨拉、普拉富拉·达里瓦尔、凯西·楚、焦云鑫、阿迪提亚·拉梅什
MiniGPT-5：基于生成式 Voken 的视觉与语言交替生成（2023年10月3日）
郑凯志、何学海、王新埃里克。
借助 SEED 分词器让 LLaMA “看见”并“绘画”（2023年10月2日）
葛雨莹、赵思杰、曾子云等
葛雨莹、赵思杰、曾子云、葛一骁、李晨、王新涛、单颖
 分词器
InstructCV：作为视觉通用模型的指令微调文本到图像扩散模型（2023年9月30日）
甘玉露、朴成佑、亚历山大·舒伯特等
甘玉露、朴成佑、亚历山大·舒伯特、安东尼·菲利帕基斯、艾哈迈德·M·阿拉
InternLM-XComposer：用于高级文本-图像理解与创作的视觉-语言大模型（2023年9月26日）
张攀、董晓义、王斌等
张攀、董晓义、王斌、曹宇航、徐超、欧阳林科、赵志远、段浩东、张松阳、丁双瑞、张文伟、严航、张欣悦、李伟、李静雯、陈凯、何聪辉、张兴成、乔宇、林大华、王佳琪
抽象概念的文本到图像生成（2023年9月26日）
廖嘉怡、陈旭、傅强等
廖嘉怡、陈旭、傅强、杜伦、何湘南、王翔、韩世、张冬梅
DreamLLM：协同的多模态理解与创作（2023年9月20日）
[ICLR 2024] 董润沛、韩春锐、彭元等
董润沛、韩春锐、彭元、齐泽坤、葛正、杨金荣、赵亮、孙建建、周洪宇、魏浩然、孔祥文、张祥宇、马凯胜、李毅
SwitchGPT：将大型语言模型适配为非文本输出（2023年9月14日）
王新宇、庄博涵、吴奇。
NExT-GPT：任意模态之间的多模态大模型（2023年9月11日）
吴圣琼、费浩、屈雷刚等
吴圣琼、费浩、屈雷刚、季伟、蔡添顺
LayoutLLM-T2I：从大型語言模型中提取佈局指導以進行文本到圖像生成（2023年8月9日）
屈雷剛、吳聖瓊、費浩等。ACM MM 2023
屈雷剛、吳聖瓊、費浩、聶立強、蔡達生
在大型語言模型中播下視覺的種子（2023年7月16日）
葛宇瑩、葛一暁、曾子雲等。
葛宇瑩、葛一暁、曾子雲、王新濤、山穎
多模態中的生成式預訓練（2023年7月11日）
孫權、余琪英、崔宇峰等。
孫權、余琪英、崔宇峰、張帆、張曉松、王悅澤、高洪成、劉靜靜、黃鐵軍、王欣龍
SPAE：用凍結的大型語言模型進行多模態生成的語義金字塔自編碼器（2023年6月30日）
[NeurIPS 2023 Spotlight] 劉俊宇、程勇、王志若等。
劉俊宇、程勇、王志若、維韋克·庫馬爾、沃爾夫岡·馬赫雷、黃彥平、大衛·A·羅斯、伊爾凡·埃薩、約納坦·比斯克、楊明軒、凱文·墨菲、亞歷山大·G·豪普特曼、江璐
使用GPT-4進行可控的文本到圖像生成（2023年5月29日）
張天駿、張毅、維巴夫·維尼特等。
張天駿、張毅、維巴夫·維尼特、尼爾·喬希、王鑫
用多模態語言模型生成圖像（2023年5月26日）
[NeurIPS 2023] 科赫、景宇、丹尼爾·弗里德和魯斯蘭·薩拉胡丁諾夫。
LayoutGPT：利用大型語言模型進行組合式的視覺規劃與生成（2023年5月24日）
[NeurIPS 2023] 馮偉熙、朱婉蓉、傅次睿等。
冯伟熙、朱婉蓉、傅次睿、瓦倫·詹帕尼、阿俊·阿庫拉、何學海、蘇加托·巴蘇、王欣艾瑞克、威廉·楊·王
用於文本到圖像生成與評估的視覺編程（2023年5月24日）
[NeurIPS 2023] 曹載民、阿貝·扎拉、莫希特·班薩爾。
LLM驅動的擴散模型：利用大型語言模型增強文本到圖像擴散模型的提示理解能力（2023年5月23日）
連龍、李博義、亞當·雅拉等。
連龍、李博義、亞當·雅拉、特雷弗·達雷爾
基于LLMs-AIGCs协作的系统性视觉适配交互式数据合成（2023年5月22日）
于齐凡、李俊成、叶文涛等
于齐凡、李俊成、叶文涛、唐思亮、庄宇婷
LLMScore：揭示大型语言模型在文本到图像合成评估中的强大能力（2023年5月18日）
[NeurIPS 2023] 陆宇杰、杨贤俊、李秀军等
陆宇杰、杨贤俊、李秀军、王新埃里克、威廉·杨·王
SUR-adapter：利用大型语言模型增强文本到图像预训练扩散模型（2023年5月9日）
[ACM MM 2023] 钟珊珊、黄中展、温武绍等
钟珊珊、黄中展、温武绍、秦景辉、林亮
将语言模型与图像对齐以实现多模态输入和输出（2023年1月31日）
[ICML 2023] 科赫、京宇、鲁斯兰·萨拉胡丁诺夫和丹尼尔·弗里德。
[RPG-DiffusionMaster] 掌握文本到图像扩散：使用多模态LLM进行重新描述、规划和生成（2024年1月22日）
[ICML 2024] 杨凌、于兆辰、孟晨琳等
杨凌、于兆辰、孟晨琳、徐敏凯、斯特法诺·埃尔蒙、崔斌
RealCompo：平衡真实感与组合性可提升文本到图像扩散模型性能（2024年2月20日）
张欣晨、杨凌、蔡雅琪等
张欣晨、杨凌、蔡雅琪、于兆辰、王凯妮、谢佳科、田烨、徐敏凯、唐勇、杨友久、崔斌

非LLM类（Clip/T5）

Edify Image：基于像素空间拉普拉斯扩散模型的高质量图像生成（2024年11月11日）
NVIDIA：尤瓦尔·阿茨蒙、马切伊·巴拉、约格什·巴拉吉等
NVIDIA：尤瓦尔·阿茨蒙、马切伊·巴拉、约格什·巴拉吉、蒂芙尼·蔡、尹翠、焦娇凡、云浩葛、西达尔特·古鲁拉尼、雅各布·哈夫曼、罗纳德·艾萨克、波亚·詹纳蒂、泰罗·卡拉斯、格蕾丝·拉姆、J. P. 路易斯、亚伦·利卡塔、颜辰林、明宇刘、千莉马、阿伦·马利亚、阿什莉·马蒂诺-塔尔、道格·门德斯、承俊娜、克里斯·普鲁特、菲茨姆·雷达、贾明宋、廷春王、方银魏、晓辉曾、宇曾、秦生张
InstantStyle：文本到图像生成中风格保留的免费午餐（2024年4月3日）
王浩帆、马泰奥·斯皮内利、王奇勋等
王浩帆、马泰奥·斯皮内利、王奇勋、白旭、秦泽奎、安东尼·陈
InstantID：零样本身份保留生成，几秒钟内完成（2024年1月15日）
王奇勋、白旭、王浩帆等
王奇勋、白旭、王浩帆、秦泽奎、安东尼·陈、李华夏、唐旭、胡耀
PIXART-α：用于照片级真实感文本到图像合成的扩散Transformer快速训练（2023年9月30日）
[ICLR 2024] 陈俊松、于金成、葛崇健等
陈俊松、于金成、葛崇健、姚乐威、谢恩泽、吴岳、王中道、郭明达、罗平、陆虎川、李振国
TextDiffuser：作为文本画家的扩散模型（2023年5月18日）
[NeurIPS 2023] 陈景业、黄宇攀、吕腾超等
陈景业、黄宇攀、吕腾超、崔磊、陈奇峰、魏福如
TiGAN：基于文本的交互式图像生成与操控（2022年12月）
[AAAI 2022] 周宇凡、张睿毅、顾九翔等
周宇凡、张睿毅、顾九翔、克里斯·滕斯迈尔、于彤、陈昌友、徐锦辉、孙彤
 标签：交互
文本到图像扩散模型的多概念定制化（2022年12月8日）
[CVPR 2023] 努普尔·库玛丽、张炳亮、理查德·张等
努普尔·库玛丽、张炳亮、理查德·张、埃利·谢赫特曼、朱俊彦

标签：定制化
DreamBooth：针对特定主题生成的文本到图像扩散模型微调（2022年8月25日）
[CVPR 2023] 纳塔尼尔·鲁伊斯、李元珍、瓦伦·詹帕尼等
纳塔尼尔·鲁伊斯、李元珍、瓦伦·詹帕尼、雅埃尔·普里奇、迈克尔·鲁宾斯坦、基菲尔·阿伯曼

标签：定制化
一张图胜过千言万语：利用文本反演个性化文本到图像生成（2022年8月2日）
里农·加尔、尤瓦尔·阿拉卢夫、尤瓦尔·阿茨蒙等
里农·加尔、尤瓦尔·阿拉卢夫、尤瓦尔·阿茨蒙、奥尔·帕塔什尼克、阿米特·H·贝尔马诺、加尔·切奇克、丹尼尔·科恩-奥尔

标签：定制化
具有深度语言理解的照片级真实感文本到图像扩散模型（2022年5月23日）
[NeurIPS 2022]
萨哈里亚、奇特万·钱、威廉·萨克塞纳、索拉布·李、拉拉·黄、杰伊·登顿、艾米丽·L·加塞米普尔、卡米亚尔·贡蒂霍·洛佩斯、拉斐尔·卡拉戈尔·阿扬、布尔丘·萨利曼斯、蒂姆及其他
萨哈里亚、奇特万·钱、威廉·萨克塞纳、索拉布·李、拉拉·黄、杰伊·登顿、艾米丽·L·加塞米普尔、卡米亚尔·贡蒂霍·洛佩斯、拉斐尔·卡拉戈尔·阿扬、布尔丘·萨利曼斯、蒂姆及其他
基于潜在扩散模型的高分辨率图像合成（2021年12月20日）
[CVPR 2022（口头报告）]
隆巴赫、罗宾·布拉特曼、安德烈亚斯·洛伦茨等
隆巴赫、罗宾·布拉特曼、安德烈亚斯·洛伦茨、多米尼克·埃瑟、帕特里克·奥默、比约恩

数据集

MIMIC-IT：多模态上下文指令微调（2023年6月8日）
[NeurIPS 2023] Bo Li、Yuanhan Zhang、Liangyu Chen 等
Bo Li、Yuanhan Zhang、Liangyu Chen、Jinghao Wang、Fanyi Pu、Jingkang Yang、Chunyuan Li、Ziwei Liu
[LAION-Glyph] GlyphControl：用于视觉文本生成的字形条件控制（2023年5月29日）
[NeurIPS 2023] Yukang Yang、Dongnan Gui、Yuhui Yuan 等
Yukang Yang、Dongnan Gui、Yuhui Yuan、Weicong Liang、Haisong Ding、Han Hu、Kai Chen
[MARIO-10M] TextDiffuser：作为文本画家的扩散模型（2023年5月18日）
[NeurIPS 2023] Jingye Chen、Yupan Huang、Tengchao Lv 等
Jingye Chen、Yupan Huang、Tengchao Lv、Lei Cui、Qifeng Chen、Furu Wei
DataComp：寻找下一代多模态数据集（2023年4月27日）
[NeurIPS 2023] Samir Yitzhak Gadre、Gabriel Ilharco、Alex Fang 等
Samir Yitzhak Gadre、Gabriel Ilharco、Alex Fang、Jonathan Hayase、Georgios Smyrnis、Thao Nguyen、Ryan Marten、Mitchell Wortsman、Dhruba Ghosh、Jieyu Zhang、Eyal Orgad、Rahim Entezari、Giannis Daras、Sarah Pratt、Vivek Ramanujan、Yonatan Bitton、Kalyani Marathe、Stephen Mussmann、Richard Vencu、Mehdi Cherti、Ranjay Krishna、Pang Wei Koh、Olga Saukh、Alexander Ratner、Shuran Song、Hannaneh Hajishirzi、Ali Farhadi、Romain Beaumont、Sewoong Oh、Alex Dimakis、Jenia Jitsev、Yair Carmon、Vaishaal Shankar、Ludwig Schmidt
[LLava-instruct] 视觉指令微调（2023年4月17日）
[NeurIPS 2023] Haotian Liu、Chunyuan Li、Qingyang Wu 等
Haotian Liu、Chunyuan Li、Qingyang Wu、Yong Jae Lee
多模态C4：一个开放的、十亿级规模的图文混合语料库（2023年4月14日）
[NeurIPS 2023] Wanrong Zhu、Jack Hessel、Anas Awadalla 等
Wanrong Zhu、Jack Hessel、Anas Awadalla、Samir Yitzhak Gadre、Jesse Dodge、Alex Fang、Youngjae Yu、Ludwig Schmidt、William Yang Wang、Yejin Choi
语言并非一切：将感知与语言模型对齐（2023年2月27日）
[NeurIPS 2023] Shaohan Huang、Li Dong、Wenhui Wang 等
Shaohan Huang、Li Dong、Wenhui Wang、Yaru Hao、Saksham Singhal、Shuming Ma、Tengchao Lv、Lei Cui、Owais Khan Mohammed、Barun Patra、Qiang Liu、Kriti Aggarwal、Zewen Chi、Johan Bjorck、Vishrav Chaudhary、Subhojit Som、Xia Song、Furu Wei
COYO-700M：图文对数据集（2022年8月31日）
LAION-5B：用于训练下一代图文模型的开放大型数据集（2022年10月16日）
[NeurIPS 2022] Christoph Schuhmann、Romain Beaumont、Richard Vencu 等
Christoph Schuhmann、Romain Beaumont、Richard Vencu、Cade Gordon、Ross Wightman、Mehdi Cherti、Theo Coombes、Aarush Katta、Clayton Mullis、Mitchell Wortsman、Patrick Schramowski、Srivatsa Kundurthy、Katherine Crowson、Ludwig Schmidt、Robert Kaczmarczyk、Jenia Jitsev
LAION COCO：来自LAION2B-EN的6亿张合成字幕（2022年9月15日）
克里斯托夫·舒曼、安德烈亚斯·科普、西奥·库姆布斯等
克里斯托夫·舒曼、安德烈亚斯·科普、西奥·库姆布斯、理查德·文库、本杰明·特罗姆、罗曼·博蒙
[M3W] Flamingo：用于少样本学习的视觉语言模型（2022年4月29日）
[NeurIPS 2022] 让-巴蒂斯特·阿拉伊拉克、杰夫·多纳休、保琳·吕克等
让-巴蒂斯特·阿拉伊拉克、杰夫·多纳休、保琳·吕克、安托万·米埃赫、伊恩·巴尔、雅娜·哈松、卡雷尔·伦茨、阿图尔·门施、凯蒂·米利坎、马尔科姆·雷诺兹、罗曼·林格、伊丽莎·卢瑟福、塞尔坎·卡比、韩腾达、龚志涛、萨纳·萨曼古伊、玛丽安娜·蒙特罗、雅各布·梅尼克、塞巴斯蒂安·博尔戈、安德鲁·布洛克、艾达·内马扎德、萨汉德·沙里夫扎德、米科拉·宾科夫斯基、里卡多·巴雷拉、奥里奥尔·维尼亚尔斯、安德鲁·齐瑟曼、卡伦·西莫尼扬
[LAION-FACE] 基于视觉-语言方式的通用人脸表征学习（2021年12月6日）
[NeurIPS 2021] 郑英琳、杨浩、张婷等
郑英琳、杨浩、张婷、鲍建民、陈东东、黄阳宇、袁璐、陈栋、曾明、温芳
[LAION-400M] CLIP过滤后的4亿对图文开放数据集（2021年11月3日）
[NeurIPS 2021] 克里斯托夫·舒曼、理查德·文库、罗曼·博蒙等
克里斯托夫·舒曼、理查德·文库、罗曼·博蒙、罗伯特·卡奇马尔奇克、克莱顿·穆利斯、阿鲁什·卡塔、西奥·库姆布斯、珍妮娅·吉采夫、阿拉恩·小松崎
WIT：基于维基百科的多模态多语言机器学习图像文本数据集（2021年3月2日）
[SIGIR 2021] 克里希纳·斯里尼瓦桑、卡尔蒂克·拉曼、陈洁超等
克里希纳·斯里尼瓦桑、卡尔蒂克·拉曼、陈洁超、迈克尔·本德斯基、马克·纳约尔克
Conceptual 12M：将网络规模的图文预训练推向长尾视觉概念识别（2021年2月17日）
[CVPR 2021] 索拉维特·昌皮尼奥、皮尤什·夏尔马、丁楠等
索拉维特·昌皮尼奥、皮尤什·夏尔马、丁楠、拉杜·索里库特
[ALIGN] 利用噪声文本监督扩展视觉及视觉-语言表征学习（2021年2月11日）
[ICML 2021] 贾超、杨音飞、夏叶等
贾超、杨音飞、夏叶、陈怡婷、扎拉娜·帕雷克、辉·范、阮国越、宋云轩、李振、汤姆·杜里格
[MS COCO] 微软COCO：上下文中的常见物体（2014年5月1日）
[ECCV 2014] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉等
林宗义、迈克尔·梅尔、塞尔日·贝隆吉、卢博米尔·布尔代夫、罗斯·吉尔希克、詹姆斯·海斯、皮耶特罗·佩罗纳、德瓦·拉马南、C·劳伦斯·齐特尼克、皮奥特尔·多拉尔
[Im2Text] 使用100万张带字幕的照片描述图像（2011年12月12日）
[NeurIPS 2011] 维森特·奥尔多涅斯、吉里什·库尔卡尼、塔玛拉·伯格

视频生成

🔅 基于LLM

Loong：利用自回归语言模型生成分钟级长视频（2024年10月3日）
王玉清、熊天伟、周大泉等
王玉清、熊天伟、周大泉、林志杰、赵洋、康炳义、冯家诗、刘熙辉
基于LLM导演的组合式3D感知视频生成（2024年8月31日）
朱瀚鑫、何天宇、唐安妮等
朱瀚鑫、何天宇、唐安妮、郭俊良、陈志博、卞江
Anim-Director：用于可控动画视频生成的大规模多模态模型驱动智能体（2024年8月19日）
[SIGGRAPH Asia 2024] 李云欣、史浩源、胡宝田等
李云欣、史浩源、胡宝田、王龙跃、朱嘉顺、徐金义、赵振、张敏
[BSQ-ViT] 基于二进制球面量化进行图像和视频标记化（2024年6月11日）
[技术报告] 赵越、熊元俊、菲利普·克雷亨布尔
tokenizer
DriveDreamer-2：用于多样化驾驶视频生成的LLM增强型世界模型（2024年3月11日）
赵国生、王晓峰、朱正等
赵国生、王晓峰、朱正、陈新泽、黄冠、包晓怡、王兴刚
[Sora] 视频生成模型作为世界模拟器（2024年2月15日）
蒂姆·布鲁克斯、比尔·皮布尔斯、康纳·霍姆斯等
蒂姆·布鲁克斯、比尔·皮布尔斯、康纳·霍姆斯、威尔·德普、郭宇飞、李静、大卫·施努尔、乔·泰勒、特洛伊·卢曼、埃里克·卢曼、克拉伦斯·吴、瑞奇·王、阿迪提亚·拉梅什
[LWM] 基于分块环形注意力机制的百万级视频与语言世界模型（2024年2月13日）
刘浩、颜威尔、扎哈里亚等
刘浩、颜威尔、扎哈里亚、彼得·阿贝尔
[LGVI] 通过多模态大型语言模型实现语言驱动的视频修复（2024年1月18日）
吴建宗、李向泰、司晨阳等
吴建宗、李向泰、司晨阳、周尚辰、杨景康、张江宁、李依宁、陈凯、童云海、刘子威、陈昌乐
Video-LaVIT：采用解耦视觉-运动标记化的统一视频-语言预训练——利用LLM实现内容一致的多场景视频生成（2024年1月2日）
金洋、孙志成、许坤等
金洋、孙志成、许坤、许坤、陈立伟、姜浩、黄曲哲、宋承儒、刘宇梁、张迪、宋洋、盖坤、穆亚东
 tokenizer
VideoDrafter：利用LLM实现内容一致的多场景视频生成（2024年1月2日）
龙福臣、邱兆凡、姚婷等
龙福臣、邱兆凡、姚婷、梅涛
[PRO-Motion] 计划、姿态与行动：迈向开放世界文本到动作生成（2023年12月22日）
刘金鹏、戴文勋、王春雨等
刘金鹏、戴文勋、王春雨、程一吉、唐燕松、佟欣
VideoPoet：用于零样本视频生成的大语言模型（2023年12月21日）
丹·孔德拉秋克、于丽君、顾秀叶等
丹·孔德拉秋克、于丽君、顾秀叶、何塞·莱萨马、乔纳森·黄、瑞秋·霍尔农、哈特维格·亚当、哈桑·阿克巴里、亚伊尔·阿隆、维格内什·比罗德卡尔、永程、明昌·邱、乔什·迪伦、伊尔凡·埃萨、阿格里姆·古普塔、米拉·哈恩、安雅·豪斯、大卫·亨登、阿隆索·马丁内斯、大卫·米嫩、大卫·罗斯、格兰特·辛德勒、米哈伊尔·西罗滕科、基休克·孙、克里希纳·索曼德帕利、惠生·王、吉米·严、明轩·杨、玄杨、布莱恩·塞博尔德、陆江
FlowZero：基于大语言模型驱动的动态场景语法的零样本文生视频合成（2023年11月27日）
[arXiv 2023] 陆宇、朱林超、范鹤鹤等
陆宇、朱林超、范鹤鹤、杨毅
InterControl：通过控制每个关节生成人体运动交互（2023年11月27日）
王振志、王景博、林达华等
王振志、王景博、林达华、戴波

标签：人体运动生成
MotionLLM：基于大语言模型的多模态运动-语言学习（2024年5月27日）
吴琪、赵宇博、王一帆等
吴琪、赵宇博、王一帆、戴宇英、唐志康

标签：通用人体运动生成
GPT4Motion：通过面向Blender的GPT规划在文生视频中编写物理运动脚本（2023年11月21日）
吕嘉熙、黄毅、严明富等
吕嘉熙、黄毅、严明富、黄建诚、刘建庄、刘一凡、温亚飞、陈晓欣、陈世峰
[LVD] 基于大语言模型的视频扩散模型（2023年9月29日）
连龙、史百丰、亚当·亚拉等
连龙、史百丰、亚当·亚拉、特雷弗·达雷尔、李博伊
VideoDirectorGPT：基于大语言模型引导规划的一致性多场景视频生成（2023年9月26日）
[arXiv 2023] 林涵、阿拜·扎拉、曹载民等
林涵、阿拜·扎拉、曹载民、莫希特·班萨尔
Free-Bloom：具有大语言模型导演和LDM动画师的零样本文生视频生成器（2023年9月25日）
[NIPS 2023] 黄瀚卓、冯宇凡、施成等
黄瀚卓、冯宇凡、施成、徐兰、俞静怡、杨思贝
[Dysen-VDM] 利用大语言模型赋能动态感知的文生视频扩散模型（2023年8月26日）
[CVPR 2024] 费浩、吴圣琼、季伟等
费浩、吴圣琼、季伟、张汉旺、蔡德成
[DirecT2V] 大语言模型是零样本文生视频生成的帧级导演（2023年5月23日）
[arXiv 2023] 洪秀成、徐俊英、洪承焕等
洪秀成、徐俊英、洪承焕、申熙成、金承龙
Text2Motion：从自然语言指令到可行计划（2023年3月21日）
[自主机器人2023] 凯文·林、克里斯托弗·阿吉亚、托基·米吉松等
凯文·林、克里斯托弗·阿吉亚、托基·米吉松、马可·帕沃内、珍妮特·博格

非LLM类

OSV：一步即可实现高质量图像到视频生成（2024年9月17日）
毛晓峰、蒋正凯、王福云等
毛晓峰、蒋正凯、王福云、朱文兵、张江宁、陈浩、迟明敏、王亚彪
[PAB] 基于金字塔注意力广播的实时视频生成（2024年6月26日）
赵轩磊、金晓龙、王凯等
赵轩磊、金晓龙、王凯、杨友
Video-Infinity：分布式长视频生成（2024年6月24日）
谭振雄、杨兴义、刘松华等
谭振雄、杨兴义、刘松华、王新超
潘多拉：基于自然语言动作与视频的通用世界模型（2024年6月12日）
项建南、刘广义、顾毅等
项建南、刘广义、顾毅、高琪悦、宁宇婷、查宇恒、冯泽宇、陶天华、郝世博、史业民、刘正中、埃里克·P·邢、胡志廷
文本动画师：可控视觉文本视频生成（2024年6月25日）
刘琳、刘全德、钱圣居等
刘琳、刘全德、钱圣居、周源、周文刚、李厚强、谢凌溪、田琦
运动展台：运动感知的定制化文本到视频生成（2024年6月25日）
吴建宗、李向泰、曾艳红等
吴建宗、李向泰、曾艳红、张江宁、周倩玉、李依宁、童云海、陈凯
FreeTraj：视频扩散模型中的免调参轨迹控制（2024年6月24日）
邱浩楠、陈兆熙、王周霞等
邱浩楠、陈兆熙、王周霞、何英青、夏梦涵、刘子威
识别并解决图像到视频扩散模型中的条件图像泄露问题（2024年6月22日）
赵敏、朱洪洲、向晨东等
赵敏、朱洪洲、向晨东、郑凯文、李崇宣、朱俊
图像指挥家：交互式视频合成的精准控制（2024年6月21日）
李耀伟、王新涛、张兆阳等
李耀伟、王新涛、张兆阳、王周霞、袁子洋、谢良斌、邹月仙、山莹
VIDEOSCORE：构建自动指标以模拟视频生成中的细粒度人类反馈（2024年6月21日）
何轩、蒋东富、张戈等
何轩、蒋东富、张戈、Max Ku、Achint Soni、Sherman Siu、陈浩楠、Abhranil Chandra、姜子言、Aaran Arulraj、王凯、杜贵德、倪元生、吕博涵、Yaswanth Narsupalli、范荣奇、吕志恒、林宇辰、陈文虎
Dreamitate：通过视频生成实现的真实世界视觉运动策略学习（2024年6月24日）
梁俊邦、刘若诗、厄格·奥兹古罗格鲁等
梁俊邦、刘若诗、厄格·奥兹古罗格鲁、Sruthi Sudhakar、Achal Dave、Pavel Tokmakov、宋舒然、Carl Vondrick
[MCM] 运动一致性模型：通过解耦的运动-外观蒸馏加速视频扩散（2024年6月11日）
翟远豪、林凯文、杨正源等
翟远豪、林凯文、杨正源、李林杰、王建峰、林忠清、戴维·多尔曼、袁军松、王丽娟
搜索先验知识使文本到视频合成效果更好（2024年6月5日）
程浩然、彭亮、夏林轩等
程浩然、彭亮、夏林轩、胡岳鹏、李恒嘉、陆青林、何晓飞、吴博熙
ZeroSmooth：用于高帧率视频生成的免训练扩散模型适配方法（2024年6月3日）
杨绍书、张勇、寸晓东等
杨绍书、张勇、寸晓东、山英、何冉
EasyAnimate：基于Transformer架构的高性能长视频生成方法（2024年5月30日）
赵思杰、张勇、寸晓东等
赵思杰、张勇、寸晓东、杨绍书、牛牧瑶、李晓宇、胡文博、山英
[MOFT] 视频扩散模型是免训练的运动解释器和控制器（2024年3月23日）
肖泽奇、周一帆、杨帅等
肖泽奇、周一帆、杨帅、潘星刚
StreamingT2V：从文本生成一致、动态且可扩展的长视频（2024年3月21日）
罗伯托·亨舍尔、列翁·哈恰特良、达尼尔·海拉佩蒂扬等
罗伯托·亨舍尔、列翁·哈恰特良、达尼尔·海拉佩蒂扬、海克·波戈相、瓦赫拉姆·塔德沃相、王章阳、尚特·纳瓦萨尔迪扬、洪普里·史
Snap Video: 用于文本到视频合成的可扩展时空Transformer（2024年2月22日）
威利·梅纳帕切、阿列克桑德尔·西亚罗欣、伊万·斯科罗霍多夫等
威利·梅纳帕切、阿列克桑德尔·西亚罗欣、伊万·斯科罗霍多夫、叶卡捷琳娜·杰涅卡、蔡申·陈、阿尼尔·卡格、方宇伟、阿列克谢·斯托利亚尔、埃丽莎·里奇、任健、谢尔盖·图利亚科夫
VideoCrafter2: 克服高质量视频扩散模型的数据限制（2024年1月17日）
陈浩鑫、张勇、孙晓东等
陈浩鑫、张勇、孙晓东、夏梦涵、王新涛、翁超、单颖
稳定视频扩散：将潜在视频扩散模型扩展至大规模数据集（2023年11月25日）
安德烈亚斯·布拉特曼、蒂姆·多克霍恩、苏米特·库拉尔等
安德烈亚斯·布拉特曼、蒂姆·多克霍恩、苏米特·库拉尔、丹尼尔·门德列维奇、马切伊·基利安、多米尼克·洛伦茨、亚姆·莱维、锡安·英格利什、维克拉姆·沃莱蒂、亚当·莱茨、瓦伦·詹帕尼、罗宾·隆巴赫
VideoCrafter1: 用于高质量视频生成的开放扩散模型（2023年10月30日）
陈浩鑫、夏梦涵、何英青等
陈浩鑫、夏梦涵、何英青、张勇、孙晓东、杨绍书、邢金波、刘耀芳、陈启峰、王新涛、翁超、单颖
DynamiCrafter: 利用视频扩散先验为开放域图像添加动画效果（2023年10月18日）
邢金波、夏梦涵、张勇等
邢金波、夏梦涵、张勇、陈浩鑫、于旺博、刘汉源、王新涛、黄天赐、单颖
FreeNoise: 通过噪声重调度实现无需调优的更长视频扩散（2023年10月23日）
邱浩楠、夏梦涵、张勇等
邱浩楠、夏梦涵、张勇、何英青、王新涛、单颖、刘子威
Animate-A-Story: 基于检索增强的视频生成进行故事讲述（2023年7月13日）
何英青、夏梦涵、陈浩鑫等
何英青、夏梦涵、陈浩鑫、孙晓东、龚元、邢金波、张勇、王新涛、翁超、单颖、陈启峰
Make-Your-Video：基于文本和结构引导的定制化视频生成（2023年6月1日）
邢金波、夏梦涵、刘宇欣等
邢金波、夏梦涵、刘宇欣、张岳辰、张勇、何英青、刘瀚源、陈浩鑫、寸晓东、王新涛、单颖、王天津
跟随你的姿态：利用无姿态视频进行姿态引导的文生视频生成（2023年4月3日）
马悦、何英青、寸晓东等
马悦、何英青、寸晓东、王新涛、陈思然、单颖、李秀、陈启峰
图像与视频的实时可控去噪（2023年3月29日）
[CVPR 2023] 张兆阳、蒋一桐、邵文琪等
张兆阳、蒋一桐、邵文琪、王小刚、罗平、林凯莫、顾金伟
VideoFusion：用于高质量视频生成的分解扩散模型（2023年3月15日）
罗正雄、陈大有、张颖雅等
罗正雄、陈大有、张颖雅、黄燕、王亮、沈宇俊、赵德利、周景仁、谭天牛

视频 VAE/分词器

DLFR-VAE：用于视频生成的动态潜在帧率 VAE（2025年2月17日）
袁志航、王思源、谢睿等
袁志航、王思源、谢睿、张汉岭、方通成、尚宇章、颜圣根、戴国豪、王宇
VideoVAE+：基于跨模态视频 VAE 的大规模运动视频自动编码（2024年12月23日）
邢亚周、费阳、何英清等
邢亚周、费阳、何英清、陈景业、谢佳欣、迟晓伟、陈启峰
VidTwin：具有解耦结构与动力学的视频 VAE（2024年12月23日）
王宇驰、郭俊亮、谢心怡等
王宇驰、郭俊亮、谢心怡、何天宇、孙旭、卞江
VidTok：一款多功能且开源的视频分词器（2024年12月17日）
唐安妮、何天宇、郭俊亮等
唐安妮、何天宇、郭俊亮、程新乐、宋莉、卞江
[CVPR 2025] WF-VAE：通过小波驱动的能量流提升潜在视频扩散模型的视频 VAE（2024年11月26日）
李宗健、林斌、叶阳等
李宗健、林斌、叶阳、陈刘翰、程新华、袁圣海、袁立
[CVPR 2025] [IV-VAE] 针对潜在视频扩散模型的改进型视频 VAE（2024年11月10日）
吴平宇、朱凯、刘宇等
吴平宇、朱凯、刘宇、赵利明、翟伟、曹阳、查正军
[技术报告] Cosmos 分词器：一套图像和视频神经网络分词器（2024年11月6日）
菲茨姆·雷达、顾金伟、刘贤等
菲茨姆·雷达、顾金伟、刘贤、葛松伟、王廷春、王浩翔、刘明宇
[NeurIPS 2024] CV-VAE：一种兼容潜在生成式视频模型的视频 VAE（2024年5月30日）
赵思杰、张勇、寸晓东等
赵思杰、张勇、寸晓东、杨绍书、牛牧瑶、李晓宇、胡文博、山英
[ICLR 2024] [MAGVIT-v2] 语言模型胜过扩散模型——分词器是视觉生成的关键（2023年10月9日）
于立军、何塞·莱萨马、尼特什·B·贡达瓦拉普等
于立军、何塞·莱萨马、尼特什·B·贡达瓦拉普、卢卡·韦尔萨里、苏基赫·索恩、大卫·米嫩、程勇、阿格里姆·古普塔、顾秀叶、亚历山大·G·豪普特曼、龚博庆、杨明轩、伊尔凡·埃萨、大卫·A·罗斯、蒋璐

音频-视频

JavisDiT：具有层次化时空先验同步的联合音频-视频扩散 Transformer（2025年3月30日）
刘凯、李伟、陈来等
刘凯、李伟、陈来、吴盛琼、郑彦浩、姬嘉仪、周帆、姜荣鑫、罗杰波、费浩、蔡德成
[LVAS-Agent] 多智能体协作的长视频音频合成 (2025年3月13日)

张业航、徐新力、徐晓杰等
张业航、徐新力、徐晓杰、刘莉、陈英聪
UniForm: 面向音视频生成的统一扩散Transformer (2025年2月6日)

赵磊、冯林峰、葛东旭等
赵磊、冯林峰、葛东旭、易方秋、张驰、张小雷、李学龙
TIA2V：基于文本—图像—音频三模态条件的视频生成 (2025年1月4日)
赵明禄、王文敏、张睿等。
赵明禄、王文敏、张睿、贾浩美、陈琪
SAVGBench：空间对齐音视频生成基准测试 (2024年12月18日)

岛田一树、克里斯蒂安·西蒙、涩谷隆史等。
岛田一树、克里斯蒂安·西蒙、涩谷隆史、高桥修介、光藤由纪
AV-Link：用于跨模态音视频生成的时间对齐扩散特征 (2024年12月19日)

莫亚德·哈吉-阿里、威利·梅纳帕切、阿利亚克桑德尔·谢罗欣等。
莫亚德·哈吉-阿里、威利·梅纳帕切、阿利亚克桑德尔·谢罗欣、伊万·斯科罗霍多夫、阿尔珀·坎贝尔克、郭森李、比森特·奥尔多涅斯、谢尔盖·图利亚科夫
SyncFlow：基于文本的时序对齐联合音视频生成 (2024年12月3日)

刘浩赫、盖尔·勒朗、梅新浩等。
刘浩赫、盖尔·勒朗、梅新浩、倪兆恒、阿努拉格·库马尔、瓦伦·纳加拉贾、王文武、马克·D·普兰布利、石阳阳、维卡斯·钱德拉
用于声音化视频生成的简单而强大的基线：音频与视频扩散模型在联合生成中的有效适配 (2024年9月26日)

石井正人、早川昭夫、涩谷隆史。
石井正人、早川昭夫、涩谷隆史、光藤由纪
AV-DiT：用于联合音视频生成的高效视听扩散Transformer (2024年6月11日)

王凯、邓世健、施静等。
王凯、邓世健、施静、迪米特里奥斯·哈津纳科斯、田亚鹏
判别器引导的协同扩散用于联合音视频生成 (2024年5月28日)
早川昭夫、石井正人、涩谷隆史等。
早川昭夫、石井正人、涩谷隆史、光藤由纪
AudioScenic：音频驱动的视频场景编辑 (2024年4月25日)
沈凯欣、全瑞洁、朱林超等。
沈凯欣、全瑞洁、朱林超、肖俊、杨毅
具有噪声水平混合的多功能扩散Transformer用于视听生成 (2024年5月22日)
金光贤、阿隆索·马丁内斯、苏宇川等。
金光贤、阿隆索·马丁内斯、苏宇川、布伦丹·周、何塞·莱萨马、阿格里姆·古普塔、于立军、江璐、阿伦·扬森、雅各布·沃克、克里希纳·索曼德帕利
利用多模态语言大模型进行语义一致的视频转音频生成 (2024年4月25日)
陈戈辉、王冠安、黄晓文等。
陈戈辉、王冠安、黄晓文、桑继涛
TAVGBench：文本到可听视频生成基准测试 (2024年4月22日)
毛宇鑫、申旭阳、张静等。
毛宇鑫、申旭阳、张静、秦振、周锦星、向墨初、钟怡然、戴宇超
[ECCV 2024 口头报告] ASVA：音频同步的视觉动画 (2024年3月8日)
张琳、莫申通、张艺京等。
张琳、莫申通、张艺京、佩德罗·莫尔加多
[CVPR 2024] 看与听：基于扩散潜码对齐器的开放域视觉-音频生成（2024年2月27日）
邢亚舟、何英青、田泽岳等
邢亚舟、何英青、田泽岳、王新涛、陈启峰
TräumerAI：使用StyleGAN创作梦幻音乐（2021年2月9日）
郑多暹、都承宪、权泰均（NeurIPS 2020研讨会）
郑多暹、都承宪、权泰均
Sound2Sight：从声音和上下文生成视觉动态（2020年7月23日）
阿努普·切里安、莫伊特雷亚·查特吉、纳伦德拉·阿胡贾。（ECCV 2020）
阿努普·切里安、莫伊特雷亚·查特吉、纳伦德拉·阿胡贾

基准测试

VBench++：视频生成模型的全面且多功能基准测试套件（2024年11月20日）
黄子琪、张帆、徐晓杰等
黄子琪、张帆、徐晓杰、何一楠、于嘉硕、董子悦、马倩莉、纳塔波尔·灿派西特、司晨阳、蒋宇明、王耀辉、陈欣源、陈英聪、王利民、林大华、乔宇、刘子威
[VideoGen-Eval] 视频生成的黎明：基于SORA类模型的初步探索（2024年10月7日）
曾爱玲、杨宇航、陈卫东等
曾爱玲、杨宇航、陈卫东、刘伟
ChronoMagic-Bench：文本到延时视频生成的变形评估基准（2024年6月26日）
袁圣海、黄金发、许永奇等
袁圣海、黄金发、许永奇、刘耀扬、张绍峰、史宇君、朱睿杰、程新华、罗杰波、李元
TAVGBench：文本到可听视频生成的基准测试（2024年4月22日）
毛宇鑫、沈旭阳、张静等
毛宇鑫、沈旭阳、张静、秦振、周锦星、向墨初、钟怡然、戴宇超
Sora生成具有惊人几何一致性的视频（2024年2月27日）
李轩毅、周大泉、张辰旭等
李轩毅、周大泉、张辰旭、魏绍东、侯启斌、程明明
[CVPR 2024亮点] VBench：视频生成模型的综合基准测试套件（2023年11月29日）
黄子琪、何一楠、于嘉硕等
黄子琪、何一楠、于嘉硕、张帆、司晨阳、蒋宇明、张远涵、吴天行、金庆阳、纳塔波尔·灿派西特、王耀辉、陈欣源、王利民、林大华、乔宇、刘子威
[CVPR 2024] EvalCrafter：大型视频生成模型的基准测试与评估（2024年3月23日）
刘耀芳、孙晓东、刘学博等
刘耀芳、孙晓东、刘学博、王新涛、张勇、陈浩鑫、刘洋、曾铁勇、陈Raymond、山英

数据集

VidGen-1M：用于文本到视频生成的大规模数据集（2024年8月5日）
谭志宇、杨晓梦、秦洛铮等
谭志宇、杨晓梦、秦洛铮、李浩
Vript：一图胜千言（2024年6月10日）
[NIPS 2024 数据集与基准赛道] 杨东杰、黄苏源、陆成强等
杨东杰、黄苏源、陆成强、韩晓东、张浩鑫、高岩、胡耀、赵海
MMTrail：包含语言和音乐描述的多模态预告片视频数据集（2024年7月30日）
迟晓伟、王雅婷、程傲松等
迟晓伟、王雅婷、程傲松、方鹏俊、田泽悦、何英青、刘兆阳、齐兴群、潘嘉豪、张荣宇、李孟菲、袁瑞斌、蒋延兵、薛伟、罗文翰、陈启峰、张尚航、刘启峰、郭义克
InternVid：用于多模态理解和生成的大规模视频-文本数据集（2023年7月13日）
[ICLR 2024 Spotlight] 王毅、何一楠、李一卓等
王毅、何一楠、李一卓、李坤昌、于家硕、马欣、李新浩、陈国、陈新元、王耀辉、何聪慧、罗平、刘子威、王亚丽、王利民、乔宇
[HD-VG-130M] VideoFactory：在时空扩散模型中引入交换注意力以实现文本到视频生成（2023年5月18日）
王文静、杨欢、拓子熙等
王文静、杨欢、拓子熙、何会国、朱俊辰、傅建龙、刘佳颖
[VideoCC3M] 从图像字幕中学习音频-视频模态（2023年5月18日）
[ECCV 2022] 阿尔沙·纳格拉尼、保罗·洪淑·徐、布莱恩·塞博尔德等
阿尔沙·纳格拉尼、保罗·洪淑·徐、布莱恩·塞博尔德、安雅·豪斯、圣地亚哥·马嫩、孙晨、科黛莉亚·施密德
CelebV-Text：大规模人脸文本-视频数据集（2023年3月26日）
[CVPR 2023] 俞建辉、朱浩、姜立明等
俞建辉、朱浩、姜立明、陈昌·洛伊、蔡卫东、吴伟
[HD-VILA-100M] 利用大规模视频转录推进高分辨率视频-语言表示（2021年11月19日）
[CVPR 2022] 薛宏伟、杭天凯、曾艳红等
薛宏伟、杭天凯、曾艳红、孙玉冲、刘贝、杨欢、傅建龙、郭百宁
[YT-Temporal-180M] MERLOT：多模态神经脚本知识模型（2021年6月4日）
[NeurIPS 2021] 罗温·泽勒斯、卢希明、杰克·赫塞尔等。
罗温·泽勒斯、卢希明、杰克·赫塞尔、柳英宰、朴在成、曹继泽、阿里·法拉哈迪、崔艺珍
[WebVid-10M] 凝固时间：用于端到端检索的视频与图像联合编码器（2021年4月1日）
[ICCV 2021] 马克斯·贝恩、阿尔莎·纳格拉尼、居尔·瓦罗尔等。
马克斯·贝恩、阿尔莎·纳格拉尼、居尔·瓦罗尔、安德鲁·齐塞曼
[WTS70M] 基于文本网络监督学习视频表示（2020年7月29日）
乔纳森·C·斯特劳德、陆志超、陈孙等。
乔纳森·C·斯特劳德、陆志超、陈孙、邓佳、拉胡尔·苏坎塔尔、科黛莉亚·施密德、戴维·A·罗斯
HowTo100M：通过观看一亿个带旁白的视频片段学习文本-视频嵌入（2019年6月7日）
[ICCV 2019] 安托万·米埃什、季米特里·朱科夫、让-巴蒂斯特·阿拉伊拉克等。
安托万·米埃什、季米特里·朱科夫、让-巴蒂斯特·阿拉伊拉克、马卡兰德·塔帕斯维、伊万·拉普捷夫、约瑟夫·西维奇
VATEX：面向视频与语言研究的大规模高质量多语言数据集（2019年4月6日）
[ICCV 2019 口头报告] 王欣、吴嘉伟、陈俊坤等。
王欣、吴嘉伟、陈俊坤、李磊、王元芳、威廉·杨·王
How2：大规模多模态语言理解数据集（2019年6月7日）
[NeurIPS 2018] 拉蒙·萨纳布里亚、奥赞·卡格拉扬、舒鲁蒂·帕拉斯卡尔等。
拉蒙·萨纳布里亚、奥赞·卡格拉扬、舒鲁蒂·帕拉斯卡尔、德斯蒙德·埃利奥特、洛伊克·巴拉尔、露西亚·斯佩夏、弗洛里安·梅策
[ActivityNet Captions] 视频中事件的密集描述（2017年5月2日）
[ICCV 2017] 兰贾伊·克里希纳、健二·畑、弗雷德里克·任等。
兰贾伊·克里希纳、健二·畑、弗雷德里克·任、李飞飞、胡安·卡洛斯·涅布雷斯
[LSMDC] 电影描述（2016年5月12日）
[IJCV 2017] 安娜·罗尔巴赫、阿图萨·托拉比、马库斯·罗尔巴赫等。
安娜·罗尔巴赫、阿图萨·托拉比、马库斯·罗尔巴赫、尼凯特·坦东、克里斯托弗·帕尔、于戈·拉罗谢尔、阿伦·库维尔、伯恩特·席勒
MSR-VTT：用于连接视频与语言的大型视频描述数据集（2021年4月1日）
[CVPR 2016] 徐军、梅涛、姚婷等。
徐军、梅涛、姚婷和阮勇

3D生成

🔅 基于大语言模型

SceneCraft：用于以Blender代码合成3D场景的大语言模型代理（2024年3月2日）
胡子宇、艾哈迈特·伊斯琴、阿希·贾因等。
胡子宇、艾哈迈特·伊斯琴、阿希·贾因、托马斯·基普夫、伊桑·岳、大卫·A·罗斯、科黛莉亚·施密德、阿里雷扎·法蒂
MotionScript：用于富有表现力的3D人体动作的自然语言描述（2023年12月19日）
帕亚姆·乔梅·亚兹迪安、埃里克·刘、李成等。
帕亚姆·乔梅·亚兹迪安、埃里克·刘、李成、安杰莉卡·林
HOLODECK：语言引导的3D具身AI环境生成（2023年12月19日）
[CVPR 2024]杨悦、孙凡云、卢卡·魏斯等。
杨悦、孙凡云、卢卡·魏斯、伊莱·范德比尔特、阿尔瓦罗·埃拉斯特、温森·韩、吴嘉俊、尼克·哈伯、兰杰·克里希纳、刘凌洁、克里斯·卡利森-伯奇、马克·亚茨卡尔、阿尼鲁达·肯布哈维、克里斯托弗·克拉克
PoseGPT：关于3D人体姿态的对话（2023年11月30日）
冯耀、林静、萨伊·库马尔·德维迪等。
[CVPR 2024]冯耀、林静、萨伊·库马尔·德维迪、孙宇、普里扬卡·帕特尔、迈克尔·J·布莱克
3D-GPT：利用大型语言模型进行程序化3D建模（2023年10月19日）
孙春毅*、韩俊林*、邓伟健等。
孙春毅、韩俊林、邓伟健、王新龙、秦志山、斯蒂芬·古尔德

非LLM-based（Clip/T5）

DreamPolisher：通过几何扩散实现高质量文本到3D生成（2024年3月12日）
林元泽、罗纳德·克拉克、菲利普·托尔。
林元泽、罗纳德·克拉克、菲利普·托尔
Consistent3D：基于确定性采样先验的一致性高保真文本到3D生成（2024年3月12日）
吴子科、周攀、易轩宇等。
[CVPR 2024]吴子科、周攀、易轩宇、袁晓东、张汉旺
AToM：使用2D扩散的摊销式文本到网格生成（2024年2月1日）
钱国成、曹俊立、阿利亚克桑德尔·西亚罗欣等。
钱国成、曹俊立、阿利亚克桑德尔·西亚罗欣、雅什·坎特、王超阳、米哈伊尔·瓦西利科夫斯基、李欣莹、方宇威、伊万·斯科罗霍多夫、庄培业、伊戈尔·吉利琴斯基、任坚、伯纳德·加内姆、克菲尔·阿伯曼、谢尔盖·图利亚科夫
DreamControl：基于控制的3D自先验文本到3D生成（2024年3月12日）
黄天宇、曾义涵、张志陆等。
[CVPR 2024]黄天宇、曾义涵、张志陆、许婉、许航、许松岑、劳仁森·W·H、左望盟
UniDream：用于可重光照文本到3D生成的统一扩散先验（2023年12月14日）
刘泽翔、李阳光、林友田等。
刘泽翔、李阳光、林友田、辛宇、彭思达、曹燕佩、齐小娟、黄晓水、梁丁、欧阳万里
Sherpa3D：通过粗略的3D先验增强高保真文本到3D生成（2023年12月11日）
[CVPR 2024] 刘方富、吴典坤、魏毅等
刘方富、吴典坤、魏毅、饶勇明、段悦琪
学习优化去噪分数以用于3D生成：NeRF与3D高斯溅射上的统一且改进的扩散先验（2023年12月8日）
杨晓峰、陈怡文、陈诚等
杨晓峰、陈怡文、陈诚、张驰、许毅、杨旭雷、刘法耀、林国生
DreamPropeller：通过并行采样加速文本到3D生成（2023年11月28日）
周林奇、Andy Shih、孟晨琳等
周林奇、Andy Shih、孟晨琳、斯特凡诺·埃尔蒙
RichDreamer：一种可泛化的法线-深度扩散模型，用于提升文本到3D生成中的细节丰富度（2023年11月28日）
[CVPR 2024] 邱凌腾、陈冠英、顾晓东等
邱凌腾、陈冠英、顾晓东、左琦、徐牧天、吴雨霜、袁伟浩、董子龙、薄立峰、韩晓光
DreamAvatar：基于扩散模型的文本与形状引导的3D人体化身生成（2023年11月30日）
[CVPR 2024] 曹宇康、曹燕佩、韩凯等
曹宇康、曹燕佩、韩凯、山英、王宽义
LucidDreamer：通过区间分数匹配实现高保真文本到3D生成（2023年12月2日）
[CVPR 2024] 梁一迅、杨欣、林建涛等
梁一迅、杨欣、林建涛、李浩东、徐晓刚、陈颖聪
GaussianDreamer：通过桥接2D与3D扩散模型，实现从文本到3D高斯点云的快速生成（2023年10月12日）
[CVPR 2024] 易涛然、方继民、王俊杰等
易涛然、方继民、王俊杰、吴冠军、谢凌熙、张小鹏、刘文宇、田齐、王兴刚
使用高斯溅射进行文本到3D生成（2023年9月28日）
[CVPR 2024] 陈子龙、王峰、刘华萍
陈子龙、王峰、刘华萍
EfficientDreamer：通过正交视图扩散先验实现高保真且鲁本的3D创作（2023年9月10日）
[CVPR 2024] 胡志鹏、赵敏达、赵超逸、梁新悦、李林成、赵增、范昌杰、周晓伟、于鑫
胡志鹏、赵敏达、赵超逸、梁新悦、李林成、赵增、范昌杰、周晓伟、于鑫
TADA！文本到可动画数字化身（2023年8月21日）
[3DV 2024] 廖婷婷、易洪伟、修玉良等
廖婷婷、易洪伟、修玉良、唐家兴、黄阳毅、Justus Thies、迈克尔·J·布莱克
SweetDreamer：在 2D 扩散模型中对齐几何先验以实现一致的文本到 3D 生成（2023 年 10 月 20 日）
[ICLR 2024] 李伟宇、陈睿、陈雪琳等
李伟宇、陈睿、陈雪琳、谭平
无噪声分数蒸馏（2023 年 10 月 26 日）
[ICLR 2024] 奥伦·卡齐尔、奥尔·帕塔什尼克、丹尼尔·科恩-奥尔等
奥伦·卡齐尔、奥尔·帕塔什尼克、丹尼尔·科恩-奥尔、达尼·利希金斯基
基于分类器分数蒸馏的文本到 3D 生成（2023 年 10 月 26 日）
[ICLR 2024] 辛宇、郭元辰、李阳光等
辛宇、郭元辰、李阳光、丁亮、张松海、戚小娟
HiFA：基于高级扩散引导的高保真文本到 3D 生成（2023 年 11 月 28 日）
[ICLR 2024] 朱俊哲、庄培业
朱俊哲、庄培业
MVDream：用于 3D 生成的多视角扩散模型（2023 年 8 月 31 日）
[ICLR 2024] 史一春、王鹏、叶江龙等
史一春、王鹏、叶江龙、麦龙、李克杰、肖洋
DreamGaussian：用于高效 3D 内容创作的生成式高斯泼溅（2023 年 9 月 28 日）
[ICLR 2024] 唐家祥、任嘉伟、周航等
唐家祥、任嘉伟、周航、刘子威、曾刚
让 2D 扩散模型了解 3D 一致性，以实现稳健的文本到 3D 生成（2023 年 4 月 11 日）
[ICLR 2024] 徐俊英、张宇锡、郭敏燮等
徐俊英、张宇锡、郭敏燮、金贤洙、高在勋、金俊浩、金镇华、李智英、金承龙
IT3D：通过显式视图合成改进的文本到 3D 生成（2023 年 8 月 22 日）
[AAAI 2024] 陈义文、张驰、杨晓峰等
陈义文、张驰、杨晓峰、蔡中刚、于刚、杨磊、林国胜
HD-Fusion：利用多重噪声估计实现细节丰富的文本到 3D 生成（2023 年 7 月 30 日）
[WACV 2024] 吴金波、高晓波、刘星等
吴金波、高晓波、刘星、沈正阳、赵晨、冯浩成、刘景涛、丁尔瑞
重新构想负提示算法：将 2D 扩散模型转化为 3D，缓解雅努斯问题及更多（2023 年 4 月 11 日）
穆罕默德雷扎·阿曼德普尔、阿里·萨德吉安、郑黄杰等
穆罕默德雷扎·阿曼德普尔、阿里·萨德吉安、郑黄杰、阿米尔·萨德吉安、周明远
基于潜在NeRF的形状引导三维形状与纹理生成（2022年11月14日）
[CVPR 2023] Gal Metzer、Elad Richardson、Or Patashnik等
Gal Metzer、Elad Richardson、Or Patashnik、Raja Giryes、Daniel Cohen-Or
Magic3D：高分辨率文本到3D内容创作（2022年11月18日）
[CVPR 2023亮点] Chen-Hsuan Lin、Jun Gao、Luming Tang等
Chen-Hsuan Lin、Jun Gao、Luming Tang、Towaki Takikawa、Xiaohui Zeng、Xun Huang、Karsten Kreis、Sanja Fidler、Ming-Yu Liu、Tsung-Yi Lin
分数雅可比链：将预训练的2D扩散模型扩展用于3D生成（2022年12月1日）
[CVPR 2023] Haochen Wang、Xiaodan Du、Jiahao Li等
Haochen Wang、Xiaodan Du、Jiahao Li、Raymond A. Yeh、Greg Shakhnarovich
基于自然语言描述的高保真3D人脸生成（2023年5月5日）
[CVPR 2023] Menghua Wu、Hao Zhu、Linjia Huang等
Menghua Wu、Hao Zhu、Linjia Huang、Yiyu Zhuang、Yuanxun Lu、Xun Cao
RODIN：利用扩散技术雕刻3D数字化身的生成模型（2022年12月12日）
[CVPR 2023亮点] Tengfei Wang、Bo Zhang、Ting Zhang等
Tengfei Wang、Bo Zhang、Ting Zhang、Shuyang Gu、Jianmin Bao、Tadas Baltrusaitis、Jingjing Shen、Dong Chen、Fang Wen、Qifeng Chen、Baining Guo
ClipFace：基于文本指导的带纹理3D可变形模型编辑（2023年4月24日）
[SIGGRAPH 2023] Tengfei Wang、Bo Zhang、Ting Zhang等
Tengfei Wang、Bo Zhang、Ting Zhang、Shuyang Gu、Jianmin Bao、Tadas Baltrusaitis、Jingjing Shen、Dong Chen、Fang Wen、Qifeng Chen、Baining Guo
DreamFusion：使用2D扩散实现文本到3D（2022年9月29日）
[ICLR 2023口头报告] Ben Poole、Ajay Jain、Jonathan T. Barron等
Ben Poole、Ajay Jain、Jonathan T. Barron、Ben Mildenhall
ProlificDreamer：通过变分分数蒸馏实现高保真且多样化的文本到3D生成（2023年5月25日）
[NeurIPS 2023 Spotlight] Zhengyi Wang、Cheng Lu、Yikai Wang等
Zhengyi Wang、Cheng Lu、Yikai Wang、Fan Bao、Chongxuan Li、Hang Su、Jun Zhu
HeadSculpt：用文本打造3D头部化身（2023年5月25日）
[NeurIPS 2023] Xiao Han、Yukang Cao、Kai Han等
Xiao Han、Yukang Cao、Kai Han、Xiatian Zhu、Jiankang Deng、Yi-Zhe Song、Tao Xiang、Kwan-Yee K. Wong
ATT3D：摊销式文本到3D物体合成（2023年6月6日）
[ICCV 2023] Jonathan Lorraine、Kevin Xie、Xiaohui Zeng等
Jonathan Lorraine、Kevin Xie、Xiaohui Zeng、Chen-Hsuan Lin、Towaki Takikawa、Nicholas Sharp、Tsung-Yi Lin、Ming-Yu Liu、Sanja Fidler、James Lucas
Fantasia3D：解耦几何与外观以实现高质量文本到3D内容生成（2023年3月24日）
[ICCV 2023] 陈睿、陈勇伟、焦宁欣等
陈睿、陈勇伟、焦宁欣、贾奎
Text2Room：从2D文本到图像模型中提取带纹理的3D网格（2023年9月10日）
[ICCV 2023] 卢卡斯·霍莱因、曹昂、安德鲁·欧文斯等
卢卡斯·霍莱因、曹昂、安德鲁·欧文斯、贾斯汀·约翰逊、马蒂亚斯·尼斯纳尔
X-Mesh：通过动态文本引导实现快速且准确的文本驱动3D风格化（2023年3月28日）
[ICCV 2023] 马毅伟、张晓青、孙晓帅等
马毅伟、张晓青、孙晓帅、季佳怡、王浩伟、蒋冠楠、庄伟林、季荣荣
StyleAvatar3D：利用图文扩散模型生成高保真3D虚拟形象（2023年5月31日）
张驰、陈艺文、傅一军等
张驰、陈艺文、傅一军、周正林、于刚、Billzb Wang、傅斌、陈涛、林国生、沈春华
TextMesh：根据文本提示生成逼真的3D网格（2023年4月24日）
[3DV 2023] 克里斯蒂娜·察利科格鲁、法比安·曼哈特、阿莱西奥·托尼奥尼等
克里斯蒂娜·察利科格鲁、法比安·曼哈特、阿莱西奥·托尼奥尼、迈克尔·尼迈耶、费德里科·汤巴里
Clip-forge：迈向零样本文本到形状生成（2022年4月28日）
[CVPR 2022] 阿迪提亚·桑吉、朱航、约瑟夫·G·兰伯恩等
阿迪提亚·桑吉、朱航、约瑟夫·G·兰伯恩、王晔、程锦义、马可·富梅罗、卡马尔·拉希米·马莱克尚
基于Dream Fields的零样本文本引导对象生成（2021年12月2日）
[CVPR 2022] 阿杰·贾因、本·米尔登霍尔、乔纳森·T·巴伦等
阿杰·贾因、本·米尔登霍尔、乔纳森·T·巴伦、皮特·阿贝尔、本·普尔
Text2Mesh：基于文本的神经风格化用于网格（2021年12月6日）
[CVPR 2022] 奥斯卡·米歇尔、罗伊·巴尔-翁、理查德·刘等
奥斯卡·米歇尔、罗伊·巴尔-翁、理查德·刘、萨吉·贝奈姆、拉娜·哈诺卡
TANGO：通过光照分解实现文本驱动的写实且稳健的3D风格化（2022年10月20日）
[NeurIPS 2022 Spotlight] 陈勇伟、陈睿、雷家宝等
陈勇伟、陈睿、雷家宝、张亚彬、贾奎
CLIP-Mesh：利用预训练的图文模型从文本生成带纹理的网格模型（2022年3月24日）
[SIGGRAPH ASIA 2022] 纳西尔·穆罕默德·哈立德、谢天浩、尤金·贝利洛夫斯基等
纳西尔·穆罕默德·哈立德、谢天浩、尤金·贝利洛夫斯基、蒂贝里乌·波帕
MotionCLIP：将人体运动生成引入CLIP空间（2022年3月15日）
[ECCV 2022] 盖伊·特韦特、布赖恩·戈登、阿米尔·赫兹等
盖伊·特韦特、布赖恩·戈登、阿米尔·赫兹、阿米特·H·伯曼诺、丹尼尔·科恩-奥尔

数据集

Objaverse-XL：包含1000多万个3D对象的宇宙（2023年7月11日）
马特·戴特克、达斯汀·施文克、乔迪·萨尔瓦多等
马特·戴特克、刘若诗、马修·沃灵福德、黄芳、奥斯卡·米歇尔、阿迪提亚·库苏帕蒂、艾伦·范、克里斯蒂安·拉福尔特、维克拉姆·沃莱蒂、萨米尔·伊扎克·加德雷、埃利·范德比尔特、阿尼鲁达·肯巴维、卡尔·冯德里克、乔治娅·吉奥克萨里、基安娜·埃赫萨尼、路德维希·施密特、阿里·法尔哈迪
Objaverse：一个包含标注3D对象的宇宙（2022年12月15日）
[CVPR 2023] 马特·戴特克、达斯汀·施文克、乔迪·萨尔瓦多等
马特·戴特克、达斯汀·施文克、乔迪·萨尔瓦多、卢卡·魏斯、奥斯卡·米歇尔、埃利·范德比尔特、路德维希·施密特、基安娜·埃赫萨尼、阿尼鲁达·肯巴维、阿里·法尔哈迪

音频生成

🔅 基于大语言模型

SongComposer：用于歌曲创作中歌词与旋律编写的大型语言模型（2024年2月27日）
丁双锐、刘子涵、董晓艺等
丁双锐、刘子涵、董晓艺、张攀、钱睿、何聪辉、林大华、王佳琪
ChatMusician：利用大语言模型内在地理解并生成音乐（2024年2月25日）
袁瑞斌、林汉峰、王毅等
袁瑞斌、林汉峰、王毅、田泽悦、吴尚达、沈天浩、张戈、吴宇航、刘聪、周子雅、马子洋、薛柳萌、王子宇、刘秦、郑天宇、李一志、马英豪、梁一鸣、迟晓伟、刘瑞博、王子力、李鹏飞、吴景成、林成华、刘启峰、蒋涛、黄文浩、陈文虎、埃马努埃尔·贝内托斯、傅杰、夏古斯、罗杰·丹嫩伯格、薛伟、康世银、郭义克
AnyGPT：具有离散序列建模能力的统一多模态大语言模型（2024年2月19日）
詹俊、戴俊奇、叶嘉盛等
詹俊、戴俊奇、叶嘉盛、周云华、张东、刘志庚、张欣、袁瑞斌、张戈、李林阳、严航、傅杰、桂涛、孙天翔、姜宇刚、邱锡鹏
提升大语言模型在语音合成中的性能：一项实证研究（2023年12月30日）
郝洪坤、周龙、刘淑洁等
郝洪坤、周龙、刘淑洁、李金宇、胡淑洁、王睿、魏富儒
Unified-IO 2: 使用视觉、语言、音频和动作扩展自回归多模态模型（2023年12月28日）
卢嘉森、克里斯托弗·克拉克、李尚浩等
卢嘉森、克里斯托弗·克拉克、李尚浩、张子辰、萨维亚·科斯拉、瑞安·马滕、德里克·霍伊姆、阿尼鲁达·肯布哈维
M2UGen: 利用大型语言模型的力量进行多模态音乐理解与生成（2023年11月19日）
阿廷·萨基尔·侯赛因、刘善松、孙晨硕等
阿廷·萨基尔·侯赛因、刘善松、孙晨硕、Ying Shan
LauraGPT: 使用GPT聆听、关注、理解并再生音频（2023年10月7日）
王佳明、杜志豪、陈倩等
王佳明、杜志豪、陈倩、褚云飞、高志福、李泽睿、胡凯、周晓欢、徐进、马子洋、王文、郑思琪、周昌、严志杰、张士良
LLaSM: 大型语言与语音模型（2023年8月30日）
舒宇、董思伟、陈光耀等
舒宇、董思伟、陈光耀、黄文浩、张瑞华、石道臣、向奇奇、史业民
AudioPaLM: 一款能说会听的大型语言模型（2023年6月22日）
保罗·K·鲁本斯坦、楚拉育·阿萨沃荣猜、杜克·邓·阮等
保罗·K·鲁本斯坦、楚拉育·阿萨沃荣猜、杜克·邓·阮、安库尔·巴普纳、扎兰·博尔索斯、费利克斯·德·绍蒙特·奎特里、彼得·陈、达莉娅·埃尔·巴达维、魏汉、尤金·哈里托诺夫、汉娜·穆肯希尔恩、迪尔克·帕德菲尔德、詹姆斯·秦、丹尼·罗森伯格、塔拉·赛纳特、约翰·沙尔克维克、马特·沙里菲、米歇尔·塔德莫尔·拉马诺维奇、马可·塔利亚萨奇、亚历山德鲁·图多尔、米哈伊洛·韦利米罗维奇、达米安·文森特、于佳辉、王永强、维姬·扎亚茨、尼尔·泽吉杜尔、张宇、张志帅、卢卡斯·齐尔卡、克里斯蒂安·弗兰克
Pengi: 用于音频任务的音频语言模型（2023年5月19日）
索哈姆·德什穆克、本杰明·埃利萨尔德、丽塔·辛格等
索哈姆·德什穆克、本杰明·埃利萨尔德、丽塔·辛格、王华明
Speechgpt: 赋予大型语言模型内在的跨模态对话能力（2023年5月18日）
张东、李世敏、张欣等
张东、李世敏、张欣、詹军、王鹏宇、周雅倩、邱希鹏
通用人工智能的火花：GPT-4的早期实验（2023年3月22日）
塞巴斯蒂安·布贝克、瓦伦·钱德拉塞卡兰、罗嫩·埃尔丹等
塞巴斯蒂安·布贝克、瓦伦·钱德拉塞卡兰、罗嫩·埃尔丹、约翰内斯·格尔克、埃里克·霍维茨、埃杰·卡马尔、彼得·李、李银达、李元智、斯科特·伦德伯格、哈尔沙·诺里、哈米德·帕兰吉、马尔科·图利奥·里贝罗、张毅

非LLM相关

Audiobox：基于自然语言提示的统一音频生成（2023年12月25日）
阿普尔·维亚斯、鲍文·施、马修·勒
Music ControlNet：用于音乐生成的多时变控制（2023年11月13日）
吴世伦、克里斯·多纳休、渡边真司等
吴世伦、克里斯·多纳休、渡边真司、尼古拉斯·J·布莱恩
Loop Copilot：用于音乐生成与迭代编辑的AI合奏指挥系统（2023年10月19日）
张一骁、前泽明、Gus Xia等
张一骁、前泽明、Gus Xia、山本和彦、西蒙·迪克森
MusicAgent：基于大型语言模型的音乐理解与生成AI代理（2023年10月18日）
于丁瑶、宋凯涛、陆培玲等
于丁瑶、宋凯涛、陆培玲、何天宇、谭旭、叶伟、张士坤、卞江
UniAudio：面向通用音频生成的音频基础模型（2023年10月1日）
杨东超、田锦川、谭旭
AudioLM：一种基于语言模型的音频生成方法（2022年9月7日）
扎兰·博尔索斯、拉斐尔·马里尼耶、达米安·文森特等（IEEE/ACM音频、语音与语言处理期刊）
扎兰·博尔索斯、拉斐尔·马里尼耶、达米安·文森特、尤金·哈里托诺夫、奥利维埃·皮特坎、马特·沙里菲、多米尼克·罗布莱克、奥利维埃·特布尔、大卫·格兰吉耶、马可·塔利亚萨奇、尼尔·泽吉杜尔
Wavjourney：利用大型语言模型进行组合式音频创作（2023年7月26日）
刘旭波、朱中凯、刘浩赫等
刘旭波、朱中凯、刘浩赫、袁毅、崔萌、黄秋实、梁金华、曹寅、孔秋强、马克·D·普伦布利、王文武
探究大型语言模型中的意外性在语音合成韵律中的应用价值（2023年6月16日）
索福克里斯·卡库罗斯、尤拉伊·希姆科、马尔蒂·韦尼奥等（2023年SSW会议）
索福克里斯·卡库罗斯、尤拉伊·希姆科、马尔蒂·韦尼奥、安蒂·苏尼
简单可控的音乐生成（2023年6月8日）
贾德·科佩特、费利克斯·克鲁克、伊泰·加特等
贾德·科佩特、费利克斯·克鲁克、伊泰·加特、塔尔·雷梅兹、大卫·坎特、加布里埃尔·辛纳耶夫、约西·阿迪、亚历山大·德福塞》
Make-An-Audio 2: 时序增强的文本到音频生成（2023年5月29日）
黄嘉伟、任毅、黄荣杰等
黄嘉伟、任毅、黄荣杰、杨东超、叶振辉、张晨、刘景林、尹翔、马泽军、赵周
Jukebox: 音乐生成模型（2020年4月30日）
普拉富拉·达里瓦尔、俊熙宇、克里斯汀·佩恩等
普拉富拉·达里瓦尔、俊熙宇、克里斯汀·佩恩、金钟旭、亚历克·拉德福德、伊利亚·萨茨克维尔
Audiogpt: 理解与生成语音、音乐、声音及说话人头像（2023年4月25日）
黄荣杰、李明泽、杨东超等
黄荣杰、李明泽、杨东超、施家彤、常轩凯、叶振辉、吴雨宁、洪志清、黄嘉伟、刘景林、任毅、赵周、渡边真司
TANGO: 基于指令微调的大语言模型与潜在扩散模型的文本到音频生成（2023年4月24日）
迪潘韦·戈沙尔、纳沃尼尔·马朱姆达尔、安布吉·梅里什等
迪潘韦·戈沙尔、纳沃尼尔·马朱姆达尔、安布吉·梅里什、苏贾尼亚·波里亚
Hugginggpt: 利用ChatGPT及其在Hugging Face中的伙伴解决AI任务（2023年3月30日）
沈永亮、宋凯涛、谭旭等
沈永亮、宋凯涛、谭旭、李东升、陆卫明、庄玉婷
神经编解码语言模型是零样本文本到语音合成器（2023年1月5日）
王成义、陈三元、吴宇等
王成义、陈三元、吴宇、张子强、周龙、刘淑洁、陈卓、刘艳青、王华明、李金宇、何磊、赵胜、魏福如
MusicLM: 从文本生成音乐（2023年1月26日）
安德烈亚·阿戈斯蒂内利、蒂莫·I·登克、扎兰·博尔索斯等
安德烈亚·阿戈斯蒂内利、蒂莫·I·登克、扎兰·博尔索斯、杰西·恩格尔、毛罗·韦尔泽蒂、安托万·凯永、黄庆庆、阿伦·扬森、亚当·罗伯茨、马可·塔格利亚萨奇、马特·沙里菲、尼尔·泽吉杜尔、克里斯蒂安·弗兰克

数据集

Libriheavy: 包含标点符号、大小写及上下文的5万小时ASR语料库（2023年9月15日）
康伟、杨晓宇、姚增伟等
康伟、杨晓宇、姚增伟、匡方俊、杨一凡、郭立勇、林龙、丹尼尔·波维
WenetSpeech: 用于语音识别的超过1万小时多领域普通话语料库（2021年10月7日）
张斌斌、吕航、郭鹏程等
张斌斌、吕航、郭鹏程、邵启杰、杨超、谢磊、许欣、步辉、陈晓宇、曾晨晨、吴迪、彭振东
Vggsound：一个大规模的视听数据集（2020年4月29日）
陈洪烈、谢伟迪、安德烈亚·韦达尔迪等（ICASSP）
陈洪烈、谢伟迪、安德烈亚·韦达尔迪、安德鲁·齐瑟曼
Libri-Light：一个用于有限或无监督ASR的基准数据集（2019年12月17日）
雅各布·卡恩、摩根·里维埃尔、魏毅郑等（ICASSP）
雅各布·卡恩、摩根·里维埃尔、魏毅郑、叶夫根尼·哈里托诺夫、钱通徐、皮埃尔-埃马纽埃尔·马扎雷、朱利安·卡拉达伊、维塔利·利普钦斯基、罗南·科洛贝尔、克里斯蒂安·富根、塔季亚娜·利霍马年科、加布里埃尔·辛纳耶夫、阿芒·朱兰、阿卜杜勒-拉赫曼·穆罕默德、埃马纽埃尔·杜普克斯
mtg-jamendo音乐自动标签数据集（2019年6月15日）
德米特里·博格达诺夫、闵兹·温、菲利普·托夫斯托甘等（ICML）
德米特里·博格达诺夫、闵兹·温、菲利普·托夫斯托甘、阿拉斯泰尔·波特、哈维尔·塞拉
LibriTTS：基于LibriSpeech的文本到语音语料库（2019年4月5日）
禅平贺、越邓、罗布·克拉克等
禅平贺、越邓、罗布·克拉克、张宇、罗恩·J·魏斯、叶佳、陈志峰、吴永辉
借助MAESTRO数据集实现钢琴音乐的因子化建模与生成（2018年10月29日）
柯蒂斯·霍桑、安德烈·斯塔修克、亚当·罗伯茨等
柯蒂斯·霍桑、安德烈·斯塔修克、亚当·罗伯茨、伊恩·西蒙、程智安娜·黄、桑德·迪勒曼、埃里希·埃尔森、杰西·恩格尔、道格拉斯·埃克
Audio Set：音频事件的本体论及人工标注数据集（2017年3月5日）
约尔特·F·盖梅克、丹尼尔·P·W·埃利斯、迪伦·弗里德曼等（TASLP）
约尔特·F·盖梅克、丹尼尔·P·W·埃利斯、迪伦·弗里德曼、阿伦·扬森、韦德·劳伦斯、R·钱宁·摩尔、马诺杰·普拉卡尔、马文·里特尔
Librispeech：基于公共领域有声读物的ASR语料库（2015年4月19日）
瓦西尔·帕纳约托夫、郭国臣、丹尼尔·波维等（ICASSP）
瓦西尔·帕纳约托夫、郭国臣、丹尼尔·波维、桑吉夫·库丹普尔
利用游戏评估算法：以音乐标签为例（2009年10月26日）
艾迪丝·劳、克里斯·韦斯特、迈克尔·曼德尔等（ISMIR）
艾迪丝·劳、克里斯·韦斯特、迈克尔·曼德尔、梅尔特·贝伊、J·史蒂芬·道尼

多模态生成

🔅 基于大语言模型

C3LLM：基于大型语言模型的条件多模态内容生成（2024年5月25日）
王梓轩、段钦凯、戴宇荣等
王梓轩、段钦凯、戴宇荣、唐志刚
CoDi-2：上下文内、交错式、交互式的任意到任意生成（2023年11月30日）
汤子宁、杨子怡、马哈茂德·卡德米等
汤子宁、杨子怡、马哈茂德·卡德米、刘洋、朱成光、莫希特·班萨尔
TEAL：为多模态大型语言模型对所有内容进行分词与嵌入（2023年11月8日）
杨振、张英雪、孟凡东等
杨振、张英雪、孟凡东、周杰
 tokenizer
NExT-GPT：任意到任意的多模态大语言模型（2023年9月11日）
吴圣琼、费浩、屈雷刚等
吴圣琼、费浩、屈雷刚、季伟、蔡添顺
CoDi：通过可组合扩散实现任意到任意生成（2023年5月19日）
[NeurIPS 2023] 汤子宁、杨子怡、朱成光等
汤子宁、杨子怡、朱成光、Michael Zeng、莫希特·班萨尔

非基于大语言模型

DiffSHEG：一种基于扩散模型的实时语音驱动全息3D表情与手势生成方法（2024年1月9日）
[CVPR 2024] 陈俊明等
陈俊明、刘云飞、王佳楠、曾爱玲、李宇、陈启峰
看见与听见：利用扩散潜变量对齐器进行开放域视觉-音频生成（2024年2月27日）
[CVPR 2024] 邢亚舟、何颖青、田泽悦等
邢亚舟、何颖青、田泽悦、王新涛、陈启峰

📍 多模态编辑

图像编辑

🔅 基于大语言模型

UltraEdit：基于指令的大规模细粒度图像编辑（2024年7月7日）
赵浩哲、马晓健、陈亮等
赵浩哲、马晓健、陈亮、司树正、吴如洁、安凯凯、余培宇、张敏嘉、李庆、常宝宝
TIE：革新文本驱动的图像编辑，实现复杂提示遵循与高保真编辑（2024年5月27日）
张欣宇、康梦雪、魏飞等
张欣宇、康梦雪、魏飞、徐爽、刘宇和、马林
SmartEdit：探索基于复杂指令的多模态大语言模型图像编辑（2023年12月11日）
[CVPR 2024] 黄宇舟、谢良斌、王新涛等
黄宇舟、谢良斌、王新涛、袁子洋、寸晓东、葛一骁、周建涛、董超、黄睿、张瑞茂、单颖
自纠正LLM控制的扩散模型（2023年11月27日）
[CVPR 2024] 吴宗翰、连龙、约瑟夫·E·冈萨雷斯等
吴宗翰、连龙、约瑟夫·E·冈萨雷斯、李博毅、特雷弗·达雷尔
Emu Edit：通过识别与生成任务实现精确图像编辑（2023年11月16日）
[ArXiv 2023] 谢莉·谢因因、亚当·波利亚克、乌里埃尔·辛格等
谢莉·谢因因、亚当·波利亚克、乌里埃尔·辛格、尤瓦尔·基尔斯泰因、阿米特·佐哈尔、奥伦·阿舒阿尔、黛薇·帕里克、亚尼夫·泰格曼
通过多模态大语言模型引导基于指令的图像编辑
[ICLR 2024（亮点论文）] 傅祖杰、胡文泽、杜贤志等
傅祖杰、胡文泽、杜贤志、威廉·杨·王、殷飞·杨、甘哲
CHATEDIT：迈向基于对话的多轮交互式人脸图像编辑（2023年3月20日）
[EMNLP 2023] 崔星、李泽坤、李佩佩等
崔星、李泽坤、李佩佩、胡一博、史海林、何兆峰
HIVE：利用人类反馈进行指导性视觉编辑（2023年3月16日）
张姝、杨欣怡、冯义浩等
张姝、杨欣怡、冯义浩、秦灿、陈嘉志、于宁、陈泽远、王欢、西尔维奥·萨瓦雷斯、斯特凡诺·埃尔蒙、熊才明、徐然。
Visual ChatGPT：与视觉基础模型对话、绘图和编辑（2023年3月8日）
吴晨菲、尹圣明、齐伟珍等
吴晨菲、尹圣明、齐伟珍、王晓东、唐泽成、段楠
InstructPix2Pix：学习遵循图像编辑指令（2022年11月17日）
[CVPR 2023（亮点论文）] 布鲁克斯、蒂姆、亚历山大·霍林斯基和阿列克谢·A·叶夫罗斯。

非LLM类（Clip/T5）

SeedEdit：将图像重生成与图像编辑对齐（2024年11月11日）
施一春、王鹏、黄伟林
DiffEditor：提升基于扩散模型的图像编辑精度与灵活性（2024年2月4日）
[CVPR 2024] 邵蒙、王新涛、宋杰冲等
邵蒙、王新涛、宋杰冲、Ying Shan、Jian Zhang。
ZONE：零样本指令引导的局部编辑（2023年12月28日）
李尚林、曾博涵、冯宇唐等
李尚林、曾博涵、冯宇唐、高思成、刘旭辉、刘嘉铭、林立、唐旭、胡耀、刘建庄、张宝昌。
留意每一步：基于文本指令的局部图像与场景编辑（2023年8月17日）
Ashkan Mirzaei、Tristan Aumentado-Armstrong、Marcus A. Brubaker等
Ashkan Mirzaei、Tristan Aumentado-Armstrong、Marcus A. Brubaker、Jonathan Kelly、Alex Levinshtein、Konstantinos G. Derpanis、Igor Gilitschenski。
Dragondiffusion：在扩散模型上实现拖拽式操控（2023年7月5日）
[ICLR 2024] 邵蒙、王新涛、宋杰冲等
邵蒙、王新涛、宋杰冲、Ying Shan、Jian Zhang。
差异扩散：让每个像素都发挥其优势（2023年6月1日）
[Arxiv 2023] Thao Nguyen、Yuheng Li、Utkarsh Ojha等
Thao Nguyen、Yuheng Li、Utkarsh Ojha、Yong Jae Lee。
视觉指令反演：通过视觉提示进行图像编辑（2023年7月26日）
[ArXiv 2023] Thao Nguyen、Yuheng Li、Utkarsh Ojha等
Thao Nguyen、Yuheng Li、Utkarsh Ojha、Yong Jae Lee。
MasaCtrl：无需调优的一致性图像合成与编辑中的互斥自注意力控制（2023年4月17日）
[ICCV 2023] 曹明登、王新涛、齐中刚等
曹明登、王新涛、齐中刚、Ying Shan、Xiaohu Qie、Yinqiang Zheng。
PAIR-Diffusion：全面的多模态对象级图像编辑器（2023年3月30日）
[ArXiv 2023] Vidit Goel、Elia Peruzzo、Yifan Jiang等
Vidit Goel、Elia Peruzzo、Yifan Jiang、Dejia Xu、Xingqian Xu、Nicu Sebe、Trevor Darrell、Zhangyang Wang、Humphrey Shi。
零样本图像到图像的转换（2023年2月6日）
[SIGGRAPH 2023] Gaurav Parmar、Krishna Kumar Singh、Richard Zhang等
Gaurav Parmar、Krishna Kumar Singh、Richard Zhang、Yijun Li、Jingwan Lu、Jun-Yan Zhu。
SINE：基于文本到图像扩散模型的单张图像编辑（2022年12月8日）
[CVPR 2023] 张志行、韩立功、Arnab Ghosh 等
张志行、韩立功、Arnab Ghosh、Dimitris Metaxas、任健。
基于复杂文本指令的交互式图像操控（2022年11月25日）
[WACV 2023] 森田隆吾、张志强、何文敏等
森田隆吾、张志强、何文敏、周金佳。
用于文本驱动图像到图像转换的即插即用扩散特征（2022年11月22日）
[CVPR 2023] 纳雷克·图马尼扬、米哈尔·盖耶尔、沙伊·巴贡等
纳雷克·图马尼扬、米哈尔·盖耶尔、沙伊·巴贡、塔莉·德凯尔。
Imagic：基于扩散模型的文本驱动真实图像编辑（2022年10月17日）
[CVPR 2023] 巴哈贾特·卡瓦尔、希兰·扎达、奥兰·朗格等
巴哈贾特·卡瓦尔、希兰·扎达、奥兰·朗格、奥默·托夫、常慧雯、塔莉·德凯尔、因巴尔·莫塞里、米哈尔·伊拉尼。

利用引导扩散模型编辑真实图像的空文本反演
[ICLR 2023] 罗恩·莫卡迪、阿米尔·赫兹、基菲尔·阿伯曼等
罗恩·莫卡迪、阿米尔·赫兹、基菲尔·阿伯曼、雅埃尔·普里奇、丹尼尔·科恩-奥尔。
基于交叉注意力控制的提示到提示图像编辑
[ICLR 2023] 阿米尔·赫兹、罗恩·莫卡迪、杰伊·特南鲍姆等
阿米尔·赫兹、罗恩·莫卡迪、杰伊·特南鲍姆、基菲尔·阿伯曼、雅埃尔·普里奇、丹尼尔·科恩-奥尔。
DiffEdit：基于扩散的语义图像编辑，带掩码指导（2022年10月20日）
[ICLR 2023] 吉约姆·库瓦龙、雅各布·韦尔贝克、霍尔格·施文克等
吉约姆·库瓦龙、雅各布·韦尔贝克、霍尔格·施文克、马蒂厄·科尔德。

DiffusionCLIP：用于鲁棒图像操控的文本引导扩散模型（2021年10月6日)
[CVPR 2022] 金光贤、权泰成、叶宗哲。
SDEdit：基于随机微分方程的引导图像合成与编辑（2021年8月2日）
[ICLR 2022] 孟晨琳、何宇彤、宋阳等
孟晨琳、何宇彤、宋阳、宋嘉明、吴家俊、朱俊彦、斯特凡诺·埃尔蒙。

视频编辑

🔅 基于大语言模型

使用合成数据集进行一致的视频到视频迁移（2023年11月1日）
程佳欣、肖天俊、何通。
InstructVid2Vid：基于自然语言指令的可控视频编辑（2023年5月21日）
秦博生、李俊成、唐思亮等。
秦博生、李俊成、唐思亮、蔡德成、庄宇婷。

非基于大语言模型（Clip/T5）

AudioScenic：音频驱动的视频场景编辑（2024年4月25日）
沈凯欣、全瑞杰、朱林超等。
沈凯欣、全瑞杰、朱林超、肖军、杨毅。
LATENTWARP：用于零样本视频到视频转换的一致性扩散潜在空间（2023年11月1日）
鲍宇翔、邱迪、康国梁等。
鲍宇翔、邱迪、康国梁、张宝昌、金波、王凯业、闫鹏飞。

MagicStick：通过控制手柄变换实现的可控视频编辑（2023年11月1日）
马悦、寸晓东、何英青等。
马悦、寸晓东、何英青、齐晨阳、王新涛、单颖、李秀、陈启峰。
) )
MagicEdit：高保真度的时间一致性视频编辑（2023年8月28日）
刘俊豪、严汉书、张建峰等。
刘俊豪、严汉书、张建峰、徐忠聪、冯家世。
StableVideo：文本驱动的一致性感知扩散视频编辑（2023年8月18日）
[ICCV 2023] 柴文浩、郭迅、王高昂等。
柴文浩、郭迅、王高昂、陆燕。
CoDeF：用于时间一致性视频处理的内容变形场（2023年8月15日）
欧阳浩、王秋雨、肖宇曦等。
欧阳浩、王秋雨、肖宇曦、白庆彦、张俊涛、郑克诚、周晓伟、陈启峰。
TokenFlow：用于一致性视频编辑的一致性扩散特征（2023年7月19日）
米哈尔·盖耶、奥默·巴尔-塔尔、沙伊·巴贡等。
米哈尔·盖耶、奥默·巴尔-塔尔、沙伊·巴贡、塔莉·德克尔。
重新渲染一段视频：零样本文本引导的视频到视频转换（2023年6月13日）
杨帅、周一帆、刘子威等
杨帅、周一帆、刘子威、陈昌 Loy。
ControlVideo：为单次文本到视频编辑添加条件控制（2023年5月26日）
赵敏、王荣振、鲍凡等
赵敏、王荣振、鲍凡、李崇轩、朱俊。
打造主角：基于专家集成的通用视频编辑（2023年5月15日）米哈尔·盖耶、奥默·巴尔-塔尔、沙伊·巴贡、塔莉·德克尔。
Pix2Video：基于图像扩散的视频编辑（2023年3月22日）
[ICCV 2023] 塞兰、杜伊古、黄春豪 P. 和尼洛伊 J. 米特拉。
FateZero：融合注意力机制实现零样本文本驱动的视频编辑（2023年3月16日）
[ICCV 2023] 齐晨阳、孙晓东、张勇等
齐晨阳、孙晓东、张勇、雷晨阳、王新涛、应珊、陈启峰。
Video-P2P：基于交叉注意力控制的视频编辑（2023年3月8日）
刘绍腾、张悦辰、李文博等
刘绍腾、张悦辰、李文博、林哲、贾佳亚。
Dreamix：视频扩散模型是通用视频编辑器（2023年2月2日）
埃亚尔·莫拉德、以利亚胡·霍维茨、丹尼·瓦列夫斯基等
埃亚尔·莫拉德、以利亚胡·霍维茨、丹尼·瓦列夫斯基、亚历克斯·拉夫·阿查、约西·马蒂亚斯、雅埃尔·普里奇、亚尼夫·莱维坦、耶迪德·霍申。
调优一段视频：用于文本到视频生成的图像扩散模型的一次性调优（2022年12月22日）
[ICCV 2023] 吴章杰、葛益骁、王新涛等
吴章杰、葛益骁、王新涛、雷伟贤、顾宇超、史宇飞、许咏恩、应珊、谢小虎、郑守迈。
M3L：基于多模态多层级Transformer的语言驱动视频编辑（2021年4月2日）
[CVPR 2022] 傅子睿、王欣艾瑞克、斯科特 T. 格拉夫顿等
傅子睿、王欣艾瑞克、斯科特 T. 格拉夫顿、米格尔 P. 埃克施泰因、威廉·杨·王。

3D编辑

###基於LLM

SceneCraft：用Blender代碼合成3D場景的LLM智能體（2024年3月2日）
胡子宇、Ahmet Iscen、Aashi Jain等
胡子宇、Ahmet Iscen、Aashi Jain、Thomas Kipf、Yisong Yue、David A. Ross、Cordelia Schmid、Alireza Fathi
3D-GPT：利用大型語言模型進行程序化3D建模（2023年10月19日）
孫淳毅*、韓俊林*、鄧偉健等
孫淳毅、韓俊林、鄧偉健、王鑫龍、秦子山、Stephen Gould

###非LLM基於（Clip/T5）

Paint3D：無光照紋理擴散模型繪製任意3D圖像（2023年11月16日）
曾賢芳、陳欣、齊中奇等
曾賢芳、陳欣、齊中奇、劉文、趙子博、王志斌、傅彬、劉勇、于剛
3D畫筆：利用級聯分數蒸餾對3D形狀進行局部風格化（2023年11月16日）
戴爾·迪卡圖爾、伊泰·朗、克菲爾·阿伯曼等
戴爾·迪卡圖爾、伊泰·朗、克菲爾·阿伯曼、拉娜·哈諾卡
Blending-NeRF：神經輻射場中的文本驅動局部編輯（2023年8月23日）
宋賢燮、崔錫勳、都浩植等
宋賢燮、崔錫勳、都浩植、李哲、金泰亨
SINE：語義驅動的基於圖像的NeRF編輯，帶有先驗指導的編輯場（2023年3月23日）
[CVPR 2023] 包沖、張銀達、楊邦邦等
包沖、張銀達、楊邦邦、范天興、楊澤松、鮑虎軍、張國峰、崔兆鵬
TextDeformer：利用文本引導進行幾何變換（2023年4月26日）
[TVCG 2022] 威廉·高、諾姆·艾格曼、蒂博·格魯埃等
威廉·高、諾姆·艾格曼、蒂博·格魯埃、弗拉基米爾·G·金、拉娜·哈諾卡
Instruct-NeRF2NeRF：用指令編輯3D場景（2023年3月22日）
[SIGGRAPH Asia 2023] 阿揚·哈克、馬修·坦西克、阿列克謝·A·埃夫羅斯等
阿揚·哈克、馬修·坦西克、阿列克謝·A·埃夫羅斯、亞歷山大·霍倫斯基、安朱·卡納扎瓦
DreamEditor：神經場驅動的文本編輯3D場景（2023年6月23日）
[SIGGRAPH Asia 2023] 莊靜宇、王晨、劉凌潔等
莊靜宇、王晨、劉凌潔、林亮、李冠斌
SKED：草圖引導的文本驅動3D編輯（2023年3月19日）
[ICCV 2023] 阿里安·米凱伊利、奧爾·佩雷爾、梅赫迪·薩法伊等
阿里安·米凱伊利、奧爾·佩雷爾、梅赫迪·薩法伊、丹尼爾·科恩-奧爾、阿里·馬赫達維-阿米里
混合NeRF：在現有神經輻射場中進行零樣本對象生成與融合（2023年6月22日）
[ICCVW 2023] 奧里·戈登、歐姆里·阿夫拉哈米、丹尼·利希金斯基
奧里·戈登、歐姆里·阿夫拉哈米、丹尼·利希金斯基
ClipFace：基于文本指导的带纹理3D可变形模型与神经辐射场编辑（2022年12月2日）
[SIGGRAPH 2023] 希万吉·阿内贾、尤斯图斯·蒂斯、安吉拉·戴等
希万吉·阿内贾、尤斯图斯·蒂斯、安吉拉·戴、马蒂亚斯·尼斯纳
CLIP-NeRF：基于文本和图像驱动的神经辐射场操控（2021年12月9日）
[CVPR 2022] 曹旺、柴孟磊、何明明等
曹旺、柴孟磊、何明明、陈冬冬、廖静

音频编辑

🔅 基于大语言模型

Loop Copilot：用于音乐生成与迭代编辑的AI合奏指挥系统（2023年10月19日）
张一骁、前泽晶、Gus Xia等
张一骁、前泽晶、Gus Xia、山本和彦、西蒙·迪克森
UniAudio：迈向通用音频生成的音频基础模型（2023年10月1日）
杨东超、田锦川、谭旭

非大语言模型（Clip/T5）

📍 多模态智能体

LLaVA-Interactive：图像聊天、分割、生成与编辑的一体化演示（2023年11月1日）
陈伟格、伊琳娜·斯皮里多诺娃、杨建伟等
陈伟格、伊琳娜·斯皮里多诺娃、杨建伟、高剑锋、李春元

标签: 图像聊天 图像分割、图像生成 图像编辑
ControlLLM：通过图搜索为语言模型添加工具（2023年10月26日）
刘兆阳、赖泽强、高章伟等
刘兆阳、赖泽强、高章伟、崔尔飞、李子恒、朱锡洲、陆乐威、陈启峰、乔宇、戴继峰、王文海

标签: 图像理解 图像生成 图像编辑 视频理解 视频生成 视频编辑 音频理解 音频生成
ImageBind-LLM：多模态指令微调（2023年9月7日）
韩嘉明、张仁睿、邵文琪等
韩嘉明、张仁睿、邵文琪、高鹏、徐鹏、肖汉、张凯鹏、刘克里斯、温松、郭子宇、卢旭东、任帅、温亚飞、陈晓欣、岳向宇、李洪生、乔宇

模态: 文本 图像 视频 音频 点云
ModelScope-Agent：使用开源大型语言模型构建可定制的智能体系统（2023年9月2日）
李晨亮、陈鹤红、严明等
李晨亮、陈鹤红、严明、沈伟周、许海洋、吴志凯、张志成、周文猛、陈英达、程晨、施洪柱、张继、黄飞、周景仁
InternGPT：通过与ChatGPT交互解决以视觉为中心的任务，超越语言限制（2023年5月9日）
刘兆阳、何一楠、王文海等
刘兆阳、何一楠、王文海、王伟云、王毅、陈寿发、张庆龙、赖泽强、杨阳、李青云、于家硕、李坤昌、陈哲、杨雪、朱锡洲、王雅丽、王利民、罗平、戴继峰、乔宇

条件模态: 文本 图像 视频 音频
HuggingGPT：借助ChatGPT及其在Hugging Face中的伙伴解决AI任务（2023年3月30日）
沈永亮、宋凯涛、谭旭等
沈永亮、宋凯涛、谭旭、李东升、陆卫明、庄玉婷
Visual ChatGPT：与视觉基础模型对话、绘图和编辑（2023年3月8日）
吴晨菲、尹圣明、齐维珍等
吴晨菲、尹圣明、齐维珍、王晓东、唐泽成、段楠
AutoGPT：构建与使用AI智能体

📍 基于LLM的多模态理解

多模态

Mirasol3B：一种用于时间对齐和上下文相关模态的多模态自回归模型（2023年11月9日）
[CVPR 2024] AJ Piergiovanni、Isaac Noble、Dahun Kim 等
AJ Piergiovanni、Isaac Noble、Dahun Kim、Michael S. Ryoo、Victor Gomes、Anelia Angelova
文本、视频、音频

图像理解

图像文本化：一种自动生成准确且详细图像描述的框架（2024年6月11日）
Renjie Pi、Jianshu Zhang、Jipeng Zhang 等
Renjie Pi、Jianshu Zhang、Jipeng Zhang、Rui Pan、Zhekai Chen、Tong Zhang
T2S-GPT：基于文本的自动手语生成中的动态向量量化（2024年6月11日）
[ACL 2024] Aoxiong Yin、Haoyuan Li、Kai Shen 等
Aoxiong Yin、Haoyuan Li、Kai Shen、Siliang Tang、Yueting Zhuang
基于多模态提示的开放世界人-物交互检测（2024年6月11日）
Jie Yang、Bingliang Li、Ailing Zeng 等
Jie Yang、Bingliang Li、Ailing Zeng、Lei Zhang、Ruimao Zhang
常识-T2I挑战：文本到图像生成模型能否理解常识？（2024年6月11日）
Xingyu Fu、Muyu He、Yujie Lu 等
Xingyu Fu、Muyu He、Yujie Lu、William Yang Wang、Dan Roth
InternVL：扩展视觉基础模型并针对通用视觉-语言任务进行对齐（2023年12月21日）
Zhe Chen、Jiannan Wu、Wenhai Wang 等
Zhe Chen、Jiannan Wu、Wenhai Wang、Weijie Su、Guo Chen、Sen Xing、Muyan Zhong、Qinglong Zhang、Xizhou Zhu、Lewei Lu、Bin Li、Ping Luo、Tong Lu、Yu Qiao、Jifeng Dai
LLaMA-VID：在大型语言模型中，一张图片胜过2个token（2023年11月28日） Yanwei Li、Chengyao Wang、Jiaya Jia
CogVLM：预训练语言模型的视觉专家（2023年11月6日）
Weihan Wang、Qingsong Lv、Wenmeng Yu 等
Weihan Wang、Qingsong Lv、Wenmeng Yu、Wenyi Hong、Ji Qi、Yan Wang、Junhui Ji、Zhuoyi Yang、Lei Zhao、Xixuan Song、Jiazheng Xu、Bin Xu、Juanzi Li、Yuxiao Dong、Ming Ding、Jie Tang
MiniGPT-v2：大型语言模型作为视觉-语言多任务学习的统一接口（2023年10月14日）
Jun Chen、Deyao Zhu、Xiaoqian Shen 等
Jun Chen、Deyao Zhu、Xiaoqian Shen、Xiang Li、Zechun Liu、Pengchuan Zhang、Raghuraman Krishnamoorthi、Vikas Chandra、Yunyang Xiong、Mohamed Elhoseiny
OphGLM：基于指令和对话的眼科多模态大型语言模型训练（2023年6月21日）
高伟豪、邓卓、牛志远等
高伟豪、邓卓、牛志远、荣福居、陈楚成、龚政、张文泽、肖代敏、李芳、曹振杰、马兆义、魏文斌、马兰
InternLM-XComposer：用于高级文本-图像理解与生成的视觉-语言大模型（2023年9月26日）
张攀、董晓艺、王斌等
张攀、董晓艺、王斌、曹宇航、徐超、欧阳林科、赵志远、段浩东、张松阳、丁双瑞、张文伟、严航、张欣悦、李伟、李静雯、陈凯、何聪辉、张兴成、乔宇、林大华、王佳琪
[LaVIT] 基于动态离散视觉分词的统一语言-视觉预训练LLM（2023年9月9日）
金杨、许坤、许坤等
金杨、许坤、许坤、陈立伟、廖超、谭建超、黄曲哲、陈彬、雷晨毅、刘安、宋承儒、雷小强、张迪、欧文武、盖坤、穆亚东
 tokenizer
Qwen-VL：用于理解、定位、文本识别等任务的多功能视觉-语言模型（2023年8月24日）
白金泽、白帅、杨树生等
白金泽、白帅、杨树生、王世杰、谭思南、王鹏、林俊洋、周畅、周景仁
VisionLLM：大型语言模型也是面向视觉任务的开放式解码器（2023年5月18日）
[NeurIPS 2023] 王文海、陈哲、陈孝康等
王文海、陈哲、陈孝康、吴建楠、朱锡洲、曾刚、罗平、陆通、周杰、乔宇、戴继峰
InstructBLIP：通过指令微调迈向通用型视觉-语言模型（2023年5月11日）
戴文亮、李俊楠、李东旭等
戴文亮、李俊楠、李东旭、安东尼·孟华特·童、赵俊奇、王伟胜、李博阳、冯佩斯卡、史蒂文·霍伊
MiniGPT-4：利用先进大型语言模型提升视觉-语言理解能力（2023年4月20日）
朱德耀、陈军、沈晓倩等
朱德耀、陈军、沈晓倩、李翔、穆罕默德·埃尔霍西尼
视觉指令微调（2023年4月17日）
[NeurIPS 2023（口头报告）] 刘浩天等
刘浩天、李春元、吴庆阳、李勇宰

视频理解

StoryTeller：通过全局音视频角色识别改进长视频描述 (11 Nov 2024)
何一晨、林源、吴建超等
何一晨、林源、吴建超、张汉冲、张宇辰、乐瑞成
Video-XL：用于小时级视频理解的超长视觉语言模型 (22 Sep 2024)
舒岩、张培田、刘征等
舒岩、张培田、刘征、秦明浩、周俊杰、黄铁军、赵博
Oryx MLLM：任意分辨率下的按需时空理解 (19 Sep 2024)
刘祖言、董宇豪、刘子威等
刘祖言、董宇豪、刘子威、胡文森、陆继文、饶永明
VideoLLaMA 2：推进视频大语言模型中的时空建模与音频理解 (25 Apr 2024)
程泽森、冷思聪、张航等
程泽森、冷思聪、张航、辛一飞、李欣、陈冠政、朱永新、张文琪、罗子阳、赵德利、邴立东
PLLaVA：从图像到视频的无参数LLaVA扩展，用于视频密集字幕生成 (25 Apr 2024)
徐林、赵怡琳、周大泉等
徐林、赵怡琳、周大泉、林志杰、吴锡强、冯嘉实
MovieChat：从密集标记到稀疏记忆，用于长视频理解 (3 Dec 2023)
恩鑫、宋等人。
LLaMA-VID：在大型语言模型中，一张图片胜过两个标记 (28 Nov 2023)
严伟、李等人。
Video-Bench：评估基于视频的大语言模型的综合基准和工具包 (27 Nov 2023)
宁、木楠等人。
PG-Video-LLaVA：像素对齐的大视频-语言模型 (22 Nov 2023)
穆纳辛格、谢汉等人。
Video-LLaVA：通过对齐后再投影学习统一的视觉表征 (16 Nov 2023)
林、斌等人。
Chat-UniVi：统一的视觉表示赋能大型语言模型实现图像与视频理解（2023年11月14日）
金鹏，等。
Video-LLaMA：面向视频理解的指令微调音视频语言模型（2023年6月5日）
张航、李欣、邴立东。EMNLP 2023演示赛道。
AntGPT：大型语言模型能否助力从视频中进行长期动作预测？（2023年7月31日）
赵琪，等。
Valley：具备大型语言模型增强能力的视频助手（2023年6月12日）
罗睿璞，等。
Video-ChatGPT：通过大型视觉与语言模型实现精细化视频理解（2023年6月8日）
穆罕默德·马兹、哈努娜·拉希德、萨尔曼·汗，等。
VideoChat：以聊天为中心的视频理解（2023年5月10日）
李坤昌，等。
VideoLLM：利用大型语言模型建模视频序列（2023年5月22日）
陈国，等。
在自然语言监督下学习视频嵌入空间（2023年3月25日）
乌帕拉、法尼·克里希纳、施丽蒂·普里亚和瓦伊黛希·乔希。

3D理解

Lexicon3D：探索单词表3D——用于复杂3D场景理解的视觉基础模型（2024年10月12日）
[NeurIPS 2024] 云泽·曼、郑淑红、鲍志鹏等
云泽·曼、郑淑红、鲍志鹏、马蒂尔·赫贝尔、桂良燕、王宇雄
Situation3D：情境感知在3D视觉语言推理中的重要性（2024年10月12日）
[CVPR 2024] 云泽·曼、桂良燕、王宇雄
LL3DA：面向全维度3D理解、推理与规划的视觉交互式指令微调（2023年11月30日）
[CVPR2024] 陈思进、陈鑫、张驰等
[CVPR 2024] 陈思进、陈鑫、张驰、李明胜、于刚、费浩、朱宏远、范家源、陈涛
LiDAR-LLM：探索大型语言模型在3D LiDAR理解中的潜力（2023年12月21日）
杨森乔*、刘嘉铭*、雷·张等。
3D-LLM：将3D世界注入大型语言模型（2023年7月24日）
[NeurIPS 2023 Spotlight] 洪怡宁、甄浩宇、陈培豪等
洪怡宁、甄浩宇、陈培豪、郑淑红、杜一伦、陈振芳、甘创
PointLLM：赋能大型语言模型理解点云数据（2023年8月31日）
[NeurIPS 2023 Spotlight] 徐润森、王小龙、王泰等
徐润森、王小龙、王泰、陈一伦、庞江淼、林大华
PointCLIP：通过CLIP实现点云理解（2023年8月31日）
[CVPR 2022] 张仁瑞、郭子宇、张伟等
张仁瑞、郭子宇、张伟、李坤昌、缪旭鹏、崔斌、乔宇、高鹏、李洪生

音频理解

Unified-IO 2：扩展具有视觉、语言、音频和动作能力的自回归多模态模型（2023年12月28日）
陆嘉森、克里斯托弗·克拉克、李相浩等
陆嘉森、克里斯托弗·克拉克、李相浩、张子辰、萨维亚·科斯拉、瑞安·马滕、德里克·霍伊姆、阿尼鲁达·肯布哈维
M2UGen：利用大型语言模型的力量进行多模态音乐理解与生成（2023年11月19日）
阿廷·萨基尔·侯赛因、刘善松、孙晨硕等
阿廷·萨基尔·侯赛因、刘善松、孙晨硕、殷珊
Qwen-Audio：通过统一的大规模音频-语言模型推进通用音频理解（2023年11月14日）
楚云飞、徐进、周晓欢等
楚云飞、徐进、周晓欢、杨倩、张士亮、闫志杰、周畅、周静仁
SALMONN：迈向大型语言模型的通用听觉能力（2023年10月20日）
汤昌立、于文义、孙广志等
汤昌立、于文义、孙广志、陈贤昭、谭天、李伟、陆璐、马泽军、张超
MusicAgent：基于大型语言模型的音乐理解与生成AI代理（2023年10月18日）
俞丁瑶、宋凯涛、陆佩玲等
俞丁瑶、宋凯涛、陆佩玲、何天宇、谭旭、叶伟、张世坤、卞江
Llark：用于音乐的多模态基础模型（2023年10月11日）
乔什·加德纳、西蒙·杜兰、丹尼尔·斯托勒等
乔什·加德纳、西蒙·杜兰、丹尼尔·斯托勒、瑞秋·M·比特纳
LauraGPT：使用GPT聆听、注意、理解并再生音频（2023年10月7日）
王嘉明、杜志浩、陈谦等
王嘉明、杜志浩、陈谦、楚云飞、高志福、李泽睿、胡凯、周晓欢、徐进、马子洋、王文、郑思琪、周畅、闫志杰、张士亮
利用细粒度音频特征、文本嵌入监督和LLM混合增强改进音频字幕生成模型（2023年9月29日）
吴士伦、常轩凯、戈登·维彻恩等
吴士伦、常轩凯、戈登·维彻恩、郑智源、弗朗索瓦·热尔曼、乔纳森·勒鲁、渡边真司
将语音编码器与大型语言模型连接以实现自动语音识别（2023年9月25日）
于文义、汤昌立、孙广志等
于文义、汤昌立、孙广志、陈贤昭、谭天、李伟、陆璐、马泽军、张超
Whisper能否进行基于语音的上下文学习？（2023年9月13日）
王思寅、杨朝汉、吴继、张超等
王思寅、杨朝汉、吴继、张超
音乐理解版LLaMA：通过问答和字幕生成推进文本到音乐的创作（2023年8月22日）
刘善松、阿廷·萨基尔·侯赛因、孙晨硕等
刘善松、阿廷·萨基尔·侯赛因、孙晨硕、山英
关于仅解码器架构在语音转文本与大型语言模型集成中的应用（2023年7月8日）
吴健、雅谢什·高尔、陈卓等
吴健、雅谢什·高尔、陈卓、周龙、朱一梦、王天锐、李金宇、刘淑洁、任波、刘林泉、吴宇
AudioPaLM：一款能说会听的大型語言模型（2023年6月22日）
Paul K. Rubenstein、Chulayuth Asawaroengchai、Duc Dung Nguyen 等
Paul K. Rubenstein、Chulayuth Asawaroengchai、Duc Dung Nguyen、Ankur Bapna、Zalán Borsos、Félix de Chaumont Quitry、Peter Chen、Dalia El Badawy、Wei Han、Eugene Kharitonov、Hannah Muckenhirn、Dirk Padfield、James Qin、Danny Rozenberg、Tara Sainath、Johan Schalkwyk、Matt Sharifi、Michelle Tadmor Ramanovich、Marco Tagliasacchi、Alexandru Tudor、Mihajlo Velimirović、Damien Vincent、Jiahui Yu、Yongqiang Wang、Vicky Zayats、Neil Zeghidour、Yu Zhang、Zhishuai Zhang、Lukas Zilka、Christian Frank
Hugginggpt：利用 ChatGPT 及其在 Hugging Face 中的伙伴解決 AI 任務（2023年3月30日）
Shen Yongliang、Song Kaitao、Tan Xu 等
Shen Yongliang、Song Kaitao、Tan Xu、Li Dongsheng、Lu Weiming、Zhuang Yueting
人工通用智能的火花：GPT-4 的早期實驗（2023年3月22日）
Sébastien Bubeck、Varun Chandrasekaran、Ronen Eldan 等
Sébastien Bubeck、Varun Chandrasekaran、Ronen Eldan、Johannes Gehrke、Eric Horvitz、Ece Kamar、Peter Lee、Yin Tat Lee、Yuanzhi Li、Scott Lundberg、Harsha Nori、Hamid Palangi、Marco Tulio Ribeiro、Yi Zhang
聽、思考與理解（2023年5月18日）
Gong Yuan、Luo Hongyin、Liu Alexander H. 等
Gong Yuan、Luo Hongyin、Liu Alexander H.、Karlinsky Leonid、Glass James
Speechgpt：賦予大型語言模型內在的跨模態對話能力（2023年5月18日）
Zhang Dong、Li Shimin、Zhang Xin 等
Zhang Dong、Li Shimin、Zhang Xin、Zhan Jun、Wang Pengyu、Zhou Yaqian、Qiu Xipeng
Audiogpt：理解並生成語音、音樂、聲音及講話頭像（2023年4月25日）
Huang Rongjie、Li Mingze、Yang Dongchao 等
Huang Rongjie、Li Mingze、Yang Dongchao、Shi Jiatong、Chang Xuankai、Ye Zhenhui、Wu Yuning、Hong Zhiqing、Huang Jiawei、Liu Jinglin、Ren Yi、Zhao Zhou、Watanabe Shinji

📍 多模態大語言模型安全

攻擊

通過系統提示詞的自我對抗攻擊越獄 GPT-4v。（2024年1月20日）
Wu Yuanwei、Li Xiang、Liu Yixin 等
Wu Yuanwei、Li Xiang、Liu Yixin、Zhou Pan、Sun Lichao
通過自我提醒防禦 ChatGPT 遭受越獄攻擊。（2023年12月1日）
Xie Yueqi、Yi Jingwei、Shao Jiawei 等
Xie Yueqi、Yi Jingwei、Shao Jiawei、Justin Curl、Lyu Lingjuan、Chen Qifeng、Xie Xing、Wu Fangzhao
利用視覺對抗樣本在大型語言模型中濫用工具（2023年10月4日）
Fu Xiaohan、Wang Zihan、Li Shuheng 等
Fu Xiaohan、Wang Zihan、Li Shuheng、Gupta Rajesh K.、Mireshghallah Niloofar、Berg-Kirkpatrick Taylor、Fernandes Earlence
图像劫持：对抗性图像可在运行时控制生成模型。（2023年9月18日）
卢克·贝利、尤安·翁、斯图尔特·拉塞尔等
卢克·贝利、尤安·翁、斯图尔特·拉塞尔、斯科特·埃蒙斯
对齐语言模型的通用且可迁移的对抗攻击（2023年7月27日）
安迪·邹、王子凡、尼古拉斯·卡林尼等
安迪·邹、王子凡、尼古拉斯·卡林尼、米拉德·纳斯尔、J·齐科·科尔特、马特·弗雷德里克森
针对集成LLM的应用程序的提示注入攻击（2023年6月8日）
刘毅、邓戈磊、李岳康等
刘毅、邓戈磊、李岳康、王凯龙、张天伟、刘业鹏、王浩宇、郑岩、刘洋
通过离散优化自动审计大型语言模型（2023年3月8日）
埃里克·琼斯、安卡·德拉甘、阿迪蒂·拉古纳坦等
埃里克·琼斯、安卡·德拉甘、阿迪蒂·拉古纳坦、雅各布·施泰因哈特
污染网络规模训练数据集是可行的（2023年2月20日）
尼古拉斯·卡林尼、马修·贾吉尔斯基、克里斯托弗·A·乔奎特-丘等
尼古拉斯·卡林尼、马修·贾吉尔斯基、克里斯托弗·A·乔奎特-丘、丹尼尔·帕莱卡、威尔·皮尔斯、海勒姆·安德森、安德烈亚斯·特尔齐斯、库尔特·托马斯、弗洛里安·特拉姆尔
利用LLM的程序化行为：通过标准安全攻击实现双重用途。（2023年2月11日）
丹尼尔·康、李雪晨、伊昂·斯托伊卡等
丹尼尔·康、李雪晨、伊昂·斯托伊卡、卡洛斯·格斯特林、马泰伊·扎哈里亚、夏目哲典
忽略先前提示：语言模型的攻击技术（2022年11月17日）
F 生物佩雷斯、伊恩·里贝罗（NeurIPS 2022研讨会）
用于攻击和分析NLP的通用对抗触发器（2019年8月20日）
埃里克·华莱士、冯诗、尼基尔·坎德帕尔等（EMNLP 2019）
埃里克·华莱士、冯诗、尼基尔·坎德帕尔、马特·加德纳、萨米尔·辛格
用于评估阅读理解系统的对抗样本（2017年7月23日）
罗宾·贾、珀西·梁（EMNLP 2017）

防御与检测

利用大型多模态视觉语言模型检测并纠正多模态表情包中的仇恨言论。（2023年11月12日）
范明浩、吴新涛
从大型语言模型中检测预训练数据（2023年11月3日）
史伟嘉、阿尼鲁德·阿吉特、夏孟周等。
史伟嘉、阿尼鲁德·阿吉特、夏孟周、黄洋思博、刘道高、泰拉·布利文斯、陈丹琪、卢克·泽特勒莫耶
仅使用少量上下文示范即可越狱并使语言模型保持对齐（2023年10月10日）
魏泽明、王一飞、王艺森
SmoothLLM：防御大型语言模型免受越狱攻击。（2023年10月5日）
亚历山大·罗比、埃里克·王、哈梅德·哈萨尼等。
亚历山大·罗比、埃里克·王、哈梅德·哈萨尼、乔治·J·帕帕斯
大型语言模型的水印技术（2023年6月6日）
约翰·基尔兴鲍尔、乔纳斯·盖平、温宇欣等（ICML 2023）。
约翰·基尔兴鲍尔、乔纳斯·盖平、温宇欣、乔纳森·卡茨、伊恩·米尔斯、汤姆·戈德斯坦
不安全扩散：关于文本到图像模型生成不安全图像和仇恨表情包的研究（2023年5月23日）
瞿怡婷、沈欣悦、何鑫磊等（ACM CCS 2023）。
瞿怡婷、沈欣悦、何鑫磊、迈克尔·巴克斯、萨瓦斯·赞内托、张阳
TRAK：大规模模型行为归因（2023年4月3日）
朴成珉、克里斯蒂安·格奥尔基耶夫、安德鲁·伊利亚斯等。
朴成珉、克里斯蒂安·格奥尔基耶夫、安德鲁·伊利亚斯、纪尧姆·勒克莱尔、亚历山大·马德里
污染网络规模训练数据集是可行的（2023年2月20日）
尼古拉斯·卡尔尼尼、马修·雅吉尔斯基、克里斯托弗·A·乔克特-丘等。
尼古拉斯·卡尔尼尼、马修·雅吉尔斯基、克里斯托弗·A·乔克特-丘、丹尼尔·帕莱卡、威尔·皮尔斯、海勒姆·安德森、安德烈亚斯·特尔齐斯、库尔特·托马斯、弗洛里安·特拉默
缓解扩散模型中的不当退化现象（2022年11月9日）
帕特里克·施拉莫夫斯基、曼努埃尔·布拉克、比约恩·戴泽罗斯等（CVPR 2023）。
帕特里克·施拉莫夫斯基、曼努埃尔·布拉克、比约恩·戴泽罗斯、克里斯蒂安·克尔斯廷
从大型语言模型中提取训练数据（2021年6月15日）
尼古拉斯·卡尔尼尼、弗洛里安·特拉默、埃里克·华莱士等。
尼古拉斯·卡尔尼尼、弗洛里安·特拉默、埃里克·华莱士、马修·雅吉尔斯基、艾瑞尔·赫伯特-沃斯、凯瑟琳·李、亚当·罗伯茨、汤姆·布朗、邓恩·宋、乌尔法尔·埃尔林松、阿丽娜·奥普雷亚、科林·拉菲尔

对齐

直接偏好优化：你的语言模型其实是一个奖励模型（2023年12月13日）
拉斐尔·拉法伊洛夫、阿奇特·夏尔马、埃里克·米切尔等
拉斐尔·拉法伊洛夫、阿奇特·夏尔马、埃里克·米切尔、斯特凡诺·埃尔蒙、克里斯托弗·D·曼宁、切尔西·芬恩
Raft：用于生成式基础模型对齐的奖励排序微调（2023年12月1日）
董汉泽、熊伟、迪潘舒·戈亚尔等（机器学习研究汇刊，TMLR）
董汉泽、熊伟、迪潘舒·戈亚尔、张一涵、温妮·周、潘睿、刁世哲、张继鹏、沈嘉勋、张彤
用人类偏好更好地对齐文本到图像模型（2023年8月22日）
吴晓石、孙克强、朱峰等（ICCV 2023）
吴晓石、孙克强、朱峰、赵锐、李洪生
通过奖励建模实现可扩展的智能体对齐：一个研究方向（2018年11月19日）
扬·莱克、大卫·克鲁格、汤姆·埃弗里特等
扬·莱克、大卫·克鲁格、汤姆·埃弗里特、米利扬·马蒂奇、维沙尔·迈尼、谢恩·莱格
近端策略优化算法（2017年7月20日）
约翰·舒尔曼、菲利普·沃尔斯基、普拉富拉·达里瓦尔等
约翰·舒尔曼、菲利普·沃尔斯基、普拉富拉·达里瓦尔、亚历克·拉德福德、奥列格·克利莫夫

数据集

Goat-bench：通过基于模因的社会滥用行为洞察大型多模态模型的安全性。（2024年1月7日）
林宏展、罗子阳、王博等
林宏展、罗子阳、王博、杨瑞超、马静
Tovilag：你的视觉-语言生成模型也可能成为作恶者。（2023年12月13日）
王新鹏、易晓远、江涵等（EMNLP 2023 口头报告）
王新鹏、易晓远、江涵、周善林、魏志华、谢星
Figstep：通过排版视觉提示破解大型视觉-语言模型。（2023年12月13日）
龚一辰、冉德龙、刘金元等
龚一辰、冉德龙、刘金元、王聪磊、丛天硕、王安宇、段思思、王小云
查询相关图像可破解大型多模态模型。（2023年11月29日）
刘欣、朱一辰、兰云石等
刘欣、朱一辰、兰云石、杨超、乔宇
Dress：通过自然语言反馈指导大型视觉-语言模型与人类对齐并互动。（2023年11月16日）
陈洋溢、卡兰·西卡、迈克尔·科格斯韦尔等
陈洋溢、卡兰·西卡、迈克尔·科格斯韦尔、季恒、阿贾伊·迪瓦卡兰
Beavertails：借助人类偏好数据集实现 LLM 更安全的对齐（2023年11月7日）
季嘉明、刘米克尔、戴俊涛等（NeurIPS 2023）
季嘉明、刘米克尔、戴俊涛、潘学海、张驰、卞策、张驰、孙睿阳、王义舟、杨耀东
预训练的视觉和语言模型能否回答视觉信息检索问题？（2023年10月17日）
陈阳、胡赫翔、栾毅等（EMNLP 2023）
陈阳、胡赫翔、栾毅、孙海天、查恩皮诺、艾伦·里特、张明伟
能否指导语言模型保护个人信息？（2023年10月3日）
陈阳、伊森·门德斯、萨维克·达斯等
陈阳、伊森·门德斯、萨维克·达斯、许伟、艾伦·里特
Safetybench：用选择题评估大型语言模型的安全性（2023年9月13日）
张哲鑫、雷琪、吴林东等
张哲鑫、雷琪、吴林东、孙锐、黄永康、龙冲、刘晓、雷轩宇、唐杰、黄敏列
中文大型语言模型的安全性评估（2023年4月20日）
孙浩、张哲鑫、邓佳文等
孙浩、张哲鑫、邓佳文、程家乐、黄敏列

3D、视频与音频安全

不是我的声音！语音生成器的伦理与安全危害分类（2024年1月25日）
维布克·胡蒂里、奥雷西蒂·帕帕基里亚科普洛斯、爱丽丝·香
 ) )
Adv3D：使用NeRF在驾驶场景中生成3D对抗样本（2023年9月4日）
李乐恒、连青、陈英聪
基于生成式卷积视觉Transformer的深度伪造视频检测（2023年7月13日）
德雷萨·沃达乔、所罗门·阿特纳夫、扎希德·阿赫塔尔
M2TR：用于深度伪造检测的多模态多尺度Transformer（2022年4月19日）
王俊科、吴祖轩、欧阳文浩、韩欣彤、陈静静、林世南、蒋宇刚
基于卷积视觉Transformer的深度伪造视频检测（2021年3月11日）
德雷萨·沃达乔、所罗门·阿特纳夫
“深度伪造生成与检测：现状、开放挑战、应对措施及未来方向”（2021年2月25日）
莫米娜·马苏德、玛丽亚姆·纳瓦兹、哈立德·马赫穆德·马利克、阿里·贾韦德、奥恩·伊尔塔扎

📍 相关综述

LLM

MM-LLMs：多模态大型语言模型的最新进展（2024年1月24日）
张笃真、于雅涵、李晨星
张笃真、于雅涵、李晨星、董家华、苏丹、褚晨辉、于东
多模态大型语言模型综述（2023年6月23日）
尹书康、傅超友、赵思睿等
尹书康、傅超友、赵思睿、李可、孙兴、徐通、陈恩洪
多模态大型语言模型：综述（2023年11月22日）
[IEEE BigData 2023] 吴嘉阳、甘文胜、陈泽峰等
吴嘉阳、甘文胜、陈泽峰、万士成、菲利普·S·余
大型语言模型综述（2023年3月31日）
韦恩·辛·赵、周坤、李俊义等
韦恩·辛·赵、周坤、李俊义、唐天义、王小磊、侯玉鹏、闵英倩、张贝辰、张俊杰、董子灿、杜一凡、杨晨、陈宇硕、陈志鹏、江金浩、任瑞阳、李一凡、唐新宇、刘子康、刘培宇、聂建云、温继荣

视觉

视觉领域的自回归模型：综述（2024年11月8日）
熊静、刘功业、黄伦等
熊静、刘功业、黄伦、吴成悦、吴泰强、穆瑶、姚远、沈辉、万中伟、黄金发、陶超凡、严申、姚华秀、孔令鹏、杨红霞、张密、吉列尔莫·萨皮罗、罗杰波、罗平、王义）
用于视觉计算的扩散模型最新进展（2023年10月11日）
Ryan Po、王一帆、弗拉季斯拉夫·戈利亚尼克等
Ryan Po、王一帆、弗拉季斯拉夫·戈利亚尼克、克菲尔·阿伯曼、乔纳森·T·巴伦、阿米特·H·贝尔马诺、埃里克·瑞安·陈、塔莉·德凯尔、亚历山大·霍林斯基、安朱·卡纳扎瓦、C·卡伦·刘、刘凌杰、本·米尔登霍尔、马蒂亚斯·尼瑟纳、比约恩·奥默、克里斯蒂安·西奥巴尔特、彼得·翁卡、戈登·韦茨施泰因
视觉领域的扩散模型：综述（2022年9月10日）
[TPAMI 2023] 弗洛里内尔-阿林·克罗伊托鲁、弗拉德·洪德鲁、拉杜·图多尔·伊奥内斯库等
弗洛里内尔-阿林·克罗伊托鲁、弗拉德·洪德鲁、拉杜·图多尔·伊奥内斯库、穆巴拉克·沙赫

👨‍💻 团队

以下是本仓库各模态贡献者的名单。

模态/任务	贡献者
图像生成	陈景业、迟晓伟、何英青
视频生成	何英青、迟晓伟、陈景业
图像与视频编辑	邢雅周
3D生成与编辑	刘宏宇
音频生成与编辑	田泽越、袁睿彬
LLM智能体	刘兆阳
安全	刘润涛
负责人	何英青、刘兆阳

😉 引用

如果您在研究中使用了本工作，请按以下格式引用论文：

@article{he2024llms,
    title={LLMs Meet Multimodal Generation and Editing: A Survey},
    author={He, Yingqing and Liu, Zhaoyang and Chen, Jingye and Tian, Zeyue and Liu, Hongyu and Chi, Xiaowei and Liu, Runtao and Yuan, Ruibin and Xing, Yazhou and Wang, Wenhai and Dai, Jifeng and Zhang, Yong and Xue, Wei and Liu, Qifeng and Guo, Yike and Chen, Qifeng},
    journal={arXiv preprint arXiv:2405.19334},
    year={2024},
}

⭐️ 星标历史

Awesome-LLMs-meet-Multimodal-Generation 快速上手指南

本仓库并非单一的可安装软件包，而是一个精选的学术论文与开源项目列表，涵盖了大语言模型（LLM）与多模态生成（图像、视频、3D、音频）及编辑领域的前沿研究。本指南将帮助您快速浏览资源、检索目标论文并运行相关代码。

环境准备

由于本仓库包含多个独立的科研项目，每个项目的环境要求各不相同。在开始之前，请确保您的开发环境满足以下通用基础要求：

操作系统: Linux (推荐 Ubuntu 20.04/22.04) 或 macOS。
Python: 建议版本 3.8 或更高（具体取决于所选子项目）。
GPU: 大多数生成式模型需要 NVIDIA GPU 支持，建议显存 16GB 以上以运行较新的视频或高分辨率图像模型。
基础依赖:
- Git (用于克隆仓库)
- CUDA Toolkit (需与 PyTorch 版本匹配)
- PyTorch / TensorFlow (根据具体项目选择)

安装步骤

本仓库本身无需通过 pip 安装，只需克隆到本地即可作为资源索引使用。若您想运行列表中某个具体的模型（例如 Show-o 或 ThinkDiff），需进入该项目对应的子链接进行独立安装。

1. 克隆本资源仓库

git clone https://github.com/your-target-repo/Awesome-LLMs-meet-Multimodal-Generation.git
cd Awesome-LLMs-meet-Multimodal-Generation

(注：请将上述 URL 替换为实际的仓库地址，原文未提供具体 GitHub 链接，通常为类似结构)

2. 安装具体项目示例

假设您选择运行列表中的 Show-o 项目（统一多模态理解与生成），请参考其官方代码库进行安装：

# 进入具体项目目录（示例）
git clone https://github.com/showlab/Show-o.git
cd Show-o

# 创建虚拟环境
conda create -n showo python=3.10
conda activate showo

# 安装依赖 (具体命令请以该项目 README 为准)
pip install -r requirements.txt

💡 提示：列表中每个项目都有独立的 [Code] 链接，请点击对应项目的 GitHub 页面获取最准确的安装指令。

基本使用

本仓库的主要用途是文献检索与项目发现。以下是三种高效使用本指南的方法：

1. 通过目录浏览研究领域

直接点击仓库 README 中的目录链接，快速定位到您感兴趣的任务类别：

多模态生成 (Multimodal Generation): 包含图像、视频、3D、音频生成。
- 细分领域：LLM-based (基于大模型) 或 Non-LLM-based (基于 Clip/T5 等)。
多模态编辑 (Multimodal Editing): 针对现有内容的修改。
多模态智能体 (Multimodal Agents): 代理任务。
安全性 (Safety): 攻击、防御与对齐。

2. 通过作者姓名检索论文

如果您想查找特定学者（例如 "Yann LeCun" 或 "Song Han"）的相关工作：

在浏览器或 PDF 阅读器中按下 Ctrl + F (Windows/Linux) 或 Cmd + F (macOS)。
输入作者姓名。
列表会自动高亮并展开包含该作者的所有论文条目。

3. 通过标签筛选特定技术

利用仓库支持的标签功能快速过滤技术点。在搜索框中输入以下标签：

tokenizer: 查找关于神经分词器（如 Cosmos Tokenizer, ElasticTok）的研究。
customization: 查找个性化生成相关论文。
iteractive: 查找交互式生成内容。
human motion generation: 查找人体动作生成相关研究。

4. 运行示例代码

一旦找到感兴趣的项目（例如 MetaMorph 或 VILA-U）：

点击条目下的 [Code] 徽章跳转至 GitHub。
按照该项目的 README.md 下载预训练权重。

运行推理脚本，通常格式如下（以伪代码为例）：

python inference.py --prompt "A cat playing guitar" --model_path ./checkpoints/model.pth

本指南仅作为资源导航，具体模型的参数调整、训练细节及许可证限制请务必查阅各子项目的原始文档。

常见问题

如何向该仓库推荐或添加新的学术论文？

该列表是否收录实际的应用程序或非学术类项目？

如果发现综述论文或图表中存在错误（如时间线标注错误），该如何反馈？

提交的工作需要满足什么条件才会被收录？

除了提交 Issue，还有其他方式贡献内容吗？

关于长视频生成或多模态编辑的最新论文会被收录吗？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 158.6k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|6天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架