Awesome-Text-to-Image

2.4k 207 非常简单 1 次阅读 5天前MIT开发框架其他图像

AI 解读由 AI 自动生成，仅供参考

Awesome-Text-to-Image 是一个整理文本生成图像领域资源的开源集合，汇集了论文、代码、数据集、评估指标等关键资料。它解决了该领域资源分散、查找困难的问题，为研究者和开发者提供一站式查询平台。通过结构化分类（如数据集、项目、论文与代码、评估指标等）和精选Best Collection列表，用户能快速定位最新成果。特别适合AI研究人员、算法工程师及创意设计师，帮助他们高效追踪技术动态。项目持续更新，最新版本2.0新增时间排序和专题分类，还包含CVPRW 2023收录的综述论文，确保内容紧跟前沿进展。无需复杂操作，直接访问即可获取权威资源，助力文本到图像生成技术的探索与应用。

使用场景

某高校AI实验室的研究员小李正在撰写关于文本生成图像技术的综述论文，需要快速整理最新研究进展和相关资源。

没有 Awesome-Text-to-Image 时

每天花费数小时在Google Scholar、arXiv等平台手动搜索，结果杂乱且难以区分核心论文，常需反复筛选
常错过CVPR、ICCV等顶会的最新成果，需逐个查看会议论文集，耗时且易遗漏
找到的代码仓库质量参差不齐，部分项目已停止维护，复现时频繁遇到依赖问题
数据集链接分散在GitHub Issues、Reddit、个人博客等不同平台，平均每个链接需10分钟验证有效性

使用 Awesome-Text-to-Image 后

通过“Best Collection”和“Recently Focused Papers”列表，30分钟内精准定位2023年CVPR、ICLR等顶会的20篇关键论文，覆盖最新技术突破
直接访问整理好的数据集页面，所有链接经过验证且附带使用说明，数据准备时间减少80%
项目列表明确标注GitHub star数、更新时间和维护状态，快速筛选高活跃度代码库，复现成功率提升至90%
按主题分类的资源导航让综述章节结构清晰，写作效率提升3倍，提前两周完成论文初稿

核心价值：将文献调研和资源收集的耗时从数周压缩至数小时，让研究者专注创新而非信息整理。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notes此为资源集合仓库，非可执行工具，无具体运行环境需求

python未说明

未说明

快速开始

awesome 文本转图像📝-to-Image🌇

一个关于文本到图像合成/操控任务的资源集合。

⭐ 引用

如果您觉得本文和这个仓库对您的研究有所帮助，请在下方引用：


@inproceedings{zhou2023vision+,
  title={视觉+语言应用：综述},
  author={周宇彤和岛田信隆},
  booktitle={IEEE/CVF计算机视觉与模式识别会议论文集},
  pages={826--842},
  year={2023}
}

🎑 新闻

[!TIP] 版本1.0（一体化版本）可在此处找到链接，并将于2024年2月29日停止更新。

[2024年2月29日] 更新**“Awesome Text to Image”版本2.0**！论文与代码以及相关工作也将于3月逐步更新。
[2023年5月26日] 🔥新增我们的综述论文【视觉+语言应用：综述】（https://openaccess.thecvf.com/content/CVPR2023W/GCV/html/Zhou_Vision__Language_Applications_A_Survey_CVPRW_2023_paper.html）及特别【**最佳合集**】（https://github.com/Yutong-Zhou-cv/Awesome-Text-to-Image/blob/main/%5BCVPRW%202023%F0%9F%8E%88%5D%20%20Best%20Collection.md）列表！
[2023年4月4日] 【视觉+语言应用：综述】被CVPRW2023接受。
[2020年10月13日] Awesome-Text-to-Image仓库创建。

待办

- 添加主题顺序列表和时间顺序列表
- 添加【最佳合集】（https://github.com/Yutong-Zhou-cv/Awesome-Text-to-Image/blob/main/%5BCVPRW%202023%F0%9F%8E%88%5D%20%20Best%20Collection.md）
- 创建【⏳近期关注论文】（https://github.com/Yutong-Zhou-cv/Awesome-Text-to-Image/blob/main/%E2%8F%B3Recently%20Focused%20Papers.md）

内容

- 1. 描述
- 2. 定量评价指标
- 3. 数据集
- 4. 项目
- 5. Paper With Code
- 6. Other Related Works
联系我
贡献者

描述

在过去的几十年里，计算机视觉（CV）和自然语言处理（NLP）领域在深度学习研究中取得了多项重大技术突破。最近，研究人员开始关注如何将语义信息与视觉信息结合起来，以解决这些传统上独立的领域之间的跨学科问题。目前已有不少研究致力于文本到图像的合成技术，这类技术能够将输入的文本描述（关键词或句子）转换为逼真的图像。
文本到图像任务的相关论文、代码和数据集均可在此处获取。

🐌 Markdown 格式：

（会议/期刊年份）标题, 第一作者等. [论文] [代码] [项目]

论文与代码

文本转人脸👨🏻🧒👧🏼🧓🏽
- (ECCV 2024) PreciseControl：通过细粒度属性控制增强文本到图像扩散模型, Rishubh Parihar 等人 [论文] [项目]
- (arXiv 预印本 2024) [💬 数据集] 1500 万个多模态人脸图像-文本数据集, Dawei Dai 等人 [论文]
- (arXiv 预印本 2024) [💬 3D] Portrait3D：利用金字塔表示和 GAN 先验进行文本引导的高质量 3D 人像生成, Yiqian Wu 等人 [论文]
- (CVPR 2024) CosmicMan：面向人类的文本到图像基础模型, Shikai Li 等人 [论文] [项目]
- (ICML 2024) 通过直接跨模态映射与几何正则化实现快速文本到 3D 人脸生成与操控, Jinlu Zhang 等人 [论文] [代码]
- (NeurIPS 2023) 通过 Celeb 基础将任何人插入扩散模型, Ge Yuan 等人 [论文] [项目]
- (IJACSA 2023) Mukh-Oboyob：基于 Stable Diffusion 和 BanglaBERT 的孟加拉语文本到人脸合成, Aloke Kumar Saha 等人 [论文] [代码]
- (SIGGRAPH 2023) [💬 3D] DreamFace：在文本指导下渐进式生成可动画化的 3D 人脸, Longwen Zhang 等人 [论文] [项目] [HuggingFace]
- (CVPR 2023) [💬 3D] 从自然语言描述生成高保真 3D 人脸, Menghua Wu 等人 [论文] [代码] [项目]
- (CVPR 2023) 用于多模态人脸生成与编辑的协同扩散, Ziqi Huang 等人 [论文] [代码] [项目]
- (模式识别 2023) 你在哪里编辑，就得到什么：基于区域注意力的文本引导图像编辑, Changming Xiao 等人 [论文] [代码]
- (arXiv 预印本 2022) 通过潜在对齐桥接 CLIP 和 StyleGAN 以进行图像编辑, Wanfeng Zheng 等人 [论文]
- (ACMMM 2022) 学习动态先验知识用于文本到人脸像素合成, Jun Peng 等人 [论文]
- (ACMMM 2022) 迈向开放式的文本到人脸生成、组合与操控, Jun Peng 等人 [论文]
- (BMVC 2022) clip2latent：使用去噪扩散和 CLIP 对预训练 StyleGAN 进行文本驱动采样, Justin N. M. Pinkney 等人 [论文] [代码]
- (arXiv 预印本 2022) ManiCLIP：从文本进行多属性人脸操控, Hao Wang 等人 [论文]
- (arXiv 预印本 2022) 野外生成的人脸：Stable Diffusion、Midjourney 和 DALL-E 2 的定量比较, Ali Borji, [论文] [代码] [数据]
- (arXiv 预印本 2022) 为预训练人脸生成器学习无文本的自然语言接口, Xiaodan Du 等人 [论文] [代码]
- (基于知识的系统-2022) CMAFGAN：一种基于跨模态注意力融合的生成对抗网络用于属性词到人脸合成, Xiaodong Luo 等人 [论文]
- (神经网络-2022) DualG-GAN，一种基于双通道生成器的生成对抗网络用于文本到人脸合成, Xiaodong Luo 等人 [论文]
- (arXiv 预印本 2022) 使用 StyleGAN2 进行文本到人脸生成, D. M. A. Ayanthi 等人 [论文]
- (CVPR 2022) StyleT2I：迈向组合式且高保真的文本到图像合成, Zhiheng Li 等人 [论文] [代码]
- (arXiv 预印本 2022) StyleT2F：使用 StyleGAN2 从文本描述生成人脸, Mohamed Shawky Sabae 等人 [论文] [代码]
- (CVPR 2022) AnyFace：自由风格文本到人脸合成与操控, Jianxin Sun 等人 [论文]
- (IEEE 网络科学与工程学报-2022) TextFace：基于文本到风格映射的人脸生成与操控, Xianxu Hou 等人 [论文]
- (CVPR 2021) TediGAN：文本引导的多样化图像生成与操控, Weihao Xia 等人 [论文] [扩展版][代码] [数据集] [Colab] [视频]
- (FG 2021) 用于文本到人脸合成与操控的生成对抗网络，结合预训练 BERT 模型, Yutong Zhou 等人 [论文]
- (ACMMM 2021) 多标题文本到人脸合成：数据集与算法, Jianxin Sun 等人 [论文] [代码]
- (ACMMM 2021) 用于文本到人脸合成与操控的生成对抗网络, Yutong Zhou. [论文]
- (WACV 2021) 按需定制人脸：通过属性解耦进行文本到人脸生成, Tianren Wang 等人 [论文]
- (arXiv 预印本 2019) FTGAN：用于文本到人脸生成的全训练生成对抗网络, Xiang Chen 等人 [论文]

<🎯返回顶部>

具体问题🤔
- (arXiv预印本2026) [🖼️ 美学数据集] Moonworks Lunara美学数据集, 王燕等 [论文] [数据集]
- (arXiv预印本2026) [📸 变化数据集] Moonworks Lunara美学II：图像变化数据集 王燕等 [论文] [数据集]
- (arXiv预印本2025) [💬 可微物体计数] YOLO-Count：面向文本到图像生成的可微物体计数, 曾冠宁等 [论文]
- (arXiv预印本2024) [💬 性别偏见对齐] PopAlign：面向公平文本到图像生成的人口级对齐, 李舒凡等 [论文] [代码]
- (arXiv预印本2024) [💬 细粒度反馈] 超越点赞/点踩：解析文本到图像生成细粒度反馈的挑战, 凯瑟琳·M·柯林斯等 [论文]
- (CVPR 2024-最佳论文) [💬 人类反馈] 面向文本到图像生成的丰富人类反馈, 梁友伟等 [论文]
- (ICLR 2024) [💬 未经授权的数据] DIAGNOSIS：检测文本到图像扩散模型中的未经授权数据使用, 王振廷等 [论文] [代码]
- (CVPR 2024) [💬 开放集偏见检测] OpenBias：文本到图像生成模型中的开放集偏见检测, 莫雷诺·丁卡等 [论文]
- (arXiv预印本2024) [💬 空间一致性] 做对了：提升文本到图像模型的空间一致性, 阿格尼特·查特吉等 [论文] [项目] [代码] [数据集]
- (arXiv预印本2024) [💬 安全性] SafeGen：缓解文本到图像模型中的不安全内容生成, 李新峰等 [论文] [代码]
- (arXiv预印本2024) [💬 美学] Playground v2.5：提升文本到图像生成美学质量的三大洞见, 李大清等 [论文] [项目] [HuggingFace]
- (EMNLP 2023) [💬 文本视觉性] 利用大型视觉语言模型学习文本的视觉性, 戈拉夫·维尔玛等 [论文] [项目]
- (arXiv预印本2023) [💬 抵抗恶意适应] IMMA：免疫文本到图像模型抵抗恶意适应, 郑一嘉等 [论文] [项目]
- (arXiv预印本2023) [💬 原则性重提示] 一张图胜过千言万语：原则性重提示提升图像生成效果, 埃亚尔·塞加利斯等 [论文]
- ⭐⭐(NeurIPS 2023) [💬 全面评估] 文本到图像模型的全面评估, 托尼·李等 [论文] [代码] [项目]
- (ICCV 2023) [💬 安全性] 让艺术家“Rickroll”：向文本编码器注入后门以实现文本到图像合成, 卢卡斯·斯特鲁佩克等 [论文] [代码]
- (arXiv预印本2023) [💬 自然攻击能力] 扩散模型的有趣特性：大规模数据集用于评估文本到图像生成模型的自然攻击能力, 佐藤隆美等 [论文]
- (ACL 2023) [💬 偏见] 视觉语言模型中偏见的多维度研究, 加布里埃莱·鲁杰里等 [论文]
- (FAACT 2023) [💬 人口统计刻板印象] 易于获取的文本到图像生成放大了大规模人口统计刻板印象, 费德里科·比安奇等 [论文]
- (arXiv预印本2023) [💬 鲁棒性] 评估文本到图像扩散模型在现实世界攻击下的鲁棒性, 高洪成等 [论文]
- (CVPR 2023) [💬 对抗鲁棒性分析] RIATIG：可靠且难以察觉的对抗性文本到图像生成与自然提示, 刘涵等 [论文]
- (arXiv预印本2023) [💬 文本反转] 这个损失有意义吗？用确定性目标评估加速文本反转, 安东·沃罗诺夫等 [论文] [代码]
- (arXiv预印本2022) [💬 可解释干预] 不只是漂亮图片：文本到图像生成器支持可解释干预以获得稳健表示, 袁建浩等 [论文]
- (arXiv预印本2022) [💬 道德图像操作] 判断、定位和编辑：确保文本到图像生成的视觉常识道德性, 朴圣范等 [论文]
- (arXiv预印本2022) [💬 创意迁移] 基于反转的创意迁移与扩散模型, 张宇欣等 [论文]
- (arXiv预印本2022) [💬 模糊性] 大象在飞吗？解析文本到图像生成模型中的模糊性, 尼纳雷·梅赫拉比等 [论文]
- (arXiv预印本2022) [💬 种族政治] 一个拼写符号：DALL-E 2、无视觉图像与特征空间的种族政治, 法比安·奥弗特等 [论文]
- (arXiv预印本2022) [💬 隐私分析] 针对文本到图像生成模型的成员推断攻击, 吴奕欣等 [论文]
- (arXiv预印本2022) [💬 假图像真实性评估] DE-FAKE：检测与归因由文本到图像扩散模型生成的假图像, 沙泽阳等 [论文]
- (arXiv预印本2022) [💬 文化偏见] 有偏见的艺术家：通过同形异义词在文本引导图像生成模型中利用文化偏见, 卢卡斯·斯特鲁佩克等 [论文]

<🎯返回顶部>

2025
- （arXiv预印本 2025）GenExam：一种多学科文本到图像考试，王兆凯等 [论文]
- （arXiv预印本 2025）RefVNLI：迈向面向主题的文本到图像生成的可扩展评估，阿维夫·斯洛博德金等 [论文]
- （arXiv预印本 2025）GPT-4o图像生成能力的实证研究，陈思翔等 [论文]
2024
- (arXiv预印本2024) 流程生成器匹配, 黄泽民等 [论文]
- (EMNLP 2024) Kandinsky 3：面向多功能生成框架的文本到图像合成, 弗拉基米尔·阿基普金等 [论文] [代码] [项目]
- (arXiv预印本2024) 小数据集上文本到图像生成的数据外推, 叶森茂和刘飞 [论文]
- ⭐⭐(arXiv预印本2024) Imagen 3, ImagenTeam-谷歌 [论文]
- (arXiv预印本2024) MARS：用于细粒度文本到图像合成的自回归模型混合体, 何旺贵等 [论文]
- (快手) Kolors：用于照片级真实感文本到图像合成的扩散模型高效训练, 张思贤等 [论文] [代码] [项目]
- (CVPR 2024) [💬人类偏好] 学习多维度人类偏好用于文本到图像生成, 张思贤等 [论文] [代码] [项目]
- (CVPR 2024) [💬文本到布局→文本+布局到图像] 基于注意力重聚焦的有据文本到图像合成, 冯琼等 [论文] [项目] [代码]
- (arXiv预印本2024) Dimba：Transformer-Mamba扩散模型, 费正聪等 [论文]
- (arXiv预印本2024) [💬生成与编辑] MultiEdits：使用文本到图像扩散模型同时进行多方面编辑, 黄明珍等 [论文] [项目]
- (arXiv预印本2024) AutoStudio：在多轮交互式图像生成中构建一致的主题, 程俊豪等 [论文] [项目] [代码]
- (arXiv预印本2024) TheaterGen：利用大语言模型进行角色管理以实现多轮图像生成的一致性, 程俊豪等 [论文] [项目] [代码]
- (CVPR 2024) Ranni：驯服文本到图像扩散以准确遵循指令, 冯宇彤等 [论文] [项目] [代码]
- (arXiv预印本2024) CoMat：将文本到图像扩散模型与图像到文本概念匹配对齐, 江东志等 [论文] [项目] [代码]
- (arXiv预印本2024) TextCraftor：你的文本编码器可以成为图像质量控制器, 李燕玉等 [论文]
- (CVPR 2024) ECLIPSE：用于图像生成的资源高效文本到图像先验, 帕特尔·迈特雷亚等 [论文] [项目] [代码] [Hugging Face]
- (arXiv预印本2024) SELMA：利用自动生成数据学习并融合技能专用文本到图像专家, 李家鲁等 [论文] [项目] [代码]
- (ICLR 2024) PixArt-α：用于照片级真实感文本到图像合成的快速扩散Transformer训练, 陈俊松等 [论文] [项目] [代码] [Hugging Face]
- (arXiv预印本2024) PixArt-Σ：用于4K文本到图像生成的弱到强扩散Transformer训练, 陈俊松等 [论文]
- (arXiv预印本2024) PIXART-δ：基于潜在一致性模型的快速可控图像生成, 陈俊松等 [论文]
- (CVPR 2024) 用于文本到图像生成的判别探测与调优, 曲雷刚等 [论文] [项目]
- (CVPR 2024) RealCustom：为实时开放域文本到图像定制缩小真实文本词, 黄梦琪等 [论文] [项目]
- ⭐(arXiv预印本2024) SDXL-Lightning：渐进式对抗扩散蒸馏, 林善川等 [论文] [HuggingFace] [演示]
- ⭐(arXiv预印本2024) RealCompo：现实主义与构图性之间的动态平衡提升文本到图像扩散模型, 张欣晨等 [论文] [代码]
- (arXiv预印本2024) 为文本到图像生成学习连续3D词, 郑泰英等 [论文] [项目] [代码]
- (arXiv预印本2024) DiffusionGPT：LLM驱动的文本到图像生成系统, 秦杰等 [论文] [项目] [代码]
- (arXiv预印本2024) DressCode：根据文本指导自动递归缝制并生成服装, 何凯等 [论文] [项目]

<🎯返回顶部>

2023
- (arXiv预印本2023) CoDi-2：上下文内、交错式与交互式的任意文本到任意图像生成, 汤子宁等 [论文] [项目] [代码]
- (arXiv预印本2023) DiffBlender：可扩展且可组合的多模态文本到图像扩散模型, 金圣允等 [论文] [代码] [项目]
- (arXiv预印本2023) ElasticDiffusion：无需训练的任意尺寸图像生成, 哈吉-阿里·莫亚德等 [论文] [项目] [代码] [演示]
- (ICCV 2023) BoxDiff：无需训练的框约束扩散模型进行文本到图像合成, 谢金恒等 [论文] [代码]
- (arXiv预印本2023) 晚期约束扩散引导用于可控图像合成, 刘畅等 [论文] [代码]
- (arXiv预印本2023) 一张图胜过千言万语：多属性反演用于约束文本到图像合成, 阿什瓦里亚·阿加瓦尔等 [论文]
- ⭐(arXiv预印本2023) UFOGen：通过扩散GAN实现大规模文本到图像生成的一次性前向传播, 徐彦武等 [论文]
- (ICCV 2023) ITI-GEN：包容性文本到图像生成, 张成等 [论文] [代码] [项目]
- (arXiv预印本2023) Mini-DALLE3：通过提示大型语言模型进行交互式文本到图像生成, 赖泽强等 [论文] [代码] [演示] [项目]
- (arXiv预印本2023) [💬评估] GenEval：面向对象的文本到图像对齐评估框架, 德鲁巴·戈什等 [论文] [代码]
- ⭐(arXiv预印本2023) Kandinsky：改进的文本到图像合成，结合图像先验与潜在扩散, 安东·拉日加耶夫等 [论文] [代码] [演示] [演示视频] [Hugging Face]
- ⭐⭐(ICCV 2023) 为文本到图像扩散模型添加条件控制, 张吕敏等 [论文] [代码]
- (ICCV 2023) DiffCloth：基于扩散的服装合成与操控，通过结构化跨模态语义对齐, 张旭杰等 [论文]
- (ICCV 2023) 无监督组合概念发现与文本到图像生成模型, 刘楠等 [论文] [代码] [项目]
- (arXiv预印本2023) 抽象概念的文本到图像生成, 廖嘉艺等 [论文]
- (arXiv预印本2023) T2I-CompBench：开放世界组合文本到图像生成的综合基准测试, 黄凯毅等 [论文] [代码] [项目]
- (arXiv预印本2023) [💬评估] 人类偏好评分v2：评估文本到图像合成人类偏好的坚实基准, 吴晓石等 [论文] [代码]
- (arXiv预印本2023) 迈向统一的基于文本的人像检索：大规模多属性与语言搜索基准测试, 杨舒宇等 [论文] [代码] [项目]
- (arXiv预印本2023) 从文本合成艺术电影照片, 马哈帕特拉·阿尼鲁达等 [论文] [代码] [项目]
- (arXiv预印本2023) 多对象文本到图像生成的检测器引导, 刘陆平等 [论文]
- (arXiv预印本2023) A-STAR：测试时注意力分离与保留用于文本到图像合成, 阿什瓦里亚·阿加瓦尔等 [论文]
- (arXiv预印本2023) [💬评估] ConceptBed：评估文本到图像扩散模型的概念学习能力, 帕特尔·迈特雷亚等 [论文] [代码] [项目]
- ⭐(arXiv预印本2023) StyleDrop：任意风格的文本到图像生成, 孙基赫等 [论文] [项目]
- ⭐⭐(arXiv预印本2023) 无需提示的扩散：将“文本”从文本到图像扩散模型中移除, 徐兴谦等 [论文] [代码] [Hugging Face]
- ⭐⭐ (SIGGRAPH 2023) 混合潜在扩散, 阿夫拉米·奥姆里等 [论文] [代码] [项目]
- (CVPR 2023) [💬可控] SpaText：用于可控图像生成的空间-文本表示, 阿夫拉米·奥姆里等 [论文] [项目]
- ⭐⭐ (arXiv 2023) 被选中的那一个：文本到图像扩散模型中的一致性角色, 阿夫拉米·奥姆里等 [论文] [代码] [项目]
- (CVPR 2023) [💬稳定扩散与大脑] 利用人类脑活动的潜在扩散模型进行高分辨率图像重建, 高木悠等 [论文]
- (arXiv预印本2023) BLIP-Diffusion：用于可控文本到图像生成与编辑的预训练主体表示, 李东旭等 [论文]
- (arXiv预印本2023) [💬评估] LLMScore：揭示大型语言模型在文本到图像合成评估中的强大能力, 卢宇杰等 [论文] [代码]
- (arXiv预印本2023) P+：文本到图像生成中的扩展文本条件, 沃伊诺夫·安德烈等 [论文] [项目]
- (arXiv预印本2023) 微调零样本图像定制的编码器, 贾旭辉等 [论文]
- (ICML 2023) TR0N：用于零样本即插即用条件生成的翻译网络, 刘兆延等 [论文] [代码] [Hugging Face]
- (ICLR 2023) [💬3D]DreamFusion：使用2D扩散进行文本到3D, 波尔·本等 [论文（arXiv）] [论文（OpenReview）] [项目] [简短阅读]
- (ICLR 2023) 无需训练的结构化扩散引导用于组合文本到图像合成, 冯伟西等 [论文（arXiv）] [论文（OpenReview）] [代码]
- ⭐⭐(arXiv预印本2023) Pick-a-Pic：文本到图像生成用户偏好开放数据集, 克里斯汀·尤瓦尔等 [论文] [代码] [数据集] [在线应用] [PickScore]
- (arXiv预印本2023) TTIDA：通过文本到文本和文本到图像模型进行可控生成数据增强, 尹宇威等 [论文]
- (arXiv预印本2023) [💬文本反转] 用于个性化文本到图像生成的可控文本反转, 杨建安等 [论文]
- (arXiv预印本2023) 扩散解释器：用于文本到图像稳定扩散的可视化解释, 李晟敏等 [论文] [项目]
- ⭐⭐(ACL 2023发现) [💬多语言到图像] AltCLIP：改变CLIP的语言编码器以扩展语言能力, 陈忠志等 [论文] [代码-AltDiffusion] [代码-AltCLIP] [Hugging Face]
- (arXiv预印本2023) [💬种子选择] 一切取决于你的起点：带种子选择的文本到图像生成, 萨缪尔·德维尔等 [论文]
- (arXiv预印本2023) [💬音频/声音/多语言到图像] GlueGen：用于X到图像生成的即插即用多模态编码器, 秦灿等 [论文]
- (arXiv预印本2023) [💬忠实度评估] TIFA：准确且可解释的文本到图像忠实度评估与问答, 胡宇石等 [论文] [项目] [代码]
- (arXiv预印本2023) InstantBooth：无需测试时微调的个性化文本到图像生成, 石静等 [论文] [项目]
- (TOMM 2023) LFR-GAN：基于局部特征精化的生成对抗网络用于文本到图像生成, 邓子军等 [论文] [代码]
- (ICCV 2023) 富有表现力的文本到图像生成与丰富文本, 葛松伟等 [论文] [代码] [项目] [演示]
- (arXiv预印本2023) [💬人类偏好] ImageReward：学习与评估文本到图像生成的人类偏好, 徐家政等 [论文] [代码]
- (arXiv预印本2023) eDiff-I：带有专家去噪器集合的文本到图像扩散模型, 巴拉吉·约格什等 [论文] [项目]
- (CVPR 2023) GALIP：用于文本到图像合成的生成对抗CLIP, 陶明等 [论文] [代码]
- (CVPR 2023) [💬人类评估] 迈向可验证与可重复的文本到图像生成人类评估, 大谷真由等 [论文]
- (arXiv预印本2023) Text2Room：从2D文本到图像模型中提取纹理3D网格, 霍林·卢卡斯等 [论文] [项目] [代码] [视频]
- (arXiv预印本2023) 编辑文本到图像扩散模型中的隐含假设, 奥尔加德·哈达斯等 [论文] [项目] [代码]
- ⭐⭐(arXiv预印本2023) 视觉ChatGPT：与视觉基础模型对话、绘图与编辑, 吴晨飞等 [论文] [代码]
- (arXiv预印本2023) X&Fuse：融合文本到图像生成中的视觉信息, 克里斯汀·尤瓦尔等 [论文]
- (CVPR 2023) [💬稳定扩散与大脑] 利用人类脑活动的潜在扩散模型进行高分辨率图像重建, 高木悠等 [论文] [项目] [代码]
- ⭐⭐(arXiv预印本2023) 扩散模型的通用引导, 班萨尔·阿尔皮特等 [论文] [代码]
- ⭐(arXiv预印本2023) 关注并激发：基于注意力的语义引导用于文本到图像扩散模型, 谢弗·希拉等 [论文] [项目] [代码]
- (BMVC 2023) 分割与绑定你的注意力以改善生成语义护理, 李雨萌等 [论文] [项目] [代码]
- (IEEE多媒体事务) ALR-GAN：用于文本到图像合成的自适应布局精炼, 谭洪辰等 [论文]
- ⭐(CVPR 2023) 文本到图像扩散的多概念定制, 库马里·努普尔等 [论文] [项目] [代码] [Hugging Face]
- (CVPR 2023) GLIGEN：开放集接地文本到图像生成, 李宇恒等 [论文] [代码] [项目] [Hugging Face演示]
- (arXiv预印本2023) 以属性为中心的组合文本到图像生成, 丛玉仁等 [论文] [项目]
- (arXiv预印本2023) Muse：通过掩码生成变压器进行文本到图像生成, 昌慧文等 [论文] [项目]

<🎯返回顶部>

6. 其他相关工作

📝提示工程📝
- (CHI 2024) PromptCharm：通过多模态提示与优化实现文本到图像生成, 王志杰等 [论文]
- (arXiv预印本 2024) 面向个性化文本到图像生成的自动化黑盒提示工程, 何宇彤等 [论文]
- (EMNLP 2023) BeautifulPrompt：迈向文本到图像合成的自动提示工程, 曹廷峰等 [论文]
- (arXiv预印本 2023) [💬优化提示] NeuroPrompts：用于文本到图像生成的自适应提示优化框架, 沙哈尔·罗森曼等 [论文] [视频演示]
- (arXiv预印本 2022) [💬优化提示] 用于文本到图像生成的提示优化, 郝亚茹等 [论文] [代码] [Hugging Face]
- (arXiv预印本 2022) [💬美学图像生成] 文本到图像模型的最佳提示及其寻找方法, 尼基塔·帕夫利琴科等 [论文]
- (arXiv预印本 2022) 文本到图像生成的提示修饰符分类法, 约纳斯·奥本莱德 [论文]
- (CHI 2022) 文本到图像生成模型提示工程的设计指南, 刘维安等 [论文]

<🎯返回顶部>

⭐多模态⭐ * （arXiv预印本2024）4M-21：一种适用于数十种任务与模态的任意到任意视觉模型，Roman Bachmann等[论文] [4M论文] [项目] [代码] * 📚任意到任意，RGB到所有（标题、边界框、语义分割、深度等），细粒度生成与编辑，多模态引导，任意到RGB检索，RGB到任意检索， * （arXiv预印本2024）Ctrl-X：无需指导的文本到图像生成中的结构与外观控制，Kuan Heng Lin等[论文] [项目] * 📚结构（自然图像、Canny图、法线图、线框图、3D网格等）+图像→图像，结构（掩码、3D网格、Canny图、深度图等）+文本→图像 * （arXiv预印本2024）Lumina-T2X：通过基于流的大扩散Transformer将文本转换为任意模态、分辨率与时长，Peng Gao等[论文] [代码] * 📚文本→图像/视频/音频/3D/音乐 * （ICLR 2024）用于文本引导的视觉生成与编辑的跨模态上下文扩散模型，Ling Yang等[论文] [代码] * 📚文本→图像，文本→视频 * （arXiv预印本2024）TMT：通过将不同模态视为不同语言进行处理的语音、图像与文本之间的三模态翻译，Minsu Kim等[论文] * 📚图像→文本，图像→语音，文本→图像，语音→图像，语音→文本，文本→语音 * ⭐⭐（NeurIPS 2023）CoDi：通过可组合扩散实现任意到任意生成，Zineng Tang等[论文] [项目] [代码] * 📚[单对单生成] 文本→图像，音频→图像，图像→视频，图像→音频，音频→文本，图像→文本 * 📚[多输出联合生成] 文本→视频+音频，文本→文本+音频+图像，文本+图像→文本+图像 * 📚[多种条件] 文本+音频→图像，文本+图像→图像，文本+音频+图像→图像，文本+音频→视频，文本+图像→视频，视频+音频→文本，图像+音频→音频，文本+图像→音频 * ⭐⭐（CVPR 2023）ImageBind：一个嵌入空间绑定一切，Rohit Girdhar等[论文] [项目] [代码] * 📚图像到音频检索，音频到图像检索，文本到图像+音频，音频+图像到图像，音频到图像生成，零样本文本到音频检索与分类... * ⭐（CVPR 2023）为文本到图像合成扩展GANs，Minguk Kang等[论文] [项目] * 📚文本到图像，可控图像合成（风格混合、提示插值、提示混合），超分辨率（文本条件、无条件） * （arXiv预印本2023）DiffBlender：可扩展且可组合的多模态文本到图像扩散模型，Sungnyun Kim等[论文] [代码] [项目] * 📚文本到图像，多模态可控图像合成，文本+图像+空间/非空间标记→图像 * （arXiv预印本2023）TextIR：用于文本驱动可编辑图像修复的简单框架，Yunpeng Bai等[论文] [代码] * 📚图像修复，图像上色，图像超分辨率，通过退化进行图像编辑 * （arXiv预印本2023）为多模态图像合成调制预训练扩散模型，Cusuh Ham等[论文] * 📚素描到图像，分割到图像，文本+素描到图像，文本+分割到图像，文本+素描+分割到图像 * （arXiv预印本2023）Muse：通过掩码生成Transformer进行文本到图像生成，Huiwen Chang等[论文] [项目] * 📚文本到图像，零样本+无掩码编辑，零样本修复/外扩 * （arXiv预印本2022）多功能扩散：文本、图像与变体全部集成于一个扩散模型中，Xingqian Xu等[论文] [代码] [Hugging Face] * 📚文本到图像，图像变体，图像到文本，解纠缠，文本+图像引导生成，可编辑I2T2I * （arXiv预印本2022）Frido：用于复杂场景图像合成的特征金字塔扩散，Wan-Cyuan Fan等[论文] [代码] * 📚文本到图像，场景图到图像，布局到图像，无条件图像生成 * （arXiv预印本2022）NUWA-Infinity：用于无限视觉合成的自回归到自回归生成，Chenfei Wu等[论文] [代码] [项目] * 📚无条件图像生成（高清），文本到图像（高清），图像动画（高清），图像外扩（高清），文本到视频（高清） * （ECCV 2022）NÜWA：用于神经视觉世界创造的视觉合成预训练，Chenfei Wu等[论文] [代码] * 多模态预训练模型用于多任务🎄：文本到图像，素描到图像，图像补全，文本引导图像操作，文本到视频，视频预测，素描到视频，文本引导视频操作 * （ACMMM 2022）重新思考超分辨率作为文本引导细节生成，Chenxi Ma等[论文] * 📚文本到图像，高分辨率，文本引导高分辨率 * （arXiv预印本2022）用于跨模态与条件生成的离散对比扩散，Ye Zhu等[论文] [代码] * 📚文本到图像，舞蹈到音乐，类别到图像 * （arXiv预印本2022）M6-Fashion：高保真多模态图像生成与编辑，Zhikang Li等[论文] * 📚文本到图像，无条件图像生成，局部编辑，文本引导局部编辑，内/外绘画，风格混合 * （CVPR 2022）向我展示什么并告诉我如何：通过多模态条件进行视频合成，Yogesh Balaji等[论文] [代码] 项目 * 📚文本到视频，独立多模态控制，依赖多模态控制 * ⭐⭐（CVPR 2022）用潜在扩散模型进行高分辨率图像合成，Robin Rombach等[论文] [代码] [Stable Diffusion代码] * 📚文本到图像，条件潜在扩散，超分辨率，修复 * ⭐⭐（arXiv预印本2022）通过简单的序列到序列学习框架统一架构、任务与模态，Peng Wang等[论文] [代码] [Hugging Face] * 📚文本到图像生成，图像标题生成，文本摘要，自监督图像分类，[SOTA] 指称表达理解，视觉蕴含，视觉问答 * （arXiv预印本2021）使用专家乘积GAN进行多模态条件图像合成，Xun Huang等[论文] [项目] * 📚文本到图像，分割到图像，文本+分割/素描/图像→图像，素描+分割/图像→图像，分割+图像→图像 * （NeurIPS 2021）M6-UFC：通过非自回归生成Transformer统一多模态控制用于条件图像合成，Zhu Zhang等[论文] * 📚文本到图像，素描到图像，风格迁移，图像修复，多模态控制到图像 * （arXiv预印本2021）ERNIE-ViLG：用于双向视觉-语言生成的统一生成预训练，Han Zhang等[论文] * 一个预训练的100亿参数模型：ERNIE-ViLG。 * 一个包含1.45亿高质量中文图像-文本对的大规模数据集。 * 📚文本到图像，图像标题生成，生成式视觉问答 * （arXiv预印本2021）使用专家乘积GAN进行多模态条件图像合成，Xun Huang等[论文] [项目] * 📚文本到图像，分割到图像，文本+分割/素描/图像→图像，素描+分割/图像→图像，分割+图像→图像 * （arXiv预印本2021）L-Verse：图像与文本之间的双向生成，Taehoon Kim等[论文] [代码] * 📚文本到图像，图像到文本，图像重建 * （arXiv预印本2021）[💬语义扩散引导] 更多控制，免费！使用语义扩散引导进行图像合成，Xihui Liu等[论文] [项目] * 📚文本到图像，图像到图像，文本+图像→图像

<🎯返回顶部>

🛫应用🚀
- (arXiv预印本 2024) [💬照片修饰] JarvisArt：通过智能照片修饰代理解放人类艺术创造力, 林云龙等 [论文] [项目] [代码]
- (CVPR 2025) [💬图像修复] 获取再适应：为图像修复榨取文本到图像模型, 邓俊源等 [论文]
- (arXiv预印本 2024) [💬多概念合成] Gen4Gen：用于生成式多概念合成的生成式数据管道, 叶春晓等 [论文] [项目] [代码]
- (arXiv预印本 2023) [💬3D发型生成] HAAR：基于文本条件的3D发束式人类发型生成模型, 瓦妮莎·斯克利亚罗娃等 [论文] [项目]
- (arXiv预印本 2023) [💬图像超分辨率] 带文本提示扩散的图像超分辨率, 陈峥等 [论文] [代码]
- (2023) [💬图像编辑] 生成式填充。[项目]
- (arXiv预印本 2023) [💬大语言模型] 大语言模型作为艺术指导（LaDi）：利用大语言模型改进文本到媒体生成器, 艾伦·鲁什等 [论文]
- (arXiv预印本 2023) [💬分割] SegGen：用文本到掩码和掩码到图像合成为分割模型注入强大动力, 叶汉荣等 [论文] [项目]
- (arXiv预印本 2023) [💬文本编辑] DiffUTE：通用文本编辑扩散模型, 陈浩兴等 [论文]
- (arXiv预印本 2023) [💬文本字符生成] TextDiffuser：将扩散模型用作文本画家, 陈静叶等 [论文]
- (CVPR 2023) [💬开放词汇全景分割] 基于文本到图像扩散模型的开放词汇全景分割, 徐嘉瑞等 [论文] [代码] 项目] HuggingFace]
- (arXiv预印本 2023) [💬中文文本字符生成] GlyphDraw：在图像合成模型中学习连贯地绘制汉字, 马健等 [论文] [项目]
- (arXiv预印本 2023) [💬有据生成] 引导文本到图像扩散模型实现有据生成, 李子毅等 [论文] [代码] 项目]
- (arXiv预印本 2022) [💬语义分割] CLIP同样是一种高效的分割器：一种基于文本驱动的弱监督语义分割方法, 林宇琪等 [论文] [代码]
- (arXiv预印本 2022) [💬无监督语义分割] Peekaboo：文本到图像扩散模型是零样本分割器, 瑞安·伯格特等 [论文]
- (SIGGRAPH Asia 2022) [💬文本+语音→手势] 节奏性手势生成器：基于层次神经嵌入的节奏感知共语音手势合成, 敖腾龙等 [论文] [代码]
- (arXiv预印本 2022) [💬文本+图像+形状→图像] 带内外注意力的形状引导扩散, 朴东赫等 [论文] [项目]

<🎯返回顶部>

Text+Image/Video → Image/Video * (arXiv preprint 2025) In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer, Zechuan Zhang et al. [Paper] [Project] [Code] * (arXiv preprint 2025) MAGREF: Masked Guidance for Any-Reference Video Generation, Yufan Deng et al. [Paper] [Project] [Code] * (arXiv preprint 2025) Generating Multi-Image Synthetic Data for Text-to-Image Customization, Nupur Kumari et al. [Paper] [Project] [Code] * (arXiv preprint 2024) [💬Style Transfer] StyleShot: A Snapshot on Any Style, Junyao Gao et al. [Paper] [Project] * (CVPR 2024) SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models, Yuzhou Huang et al. [Paper] [Project] [Code] * (arXiv preprint 2024) MM-Diff: High-Fidelity Image Personalization via Multi-Modal Condition Integration, Zhichao Wei et al. [Paper] * (CVPR 2024) Instruct-Imagen: Image Generation with Multi-modal Instruction, Hexiang Hu et al. [Paper] [Project] * (arXiv preprint 2024) [💬NERF] InseRF: Text-Driven Generative Object Insertion in Neural 3D Scenes, Mohamad Shahbazi et al. [Paper] [Project] * (arXiv preprint 2023) ViCo: Plug-and-play Visual Condition for Personalized Text-to-image Generation, Shaozhe Hao et al. [Paper] [Code] * (arXiv preprint 2023) [💬Video Editing] MagicStick: Controllable Video Editing via Control Handle Transformations, Yue Ma et al. [Paper] [Project] [Code] * (arXiv preprint 2023) Lego: Learning to Disentangle and Invert Concepts Beyond Object Appearance in Text-to-Image Diffusion Models, Chen Henry Wu et al. [Paper] * (ACMMM 2023) [💬Style Transfer] ControlStyle: Text-Driven Stylized Image Generation Using Diffusion Priors, Jingwen Chen et al. [Paper] * (ICCV 2023) A Latent Space of Stochastic Diffusion Models for Zero-Shot Image Editing and Guidance, Chen Henry Wu et al. [Paper] [Arxiv] [Code] * (arXiv preprint 2023) [💬Multi-Subject Generation] VideoDreamer: Customized Multi-Subject Text-to-Video Generation with Disen-Mix Finetuning, Hong Chen et al. [Paper] [Project] [Code] * (arXiv preprint 2023) [💬Video Editing] CCEdit: Creative and Controllable Video Editing via Diffusion Models, Ruoyu Feng et al. [Paper] [Demo video] * ⭐⭐ (SIGGRAPH Asia 2023) Break-A-Scene: Extracting Multiple Concepts from a Single Image, Omri Avrahami et al. [Paper] [Project] [Code] * (arXiv preprint 2023) Visual Instruction Inversion: Image Editing via Visual Prompting, Thao Nguyen et al. [Paper] [Project] * (CVPR 2023) [💬3D Shape Editing] ShapeTalk: A Language Dataset and Framework for 3D Shape Edits and Deformations, Panos Achlioptas et al. [Paper] [Code] [Project] * (arXiv preprint 2023) [💬Colorization] DiffColor: Toward High Fidelity Text-Guided Image Colorization with Diffusion Models, Jianxin Lin et al. [Paper] * (ICCV 2023) [💬Video Editing] FateZero: Fusing Attentions for Zero-shot Text-based Video Editing, Chenyang Qi et al. [Paper] [Code] [Project] Hugging Face] * (arXiv preprint 2023) [💬3D] AvatarVerse: High-quality & Stable 3D Avatar Creation from Text and Pose, Huichao Zhang et al. [Paper] [Project] * (ACM Transactions on Graphics 2023) CLIP-Guided StyleGAN Inversion for Text-Driven Real Image Editing, Ahmet Canberk Baykal et al. [Paper] * (arXiv preprint 2023) ⭐⭐AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning, Yuwei Guo et al. [Paper] [Project] [Code] * (ICLR 2023) DiffEdit: Diffusion-based semantic image editing with mask guidance, Guillaume Couairon et al. [Paper] * (arXiv preprint 2023) Controlling Text-to-Image Diffusion by Orthogonal Finetuning, Zeju Qiu et al. [Paper] [Project] [Code] * (arXiv preprint 2023) [💬Reject Human Instructions] Accountable Textual-Visual Chat Learns to Reject Human Instructions in Image Re-creation, Zhiwei Zhang et al. [Paper] [Project] [Code] * (arXiv preprint 2023) MultiFusion: Fusing Pre-Trained Models for Multi-Lingual, Multi-Modal Image Generation, Marco Bellagente et al. [Paper] * (CVPR 2023) Text-Guided Unsupervised Latent Transformation for Multi-Attribute Image Manipulation, Xiwen Wei et al. [Paper] * (arXiv preprint 2023) Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models, Shihao Zhao et al. [Paper] [Project] * (arXiv preprint 2023) Unified Multi-Modal Latent Diffusion for Joint Subject and Text Conditional Image Generation, Yiyang Ma et al. [Paper] * (arXiv preprint 2023) DisenBooth: Disentangled Parameter-Efficient Tuning for Subject-Driven Text-to-Image Generation, Hong Chen et al. [Paper] * (arXiv preprint 2023) [💬Image Editing] Guided Image Synthesis via Initial Image Editing in Diffusion Model, Jiafeng Mao et al. [Paper] * (arXiv preprint 2023) [💬Image Editing] Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion Models, Wenkai Dong et al. [Paper] * (CVPR 2023) DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation, Nataniel Ruiz et al. [Paper] [Project] * (arXiv preprint 2023) Shape-Guided Diffusion with Inside-Outside Attention, Dong Huk Park et al. [Paper] [Code] [Project] Hugging Face] * (arXiv preprint 2023) [💬Image Editing] iEdit: Localised Text-guided Image Editing with Weak Supervision, Rumeysa Bodur et al. [Paper] * (PR 2023) [💬Person Re-identification] BDNet: A BERT-based Dual-path Network for Text-to-Image Cross-modal Person Re-identification, Qiang Liu et al. [Paper] * (arXiv preprint 2023) MagicFusion: Boosting Text-to-Image Generation Performance by Fusing Diffusion Models, Jing Zhao et al. [Paper] [Code] Project] * (CVPR 2023) [💬3D] TAPS3D: Text-Guided 3D Textured Shape Generation from Pseudo Supervision, Jiacheng Wei et al. [Paper] * ⭐⭐(arXiv preprint 2023) [💬Image Editing] MasaCtrl: Tuning-free Mutual Self-Attention Control for Consistent Image Synthesis and Editing, Mingdeng Cao et al. [Paper] [Code] [Project] * (arXiv preprint 2023) Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos, Yue Ma et al. [Paper] [Code] [Hugging Face] * ⭐⭐(arXiv preprint 2023) [💬Image Editing] Delta Denoising Score, Amir Hertz et al. [Paper] * (arXiv preprint 2023) Subject-driven Text-to-Image Generation via Apprenticeship Learning, Wenhu Chen et al. [Paper] [Project] * (arXiv preprint 2023) [💬Image Editing] Region-Aware Diffusion for Zero-shot Text-driven Image Editing, Nisha Huang et al. [Paper] [Code] * ⭐⭐(arXiv preprint 2023) [💬Text+Video → Video]Structure and Content-Guided Video Synthesis with Diffusion Models, Patrick Esser et al. [Paper] [Project] * (arXiv preprint 2023) ELITE: Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image Generation, Yuxiang Wei et al. [Paper] * (arXiv preprint 2023) [💬Fashion Image Editing] FICE: Text-Conditioned Fashion Image Editing With Guided GAN Inversion, Martin Pernuš et al. [Paper] [Code] * (AAAI 2023) CLIPVG: Text-Guided Image Manipulation Using Differentiable Vector Graphics, Yiren Song et al. [Paper] * (AAAI 2023) DE-Net: Dynamic Text-guided Image Editing Adversarial Networks, Ming Tao et al. [Paper] [Code] * (arXiv preprint 2022) Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation, Narek Tumanyan et al. [Paper] [Project] * (arXiv preprint 2022) [💬Text+Image → Video] Tell Me What Happened: Unifying Text-guided Video Completion via Multimodal Masked Video Generation, Tsu-Jui Fu et al. [Paper] * (arXiv preprint 2022) [💬Image Stylization] DiffStyler: Controllable Dual Diffusion for Text-Driven Image Stylization, Nisha Huang et al. [Paper] [Code] * (arXiv preprint 2022) Null-text Inversion for Editing Real Images using Guided Diffusion Models, Ron Mokady et al. [Paper] [Project] * (arXiv preprint 2022) InstructPix2Pix: Learning to Follow Image Editing Instructions, Tim Brooks et al. [Paper] [Project] * (ECCV 2022) [💬Style Transfer] Language-Driven Artistic Style Transfer, Tsu-Jui Fu et al. [Paper] [Code] * (arXiv preprint 2022) Bridging CLIP and StyleGAN through Latent Alignment for Image Editing, Wanfeng Zheng et al. [Paper] * (NeurIPS 2022) One Model to Edit Them All: Free-Form Text-Driven Image Manipulation with Semantic Modulations, Yiming Zhu et al. [Paper] [Code] * (BMVC 2022) LDEdit: Towards Generalized Text Guided Image Manipulation via Latent Diffusion Models, Paramanand Chandramouli et al. [Paper] * (ACMMM 2022) [💬Iterative Language-based Image Manipulation] LS-GAN: Iterative Language-based Image Manipulation via Long and Short Term Consistency Reasoning, Gaoxiang Cong et al. [Paper] * (ACMMM 2022) [💬Digital Art Synthesis] Draw Your Art Dream: Diverse Digital Art Synthesis with Multimodal Guided Diffusion, Huang Nisha et al. [Paper] [Code] * (SIGGRAPH Asia 2022) [💬HDR Panorama Generation] Text2Light: Zero-Shot Text-Driven HDR Panorama Generation, Zhaoxi Chen et al. [Paper] [Project] [Code] * (arXiv preprint 2022) LANIT: Language-Driven Image-to-Image Translation for Unlabeled Data, Jihye Park et al. [Paper] [Project] [Code] * (ACMMM PIES-ME 2022) [💬3D Semantic Style Transfer] Language-guided Semantic Style Transfer of 3D Indoor Scenes, Bu Jin et al. [Paper] [Code] * (arXiv preprint 2022) [💬Face Animation] Language-Guided Face Animation by Recurrent StyleGAN-based Generator, Tiankai Hang et al. [Paper] [Code] * (arXiv preprint 2022) [💬Fashion Design] ARMANI: Part-level Garment-Text Alignment for Unified Cross-Modal Fashion Design, Xujie Zhang et al. [Paper] [Code] * (arXiv preprint 2022) [💬Image Colorization] TIC: Text-Guided Image Colorization, Subhankar Ghosh et al. [Paper] * (ECCV 2022) [💬Animating Human Meshes] CLIP-Actor: Text-Driven Recommendation and Stylization for Animating Human Meshes, Kim Youwang et al. [Paper] [Code] * (ECCV 2022) [💬Pose Synthesis] TIPS: Text-Induced Pose Synthesis, Prasun Roy et al. [Paper] [Code] [Project] * (ACMMM 2022) [💬Person Re-identification] Learning Granularity-Unified Representations for Text-to-Image Person Re-identification, Zhiyin Shao et al. [Paper] [Code] * (ACMMM 2022) Towards Counterfactual Image Manipulation via CLIP, Yingchen Yu et al. [Paper] [Code] * (ACMMM 2022) [💬Monocular Depth Estimation] Can Language Understand Depth?, Wangbo Zhao et al. [Paper] [Code] * (arXiv preprint 2022) [💬Image Style Transfer] Referring Image Matting, Tsu-Jui Fu et al. [Paper] * (CVPR 2022) [💬Image Segmentation] Image Segmentation Using Text and Image Prompts, Timo Lüddecke et al. [Paper] [Code] * (CVPR 2022) [💬Video Segmentation] Modeling Motion with Multi-Modal Features for Text-Based Video Segmentation, Wangbo Zhao et al. [Paper] [Code] * (arXiv preprint 2022) [💬Image Matting] Referring Image Matting, Sebastian Loeschcke et al. [Paper] [Dataset] * (arXiv preprint 2022) [💬Stylizing Video Objects] Text-Driven Stylization of Video Objects, Sebastian Loeschcke et al. [Paper] [Project] * (arXiv preprint 2022) DALL-E for Detection: Language-driven Context Image Synthesis for Object Detection, Yunhao Ge et al. [Paper] * (IEEE Transactions on Neural Networks and Learning Systems 2022) [💬Pose-Guided Person Generation] Verbal-Person Nets: Pose-Guided Multi-Granularity Language-to-Person Generation, Deyin Liu et al. [Paper] * (SIGGRAPH 2022) [💬3D Avatar Generation] AvatarCLIP: Zero-Shot Text-Driven Generation and Animation of 3D Avatars, Fangzhou Hong et al. [Paper] [Code] [Project] * ⭐⭐(arXiv preprint 2022) [💬Image & Video Editing] Text2LIVE: Text-Driven Layered Image and Video Editing, Omer Bar-Tal et al. [Paper] [Project] * (Machine Vision and Applications 2022) Paired-D++ GAN for image manipulation with text, Duc Minh Vo et al. [Paper] * (CVPR 2022) [💬Hairstyle Transfer] HairCLIP: Design Your Hair by Text and Reference Image, Tianyi Wei et al. [Paper] [Code] * (CVPR 2022) [💬NeRF] CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields, Can Wang et al. [Paper] [Code] [Project] * (CVPR 2022) DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation, Gwanghyun Kim et al. [Paper] * (CVPR 2022) ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise Semantic Alignment and Generation, Jianan Wang et al. [Paper] [Project] * ⭐⭐ (CVPR 2022) Blended Diffusion for Text-driven Editing of Natural Images, Omri Avrahami et al. [Paper] [Code] [Project] * (CVPR 2022) Predict, Prevent, and Evaluate: Disentangled Text-Driven Image Manipulation Empowered by Pre-Trained Vision-Language Model, Zipeng Xu et al. [Paper] [Code] * (CVPR 2022) [💬Style Transfer] CLIPstyler: Image Style Transfer with a Single Text Condition, Gihyun Kwon et al. [Paper] [Code] * (arXiv preprint 2022) [💬Multi-person Image Generation] Pose Guided Multi-person Image Generation From Text, Soon Yau Cheong et al. [Paper] * (arXiv preprint 2022) [💬Image Style Transfer] StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Translation, Peter Schaldenbrand et al. [Paper] [Dataset] [Code] [Demo] * (arXiv preprint 2022) [💬Image Style Transfer] Name Your Style: An Arbitrary Artist-aware Image Style Transfer, Zhi-Song Liu et al. [Paper] * (arXiv preprint 2022) [💬3D Avatar Generation] Text and Image Guided 3D Avatar Generation and Manipulation, Zehranaz Canfes et al. [Paper] [Project] * (arXiv preprint 2022) [💬Image Inpainting] NÜWA-LIP: Language Guided Image Inpainting with Defect-free VQGAN, Minheng Ni et al. [Paper] * ⭐(arXiv preprint 2021) [💬Text+Image → Video] Make It Move: Controllable Image-to-Video Generation with Text Descriptions, Yaosi Hu et al. [Paper] * (arXiv preprint 2021) [💬NeRF] Zero-Shot Text-Guided Object Generation with Dream Fields, Ajay Jain et al. [Paper] [Project] * (NeurIPS 2021) Instance-Conditioned GAN, Arantxa Casanova et al. [Paper] [Code] * (ICCV 2021) Language-Guided Global Image Editing via Cross-Modal Cyclic Mechanism, Wentao Jiang et al. [Paper] * (ICCV 2021) Talk-to-Edit: Fine-Grained Facial Editing via Dialog, Yuming Jiang et al. [Paper] [Project] [Code] * (ICCVW 2021) CIGLI: Conditional Image Generation from Language & Image, Xiaopeng Lu et al. [Paper] [Code] * (ICCV 2021) StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery, Or Patashnik et al. [Paper] [Code] * (arXiv preprint 2021) Paint by Word, David Bau et al. [Paper] * ⭐(arXiv preprint 2021) Zero-Shot Text-to-Image Generation, Aditya Ramesh et al. [Paper] [Code] [Blog] [Model Card] [Colab] * (NeurIPS 2020) Lightweight Generative Adversarial Networks for Text-Guided Image Manipulation, Bowen Li et al. [Paper] * (CVPR 2020) ManiGAN: Text-Guided Image Manipulation, Bowen Li et al. [Paper] [Code] * (ACMMM 2020) Text-Guided Neural Image Inpainting, Lisai Zhang et al. [Paper] [Code] * (ACMMM 2020) Describe What to Change: A Text-guided Unsupervised Image-to-Image Translation Approach, Yahui Liu et al. [Paper] * (NeurIPS 2018) Text-adaptive generative adversarial networks: Manipulating images with natural language, Seonghyeon Nam et al. [Paper] [Code]

<🎯返回顶部>

文本+布局 → 图像
- (ECCV 2024) 无需训练的布局到图像合成场景生成方法, 刘佳琪等 [论文]
- (CVPR 2024) Zero-Painter：无需训练的布局控制文本到图像合成方法, 玛丽安娜·奥哈尼扬等 [论文] [代码]
- (CVPR 2024) MIGC：多实例生成控制器用于文本到图像合成, 周德伟等 [论文] [项目] [代码]
- (ICLR 2024) 对抗性监督助力布局到图像扩散模型蓬勃发展, 李雨萌等 [论文] [项目] [代码]
- (ICCV 2023) 基于注意力调节的密集文本到图像生成方法, 金允智等 [论文] [代码]
- (arXiv预印本2023) 无需训练的布局控制与交叉注意力引导, 陈明浩等 [论文] [代码] [项目]

<🎯返回顶部>

其他+文本+图像/视频 → 图像/视频
- (arXiv预印本2024) [💬骨架/草图] ECNet：高效可控的文本到图像扩散模型, 李思成等 [论文]
- (ICCV 2023) [💬骨架] HumanSD：一种原生骨架引导的扩散模型用于人体图像生成, 居轩等 [论文] [项目] [代码] [视频]
- (arXiv预印本2023) [💬声音+语音→机器人绘画] 机器人共感觉：一种声音与情感引导的AI画家, 维汉·米斯拉等 [论文]
- (arXiv预印本2022) [💬声音] 鲁棒的声音引导图像操控, 李承贤等 [论文]

<🎯返回顶部>

布局/掩码 → 图像
- (arXiv预印本2024) CreatiLayout：用于创意布局到图像生成的孪生多模态扩散Transformer, 张辉等 [论文] [项目] [代码]
- (CVPR 2024) [💬实例信息+文本→图像] InstanceDiffusion：面向图像生成的实例级控制方法, 王旭东等 [论文] [项目] [代码]
- (arXiv预印本2023) [💬文本→布局→图像] LayoutLLM-T2I：从大语言模型中提取布局指导用于文本到图像生成, 曲雷刚等 [论文]
- (CVPR 2023) [💬掩码+文本→图像] SceneComposer：任意级别语义图像合成方法, 曾宇等 [论文] [演示]
- (CVPR 2023) 自由风格布局到图像合成方法, 薛涵等 [论文] [代码]
- (CVPR 2023) LayoutDiffusion：用于布局到图像生成的可控扩散模型, 郑广聪等 [论文] [代码]
- (沙特国王大学计算机与信息科学期刊) [综述] 基于场景图和布局的图像生成模型：对比分析, 穆罕默德·乌迈尔·哈桑等 [论文]
- (CVPR 2022) 复杂场景生成的图像构图建模方法, 杨作鹏等 [论文] [代码]
- (CVPR 2022) 带有全景布局生成的交互式图像合成方法, 王波等 [论文]
- (CVPR 2021 内容创作人工智能研讨会) 使用Transformer进行高分辨率复杂场景合成方法, 曼努埃尔·扬等 [论文]
- (CVPR 2021) 上下文感知布局到图像生成与增强对象外观方法, 何森等 [论文] [代码]

<🎯返回顶部>

标签集 → 语义地图
- (ECCV 2020) 通过SegVAE实现可控图像合成, 程彦池等 [论文] [代码]

<🎯返回顶部>

语音 → 图像
- (IEEE/ACM音频、语音与语言处理汇刊-2021) 从语音描述生成图像, 王新胜等 [论文] [代码] [项目]
- (INTERSPEECH 2020)[扩展版本👆] S2IGAN：通过对抗学习生成语音到图像, 王新胜等 [论文]
- (IEEE信号处理专题期刊-2020) 直接语音到图像翻译方法, 李吉国等 [论文] [代码] [项目]

<🎯返回顶部>

场景图 → 图像
- (arXiv预印本2023) 基于扩散的场景图到图像生成与掩码对比预训练方法, 杨玲等 [论文]
- (CVPR 2018) 从场景图生成图像, 贾斯汀·约翰逊等 [论文] [代码]

<🎯返回顶部>

文本 → 视觉检索
- (ECIR 2023) 以场景为中心与以对象为中心的图像-文本跨模态检索：一项可重复性研究, Mariya Hendriksen 等人 [论文] [代码]
- (ECIR 2022) 为电商中的类别到图像检索扩展CLIP, Mariya Hendriksen 等人 [论文] [代码]
- (ACMMM 2022) CAIBC：捕捉超越颜色的全方位信息用于基于文本的人体检索, Zijie Wang 等人 [论文]
- (AAAI 2022) 用于文本到图像检索的跨模态一致性, Malihe Alikhani 等人 [论文]
- (ECCV RWS 2022) [💬人体检索] 看得更细，看得更多：用于基于文本的人体检索的隐式模态对齐, Xiujun Shu 等人 [论文] [代码]
- (ECCV 2022) [💬文本+草图→视觉检索] 一幅草图胜过千言万语：基于文本和草图的图像检索, Patsorn Sangkloy 等人 [论文] [项目]
- (Neurocomputing-2022) TIPCB：一种简单而有效的基于部件的卷积基准模型用于基于文本的人体搜索, Yuhao Chen 等人 [论文] [代码]
- (arXiv预印本 2021) [💬数据集] FooDI-ML：一个大型多语言食品、饮料和杂货图像及描述数据集, David Amat Olóndriz 等人 [论文] [代码]
- (CVPRW 2021) TIED：一种用于文本到图像检索的循环一致编码器-解码器模型, Clint Sebastian 等人 [论文]
- (CVPR 2021) T2VLAD：用于文本-视频检索的全局-局部序列对齐, Xiaohan Wang 等人 [论文]
- (CVPR 2021) 快速与慢速思考：基于Transformer的高效文本到视觉检索, Antoine Miech 等人 [论文]
- (IEEE Access 2019) 查询即GAN：基于注意力的文本到图像生成对抗网络的场景检索, RINTARO YANAGI 等人 [论文]

<🎯返回顶部>

文本 → 3D/动态/形状/网格/对象...
- (WACV 2026) [💬文本 → 纹理] CasTex：基于显式纹理图与物理渲染的级联文本到纹理合成, Mishan Aliev 等人 [论文] [项目]
- (arXiv 预印本 2024) [💬文本 → 动作] CrowdMoGen：零样本文本驱动的群体动作生成, Xinying Guo 等人 [论文] [项目]
- (ACMMM 2024) [💬文本 → 3D] PlacidDreamer：推进文本到3D生成中的和谐性, Shuo Huang 等人 [论文] [代码]
- (Meta) [💬文本 → 3D] Meta 3D Gen, Raphael Bensadoun 等人 [论文]
- (arXiv 预印本 2024) [💬文本 → 3D] Meta 3D TextureGen：面向3D物体的快速且一致的纹理生成, Raphael Bensadoun 等人 [论文]
- (arXiv 预印本 2024) [💬文本 → 3D] Meta 3D AssetGen：文本到网格生成，具备高质量几何、纹理和PBR材质, Yawar Siddiqui 等人 [论文] [项目]
- (arXiv 预印本 2024) [💬文本 → 3D] 3DStyleGLIP：针对部分定制的文本引导3D神经风格化, SeungJeh Chung 等人 [论文]
- (arXiv 预印本 2024) [💬文本 → 3D] LATTE3D：大规模摊销文本到增强3D合成, Kevin Xie 等人 [论文] [项目]
- (IEEE 可视化与计算机图形学汇刊) [💬文本 → 动作] GUESS：逐步丰富合成用于文本驱动的人体动作生成, Xuehao Gao 等人 [论文]
- (arXiv 预印本 2023) [💬文本 → 4D] 4D-fy：使用混合分数蒸馏采样进行文本到4D生成, Sherwin Bahmani 等人 [论文] [项目] [代码]
- (arXiv 预印本 2023) [💬文本 → 3D] MetaDreamer：高效文本到3D创作，实现几何与纹理解耦, Lincong Feng 等人 [论文] [项目]
- (arXiv 预印本 2023) [💬文本 → 3D] One-2-3-45++：快速单张图像到3D物体，具备一致多视角生成与3D扩散, Minghua Liu 等人 [论文] [项目]
- (NeurIPS 2023) [💬文本 → 3D] One-2-3-45：任意单张图像在45秒内生成3D网格，无需逐形状优化, Minghua Liu 等人 [论文] [项目] [代码]
- (ACMMM 2023) [💬文本+草图 → 3D] Control3D：迈向可控文本到3D生成, Yang Chen 等人 [论文]
- (SIGGRAPH Asia 2023 & TOG) [💬文本 → 3D] EXIM：一种混合显隐表示用于文本引导的3D形状生成, Zhengzhe Liu 等人 [论文] [代码]
- (arXiv 预印本 2023) [💬文本 → 3D] PaintHuman：迈向高保真文本到3D人体纹理化，通过去噪分数蒸馏, Jianhui Yu 等人 [论文]
- (arXiv 预印本 2023) [💬文本 → 动作] Fg-T2M：基于扩散模型的细粒度文本驱动人体动作生成, Yin Wang 等人 [论文]
- (arXiv 预印本 2023) [💬文本 → 3D] IT3D：改进的文本到3D生成，具备显式视角合成, Yiwen Chen 等人 [论文] [代码]
- (arXiv 预印本 2023) [💬文本 → 3D] HD-Fusion：利用多重噪声估计实现细节丰富的文本到3D生成, Jinbo Wu 等人 [论文]
- (arXiv 预印本 2023) [💬文本 → 3D] T2TD：基于先验知识指导的文本到3D生成模型, Weizhi Nie 等人 [论文]
- (arXiv 预印本 2023) [💬文本 → 3D] ProlificDreamer：高保真与多样化的文本到3D生成，基于变分分数蒸馏, Zhengyi Wang 等人 [论文] [项目]
- (arXiv 预印本 2023) [💬文本+网格 → 网格] X-Mesh：迈向快速准确的文本驱动3D风格化，通过动态文本引导, Yiwei Ma 等人 [论文] [项目] [代码]
- (arXiv 预印本 2023) [💬文本 → 动作] T2M-GPT：以离散表示生成文本描述的人体动作, Jianrong Zhang 等人 [论文] [项目] [代码] [Hugging Face]
- (arXiv 预印本 2023) [💬文本 → 3D] DreamHuman：可动画化的3D虚拟形象，由文本生成, Nikos Kolotouros 等人 [论文] [项目]
- (arXiv 预印本 2023) [💬文本 → 3D] ATT3D：摊销文本到3D物体合成, Jonathan Lorraine 等人 [论文] [项目]
- (arXiv 预印本 2022) [💬文本 → 3D] Dream3D：零样本文本到3D合成，使用3D形状先验与文本到图像扩散模型, Jiale Xu 等人 [论文] [项目]
- (arXiv 预印本 2022) [💬3D生成模型] DATID-3D：利用文本到图像扩散模型实现多样性保持的领域适应, Gwanghyun Kim 等人 [论文] [代码] [项目]
- (arXiv 预印本 2022) [💬点云] Point-E：从复杂提示生成3D点云的系统, Alex Nichol 等人 [论文] [代码]
- (arXiv 预印本 2022) [💬文本 → 3D] Magic3D：高分辨率文本到3D内容创作, Chen-Hsuan Lin 等人 [论文] [项目]
- (arXiv 预印本 2022) [💬文本 → 形状] Diffusion-SDF：通过体素化扩散生成文本到形状, Muheng Li 等人 [论文] [代码]
- (NIPS 2022) [💬网格] TANGO：基于光照分解的文本驱动真实感与鲁棒性3D风格化, Yongwei Chen 等人 [论文] [项目] [代码]
- (arXiv 预印本 2022) [💬人体动作生成] 人体动作扩散模型, Guy Tevet 等人 [论文] [项目] [代码]
- (arXiv 预印本 2022) [💬人体动作生成] MotionDiffuse：基于扩散模型的文本驱动人体动作生成, Mingyuan Zhang 等人 [论文] [项目]
- (arXiv 预印本 2022) [💬3D形状] ISS：作为文本引导3D形状生成基石的图像, Zhengzhe Liu 等人 [论文]
- (ECCV 2022) [💬虚拟人] 语义控制下的组合式人机场景交互合成, Kaifeng Zhao 等人 [论文] [项目] [代码]
- (CVPR 2022) [💬3D形状] 迈向隐式文本引导的3D形状生成, Zhengzhe Liu 等人 [论文] [代码]
- (CVPR 2022) [💬物体] 零样本文本引导物体生成，借助梦境场, Ajay Jain 等人 [论文] [项目] [代码]
- (CVPR 2022) [💬网格] Text2Mesh：文本驱动的网格神经风格化, Oscar Michel 等人 [论文] [项目] [代码]
- (CVPR 2022) [💬动作] 从文本生成多样且自然的3D人体动作, Chuan Guo 等人 [论文] [项目] [代码]
- (CVPR 2022) [💬形状] CLIP-Forge：迈向零样本文本到形状生成, Aditya Sanghi 等人 [论文] [代码]
- (arXiv 预印本 2022) [💬动作] TEMOS：从文本描述生成多样人体动作, Mathis Petrovich 等人 [论文] [项目] [代码]

<🎯返回顶部>

文本 → 视频
- (arXiv预印本 2025) MotionAgent：通过运动场智能体实现细粒度可控视频生成, 廖欣瑶等 [论文]
- (arXiv预印本 2024) VideoTetris：迈向组合式文本到视频生成, 田晔等 [论文] [项目] [代码]
- (arXiv预印本 2024) MovieDreamer：用于连贯长视觉序列的层次化生成, 赵灿宇等 [论文] [项目] [代码] [演示视频]
- 💥💥(OpenAI 2024) Sora [主页] [技术报告] [带音频的Sora]
- (ICLR 2024) ControlVideo：无需训练的可控文本到视频生成, 张亚博等 [论文] [代码]
- (arXiv预印本 2024) MagicVideo-V2：多阶段高审美视频生成, 王伟敏等 [论文] [项目]
- (arXiv预印本 2023) LAVIE：利用级联潜在扩散模型实现高质量视频生成, 王耀辉等 [论文] [项目] [代码]
- (arXiv预印本 2023) Emu Video：通过显式图像条件化分解文本到视频生成, 罗希特·吉尔达尔等 [论文] [项目]
- (ICCV 2023) Text2Video-Zero：文本到图像扩散模型是零样本视频生成器, 列文·哈恰特良等 [论文] [项目] [视频] [代码] [Hugging Face]
- (NeurIPS 2023 数据集与基准) FETV：开放域文本到视频生成的细粒度评估基准, 刘元欣等 [论文] [项目]
- (arXiv预印本 2023) 用于增强文本到视频生成的最佳噪声探索, 马世杰等 [论文]
- (arXiv预印本 2023) 复用与扩散：迭代去噪用于文本到视频生成, 顾嘉熙等 [论文] [项目]
- (arXiv预印本 2023) 制作主角：基于专家集合的通用视频编辑, 赵宇阳等 [论文] [代码] [项目]
  - 📚使用主角进行图像编辑、背景编辑和文本到视频编辑
- ⭐⭐(CVPR 2023) 对齐你的潜在变量：基于潜在扩散模型的高分辨率视频合成, 安德烈亚斯·布拉特曼等 [论文] [项目]
- (arXiv预印本 2023) [💬音乐可视化] 生成迪斯科：用于音乐可视化的文本到视频生成, 刘薇安等 [论文]
- (arXiv预印本 2023) 文本到4D动态场景生成, 乌里埃尔·辛格等 [论文] [项目]
- (arXiv预印本 2022) 调优视频：单次调优图像扩散模型以实现文本到视频生成, 吴杰志等 [论文] [项目] [代码]
- (arXiv预印本 2022) MagicVideo：基于潜在扩散模型的高效视频生成, 周大泉等 [论文] [项目]
- (arXiv预印本 2022) Phenaki：从开放域文本描述生成可变长度视频, 鲁本·维列加斯等 [论文]
- (arXiv预印本 2022) Imagen Video：基于扩散模型的高清视频生成, 乔纳森·霍等 [论文] [项目]
- (arXiv预印本 2022) 文本驱动的视频预测, 宋雪等 [论文]
- (arXiv预印本 2022) 制作视频：无需文本视频数据的文本到视频生成, 乌里埃尔·辛格等 [论文] [项目] [简短阅读] [代码]
- (ECCV 2022) [💬故事续写] StoryDALL-E：为故事续写适配预训练文本到图像转换器, 阿迪亚莎·马哈拉纳等 [论文] [代码]
- (arXiv预印本 2022) [💬故事 → 视频] 单词级细粒度故事可视化, 李博文等 [论文] [代码]
- (arXiv预印本 2022) CogVideo：基于Transformer的大规模文本到视频生成预训练, 洪文义等 [论文] [代码]
- (CVPR 2022) 向我展示什么，告诉我如何：基于多模态条件化的视频合成, 约格什·巴拉吉等 [论文] [代码] 项目
- (arXiv预印本 2022) 视频扩散模型, 乔纳森·霍等 [论文] [项目]
- (arXiv预印本 2021) [❌生成任务] 从文本到视频：高效的片段序列生成, 韩立功等 [论文] [项目]
- (arXiv预印本 2021) GODIVA：从自然描述生成开放域视频, 吴晨飞等 [论文]
- (arXiv预印本 2021) 文本到视频：基于音韵词典的文本驱动说话头视频合成, 张思博等 [论文]
- (IEEE Access 2020) TiVGAN：逐步进化生成器实现文本到图像到视频生成, 金道延等 [论文]
- (IJCAI 2019) 带有判别滤波器生成的条件GAN用于文本到视频合成, 约格什·巴拉吉等 [论文] [代码]
- (IJCAI 2019) IRC-GAN：用于文本到视频生成的内省递归卷积GAN, 邓康乐等 [论文]
- (CVPR 2019) [💬故事 → 视频] StoryGAN：用于故事可视化的顺序条件GAN, 李一彤等 [论文] [代码]
- (AAAI 2018) 从文本生成视频, 李一彤等 [论文]
- (ACMMM 2017) 根据你所说创造：从字幕生成视频, 潘颖威等 [论文]

<🎯返回顶部>

文本 → 音乐
- ⭐（arXiv预印本 2023）MusicLM：从文本生成音乐, 安德烈亚·阿戈斯蒂内利等 [论文] [项目] [MusicCaps]

<🎯返回顶部>

联系我

如果您有任何问题或意见，请随时联系Yutong ლ(╹◡╹ლ)

贡献者

Alt

使用contrib.rocks制作。

Awesome-Text-to-Image 快速上手指南

本项目为文本生成图像（Text-to-Image）领域的资源集合，包含论文、项目、数据集等。无需安装，直接浏览即可获取相关资源。

环境准备

Git 工具（已安装）

安装步骤

使用国内镜像加速克隆仓库（推荐）：

git clone https://hub.fastgit.org/Yutong-Zhou-cv/Awesome-Text-to-Image.git

或直接克隆：

git clone https://github.com/Yutong-Zhou-cv/Awesome-Text-to-Image.git

基本使用

进入项目目录：
```
cd Awesome-Text-to-Image
```
查看核心资源列表：
- 首选查看 [CVPRW 2023 🎈] Best Collection.md（最新精选资源）
- 其他分类列表位于 Lists/ 目录下
直接访问 GitHub 页面获取最新内容： https://github.com/Yutong-Zhou-cv/Awesome-Text-to-Image

常见问题

DALL-E Colab 链接失效如何解决？

是否有文本到图像生成的调查资源？

如何计算 FID 和 IS 指标？

如何联系作者？

如何测试文本到图像生成？

有哪些图像质量评估指标？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架