awesome-text-to-image-studies

757 39 非常简单 1 次阅读 2天前MIT图像

AI 解读由 AI 自动生成，仅供参考

awesome-text-to-image-studies 是一个专注于“文生图”（Text-to-Image）生成技术的开源学术资源库。它系统性地整理了该领域海量的研究论文、数据集、工具包以及成熟的商业产品，旨在解决研究人员和开发者在面对快速迭代的 AI 绘图技术时，难以高效追踪最新进展、梳理技术脉络的痛点。

这份资源库不仅按年份和顶级会议（如 CVPR、ICLR、AAAI）对文献进行了分类，还独具特色地开辟了“主题专题”板块，深入探讨了扩散模型与大语言模型（LLM）、Transformer 架构、联邦学习等前沿技术的融合应用。此外，它还涵盖了从基础生成到个性化定制、文本引导编辑等多个细分方向，甚至提供了相关代码和模型权重的链接。

awesome-text-to-image-studies 非常适合 AI 领域的科研人员、算法工程师以及希望深入了解生成式人工智能底层逻辑的技术爱好者使用。对于想要把握行业风向、寻找研究灵感或复现经典算法的用户而言，这里提供了一个结构清晰、更新及时的一站式知识导航，帮助大家更轻松地探索文生图技术的无限可能。

使用场景

某高校计算机视觉实验室的研究生团队正致力于研发一种能精准控制人物姿态的文生图新算法，急需梳理最新的技术路线以确立创新点。

没有 awesome-text-to-image-studies 时

文献检索如大海捞针：研究人员需在 arXiv、Google Scholar 等多个平台反复搜索关键词，难以区分哪些是真正的文生图核心论文，哪些只是边缘应用，耗时极长。
技术演进脉络模糊：面对 2020 年至 2025 年爆发的海量研究，团队难以快速理清从基础扩散模型到结合 LLM、Mamba 等新技术的演变逻辑，容易遗漏关键转折点。
细分领域资源分散：想要查找“个性化生成”或“文本引导编辑”等特定方向的论文及对应代码、数据集时，往往发现资源散落在不同仓库，缺乏统一入口。
复现门槛高：找到论文后，常因缺少官方代码链接、预训练模型权重或专用测试基准（如 DAVIS-Edit），导致算法复现和对比实验迟迟无法开展。

使用 awesome-text-to-image-studies 后

一站式获取权威清单：团队直接查阅按年份（2020-2025）和会议（CVPR, ICCV 等）分类的论文列表，瞬间锁定近三年的核心研究成果，检索效率提升数倍。
清晰把握技术前沿：通过"Topics"板块，迅速掌握扩散模型与 Transformer、联邦学习等跨界融合的最新动态，快速定位到适合引入的创新技术组合。
垂直领域精准导航：利用“个性化生成”和“文本引导编辑”等细分目录，直接获取该方向下的所有相关论文、开源代码库及配套数据集，无需二次搜寻。
复现链路完整闭环：借助仓库提供的论文对应的代码地址、HuggingFace 模型权重及基准测试集，团队成员当天即可搭建环境并跑通基线模型，加速实验迭代。

awesome-text-to-image-studies 将原本需要数周的文献调研与资源收集工作压缩至数小时，让研发团队能将宝贵精力集中于核心算法的创新与突破。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库（awesome-text-to-image-studies）是一个论文、资源和工具集的汇总列表，本身不包含可执行的源代码或模型训练/推理脚本，因此没有特定的运行环境需求。列表中提及的具体项目（如 StableV2V, PreciseCam 等）需参考其各自独立的仓库以获取环境配置信息。

python未说明

awesome-text-to-image-studies hero image

快速开始

文生图生成研究合集

本 GitHub 仓库汇总了与文本到图像（T2I）生成任务相关的论文和资源。

[!NOTE] 本文档是整个 GitHub 仓库的主页。论文按照不同的研究方向、发表年份和会议进行总结。

“topics”章节根据不同的特性，总结了与 T2I 生成高度相关的论文，例如 T2I 生成的前提条件、结合其他技术的扩散模型（如 Diffusion Transformer、LLMs、Mamba 等），以及用于其他任务的扩散模型。

如果您对本仓库有任何建议，请随时发起新议题或提交 Pull Request。

本 GitHub 仓库的最新动态如下。

🔥 [2025年12月11日] 我们的论文《StableV2V：视频到视频编辑中的形状一致性稳定化》已被 TCSVT 2025 接收！

🔥 [11月19日] 我们发布了最新论文《StableV2V：视频到视频编辑中的形状一致性稳定化》，并开源了相应的代码、模型权重以及测试基准DAVIS-Edit。欢迎通过链接查看！

点击查看更多信息。

[4月26日] 更新了一个新主题：扩散模型与联邦学习的结合。 更多详情请参见“topics”章节！
[3月28日] 官方的AAAI 2024论文列表已发布！相应地更新了官方 PDF 版本和 BibTeX 参考文献。
[3月21日] “topics”章节已更新。该章节旨在提供按扩散模型其他特性分类的论文列表，例如基于 Diffusion Transformer 的方法、用于自然语言处理的扩散模型、与 LLM 集成的扩散模型等。这些论文的参考文献也被汇总在 reference.bib 中。
[3月7日] 所有可用的CVPR、ICLR 和 AAAI 2024 论文及参考文献均已更新。
[3月1日] 总结了现成的文生图生成产品和工具包的网站。

待办事项

会议发表论文
- 更新 NeurIPS 2025 论文
- 更新 ICCV 2025 论文
- 更新 CVPR 2025 论文
- 更新 ICLR 2025 论文
- 更新 NeurIPS 2024 论文
- 更新 ECCV 2024 论文
- 更新 CVPR 2024 论文
  - 更新 ⚠️ 论文和参考文献
  - 将 arXiv 参考文献更新为官方版本
- 更新 AAAI 2024 论文
  - 更新 ⚠️ 论文和参考文献
  - 将 arXiv 参考文献更新为官方版本
- 更新 ICLR 2024 论文
- 更新 NeurIPS 2023 论文
定期维护预印本 arXiv 论文及遗漏论文

<🎯返回顶部>

产品

名称	年份	网站	特色
Nano Image Art	2025	link	创作惊艳的 AI 图像——由 Google 的 Nano Banana Pro 提供支持，实现下一代品质、智能编辑和智能化提示。
Fast Image AI	2025	link	Fast Image AI 可以立即将您的照片转换为吉卜力、素描和皮克斯等惊艳风格。只需点击一下，即可轻松控制图像元素并创造出令人惊叹的效果。
Gempix2 (Nano Banana 2)	2025	link	免费的 AI 图像生成平台，支持文生图、AI 编辑和视频生成
Stable Diffusion 3	2024	link	基于 Diffusion Transformer 的 Stable Diffusion
Stable Video	2024	link	高质量高分辨率图像
DALL-E 3	2023	link	可与 ChatGPT 协作
Ideogram	2023	link	文本图像
Playground	2023	link	运动风格图像
HiDream.ai	2023	link	-
Dashtoon	2023	link	文本转漫画生成
WHEE	2023	link	WHEE 是一款在线 AI 生成工具，可用于 T2I 生成、I2I 生成、超分辨率、修复、扩展绘画、图像变体、虚拟试穿等。
Vega AI	2023	link	Vega AI 是一款在线 AI 生成工具，可用于 T2I 生成、I2I 生成、超分辨率、T2V 生成、I2V 生成等。
Wujie AI	2022	link	中文名为“无界AI”，提供 AIGC 资源和在线服务
Midjourney	2022	link	功能强大的闭源生成工具

<🎯返回顶部>

论文

综述论文

文本到图像生成
- 2024年
  - ACM Computing Surveys
    - 扩散模型：方法与应用的全面综述 [论文]
- 2023年
  - TPAMI
    - 视觉中的扩散模型：综述 [论文] [代码]
  - arXiv
    - 生成式AI中的文本到图像扩散模型：综述 [论文]
    - 视觉计算中扩散模型的最新进展 [论文]
- 2022年
  - arXiv
    - 面向视觉的高效扩散模型：综述 [论文]
条件文本到图像生成
- 2024年
  - arXiv
    - 基于文本到图像扩散模型的可控生成：综述 [论文]
文本引导的图像编辑
- 2024年
  - arXiv
    - 基于扩散模型的图像编辑：综述 [论文] [代码]

<🎯返回顶部>

文本到图像生成

2025年
- CVPR
  - PreciseCam： 文本到图像生成中的精确相机控制 [论文] [项目] [代码]
  - Type-R： 文本到图像生成中自动修复错别字 [论文] [代码]
  - Compass Control： 文本到图像生成中的多对象方向控制 [论文]
  - Generative Photography： 场景一致的相机控制用于逼真的文本到图像合成 [论文] [项目] [代码]
  - One-Way Ticket： 不依赖时间的统一编码器用于蒸馏文本到图像扩散模型 [论文] [代码]
  - 文本嵌入并非全部所需：利用文本自注意力图进行文本到图像语义对齐的注意力控制 [论文]
  - 向理解和量化文本到图像生成中的不确定性迈进 [论文]
  - 通过双空间多方面概念控制实现即插即用、可解释且负责任的文本到图像生成 [论文] [项目] [代码]
  - 精确计数：生成准确数量物体的文本到图像 [论文] [项目] [代码]
  - MCCD： 基于多智能体协作的组合式扩散用于复杂文本到图像生成 [论文]
  - 重新思考去偏训练：释放稳定扩散的潜力 [论文]
  - ShapeWords： 使用三维形状感知提示引导文本到图像合成 [论文] [项目]
  - SnapGen： 通过高效架构和训练驯服移动端高分辨率文本到图像模型 [论文]
  - 无需训练的文本到图像合成中通过重定位注意力图优化空间传输 [论文]
  - Focus-N-Fix： 区域感知微调用于文本到图像生成 [论文]
  - SILMM： 自我改进的大规模多模态模型用于组合式文本到图像生成 [论文]
  - 无训练门控低秩适应用于文本到图像扩散模型的局部概念擦除 [论文]
  - 自交叉扩散指导用于相似主题的文本到图像合成 [论文]
  - 噪声扩散用于提升文本到图像合成中的语义忠实度 [论文] [代码]
  - 学习为文本到图像生成采样有效且多样化的提示 [论文]
  - STEREO： 一个两阶段框架，用于从文本到图像扩散模型中对抗性地擦除概念 [论文]
  - 针对少数群体的文本到图像生成通过提示优化 [论文] [代码]
  - 缩小文本到图像扩散模型的文本编码器 [论文] [代码]
  - ⚠️ “遗忘”的幻象：文本到图像扩散模型中机器遗忘的不稳定性 [论文]
  - ⚠️ 探索大型语言模型与扩散Transformer在文本到图像合成中的深度融合 [论文]
  - ⚠️ 检测并引导：通过指南令牌优化自我调节扩散模型以实现安全的文本到图像生成 [论文]
  - ⚠️ 多群体比例代表性在文本到图像模型中的应用 [论文]
  - ⚠️ VODiff： 控制文本到图像生成中对象的可见性顺序 [论文]
- ICLR
  - 改善文本到图像扩散模型的长文本对齐 [论文]
  - 信息论视角下的文本到图像对齐 [论文]
  - Meissonic： 重振掩码生成式Transformer以实现高效的高分辨率文本到图像合成 [论文]
  - PaRa： 通过参数秩降低个性化文本到图像扩散 [论文]
  - Fluid： 使用连续标记扩展自回归文本到图像生成模型 [论文]
  - 并非所有提示都一样：基于提示修剪文本到图像扩散模型 [论文]
  - 去噪自回归Transformer用于可扩展的文本到图像生成 [论文]
  - 文本到图像生成模型中的渐进式组合性 [论文]
  - 挖掘你自己的秘密：扩散分类器分数用于文本到图像扩散模型的持续个性化 [论文]
  - 测量并改善文本到图像生成模型的参与度 [论文]
  - 通过残差注意力门擦除文本到图像扩散模型中的概念组合 [论文]
  - 使用可靠随机种子增强组合式文本到图像生成 [论文]
  - 一提示一故事： 使用单一提示实现一致性文本到图像生成 [论文]
  - 你只需采样一次：通过自合作扩散GAN驯服一步式文本到图像合成 [论文]
  - 重新思考文本到图像生成时代下的艺术版权侵权问题 [论文]
  - 从文本到图像扩散模型中擦除概念组合 [论文]
  - 文本到图像生成模型中跨注意力头位置模式可以与人类视觉概念对齐 [论文]
  - TIGeR： 利用大型多模态模型统一文本到图像生成与检索 [论文]
  - DGQ： 分布感知的分组量化用于文本到图像扩散模型 [论文]
  - 无训练推测雅可比解码加速自回归文本到图像生成 [论文]
  - PT-T2I/V： 一种高效的代理标记化扩散Transformer用于文本到图像/视频任务 [论文]
  - 重新审视文本到图像评估：关于指标、提示和人工评分 [论文]
  - SANA： 利用线性扩散Transformer实现高效高分辨率文本到图像合成 [论文]
  - 文本到图像校正流作为即插即用先验 [论文]
  - 自动过滤人类反馈数据以对齐文本到图像扩散模型 [论文]
  - SAFREE： 无训练且自适应的安全卫士，用于安全的文本到图像和视频生成 [论文]
  - IterComp： 迭代式组合意识反馈学习，来自模型库用于文本到图像生成 [论文]
  - ScImage： 多模态大型语言模型在科学文本到图像生成方面的表现如何？ [论文]
  - 引导得分身份蒸馏用于无数据的一步式文本到图像生成 [论文]
  - 从因果视角评估文本到图像合成中的语义变异 [论文]
2024年
- CVPR
  - DistriFusion： 高分辨率扩散模型的分布式并行推理 [论文] [代码]
  - InstanceDiffusion： 实例级控制用于图像生成 [论文] [代码] [项目]
  - ECLIPSE： 一种资源高效的文本到图像先验用于图像生成 [论文] [代码] [项目] [演示]
  - Instruct-Imagen： 多模态指令驱动的图像生成 [论文]
  - 学习连续3D词用于文本到图像生成 [论文] [代码]
  - HanDiffuser： 具有逼真手部外观的文本到图像生成 [论文]
  - 丰富的人类反馈用于文本到图像生成 [论文]
  - MarkovGen： 结构化预测用于高效文本到图像生成 [论文]
  - 文本到图像生成的定制助手 [论文]
  - ADI： 学习解耦标识符用于动作定制的文本到图像生成 [论文] [项目]
  - UFOGen： 通过扩散GAN实现大规模单向文本到图像生成 [论文]
  - 自我发现可解释的扩散潜在方向用于负责任的文本到图像生成 [论文]
  - Tailored Visions： 通过个性化提示重写提升文本到图像生成 [论文] [代码]
  - CoDi： 条件扩散蒸馏用于更高保真度和更快的图像生成 [论文] [代码] [项目] [演示]
  - 使用潜在扩散模型和隐式神经解码器进行任意规模的图像生成和上采样 [论文]
  - 朝着在基于扩散的模型中有效使用以人为本先验以生成基于文本的人像迈进 [论文]
  - ElasticDiffusion： 无训练的任意尺寸图像生成 [论文] [代码] [项目] [演示]
  - CosmicMan： 一个人类专用的文本到图像基础模型 [论文] [代码] [项目]
  - PanFusion： 驯服稳定扩散以生成360°全景图像 [论文] [代码] [项目]
  - Intelligent Grimm： 基于潜在扩散模型的开放式视觉叙事 [论文] [代码] [项目]
  - 关于基于扩散的文本到图像生成的可扩展性 [论文]
  - MuLAn： 一个多层次标注数据集用于可控文本到图像生成 [论文] [项目] [数据集]
  - 学习多维度的人类偏好用于文本到图像生成 [论文]
  - 动态提示优化用于文本到图像生成 [论文]
  - 通过强化学习训练扩散模型以实现多样化图像生成 [论文]
  - 对抗性文本到连续图像生成 [论文] [项目] [视频]
  - EmoGen： 利用文本到图像扩散模型生成情感图像内容 [论文] [代码]
- ECCV
  - 搭建不同语言模型和生成式视觉模型之间的桥梁以实现文本到图像生成 [论文] [代码] [项目]
  - 探索文本到图像扩散模型中的短语级对齐 [论文] [代码]
  - 把握正确方向：提升文本到图像模型的空间一致性 [论文] [代码] [项目]
  - 跨印度语系导航文本到图像生成中的偏见 [论文] [项目]
  - 通过人类反馈反演保护文本到图像扩散模型 [论文]
  - 现实与幻想的构建：借助LLM辅助提示解读进行场景生成 [论文] [代码] [项目] [数据集]
  - 文本到图像扩散模型中可靠且高效的概念擦除 [论文] [代码]
  - 探索文本到图像扩散模型中的短语级对齐 [论文] [代码]
  - StyleTokenizer： 通过单个实例定义图像风格以控制扩散模型 [论文] [代码]
  - PEA-Diffusion： 在非英语文本到图像生成中具有知识蒸馏功能的参数高效适配器 [论文] [代码]
  - 现象空间中的偏差阻碍了文本到图像生成的泛化能力 [论文] [代码]
  - Parrot： 用于文本到图像生成的帕累托最优多奖励强化学习框架 [论文]
  - 搭建不同语言模型和生成式视觉模型之间的桥梁以实现文本到图像生成 [论文] [代码] [项目]
  - MobileDiffusion： 移动设备上的即时文本到图像生成 [论文]
  - PixArt-Σ： 从弱到强训练扩散Transformer以实现4K文本到图像生成 [论文] [代码] [项目]
  - CogView3： 通过接力扩散实现更精细、更快速的文本到图像生成 [论文] [代码]
- ICLR
  - 修补后的去噪扩散模型用于高分辨率图像合成 [论文] [代码]
  - Relay Diffusion： 统一跨分辨率的扩散过程以进行图像合成 [论文] [代码]
  - SDXL： 改善潜伏扩散模型以用于高分辨率图像合成 [论文] [代码]
  - 组合并征服：基于扩散的3D深度感知可组合图像合成 [论文] [代码]
  - PixArt-α： 快速训练扩散Transformer以实现照片级真实感的文本到图像合成 [论文] [代码] [项目] [演示]
- SIGGRAPH
  - RGB↔X： 使用材料和光照感知的扩散模型进行图像分解和合成 [论文] [项目]
- AAAI
  - 语义感知的数据增强用于文本到图像合成 [论文]
  - 面向抽象概念的文本到图像生成 [论文]
- arXiv
  - 扩散模型的自博弈微调用于文本到图像生成 [论文]
  - RPG： 掌握文本到图像扩散：利用多模态LLM进行重新描述、规划和生成 [论文] [代码]
  - Playground v2.5： 三个见解以提升文本到图像生成的艺术品质 [论文] [代码]
  - ResAdapter： 扩散模型的领域一致分辨率适配器 [论文] [代码] [项目]
  - InstantID： 零样本身份保留生成，几秒钟内完成 [论文] [代码] [项目] [演示]
  - PIXART-δ： 快速且可控的图像生成，采用潜伏一致性模型 [论文] [代码]
  - ELLA： 为扩散模型配备LLM以增强语义对齐 [论文] [代码] [项目]
  - Text2Street： 可控的文本到图像生成用于街景 [论文]
  - LayerDiffuse： 使用潜伏透明度进行透明图像层扩散 [论文] [代码]
  - SD3-Turbo： 快速高分辨率图像合成，采用潜伏对抗性扩散蒸馏 [论文]
  - StreamMultiDiffusion： 实时交互式生成，带有基于区域的语义控制 [论文] [代码]
  - SVGDreamer： 文本引导的SVG生成，使用扩散模型 [论文] [代码] [项目]
  - PromptCharm： 通过多模态提示和精炼实现文本到图像生成 [论文]
  - YOSO： 你只需采样一次：通过自合作扩散GAN驯服一步式文本到图像合成 [论文] [代码]
  - SingDiffusion： 解决扩散模型中时间区间端点处的奇点 [论文] [代码]
  - CoMat： 将文本到图像扩散模型与图像到文本的概念匹配对齐 [论文] [代码] [项目]
  - StoryDiffusion： 用于长距离图像和视频生成的一致自注意力 [论文] [代码] [项目] [演示]
  - 面部适配器用于预训练扩散模型，具备精细的ID和属性控制 [论文] [项目]
  - LinFusion： 1 GPU，1分钟，16K张图像 [论文] [代码] [项目] [演示]
  - OmniGen： 统一图像生成 [论文] [代码]
  - CoMPaSS： 增强文本到图像扩散模型中的空间理解 [论文] [代码]
- 其他
  - Stable Cascade [博客] [代码]

<🎯返回顶部>

2023年
- CVPR
  - GigaGAN： 扩展GAN用于文本到图像合成 [论文] [复现代码] [项目] [视频]
  - ERNIE-ViLG 2.0： 基于知识增强的去噪专家混合模型改进文本到图像扩散模型 [论文]
  - 用于文本到图像生成的偏移扩散 [论文] [代码]
  - GALIP： 用于文本到图像合成的生成对抗CLIP [论文] [代码]
  - Specialist Diffusion： 即插即用、样本高效的微调文本到图像扩散模型以学习任何未见风格 [论文] [代码]
  - 面向文本到图像生成的可验证与可重复的人类评估 [论文]
  - RIATIG： 使用自然提示进行可靠且难以察觉的对抗性文本到图像生成 [论文] [代码]
  - 文本到图像扩散的多概念定制 [论文] [项目] [代码]
- ICCV
  - DiffFit： 通过简单的参数高效微调解锁大型扩散模型的迁移能力 [论文] [代码] [演示]
- NeurIPS
  - ImageReward： 学习与评估人类对文本到图像生成的偏好 [论文] [代码]
  - RAPHAEL：通过大规模扩散路径混合进行文本到图像生成 [论文] [项目]
  - 扩散模型中的语言绑定：通过注意力图对齐增强属性对应关系 [论文] [代码]
  - DenseDiffusion： 带有注意力调制的密集文本到图像生成 [论文] [代码]
- ICLR
  - 用于组合式文本到图像合成的免训练结构化扩散引导 [论文] [代码]
- ICML
  - StyleGAN-T： 解锁GAN在快速大规模文本到图像合成中的潜力 [论文] [代码] [项目] [视频]
  - Muse： 通过掩码生成式Transformer进行文本到图像生成 [论文] [复现代码] [项目]
  - UniDiffusers： 一个Transformer适用于大规模多模态扩散中的所有分布 [论文] [代码]
- ACM MM
  - SUR-adapter： 用大型语言模型增强文本到图像预训练扩散模型 [论文] [代码]
  - ControlStyle： 基于文本驱动的扩散先验进行风格化图像生成 [论文]
- SIGGRAPH
  - Attend-and-Excite： 基于注意力的语义引导用于文本到图像扩散模型 [论文] [代码] [项目] [演示]
- arXiv
  - P+： 文本到图像生成中的扩展文本条件化 [论文]
  - SDXL-Turbo： 对抗性扩散蒸馏 [论文] [代码]
  - Wuerstchen： 一种用于大规模文本到图像扩散模型的高效架构 [论文] [代码]
  - StreamDiffusion： 用于实时交互式生成的流水线级解决方案 [论文] [项目]
  - ParaDiffusion： 基于信息增强扩散模型的段落到图像生成 [论文] [代码]
- 其他
  - DALL-E 3： 通过更好的标题改进图像生成 [论文]

<🎯返回顶部>

2022年
- CVPR
  - 🔥 Stable Diffusion： 基于潜在扩散模型的高分辨率图像合成 [论文] [代码] [项目]
  - 用于文本到图像合成的向量量化扩散模型 [论文] [代码]
  - DF-GAN： 文本到图像合成的一个简单而有效的基线 [论文] [代码]
  - LAFITE： 朝着无语言训练的文本到图像生成方向发展 [论文] [代码]
  - 基于对象引导联合解码Transformer的文本到图像合成 [论文]
  - StyleT2I： 朝着组合性和高保真度的文本到图像合成方向发展 [论文] [代码]
- ECCV
  - Make-A-Scene： 基于场景和人类先验知识的文本到图像生成 [论文] [代码] [演示]
  - 轨迹控制的文本到图像生成 [论文]
  - 使用Token-Critic改进的掩码图像生成 [论文]
  - VQGAN-CLIP： 利用自然语言进行开放域图像生成与操控 [论文] [代码]
  - TISE： 用于文本到图像合成评估的指标集合 [论文] [代码]
  - StoryDALL-E： 适配预训练的文本到图像Transformer以进行故事续写 [论文] [代码] [演示]
- NeurIPS
  - CogView2： 通过层次化Transformer实现更快更好的文本到图像生成 [论文] [代码]
  - Imagen： 具有深度语言理解能力的逼真文本到图像扩散模型 [论文] [复现代码] [项目] [Imagen 2]
- ACM MM
  - Adma-GAN： 基于属性驱动的记忆增强GAN用于文本到图像生成 [论文] [代码]
  - 文本到图像生成中的背景布局生成与物体知识迁移 [论文]
  - DSE-GAN： 用于文本到图像生成的动态语义演化生成对抗网络 [论文]
  - AtHom： 在文本到图像合成中由同态训练激发的两种发散注意力 [论文]
- arXiv
  - DALLE-2： 基于CLIP潜在空间的层次化条件文本图像生成 [论文]
  - PITI： 图像到图像转换只需预训练即可 [论文] [代码]

<🎯返回顶部>

2021年
- ICCV
  - DAE-GAN： 用于文本到图像合成的动态宽高比感知GAN [论文] [代码]
- NeurIPS
  - CogView： 通过Transformer掌握文本到图像生成 [论文] [代码] [演示]
  - UFC-BERT： 统一多模态控制以实现条件图像生成 [论文]
- ICML
  - DALLE-1： 零样本文本到图像生成 [论文] [复现代码]
- ACM MM
  - 用于文本到图像合成的循环一致性逆向GAN [论文]
  - R-GAN： 通过生成对抗网络探索类人方式实现合理的文本到图像合成 [论文]

<🎯返回顶部>

2020年
- ACM MM
  - 基于美学布局的文本到图像合成 [论文]

<🎯返回顶部>

条件文本到图像生成

2025年
- CVPR
  - 用于模块化条件图像合成的无训练密集对齐扩散引导 [论文] [代码]
- ICCV
  - UNO： 一种适用于单主体和多主体条件的通用定制方法 [论文] [项目] [代码]
  - CoMPaSS： 增强文本到图像扩散模型中的空间理解能力 [论文] [项目] [代码]
  - SP‑Ctrl： 重新思考用于姿态引导文本到图像生成的稀疏信号 [论文] [代码]
  - CompCon： 发现文本到图像模型之间的差异性表征 [论文] [代码]
  - C2OT： 条件的诅咒：分析并改进基于流的条件生成中的最优传输 [论文] [项目] [代码]
  - RAG‑Diffusion： 通过硬绑定与软细化实现区域感知的文本到图像生成 [论文] [项目] [代码]
  - CharaConsist： 细粒度的一致性角色生成 [论文] [项目] [代码]
  - Shadow Director： 文本到图像扩散模型中人像生成的参数化阴影控制 [论文] [项目]
  - ImageGen‑CoT： 利用思维链推理增强文本到图像的上下文学习能力 [论文] [项目]
2024年
- CVPR
  - PLACE： 用于语义图像合成的自适应布局-语义融合 [论文]
  - 一次性结构感知风格化图像合成 [论文]
  - 基于注意力重聚焦的接地文本到图像合成 [论文] [代码] [项目] [演示]
  - 用于姿态引导的人体图像合成的粗细结合潜在扩散模型 [论文] [代码]
  - DetDiffusion： 协同生成与感知模型以增强数据生成与感知能力 [论文]
  - CAN： 用于可控图像生成的条件感知神经网络 [论文]
  - SceneDiffusion： 使用分层场景扩散任意移动物体 [论文]
  - Zero-Painter： 无需训练的文本到图像合成布局控制 [论文] [代码]
  - MIGC： 用于文本到图像合成的多实例生成控制器 [论文] [代码] [项目]
  - FreeControl： 对任何文本到图像扩散模型在任意条件下实现无需训练的空间控制 [论文] [代码] [项目]
- ECCV
  - PreciseControl： 通过细粒度属性控制提升文本到图像扩散模型性能 [论文] [代码] [项目]
  - AnyControl： 通过多功能控制创作你的艺术作品 [论文] [代码]
- NeurIPS
  - Ctrl-X： 在无指导的情况下控制文本到图像生成的结构与外观 [论文] [代码] [项目]
- ICLR
  - 利用渐进式条件扩散模型推进姿态引导图像合成 [论文] [代码]
- WACV
  - 基于交叉注意力引导的无需训练布局控制 [论文] [代码] [项目] [演示]
- AAAI
  - SSMG： 基于空间-语义地图引导的扩散模型，用于自由格式布局到图像生成 [论文]
  - 利用扩散模型的注意力图控制进行组合式文本到图像合成 [论文] [代码]
- arXiv
  - DEADiff： 具有解耦表示的高效风格化扩散模型 [论文]
  - InstantStyle： 文本到图像生成中风格保留的免费午餐 [论文] [代码] [项目]
  - ControlNet++： 通过高效的连贯性反馈改进条件控制 [论文] [项目]
  - Hunyuan-DiT： 一款功能强大的多分辨率扩散Transformer，具备精细的中文理解能力 [论文] [代码] [项目]
  - DialogGen： 多模态交互式对话系统，用于多轮次文本到图像生成 [论文] [代码] [项目]
  - ControlNeXt： 强大而高效的图像和视频生成控制 [论文] [代码] [项目]
  - UniPortrait： 一个统一框架，用于单人及多人图像的身份保留个性化 [论文] [代码] [项目] [演示]
  - OmniControl： 针对扩散Transformer的极简且通用的控制 [论文] [代码] [演示]
  - UnZipLoRA： 从单张图片中分离内容与风格 [论文] [项目]
  - CtrLoRA： 一个可扩展且高效的可控图像生成框架 [论文] [代码]
  - 基于硬绑定与软细化的区域感知文本到图像生成 [论文] [代码]

<🎯返回顶部>

2023年
- CVPR
  - GLIGEN: 开放集接地文本到图像生成 [论文] [代码] [项目] [演示] [视频]
  - 基于残差量化的自回归图像生成 [论文] [代码]
  - SpaText: 用于可控图像生成的时空文本表示 [论文] [项目] [视频]
  - 具有语义-空间感知GAN的文本到图像生成 [论文]
  - ReCo: 区域控制的文本到图像生成 [论文] [代码]
  - LayoutDiffusion: 用于布局到图像生成的可控扩散模型 [论文] [代码]
- ICLR
  - Ctrl-U: 通过不确定性感知奖励建模实现鲁棒的条件图像生成 [论文] [项目] [代码]
- ICCV
  - ControlNet: 为文本到图像扩散模型添加条件控制 [论文] [代码]
  - SceneGenie: 场景图引导的扩散模型用于图像合成 [论文] [代码]
  - ZestGuide: 零样本的空间布局条件化用于文本到图像扩散模型 [论文]
- ICML
  - Composer: 具有可组合条件的创意和可控图像合成 [论文] [代码] [项目]
  - MultiDiffusion: 融合扩散路径以实现可控图像生成 [论文] [代码] [视频] [项目] [演示]
- SIGGRAPH
  - 草图引导的文本到图像扩散模型 [论文] [复现代码] [项目]
- NeurIPS
  - Uni-ControlNet: 文本到图像扩散模型的一体化控制 [论文] [代码] [项目]
  - Prompt Diffusion: 扩散模型解锁上下文学习 [论文] [代码] [项目]
- WACV
  - 更多控制，免费！基于语义扩散指导的图像合成 [论文]
- ACM MM
  - LayoutLLM-T2I: 从LLM中提取布局指导以进行文本到图像生成 [论文]
- arXiv
  - T2I-Adapter: 学习适配器以挖掘文本到图像扩散模型的更多可控能力 [论文] [代码] [演示]
  - BLIP-Diffusion: 用于可控文本到图像生成和编辑的预训练主体表征 [论文] [代码]
  - 用于可控图像合成的晚期约束扩散指导 [论文] [代码]
2022年
- ICLR
  - SDEdit: 基于随机微分方程的引导式图像合成与编辑 [论文] [代码] [项目]

<🎯返回顶部>

个性化文生图生成

2025年
- CVPR
  - SerialGen: 先标准化再个性化的个性化图像生成 [论文] [项目]
  - PatchDPO: 无需微调的个性化图像生成的补丁级DPO [论文] [代码]
  - DreamCache: 通过特征缓存实现无需微调的轻量级个性化图像生成 [论文]
- ICCV
  - DrUM: 捕捉你的思绪：基于文本到图像扩散模型中条件级别的建模进行个性化生成 [论文] [代码]
  - PersonaCraft: 利用遮挡感知的3D条件扩散模型实现个性化且可控的全身多人场景生成 [论文] [项目] [代码]
  - Steering Guidance: 面向个性化文生图扩散模型的引导机制 [论文]
  - FreeCus: FreeCus：扩散Transformer中的免费午餐式主题驱动定制 [论文] [代码]
  - PromptDresser: 通过生成式文本提示和提示感知掩码提升虚拟试穿的质量与可控性 [论文] [代码]
  - DynamicID: 具有灵活面部编辑能力的零样本多身份图像个性化 [论文] [代码]
  - UniversalBooth: 模型无关的个性化文生图生成
  - ARBooth: 微调视觉自回归模型以实现主题驱动生成 [论文] [项目] [代码]
  - ⚠️ ConceptSplit: 通过逐token适应和注意力解耦实现扩散模型的多概念解耦个性化 [代码]
  - ⚠️ ObjectMate: 用于对象插入和主题驱动生成的递归先验 [项目]
- NeurIPS
  - MS-Diffusion: 布局引导下的多主体零样本个性化图像生成 [论文] [项目] [代码]
  - ClassDiffusion: 更加对齐的个性化调优，采用显式类别指导 [论文] [项目] [代码]
  - DreamBench++: 一个面向人类对齐的个性化图像生成基准测试 [论文] [项目]
  - TweedieMix: 改进基于扩散的图像/视频生成中的多概念融合 [论文] [代码]
2024年
- CVPR
  - 个性化文生图的交叉初始化 [论文]
  - 当StyleGAN遇见Stable Diffusion：用于个性化图像生成的W+适配器 [论文] [代码] [项目]
  - 通过共享注意力实现风格一致的图像生成 [论文] [代码] [项目]
  - InstantBooth: 无需测试时微调的个性化文生图生成 [论文] [项目]
  - 高保真的人像主题图像合成 [论文]
  - RealCustom: 缩小真实文本词汇范围，实现实时开放域文生图定制 [论文] [项目]
  - DisenDiff: 用于解耦文生图个性化的注意力校准 [论文] [代码]
  - FreeCustom: 无需调优即可实现多概念组合的定制化图像生成 [论文] [代码] [项目]
  - 用于概念驱动文生图的个性化残差 [论文]
  - 利用主体无关的指导改进主题驱动图像合成 [论文]
  - JeDi: 用于无需微调的个性化文生图生成的联合图像扩散模型 [论文]
  - 使用影响力水印对抗个性化文生图生成 [论文]
  - PIA: 通过文生图模型中的即插即用模块打造你的个性化图像动画师 [论文] [项目] [代码]
  - SSR-Encoder: 为主题驱动生成编码选择性主体表征 [论文] [代码]
- ECCV
  - 做回自己：用于多主体文生图生成的受限注意力 [论文] [项目]
  - 强大而灵活：通过强化学习实现个性化文生图生成 [论文] [代码]
  - TIGC: 无需调优，仅凭图像和文本指导即可完成图像定制 [论文] [代码] [项目]
  - MasterWeaver: 掌控可编辑性和人脸身份，实现个性化文生图生成 [论文] [代码] [项目]
- NeurIPS
  - RectifID: 基于锚定分类器指导的修正流个性化 [论文] [代码]
  - AttnDreamBooth: 朝着文本对齐的个性化图像生成迈进 [论文] [项目] [代码]
- AAAI
  - 用于定制化图像生成的解耦文本嵌入 [论文]
- arXiv
  - FlashFace: 高保真地保留身份特征的人像个性化 [论文] [代码] [项目]
  - MoMA: 多模态LLM适配器，用于快速个性化图像生成 [论文]
  - IDAdapter: 学习混合特征，实现文生图模型的无调优个性化 [论文]
  - CoRe: 面向文生图个性化的上下文正则化文本嵌入学习 [论文]
  - Imagine yourself: 无需调优的个性化图像生成 [论文] [项目]
2023年
- CVPR
  - Custom Diffusion: 文生图扩散模型的多概念定制 [论文] [代码] [项目]
  - DreamBooth: 针对主题驱动生成对文生图扩散模型进行微调 [论文] [代码] [项目]
- ICCV
  - ELITE: 将视觉概念编码为文本嵌入，用于定制化文生图生成 [论文] [代码]
- ICLR
  - Textual Inversion: 一张图胜过千言万语：利用文本反转个性化文生图生成 [论文] [代码] [项目]
- SIGGRAPH
  - Break-A-Scene: 从单张图像中提取多个概念 [论文] [代码]
  - 基于编码器的领域调优，实现文生图模型的快速个性化 [论文] [项目]
  - LayerDiffusion: 基于扩散模型的分层可控图像编辑 [论文]
- arXiv
  - DreamTuner: 仅需一张图像即可实现主题驱动生成 [论文] [项目]
  - PhotoMaker: 通过堆叠身份嵌入定制逼真的真人照片 [论文] [代码]
  - IP-Adapter: 文本兼容的图像提示适配器，用于文生图扩散模型 [论文] [代码] [项目]
  - FastComposer: 无需调优，通过局部注意力实现多主体图像生成 [论文] [代码]

<🎯返回顶部>

文本引导的图像编辑

2025年
- CVPR
  - FDS: 面向文本引导潜在扩散图像编辑的频率感知去噪分数 [论文]
  - 基于参考的三平面3D感知图像编辑 [论文]
  - MoEdit: 关于学习多对象图像编辑中的数量感知 [论文]
  - ⚠️ FeedEdit: 基于动态反馈调节的文本驱动图像编辑 [论文]
- ICCV
  - In-Context Edit: 利用大规模扩散Transformer中的上下文生成实现指令式图像编辑 [论文] [项目] [代码]
  - 双条件反演: 用于增强基于扩散的图像编辑 [论文]
  - CAMILA: 具有语言对齐能力的上下文感知掩码技术用于图像编辑 [论文]
  - EditInfinity: 基于二值量化生成模型的图像编辑 [论文]
  - KRIS‑Bench: 图像编辑系统中基于知识推理的基准测试 [论文] [项目] [代码]
  - LoongX: 神经网络驱动的图像编辑 [论文] [项目] [代码]
  - CREA: CREA：一个用于创意图像编辑与生成的协作式多智能体框架 [论文] [项目]
  - IEAP: 使用扩散模型将图像编辑视为程序 [论文] [项目] [代码]
- ICLR
  - 面向文本到图像扩散模型的闪电般快速图像反演与编辑 [论文]
  - 多奖励作为基于指令的图像编辑条件 [论文] [代码]
  - HQ-Edit: 一个高质量的基于指令的图像编辑数据集 [论文] [数据集] [代码]
  - CLIPDrag: 将基于文本和基于拖拽的指令结合用于图像编辑 [论文] [代码]
  - 使用修正随机微分方程进行语义图像反演与编辑 [论文] [项目] [代码]
  - PostEdit: 后验采样用于高效的零样本图像编辑 [论文] [代码]
  - OmniEdit: 通过专家监督构建图像编辑通用模型 [论文] [项目] [代码] [数据集]
2024年
- CVPR
  - InfEdit: 基于自然语言的无反演图像编辑 [论文] [代码] [项目]
  - 理解稳定扩散模型中的交叉注意力与自注意力在文本引导图像编辑中的作用 [论文]
  - 面向文本驱动图像编辑的双重溯因反事实推理 [论文] [代码]
  - 聚焦你的指令：通过注意力调制实现细粒度多指令图像编辑 [论文] [代码]
  - 用于文本引导潜在扩散图像编辑的对比去噪分数 [论文]
  - DragDiffusion: 利用扩散模型实现交互式基于点的图像编辑 [论文] [代码]
  - DiffEditor: 提升基于扩散的图像编辑的准确性和灵活性 [论文]
  - FreeDrag: 基于特征拖拽的可靠点式图像编辑 [论文] [代码]
  - 通过可学习区域进行文本驱动图像编辑 [论文] [代码] [项目] [视频]
  - LEDITS++: 使用文生图模型实现无限可能的图像编辑 [论文] [代码] [项目] [演示]
  - SmartEdit: 探索大型语言模型支持下的复杂指令驱动图像编辑 [论文] [代码] [项目]
  - Edit One for All: 交互式批量图像编辑 [论文] [代码] [项目]
  - DiffMorpher: 挖掘扩散模型在图像变形中的潜力 [论文] [代码] [项目] [演示]
  - TiNO-Edit: 用于鲁棒扩散式图像编辑的时间步长与噪声优化 [论文] [代码]
  - 人在其位：为人体-物体交互图像编辑生成关联骨架引导图 [论文] [项目] [代码]
  - 引用式图像编辑：通过引用表达进行对象级图像编辑 [论文]
  - 用于自监督文本引导图像操作的提示增强 [论文]
  - 细节决定成败：StyleFeatureEditor用于细节丰富的StyleGAN反演及高质量图像编辑 [论文] [代码]
ECCV
- RegionDrag: 基于扩散模型的快速区域图像编辑 [论文] [代码] [项目] [演示]
- TurboEdit: 即时文本驱动图像编辑 [论文] [项目]
- InstructGIE: 向通用化图像编辑迈进 [论文]
- StableDrag: 基于点的图像编辑中的稳定拖拽 [论文]
- Eta Inversion: 为基于扩散的现实图像编辑设计最优的Eta函数 [论文] [代码] [项目]
- SwapAnything: 实现个性化图像编辑中的任意对象替换 [论文] [代码] [项目]
- Guide-and-Rescale: 用于高效无调优现实图像编辑的自引导机制 [论文]
- FreeDiff: 基于扩散模型的图像编辑中的渐进式频率截断 [论文] [代码]
- 用于交互式图像编辑的懒惰扩散Transformer [论文] [项目]
- ByteEdit: 提升、合规并加速生成式图像编辑 [论文] [项目]
- ICLR
  - 通过多模态大语言模型指导基于指令的图像编辑 [论文] [代码] [项目]
  - 随机性的恩赐：在通用扩散图像编辑中，SDE优于ODE [论文] [代码] [项目]
  - Motion Guidance: 基于扩散的图像编辑与可微运动估计器 [论文] [代码] [项目]
  - 面向图像编辑的对象感知反演与重组 [论文] [代码] [项目]
  - Noise Map Guidance: 具有空间上下文的反演用于现实图像编辑 [论文]
- AAAI
  - 无调优反演增强控制用于一致性图像编辑 [论文]
  - BARET: 基于平衡注意力的真实图像编辑，由目标文本反演驱动 [论文]
  - 通过缓存支持的稀疏扩散推理加速文本到图像编辑 [论文]
  - 高保真度的基于扩散的图像编辑 [论文]
  - AdapEdit: 面向文本连续性敏感图像编辑的时空引导自适应编辑算法 [论文]
  - TexFit: 基于扩散模型的文本驱动时尚图像编辑 [论文]
- arXiv
  - 一件物品胜过一条提示： 具有解耦控制的多功能图像编辑 [论文] [代码]
  - 一维适配器统领一切：概念、扩散模型与擦除应用 [论文] [代码] [项目]
  - EditWorld: 模拟世界动态以进行遵循指令的图像编辑 [论文] [代码] [项目]
  - ReasonPix2Pix: 高级图像编辑的指令推理数据集 [论文]
  - FlowEdit: 使用预训练流模型的无反演文本编辑 [论文] [代码] [项目] [演示]
2023年
- CVPR
  - 揭示文本到图像扩散模型中的解耦能力 [论文] [代码]
  - SINE: 使用文本到图像扩散模型进行单张图像编辑 [论文] [代码]
  - Imagic: 基于文本的现实图像编辑，使用扩散模型 [论文]
  - InstructPix2Pix: 学习遵循图像编辑指令 [论文] [代码] [数据集] [项目] [演示]
  - 空文本反演，用于借助引导扩散模型编辑真实图像 [论文] [代码]
- ICCV
  - MasaCtrl: 无调优的互惠自注意力控制，用于一致的图像合成与编辑 [论文] [代码] [项目] [演示]
  - 使用文本到图像扩散模型定位对象级别的形状变化 [论文] [代码] [项目] [演示]
- ICLR
  - SDEdit: 借助随机微分方程进行引导的图像合成与编辑 [论文] [代码] [项目]
2022年
- CVPR
  - DiffusionCLIP: 文本引导的扩散模型，用于鲁棒的图像操作 [论文] [代码]

<🎯返回顶部>

文本图像生成

2024年
- arXiv
  - AnyText: 多语言视觉文本生成与编辑 [论文] [代码] [项目]
- CVPR
  - SceneTextGen: 布局无关的场景文本图像合成，结合字符级扩散模型与上下文一致性 [论文]

<🎯返回顶部>

数据集

Microsoft COCO: 上下文中的常见物体 [论文] [数据集]
Conceptual Captions: 清洗过的、超义词化的图像替代文本数据集，用于自动图像字幕生成 [论文] [数据集]
LAION-5B: 一个开放的大规模数据集，用于训练下一代图文模型 [论文] [数据集]
PartiPrompts: 面向丰富内容文本到图像生成的自回归模型扩展 [论文] [数据集] [项目]

<🎯返回顶部>

工具包

名称	官网	描述
Stable Diffusion WebUI	link	基于Gradio构建，本地部署以运行Stable Diffusion检查点、LoRA权重、ControlNet权重等。
Stable Diffusion WebUI-forge	link	基于Gradio构建，本地部署以运行Stable Diffusion检查点、LoRA权重、ControlNet权重等。
Fooocus	link	基于Gradio构建，离线、开源且免费。无需手动调整，用户只需关注提示词和图像即可。
ComfyUI	link	本地部署，支持使用Stable Diffusion进行自定义工作流。
Civitai	link	社区驱动的Stable Diffusion和LoRA检查点网站

<🎯返回顶部>

问答

问：本文献列表的会议顺序是什么？
- 本文献列表按照以下顺序排列：
  - CVPR
  - ICCV
  - ECCV
  - WACV
  - NeurIPS
  - ICLR
  - ICML
  - ACM MM
  - SIGGRAPH
  - AAAI
  - arXiv
  - 其他
问：‘其他’指的是什么？
- 一些研究（例如‘Stable Casacade’）并未在arXiv上发表技术报告，而是倾向于在其官方网站上撰写博客文章。‘其他’类别即指这类研究。

<🎯返回顶部>

参考文献

reference.bib文件汇总了最新的图像修复论文、常用数据集和工具包的BibTeX参考文献。基于原始参考文献，我进行了如下修改，以使它们在LaTeX文档中呈现得更加美观：

参考文献通常采用“作者-etal-年份-昵称”的形式。特别是数据集和工具包的参考文献直接使用“昵称”，如“imagenet”。
在每条参考文献中，所有会议或期刊名称均被转换为缩写，例如“Computer Vision and Pattern Recognition -> CVPR”。
移除了所有参考文献中的url、doi、publisher、organization、editor和series字段。
对于缺少页码的参考文献，补充了页码信息。
所有论文标题均采用首字母大写格式，并额外添加了{}，以确保在某些特定模板中也能正确显示首字母大写。

如果您对参考文献格式有其他需求，可以通过在DBLP或Google Scholar中搜索论文名称来参考原始文献。

[!NOTE] 请注意，主页和主题章节中的参考文献可能会在reference.bib中重复出现。个人建议使用“Ctrl+F”/“Command+F”来查找您所需的BibTeX参考文献。

<🎯返回顶部>

点赞历史

<🎯返回顶部>

微信群

<🎯返回顶部>

awesome-text-to-image-studies 快速上手指南

awesome-text-to-image-studies 并非一个可直接运行的软件库或工具包，而是一个文生图（Text-to-Image, T2I）领域的学术资源汇总仓库。它主要收集了相关的论文、综述、数据集、开源代码链接以及在线产品列表。

本指南将指导开发者如何高效利用该仓库获取最新的研究成果和代码资源。

环境准备

由于本仓库主要是文档和资源索引，无需安装特定的运行时环境或依赖库即可浏览内容。

若您需要运行仓库中链接的具体论文代码，通常需要具备以下基础开发环境：

操作系统: Linux (推荐 Ubuntu 20.04+), macOS, 或 Windows (WSL2)
编程语言: Python 3.8+
深度学习框架: PyTorch (大多数扩散模型基于此)
硬件加速: NVIDIA GPU (推荐显存 8GB 以上，运行大模型建议 16GB+)
版本控制: Git

获取资源步骤

1. 克隆仓库

使用 Git 将资源列表下载到本地，以便离线查阅或追踪更新。

git clone https://github.com/AlonzoLeeeooo/awesome-text-to-image-generation-studies.git
cd awesome-text-to-image-generation-studies

国内加速建议：如果直接克隆速度较慢，可使用国内镜像源（如 Gitee 镜像，若有）或配置代理。
# 示例：使用国内镜像加速（需确认具体镜像地址，此处为通用示意）
git clone https://gitee.com/mirror/awesome-text-to-image-generation-studies.git

2. 浏览分类资源

进入目录后，主要通过阅读 README.md 或 topics/topics.md 文件来查找目标资源。仓库内容按以下维度分类：

研究方向: 文生图生成、条件生成、个性化生成、文本引导编辑等。
时间年份: 涵盖 2020 年至 2025 年的最新论文。
顶会期刊: CVPR, ICCV, ECCV, NeurIPS, ICLR, AAAI, TPAMI 等。

基本使用流程

本仓库的核心用法是"检索 -> 定位代码 -> 独立部署"。以下是典型的使用示例：

场景：查找并运行一篇 2025 年的文生图论文代码

步骤 1：在列表中定位论文 打开 README.md，找到 Text-to-Image Generation -> Year 2025 部分。例如，找到论文 PreciseCam (Precise Camera Control for Text-to-Image Generation)。

步骤 2：获取官方代码链接 在 README 中点击该论文对应的 [[Code]] 链接（通常指向独立的 GitHub 仓库）。

示例链接：https://github.com/edurnebernal/PreciseCam

步骤 3：克隆并安装具体项目 跳转到该项目的独立页面，按照其自身的 README 进行安装。通常流程如下：

# 1. 克隆具体项目的代码
git clone https://github.com/edurnebernal/PreciseCam.git
cd PreciseCam

# 2. 创建虚拟环境 (推荐)
conda create -n precisecam python=3.9
conda activate precisecam

# 3. 安装依赖 (具体命令以该项目 requirements.txt 为准)
pip install -r requirements.txt

# 4. 下载预训练模型 (根据项目指引下载权重文件)
# ...

# 5. 运行推理示例
python infer.py --prompt "a photo of a cat" --camera_angle 45

场景：查找综述文章

若希望系统了解领域进展，可在 Survey Papers 章节直接点击 [[Paper]] 链接下载 PDF 阅读。

例如：Diffusion Models: A Comprehensive Survey of Methods and Applications

注意事项

时效性: 仓库持续更新（如 2025 年会议论文），请定期 git pull 获取最新列表。
代码独立性: 本仓库不提供统一的 pip install 命令，每个列出的研究项目都有独立的环境要求和安装脚本，请务必前往对应的项目主页查看详细说明。
数据集与工具: 如需特定数据集或在线工具，可参考仓库中的 Datasets 和 Products 章节。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|3天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|4天前

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.1k|★★☆☆☆|昨天

开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|3天前

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|3天前

开发框架图像Agent

opencv

OpenCV 是一个功能强大的开源计算机视觉库，被誉为机器视觉领域的“瑞士军刀”。它主要解决让计算机“看懂”图像和视频的核心难题，提供了从基础的图像读取、色彩转换、边缘检测，到复杂的人脸识别、物体追踪、3D 重建及深度学习模型部署等全方位算法支持。无论是处理静态图片还是分析实时视频流，OpenCV 都能高效完成特征提取与模式识别任务。这款工具特别适合计算机视觉开发者、人工智能研究人员以及机器人工程师使用。对于希望将视觉感知能力集成到应用中的软件工程师，或是需要快速验证算法原型的学术研究者，OpenCV 都是不可或缺的基础设施。虽然普通用户通常不会直接操作代码，但日常生活中使用的扫码支付、美颜相机和自动驾驶系统，背后往往都有它的身影。 OpenCV 的独特亮点在于其卓越的性能与广泛的兼容性。它采用 C++ 编写以确保高速运算，同时提供 Python、Java 等多种语言接口，极大降低了开发门槛。库中内置了数千种优化算法，并支持跨平台运行，能够无缝对接各类硬件加速器。作为社区驱动的项目，OpenCV 拥有活跃的生态系统和丰富的学习资源，持续推动着视觉技术的前沿发展。

★ 87k|★☆☆☆☆|昨天

开发框架图像