awesome-text-to-image-studies

GitHub
757 39 非常简单 1 次阅读 2天前MIT图像
AI 解读 由 AI 自动生成,仅供参考

awesome-text-to-image-studies 是一个专注于“文生图”(Text-to-Image)生成技术的开源学术资源库。它系统性地整理了该领域海量的研究论文、数据集、工具包以及成熟的商业产品,旨在解决研究人员和开发者在面对快速迭代的 AI 绘图技术时,难以高效追踪最新进展、梳理技术脉络的痛点。

这份资源库不仅按年份和顶级会议(如 CVPR、ICLR、AAAI)对文献进行了分类,还独具特色地开辟了“主题专题”板块,深入探讨了扩散模型与大语言模型(LLM)、Transformer 架构、联邦学习等前沿技术的融合应用。此外,它还涵盖了从基础生成到个性化定制、文本引导编辑等多个细分方向,甚至提供了相关代码和模型权重的链接。

awesome-text-to-image-studies 非常适合 AI 领域的科研人员、算法工程师以及希望深入了解生成式人工智能底层逻辑的技术爱好者使用。对于想要把握行业风向、寻找研究灵感或复现经典算法的用户而言,这里提供了一个结构清晰、更新及时的一站式知识导航,帮助大家更轻松地探索文生图技术的无限可能。

使用场景

某高校计算机视觉实验室的研究生团队正致力于研发一种能精准控制人物姿态的文生图新算法,急需梳理最新的技术路线以确立创新点。

没有 awesome-text-to-image-studies 时

  • 文献检索如大海捞针:研究人员需在 arXiv、Google Scholar 等多个平台反复搜索关键词,难以区分哪些是真正的文生图核心论文,哪些只是边缘应用,耗时极长。
  • 技术演进脉络模糊:面对 2020 年至 2025 年爆发的海量研究,团队难以快速理清从基础扩散模型到结合 LLM、Mamba 等新技术的演变逻辑,容易遗漏关键转折点。
  • 细分领域资源分散:想要查找“个性化生成”或“文本引导编辑”等特定方向的论文及对应代码、数据集时,往往发现资源散落在不同仓库,缺乏统一入口。
  • 复现门槛高:找到论文后,常因缺少官方代码链接、预训练模型权重或专用测试基准(如 DAVIS-Edit),导致算法复现和对比实验迟迟无法开展。

使用 awesome-text-to-image-studies 后

  • 一站式获取权威清单:团队直接查阅按年份(2020-2025)和会议(CVPR, ICCV 等)分类的论文列表,瞬间锁定近三年的核心研究成果,检索效率提升数倍。
  • 清晰把握技术前沿:通过"Topics"板块,迅速掌握扩散模型与 Transformer、联邦学习等跨界融合的最新动态,快速定位到适合引入的创新技术组合。
  • 垂直领域精准导航:利用“个性化生成”和“文本引导编辑”等细分目录,直接获取该方向下的所有相关论文、开源代码库及配套数据集,无需二次搜寻。
  • 复现链路完整闭环:借助仓库提供的论文对应的代码地址、HuggingFace 模型权重及基准测试集,团队成员当天即可搭建环境并跑通基线模型,加速实验迭代。

awesome-text-to-image-studies 将原本需要数周的文献调研与资源收集工作压缩至数小时,让研发团队能将宝贵精力集中于核心算法的创新与突破。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该仓库(awesome-text-to-image-studies)是一个论文、资源和工具集的汇总列表,本身不包含可执行的源代码或模型训练/推理脚本,因此没有特定的运行环境需求。列表中提及的具体项目(如 StableV2V, PreciseCam 等)需参考其各自独立的仓库以获取环境配置信息。
python未说明
awesome-text-to-image-studies hero image

快速开始

文生图生成研究合集

本 GitHub 仓库汇总了与文本到图像(T2I)生成任务相关的论文和资源。

[!NOTE] 本文档是整个 GitHub 仓库的主页。论文按照不同的研究方向、发表年份和会议进行总结。

“topics”章节根据不同的特性,总结了与 T2I 生成高度相关的论文,例如 T2I 生成的前提条件、结合其他技术的扩散模型(如 Diffusion Transformer、LLMs、Mamba 等),以及用于其他任务的扩散模型。

如果您对本仓库有任何建议,请随时发起新议题提交 Pull Request

本 GitHub 仓库的最新动态如下。

🔥 [2025年12月11日] 我们的论文《StableV2V:视频到视频编辑中的形状一致性稳定化》已被 TCSVT 2025 接收!

🔥 [11月19日] 我们发布了最新论文《StableV2V:视频到视频编辑中的形状一致性稳定化》,并开源了相应的代码模型权重以及测试基准DAVIS-Edit。欢迎通过链接查看!

点击查看更多信息。
  • [4月26日] 更新了一个新主题:扩散模型与联邦学习的结合。 更多详情请参见“topics”章节
  • [3月28日] 官方的AAAI 2024论文列表已发布!相应地更新了官方 PDF 版本和 BibTeX 参考文献。
  • [3月21日] “topics”章节已更新。该章节旨在提供按扩散模型其他特性分类的论文列表,例如基于 Diffusion Transformer 的方法、用于自然语言处理的扩散模型、与 LLM 集成的扩散模型等。这些论文的参考文献也被汇总在 reference.bib 中。
  • [3月7日] 所有可用的CVPR、ICLR 和 AAAI 2024 论文及参考文献均已更新。
  • [3月1日] 总结了现成的文生图生成产品工具包的网站。

目录

待办事项

  • 会议发表论文
    • 更新 NeurIPS 2025 论文
    • 更新 ICCV 2025 论文
    • 更新 CVPR 2025 论文
    • 更新 ICLR 2025 论文
    • 更新 NeurIPS 2024 论文
    • 更新 ECCV 2024 论文
    • 更新 CVPR 2024 论文
      • 更新 ⚠️ 论文和参考文献
      • 将 arXiv 参考文献更新为官方版本
    • 更新 AAAI 2024 论文
      • 更新 ⚠️ 论文和参考文献
      • 将 arXiv 参考文献更新为官方版本
    • 更新 ICLR 2024 论文
    • 更新 NeurIPS 2023 论文
  • 定期维护预印本 arXiv 论文及遗漏论文

<🎯返回顶部>

产品

名称 年份 网站 特色
Nano Image Art 2025 link 创作惊艳的 AI 图像——由 Google 的 Nano Banana Pro 提供支持,实现下一代品质、智能编辑和智能化提示。
Fast Image AI 2025 link Fast Image AI 可以立即将您的照片转换为吉卜力、素描和皮克斯等惊艳风格。只需点击一下,即可轻松控制图像元素并创造出令人惊叹的效果。
Gempix2 (Nano Banana 2) 2025 link 免费的 AI 图像生成平台,支持文生图、AI 编辑和视频生成
Stable Diffusion 3 2024 link 基于 Diffusion Transformer 的 Stable Diffusion
Stable Video 2024 link 高质量高分辨率图像
DALL-E 3 2023 link 可与 ChatGPT 协作
Ideogram 2023 link 文本图像
Playground 2023 link 运动风格图像
HiDream.ai 2023 link -
Dashtoon 2023 link 文本转漫画生成
WHEE 2023 link WHEE 是一款在线 AI 生成工具,可用于 T2I 生成、I2I 生成、超分辨率、修复、扩展绘画、图像变体、虚拟试穿等
Vega AI 2023 link Vega AI 是一款在线 AI 生成工具,可用于 T2I 生成、I2I 生成、超分辨率、T2V 生成、I2V 生成等
Wujie AI 2022 link 中文名为“无界AI”,提供 AIGC 资源和在线服务
Midjourney 2022 link 功能强大的闭源生成工具

<🎯返回顶部>

论文

综述论文

  • 文本到图像生成
    • 2024年
      • ACM Computing Surveys
        • 扩散模型:方法与应用的全面综述 [论文]
    • 2023年
      • TPAMI
      • arXiv
        • 生成式AI中的文本到图像扩散模型:综述 [论文]
        • 视觉计算中扩散模型的最新进展 [论文]
    • 2022年
      • arXiv
        • 面向视觉的高效扩散模型:综述 [论文]
  • 条件文本到图像生成
    • 2024年
      • arXiv
        • 基于文本到图像扩散模型的可控生成:综述 [论文]
  • 文本引导的图像编辑

<🎯返回顶部>

文本到图像生成

  • 2025年
    • CVPR
      • PreciseCam: 文本到图像生成中的精确相机控制 [论文] [项目] [代码]
      • Type-R: 文本到图像生成中自动修复错别字 [论文] [代码]
      • Compass Control: 文本到图像生成中的多对象方向控制 [论文]
      • Generative Photography: 场景一致的相机控制用于逼真的文本到图像合成 [论文] [项目] [代码]
      • One-Way Ticket: 不依赖时间的统一编码器用于蒸馏文本到图像扩散模型 [论文] [代码]
      • 文本嵌入并非全部所需:利用文本自注意力图进行文本到图像语义对齐的注意力控制 [论文]
      • 向理解和量化文本到图像生成中的不确定性迈进 [论文]
      • 通过双空间多方面概念控制实现即插即用、可解释且负责任的文本到图像生成 [论文] [项目] [代码]
      • 精确计数:生成准确数量物体的文本到图像 [论文] [项目] [代码]
      • MCCD: 基于多智能体协作的组合式扩散用于复杂文本到图像生成 [论文]
      • 重新思考去偏训练:释放稳定扩散的潜力 [论文]
      • ShapeWords: 使用三维形状感知提示引导文本到图像合成 [论文] [项目]
      • SnapGen: 通过高效架构和训练驯服移动端高分辨率文本到图像模型 [论文]
      • 无需训练的文本到图像合成中通过重定位注意力图优化空间传输 [论文]
      • Focus-N-Fix: 区域感知微调用于文本到图像生成 [论文]
      • SILMM: 自我改进的大规模多模态模型用于组合式文本到图像生成 [论文]
      • 无训练门控低秩适应用于文本到图像扩散模型的局部概念擦除 [论文]
      • 自交叉扩散指导用于相似主题的文本到图像合成 [论文]
      • 噪声扩散用于提升文本到图像合成中的语义忠实度 [论文] [代码]
      • 学习为文本到图像生成采样有效且多样化的提示 [论文]
      • STEREO: 一个两阶段框架,用于从文本到图像扩散模型中对抗性地擦除概念 [论文]
      • 针对少数群体的文本到图像生成通过提示优化 [论文] [代码]
      • 缩小文本到图像扩散模型的文本编码器 [论文] [代码]
      • ⚠️ “遗忘”的幻象:文本到图像扩散模型中机器遗忘的不稳定性 [论文]
      • ⚠️ 探索大型语言模型与扩散Transformer在文本到图像合成中的深度融合 [论文]
      • ⚠️ 检测并引导:通过指南令牌优化自我调节扩散模型以实现安全的文本到图像生成 [论文]
      • ⚠️ 多群体比例代表性在文本到图像模型中的应用 [论文]
      • ⚠️ VODiff: 控制文本到图像生成中对象的可见性顺序 [论文]
    • ICLR
      • 改善文本到图像扩散模型的长文本对齐 [论文]
      • 信息论视角下的文本到图像对齐 [论文]
      • Meissonic: 重振掩码生成式Transformer以实现高效的高分辨率文本到图像合成 [论文]
      • PaRa: 通过参数秩降低个性化文本到图像扩散 [论文]
      • Fluid: 使用连续标记扩展自回归文本到图像生成模型 [论文]
      • 并非所有提示都一样:基于提示修剪文本到图像扩散模型 [论文]
      • 去噪自回归Transformer用于可扩展的文本到图像生成 [论文]
      • 文本到图像生成模型中的渐进式组合性 [论文]
      • 挖掘你自己的秘密:扩散分类器分数用于文本到图像扩散模型的持续个性化 [论文]
      • 测量并改善文本到图像生成模型的参与度 [论文]
      • 通过残差注意力门擦除文本到图像扩散模型中的概念组合 [论文]
      • 使用可靠随机种子增强组合式文本到图像生成 [论文]
      • 一提示一故事: 使用单一提示实现一致性文本到图像生成 [论文]
      • 你只需采样一次:通过自合作扩散GAN驯服一步式文本到图像合成 [论文]
      • 重新思考文本到图像生成时代下的艺术版权侵权问题 [论文]
      • 从文本到图像扩散模型中擦除概念组合 [论文]
      • 文本到图像生成模型中跨注意力头位置模式可以与人类视觉概念对齐 [论文]
      • TIGeR: 利用大型多模态模型统一文本到图像生成与检索 [论文]
      • DGQ: 分布感知的分组量化用于文本到图像扩散模型 [论文]
      • 无训练推测雅可比解码加速自回归文本到图像生成 [论文]
      • PT-T2I/V: 一种高效的代理标记化扩散Transformer用于文本到图像/视频任务 [论文]
      • 重新审视文本到图像评估:关于指标、提示和人工评分 [论文]
      • SANA: 利用线性扩散Transformer实现高效高分辨率文本到图像合成 [论文]
      • 文本到图像校正流作为即插即用先验 [论文]
      • 自动过滤人类反馈数据以对齐文本到图像扩散模型 [论文]
      • SAFREE: 无训练且自适应的安全卫士,用于安全的文本到图像和视频生成 [论文]
      • IterComp: 迭代式组合意识反馈学习,来自模型库用于文本到图像生成 [论文]
      • ScImage: 多模态大型语言模型在科学文本到图像生成方面的表现如何? [论文]
      • 引导得分身份蒸馏用于无数据的一步式文本到图像生成 [论文]
      • 从因果视角评估文本到图像合成中的语义变异 [论文]
  • 2024年
    • CVPR
      • DistriFusion: 高分辨率扩散模型的分布式并行推理 [论文] [代码]
      • InstanceDiffusion: 实例级控制用于图像生成 [论文] [代码] [项目]
      • ECLIPSE: 一种资源高效的文本到图像先验用于图像生成 [论文] [代码] [项目] [演示]
      • Instruct-Imagen: 多模态指令驱动的图像生成 [论文]
      • 学习连续3D词用于文本到图像生成 [论文] [代码]
      • HanDiffuser: 具有逼真手部外观的文本到图像生成 [论文]
      • 丰富的人类反馈用于文本到图像生成 [论文]
      • MarkovGen: 结构化预测用于高效文本到图像生成 [论文]
      • 文本到图像生成的定制助手 [论文]
      • ADI: 学习解耦标识符用于动作定制的文本到图像生成 [论文] [项目]
      • UFOGen: 通过扩散GAN实现大规模单向文本到图像生成 [论文]
      • 自我发现可解释的扩散潜在方向用于负责任的文本到图像生成 [论文]
      • Tailored Visions: 通过个性化提示重写提升文本到图像生成 [论文] [代码]
      • CoDi: 条件扩散蒸馏用于更高保真度和更快的图像生成 [论文] [代码] [项目] [演示]
      • 使用潜在扩散模型和隐式神经解码器进行任意规模的图像生成和上采样 [论文]
      • 朝着在基于扩散的模型中有效使用以人为本先验以生成基于文本的人像迈进 [论文]
      • ElasticDiffusion: 无训练的任意尺寸图像生成 [论文] [代码] [项目] [演示]
      • CosmicMan: 一个人类专用的文本到图像基础模型 [论文] [代码] [项目]
      • PanFusion: 驯服稳定扩散以生成360°全景图像 [论文] [代码] [项目]
      • Intelligent Grimm: 基于潜在扩散模型的开放式视觉叙事 [论文] [代码] [项目]
      • 关于基于扩散的文本到图像生成的可扩展性 [论文]
      • MuLAn: 一个多层次标注数据集用于可控文本到图像生成 [论文] [项目] [数据集]
      • 学习多维度的人类偏好用于文本到图像生成 [论文]
      • 动态提示优化用于文本到图像生成 [论文]
      • 通过强化学习训练扩散模型以实现多样化图像生成 [论文]
      • 对抗性文本到连续图像生成 [论文] [项目] [视频]
      • EmoGen: 利用文本到图像扩散模型生成情感图像内容 [论文] [代码]
    • ECCV
      • 搭建不同语言模型和生成式视觉模型之间的桥梁以实现文本到图像生成 [论文] [代码] [项目]
      • 探索文本到图像扩散模型中的短语级对齐 [论文] [代码]
      • 把握正确方向:提升文本到图像模型的空间一致性 [论文] [代码] [项目]
      • 跨印度语系导航文本到图像生成中的偏见 [论文] [项目]
      • 通过人类反馈反演保护文本到图像扩散模型 [论文]
      • 现实与幻想的构建:借助LLM辅助提示解读进行场景生成 [论文] [代码] [项目] [数据集]
      • 文本到图像扩散模型中可靠且高效的概念擦除 [论文] [代码]
      • 探索文本到图像扩散模型中的短语级对齐 [论文] [代码]
      • StyleTokenizer: 通过单个实例定义图像风格以控制扩散模型 [论文] [代码]
      • PEA-Diffusion: 在非英语文本到图像生成中具有知识蒸馏功能的参数高效适配器 [论文] [代码]
      • 现象空间中的偏差阻碍了文本到图像生成的泛化能力 [论文] [代码]
      • Parrot: 用于文本到图像生成的帕累托最优多奖励强化学习框架 [论文]
      • 搭建不同语言模型和生成式视觉模型之间的桥梁以实现文本到图像生成 [论文] [代码] [项目]
      • MobileDiffusion: 移动设备上的即时文本到图像生成 [论文]
      • PixArt-Σ: 从弱到强训练扩散Transformer以实现4K文本到图像生成 [论文] [代码] [项目]
      • CogView3: 通过接力扩散实现更精细、更快速的文本到图像生成 [论文] [代码]
    • ICLR
    • SIGGRAPH
      • RGB↔X: 使用材料和光照感知的扩散模型进行图像分解和合成 [论文] [项目]
    • AAAI
      • 语义感知的数据增强用于文本到图像合成 [论文]
      • 面向抽象概念的文本到图像生成 [论文]
    • arXiv
    • 其他

<🎯返回顶部>

  • 2023年
    • CVPR
      • GigaGAN: 扩展GAN用于文本到图像合成 [论文] [复现代码] [项目] [视频]
      • ERNIE-ViLG 2.0: 基于知识增强的去噪专家混合模型改进文本到图像扩散模型 [论文]
      • 用于文本到图像生成的偏移扩散 [论文] [代码]
      • GALIP: 用于文本到图像合成的生成对抗CLIP [论文] [代码]
      • Specialist Diffusion: 即插即用、样本高效的微调文本到图像扩散模型以学习任何未见风格 [论文] [代码]
      • 面向文本到图像生成的可验证与可重复的人类评估 [论文]
      • RIATIG: 使用自然提示进行可靠且难以察觉的对抗性文本到图像生成 [论文] [代码]
      • 文本到图像扩散的多概念定制 [论文] [项目] [代码]
    • ICCV
    • NeurIPS
      • ImageReward: 学习与评估人类对文本到图像生成的偏好 [论文] [代码]
      • RAPHAEL:通过大规模扩散路径混合进行文本到图像生成 [论文] [项目]
      • 扩散模型中的语言绑定:通过注意力图对齐增强属性对应关系 [论文] [代码]
      • DenseDiffusion: 带有注意力调制的密集文本到图像生成 [论文] [代码]
    • ICLR
      • 用于组合式文本到图像合成的免训练结构化扩散引导 [论文] [代码]
    • ICML
    • ACM MM
      • SUR-adapter: 用大型语言模型增强文本到图像预训练扩散模型 [论文] [代码]
      • ControlStyle: 基于文本驱动的扩散先验进行风格化图像生成 [论文]
    • SIGGRAPH
    • arXiv
      • P+: 文本到图像生成中的扩展文本条件化 [论文]
      • SDXL-Turbo: 对抗性扩散蒸馏 [论文] [代码]
      • Wuerstchen: 一种用于大规模文本到图像扩散模型的高效架构 [论文] [代码]
      • StreamDiffusion: 用于实时交互式生成的流水线级解决方案 [论文] [项目]
      • ParaDiffusion: 基于信息增强扩散模型的段落到图像生成 [论文] [代码]
    • 其他
      • DALL-E 3: 通过更好的标题改进图像生成 [论文]

<🎯返回顶部>

  • 2022年
    • CVPR
      • 🔥 Stable Diffusion: 基于潜在扩散模型的高分辨率图像合成 [论文] [代码] [项目]
      • 用于文本到图像合成的向量量化扩散模型 [论文] [代码]
      • DF-GAN: 文本到图像合成的一个简单而有效的基线 [论文] [代码]
      • LAFITE: 朝着无语言训练的文本到图像生成方向发展 [论文] [代码]
      • 基于对象引导联合解码Transformer的文本到图像合成 [论文]
      • StyleT2I: 朝着组合性和高保真度的文本到图像合成方向发展 [论文] [代码]
    • ECCV
    • NeurIPS
    • ACM MM
      • Adma-GAN: 基于属性驱动的记忆增强GAN用于文本到图像生成 [论文] [代码]
      • 文本到图像生成中的背景布局生成与物体知识迁移 [论文]
      • DSE-GAN: 用于文本到图像生成的动态语义演化生成对抗网络 [论文]
      • AtHom: 在文本到图像合成中由同态训练激发的两种发散注意力 [论文]
    • arXiv
      • DALLE-2: 基于CLIP潜在空间的层次化条件文本图像生成 [论文]
      • PITI: 图像到图像转换只需预训练即可 [论文] [代码]

<🎯返回顶部>

  • 2021年
    • ICCV
      • DAE-GAN: 用于文本到图像合成的动态宽高比感知GAN [论文] [代码]
    • NeurIPS
    • ICML
    • ACM MM
      • 用于文本到图像合成的循环一致性逆向GAN [论文]
      • R-GAN: 通过生成对抗网络探索类人方式实现合理的文本到图像合成 [论文]

<🎯返回顶部>

  • 2020年
    • ACM MM
      • 基于美学布局的文本到图像合成 [论文]

<🎯返回顶部>

条件文本到图像生成

  • 2025年

  • 2024年

    • CVPR
      • PLACE: 用于语义图像合成的自适应布局-语义融合 [论文]
      • 一次性结构感知风格化图像合成 [论文]
      • 基于注意力重聚焦的接地文本到图像合成 [论文] [代码] [项目] [演示]
      • 用于姿态引导的人体图像合成的粗细结合潜在扩散模型 [论文] [代码]
      • DetDiffusion: 协同生成与感知模型以增强数据生成与感知能力 [论文]
      • CAN: 用于可控图像生成的条件感知神经网络 [论文]
      • SceneDiffusion: 使用分层场景扩散任意移动物体 [论文]
      • Zero-Painter: 无需训练的文本到图像合成布局控制 [论文] [代码]
      • MIGC: 用于文本到图像合成的多实例生成控制器 [论文] [代码] [项目]
      • FreeControl: 对任何文本到图像扩散模型在任意条件下实现无需训练的空间控制 [论文] [代码] [项目]
    • ECCV
    • NeurIPS
    • ICLR
      • 利用渐进式条件扩散模型推进姿态引导图像合成 [论文] [代码]
    • WACV
    • AAAI
      • SSMG: 基于空间-语义地图引导的扩散模型,用于自由格式布局到图像生成 [论文]
      • 利用扩散模型的注意力图控制进行组合式文本到图像合成 [论文] [代码]
    • arXiv

<🎯返回顶部>

<🎯返回顶部>

个性化文生图生成

  • 2025年
    • CVPR
      • SerialGen: 先标准化再个性化的个性化图像生成 [论文] [项目]
      • PatchDPO: 无需微调的个性化图像生成的补丁级DPO [论文] [代码]
      • DreamCache: 通过特征缓存实现无需微调的轻量级个性化图像生成 [论文]
    • ICCV
      • DrUM: 捕捉你的思绪:基于文本到图像扩散模型中条件级别的建模进行个性化生成 [论文] [代码]
      • PersonaCraft: 利用遮挡感知的3D条件扩散模型实现个性化且可控的全身多人场景生成 [论文] [项目] [代码]
      • Steering Guidance: 面向个性化文生图扩散模型的引导机制 [论文]
      • FreeCus: FreeCus:扩散Transformer中的免费午餐式主题驱动定制 [论文] [代码]
      • PromptDresser: 通过生成式文本提示和提示感知掩码提升虚拟试穿的质量与可控性 [论文] [代码]
      • DynamicID: 具有灵活面部编辑能力的零样本多身份图像个性化 [论文] [代码]
      • UniversalBooth: 模型无关的个性化文生图生成
      • ARBooth: 微调视觉自回归模型以实现主题驱动生成 [论文] [项目] [代码]
      • ⚠️ ConceptSplit: 通过逐token适应和注意力解耦实现扩散模型的多概念解耦个性化 [代码]
      • ⚠️ ObjectMate: 用于对象插入和主题驱动生成的递归先验 [项目]
    • NeurIPS
  • 2024年
    • CVPR
      • 个性化文生图的交叉初始化 [论文]
      • 当StyleGAN遇见Stable Diffusion:用于个性化图像生成的W+适配器 [论文] [代码] [项目]
      • 通过共享注意力实现风格一致的图像生成 [论文] [代码] [项目]
      • InstantBooth: 无需测试时微调的个性化文生图生成 [论文] [项目]
      • 高保真的人像主题图像合成 [论文]
      • RealCustom: 缩小真实文本词汇范围,实现实时开放域文生图定制 [论文] [项目]
      • DisenDiff: 用于解耦文生图个性化的注意力校准 [论文] [代码]
      • FreeCustom: 无需调优即可实现多概念组合的定制化图像生成 [论文] [代码] [项目]
      • 用于概念驱动文生图的个性化残差 [论文]
      • 利用主体无关的指导改进主题驱动图像合成 [论文]
      • JeDi: 用于无需微调的个性化文生图生成的联合图像扩散模型 [论文]
      • 使用影响力水印对抗个性化文生图生成 [论文]
      • PIA: 通过文生图模型中的即插即用模块打造你的个性化图像动画师 [论文] [项目] [代码]
      • SSR-Encoder: 为主题驱动生成编码选择性主体表征 [论文] [代码]
    • ECCV
    • NeurIPS
    • AAAI
      • 用于定制化图像生成的解耦文本嵌入 [论文]
    • arXiv
      • FlashFace: 高保真地保留身份特征的人像个性化 [论文] [代码] [项目]
      • MoMA: 多模态LLM适配器,用于快速个性化图像生成 [论文]
      • IDAdapter: 学习混合特征,实现文生图模型的无调优个性化 [论文]
      • CoRe: 面向文生图个性化的上下文正则化文本嵌入学习 [论文]
      • Imagine yourself: 无需调优的个性化图像生成 [论文] [项目]
  • 2023年
    • CVPR
    • ICCV
      • ELITE: 将视觉概念编码为文本嵌入,用于定制化文生图生成 [论文] [代码]
    • ICLR
      • Textual Inversion: 一张图胜过千言万语:利用文本反转个性化文生图生成 [论文] [代码] [项目]
    • SIGGRAPH
      • Break-A-Scene: 从单张图像中提取多个概念 [论文] [代码]
      • 基于编码器的领域调优,实现文生图模型的快速个性化 [论文] [项目]
      • LayerDiffusion: 基于扩散模型的分层可控图像编辑 [论文]
    • arXiv
      • DreamTuner: 仅需一张图像即可实现主题驱动生成 [论文] [项目]
      • PhotoMaker: 通过堆叠身份嵌入定制逼真的真人照片 [论文] [代码]
      • IP-Adapter: 文本兼容的图像提示适配器,用于文生图扩散模型 [论文] [代码] [项目]
      • FastComposer: 无需调优,通过局部注意力实现多主体图像生成 [论文] [代码]

<🎯返回顶部>

文本引导的图像编辑

<🎯返回顶部>

文本图像生成

  • 2024年
    • arXiv
    • CVPR
      • SceneTextGen: 布局无关的场景文本图像合成,结合字符级扩散模型与上下文一致性 [论文]

<🎯返回顶部>

数据集

<🎯返回顶部>

工具包

名称 官网 描述
Stable Diffusion WebUI link 基于Gradio构建,本地部署以运行Stable Diffusion检查点、LoRA权重、ControlNet权重等。
Stable Diffusion WebUI-forge link 基于Gradio构建,本地部署以运行Stable Diffusion检查点、LoRA权重、ControlNet权重等。
Fooocus link 基于Gradio构建,离线、开源且免费。
无需手动调整,用户只需关注提示词和图像即可。
ComfyUI link 本地部署,支持使用Stable Diffusion进行自定义工作流。
Civitai link 社区驱动的Stable Diffusion和LoRA检查点网站

<🎯返回顶部>

问答

  • 问:本文献列表的会议顺序是什么?
    • 本文献列表按照以下顺序排列:
      • CVPR
      • ICCV
      • ECCV
      • WACV
      • NeurIPS
      • ICLR
      • ICML
      • ACM MM
      • SIGGRAPH
      • AAAI
      • arXiv
      • 其他
  • 问:‘其他’指的是什么?
    • 一些研究(例如‘Stable Casacade’)并未在arXiv上发表技术报告,而是倾向于在其官方网站上撰写博客文章。‘其他’类别即指这类研究。

<🎯返回顶部>

参考文献

reference.bib文件汇总了最新的图像修复论文、常用数据集和工具包的BibTeX参考文献。基于原始参考文献,我进行了如下修改,以使它们在LaTeX文档中呈现得更加美观:

  • 参考文献通常采用“作者-etal-年份-昵称”的形式。特别是数据集和工具包的参考文献直接使用“昵称”,如“imagenet”。
  • 在每条参考文献中,所有会议或期刊名称均被转换为缩写,例如“Computer Vision and Pattern Recognition -> CVPR”。
  • 移除了所有参考文献中的urldoipublisherorganizationeditorseries字段。
  • 对于缺少页码的参考文献,补充了页码信息。
  • 所有论文标题均采用首字母大写格式,并额外添加了{},以确保在某些特定模板中也能正确显示首字母大写。

如果您对参考文献格式有其他需求,可以通过在DBLPGoogle Scholar中搜索论文名称来参考原始文献。

[!NOTE] 请注意,主页和主题章节中的参考文献可能会在reference.bib中重复出现。个人建议使用“Ctrl+F”/“Command+F”来查找您所需的BibTeX参考文献。

<🎯返回顶部>

点赞历史

点赞历史图表

<🎯返回顶部>

微信群

<🎯返回顶部>

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|3天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|4天前
开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.1k|★★☆☆☆|昨天
开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|3天前
语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。

88.9k|★★★☆☆|3天前
开发框架图像Agent

opencv

OpenCV 是一个功能强大的开源计算机视觉库,被誉为机器视觉领域的“瑞士军刀”。它主要解决让计算机“看懂”图像和视频的核心难题,提供了从基础的图像读取、色彩转换、边缘检测,到复杂的人脸识别、物体追踪、3D 重建及深度学习模型部署等全方位算法支持。无论是处理静态图片还是分析实时视频流,OpenCV 都能高效完成特征提取与模式识别任务。 这款工具特别适合计算机视觉开发者、人工智能研究人员以及机器人工程师使用。对于希望将视觉感知能力集成到应用中的软件工程师,或是需要快速验证算法原型的学术研究者,OpenCV 都是不可或缺的基础设施。虽然普通用户通常不会直接操作代码,但日常生活中使用的扫码支付、美颜相机和自动驾驶系统,背后往往都有它的身影。 OpenCV 的独特亮点在于其卓越的性能与广泛的兼容性。它采用 C++ 编写以确保高速运算,同时提供 Python、Java 等多种语言接口,极大降低了开发门槛。库中内置了数千种优化算法,并支持跨平台运行,能够无缝对接各类硬件加速器。作为社区驱动的项目,OpenCV 拥有活跃的生态系统和丰富的学习资源,持续推动着视觉技术的前沿发展。

87k|★☆☆☆☆|昨天
开发框架图像