awesome-text-to-image-studies
awesome-text-to-image-studies 是一个专注于“文生图”(Text-to-Image)生成技术的开源学术资源库。它系统性地整理了该领域海量的研究论文、数据集、工具包以及成熟的商业产品,旨在解决研究人员和开发者在面对快速迭代的 AI 绘图技术时,难以高效追踪最新进展、梳理技术脉络的痛点。
这份资源库不仅按年份和顶级会议(如 CVPR、ICLR、AAAI)对文献进行了分类,还独具特色地开辟了“主题专题”板块,深入探讨了扩散模型与大语言模型(LLM)、Transformer 架构、联邦学习等前沿技术的融合应用。此外,它还涵盖了从基础生成到个性化定制、文本引导编辑等多个细分方向,甚至提供了相关代码和模型权重的链接。
awesome-text-to-image-studies 非常适合 AI 领域的科研人员、算法工程师以及希望深入了解生成式人工智能底层逻辑的技术爱好者使用。对于想要把握行业风向、寻找研究灵感或复现经典算法的用户而言,这里提供了一个结构清晰、更新及时的一站式知识导航,帮助大家更轻松地探索文生图技术的无限可能。
使用场景
某高校计算机视觉实验室的研究生团队正致力于研发一种能精准控制人物姿态的文生图新算法,急需梳理最新的技术路线以确立创新点。
没有 awesome-text-to-image-studies 时
- 文献检索如大海捞针:研究人员需在 arXiv、Google Scholar 等多个平台反复搜索关键词,难以区分哪些是真正的文生图核心论文,哪些只是边缘应用,耗时极长。
- 技术演进脉络模糊:面对 2020 年至 2025 年爆发的海量研究,团队难以快速理清从基础扩散模型到结合 LLM、Mamba 等新技术的演变逻辑,容易遗漏关键转折点。
- 细分领域资源分散:想要查找“个性化生成”或“文本引导编辑”等特定方向的论文及对应代码、数据集时,往往发现资源散落在不同仓库,缺乏统一入口。
- 复现门槛高:找到论文后,常因缺少官方代码链接、预训练模型权重或专用测试基准(如 DAVIS-Edit),导致算法复现和对比实验迟迟无法开展。
使用 awesome-text-to-image-studies 后
- 一站式获取权威清单:团队直接查阅按年份(2020-2025)和会议(CVPR, ICCV 等)分类的论文列表,瞬间锁定近三年的核心研究成果,检索效率提升数倍。
- 清晰把握技术前沿:通过"Topics"板块,迅速掌握扩散模型与 Transformer、联邦学习等跨界融合的最新动态,快速定位到适合引入的创新技术组合。
- 垂直领域精准导航:利用“个性化生成”和“文本引导编辑”等细分目录,直接获取该方向下的所有相关论文、开源代码库及配套数据集,无需二次搜寻。
- 复现链路完整闭环:借助仓库提供的论文对应的代码地址、HuggingFace 模型权重及基准测试集,团队成员当天即可搭建环境并跑通基线模型,加速实验迭代。
awesome-text-to-image-studies 将原本需要数周的文献调研与资源收集工作压缩至数小时,让研发团队能将宝贵精力集中于核心算法的创新与突破。
运行环境要求
未说明
未说明

快速开始
文生图生成研究合集
本 GitHub 仓库汇总了与文本到图像(T2I)生成任务相关的论文和资源。
[!NOTE] 本文档是整个 GitHub 仓库的
主页。论文按照不同的研究方向、发表年份和会议进行总结。“topics”章节根据不同的特性,总结了与 T2I 生成高度相关的论文,例如 T2I 生成的前提条件、结合其他技术的扩散模型(如 Diffusion Transformer、LLMs、Mamba 等),以及用于其他任务的扩散模型。
如果您对本仓库有任何建议,请随时发起新议题或提交 Pull Request。
本 GitHub 仓库的最新动态如下。
🔥 [2025年12月11日] 我们的论文《StableV2V:视频到视频编辑中的形状一致性稳定化》已被 TCSVT 2025 接收!
🔥 [11月19日] 我们发布了最新论文《StableV2V:视频到视频编辑中的形状一致性稳定化》,并开源了相应的代码、模型权重以及测试基准DAVIS-Edit。欢迎通过链接查看!
点击查看更多信息。
- [4月26日] 更新了一个新主题:扩散模型与联邦学习的结合。 更多详情请参见“topics”章节!
- [3月28日] 官方的AAAI 2024论文列表已发布!相应地更新了官方 PDF 版本和 BibTeX 参考文献。
- [3月21日] “topics”章节已更新。该章节旨在提供按扩散模型其他特性分类的论文列表,例如基于 Diffusion Transformer 的方法、用于自然语言处理的扩散模型、与 LLM 集成的扩散模型等。这些论文的参考文献也被汇总在
reference.bib中。 - [3月7日] 所有可用的CVPR、ICLR 和 AAAI 2024 论文及参考文献均已更新。
- [3月1日] 总结了现成的文生图生成产品和工具包的网站。
目录
待办事项
- 会议发表论文
- 更新 NeurIPS 2025 论文
- 更新 ICCV 2025 论文
- 更新 CVPR 2025 论文
- 更新 ICLR 2025 论文
- 更新 NeurIPS 2024 论文
- 更新 ECCV 2024 论文
- 更新 CVPR 2024 论文
- 更新 ⚠️ 论文和参考文献
- 将 arXiv 参考文献更新为官方版本
- 更新 AAAI 2024 论文
- 更新 ⚠️ 论文和参考文献
- 将 arXiv 参考文献更新为官方版本
- 更新 ICLR 2024 论文
- 更新 NeurIPS 2023 论文
- 定期维护预印本 arXiv 论文及遗漏论文
产品
| 名称 | 年份 | 网站 | 特色 |
|---|---|---|---|
| Nano Image Art | 2025 | link | 创作惊艳的 AI 图像——由 Google 的 Nano Banana Pro 提供支持,实现下一代品质、智能编辑和智能化提示。 |
| Fast Image AI | 2025 | link | Fast Image AI 可以立即将您的照片转换为吉卜力、素描和皮克斯等惊艳风格。只需点击一下,即可轻松控制图像元素并创造出令人惊叹的效果。 |
| Gempix2 (Nano Banana 2) | 2025 | link | 免费的 AI 图像生成平台,支持文生图、AI 编辑和视频生成 |
| Stable Diffusion 3 | 2024 | link | 基于 Diffusion Transformer 的 Stable Diffusion |
| Stable Video | 2024 | link | 高质量高分辨率图像 |
| DALL-E 3 | 2023 | link | 可与 ChatGPT 协作 |
| Ideogram | 2023 | link | 文本图像 |
| Playground | 2023 | link | 运动风格图像 |
| HiDream.ai | 2023 | link | - |
| Dashtoon | 2023 | link | 文本转漫画生成 |
| WHEE | 2023 | link | WHEE 是一款在线 AI 生成工具,可用于 T2I 生成、I2I 生成、超分辨率、修复、扩展绘画、图像变体、虚拟试穿等。 |
| Vega AI | 2023 | link | Vega AI 是一款在线 AI 生成工具,可用于 T2I 生成、I2I 生成、超分辨率、T2V 生成、I2V 生成等。 |
| Wujie AI | 2022 | link | 中文名为“无界AI”,提供 AIGC 资源和在线服务 |
| Midjourney | 2022 | link | 功能强大的闭源生成工具 |
论文
综述论文
- 文本到图像生成
- 条件文本到图像生成
- 2024年
- arXiv
- 基于文本到图像扩散模型的可控生成:综述 [论文]
- arXiv
- 2024年
- 文本引导的图像编辑
文本到图像生成
- 2025年
- CVPR
- PreciseCam: 文本到图像生成中的精确相机控制 [论文] [项目] [代码]
- Type-R: 文本到图像生成中自动修复错别字 [论文] [代码]
- Compass Control: 文本到图像生成中的多对象方向控制 [论文]
- Generative Photography: 场景一致的相机控制用于逼真的文本到图像合成 [论文] [项目] [代码]
- One-Way Ticket: 不依赖时间的统一编码器用于蒸馏文本到图像扩散模型 [论文] [代码]
- 文本嵌入并非全部所需:利用文本自注意力图进行文本到图像语义对齐的注意力控制 [论文]
- 向理解和量化文本到图像生成中的不确定性迈进 [论文]
- 通过双空间多方面概念控制实现即插即用、可解释且负责任的文本到图像生成 [论文] [项目] [代码]
- 精确计数:生成准确数量物体的文本到图像 [论文] [项目] [代码]
- MCCD: 基于多智能体协作的组合式扩散用于复杂文本到图像生成 [论文]
- 重新思考去偏训练:释放稳定扩散的潜力 [论文]
- ShapeWords: 使用三维形状感知提示引导文本到图像合成 [论文] [项目]
- SnapGen: 通过高效架构和训练驯服移动端高分辨率文本到图像模型 [论文]
- 无需训练的文本到图像合成中通过重定位注意力图优化空间传输 [论文]
- Focus-N-Fix: 区域感知微调用于文本到图像生成 [论文]
- SILMM: 自我改进的大规模多模态模型用于组合式文本到图像生成 [论文]
- 无训练门控低秩适应用于文本到图像扩散模型的局部概念擦除 [论文]
- 自交叉扩散指导用于相似主题的文本到图像合成 [论文]
- 噪声扩散用于提升文本到图像合成中的语义忠实度 [论文] [代码]
- 学习为文本到图像生成采样有效且多样化的提示 [论文]
- STEREO: 一个两阶段框架,用于从文本到图像扩散模型中对抗性地擦除概念 [论文]
- 针对少数群体的文本到图像生成通过提示优化 [论文] [代码]
- 缩小文本到图像扩散模型的文本编码器 [论文] [代码]
- ⚠️ “遗忘”的幻象:文本到图像扩散模型中机器遗忘的不稳定性 [论文]
- ⚠️ 探索大型语言模型与扩散Transformer在文本到图像合成中的深度融合 [论文]
- ⚠️ 检测并引导:通过指南令牌优化自我调节扩散模型以实现安全的文本到图像生成 [论文]
- ⚠️ 多群体比例代表性在文本到图像模型中的应用 [论文]
- ⚠️ VODiff: 控制文本到图像生成中对象的可见性顺序 [论文]
- ICLR
- 改善文本到图像扩散模型的长文本对齐 [论文]
- 信息论视角下的文本到图像对齐 [论文]
- Meissonic: 重振掩码生成式Transformer以实现高效的高分辨率文本到图像合成 [论文]
- PaRa: 通过参数秩降低个性化文本到图像扩散 [论文]
- Fluid: 使用连续标记扩展自回归文本到图像生成模型 [论文]
- 并非所有提示都一样:基于提示修剪文本到图像扩散模型 [论文]
- 去噪自回归Transformer用于可扩展的文本到图像生成 [论文]
- 文本到图像生成模型中的渐进式组合性 [论文]
- 挖掘你自己的秘密:扩散分类器分数用于文本到图像扩散模型的持续个性化 [论文]
- 测量并改善文本到图像生成模型的参与度 [论文]
- 通过残差注意力门擦除文本到图像扩散模型中的概念组合 [论文]
- 使用可靠随机种子增强组合式文本到图像生成 [论文]
- 一提示一故事: 使用单一提示实现一致性文本到图像生成 [论文]
- 你只需采样一次:通过自合作扩散GAN驯服一步式文本到图像合成 [论文]
- 重新思考文本到图像生成时代下的艺术版权侵权问题 [论文]
- 从文本到图像扩散模型中擦除概念组合 [论文]
- 文本到图像生成模型中跨注意力头位置模式可以与人类视觉概念对齐 [论文]
- TIGeR: 利用大型多模态模型统一文本到图像生成与检索 [论文]
- DGQ: 分布感知的分组量化用于文本到图像扩散模型 [论文]
- 无训练推测雅可比解码加速自回归文本到图像生成 [论文]
- PT-T2I/V: 一种高效的代理标记化扩散Transformer用于文本到图像/视频任务 [论文]
- 重新审视文本到图像评估:关于指标、提示和人工评分 [论文]
- SANA: 利用线性扩散Transformer实现高效高分辨率文本到图像合成 [论文]
- 文本到图像校正流作为即插即用先验 [论文]
- 自动过滤人类反馈数据以对齐文本到图像扩散模型 [论文]
- SAFREE: 无训练且自适应的安全卫士,用于安全的文本到图像和视频生成 [论文]
- IterComp: 迭代式组合意识反馈学习,来自模型库用于文本到图像生成 [论文]
- ScImage: 多模态大型语言模型在科学文本到图像生成方面的表现如何? [论文]
- 引导得分身份蒸馏用于无数据的一步式文本到图像生成 [论文]
- 从因果视角评估文本到图像合成中的语义变异 [论文]
- CVPR
- 2024年
- CVPR
- DistriFusion: 高分辨率扩散模型的分布式并行推理 [论文] [代码]
- InstanceDiffusion: 实例级控制用于图像生成 [论文] [代码] [项目]
- ECLIPSE: 一种资源高效的文本到图像先验用于图像生成 [论文] [代码] [项目] [演示]
- Instruct-Imagen: 多模态指令驱动的图像生成 [论文]
- 学习连续3D词用于文本到图像生成 [论文] [代码]
- HanDiffuser: 具有逼真手部外观的文本到图像生成 [论文]
- 丰富的人类反馈用于文本到图像生成 [论文]
- MarkovGen: 结构化预测用于高效文本到图像生成 [论文]
- 文本到图像生成的定制助手 [论文]
- ADI: 学习解耦标识符用于动作定制的文本到图像生成 [论文] [项目]
- UFOGen: 通过扩散GAN实现大规模单向文本到图像生成 [论文]
- 自我发现可解释的扩散潜在方向用于负责任的文本到图像生成 [论文]
- Tailored Visions: 通过个性化提示重写提升文本到图像生成 [论文] [代码]
- CoDi: 条件扩散蒸馏用于更高保真度和更快的图像生成 [论文] [代码] [项目] [演示]
- 使用潜在扩散模型和隐式神经解码器进行任意规模的图像生成和上采样 [论文]
- 朝着在基于扩散的模型中有效使用以人为本先验以生成基于文本的人像迈进 [论文]
- ElasticDiffusion: 无训练的任意尺寸图像生成 [论文] [代码] [项目] [演示]
- CosmicMan: 一个人类专用的文本到图像基础模型 [论文] [代码] [项目]
- PanFusion: 驯服稳定扩散以生成360°全景图像 [论文] [代码] [项目]
- Intelligent Grimm: 基于潜在扩散模型的开放式视觉叙事 [论文] [代码] [项目]
- 关于基于扩散的文本到图像生成的可扩展性 [论文]
- MuLAn: 一个多层次标注数据集用于可控文本到图像生成 [论文] [项目] [数据集]
- 学习多维度的人类偏好用于文本到图像生成 [论文]
- 动态提示优化用于文本到图像生成 [论文]
- 通过强化学习训练扩散模型以实现多样化图像生成 [论文]
- 对抗性文本到连续图像生成 [论文] [项目] [视频]
- EmoGen: 利用文本到图像扩散模型生成情感图像内容 [论文] [代码]
- ECCV
- 搭建不同语言模型和生成式视觉模型之间的桥梁以实现文本到图像生成 [论文] [代码] [项目]
- 探索文本到图像扩散模型中的短语级对齐 [论文] [代码]
- 把握正确方向:提升文本到图像模型的空间一致性 [论文] [代码] [项目]
- 跨印度语系导航文本到图像生成中的偏见 [论文] [项目]
- 通过人类反馈反演保护文本到图像扩散模型 [论文]
- 现实与幻想的构建:借助LLM辅助提示解读进行场景生成 [论文] [代码] [项目] [数据集]
- 文本到图像扩散模型中可靠且高效的概念擦除 [论文] [代码]
- 探索文本到图像扩散模型中的短语级对齐 [论文] [代码]
- StyleTokenizer: 通过单个实例定义图像风格以控制扩散模型 [论文] [代码]
- PEA-Diffusion: 在非英语文本到图像生成中具有知识蒸馏功能的参数高效适配器 [论文] [代码]
- 现象空间中的偏差阻碍了文本到图像生成的泛化能力 [论文] [代码]
- Parrot: 用于文本到图像生成的帕累托最优多奖励强化学习框架 [论文]
- 搭建不同语言模型和生成式视觉模型之间的桥梁以实现文本到图像生成 [论文] [代码] [项目]
- MobileDiffusion: 移动设备上的即时文本到图像生成 [论文]
- PixArt-Σ: 从弱到强训练扩散Transformer以实现4K文本到图像生成 [论文] [代码] [项目]
- CogView3: 通过接力扩散实现更精细、更快速的文本到图像生成 [论文] [代码]
- ICLR
- SIGGRAPH
- AAAI
- arXiv
- 扩散模型的自博弈微调用于文本到图像生成 [论文]
- RPG: 掌握文本到图像扩散:利用多模态LLM进行重新描述、规划和生成 [论文] [代码]
- Playground v2.5: 三个见解以提升文本到图像生成的艺术品质 [论文] [代码]
- ResAdapter: 扩散模型的领域一致分辨率适配器 [论文] [代码] [项目]
- InstantID: 零样本身份保留生成,几秒钟内完成 [论文] [代码] [项目] [演示]
- PIXART-δ: 快速且可控的图像生成,采用潜伏一致性模型 [论文] [代码]
- ELLA: 为扩散模型配备LLM以增强语义对齐 [论文] [代码] [项目]
- Text2Street: 可控的文本到图像生成用于街景 [论文]
- LayerDiffuse: 使用潜伏透明度进行透明图像层扩散 [论文] [代码]
- SD3-Turbo: 快速高分辨率图像合成,采用潜伏对抗性扩散蒸馏 [论文]
- StreamMultiDiffusion: 实时交互式生成,带有基于区域的语义控制 [论文] [代码]
- SVGDreamer: 文本引导的SVG生成,使用扩散模型 [论文] [代码] [项目]
- PromptCharm: 通过多模态提示和精炼实现文本到图像生成 [论文]
- YOSO: 你只需采样一次:通过自合作扩散GAN驯服一步式文本到图像合成 [论文] [代码]
- SingDiffusion: 解决扩散模型中时间区间端点处的奇点 [论文] [代码]
- CoMat: 将文本到图像扩散模型与图像到文本的概念匹配对齐 [论文] [代码] [项目]
- StoryDiffusion: 用于长距离图像和视频生成的一致自注意力 [论文] [代码] [项目] [演示]
- 面部适配器用于预训练扩散模型,具备精细的ID和属性控制 [论文] [项目]
- LinFusion: 1 GPU,1分钟,16K张图像 [论文] [代码] [项目] [演示]
- OmniGen: 统一图像生成 [论文] [代码]
- CoMPaSS: 增强文本到图像扩散模型中的空间理解 [论文] [代码]
- 其他
- CVPR
- 2023年
- CVPR
- GigaGAN: 扩展GAN用于文本到图像合成 [论文] [复现代码] [项目] [视频]
- ERNIE-ViLG 2.0: 基于知识增强的去噪专家混合模型改进文本到图像扩散模型 [论文]
- 用于文本到图像生成的偏移扩散 [论文] [代码]
- GALIP: 用于文本到图像合成的生成对抗CLIP [论文] [代码]
- Specialist Diffusion: 即插即用、样本高效的微调文本到图像扩散模型以学习任何未见风格 [论文] [代码]
- 面向文本到图像生成的可验证与可重复的人类评估 [论文]
- RIATIG: 使用自然提示进行可靠且难以察觉的对抗性文本到图像生成 [论文] [代码]
- 文本到图像扩散的多概念定制 [论文] [项目] [代码]
- ICCV
- NeurIPS
- ICLR
- ICML
- ACM MM
- SIGGRAPH
- arXiv
- 其他
- DALL-E 3: 通过更好的标题改进图像生成 [论文]
- CVPR
- 2022年
- CVPR
- ECCV
- NeurIPS
- ACM MM
- arXiv
- 2021年
- 2020年
- ACM MM
- 基于美学布局的文本到图像合成 [论文]
- ACM MM
条件文本到图像生成
2025年
- CVPR
- ICCV
- UNO: 一种适用于单主体和多主体条件的通用定制方法 [论文] [项目] [代码]
- CoMPaSS: 增强文本到图像扩散模型中的空间理解能力 [论文] [项目] [代码]
- SP‑Ctrl: 重新思考用于姿态引导文本到图像生成的稀疏信号 [论文] [代码]
- CompCon: 发现文本到图像模型之间的差异性表征 [论文] [代码]
- C2OT: 条件的诅咒:分析并改进基于流的条件生成中的最优传输 [论文] [项目] [代码]
- RAG‑Diffusion: 通过硬绑定与软细化实现区域感知的文本到图像生成 [论文] [项目] [代码]
- CharaConsist: 细粒度的一致性角色生成 [论文] [项目] [代码]
- Shadow Director: 文本到图像扩散模型中人像生成的参数化阴影控制 [论文] [项目]
- ImageGen‑CoT: 利用思维链推理增强文本到图像的上下文学习能力 [论文] [项目]
2024年
- CVPR
- PLACE: 用于语义图像合成的自适应布局-语义融合 [论文]
- 一次性结构感知风格化图像合成 [论文]
- 基于注意力重聚焦的接地文本到图像合成 [论文] [代码] [项目] [演示]
- 用于姿态引导的人体图像合成的粗细结合潜在扩散模型 [论文] [代码]
- DetDiffusion: 协同生成与感知模型以增强数据生成与感知能力 [论文]
- CAN: 用于可控图像生成的条件感知神经网络 [论文]
- SceneDiffusion: 使用分层场景扩散任意移动物体 [论文]
- Zero-Painter: 无需训练的文本到图像合成布局控制 [论文] [代码]
- MIGC: 用于文本到图像合成的多实例生成控制器 [论文] [代码] [项目]
- FreeControl: 对任何文本到图像扩散模型在任意条件下实现无需训练的空间控制 [论文] [代码] [项目]
- ECCV
- NeurIPS
- ICLR
- WACV
- AAAI
- arXiv
- DEADiff: 具有解耦表示的高效风格化扩散模型 [论文]
- InstantStyle: 文本到图像生成中风格保留的免费午餐 [论文] [代码] [项目]
- ControlNet++: 通过高效的连贯性反馈改进条件控制 [论文] [项目]
- Hunyuan-DiT: 一款功能强大的多分辨率扩散Transformer,具备精细的中文理解能力 [论文] [代码] [项目]
- DialogGen: 多模态交互式对话系统,用于多轮次文本到图像生成 [论文] [代码] [项目]
- ControlNeXt: 强大而高效的图像和视频生成控制 [论文] [代码] [项目]
- UniPortrait: 一个统一框架,用于单人及多人图像的身份保留个性化 [论文] [代码] [项目] [演示]
- OmniControl: 针对扩散Transformer的极简且通用的控制 [论文] [代码] [演示]
- UnZipLoRA: 从单张图片中分离内容与风格 [论文] [项目]
- CtrLoRA: 一个可扩展且高效的可控图像生成框架 [论文] [代码]
- 基于硬绑定与软细化的区域感知文本到图像生成 [论文] [代码]
- CVPR
- 2023年
- 2022年
个性化文生图生成
- 2025年
- CVPR
- ICCV
- DrUM: 捕捉你的思绪:基于文本到图像扩散模型中条件级别的建模进行个性化生成 [论文] [代码]
- PersonaCraft: 利用遮挡感知的3D条件扩散模型实现个性化且可控的全身多人场景生成 [论文] [项目] [代码]
- Steering Guidance: 面向个性化文生图扩散模型的引导机制 [论文]
- FreeCus: FreeCus:扩散Transformer中的免费午餐式主题驱动定制 [论文] [代码]
- PromptDresser: 通过生成式文本提示和提示感知掩码提升虚拟试穿的质量与可控性 [论文] [代码]
- DynamicID: 具有灵活面部编辑能力的零样本多身份图像个性化 [论文] [代码]
- UniversalBooth: 模型无关的个性化文生图生成
- ARBooth: 微调视觉自回归模型以实现主题驱动生成 [论文] [项目] [代码]
- ⚠️ ConceptSplit: 通过逐token适应和注意力解耦实现扩散模型的多概念解耦个性化 [代码]
- ⚠️ ObjectMate: 用于对象插入和主题驱动生成的递归先验 [项目]
- NeurIPS
- 2024年
- CVPR
- 个性化文生图的交叉初始化 [论文]
- 当StyleGAN遇见Stable Diffusion:用于个性化图像生成的W+适配器 [论文] [代码] [项目]
- 通过共享注意力实现风格一致的图像生成 [论文] [代码] [项目]
- InstantBooth: 无需测试时微调的个性化文生图生成 [论文] [项目]
- 高保真的人像主题图像合成 [论文]
- RealCustom: 缩小真实文本词汇范围,实现实时开放域文生图定制 [论文] [项目]
- DisenDiff: 用于解耦文生图个性化的注意力校准 [论文] [代码]
- FreeCustom: 无需调优即可实现多概念组合的定制化图像生成 [论文] [代码] [项目]
- 用于概念驱动文生图的个性化残差 [论文]
- 利用主体无关的指导改进主题驱动图像合成 [论文]
- JeDi: 用于无需微调的个性化文生图生成的联合图像扩散模型 [论文]
- 使用影响力水印对抗个性化文生图生成 [论文]
- PIA: 通过文生图模型中的即插即用模块打造你的个性化图像动画师 [论文] [项目] [代码]
- SSR-Encoder: 为主题驱动生成编码选择性主体表征 [论文] [代码]
- ECCV
- NeurIPS
- AAAI
- 用于定制化图像生成的解耦文本嵌入 [论文]
- arXiv
- CVPR
- 2023年
- CVPR
- ICCV
- ICLR
- SIGGRAPH
- arXiv
文本引导的图像编辑
2025年
- CVPR
- ICCV
- In-Context Edit: 利用大规模扩散Transformer中的上下文生成实现指令式图像编辑 [论文] [项目] [代码]
- 双条件反演: 用于增强基于扩散的图像编辑 [论文]
- CAMILA: 具有语言对齐能力的上下文感知掩码技术用于图像编辑 [论文]
- EditInfinity: 基于二值量化生成模型的图像编辑 [论文]
- KRIS‑Bench: 图像编辑系统中基于知识推理的基准测试 [论文] [项目] [代码]
- LoongX: 神经网络驱动的图像编辑 [论文] [项目] [代码]
- CREA: CREA:一个用于创意图像编辑与生成的协作式多智能体框架 [论文] [项目]
- IEAP: 使用扩散模型将图像编辑视为程序 [论文] [项目] [代码]
- ICLR
2024年
- CVPR
- InfEdit: 基于自然语言的无反演图像编辑 [论文] [代码] [项目]
- 理解稳定扩散模型中的交叉注意力与自注意力在文本引导图像编辑中的作用 [论文]
- 面向文本驱动图像编辑的双重溯因反事实推理 [论文] [代码]
- 聚焦你的指令:通过注意力调制实现细粒度多指令图像编辑 [论文] [代码]
- 用于文本引导潜在扩散图像编辑的对比去噪分数 [论文]
- DragDiffusion: 利用扩散模型实现交互式基于点的图像编辑 [论文] [代码]
- DiffEditor: 提升基于扩散的图像编辑的准确性和灵活性 [论文]
- FreeDrag: 基于特征拖拽的可靠点式图像编辑 [论文] [代码]
- 通过可学习区域进行文本驱动图像编辑 [论文] [代码] [项目] [视频]
- LEDITS++: 使用文生图模型实现无限可能的图像编辑 [论文] [代码] [项目] [演示]
- SmartEdit: 探索大型语言模型支持下的复杂指令驱动图像编辑 [论文] [代码] [项目]
- Edit One for All: 交互式批量图像编辑 [论文] [代码] [项目]
- DiffMorpher: 挖掘扩散模型在图像变形中的潜力 [论文] [代码] [项目] [演示]
- TiNO-Edit: 用于鲁棒扩散式图像编辑的时间步长与噪声优化 [论文] [代码]
- 人在其位:为人体-物体交互图像编辑生成关联骨架引导图 [论文] [项目] [代码]
- 引用式图像编辑:通过引用表达进行对象级图像编辑 [论文]
- 用于自监督文本引导图像操作的提示增强 [论文]
- 细节决定成败:StyleFeatureEditor用于细节丰富的StyleGAN反演及高质量图像编辑 [论文] [代码]
- CVPR
ECCV
- RegionDrag: 基于扩散模型的快速区域图像编辑 [论文] [代码] [项目] [演示]
- TurboEdit: 即时文本驱动图像编辑 [论文] [项目]
- InstructGIE: 向通用化图像编辑迈进 [论文]
- StableDrag: 基于点的图像编辑中的稳定拖拽 [论文]
- Eta Inversion: 为基于扩散的现实图像编辑设计最优的Eta函数 [论文] [代码] [项目]
- SwapAnything: 实现个性化图像编辑中的任意对象替换 [论文] [代码] [项目]
- Guide-and-Rescale: 用于高效无调优现实图像编辑的自引导机制 [论文]
- FreeDiff: 基于扩散模型的图像编辑中的渐进式频率截断 [论文] [代码]
- 用于交互式图像编辑的懒惰扩散Transformer [论文] [项目]
- ByteEdit: 提升、合规并加速生成式图像编辑 [论文] [项目]
- ICLR
- AAAI
- arXiv
2023年
- CVPR
- ICCV
- ICLR
2022年
文本图像生成
- 2024年
数据集
- Microsoft COCO: 上下文中的常见物体 [论文] [数据集]
- Conceptual Captions: 清洗过的、超义词化的图像替代文本数据集,用于自动图像字幕生成 [论文] [数据集]
- LAION-5B: 一个开放的大规模数据集,用于训练下一代图文模型 [论文] [数据集]
- PartiPrompts: 面向丰富内容文本到图像生成的自回归模型扩展 [论文] [数据集] [项目]
工具包
| 名称 | 官网 | 描述 |
|---|---|---|
| Stable Diffusion WebUI | link | 基于Gradio构建,本地部署以运行Stable Diffusion检查点、LoRA权重、ControlNet权重等。 |
| Stable Diffusion WebUI-forge | link | 基于Gradio构建,本地部署以运行Stable Diffusion检查点、LoRA权重、ControlNet权重等。 |
| Fooocus | link | 基于Gradio构建,离线、开源且免费。 无需手动调整,用户只需关注提示词和图像即可。 |
| ComfyUI | link | 本地部署,支持使用Stable Diffusion进行自定义工作流。 |
| Civitai | link | 社区驱动的Stable Diffusion和LoRA检查点网站 |
问答
- 问:本文献列表的会议顺序是什么?
- 本文献列表按照以下顺序排列:
- CVPR
- ICCV
- ECCV
- WACV
- NeurIPS
- ICLR
- ICML
- ACM MM
- SIGGRAPH
- AAAI
- arXiv
- 其他
- 本文献列表按照以下顺序排列:
- 问:‘其他’指的是什么?
- 一些研究(例如‘Stable Casacade’)并未在arXiv上发表技术报告,而是倾向于在其官方网站上撰写博客文章。‘其他’类别即指这类研究。
参考文献
reference.bib文件汇总了最新的图像修复论文、常用数据集和工具包的BibTeX参考文献。基于原始参考文献,我进行了如下修改,以使它们在LaTeX文档中呈现得更加美观:
- 参考文献通常采用“作者-etal-年份-昵称”的形式。特别是数据集和工具包的参考文献直接使用“昵称”,如“imagenet”。
- 在每条参考文献中,所有会议或期刊名称均被转换为缩写,例如“Computer Vision and Pattern Recognition -> CVPR”。
- 移除了所有参考文献中的
url、doi、publisher、organization、editor和series字段。 - 对于缺少页码的参考文献,补充了页码信息。
- 所有论文标题均采用首字母大写格式,并额外添加了
{},以确保在某些特定模板中也能正确显示首字母大写。
如果您对参考文献格式有其他需求,可以通过在DBLP或Google Scholar中搜索论文名称来参考原始文献。
[!NOTE] 请注意,主页和主题章节中的参考文献可能会在
reference.bib中重复出现。个人建议使用“Ctrl+F”/“Command+F”来查找您所需的BibTeX参考文献。
点赞历史
微信群
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。
opencv
OpenCV 是一个功能强大的开源计算机视觉库,被誉为机器视觉领域的“瑞士军刀”。它主要解决让计算机“看懂”图像和视频的核心难题,提供了从基础的图像读取、色彩转换、边缘检测,到复杂的人脸识别、物体追踪、3D 重建及深度学习模型部署等全方位算法支持。无论是处理静态图片还是分析实时视频流,OpenCV 都能高效完成特征提取与模式识别任务。 这款工具特别适合计算机视觉开发者、人工智能研究人员以及机器人工程师使用。对于希望将视觉感知能力集成到应用中的软件工程师,或是需要快速验证算法原型的学术研究者,OpenCV 都是不可或缺的基础设施。虽然普通用户通常不会直接操作代码,但日常生活中使用的扫码支付、美颜相机和自动驾驶系统,背后往往都有它的身影。 OpenCV 的独特亮点在于其卓越的性能与广泛的兼容性。它采用 C++ 编写以确保高速运算,同时提供 Python、Java 等多种语言接口,极大降低了开发门槛。库中内置了数千种优化算法,并支持跨平台运行,能够无缝对接各类硬件加速器。作为社区驱动的项目,OpenCV 拥有活跃的生态系统和丰富的学习资源,持续推动着视觉技术的前沿发展。