best_AI_papers_2021
best_AI_papers_2021 是一份精心整理的 2021 年度人工智能突破性论文清单,旨在帮助从业者高效追踪领域前沿。面对 AI 研究日新月异、文献海量的挑战,它解决了研究人员难以快速筛选高价值成果及理解复杂技术的痛点。
该资源按发布日期排序,收录了当年最具影响力的研究,不仅提供论文原文链接,还独特地配备了清晰的视频解读、深度分析文章以及可运行的代码实现(主要基于 PyTorch)。这种“视频 + 文章 + 代码”的多维呈现方式,极大地降低了理解门槛,让用户能迅速掌握从 DALL·E 等生成模型到伦理治理等关键议题的核心内容。
best_AI_papers_2021 特别适合 AI 研究人员、算法工程师、数据科学家以及希望深入了解技术趋势的开发者使用。无论是为了寻找灵感、复现经典实验,还是系统性地回顾年度进展,这份清单都能提供极大的便利。此外,项目维护者还通过通讯和社交媒体持续更新动态,并提供了与 Weights & Biases 集成的实用指南,帮助用户更好地管理机器学习实验,提升科研效率。
使用场景
某计算机视觉团队的算法工程师正急需为新一代图像生成项目寻找 2021 年的前沿技术基线,以突破现有模型的性能瓶颈。
没有 best_AI_papers_2021 时
- 信息检索低效:需要在 arXiv、Twitter 和各类博客中手动筛选海量论文,难以快速锁定真正具有突破性的 2021 年度成果。
- 理解门槛过高:面对复杂的数学公式和专业术语,缺乏直观的视频讲解,导致非该细分领域的工程师难以快速掌握核心思想。
- 复现成本巨大:找到论文后往往找不到官方代码或高质量的非官方实现,需要从零开始编写代码,浪费数周时间验证可行性。
- 忽视伦理风险:容易忽略论文中关于偏见、治理和透明度等关键伦理讨论,给后续产品落地埋下合规隐患。
使用 best_AI_papers_2021 后
- 精准获取前沿:直接按发布日期查阅经过策展的 2021 年突破性列表,几分钟内即可定位到如 DALL·E 等关键论文及其深度解读文章。
- 视频辅助理解:利用清单中配套的清晰视频解释,团队能迅速理解模型架构与创新点,将技术调研周期从数天缩短至几小时。
- 代码即刻复用:每个条目均附带可用代码链接,工程师可直接基于现有实现进行微调实验,大幅降低复现难度并加速原型开发。
- 全面评估技术:通过清单中对伦理、偏见等维度的标注,团队在选型阶段就能规避潜在风险,确保技术方案既先进又负责任。
best_AI_papers_2021 将原本分散且高门槛的科研信息转化为结构化的工程资产,帮助开发者在纷繁的技术浪潮中高效决策并快速落地。
运行环境要求
未说明
未说明

快速开始
2021:充满惊人AI论文的一年——回顾 📌
按发布日期整理的最新AI突破精选列表,附清晰视频讲解、深度文章链接及代码。
尽管全球仍在复苏中,科研工作却并未放缓其迅猛步伐,尤其是在人工智能领域。今年更是凸显了许多重要议题,如伦理考量、关键偏见、治理机制、透明度等。人工智能与我们对人脑的理解及其与AI的关联正不断演进,展现出在不久的将来提升生活质量的广阔前景。然而,我们也必须谨慎选择所应用的技术。
“科学不能告诉我们应该做什么,它只能告诉我们能够做什么。”
——让-保罗·萨特,《存在与虚无》
以下列出了今年最引人注目的研究论文,以防你错过了任何一篇。简而言之,这是一份按发表日期排序的最新AI与数据科学突破精选清单,每篇都配有清晰的视频解读、深入阅读链接以及相关代码(如适用)。祝你阅读愉快!
本仓库末尾列出了每篇论文的完整引用信息。 请给本仓库加星标,以便及时获取更新! ⭐️
维护者:louisfb01
订阅我的新闻通讯——每周为您解读最新的AI动态。
如果您发现有我遗漏但值得关注的论文,欢迎随时联系我,我会将其加入本仓库。
如果您分享此列表,请在Twitter上@我 @Whats_AI 或在LinkedIn上@我 @Louis (What's AI) Bouchard!
观看15分钟的2021年全回顾
如果您对计算机视觉研究感兴趣,这里还有另一份精彩的资源:
2021年顶级CV论文精选列表,附清晰视频讲解、深度文章链接及代码。
👀 如果您想支持我的工作,并希望免费使用Weights & Biases来追踪您的机器学习实验、提高实验可重复性或与团队协作,您可以按照这份指南试用!由于这里的大部分代码基于PyTorch,我们认为分享一份关于如何在PyTorch中使用W&B的快速入门指南会非常有意义。
👉请跟随这份快速指南,将相同的W&B代码片段融入您的项目或下方任一仓库中,您的所有实验都将自动记录到您的W&B账户!设置过程不超过5分钟,它将彻底改变您的工作方式,就像对我一样!如果您有兴趣,还可以参考这份进阶指南,了解如何使用超参数搜索功能 :)
🙌 感谢Weights & Biases对本仓库及我工作的赞助,也感谢每一位通过此链接尝试W&B的朋友们!
完整列表
- DALL·E:来自OpenAI的零样本文本到图像生成 [1]
- VOGUE:基于StyleGAN插值优化的试穿技术 [2]
- 驯服Transformer用于高分辨率图像合成 [3]
- AI中的快思考与慢思考 [4]
- 航空影像中漂浮海洋大型垃圾的自动检测与量化 [5]
- ShaRF:单视角条件下的形状辐射场 [6]
- 生成对抗Transformer [7]
- 我们请人工智能创建了约会资料。你会右滑吗? [8]
- Swin Transformer:基于移位窗口的层次化视觉Transformer [9]
- 图像GANs邂逅可微渲染:逆向图形与可解释的3D神经渲染 [10]
- 深度网络:它们究竟为视觉带来了什么? [11]
- 无限自然:从单张图像持续生成自然场景视图 [12]
- 便携式、自-contained的神经假肢手,采用基于深度学习的手指控制 [13]
- 全面重打光:学习为肖像重新打光以替换背景 [14]
- LASR:从单目视频中学习关节式形状重建 [15]
- 增强照片真实感 [16]
- DefakeHop:轻量级高性能深度伪造检测器 [17]
- 实时高分辨率写实图像翻译:拉普拉斯金字塔翻译网络 [18]
- Barbershop:基于GAN和分割掩码的图像合成 [19]
- TextStyleBrush:从单一示例迁移文本美学 [20]
- 用欧拉运动场为图片添加动画 [21]
- CVPR 2021最佳论文奖:GIRAFFE——可控图像生成 [22]
- GitHub Copilot & Codex:评估基于代码训练的大语言模型 [23]
- Apple:通过设备端私密机器学习识别照片中的人 [24]
- 利用随机微分方程进行图像合成与编辑 [25]
- 亲手绘制你的GAN [26]
- 特斯拉自动驾驶详解 [27]
- Styleclip:基于文本操控StyleGAN图像 [28]
- TimeLens:基于事件的视频帧插值 [29]
- 从单个视频实现多样化生成 [30]
- 利用雷达的深度生成模型进行熟练的降水临近预报 [31]
- 鸡尾酒叉子问题:针对现实世界音轨的三声道音频分离 [32]
- ADOP:近似可微的一像素点渲染 [33]
- (Style)CLIPDraw:在文本到绘画合成中耦合内容与风格 [34]
- SwinIR:使用Swin Transformer进行图像修复 [35]
- EditGAN:高精度语义图像编辑 [36]
- CityNeRF:城市尺度的NeRF构建 [37]
- ClipCap:用于图像字幕的CLIP前缀 [38]
- 论文参考文献
DALL·E:来自 OpenAI 的零样本文本到图像生成 [1]
OpenAI 成功训练了一种能够根据文本描述生成图像的网络。它与 GPT-3 和 Image GPT 非常相似,并能产生令人惊叹的效果。
- 短视频讲解:

- 简短阅读:OpenAI 的 DALL·E:文本到图像生成详解
- 论文:零样本文本到图像生成
- 代码:用于 DALL·E 的离散 VAE 的代码及其他信息
VOGUE:基于 StyleGAN 插值优化的试穿功能 [2]
谷歌使用修改后的 StyleGAN2 架构,创建了一个在线试衣间,用户只需上传一张自己的照片,即可自动试穿任意裤子或衬衫。
- 短视频讲解:

- 简短阅读:人工智能驱动的在线试衣间:VOGUE
- 论文:VOGUE:基于 StyleGAN 插值优化的试穿功能
用于高分辨率图像合成的 Transformer 改良 [3]
简而言之:他们将 GAN 和卷积方法的高效性与 Transformer 的强大表达能力相结合,从而提出了一种高效且语义引导的高质量图像合成方法。
- 短视频讲解:

- 简短阅读:结合 Transformer 的表达能力和 CNN 的效率进行高分辨率图像合成
- 论文:用于高分辨率图像合成的 Transformer 改良
- 代码:Transformer 改良
人工智能中的快思考与慢思考 [4]
以人类认知能力为灵感,迈向更通用、更可信的人工智能,以及对人工智能研究社区的十个问题。
- 短视频讲解:

- 简短阅读:人工智能的第三次浪潮 | 快思考与慢思考
- 论文:人工智能中的快思考与慢思考
航拍图像中漂浮海洋大型垃圾的自动检测与量化 [5]
巴塞罗那大学的 Odei Garcia-Garin 等人开发了一种基于深度学习的算法,能够从航拍图像中检测并量化漂浮垃圾。他们还制作了一个面向Web的应用程序,允许用户识别这些被称为“漂浮海洋大型垃圾”(FMML)的垃圾。
ShaRF:单视角下的形状条件辐射场 [6]
想象一下,只需拍摄一件物体的照片,就能将其转换为3D模型,然后插入到你正在制作的电影或游戏中,或者用于插画的3D场景中,该有多酷!
- 短视频讲解:

- 简短阅读:ShaRF:拍摄现实物体的照片,即可创建其3D模型
- 论文:单视角下的形状条件辐射场
- 点击此处获取代码
生成对抗式 Transformer [7]
他们基本上是在强大的 StyleGAN2 架构中利用 Transformer 的注意力机制,使其功能更加强大!
- 短视频讲解:

- 简短阅读:GANsformer:使用生成对抗式 Transformer 进行场景生成
- 论文:生成对抗式 Transformer
- 点击此处获取代码
订阅我的每周通讯,及时了解2022年人工智能领域的最新动态!
我们请人工智能创建了约会资料。你会右滑吗? [8]
你会对一个人工智能生成的资料右滑吗?你能分辨出真人和机器的区别吗?这项研究通过在约会应用上使用人工智能虚构的人物来揭示答案。
- 短视频讲解:

- 简短阅读:你会对人工智能生成的资料右滑吗?
- 论文:我们请人工智能创建了约会资料。你会右滑吗?
- 点击此处获取代码
Swin Transformer:基于移位窗口的层次化视觉 Transformer [9]
Transformer 是否会取代 CNN 在计算机视觉中的地位?只需不到5分钟,你就能了解 Transformer 架构如何通过一篇名为 Swin Transformer 的新论文应用于计算机视觉。
图像生成对抗网络与可微分渲染的结合:用于逆向图形学和可解释的3D神经渲染 [10]
这款极具前景的模型名为GANverse3D,仅需一张图像即可生成可定制且可动画化的3D模型!
深度神经网络:它们为计算机视觉做了什么? [11]
“我将公开分享关于视觉应用中深度神经网络的一切——它们的成功之处,以及我们仍需解决的局限性。”
- 短视频讲解:

- 简短阅读:计算机视觉领域的人工智能现状如何?
- 论文:深度神经网络:它们为计算机视觉做了什么?
无限自然:基于单张图像的自然场景持续视图生成 [12]
视图合成的下一步:持续视图生成,其目标是让人仿佛飞入图像之中,尽情探索其中的风景!
- 短视频讲解:

- 简短阅读:无限自然:飞入图像,探索风景
- 论文:无限自然:基于单张图像的自然场景持续视图生成
- 点击此处获取代码
- Colab演示
基于深度学习手指控制的便携式、自成体系的神经假肢手 [13]
借助这一由人工智能驱动的神经接口,截肢者能够以近乎真实的灵巧性和直观性来控制神经假肢手。
- 短视频讲解:

- 简短阅读:一位拥有AI赋能假肢手的截肢者!🦾
- 论文:基于深度学习手指控制的便携式、自成体系的神经假肢手
全局重光照:学习对人像进行重光照以实现背景替换 [14]
根据你添加的新背景的光线条件,对任意人像进行恰当的重光照。你是否曾希望更换照片的背景,同时让效果看起来非常逼真?如果你试过这样做,就会明白这并不简单。你不能只是在家中拍一张自己的照片,然后把背景换成海滩——那样只会显得很假,不真实。任何人一眼就能看出这是PS过的。对于电影和专业视频来说,需要完美的灯光和专业的美术师才能还原高质量的画面,而这成本极高。你自己拍摄的照片根本做不到这一点。难道真的做不到吗?
- 短视频讲解:

- 简短阅读:不同背景下的逼真光照
- 论文:全局重光照:学习对人像进行重光照以实现背景替换
LASR:从单目视频中学习关节式形状重建 [15]
仅需一段短视频作为输入,即可生成正在运动的人或动物的3D模型。这是一种全新的方法,只需一段短视频就能生成运动中的人或动物的3D模型。它不仅能理解这是一个具有复杂形状的物体,并且可以运动,还能确保这些部分始终连接在一起,因为它们仍然是一个整体,而非多个独立的物体……
- 短视频讲解:

- 简短阅读:从视频中进行关节式3D重建
- 论文:LASR:从单目视频中学习关节式形状重建
- 点击此处获取代码
增强照片级写实效果 [16]
该AI可实时应用于视频游戏,将每一帧画面处理得更加自然逼真。英特尔实验室的研究人员刚刚发表了一篇题为“增强照片级写实效果”的论文。如果你认为这不过是“又一个GAN”,即以游戏画面作为输入,再按照自然世界的风格进行修改,那我要改变你的想法。他们为此模型投入了两年时间,使其极为稳健。它可以实时应用于视频游戏,将每一帧画面处理得更加自然逼真。想象一下,你可以大大减少在游戏画面制作上的精力投入,使游戏内容更加稳定和完善,然后再用这个模型来提升画面风格……
- 短视频讲解:

- 简短阅读:人工智能是视频游戏设计的未来吗?增强照片级写实效果
- 论文:增强照片级写实效果
- 点击此处获取代码
DefakeHop:轻量级高性能深度伪造检测器 [17]
2021年如何识破深度伪造?美国陆军突破性人工智能技术助力发现深度伪造。
尽管它们似乎一直存在,但首个逼真的深度伪造直到2017年才出现。从最初自动生成的逼真假图像,发展到如今视频中与真人无异、连声音都高度仿真的深度伪造内容。
如今,我们已经很难分辨一段视频或一张图片是真实的还是深度伪造的。那么,我们该如何辨别真伪呢?如果人工智能能够完全生成音频和视频文件,它们又如何作为法庭证据使用呢?这篇新论文或许能为我们解答这些问题。而答案可能再次指向人工智能的应用。“眼见为实”这句老话,也许很快就会变成“只有AI告诉我它是真的,我才相信……”
- 短视频讲解:

- 简短阅读:如何识破深度伪造?美国陆军突破性技术(2021)
- 论文:DefakeHop:轻量级高性能深度伪造检测器
高分辨率照片级实时图像风格迁移:拉普拉斯金字塔风格迁移网络 [18]
利用这一基于机器学习的新方法,你可以实时将任意风格应用到4K图像上!
- 短视频讲解:

- 简短阅读:高分辨率照片级实时图像风格迁移
- 论文:高分辨率照片级实时图像风格迁移:拉普拉斯金字塔风格迁移网络
- 点击此处获取代码
Barbershop:基于GAN与分割掩码的图像合成 [19]
本文并非介绍一项全新技术,而是探讨GAN的一种令人兴奋的新应用。正如标题所示,这绝非噱头——借助这款AI,你可以在真正改变发型之前,先试一试不同发型的效果……
- 短视频讲解:

- 简短阅读:Barbershop:通过图片尝试不同发型和发色(GAN)
- 论文:Barbershop:基于GAN与分割掩码的图像合成
- 点击此处获取代码
TextStyleBrush:从单个示例迁移文本美学 [20]
这款全新的Facebook AI模型能够按照相同的风格,直接在图像中翻译或编辑文本,且支持你的母语!
想象一下,你在国外度假,却不会说当地语言。你想去一家当地餐厅用餐,但菜单全是陌生的文字。这种情景并不难想象——我们大多数人都曾遇到过类似的情况:看到菜单或路标上的文字却无法理解其含义。过去,在2020年,你可能会拿出手机用谷歌翻译逐字逐句地翻译。而到了2021年,你甚至无需再打开谷歌翻译,也不必费力地逐字输入来翻译了。相反,只需使用Facebook AI推出的这款新模型,就能将图像中的所有文字一键翻译成你的母语……
- 短视频讲解:

- 简短阅读:模仿风格翻译或编辑图片中的文字:TextStyleBrush
- 论文:TextStyleBrush:从单个示例迁移文本美学
- 点击此处获取代码
如果你也想阅读更多研究论文,我推荐你阅读我的文章如何阅读更多研究论文,其中分享了我寻找和阅读更多研究论文的最佳技巧。
利用欧拉运动场为图片添加动画 [21]
该模型可以分析图片中哪些区域的像素应该运动,并以逼真的方式将其循环动画化,同时保持图片其余部分完全静止,从而生成如图所示的惊艳视频效果……
- 短视频讲解:

- 简短阅读:从图片创建逼真循环动画视频
- 论文:利用欧拉运动场为图片添加动画
- 点击此处获取代码
CVPR 2021最佳论文奖:GIRAFFE——可控图像生成 [22]
通过改进的GAN架构,他们能够在不影响背景和其他物体的情况下移动图像中的对象!
- 短视频讲解:

- 简短阅读:CVPR 2021最佳论文奖:GIRAFFE——可控图像生成
- 论文:GIRAFFE:将场景表示为组合式生成神经特征场
- 点击此处获取代码
GitHub Copilot & Codex:评估基于代码训练的大规模语言模型 [23]
了解OpenAI这款新模型如何根据文字生成代码!
- 短视频讲解:

- 简短阅读:OpenAI全新代码生成器:GitHub Copilot(及Codex)
- 论文:评估基于代码训练的大规模语言模型
- 点击此处获取代码
苹果:通过私密的设备端机器学习识别照片中的人脸 [24]
苹果利用在您的设备上私密运行的多种基于机器学习的算法,让您能够在 iOS 15 上准确地整理和组织您的照片与视频。
- 短视频讲解:

- 简短文章:苹果照片如何利用机器学习在私密照片中识别人物
- 论文:通过私密的设备端机器学习识别照片中的人脸
基于随机微分方程的图像合成与编辑 [25]
告别复杂的 GAN 和 Transformer 架构来进行图像生成吧! 斯坦福大学和卡内基梅隆大学的 Chenling Meng 等人提出的这一新方法,能够根据用户的任意输入生成新图像。即便是像我这样毫无艺术功底的人,现在也能仅凭草图就生成精美的图片或对其进行修改……
- 短视频讲解:

- 简短文章:基于草图的图像合成与编辑:SDEdit。无需再进行繁琐的训练!
- 论文:基于随机微分方程的图像合成与编辑
- 点击此处获取代码
- Colab 演示
根据草图生成你的 GAN [26]
通过根据草图生成图像,让每个人都能更轻松地训练 GAN!事实上,借助这一新方法,你可以仅凭最简单的知识——手绘草图——来控制 GAN 的输出。
- 短视频讲解:

- 简短文章:让 GAN 训练对所有人更简单:根据草图生成图像
- 论文:根据草图生成你的 GAN
- 点击此处获取代码
特斯拉自动驾驶系统详解 [27]
如果您好奇特斯拉汽车是如何不仅“看”到周围环境,还能与其他车辆一起安全行驶的,那么这段视频正是您一直在等待的。几天前,特斯拉举办了首届 AI 日活动,特斯拉 AI 部门负责人 Andrej Karpathy 等人详细介绍了特斯拉自动驾驶系统的运作方式,从八路摄像头采集图像到最终的道路导航过程。
- 短视频讲解:

- 简短文章:特斯拉自动驾驶系统详解
StyleCLIP:文本驱动的 StyleGAN 图像操控 [28]
过去,AI 可以生成图像,但研究人员需要耗费大量精力并通过反复试验来控制结果的风格。而现在,借助这个新模型,你只需使用文本就能实现这一点!
- 短视频讲解:

- 简短文章:用文本操控真实图像——专为创意艺术家打造的 AI!StyleCLIP 解析
- 论文:StyleCLIP:文本驱动的 StyleGAN 图像操控
- 点击此处获取代码
- Colab 演示
TimeLens:基于事件的视频帧插值 [29]
TimeLens 能够理解视频帧之间物体的运动,从而重建出连我们肉眼都无法捕捉到的细微变化。实际上,它所达到的效果是目前智能手机及其他现有模型都无法企及的!
- 短视频讲解:

- 简短文章:如何用 AI 制作慢动作视频!
- 论文:TimeLens:基于事件的视频帧插值
- 点击此处获取代码
订阅我的每周通讯,及时了解 2022 年人工智能领域的最新动态!
单一视频即可实现多样化生成 [30]
您是否曾想过编辑一段视频?
比如移除或添加某个人物、更换背景、延长时长,或者调整分辨率以适配特定的宽高比而不压缩或拉伸画面。对于那些已经开展过广告投放的人来说,一定希望为 A/B 测试准备多版本视频,以便找出最佳效果。而 Niv Haim 等人的这项新研究,恰好可以帮助您仅凭一段视频就在高清画质下完成所有这些操作!
只需一段简单的视频,您便能在几秒甚至几分钟内完成上述任务,且生成的视频质量极高。基本上,您可以将其应用于任何视频处理或视频生成场景。它在各方面都优于 GAN,并且无需复杂的深度学习技术或庞大的数据集!更棒的是,该技术还可以扩展到高分辨率视频。
- 短视频讲解:

- 简短文章:生成视频变体——无需数据集或深度学习!
- 论文:单一视频即可实现多样化生成
- 点击此处获取代码
基于雷达深度生成模型的精准降水临近预报 [31]
DeepMind 刚刚发布了一款生成式模型,其准确性和实用性在超过 50 位气象专家的评估中,在 89% 的情况下都优于目前广泛使用的临近预报方法!该模型专注于预测未来 2 小时内的降水情况,并且表现得非常出色。它是一种生成式模型,这意味着它不是简单地预测天气,而是直接生成预报结果。具体来说,它会利用过去的雷达数据来生成未来的雷达图像。通过结合过去的时间和空间信息,模型能够预测出不久后的天气状况。
你可以把它想象成 Snapchat 的滤镜:输入一张人脸,然后生成经过修饰的新脸。要训练这样的生成模型,你需要大量的人脸数据以及你希望生成的特定类型的人脸数据。接着,使用经过长时间训练的类似模型,就能得到一个功能强大的生成模型。这类模型通常采用 GAN 架构进行训练,随后独立使用生成器部分。
- 简短视频讲解:

- 简短阅读:DeepMind 利用 AI 预测更精准的天气预报
- 论文:基于雷达深度生成模型的精准降水临近预报
- 点击此处查看代码
鸡尾酒叉问题:面向真实场景音轨的三路音频分离 [32]
你是否曾经看过视频或电视剧时,演员的声音完全听不清,或者背景音乐声太大?这种被称为“鸡尾酒会问题”的现象,或许将不再出现。三菱公司和印第安纳大学最近联合发布了一个新模型及配套数据集,专门解决如何从复杂音轨中准确分离出所需声音的问题。例如,如果一段音频中音乐声过大而人声被掩盖,只需调整相应音轨的音量,就能让语音更加清晰,同时降低音乐的干扰。
问题的关键在于从复杂的声学场景中分离出各个独立的声音源——比如电影片段或 YouTube 视频中,各种声音往往混杂在一起、难以平衡。有时由于背景音乐、爆炸声或其他环境音的影响,演员的台词根本听不清楚。而一旦成功分离出不同类别的音轨,就可以单独调节它们的音量,比如适当降低音乐音量,以便更好地听到演员的对话。这正是研究人员所实现的目标。
- 简短视频讲解:

- 简短阅读:利用 AI 分离语音、音乐和音效
- 论文:鸡尾酒叉问题:面向真实场景音轨的三路音频分离
- 点击此处查看代码
ADOP:近似可微分的一像素点渲染 [33]
想象一下,你想要根据拍摄的一组照片生成一个 3D 模型,或者制作一段流畅的视频。现在,这一切都成为可能了!具体内容不便多说,但效果真的令人惊叹,建议大家亲自体验一下!
- 简短视频讲解:

- 简短阅读:AI 可以仅凭几张图片合成流畅视频!
- 论文:ADOP:近似可微分的一像素点渲染
- 点击此处查看代码
(Style)CLIPDraw:文本到绘画合成中的内容与风格耦合 [34]
你有没有想过,能否把一张图片的风格(比如左侧这张酷炫的 TikTok 绘画风格)应用到自己选择的新图片上?我曾经有过这样的想法,而现在实现起来比以往任何时候都更容易。事实上,你甚至只需要输入一段文字,就能借助这项新技术及其公开的 Google Colab 笔记本完成操作(详见参考资料)。只需上传一张你想要模仿的风格图片,再输入你希望生成的文字内容,算法就会自动生成一幅符合要求的新图!看看上面的效果吧,这真是巨大的进步!尤其考虑到这些作品仅仅基于一行文字就完成了,成果令人印象深刻。
- 简短视频讲解:

- 简短阅读:具有艺术控制能力的文本到绘画合成 | CLIPDraw & StyleCLIPDraw
- 论文(CLIPDraw):CLIPDraw:通过语言-图像编码器探索文本到绘画合成
- 论文(StyleCLIPDraw):StyleCLIPDraw:文本到绘画合成中的内容与风格耦合
- CLIPDraw Colab 示例
- StyleCLIPDraw Colab 示例
SwinIR:基于 Swin Transformer 的图像修复 [35]
你是否曾经遇到过特别喜欢的一张图片,却只能找到像左图那样质量很差的小尺寸版本?如果能将这张图片放大两倍,让它看起来同样清晰该有多好?这已经很不错了,但如果能将其分辨率提升到原来的四倍甚至八倍呢?那才叫真正厉害,看看下面的效果就知道了。
在这里,我们把图像的分辨率提升了四倍,也就是说高度和宽度上的像素数量增加了四倍,从而呈现出更加细腻的画面效果,整体看起来也更加平滑。最棒的是,整个过程只需几秒钟即可自动完成,而且几乎适用于任何类型的图像。此外,他们还提供了一个演示页面,大家可以亲自试一试……
- 简短视频讲解:

- 简短阅读:SwinIR:基于 Swin Transformer 的图像修复
- 论文:SwinIR:基于 Swin Transformer 的图像修复
- 点击此处查看代码
- 演示链接
EditGAN:高精度语义图像编辑 [36]
只需通过快速草图即可控制图像中的任意特征,且仅对您指定的部分进行编辑,其余部分保持不变!这是由英伟达、麻省理工学院和多伦多大学联合推出的基于生成对抗网络的最先进草图驱动图像编辑模型。
- 简短视频讲解:

- 简短阅读:英伟达 EditGAN:从草图实现完全可控的图像编辑
- 论文:EditGAN:高精度语义图像编辑
- 点击此处查看代码(即将发布)
CityNeRF:城市尺度的 NeRF 构建 [37]
该模型名为 CityNeRF,源自我此前在频道中介绍过的 NeRF。NeRF 是最早利用辐射场和机器学习技术,从图像重建 3D 模型的模型之一。然而,NeRF 效率较低,且仅适用于单一尺度。而 CityNeRF 则同时结合卫星影像与地面视角图像,能够为任意视角生成不同尺度的 3D 模型。简而言之,它将 NeRF 技术扩展到了城市级别。那么,它是如何做到的呢?
- 简短视频讲解:

- 简短阅读:CityNeRF:城市尺度的 3D 建模!
- 论文:CityNeRF:城市尺度的 NeRF 构建
- 点击此处查看代码(即将发布)
ClipCap:用于图像描述的 CLIP 前缀 [38]
我们曾见过 AI 利用 GAN 从其他图像生成新图像;随后又出现了能根据文本生成质量参差不齐图像的模型。2021 年初,DALL-E 正式发布,凭借 CLIP 模型——一个以文本为指导将图像与文本关联起来的工具——在文本到图像生成任务上超越了所有先前尝试。与此非常相似的任务——图像描述——听起来似乎很简单,但实际上同样复杂。其核心在于让机器能够为一张图像生成自然流畅的描述文字。
简单地标注出图像中的物体并不难,但要理解一幅二维图像中究竟发生了什么,则是一项巨大的挑战。而这款新模型在这方面表现得极为出色……
- 简短视频讲解:

- 简短阅读:全新 SOTA 图像描述模型:ClipCap
- 论文:ClipCap:用于图像描述的 CLIP 前缀
- 点击此处查看代码
- 点击此处查看 Colab 示例
如果您想阅读更多论文并获得更广阔的视野,这里还有一个很棒的资源库,涵盖了 2020 年的相关工作: 2020:充满惊人 AI 论文的一年——综述,同时欢迎订阅我的每周通讯,及时了解 2022 年的最新 AI 研究成果!
- 如果您分享此列表,请在 Twitter 上标记我 @Whats_AI 或在 LinkedIn 上标记我 @Louis (What's AI) Bouchard!
论文参考文献
[1] A. Ramesh 等,零样本文本到图像生成,2021年。arXiv:2102.12092
[2] Lewis, Kathleen M 等,(2021),VOGUE:基于StyleGAN插值优化的试穿技术。
[3] 用于高分辨率图像合成的Transformer驯化,Esser 等,2020年。
[4] AI中的快思考与慢思考,Booch 等,(2020),https://arxiv.org/abs/2010.06002。
[5] Odei Garcia-Garin 等,航空影像中漂浮海洋大型垃圾的自动检测与量化:介绍一种结合R语言Web应用的新型深度学习方法,环境污染,https://doi.org/10.1016/j.envpol.2021.116490。
[6] Rematas, K., Martin-Brualla, R. 和 Ferrari, V.,“ShaRF:单视图形状条件辐射场”,(2021),https://arxiv.org/abs/2102.08860
[7] Drew A. Hudson 和 C. Lawrence Zitnick,生成对抗Transformer,(2021)
[8] Sandra Bryant 等,“我们让人工智能创建了约会资料。你会右滑吗?”,(2021),UNSW悉尼博客。
[9] 刘Z. 等,2021年,“Swin Transformer:使用移位窗口的层次化视觉Transformer”,arXiv预印本 https://arxiv.org/abs/2103.14030v1
[10] 张Y.、陈W.、凌H.、高J.、张Y.、Torralba A. 和 Fidler S.,2020年。图像GANs与可微渲染结合,用于逆向图形和可解释的3D神经渲染。arXiv预印本 arXiv:2010.09125。
[11] Yuille, A.L. 和 Liu, C.,2021年。深度网络:它们为视觉领域做了什么?国际计算机视觉杂志,129(3),页781–802,https://arxiv.org/abs/1805.04025。
[12] 刘A.、塔克R.、詹帕尼V.、马卡迪A.、斯纳维利N. 和金泽川A.,2020年。无限自然:从单张图像生成自然场景的永恒视图,https://arxiv.org/pdf/2012.09855.pdf
[13] Nguyen & Drealan 等(2021)基于深度学习手指控制的便携式、自成一体的神经假手:https://arxiv.org/abs/2103.13452
[14] Pandey 等,2021年,全面重光:学习为背景替换重新打光肖像,doi: 10.1145/3450626.3459872,https://augmentedperception.github.io/total_relighting/total_relighting_paper.pdf。
[15] 杨耿山 等,(2021),LASR:从单目视频中学习关节形状重建,CVPR,https://lasr-google.github.io/。
[16] Richter、Abu AlHaija、Koltun,(2021),“增强照片真实感”,https://intel-isl.github.io/PhotorealismEnhancement/。
[17] DeepFakeHop:陈洪硕等,(2021),“DefakeHop:轻量级高性能Deepfake检测器”。ArXiv abs/2103.06929。
[18] 梁杰、曾辉和张磊,(2021),“实时高分辨率照片级图像翻译:拉普拉斯金字塔翻译网络”,https://export.arxiv.org/pdf/2105.09188.pdf。
[19] 裴浩 等,(2021),理发店,https://arxiv.org/pdf/2106.01505.pdf。
[20] Praveen Krishnan、Rama Kovvuri、Guan Pang、Boris Vassilev 和 Tal Hassner,Facebook AI,(2021),“TextStyleBrush:从单个示例转移文本美学”。
[21] Holynski, Aleksander 等。“用欧拉运动场为图片动画化”。IEEE/CVF计算机视觉与模式识别会议论文集。2021年。
[22] Michael Niemeyer 和 Andreas Geiger,(2021),“GIRAFFE:将场景表示为组合式生成神经特征场”,发表于CVPR 2021。
[23] 陈M.、特沃雷克J.、俊H.、袁Q.、平托H.P.D.O.、卡普兰J.、爱德华兹H.、伯克曼Y.、约瑟夫N.、布罗克曼G. 和雷A.,2021年。评估基于代码训练的大规模语言模型。arXiv预印本 arXiv:2107.03374。
[24] 苹果公司,“通过设备端私有机器学习在照片中识别人物”,(2021),https://machinelearning.apple.com/research/recognizing-people-photos
[25] 孟C.、宋Y.、宋J.、吴J.、朱J.Y. 和 Ermon S.,2021年。Sdedit:利用随机微分方程进行图像合成与编辑。arXiv预印本 arXiv:2108.01073。
[26] 王S.Y.、鲍D. 和朱J.Y.,2021年。亲手绘制GAN。IEEE/CVF国际计算机视觉会议论文集(第14050–14060页)。
[27] “特斯拉AI日”,特斯拉,2021年8月19日,https://youtu.be/j0z4FweCy4M
[28] Patashnik, Or 等,(2021),“Styleclip:基于文本操控StyleGAN图像”。https://arxiv.org/abs/2103.17249
[29] 斯捷潘·图利亚科夫*、丹尼尔·格里格*、斯塔马蒂奥斯·乔治乌利斯、尤利乌斯·埃尔巴赫、马蒂亚斯·格里格、袁友李、达维德·斯卡拉穆扎,TimeLens:基于事件的视频帧插值,IEEE计算机视觉与模式识别会议(CVPR),纳什维尔,2021年,http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf
[30] 海姆N.、费因斯坦B.、格拉诺特N.、肖彻A.、巴贡S.、德凯尔T. 和伊拉尼M.(2021)。从单个视频实现多样化生成,https://arxiv.org/abs/2109.08591。
[31] 拉武里S.、伦克K.、威尔逊M.、康金D.、拉姆R.、米罗夫斯基P.、菲茨西蒙斯M.、阿萨尼亚杜M.、卡谢姆S.、马奇S. 和普鲁登R.,2021年。利用雷达深度生成模型进行熟练的降水临近预报,https://www.nature.com/articles/s41586-021-03854-z
[32] 彼得曼D.、维希恩G.、王Z. 和鲁克斯J.L.(2021)。鸡尾酒叉问题:针对现实世界音轨的三声道音频分离。https://arxiv.org/pdf/2110.09958.pdf。
[33] 鲁克特D.、弗兰克L. 和施塔明格M.,2021年。ADOP:近似可微的一像素点渲染,https://arxiv.org/pdf/2110.06635.pdf。
[34] a) CLIPDraw:通过语言-图像编码器探索文本到绘画的合成
b) StyleCLIPDraw:施尔登布兰德P.、刘Z. 和欧J.,2021年。StyleCLIPDraw:在文本到绘画合成中耦合内容与风格。
[35] 梁J.、曹J.、孙G.、张K.、范古尔L. 和季莫夫特R.,2021年。SwinIR:使用Swin Transformer进行图像修复。IEEE/CVF国际计算机视觉会议论文集(第1833–1844页)。
[36] 凌H.、克莱斯K.、李D.、金S.W.、托拉尔巴A. 和菲德勒S.,2021年5月。EditGAN:高精度语义图像编辑。第三十五届神经信息处理系统大会。
[37] 向立Y.、徐L.、潘X.、赵N.、饶A.、泰奥巴尔特C.、戴B. 和林D.,2021年。CityNeRF:城市尺度的NeRF构建。
[38] 莫卡迪R.、赫兹A. 和贝尔马诺A.H.,2021年。ClipCap:用于图像字幕的CLIP前缀。https://arxiv.org/abs/2111.09734
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
opencode
OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。



