best_AI_papers_2022
best_AI_papers_2022 是一份精心整理的 2022 年人工智能领域突破性论文清单。它按发布时间顺序,收录了当年最具影响力的研究成果,涵盖图像生成、语言模型、3D 神经渲染及多模态对齐等前沿方向。
面对 AI 技术飞速迭代、新论文层出不穷的现状,研究人员和开发者往往难以高效筛选出真正有价值的成果并快速理解其核心逻辑。best_AI_papers_2022 通过为每篇论文提供清晰的视频讲解、深度文章链接以及可运行的代码资源,极大地降低了学习门槛,帮助用户在掌握理论的同时也能动手实践。此外,清单还特别关注了伦理、偏见治理等关键议题,引导用户审慎思考技术的应用边界。
这份资源非常适合 AI 研究人员、工程师、学生以及对技术趋势感兴趣的设计师使用。无论是希望紧跟学术前沿的学者,还是寻找灵感与代码实现的开发人员,都能从中获益。其独特的“视频 + 文章 + 代码”三位一体呈现方式,让复杂的算法原理变得通俗易懂,是回顾 2022 年 AI 发展历程、构建系统化知识体系的理想指南。
使用场景
某初创公司的算法工程师团队正致力于开发一款面向电商的虚拟试衣功能,急需在两周内找到可落地的最新图像生成与编辑方案。
没有 best_AI_papers_2022 时
- 信息检索效率低下:团队成员需分别在 ArXiv、GitHub 和 YouTube 上碎片化搜索,耗费数天筛选 2022 年的关键论文,极易遗漏如 "Instant Neural Graphics Primitives" 等突破性成果。
- 复现门槛过高:找到论文后,往往缺乏清晰的视频原理解读或配套的开源代码链接,导致非核心算法的理解成本极高,难以评估工程可行性。
- 技术选型盲目:由于缺乏按发布时间梳理的结构化清单,团队难以判断哪些技术(如潜在扩散模型)已成熟到足以商用,哪些仍存在伦理或偏差风险。
- 知识更新滞后:仅关注传统顶会论文,忽略了像 "Dalle mini" 或 "No Language Left Behind" 这类在社区引发热议但未被即时收录进综述的快速迭代项目。
使用 best_AI_papers_2022 后
- 一站式精准获取:直接通过按日期排序的清单,快速定位到 "Stitch it in Time"(视频面部编辑)和 "High-resolution image synthesis" 等与试衣场景高度相关的顶尖研究。
- 多维深度解析:每项成果均附带直观的视频讲解、深度文章链接及可用代码库,工程师能在几小时内理解核心逻辑并启动本地测试。
- 决策依据充分:借助清单中对技术突破点的清晰标注,团队迅速锁定基于潜在扩散模型的高分辨率合成方案作为核心技术栈,大幅缩短调研周期。
- 紧跟前沿动态:通过维护者提供的通讯和社区链接,团队能持续追踪从论文到实战的最新转化案例,确保技术路线不偏离行业主流。
best_AI_papers_2022 将原本需要数周的分散式文献调研压缩为几天的高效技术验证,成为研发团队把握 AI 年度变革红利的加速器。
运行环境要求
未说明
未说明

快速开始
2022:充满惊人AI论文的一年——回顾🚀
按发表日期精选的最新AI突破列表,附清晰视频讲解、深度文章链接及代码。
尽管全球仍在复苏中,科研的步伐却丝毫未减,尤其是在人工智能领域。今年更是凸显了许多重要议题,如伦理考量、关键偏见、治理机制、透明度等。人工智能与我们对人类大脑的理解及其与AI的关联正在不断演进,展现出在不久的将来提升生活质量的广阔前景。然而,我们也必须谨慎选择所应用的技术。
“科学不能告诉我们应该做什么,它只能告诉我们能做什么。”
——让-保罗·萨特,《存在与虚无》
以下是按发表日期排列的最新AI与数据科学突破精选列表,每项都配有清晰的视频讲解、更深入的文章链接以及相关代码(如适用)。祝您阅读愉快!
本仓库末尾列出了每篇论文的完整参考文献。 请给本仓库标星以保持更新,并敬请期待明年的内容! ⭐️
维护者:louisfb01,同时活跃于YouTube和作为播客主,如果您想了解更多关于AI的内容,欢迎关注!
订阅我的通讯——每周为您解读最新的AI动态。
如果您发现有我遗漏但值得关注的论文,欢迎随时联系我,我会将其加入本仓库。
如果您分享此列表,请在Twitter上@我@Whats_AI或在LinkedIn上@我@Louis (What's AI) Bouchard!也欢迎您加入我们的Learn AI Together Discord社区一起交流!
👀 如果您希望支持我的工作,可以通过GitHub赞助本仓库,或在Patreon上支持我。
观看8分钟的2022年全回顾
完整列表
- 基于傅里叶卷积的分辨率鲁棒大型掩码修复 [1]
- 时空缝合:基于GAN的真实视频人脸编辑 [2]
- NeROIC:从在线图像集合中进行物体神经渲染 [3]
- SpeechPainter:文本条件下的语音修复 [4]
- 利用生成式人脸先验实现真实场景中的盲人面部修复 [5]
- 用于学习型多模态对齐的4D-Net [6]
- 具有多分辨率哈希编码的即时神经图形基元 [7]
- 基于CLIP潜在空间的层次化文本条件图像生成 [8]
- MyStyle:个性化生成先验 [9]
- OPT:开放的预训练Transformer语言模型 [10]
- BlobGAN:空间解耦的场景表征 [11]
- 通用智能体 [12]
- 具备深度语言理解能力的逼真文生图扩散模型 [13]
- Dalle mini [14]
- 不让任何一种语言掉队:以人为本的机器翻译规模化 [15]
- 双快门光学振动感知 [16]
- Make-a-scene:基于场景和人类先验的文生图生成 [17]
- BANMo:从大量日常视频中构建可动画化的3D神经模型 [18]
- 使用潜在扩散模型进行高分辨率图像合成 [19]
- 全景场景图生成 [20]
- 一张图片胜过千言万语:利用文本反转个性化文生图生成 [21]
- 扩展语言-图像预训练模型以实现通用视频识别 [22]
- MAKE-A-VIDEO:无需文本-视频数据的文生视频生成 [23]
- 通过大规模弱监督实现稳健的语音识别 [24]
- DreamFusion:利用2D扩散模型进行文生3D [25]
- Imagic:基于扩散模型的文本驱动真实图像编辑 [26]
- eDiffi:采用专家去噪器集成的文生图扩散模型 [27]
- InfiniteNature-Zero:从单张图像中学习自然场景的永久视图生成 [28]
- Galactica:面向科学领域的大型语言模型 [29]
- 基于音频-空间分解的实时神经辐射说话肖像合成 [30]
- ChatGPT:针对对话优化的语言模型 [31]
- 用于视觉特效的生产级人脸逆龄技术 [32]
- 论文参考文献
基于傅里叶卷积的分辨率鲁棒大型掩码修复 [1]
你一定遇到过这样的情况:和朋友拍了一张很棒的照片,结果背后突然冒出个“抢镜”的人,毁了你原本完美的Instagram帖子。现在再也不用担心了!无论是不小心出现在照片里的路人,还是随手丢弃的垃圾桶,这款AI都能自动帮你把它们移除,拯救你的照片。它就像随身携带的专业修图师,只需轻轻一点即可完成!
将图像的一部分移除并用背景内容填补的任务,长期以来一直被众多AI研究人员所研究。这项技术被称为图像修复,而它实际上非常具有挑战性...
- 简短视频讲解:

- 简介文章:这款AI能帮你移除照片中的多余元素!
- 论文:基于傅里叶卷积的分辨率鲁棒大型掩码修复
- 代码
- Colab演示
- 使用LaMa的产品
及时修补:基于GAN的真实视频人脸编辑 [2]
你一定看过像最近的《惊奇队长》或《双子杀手》这样的电影,其中塞缪尔·杰克逊和威尔·史密斯看起来年轻了许多。要做到这一点,专业人士需要花费成百上千小时,手动编辑他们出场的每一帧画面。
但其实,你只需使用一个简单的AI工具,就能在几分钟内完成同样的效果。事实上,许多技术如今都可以自动帮你添加笑容、让你看起来更年轻或更年长,这一切都依靠基于AI的算法实现。这被称为视频中的人脸AI操控,而以下是2022年的最新进展!
- 短视频讲解:

- 简短文章:真实视频的AI人脸编辑!“及时修补”详解
- 论文:及时修补:基于GAN的真实视频人脸编辑
- 代码
NeROIC:基于在线图片集的对象神经渲染 [3]
神经渲染。所谓神经渲染,就是能够仅凭目标物体、人物或场景的照片,在三维空间中生成一张逼真的模型,就像这样。比如,你手头有一些这座雕塑的照片,然后让机器去理解这些图片中的物体在空间中应该是什么样子。本质上,你是在要求机器从图像中理解物理规律和形状。对我们人类来说,这并不难——因为我们熟悉现实世界和深度信息;但对于只看到像素的机器而言,这却是一个全新的挑战。
生成的模型看起来精确且形态逼真固然很棒,但它如何与新场景自然融合呢?如果拍摄照片时的光照条件各不相同,那么生成的模型在不同角度下看起来就会有差异,这显然会让人觉得怪异而不真实。Snapchat和南加州大学就在这项新研究中,针对这些问题提出了创新的解决方案。
- 短视频讲解:

- 简短文章:用AI创建逼真的3D渲染!
- 论文:NeROIC:基于在线图片集的对象神经渲染
- 代码
SpeechPainter:文本条件下的语音修复 [4]
我们之前介绍过图像修复技术,其目标是从照片中移除不需要的物体。基于机器学习的修复方法不仅会简单地抹去这些物体,还会理解整张图片的内容,并根据背景特征补全缺失的部分。
近年来的相关进展令人惊叹,修复效果也非常出色。这种技术在广告制作或优化你的Instagram帖子等方面有着广泛的应用前景。此外,我们还探讨过更具挑战性的视频修复任务——通过类似的方法去除视频中的物体或人物。
然而,处理视频时最大的难点在于确保每一帧之间的一致性,避免出现任何瑕疵或异常。但如果我们在一部电影中成功移除了某个人物,而声音却依然存在、毫无变化,那会怎样呢?那样的话,我们可能会听到一个“幽灵般”的声音,从而破坏整个修复成果。
这就引出了我频道此前从未涉及的一个领域——语音修复。没错,谷歌的研究人员刚刚发表了一篇关于语音修复的论文,结果相当惊人。虽然这次我们更多是“听”而不是“看”,但核心思想是一样的:它可以纠正语法、发音,甚至消除背景噪音。这些都是我一直在努力改进的地方,或者……干脆直接使用他们的新模型吧!快来看看我视频里的示例吧!
- 短视频讲解:

- 简短文章:AI语音修复!
- 论文:SpeechPainter:文本条件下的语音修复
- 收听更多示例
基于生成式人脸先验的真实世界盲人像修复 [5]
你是否也保存着一些自己或亲人的老照片——那些因为年代久远而质量不佳,或是父母在我们还无法拍摄高质量照片的时代拍下的?我也有这样的照片,曾经以为那些珍贵的回忆已经永远失去了。可事实证明,我大错特错了!
这款全新的免费AI模型,能在瞬间修复你大部分的老照片。它对低质量或高噪点的输入同样表现出色,而这通常是最棘手的问题之一。
本周发布的论文《基于生成式人脸先验的真实世界盲人像修复》以卓越的效果解决了照片修复这一难题。更酷的是,你可以亲自尝试,而且方式多种多样:他们不仅开源了代码,还搭建了一个演示平台和在线应用,供你立即体验。如果你对前面展示的结果还不太信服,不妨观看视频,并在评论区告诉我你的看法——我相信它一定会让你大开眼界!
- 短视频讲解:

- 简短文章:AI惊艳的图像修复!
- 论文:基于生成式人脸先验的真实世界盲人像修复
- 代码
- Colab演示
- 在线应用
4D-Net:用于学习多模态对齐的网络 [6]
自动驾驶汽车是如何“看”世界的呢?
你可能听说过激光雷达传感器,以及它们使用的其他奇特摄像头。但这些设备究竟是如何工作的?它们怎样感知周围的世界?与人类相比,它们看到的内容又有哪些不同呢?要让自动驾驶汽车真正上路,理解这些技术的工作原理至关重要——无论你是政府工作人员、法规制定者,还是相关服务的用户。
我们之前曾介绍过特斯拉自动辅助驾驶系统的视觉感知与工作方式,但它的技术路径与其他传统自动驾驶车辆有所不同。特斯拉仅依靠摄像头来理解环境,而大多数公司,比如Waymo,则同时使用普通摄像头和3D激光雷达传感器。激光雷达的工作原理相对简单:它不会像普通相机那样生成图像,而是构建出三维点云数据。激光雷达通过测量发射到物体上的激光脉冲往返时间,从而计算出物体之间的距离。
然而,如何高效地融合这些信息,并让车辆真正“理解”它们呢?最终车辆看到的仅仅是满屏的点吗?这样的信息是否足以支持在现实道路上的安全行驶?接下来,我们将结合Waymo与谷歌研究院的一篇最新研究论文,深入探讨这一问题……
- 短视频讲解:

- 简短阅读:将激光雷达与摄像头结合用于3D目标检测——Waymo
- 论文:4D-Net:用于学习多模态对齐的网络
基于多分辨率哈希编码的即时神经图形基元 [7]
拍照本身已经是一项极具挑战性的技术成就,而现在我们更进一步,反其道而行之:从照片中重建世界!我曾介绍过一些基于人工智能的优秀模型,能够根据图片生成高质量的场景。这项任务的核心在于,仅需几张二维平面图像,便能还原出物体或人物在真实三维空间中的形态。
只需拍摄几张照片,就能立即获得一个逼真的数字模型,直接应用于你的产品设计中。这该有多酷啊!
与我在2020年首次介绍的NeRF模型相比,如今的效果有了质的飞跃。而这种进步不仅体现在结果的质量上,NVIDIA更是将其提升到了新的高度。新方法不仅效果堪比甚至超越了之前的版本,而且速度提升了超过1000倍,这一切仅仅是在短短两年的研究之后实现的。
- 短视频讲解:

- 简短阅读:NVIDIA可在毫秒级内将照片转化为3D场景
- 论文:基于多分辨率哈希编码的即时神经图形基元
- 代码
基于CLIP潜在表示的层次化文本条件图像生成 [8]
去年,我曾分享过OpenAI推出的DALL·E模型,它能够根据文本输入生成令人惊叹的图像。如今,它的升级版——DALL·E 2——正式登场。而这一年间的进步之大,简直让人难以置信!DALL·E 2不仅能生成更加逼真的照片级图像,其分辨率更是提升了四倍!
更令人惊喜的是,这款新模型还掌握了一项全新技能:图像修复(inpainting)。
DALL·E可以根据文本生成图像。
而DALL·E 2不仅做得更好,还能进一步编辑这些图像,让它们看起来更加完美;或者干脆添加你想要的元素,比如在背景中加入几只火烈鸟。
听起来很有趣吧?快来观看视频或阅读下方内容,了解更多详情吧!
- 短视频讲解:

- 简短阅读:OpenAI的新模型DALL·E 2太棒了!
- 论文:基于CLIP潜在表示的层次化文本条件图像生成
MyStyle:个性化生成先验模型 [9]
由谷歌研究院和特拉维夫大学联合开发的这款新模型堪称惊艳。你可以把它看作一种功能极其强大的深度伪造工具,几乎无所不能。
只要提供一百张任意人物的照片,就能将该人物的特征编码进模型中,随后无论是修复、编辑,还是完全原创一张逼真的人像,都轻而易举。
在我看来,这既令人赞叹又不免心生担忧,尤其是当你看到实际生成的效果时。不妨观看视频,进一步了解模型的工作机制及更多示例!
- 短视频讲解:

- 简短阅读:用AI打造你的专属Photoshop专家!
- 论文:MyStyle:个性化生成先验模型
- 代码即将发布
欢迎收听What's AI播客,获取更多关于人工智能的深度内容!每期节目都会邀请一位业内专家,与我共同探讨人工智能领域的特定主题、子领域及职业方向,分享来自一线从业者的专业知识与见解。
OPT:开放的预训练Transformer语言模型 [10]
我们对GPT-3早已耳熟能详,对其能力也大致有所了解。许多应用正是依托于这一模型而诞生的,其中部分我也曾在关于GPT-3的前一期视频中提到过。GPT-3是由OpenAI开发的语言模型,用户可通过付费API调用,但无法直接访问模型本身。
GPT-3之所以如此强大,一方面得益于其精妙的架构,另一方面则归功于庞大的参数规模——高达1750亿个!这一超大规模网络几乎接受了整个互联网的数据训练,从而深刻理解人类的写作、交流及文本处理方式。本周,Meta公司为社区迈出了重要一步:他们发布了一款同样强大、甚至更为先进的语言模型,并将其完全开源。
- 短视频讲解:

- 简短阅读:Meta的新模型OPT是GPT-3最有力的竞争对手!(且已开源)
- 论文:OPT:开放的预训练Transformer语言模型
- 代码
BlobGAN:空间解耦的场景表征 [11]
BlobGAN 能以极其简单的方式操控图像——只需移动几个简单的色块即可实现。这些小色块分别代表图像中的某个物体,你可以随意移动它们、调整大小,甚至删除它们,而这些操作都会对图像中对应的物体产生同样的效果。这真是太酷了!
正如作者在结果中所展示的,你甚至可以通过复制色块来生成全新的图像,创造出数据集中从未出现过的场景,比如一个装有两台吊扇的房间!如果我没记错的话,这可能是最早(如果不是最早的话)将图像编辑简化到只需移动色块,并允许进行训练集中未见修改的论文之一。
而且相比我们熟知的一些公司,这个项目还真的可以动手玩一玩呢!他们不仅公开了代码,还提供了一个 Colab 演示,你可以立即尝试。更令人兴奋的是 BlobGAN 的工作原理。更多细节请观看视频!
- 短视频讲解:

- 简短阅读:这是 GAN 的一大步!BlobGAN 解析
- 论文:BlobGAN:空间解耦的场景表征
- 代码
- Colab 演示
通用智能体 [12]
DeepMind 的 Gato 刚刚发布!它是一个单一的 Transformer 模型,能够玩 Atari 游戏、为图片添加说明文字、与人聊天、控制真实的机械臂等等!确实,它只经过一次训练,便能用同一组权重完成所有这些任务。据 DeepMind 称,这不仅仅是一个 Transformer,更是一个智能体。这就是当 Transformer 与多任务强化学习智能体的研究进展相结合时所产生的成果。
Gato 是一个多模态智能体。这意味着它可以为图片生成描述,也可以像聊天机器人一样回答问题。你可能会说 GPT-3 已经能做到这一点,但 Gato 还能做更多……它的多模态特性体现在,它不仅能以人类水平玩 Atari 游戏,还能完成现实世界的任务,例如精确地控制机械臂搬运物体。它理解文字、图像,甚至物理规律……
- 短视频讲解:

- 简短阅读:Deepmind 新模型 Gato 太棒了!
- 论文:通用智能体
具备深度语言理解能力的逼真文生图扩散模型 [13]
如果你觉得 Dall-e 2 的效果已经很出色了,那一定要看看 Google Brain 推出的新模型能做到什么程度。
Dall-e 确实很厉害,但往往缺乏真实感,而 Google Brain 团队正是针对这一问题开发了名为 Imagen 的新模型。
他们在项目页面上分享了大量的实验结果,并且还推出了一项用于比较文生图模型的基准测试。结果显示,Imagen 显著优于 Dall-e 2 以及其他先前的图像生成方法。更多内容请观看视频……
- 短视频讲解:

- 简短阅读:Google Brain 对抗 Dall-e 2 的答案:Imagen
- 论文:具备深度语言理解能力的逼真文生图扩散模型
- 包含结果的项目页面
DALL·E Mini [14]
Dalle mini 非常棒——而且你也可以使用它!
相信你在过去几天的 Twitter 动态里一定见过类似这样的图片。 如果你好奇它们是怎么来的,那就是由名为 DALL·E mini 的 AI 生成的。 如果你还没见过这类图片,那就一定要看看这段视频,因为你真的错过了一些精彩的内容。 如果你想知道这是如何做到的,那么你来对地方了——短短不到五分钟,你就能找到答案。
Dalle mini 是一款免费的开源 AI,可以根据文本输入生成令人惊叹的图像。
- 短视频讲解:

- 简短阅读:Dalle-mini 是如何工作的?
- 代码
- Huggingface 官方演示
不落下任何一种语言:以人为本的机器翻译规模化 [15]
Meta AI 最新推出的“不落下任何一种语言”模型,顾名思义,能够以最先进的质量跨 200 种不同语言进行翻译。 仅凭一个模型就能处理 200 种语言,这该有多了不起啊?
我们常常发现,即使是在英语领域取得优异成果都颇为不易,而 Meta 却用同一个模型攻克了多达 200 种语言,其中还包括许多复杂且语料稀缺的语言,甚至连谷歌翻译都难以应对……
双快门光学振动传感 [16]
这项技术利用摄像头和激光束,在任何振动表面上重建声音,从而实现分离乐器音轨、聚焦特定说话者、消除环境噪音等多种神奇的应用。
- 短视频讲解:

- 简短阅读:CVPR 2022 最佳论文荣誉提及:双快门光学振动传感
- 项目页面
- 论文:双快门光学振动传感
Make-a-scene:基于场景的文本到图像生成,融入人类先验知识 [17]
Make-A-Scene 并非“又一个 DALL·E”。这款新模型的目标并不是像 DALL·E 那样让用户仅根据文本提示生成随机图像——尽管这确实很酷——但这种方式会限制用户对生成内容的控制。
相反,Meta 希望推动创意表达的发展,将文本到图像的趋势与先前的草图到图像模型相结合,从而诞生了“Make-A-Scene”:一种将文本和草图条件结合的卓越图像生成技术。
- 简短视频讲解:

- 简短文章:用文本和草图创作惊艳艺术作品!
- 论文:Make-a-scene:基于场景的文本到图像生成,融入人类先验知识
BANMo:从大量日常视频中构建可动画化的 3D 神经网络模型 [18]
使用 BANMo,只需几张照片就能创建可变形的 3D 模型!
- 简短视频讲解:

- 简短文章:用 AI 构建可动画化的 3D 模型
- 论文:BANMo:从大量日常视频中构建可动画化的 3D 神经网络模型
- 代码
基于潜在扩散模型的高分辨率图像合成 [19]
最近那些功能强大的图像生成模型,比如 DALL·E、Imagen 或 MidJourney,它们之间有什么共同点呢?除了高昂的计算成本、漫长的训练时间以及备受关注之外,它们都基于同一种机制:扩散模型。
近年来,扩散模型在大多数图像任务中都取得了最先进的成果,不仅包括 DALL·E 的文本到图像生成,还涵盖了图像修复、风格迁移和图像超分辨率等多种相关任务。
- 简短视频讲解:

- 简短文章:潜在扩散模型:Stable Diffusion 背后的架构
- 论文:基于潜在扩散模型的高分辨率图像合成
- 代码
👀 如果您想支持我的工作,可以考虑为本仓库 赞助 或在 Patreon 上支持我。
全景场景图生成 [20]
全景场景图生成(PSG)是一项全新的任务,旨在基于全景分割而非边界框,生成更全面的图像或场景图表示。它可用于理解图像并生成描述其中发生事件的句子。这或许是人工智能面临的最具挑战性的任务之一!更多信息请见下文……
- 简短视频讲解:

- 简短文章:人工智能最具挑战性的任务之一
- 论文:全景场景图生成
- 代码
- 数据集
一图胜千言:利用文本反转实现文本到图像生成的个性化 [21]
像 DALL·E 或 Stable Diffusion 这样的文本到图像模型非常酷,只需简单的文本输入就能生成精美的图片。但如果给它们一张你的照片,让它们将其转化为一幅画作,岂不是更酷吗?想象一下,你可以上传任何物体、人物,甚至是你的猫的照片,然后让模型将其转换成另一种风格——比如把你变成赛博格,或者按照你喜欢的艺术风格进行创作,甚至将它融入一个新的场景中。
简单来说,如果能拥有一款类似于 Photoshop 的 DALL·E 版本,而不是随机生成图像,那该有多棒?通过“一图胜千言”的方式,我们可以轻松地控制生成过程,打造个性化的 DALL·E。这就像拥有一个既个性化又让人欲罢不能的 TikTok 算法版 DALL·E。
事实上,特拉维夫大学和 NVIDIA 的研究人员正是致力于这一方向的研究。他们开发了一种方法,能够以少量图像作为条件,来表征任意对象或概念,并通过你随图像发送的文本指令,将输入图像中的对象转换为你想要的任何形式。
- 简短视频讲解:

- 简短文章:用你的图像引导 Stable Diffusion
- 论文:一图胜千言:利用文本反转实现文本到图像生成的个性化
- 代码
扩展语言-图像预训练模型用于通用视频识别 [22]
我们已经见证了人工智能先生成文本,再生成图像,最近甚至还能生成短视频,尽管这些成果仍有待完善。考虑到这些作品的创作过程中几乎无需人工参与,且只需一次训练便可供成千上万的人使用,例如 Stable Diffusion,其效果确实令人惊叹。然而,这些模型真的理解自己在做什么吗?它们是否清楚自己刚刚生成的图片或视频究竟代表什么?当这样的模型看到一张图片,甚至更为复杂的视频时,它又能理解些什么呢?
- 简短视频讲解:

- 简短文章:AI 的通用视频识别
- 论文:扩展语言-图像预训练模型用于通用视频识别
- 代码
MAKE-A-VIDEO:无需文本-视频数据的文本到视频生成 [23]
Meta AI 的新模型 Make-a-Video 已发布,一句话概括就是:它可以根据文本生成视频。不仅如此,它还是目前最先进的方法,能够生成比以往更高品质、更加连贯的视频!
- 简短视频讲解:

- 简短文章:Make-a-Video:AI 影片制作人!
- 论文:MAKE-A-VIDEO:无需文本-视频数据的文本到视频生成
- 代码
基于大规模弱监督的鲁棒语音识别 [24]
你是否曾梦想过一款优秀的转录工具,能够准确理解你说的话并将其记录下来?而不是像 YouTube 的自动翻译那样……我的意思是,那些工具确实不错,但远称不上完美。不妨亲自试一试,打开视频的字幕功能,你就会明白我在说什么了。
幸运的是,OpenAI 刚刚发布并开源了一款非常强大的 AI 模型,专门为此而设计:Whisper。
作为非英语母语者,它甚至能理解我都不太明白的内容(请在视频中收听),而且还能用于语言翻译!
- 短视频讲解:

- 简短阅读:OpenAI 最新模型:Whisper(详解)
- 论文:基于大规模弱监督的鲁棒语音识别
- 代码
DreamFusion:利用 2D 扩散模型实现文本到 3D 的转换 [25]
我们已经见过一些模型,能够根据一句话生成图像。随后又出现了其他方法,通过学习特定概念(如某个物体或某种风格)来操控生成的图像。
上周,Meta 发布了我曾报道过的 Make-A-Video 模型,该模型同样可以根据一段文字生成短视频。目前的结果还并不完美,但自去年以来,我们在这一领域取得的进步实在令人惊叹。
而本周,我们又迈出了新的一步。
这就是 DreamFusion,一款由 Google Research 开发的新模型,它能够理解一句话,并据此生成一个 3D 模型。你可以把它看作是 DALL·E 或 Stable Diffusion 的 3D 版本。
- 短视频讲解:

- 简短阅读:从文本生成 3D 模型!DreamFusion 详解
- 论文:DreamFusion:利用 2D 扩散模型实现文本到 3D 的转换
Imagic:基于扩散模型的文本驱动真实图像编辑 [26]
如果你觉得最近的图像生成模型,比如 DALL·E 或 Stable Diffusion 很酷,那你一定会对这款模型感到更加震撼。 “这款”就是 Imagic。Imagic 基于扩散模型,能够根据文本生成图像,并进一步改造该模型以实现图像编辑功能。你可以先生成一张图像,然后教会模型按照你的需求随意修改它。
- 短视频讲解:

- 简短阅读:文本驱动的 AI 图像编辑!Imagic 详解
- 论文:Imagic:基于扩散模型的文本驱动真实图像编辑
- Stable Diffusion 实现
eDiffi:采用专家级去噪器集成的文本到图像扩散模型 [27]
NVIDIA 最新推出的 eDiffi 模型,生成的图像不仅外观更佳、细节更丰富,准确性也远超此前的 DALL·E 2 或 Stable Diffusion 等方案。eDiffi 对用户输入的文本理解更为深入,且可定制性更强,同时还引入了 NVIDIA 在先前论文中提出的一项功能——画家工具。
- 短视频讲解:

- 简短阅读:eDiffi 详解:全新 SOTA 图像合成模型!
- 论文:eDiffi:采用专家级去噪器集成的文本到图像扩散模型
👀 如果你想支持我的工作,可以前往 Sponsor 为这个仓库赞助,或者在 Patreon 上支持我。
InfiniteNature-Zero:从单张图像学习自然场景的无限视图生成 [28]
仿佛你正飞入自己的照片之中,就能生成无穷无尽的新画面!
Galactica:面向科学领域的大型语言模型 [29]
Galactica 是一款规模与 GPT-3 相当的大型语言模型,但专精于科学知识。该模型能够撰写白皮书、综述、维基百科条目以及代码,懂得如何引用文献和书写公式。对于人工智能和科学领域而言,这无疑是一件大事。
- 短视频讲解:

- 简短阅读:Galactica:它是什么?后来发生了什么?
- 论文:Galactica:面向科学领域的大型语言模型
基于音频-空间分解的实时神经辐射场对话肖像合成 [30]
仅需一段视频,他们就能以更高的质量实时合成人物说出几乎任何单词或句子的画面。你可以让一个人物头像随着任意音频轨道同步进行实时动画化。
- 短视频讲解:

- 简短阅读:用 AI 将音频实时转化为会说话的头像!RAD-NeRF 详解
- 论文:基于音频-空间分解的实时神经辐射场对话肖像合成
ChatGPT:针对对话优化的语言模型 [31]
ChatGPT 凭借其强大的功能和极高的 meme 潜力,迅速席卷了 Twitter 乃至整个互联网。众所周知,能够生成 meme 是征服互联网的最佳方式,而 ChatGPT 正是这样做的。
既然你已经看过无数相关示例,或许已经知道 ChatGPT 是 OpenAI 最近向公众开放的一款 AI,你可以与之聊天。它也被称为聊天机器人,意味着你可以像与真人一对一交流一样与之互动。
不过,你可能还不清楚它究竟是什么、又是如何工作的……观看下方的视频或阅读文章、博客,了解更多吧!
- 短视频讲解:

- 简短阅读:ChatGPT 是什么?
- 博客文章:ChatGPT:针对对话优化的语言模型
适用于视觉特效的生产就绪人脸重龄技术 [32]
无论是为了在 Snapchat 滤镜中玩乐、用于电影制作,还是仅仅想消除几道皱纹,我们每个人心中都有一项实用需求——能够在照片中改变自己的年龄。
通常,这项工作需要由经验丰富的艺术家使用 Photoshop 或类似工具来手动编辑照片。更糟糕的是,在视频中,他们必须对每一帧都进行这样的手动处理!试想一下,这该需要多少人力和时间啊。不过,现在有一个解决方案,同时也带来了一个新的挑战…… 👇
- 短视频讲解:

- 简短阅读:利用 AI 自动实现人脸重龄!迪士尼 FRAN 模型详解
- 博客文章:适用于视觉特效的生产就绪人脸重龄技术
如果你想阅读更多论文并获得更广阔的视野,这里还有一个很棒的资源库,涵盖了 2021 年的内容: 2021:充满惊人 AI 论文的一年——综述,同时欢迎订阅我的每周通讯,及时了解 2022 年的最新 AI 研究成果!
- 如果你分享这份列表,请在 Twitter 上标记我 @Whats_AI 或在 LinkedIn 上标记我 @Louis (What's AI) Bouchard!
论文参考文献
[1] Suvorov, R., Logacheva, E., Mashikhin, A., Remizova, A., Ashukha, A., Silvestrov, A., Kong, N., Goka, H., Park, K. 和 Lempitsky, V.,2022年。基于傅里叶卷积的分辨率鲁棒性大尺寸掩码修复。载于IEEE/CVF冬季计算机视觉应用会议论文集(第2149–2159页)。https://arxiv.org/pdf/2109.07161.pdf
[2] Tzaban, R., Mokady, R., Gal, R., Bermano, A.H. 和 Cohen-Or, D.,2022年。及时缝合:基于GAN的真实视频人脸编辑。https://arxiv.org/abs/2201.08361
[3] Kuang, Z., Olszewski, K., Chai, M., Huang, Z., Achlioptas, P. 和 Tulyakov, S.,2022年。NeROIC:从在线图像集合中进行物体的神经渲染。https://arxiv.org/pdf/2201.02533.pdf
[4] Borsos, Z., Sharifi, M. 和 Tagliasacchi, M.,2022年。SpeechPainter:文本条件化的语音修复。https://arxiv.org/pdf/2202.07273.pdf
[5] Wang, X., Li, Y., Zhang, H. 和 Shan, Y.,2021年。利用生成式人脸先验实现真实场景下的盲态人脸修复。载于IEEE/CVF计算机视觉与模式识别会议论文集(第9168–9178页),https://arxiv.org/pdf/2101.04061.pdf
[6] Piergiovanni, A.J., Casser, V., Ryoo, M.S. 和 Angelova, A.,2021年。用于学习多模态对齐的4D-Net。载于IEEE/CVF国际计算机视觉会议论文集(第15435–15445页),https://openaccess.thecvf.com/content/ICCV2021/papers/Piergiovanni_4D-Net_for_Learned_Multi-Modal_Alignment_ICCV_2021_paper.pdf。
[7] Thomas Muller、Alex Evans、Christoph Schied 和 Alexander Keller,2022年,“具有多分辨率哈希编码的即时神经图形基元”,https://nvlabs.github.io/instant-ngp/assets/mueller2022instant.pdf
[8] A. Ramesh 等,2022年,“基于CLIP潜在空间的层次化文本条件图像生成”,https://cdn.openai.com/papers/dall-e-2.pdf
[9] Nitzan, Y., Aberman, K., He, Q., Liba, O., Yarom, M., Gandelsman, Y., Mosseri, I., Pritch, Y. 和 Cohen-Or, D.,2022年。MyStyle:个性化生成先验。arXiv预印本 arXiv:2203.17272。
[10] Zhang, Susan 等人。“OPT:开放的预训练Transformer语言模型”。https://arxiv.org/abs/2205.01068
[11] Epstein, D., Park, T., Zhang, R., Shechtman, E. 和 Efros, A.A.,2022年。BlobGAN:空间解耦的场景表示。arXiv预印本 arXiv:2205.02837。
[12] Reed S. 等,2022年,Deemind:Gato——一个通用智能体,https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf
[13] Saharia 等,2022年,Google Brain,具有深度语言理解能力的逼真文本到图像扩散模型,https://gweb-research-imagen.appspot.com/paper.pdf
[14] Dayma 等,2021年,DALL·E Mini,doi:10.5281/zenodo.5146400
[15] NLLB团队等,2022年,“不让任何一种语言掉队:以人为本的机器翻译规模化”
[16] Sheinin, Mark 和 Chan, Dorian 以及 O’Toole, Matthew 和 Narasimhan, Srinivasa G.,2022年,双快门光学振动传感,IEEE CVPR会议论文。
[17] Gafni, O., Polyak, A., Ashual, O., Sheynin, S., Parikh, D. 和 Taigman, Y.,2022年。Make-a-scene:基于场景和人类先验的文本到图像生成。https://arxiv.org/pdf/2203.13131.pdf
[18] Yang, G., Vo, M., Neverova, N., Ramanan, D., Vedaldi, A. 和 Joo, H.,2022年。Banmo:从大量日常视频中构建可动画化的3D神经模型。载于IEEE/CVF计算机视觉与模式识别会议论文集(第2863–2873页)。
[19] Rombach, R., Blattmann, A., Lorenz, D., Esser, P. 和 Ommer, B.,2022年。基于潜在扩散模型的高分辨率图像合成。载于IEEE/CVF计算机视觉与模式识别会议论文集(第10684–10695页),https://arxiv.org/pdf/2112.10752.pdf
[20] Yang, J., Ang, Y.Z., Guo, Z., Zhou, K., Zhang, W. 和 Liu, Z.,2022年。全景场景图生成。arXiv预印本 arXiv:2207.11247。
[21] Gal, R., Alaluf, Y., Atzmon, Y., Patashnik, O., Bermano, A.H., Chechik, G. 和 Cohen-Or, D.,2022年。一张图片胜过千言万语:利用文本反转技术个性化文本到图像生成。
[22] Ni, B., Peng, H., Chen, M., Zhang, S., Meng, G., Fu, J., Xiang, S. 和 Ling, H.,2022年。扩展语言-图像预训练模型以用于通用视频识别。arXiv预印本 arXiv:2208.02816。
[23] Singer等人(Meta AI),2022年,“MAKE-A-VIDEO:无需文本-视频数据的文本到视频生成”,https://makeavideo.studio/Make-A-Video.pdf
[24] Radford, A., Kim, J.W., Xu, T., Brockman, G., McLeavey, C. 和 Sutskever, I.,通过大规模弱监督实现稳健的语音识别。
[25] Poole, B., Jain, A., Barron, J.T. 和 Mildenhall, B.,2022年。DreamFusion:利用2D扩散模型进行文本到3D生成。arXiv预印本 arXiv:2209.14988。
[26] Kawar, B., Zada, S., Lang, O., Tov, O., Chang, H., Dekel, T., Mosseri, I. 和 Irani, M.,2022年。Imagic:基于扩散模型的文本驱动真实图像编辑。arXiv预印本 arXiv:2210.09276。
[27] Balaji, Y. 等,2022年,eDiffi:采用专家去噪器集成的文本到图像扩散模型,https://arxiv.org/abs/2211.01324
[28] Li, Z., Wang, Q., Snavely, N. 和 Kanazawa, A.,2022年。InfiniteNature-Zero:从单张图像中学习自然场景的永久视图生成。载于欧洲计算机视觉会议(第515–534页)。Springer, Cham,https://arxiv.org/abs/2207.11148
[29] Taylor等人,2022年:Galactica:面向科学的大规模语言模型,https://galactica.org/
[30] Tang, J., Wang, K., Zhou, H., Chen, X., He, D., Hu, T., Liu, J., Zeng, G. 和 Wang, J.,2022年。基于音频-空间分解的实时神经辐射场对话肖像合成。arXiv预印本 arXiv:2211.12368。
[31] OpenAI,2022年:ChatGPT:优化语言模型以用于对话,https://openai.com/blog/chatgpt/
[32] Loss等人,DisneyResearch,2022年:FRAN,https://studios.disneyresearch.com/2022/11/30/production-ready-face-re-aging-for-visual-effects/
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备


