World-Models-Autonomous-Driving-Survey
World-Models-Autonomous-Driving-Survey 是一份由纽约大学学习系统实验室维护的精选清单,专门收录面向自动驾驶领域的“世界模型”前沿研究与开源项目。它致力于解决自动驾驶系统中环境理解、长时程预测及多模态场景生成等核心难题,通过整理最新的学术论文与代码资源,帮助从业者快速掌握该领域的技术脉络。
这份清单特别适合自动驾驶算法工程师、人工智能研究人员以及相关领域的学生使用。无论是希望复现最新成果的开发人员,还是寻找灵感的学术探索者,都能从中高效获取经过筛选的高质量资料。其独特亮点在于不仅涵盖了基于视觉、激光雷达(LiDAR)及多模态融合的多种世界模型架构,还及时更新了包括 JEPA(联合嵌入预测架构)在内的自监督学习新范式。此外,清单动态追踪了 NeurIPS、ICCV、CVPR 等顶级会议的最新录用论文,如 DINO-Foresight、DriveGPT 等项目,并附带论文链接与代码仓库地址,极大地降低了技术调研的门槛,是进入自动驾驶世界模型研究领域的理想入口。
使用场景
某自动驾驶初创公司的算法团队正致力于研发基于世界模型(World Models)的端到端预测系统,以应对复杂城市路况下的长时程决策挑战。
没有 World-Models-Autonomous-Driving-Survey 时
- 文献检索如大海捞针:研究人员需在 arXiv、Google Scholar 等多个平台手动筛选关键词,极易遗漏如 AD-L-JEPA 或 DINO-Foresight 等最新预印本和顶会论文。
- 技术路线评估困难:面对生成式 AI、多模态融合或强化学习等不同技术流派,缺乏统一的分类索引,难以快速判断哪种架构(如 JEPA 或 VLM)最适合当前的激光雷达数据场景。
- 复现成本高昂:许多论文未明确标注代码开源状态,团队常花费数周时间寻找可运行代码,甚至因找不到官方实现而被迫放弃某些前沿思路。
- 错失社区动态:无法及时追踪 Yann LeCun、Danijar Hafner 等领军人物的最新动向,导致技术选型滞后于行业顶尖水平。
使用 World-Models-Autonomous-Driving-Survey 后
- 一站式获取前沿成果:团队直接通过该清单锁定了 NeurIPS 2025 和 CVPR 2025 的最新论文,迅速将 AD-L-JEPA 纳入自监督表示学习的候选方案。
- 精准匹配技术需求:利用清单中详细的标签(如
End-to-End AD、LiDAR Data、Long-Horizon Prediction),快速对比 Orbis 与 Genesis 等模型特性,确定了针对长时程预测的最优解。 - 加速原型验证:借助清单提供的直达链接,直接获取 World4Drive 和 FUTURIST 的官方代码库,将算法复现周期从数周缩短至几天。
- 紧跟权威风向标:通过关注清单推荐的顶尖学者及其最新工作,确保团队的技术路线图始终与全球最前沿的研究保持同步。
World-Models-Autonomous-Driving-Survey 将分散的学术资源转化为结构化的决策引擎,极大提升了自动驾驶研发团队在前沿技术探索中的效率与准确性。
运行环境要求
未说明
未说明

快速开始
世界模型-自动驾驶-最新综述
一份精选的自动驾驶领域世界模型列表。持续更新中。
公告
除了我们下面列出的优秀论文外,我们非常高兴地宣布,我们所在的纽约大学学习系统实验室最近发布了一篇预印本,题目为:AD-L-JEPA:基于联合嵌入预测架构的自监督空间世界模型,用于激光雷达数据驱动的自动驾驶,这是首个基于联合嵌入预测架构(JEPA)的空间世界模型,用于自动驾驶的自监督表征学习。源代码可在AD-L-JEPA-Release获取。如果您受到这篇论文的启发,可以考虑通过以下方式引用:
@article{zhu2025ad,
title={AD-L-JEPA: Self-Supervised Spatial World Models with Joint Embedding Predictive Architecture for Autonomous Driving with LiDAR Data},
author={Zhu, Haoran and Dong, Zhenyuan and Topollai, Kristi and Choromanska, Anna},
journal={arXiv preprint arXiv:2501.04969},
year={2025}
}
领军人物
Yann Lecun, Danijar Hafner, Chuang Gang, Yilun Du, Nicklas Hansen
论文
2025年
NeurIPS 2025
- DINO-Foresight:借助DINO展望未来
NeurIPS 2025;VFM; 论文, 代码 - FutureSightDrive:利用时空思维链进行视觉化思考,用于自动驾驶
NeurIPS 2025;VLM; 论文, 代码 - Raw2Drive:基于对齐世界模型的强化学习,用于端到端自动驾驶(在CARLA v2中)
NeurIPS 2025;端到端自动驾驶;强化学习; 论文 - 向高效潜在流匹配的基石级激光雷达世界模型迈进
NeurIPS 2025;生成式AI;迁移学习; 论文, 网站 - Orbis:克服驾驶世界模型中长时程预测的挑战
NeurIPS 2025;生成式AI; 论文, 网站 - Genesis:具有时空及跨模态一致性的多模态驾驶场景生成
NeurIPS 2025;生成式AI;多模态; 论文, 网站, 代码即将发布
ICCV 2025
ICML 2025
CVPR 2025
- GEM:一种可泛化的自我视角多模态世界模型,用于精细控制自我运动、物体动力学和场景构成
CVPR 2025;生成式AI; 论文, 代码即将发布 - FUTURIST:通过多模态视觉序列Transformer推进语义未来预测
CVPR 2025[论文] [代码] - DIO:可分解的隐式四维占用-流世界模型
CVPR 2025论文
ICLR 2025
- LAW:利用潜在世界模型提升端到端自动驾驶性能
ICLR 2025;端到端自动驾驶; 论文, 代码 - PreWorld:半监督的以视觉为中心的三维占用世界模型,用于自动驾驶
ICLR 2025;占用预测;路径规划; 论文, 代码 - AdaWM:基于自适应世界模型的自动驾驶规划
ICLR 2025;强化学习;规划; 论文 - SSR:面向端到端自动驾驶的导航引导型稀疏场景表示
ICLR 2025;端到端自动驾驶; 论文, 代码 - OccProphet:借助观察者-预测者-精炼者框架,推动仅使用摄像头的四维占用预测效率前沿
ICLR 2025;占用预测; 论文, 代码即将发布
AAAI 2025
- DriveDreamer-2:LLM增强的世界模型,用于多样化驾驶视频生成
AAAI 2025;生成式AI;LLM; 论文, 网站, 代码 - Drive-OccWorld:在占用世界中驾驶:基于世界模型的以视觉为中心的四维占用预测与规划,用于自动驾驶
AAAI 2025;占用预测;规划; 论文, 网站, 代码
RSS 2025
- LOPR:用于自动驾驶的自监督多未来占用预测 论文
RSS 2025;
其他
- 回到特性:DINO作为视频世界模型的基础 论文
- IntPhys 2:在复杂合成环境中基准测试直观物理理解 论文,代码
- Genie Envisioner:用于机器人操作的统一世界基础平台 论文,网站
- Genie 3:世界模型的新前沿 网站
- DriVerse:通过多模态轨迹提示和运动对齐实现驾驶模拟的导航世界模型
arxiv四月;生成式AI;论文,代码 - 从世界模型中学习驾驶
arxiv四月;论文 - WoTE:基于BEV世界模型的在线轨迹评估端到端驾驶
arxiv四月;论文,代码 - AETHER:几何感知的统一世界建模
arxiv三月;论文,网站 - GAIA-2:面向自动驾驶的可控多视角生成式世界模型
生成式AI;论文 - 还需要其他车辆的轨迹:一种驾驶世界模型将本车与其他车辆的轨迹统一到视频潜在空间中
arxiv三月;生成式AI;论文 - $T^3$Former:作为占用世界模型的时序三平面Transformer
arxiv三月;占用预测;论文 - InDRiVE:基于内在分歧的强化学习,通过好奇心驱动的广义世界模型进行车辆探索
arxiv三月;RL;论文 - PIWM:用预测性个体世界模型实现“梦想成真”的驾驶
TIV 2025;RL;论文,代码 - MaskGWM:具有视频掩码重建功能的可泛化驾驶世界模型
arxiv;生成式AI;论文 代码 - 梦想到驾驶:使用解析型世界模型进行基于模型的车辆控制
arxiv;规划;论文 - HERMES:用于同时进行3D场景理解和生成的统一自动驾驶世界模型
arxiv;生成式AI;LLM;论文,代码待发布 - AD-L-JEPA:结合联合嵌入预测架构的自监督空间世界模型,适用于基于LiDAR数据的自动驾驶。
arxiv;预训练;自监督表征学习;论文,代码 - Cosmos世界基础模型平台,用于物理AI
arxiv;基础模型;论文,代码
2024
NeurIPS 2024
- DrivingDojo 数据集:推动交互式与知识增强的驾驶世界模型
NeurIPS 2024;数据集; 论文, 官网, 代码 - Vista:具有高保真度和多功能可控性的可泛化驾驶世界模型
NeurIPS 2024;来自上海人工智能实验室;生成式AI; 论文, 官网, 代码
ECCV 2024
- DriveDreamer:迈向由真实世界驱动的自动驾驶世界模型
ECCV 2024;生成式AI; 论文, 官网, 代码 - 基于生成式世界模型的自动驾驶中竞争行为建模
ECCV 2024;强化学习;轨迹仿真; 论文, 代码待发布 - NeMo:用于自动驾驶的神经体积世界模型
ECCV 2024;端到端自动驾驶;运动规划; 论文 - OccWorld:学习用于自动驾驶的3D占用世界模型
ECCV 2024;占用预测;运动规划; 论文, 代码 - Think2Drive:通过潜在世界模型思考实现高效的自动驾驶强化学习(在CARLA-v2中)
ECCV 2024;强化学习; 论文, 官网 - FipTR:一种简单而有效的Transformer框架,用于自动驾驶中的未来实例预测
ECCV 2024;未来实例预测; 论文, 代码 - DrivingDiffusion:基于潜扩散模型的布局引导多视角驾驶场景视频生成
ECCV 2024;生成式AI论文, 代码
CVPR 2024
- Drive-WM:驶向未来:基于世界模型的多视角视觉预测与规划用于自动驾驶
CVPR 2024;生成式AI;规划; 论文, 官网, 代码 - DriveWorld:通过世界模型进行的自动驾驶4D预训练场景理解
CVPR 2024;预训练; 论文 - Cam4DOcc:自动驾驶应用中仅使用摄像头的4D占用预测基准测试
CVPR 2024;占用预测; 论文, 代码 - GenAD:自动驾驶的通用预测模型
CVPR 2024;来自上海人工智能实验室生成式AI; 论文, 代码 - ViDAR:视觉点云预测助力规模化自动驾驶
CVPR 2024;预训练;来自上海人工智能实验室;NuScenes数据集论文, 代码 - UnO:用于感知和预测的无监督占用场
CVPR 2024;占用预测;预训练; 论文
ICLR 2024
- Copilot4D:通过离散扩散学习自动驾驶的无监督世界模型
ICLR 2024;未来点云预测;来自Waabi; 论文
ICRA 2024
- 利用潜在空间生成式世界模型缓解自动驾驶模仿学习中的协变量偏移
ICRA 2024;规划论文
其他
- InfinityDrive:突破驾驶世界模型的时间限制
arxiv 2024;生成式AI; 论文, 官网 - DriveDreamer4D:世界模型是4D驾驶场景表示的有效数据机器
arxiv 2024;生成式AI;4D仿真; 论文, 官网, 代码 - ReconDreamer:通过在线修复构建驾驶场景重建的世界模型
arxiv 2024;生成式AI;4D仿真; 论文, 官网, 代码 - 2024-DrivingWorld:通过Video GPT构建自动驾驶世界模型。论文 项目页面 代码
- 2024-DOME:驯服扩散模型成为高保真可控的占用世界模型。论文 项目页面
- 2024-OccLLaMA:一种用于自动驾驶的占用-语言-动作生成式世界模型 论文
- 2024-BEVWorld:通过统一BEV潜在空间构建的自动驾驶多模态世界模型
arxiv论文 - 2024-利用适应性世界模型进行自动驾驶规划
arxiv;规划; 论文 - 2024-OccSora:作为自动驾驶世界模拟器的4D占用生成模型 论文, 代码
2023年之前
- 2023-ADriver-I:用于自动驾驶的通用世界模型
arxiv;生成式AI;NuScenes及一个私有数据集论文 - 2023-GAIA-1:用于自动驾驶的生成式世界模型
arxiv;生成式AI;Wayve的私有数据论文 - 2023-计算机视觉中的神经世界模型 '博士论文';
来自Wayve论文 - 2022-为自动驾驶分离世界模型与自我模型
ICLR 2022物理世界中可泛化策略学习研讨会;来自Yann LeCun团队论文, 代码 - 2022-SEM2:通过语义掩码世界模型提升端到端城市自动驾驶的样本效率和鲁棒性
NeurIPS 2022深度强化学习研讨会;RL;CARLA数据集论文 - 2022-MILE:面向城市驾驶的基于模型的模仿学习
NeurIPS 2022;RL;来自Wayve论文, 代码 - 2022-Iso-Dream:在世界模型中隔离并利用不可控的视觉动态
NeurIPS 2022论文, 代码 - 2021-FIERY:从环视单目摄像头预测鸟瞰视角下的未来实例
ICCV 2019;未来预测;来自Wayve;NuScenes、Lyft数据集论文, 代码 - 2021-从“轨道上的世界”中学习驾驶
CVPR 2021口头报告;RL论文, 项目页面, 代码 - 2019-带有不确定性正则化的模型预测策略学习,用于密集交通中的驾驶
ICLR 2019;未来预测;来自Yann LeCun团队论文, 代码
研讨会/挑战赛
教程/演讲
包含自动驾驶用世界模型的综述
- 2025-自动驾驶用世界模型综述
arxiv论文 - 2024-自动驾驶用世界模型:初步综述
arxiv论文 - 2024-自动驾驶中的数据驱动演进:大数据系统、数据挖掘和闭环技术的全面综述
arxiv论文 - 2024-为自动驾驶打造视觉基础模型:挑战、方法论与机遇
arxiv论文
其他通用世界模型论文
- 2025-Dreamer 4:在可扩展的世界模型中训练智能体
arxiv论文 - 2025-TAWM:用于自适应预测与控制的时间感知世界模型
ICML 2025论文, 代码 - 2025-基础模型发现了什么?利用归纳偏置探测世界模型
ICML 2025论文 - 2025-对世界模型的批判 论文
- 2025-DREAMGEN:通过视频世界模型解锁机器人学习中的泛化能力
来自Nvidia论文, 代码 - 2025-V-JEPA 2:自监督视频模型实现理解、预测与规划
来自Meta论文, 代码 - 2025-UniVLA:学习以任务为中心的潜在动作,在任何地方执行行动
arxiv 2025论文, 代码 - 2025-学习3D持久性具身世界模型
arxiv 2025论文 - 2025-AdaWorld:利用潜在动作学习可适应的世界模型
ICML 2025论文 - 2025-DreamerV3:通过世界模型掌握多样化的控制任务
Nature论文, 代码 - 2025-PhysTwin:基于物理信息的可变形物体视频重建与仿真 论文, 代码
- 2025-直观的物理理解源于自然视频上的自监督预训练 论文, 代码
- 2025-生成式视频模型是否通过观看视频学习物理规律? 论文, 代码, 网站
- 2024-PreLAR:使用可学习动作表示进行世界模型预训练
ECCV 2024;预训练;强化学习;论文, 代码 - 2024-利用反事实世界建模理解物理动力学
ECCV 2024;论文, 网站, 代码 - 2024-Genie2:网站
- 2024-WHALE:迈向具身决策的通用且可扩展的世界模型 论文
- 2024-从物理定律角度看,视频生成距离世界模型还有多远? 论文
- 2024-PIVOT-R:面向机器人操作的基元驱动、航点感知世界模型
NeurIPS 2024论文 - 2024-RoboDreamer:学习用于机器人想象的组合式世界模型 论文
- 2024-TD-MPC2:适用于连续控制的可扩展、鲁棒世界模型
ICLR 2024论文 - 2024-分层世界模型作为视觉全身人形控制器 论文
- 2024-具有时间感知和上下文增强标记的高效世界模型
ICML 2024 - 2024-3D-VLA:一种3D视觉-语言-动作生成式世界模型
ICML 2024论文 - 2024-Newton,来自Archetype AI
网站链接 - 2024-MagicTime:延时视频生成模型作为变质模拟器
arxiv论文, 代码 - 2024-IWM:在视觉表征学习中学习并利用世界模型
arxiv,来自Yann LeCun团队论文 - 2024-视频作为现实世界决策的新语言
arxiv,Deepmind论文 - 2024-Genie:生成式交互环境
Deepmind论文, 网站 - 2024-Sora
OpenAI,生成式AI链接, 技术报告 - 2024-LWM:基于RingAttention的百万级视频与语言世界模型
arxiv;生成式AI论文, 代码 - 2024-WorldDreamer:通过预测掩码令牌,迈向用于视频生成的通用世界模型
arxiv;生成式AI论文 - 2024-视频预测模型作为强化学习的奖励
NeurIPS 2024论文, 代码 - 2024-V-JEPA:重新审视特征预测,用于从视频中学习视觉表征
来自Yann LeCun团队论文, 代码 - 2023-STORM:用于强化学习的高效随机Transformer世界模型
NeurIPS 2023论文, 代码 - 2023-世界模型骨干网络对决:RNN、Transformer和S4
NeurIPS 2023论文 - 2023-I-JEPA:基于联合嵌入预测架构的图像自监督学习
CVPR 2023;来自Yann LeCun团队论文, 代码 - 2023-用于视频生成的时序一致Transformer
ICML 2023论文, 代码 - 2023-用语言学习建模世界
arxiv论文, 代码 - 2023-Transformer是样本高效的世界模型
ICLR 2023;强化学习论文, 代码 - 2023-基于梯度的世界模型规划
arxiv;来自Yann LeCun团队;规划; 论文 - 2023-通过策略引导的轨迹扩散构建世界模型
arxiv;强化学习; 论文 - 2023-DreamerV3:通过世界模型掌握多个领域
arxiv;强化学习; 论文, 代码 - 2022-Daydreamer:用于物理机器人学习的世界模型
CoRL 2022;机器人技术论文, 代码 - 2022-用于视觉控制的掩码世界模型
CoRL 2022;机器人技术论文, 代码 - 2022-通往自主机器智能之路
openreview;来自Yann LeCun团队;世界模型总体路线图; 论文; 幻灯片1, 幻灯片2, 幻灯片3; 视频 - 2021-LEXA:通过世界模型发现并实现目标
NeurIPS 2021; 论文, 网站与代码 - 2021-DreamerV2:用离散世界模型征服Atari
ICLR 2021;强化学习;来自Google与Deepmind论文, 代码 - 2020-Dreamer:从梦想到控制:通过潜在想象学习行为
ICLR 2020论文, 代码 - 2019-从像素中学习潜在动力学以进行规划
ICML 2019论文, 代码 - 2018-基于模型的规划,支持离散与连续动作
arxiv;强化学习、规划;来自Yann LeCun团队; 论文 - 2018-循环世界模型促进策略演化
NeurIPS 2018; 论文, 代码
其他相关论文
- 2023-基于 occupancy 预测的自动驾驶神经规划器
ITSC 2023;规划,神经预测引导的规划;Waymo 开放运动数据集论文
其他相关仓库
Awesome-World-Model, Awesome-World-Models-for-AD , 来自上海人工智能实验室的世界模型论文列表, Awesome-Papers-World-Models-Autonomous-Driving.
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
opencode
OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。