AI 解读由 AI 自动生成，仅供参考

DriveAGI 是由 OpenDriveLab 推出的自动驾驶基础模型集合，旨在推动通用自动驾驶技术的发展。它核心解决了当前自动驾驶研究面临的数据匮乏与模型泛化能力不足的难题。通过发布 GenAD 项目，DriveAGI 提供了目前规模最大的真实世界驾驶视频数据集 OpenDV，其容量高达 1700 小时，是主流 nuScenes 数据集的 300 倍，涵盖了城市、高速及乡村等多样场景。此外，集合中还包含了具备高保真长时序预测能力的通用驾驶世界模型 Vista，以及支持多模态交互的 DriveLM 等前沿成果。

该项目特别适合自动驾驶领域的研究人员与开发者使用。对于希望训练高性能感知或决策模型的团队，DriveAGI 不仅提供了海量数据，还贴心地推出了仅占原数据 1/20 的 OpenDV-mini 版本，大幅降低了实验门槛和存储成本。其独特的技术亮点在于构建了从大规模数据清洗、语言标注到世界模型预测的完整闭环，支持模型执行多模态动作并评估驾驶行为。无论是进行学术探索还是工程验证，DriveAGI 都为构建更智能、更通用的自动驾驶系统提供了坚实的基础设施。

使用场景

某自动驾驶初创公司的算法团队正致力于提升车辆在复杂城市路况下的长时预测能力，急需大规模真实驾驶数据来训练新一代端到端模型。

没有 DriveAGI 时

数据规模严重受限：团队仅能依赖 nuScenes 等公开数据集，其数据量仅为实际需求的几百分之一，导致模型难以覆盖罕见的极端路况（Corner Cases）。
场景多样性不足：现有数据多集中于特定城市或高速路段，缺乏乡村、恶劣天气及复杂交互场景，模型泛化能力差，换个城市就“水土不服”。
预处理成本高昂：原始视频清洗、帧抽取和标注需耗费数周人力，且缺乏统一的语言描述注释，阻碍了多模态大模型的快速迭代。
长时预测效果不佳：由于缺乏长时序连续视频，模型无法学习长时间跨度的驾驶逻辑，难以准确预测未来几秒后的交通流变化。

使用 DriveAGI 后

海量数据触手可及：直接接入 OpenDV 数据集，利用其超 1700 小时的真实驾驶视频（是 nuScenes 的 300 倍），瞬间填补了数据缺口。
全域场景覆盖：借助涵盖城市、高速、乡村等多维度的丰富场景，模型迅速学会了处理各类复杂交互，显著提升了跨地域的泛化性能。
开箱即用的多模态数据：利用 DriveAGI 提供的预处理图像脚本和语言注释，团队在几天内便完成了数据准备，大幅加速了 GenAD 等模型的训练进程。
精准长时推演：基于 Vista 世界模型的能力，系统现在能高保真地预测长时序未来画面，并作为奖励函数评估驾驶行为，让车辆决策更具前瞻性。

DriveAGI 通过提供工业级规模的驾驶数据与前沿基础模型，将自动驾驶研发从“数据饥渴”时代带入了“数据富足”的新阶段。

运行环境要求

操作系统

未说明

GPU

未说明（但涉及大规模视频预测和世界模型训练，通常隐含需要高性能 NVIDIA GPU）

内存

未说明（处理完整数据集需极大内存，原文建议先在小子集上实验）

依赖

notesREADME 主要介绍数据集（OpenDV-YouTube, OpenDV-mini）和相关论文（GenAD, Vista, DriveLM），未直接提供具体的代码运行环境配置。数据存储需求巨大：完整原始视频约 3TB，处理后图像约 24TB；迷你版（Mini subset）原始视频约 44GB，处理后图像约 390GB。官方强烈建议先在 1/20 的小子集或 Mini 版本上稳定实验后，再尝试全量数据集。具体代码和模型实现需参考子项目仓库（如 github.com/OpenDriveLab/Vista）。

python未说明

未说明

快速开始

[!IMPORTANT] 🌟 请在 opendrivelab.com 上获取最新资讯！

新闻

[ 新❗️] 2024/09/08 我们发布了 OpenDV-YouTube 的迷你版本，包含 25 小时的驾驶视频。欢迎按照 OpenDV-mini 中的说明尝试这个迷你子集！

2024/05/28 我们发布了最新的研究成果，Vista，一种可泛化的驾驶世界模型。它能够预测高保真度、长时程的未来场景，执行多模态动作，并可用作泛化奖励函数来评估驾驶行为。

2024/03/24 OpenDV-YouTube 更新： OpenDV-YouTube 的全套工具包现已发布，包括数据下载与处理脚本以及语言标注。详情请参阅 OpenDV-YouTube。

2024/03/15 我们为 GenAD 项目发布了大规模驾驶视频数据集 OpenDV-YouTube 的完整视频列表。数据下载与处理脚本以及语言标注将于下周发布，请持续关注。

2024/01/24 我们很高兴地宣布对我们的调查进行了一些更新，并感谢来自社区的 John Lambert 和 Klemens Esterle 对文稿提出的宝贵建议。

GenAD：OpenDV 数据集

opendv

OpenDV 数据集中 真实世界驾驶场景示例，包括城市、高速公路、乡村等场景。

⭐ 用于自动驾驶的广义预测模型（CVPR 2024，精选）

论文 | 视频 | 海报 | 演示文稿

🎦 至今为止 最大的驾驶视频数据集，包含超过 1700 小时的真实世界驾驶视频，其规模是广泛使用的 nuScenes 数据集的 300 倍。

完整视频列表（基于 YouTube 许可）：OpenDV 视频。
- 下载的原始视频（大多为 1080P）大约占用 3 TB 的存储空间。然而，这些长达数小时的视频直接用于模型训练会非常消耗内存。
- 因此，我们将其预处理为连续图像，这样在训练过程中加载起来更加灵活高效。处理后的图像总共占用约 24 TB 的存储空间。
- 建议先在小规模子集上进行实验，比如整个数据集的 1/20。官方也提供了一个迷你子集，详细信息请参阅 OpenDV-mini。待训练稳定后，再将方法应用于整个数据集，祝你好运 🤞。
[ 新❗️] 迷你子集：OpenDV-mini。
- OpenDV-YouTube 的迷你版本。原始视频大约占用 44 GB 的存储空间，而处理后的图像则需要约 390 GB 的存储空间。
数据准备的分步指南：OpenDV-YouTube。
OpenDV-YouTube 的语言标注：OpenDV-YouTube-Language。

快速事实：

任务：针对驾驶场景的大规模视频预测。
数据来源：YouTube，经过精心收集和筛选。
多样性亮点：1700 小时的驾驶视频，覆盖 40 个国家的 244 多座城市。
相关工作：GenAD 被 CVPR 2024 接受，入选精选。
注：由于我们在训练中随机抽取了 OpenDV-2K 中其他公开数据集的一部分，因此不会发布这些数据集的标注。这些子集并不完整，且难以追溯其原始来源（即文件名）。不过，您可以根据我们的论文 ((https://arxiv.org/abs/2403.09630)) 自行重现收集和标注过程。

@inproceedings{yang2024genad,
  title={Generalized Predictive Model for Autonomous Driving},
  author={Jiazhi Yang and Shenyuan Gao and Yihang Qiu and Li Chen and Tianyu Li and Bo Dai and Kashyap Chitta and Penghao Wu and Jia Zeng and Ping Luo and Jun Zhang and Andreas Geiger and Yu Qiao and Hongyang Li},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  year={2024}
}

Vista

Vista 在各种驾驶场景中模拟的未来画面。建议在演示页面上查看。

🌏 具有高保真度和多功能可控性的通用驾驶世界模型 (NeurIPS 2024)

快速事实：

推出全球首个通用驾驶世界模型。
任务：对野外驾驶场景进行高保真、动作条件化且长 horizon 的未来预测。
数据集：OpenDV-YouTube、nuScenes
代码与模型：https://github.com/OpenDriveLab/Vista
视频演示：https://vista-demo.github.io
相关工作：Vista、GenAD

@inproceedings{gao2024vista,
 title={Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability}, 
 author={Shenyuan Gao and Jiazhi Yang and Li Chen and Kashyap Chitta and Yihang Qiu and Andreas Geiger and Jun Zhang and Hongyang Li},
 booktitle={Advances in Neural Information Processing Systems (NeurIPS)},
 year={2024}
}

@inproceedings{yang2024genad,
  title={{Generalized Predictive Model for Autonomous Driving}},
  author={Jiazhi Yang and Shenyuan Gao and Yihang Qiu and Li Chen and Tianyu Li and Bo Dai and Kashyap Chitta and Penghao Wu and Jia Zeng and Ping Luo and Jun Zhang and Andreas Geiger and Yu Qiao and Hongyang Li},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  year={2024}
}

DriveLM

推出首个关于**驾驶语言提示**的基准测试。

快速事实：

任务：以语言提示作为输入，预测场景中的轨迹
原始数据集：nuScenes、CARLA（即将发布）
仓库：https://github.com/OpenDriveLab/DriveLM、https://github.com/OpenDriveLab/ELM
相关工作：DriveLM、ELM
相关挑战：2024年语言驱动自动驾驶挑战赛

驾驶数据综述

摘要

随着自动驾驶技术的不断成熟与应用，系统性地审视开源自动驾驶数据集对于推动行业生态系统的稳健发展至关重要。在本综述中，我们对超过70篇论文进行了全面分析，探讨了自动驾驶数据集的时间线、影响力、挑战及未来趋势。

自动驾驶开源数据生态系统：现状与未来

英文版

中文版 已被《中国科学：信息科学》接收

@article{li2024_driving_dataset_survey,
 title = {自动驾驶开源数据生态系统：现状与未来},
 author = {Hongyang Li 和 Yang Li 和 Huijie Wang 和 Jia Zeng 和 Huilin Xu 和 Pinlong Cai 和 Li Chen 和 Junchi Yan 和 Feng Xu 和 Lu Xiong 和 Jingdong Wang 和 Futang Zhu 和 Chunjing Xu 和 Tiancai Wang 和 Fei Xia 和 Beipeng Mu 和 Zhihui Peng 和 Dahua Lin 和 Yu Qiao},
 journal = {中国科学：信息科学},
 year = {2024},
 doi = {10.1360/SSI-2023-0313}
}

overview 当前的自动驾驶数据集自2010年代以来大致可分为两代。我们根据传感器配置、输入模态、任务类别、数据规模、生态系统等因素定义数据集的影响力（纵轴）。

overview

标题	主办方	年份	任务	参赛队伍
自动驾驶挑战赛	OpenDriveLab	CVPR2023	感知 / OpenLane 拓扑	111
感知 / 在线高清地图构建
感知 / 3D 占用预测
预测与规划 / nuPlan 规划
Waymo Open Dataset Challenges	Waymo	CVPR2023	感知 / 2D视频全景分割	35
感知 / 姿态估计
预测 / 运动预测
预测 / 模拟智能体
CVPR2022	预测 / 运动预测	128
预测 / 占用与流预测
感知 / 3D语义分割
感知 / 3D纯相机检测
CVPR2021	预测 / 运动预测	115
预测 / 交互预测
感知 / 实时3D检测
感知 / 实时2D检测
Argoverse Challenges	Argoverse	CVPR2023	预测 / 多智能体预测	81
感知与预测 / 统一的基于传感器的检测、跟踪和预测
感知 / LiDAR场景流
预测 / 3D占用预测
CVPR2022	感知 / 3D目标检测	81
预测 / 运动预测
感知 / 立体深度估计
CVPR2021	感知 / 立体深度估计	368
预测 / 运动预测
感知 / 流式2D检测
CARLA自动驾驶挑战赛	CARLA团队, 英特尔	2023	规划 / CARLA AD挑战赛2.0	-
NeurIPS2022	规划 / CARLA AD挑战赛1.0	19
NeurIPS2021	规划 / CARLA AD挑战赛1.0	-	粤港澳大湾区（黄埔）国际算法算例大赛	琶洲实验室	2023	感知 / 跨场景单目深度估计	-
感知 / 路侧毫米波雷达标定和目标跟踪	-
2022	感知 / 路侧三维感知算法	-
感知 / 街景图像店面招牌文字识别	-	AI Driving Olympics	ETH Zurich, University of Montreal,Motional	NeurIP2021	感知 / nuScenes全景分割	11
ICRA2021	感知 / nuScenes检测	456
感知 / nuScenes跟踪
预测 / nuScenes预测
感知 / nuScenes LiDAR分割	计图 (Jittor)人工智能算法挑战赛	国家自然科学基金委信息科学部	2021	感知 / 交通标志检测	37	KITTI视觉基准测试套件	图宾根大学	2012	感知 / 立体、光流、场景流、深度、里程计、目标、跟踪、道路、语义	5,610

数据集	年份	多样性	传感器	标注	论文
场景	小时	区域	相机	Lidar	其他	KITTI	2012	50	6	EU	字体视图	✗	GPS & IMU	2D BBox & 3D BBox	链接	Cityscapes	2016	-	-	EU	前视图	✗	2D 分割	链接
Lost and Found	2016	112	-	-	前视图	✗		2D 分割	链接
Mapillary	2016	-	-	全球	街景视图	✗		2D 分割	链接
DDD17	2017	36	12	EU	前视图	✗	GPS、CAN总线和事件相机	-	链接
Apolloscape	2016	103	2.5	AS	前视图	✗	GPS和IMU	3D边界框和2D分割	链接
BDD-X	2018	6984	77	NA	前视图	✗		语言	链接
HDD	2018	-	104	NA	前视图	✓	GPS、IMU和CAN总线	2D边界框	链接
IDD	2018	182	-	AS	前视图	✗		2D分割	链接
SemanticKITTI	2019	50	6	EU	✗	✓		3D分割	链接
Woodscape	2019	-	-	全球	360°	✓	GPS、IMU和CAN总线	3D边界框和2D分割	链接
DrivingStereo	2019	42	-	AS	前视图	✓		-	链接
Brno-Urban	2019	67	10	EU	前视图	✓	GPS、IMU和红外相机	-	链接
A*3D	2019	-	55	AS	前视图	✓		3D边界框	链接
Talk2Car	2019	850	283.3	NA	前视图	✓		语言和3D边界框	链接
Talk2Nav	2019	10714	-	模拟环境	360°	✗		语言	链接
PIE	2019	-	6	NA	前视图	✗		2D边界框	链接
UrbanLoco	2019	13	-	AS & NA	360°	✓	IMU	-	链接
TITAN	2019	700	-	AS	前视图	✗		2D BBox	链接
H3D	2019	160	0.77	NA	前视图	✓	GPS & IMU	-	链接
A2D2	2020	-	5.6	EU	360°	✓	GPS & IMU & CAN-bus	3D BBox & 2D Seg	链接
CARRADA	2020	30	0.3	NA	前视图	✗	Radar	3D BBox	链接
DAWN	2019	-	-	全球	前视图	✗		2D BBox	链接
4Seasons	2019	-	-	-	前视图	✗	GPS & IMU	-	链接
UNDD	2019	-	-	-	前视图	✗		2D Seg	链接
SemanticPOSS	2020	-	-	AS	✗	✓	GPS & IMU	3D Seg	链接
Toronto-3D	2020	4	-	NA	✗	✓		3D Seg	链接
ROAD	2021	22	-	EU	前视图	✗		2D BBox & Topology	链接
Reasonable Crowd	2021	-	-	模拟	前视图	✗		语言	链接
METEOR	2021	1250	20.9	AS	前视图	✗	GPS	语言	链接
PandaSet	2021	179	-	NA	360°	✓	GPS & IMU	3D BBox	链接
MUAD	2022	-	-	模拟	360°	✓		2D Seg& 2D BBox	链接
TAS-NIR	2022	-	-	-	前视图	✗	红外相机	2D Seg	链接
LiDAR-CS	2022	6	-	模拟	✗	✓		3D BBox	链接
WildDash	2022	-	-	-	前视	✗		2D Seg	链接
OpenScene	2023	1000	5.5	美国和北美	360°	✗		3D Occ	链接
ZOD	2023	1473	8.2	欧盟	360°	✓	GPS & IMU & CAN-bus	3D BBox & 2D Seg	链接
nuScenes	2019	1000	5.5	美国和北美	360°	✓	GPS & CAN-bus & Radar & HDMap	3D BBox & 3D Seg	链接
Argoverse V1	2019	324k	320	北美	360°	✓	HDMap	3D BBox & 3D Seg	链接
Waymo	2019	1000	6.4	北美	360°	✓		2D BBox & 3D BBox	链接
KITTI-360	2020	366	2.5	欧盟	360°	✓		3D BBox & 3D Seg	链接
ONCE	2021	-	144	美国	360°	✓		3D BBox	链接
nuPlan	2021	-	120	美国和北美	360°	✓		3D BBox	链接
Argoverse V2	2022	1000	4	北美	360°	✓	HDMap	3D BBox	链接
DriveLM	2023	1000	5.5	美国和北美	360°	✗		语言	链接

数据集	年份	多样性	传感器	标注	论文
场景	帧数	相机	Lidar	类型	空间	实例	轨迹
Caltech Lanes	2008	4	1224/1224		✗		个人车辆	✓	✗	链接
VPG	2017	-	20K/20K		✗		个人车辆	✗	-	链接
TUsimple	2017	6.4K	6.4K/128K		✗		PV	✓	✗	链接
CULane	2018	-	133K/133K		✗		PV	✓	-	链接
ApolloScape	2018	235	115K/115K		✓		PV	✗	✗	链接
LLAMAS	2019	14	79K/100K	前视图像	✗	车道线	PV	✓	✗	链接
3D Synthetic	2020	-	10K/10K		✗		PV	✓	-	链接
CurveLanes	2020	-	150K/150K		✗		PV	✓	-	链接
VIL-100	2021	100	10K/10K		✗		PV	✓	✗	链接
OpenLane-V1	2022	1K	200K/200K		✗		3D	✓	✓	链接
ONCE-3DLane	2022	-	211K/211K		✗		3D	✓	-	链接
OpenLane-V2	2023	2K	72K/72K	多视角图像	✗	车道中心线、车道段	3D	✓	✓	链接

子任务	输入	输出	评估	数据集
运动预测	周围交通状态	单辆或多辆车辆的时空轨迹	位移误差	Argoverse
nuScenes
Waymo
Interaction
MONA
轨迹规划	自车运动状态、场景认知与预测	自车轨迹	位移误差、安全性、合规性、舒适性	nuPlan
CARLA
MetaDrive
Apollo
路径规划	道路网络地图	连接节点与路段的路径	效率、节能	OpenStreetMap
交通运输网络
DTAlite
PeMS
纽约市出租车数据

OpenScene

目前最大的、最新的用于视觉预训练的3D占用预测数据集。

快速信息：

任务：基于大量数据，预测环境中的3D占用情况。
原始数据集：nuPlan
仓库：https://github.com/OpenDriveLab/OpenScene
相关工作：OccNet
相关挑战：2023年3D占用预测挑战赛、2024年占用与流量AGC挑战赛、2024年预测性世界模型AGC挑战赛

OpenLane-V2 更新

蓬勃发展的OpenLane-V2，包含标准分辨率（SD）地图及地图要素。

快速信息：

任务：以多视角图像和SD地图（也称ADAS地图）作为输入，在没有高清地图辅助的情况下，实时构建驾驶场景。
仓库：https://github.com/OpenDriveLab/OpenLane-V2
相关工作：OpenLane-V2、TopoNet、LaneSegNet
相关挑战：2023年车道拓扑挑战赛、2024年无图驾驶AGC挑战赛

DriveAGI 快速上手指南

DriveAGI 是由 OpenDriveLab 开源的自动驾驶通用智能项目集合，包含大规模驾驶视频数据集（OpenDV）、世界模型（Vista）、语言驱动基准（DriveLM）等前沿成果。本指南将帮助你快速搭建环境并体验核心功能。

环境准备

在开始之前，请确保你的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu 20.04/22.04)
Python: 3.8 或更高版本
GPU: 支持 CUDA 的 NVIDIA 显卡（运行世界模型或处理视频数据建议显存 ≥ 24GB）
存储:
- 基础代码运行：至少 50GB
- OpenDV-mini 数据集：约 440GB (原始视频 + 处理后图像)
- 完整 OpenDV 数据集：需预留 27TB+ 空间（初次尝试强烈建议使用 mini 版）
前置依赖:
- Git
- FFmpeg (用于视频处理)
- CUDA Toolkit (版本需与 PyTorch 匹配)

💡 国内加速建议：
代码克隆可使用 Gitee 镜像（如有）或配置 git config --global http.proxy。
Python 包安装推荐配置清华源或阿里源：
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
HuggingFace 模型下载若受阻，可使用 HF_ENDPOINT 环境变量指向国内镜像：
export HF_ENDPOINT=https://hf-mirror.com

安装步骤

1. 克隆项目代码

git clone https://github.com/OpenDriveLab/DriveAGI.git
cd DriveAGI

2. 创建虚拟环境并安装依赖

推荐使用 Conda 管理环境。以下以 Vista (世界模型) 和 GenAD (数据预处理) 的通用依赖为例：

# 创建环境 (根据具体子项目需求调整 python 版本，通常 3.9+ 较稳妥)
conda create -n driveagi python=3.9 -y
conda activate driveagi

# 安装 PyTorch (请务必根据你的 CUDA 版本前往 pytorch.org 获取对应命令，以下为示例)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# 安装项目核心依赖
pip install -r requirements.txt

注意：DriveAGI 是一个聚合仓库，不同子项目（如 vista, opendv, drivelm）可能有独立的 requirements.txt。请进入对应子目录检查并安装特定依赖。例如使用 Vista 模型：
cd vista
pip install -r requirements.txt

3. 数据准备 (以 OpenDV-mini 为例)

由于完整数据集过大，新手请先下载 OpenDV-mini 进行验证。

获取视频列表与脚本：参考 opendv/README.md 中的指引。

下载数据：使用提供的脚本从 YouTube 下载迷你版视频（约 44GB）。

cd opendv
# 执行下载脚本 (具体命令请参考该目录下的最新说明)
python download_opendv_mini.py

数据预处理：将视频转换为模型可用的图像帧序列（处理后约 390GB）。

python preprocess_videos.py --input_dir ./raw_videos --output_dir ./processed_images --subset mini

基本使用

以下展示两个最核心的使用场景：运行世界模型推理和使用数据集。

场景一：运行 Vista 世界模型推理

Vista 能够根据当前帧和动作指令预测未来驾驶场景。

下载预训练模型：从 HuggingFace 下载 Vista 权重（配置国内镜像加速）：

export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download OpenDriveLab/Vista --local-dir ./checkpoints/vista

执行推理：使用提供的示例脚本进行未来帧预测。

cd ../vista
python demo/inference.py \
    --config configs/vista_demo.yaml \
    --checkpoint ../checkpoints/vista/model.pth \
    --input_image assets/demo_input.jpg \
    --action "turn_left" \
    --output_dir ./results

运行成功后，./results 目录下将生成预测的未来驾驶视频序列。

场景二：加载 OpenDV 数据集进行训练准备

如果你打算基于 GenAD 论文复现视频预测任务，可使用 PyTorch DataLoader 加载处理好的数据。

import torch
from opendv.dataset import OpenDVDataSet

# 初始化数据集 (指向预处理后的图像目录)
dataset = OpenDVDataSet(
    root_dir='./opendv/processed_images',
    split='mini_train',
    seq_length=16,
    transform=None
)

# 创建 DataLoader
dataloader = torch.utils.data.DataLoader(
    dataset, 
    batch_size=4, 
    shuffle=True, 
    num_workers=4
)

# 简单遍历验证
for batch in dataloader:
    video_frames, actions = batch
    print(f"Batch shape: {video_frames.shape}")
    break

更多详细文档、完整数据集下载及特定任务（如 DriveLM 语言标注）请查阅各子模块目录下的 README.md。

常见问题

运行 mini-dataset-extract 或 video2img 脚本时出现 'Invalid NAL unit size' 和 'missing picture in access unit' 错误怎么办？

GenAD 的训练代码、推理代码以及数据处理脚本会开源吗？

如何获取 YouTube 视频的内参（intrinsic params）以用于训练 Mono3D 模型？

使用 GenAD 编码器进行规划任务时，应该使用哪个扩散时间步（diffusion timestep）？

在使用 GenAD 进行特征提取时，输入帧是否经过噪声增强处理？

使用 GenAD 进行规划任务时，特征是从编码器的哪一层提取的？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|今天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|昨天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 140.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|3天前

开发框架图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|今天

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|昨天

图像数据工具视频

使用场景

没有 DriveAGI 时

使用 DriveAGI 后

运行环境要求

快速开始

目录

新闻

GenAD：OpenDV 数据集

⭐ 用于自动驾驶的广义预测模型（CVPR 2024，精选）

论文 | 视频 | 海报 | 演示文稿

Vista

🌏 具有高保真度和多功能可控性的通用驾驶世界模型 (NeurIPS 2024)

DriveLM

驾驶数据综述

摘要

相关工作汇编

OpenScene

OpenLane-V2 更新

DriveAGI 快速上手指南

环境准备

安装步骤

1. 克隆项目代码

2. 创建虚拟环境并安装依赖

3. 数据准备 (以 OpenDV-mini 为例)

基本使用

场景一：运行 Vista 世界模型推理

场景二：加载 OpenDV 数据集进行训练准备

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

Deep-Live-Cam

ML-For-Beginners