[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-OpenDriveLab--DriveLM":3,"tool-OpenDriveLab--DriveLM":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",154349,2,"2026-04-13T23:32:16",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":72,"owner_avatar_url":73,"owner_bio":74,"owner_company":75,"owner_location":75,"owner_email":76,"owner_twitter":72,"owner_website":77,"owner_url":78,"languages":79,"stars":91,"forks":92,"last_commit_at":93,"license":94,"difficulty_score":95,"env_os":96,"env_gpu":97,"env_ram":97,"env_deps":98,"category_tags":101,"github_topics":102,"view_count":32,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":112,"updated_at":113,"faqs":114,"releases":145},7400,"OpenDriveLab\u002FDriveLM","DriveLM","[ECCV 2024 Oral] DriveLM: Driving with Graph Visual Question Answering","DriveLM 是一个面向自动驾驶领域的开源项目，旨在通过“图视觉问答”（Graph VQA）技术，让 AI 像人类一样理解并推理复杂的驾驶场景。它基于 nuScenes 和 CARLA 数据构建了专用数据集，并提供了一套完整的基准模型，能够同时处理感知、预测和规划任务。\n\n传统自动驾驶系统往往难以用自然语言解释其决策逻辑，或在面对“如果……会怎样”的未来推演时表现不足。DriveLM 通过将道路场景转化为结构化图谱，结合视觉语言模型（VLM），不仅实现了端到端的驾驶控制，还能回答关于交通状况、潜在风险及未来轨迹的自然语言问题。这种机制有效模拟了人类驾驶员的推理过程，提升了系统的可解释性与交互能力。\n\n该项目特别适合作为自动驾驶算法研究人员、计算机视觉开发者以及多模态大模型探索者的研究基线。作为 CVPR 2024 自动驾驶挑战赛的核心赛道之一，DriveLM 提供了从数据准备、模型训练到评估提交的全流程支持。其独特的技术亮点在于将非结构化的视觉输入转化为逻辑严密的图结构问答任务，为构建更安全、更智能的“全栈式”自动驾驶系统开辟了新路径。","> [!IMPORTANT]\n> 🌟 Stay up to date at [opendrivelab.com](https:\u002F\u002Fopendrivelab.com\u002F#news)!\n\n\u003Cdiv id=\"top\" align=\"center\">\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenDriveLab_DriveLM_readme_527c5e3a0c7d.jpg\">\n\u003C\u002Fp>\n    \n**DriveLM:** *Driving with **G**raph **V**isual **Q**uestion **A**nswering*\n\n\u003C!-- Download dataset [**HERE**](docs\u002Fdata_prep_nus.md) (serves as Official source for `Autonomous Driving Challenge 2024`) -->\n`Autonomous Driving Challenge 2024` **Driving-with-Language** [Leaderboard](https:\u002F\u002Fopendrivelab.com\u002Fchallenge2024\u002F#driving_with_language).\n\u003C\u002Fdiv>\n\n\u003Cdiv id=\"top\" align=\"center\">\n\n[![](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject%20Page-8A2BE2)](https:\u002F\u002Fopendrivelab.com\u002FDriveLM\u002F)\n[![License: Apache2.0](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-Apache%202.0-blue.svg)](#licenseandcitation)\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2312.14150-b31b1b.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.14150)\n[![](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLatest%20release-v1.1-yellow)](#gettingstarted)\n[![Hugging Face](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTest%20Server-%F0%9F%A4%97-ffc107?color=ffc107&logoColor=white)](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FAGC2024\u002Fdriving-with-language-official)\n\n\u003C!-- \u003Ca href=\"https:\u002F\u002Fopendrivelab.github.io\u002FDriveLM\" target=\"_blank\">\n    \u003Cimg alt=\"Github Page\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject%20Page-white?logo=GitHub&color=green\" \u002F>\n  \u003C\u002Fa> -->\n\n\u003C!-- [![Hugging Face](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-DriveLM-ffc107?color=ffc107&logoColor=white)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenDrive\u002FDriveLM) -->\n\n\u003C\u002Fdiv>\n\n\n\u003C!-- > https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FDriveLM\u002Fassets\u002F103363891\u002F67495435-4a32-4614-8d83-71b5c8b66443 -->\n\n\u003C!-- > above is old demo video. demo scene token: cc8c0bf57f984915a77078b10eb33198 -->\n\nhttps:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FDriveLM\u002Fassets\u002F54334254\u002Fcddea8d6-9f6e-4e7e-b926-5afb59f8dce2\n\n\u003C!-- > above is new demo video. demo scene token: cc8c0bf57f984915a77078b10eb33198 -->\n\n## Highlights \u003Ca name=\"highlight\">\u003C\u002Fa>\n\n🔥 We instantiate datasets (**DriveLM-Data**) built upon nuScenes and CARLA, and propose a VLM-based baseline approach (**DriveLM-Agent**) for jointly performing **Graph VQA** and end-to-end driving. \n\n\u003C!-- 🔥 **The key insight** is that with our proposed suite, we obtain a suitable proxy task to mimic the human reasoning process during driving.  -->\n\n🏁 **DriveLM** serves as a main track in the [**`CVPR 2024 Autonomous Driving Challenge`**](https:\u002F\u002Fopendrivelab.com\u002Fchallenge2024\u002F#driving_with_language). Everything you need for the challenge is [HERE](https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FDriveLM\u002Ftree\u002Fmain\u002Fchallenge), including baseline, test data and submission format and evaluation pipeline!\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenDriveLab_DriveLM_readme_95ebd8758850.jpg\">\n\u003C\u002Fp>\n\n\n\u003C!-- ### Highlights of the DriveLM-Data -->\n\n\u003C!-- #### In the view of full-stack autonomous driving\n- 🛣 Completeness in functionality (covering **Perception**, **Prediction**, and **Planning** QA pairs).\n\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenDriveLab_DriveLM_readme_3a84c6d5b4e5.png\">\n\u003C\u002Fp>  -->\n\n\n\u003C!-- - 🔜 Reasoning for future events that have not yet happened.\n  - Many **\"What If\"**-style questions: imagine the future by language.\n \n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenDriveLab_DriveLM_readme_12edefc7df69.png\" width=70%>\n\u003C\u002Fp>\n\n- ♻ Task-driven decomposition.\n  - **One** scene-level description into **many** frame-level trajectories & planning QA pairs.\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenDriveLab_DriveLM_readme_eb9a4f71ae57.png\">\n\u003C\u002Fp> -->\n\n\u003C!-- ### Highlights of the DriveLM-Agent -->\n\n\u003C!-- #### In the view of the general Vision Language Models -->\n\u003C!-- 🕸️ Multi-modal **Graph Visual Question Answering** (GVQA) benchmark for structured reasoning in the general Vision Language Models.\n\nhttps:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FDriveLM-new\u002Fassets\u002F75412366\u002F78c32442-73c8-4f1d-ab69-34c15e7060af -->\n\n\u003C!-- > above is graph VQA demo video.  -->\n\n## News \u003Ca name=\"news\">\u003C\u002Fa>\n\n- **`[2025\u002F01\u002F08]`** [Drive-Bench](https:\u002F\u002Fdrive-bench.github.io\u002F) release! In-depth analysis in what are DriveLM really benchmarking. Take a look at [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2501.04003).\n- **`[2024\u002F07\u002F16]`** DriveLM [official leaderboard](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FAGC2024\u002Fdriving-with-language-official) reopen!\n- **`[2024\u002F07\u002F01]`** DriveLM got accepted to ECCV 2024! Congrats to the team!\n- **`[2024\u002F06\u002F01]`** Challenge ended up! [See the final leaderboard](https:\u002F\u002Fopendrivelab.com\u002Fchallenge2024\u002F#driving_with_language).\n- **`[2024\u002F03\u002F25]`** Challenge test server is online and the test questions are released. [Check it out!](https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FDriveLM\u002Ftree\u002Fmain\u002Fchallenge)\n- **`[2024\u002F02\u002F29]`** Challenge repo release. Baseline, data and submission format, evaluation pipeline. [Have a look!](https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FDriveLM\u002Ftree\u002Fmain\u002Fchallenge)\n- **`[2023\u002F08\u002F25]`** DriveLM-nuScenes demo released.\n- **`[2023\u002F12\u002F22]`** DriveLM-nuScenes full `v1.0` and [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.14150) released.\n\u003C!-- > - **`[Early 2024]`** DriveLM-Agent inference code.  -->\n\u003C!-- > - **`Note:`** We plan to release a simple, flexible training code that supports multi-view inputs as a starter kit for the AD challenge (stay tuned for details).  -->\n\n## Table of Contents\n1. [Highlights](#highlight)\n2. [Getting Started](#gettingstarted)\n   - [Prepare DriveLM-nuScenes](docs\u002Fdata_prep_nus.md)  \n3. [Current Endeavors and Future Horizons](#timeline)\n4. [TODO List](#newsandtodolist)\n5. [DriveLM-Data](#drivelmdata)\n   - [Comparison and Stats](#comparison)\n   - [GVQA Details](docs\u002Fgvqa.md)\n   - [Annotation and Features](docs\u002Fdata_details.md)\n6. [License and Citation](#licenseandcitation)\n7. [Other Resources](#otherresources)\n\n\u003C!--\n- [News](#news)\n- [DriveLM-Data](#drivelm-data)\n- [Getting Started](#getting-started)\n- [License and Citation](#license-and-citation)\n- [Other Resources](#other-resources) -->\n\n\n## Getting Started \u003Ca name=\"gettingstarted\">\u003C\u002Fa>\nTo get started with DriveLM: \n- [Prepare DriveLM-nuScenes](\u002Fdocs\u002Fdata_prep_nus.md)\n- [Challenge devkit](\u002Fchallenge\u002F)\n- [More content coming soon](#todolist)\n\n\u003Cp align=\"right\">(\u003Ca href=\"#top\">back to top\u003C\u002Fa>)\u003C\u002Fp>\n\n\n## Current Endeavors and Future Directions  \u003Ca name=\"timeline\">\u003C\u002Fa>\n> - The advent of GPT-style multimodal models in real-world applications motivates the study of the role of language in driving.\n> - Date below reflects the arXiv submission date.\n> - If there is any missing work, please reach out to us!\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenDriveLab_DriveLM_readme_1f19f52fb57d.jpg\">\n\u003C\u002Fp>\n\nDriveLM attempts to address some of the challenges faced by the community.\n\n- **Lack of data**: DriveLM-Data serves as a comprehensive benchmark for driving with language.\n- **Embodiment**: GVQA provides a potential direction for embodied applications of LLMs \u002F VLMs.\n- **Closed-loop**: DriveLM-CARLA attempts to explore closed-loop planning with language.\n\n\u003Cp align=\"right\">(\u003Ca href=\"#top\">back to top\u003C\u002Fa>)\u003C\u002Fp>\n\n## TODO List \u003Ca name=\"newsandtodolist\">\u003C\u002Fa>\n\n- [x] DriveLM-Data\n  - [x] DriveLM-nuScenes\n  - [x] DriveLM-CARLA\n- [x] DriveLM-Metrics\n  - [x] GPT-score\n- [ ] DriveLM-Agent\n  - [x] Inference code on DriveLM-nuScenes\n  - [ ] Inference code on DriveLM-CARLA\n\n\u003Cp align=\"right\">(\u003Ca href=\"#top\">back to top\u003C\u002Fa>)\u003C\u002Fp>\n\n## DriveLM-Data \u003Ca name=\"drivelmdata\">\u003C\u002Fa>\n\nWe facilitate the `Perception, Prediction, Planning, Behavior, Motion` tasks with human-written reasoning logic as a connection between them. We propose the task of [GVQA](docs\u002Fgvqa.md) on the DriveLM-Data. \n\n\u003C!-- DriveLM is an autonomous driving (**AD**) dataset incorporating linguistic information. Through DriveLM, we want to connect large language models and autonomous driving systems, and eventually introduce the reasoning ability of Large Language Models in autonomous driving (**AD**) to make decisions and ensure explainable planning. -->\n\n\u003C!-- In DriveLM, we study how vision-language models (VLMs) trained on web-scale data can be integrated into end-to-end driving systems to boost generalization and enable interactivity with human users.\n\nSpecifically, we aim to facilitate `Perception, Prediction, Planning, Behavior, Motion` tasks with human-written reasoning logic as a connection. We propose the task of GVQA to connect the QA pairs in a graph-style structure. To support this novel task, we provide the DriveLM-Data.\n\n\n### What is GVQA?\nThe most exciting aspect of the dataset is that the questions and answers (`QA`) are connected in a graph-style structure, with QA pairs as every node and potential logical progression as the edges. The reason for doing this in the AD domain is that AD tasks are well-defined per stage, from raw sensor input to final control action through perception, prediction and planning.\n\nIts key difference to prior VQA tasks for AD is the availability of logical dependencies between QAs, which can be used to guide the answering process. -->\n\n### 📊 Comparison and Stats \u003Ca name=\"comparison\">\u003C\u002Fa>\n**DriveLM-Data** is the *first* language-driving dataset facilitating the full stack of driving tasks with graph-structured logical dependencies.\n\u003C!-- \u003Ccenter>\n  \n| Language Dataset  | Base Dataset |      Language Form    |   Perspectives | Scale      |  Release?|\n|:---------:|:-------------:|:-------------:|:------:|:--------------------------------------------:|:----------:|\n| [BDD-X 2018](https:\u002F\u002Fgithub.com\u002FJinkyuKimUCB\u002Fexplainable-deep-driving)  |  [BDD](https:\u002F\u002Fbdd-data.berkeley.edu\u002F)  | Description | Perception & Reasoning    | 8M frames, 20k text strings   |**:heavy_check_mark:**|\n| [HAD 2019](https:\u002F\u002Fusa.honda-ri.com\u002Fhad)  |  [HDD](https:\u002F\u002Fusa.honda-ri.com\u002Fhdd)  | Advice | Goal-oriented & stimulus-driven advice | 5,675 video clips, 45k text strings   |**:heavy_check_mark:**|\n| [DRAMA 2022](https:\u002F\u002Fusa.honda-ri.com\u002Fdrama)   |    - | Description | Perception & Planning results | 18k frames, 100k text strings | **:heavy_check_mark:**|\n| [Rank2Tell 2023](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.06597)   |   - | Perception & Planning results |  QA + Captions | 5k frames | :x: |\n| [nuScenes-QA 2023](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14836)   |   [nuScenes](https:\u002F\u002Fwww.nuscenes.org\u002F)  | QA |  Perception Result     | 30k frames, 460k generated QA pairs|**:heavy_check_mark:**|\n| [nuPrompt 2023](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.04379)   |   [nuScenes](https:\u002F\u002Fwww.nuscenes.org\u002F)  | Object Description |  Perception Result     | 30k frames, 35k semi-generated QA pairs| :x:|\n| **DriveLM 2023** | [nuScenes](https:\u002F\u002Fwww.nuscenes.org\u002F) | **:boom: QA + Scene Description** | **:boom:Perception, Prediction and Planning with Logic** | 30k frames, 360k annotated QA pairs |**:heavy_check_mark:** |\n\n\u003C\u002Fcenter> -->\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenDriveLab_DriveLM_readme_cb1aeadf2936.png\">\n\u003C\u002Fp>\n\nLinks to details about [GVQA task](docs\u002Fgvqa.md), [Dataset Features](docs\u002Fdata_details.md\u002F#features), and [Annotation](docs\u002Fdata_details.md\u002F#annotation).\n\n\u003C!-- More details can be found [HERE](docs\u002Fdata_details.md). -->\n\u003C!--\n### What is included in the DriveLM-Data?\nDriveLM-Data comprises two distinct components: DriveLM-nuScenes and DriveLM-CARLA. In the case of DriveLM-nuScenes, we construct our dataset based on the prevailing nuScenes dataset. As for DriveLM-CARLA, we collect data from the CARLA simulator. The most central element of DriveLM is frame-based `multi-stage` `QA`. `Perception` questions require the model to recognize objects in the scene. `Prediction` questions ask the model to predict the future status of important objects in the scene. `Planning` questions prompt the model to give reasonable planning actions and avoid dangerous ones. We also include a `Behavior` question that provides behavior templates which aggregate the information from the other question types.\n\n\n### How about the annotation process?\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenDriveLab_DriveLM_readme_e22702c4187d.jpg\">\n\u003C\u002Fp>\n\n**For DriveLM-nuScenes:**\n\n1️⃣ Keyframe selection. Given all frames in one clip, the annotator selects the keyframes that need annotation. The criterion is that those frames should involve changes in ego-vehicle movement status (lane changes, sudden stops, start after a stop, etc.).\n\n2️⃣ Key objects selection. Given keyframes, the annotator needs to pick up key objects in the six surrounding images. The criterion is that those objects should be able to affect the action of the ego vehicle (traffic signals, pedestrians crossing the road, other vehicles that move in the direction of the ego vehicle, etc.).\n\n3️⃣ Question and answer annotation. Given those key objects, we automatically generate questions regarding single or multiple objects about perception, prediction, and planning. More details can be found in our data.\n\n**For DriveLM-CARLA:**\n\nWe collect data using CARLA 0.9.14 in the Leaderboard 2.0 framework with a privileged rule-based expert. We set up a series of routes in urban, residential, and rural areas and execute the expert on these routes. During this process, we collect the necessary sensor data, generate relevant QAs based on privileged information about objects and the scene, and organize the logical relationships to connect this series of QAs into a graph.\n\n-->\n\n\u003Cp align=\"right\">(\u003Ca href=\"#top\">back to top\u003C\u002Fa>)\u003C\u002Fp>\n\n\n\n\n## License and Citation \u003Ca name=\"licenseandcitation\">\u003C\u002Fa>\nAll assets and code in this repository are under the [Apache 2.0 license](.\u002FLICENSE) unless specified otherwise. The language data is under [CC BY-NC-SA 4.0](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F). Other datasets (including nuScenes) inherit their own distribution licenses. Please consider citing our paper and project if they help your research.\n\n```BibTeX\n@article{sima2023drivelm,\n  title={DriveLM: Driving with Graph Visual Question Answering},\n  author={Sima, Chonghao and Renz, Katrin and Chitta, Kashyap and Chen, Li and Zhang, Hanxue and Xie, Chengen and Luo, Ping and Geiger, Andreas and Li, Hongyang},\n  journal={arXiv preprint arXiv:2312.14150},\n  year={2023}\n}\n```\n\n```BibTeX\n@misc{contributors2023drivelmrepo,\n  title={DriveLM: Driving with Graph Visual Question Answering},\n  author={DriveLM contributors},\n  howpublished={\\url{https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FDriveLM}},\n  year={2023}\n}\n```\n\n\u003Cp align=\"right\">(\u003Ca href=\"#top\">back to top\u003C\u002Fa>)\u003C\u002Fp>\n\n## Other Resources \u003Ca name=\"otherresources\">\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Ftwitter.com\u002FOpenDriveLab\" target=\"_blank\">\n    \u003Cimg alt=\"Twitter Follow\" src=\"https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Ffollow\u002FOpenDriveLab?style=social&color=brightgreen&logo=twitter\" \u002F>\n  \u003C\u002Fa>\n\n\u003C!-- \u003Ca href=\"https:\u002F\u002Fopendrivelab.com\" target=\"_blank\">\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fcontact%40opendrivelab.com-white?style=social&logo=gmail\">\n\u003C\u002Fa> -->\n\n\u003C!--\n [![Page Views Count](https:\u002F\u002Fbadges.toozhao.com\u002Fbadges\u002F01H9CR01K73G1S0AKDMF1ABC73\u002Fblue.svg)](https:\u002F\u002Fbadges.toozhao.com\u002Fstats\u002F01H9CR01K73G1S0AKDMF1ABC73 \"Get your own page views count badge on badges.toozhao.com\")\n-->\n\n**OpenDriveLab**\n- [DriveAGI](https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FDriveAGI) | [UniAD](https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FUniAD) | [OpenLane-V2](https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FOpenLane-V2) | [Survey on E2EAD](https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FEnd-to-end-Autonomous-Driving)\n- [Survey on BEV Perception](https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FBEVPerception-Survey-Recipe) | [BEVFormer](https:\u002F\u002Fgithub.com\u002Ffundamentalvision\u002FBEVFormer) | [OccNet](https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FOccNet)\n\n\u003Ca href=\"https:\u002F\u002Ftwitter.com\u002FAutoVisionGroup\" target=\"_blank\">\n    \u003Cimg alt=\"Twitter Follow\" src=\"https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Ffollow\u002FAwesome Vision Group?style=social&color=brightgreen&logo=twitter\" \u002F>\n  \u003C\u002Fa>\n\n**Autonomous Vision Group**\n- [tuPlan garage](https:\u002F\u002Fgithub.com\u002Fautonomousvision\u002Ftuplan_garage) | [CARLA garage](https:\u002F\u002Fgithub.com\u002Fautonomousvision\u002Fcarla_garage) | [Survey on E2EAD](https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FEnd-to-end-Autonomous-Driving)\n- [PlanT](https:\u002F\u002Fgithub.com\u002Fautonomousvision\u002Fplant) | [KING](https:\u002F\u002Fgithub.com\u002Fautonomousvision\u002Fking) | [TransFuser](https:\u002F\u002Fgithub.com\u002Fautonomousvision\u002Ftransfuser) | [NEAT](https:\u002F\u002Fgithub.com\u002Fautonomousvision\u002Fneat)\n\n\u003Cp align=\"right\">(\u003Ca href=\"#top\">back to top\u003C\u002Fa>)\u003C\u002Fp>\n","> [!IMPORTANT]\n> 🌟 请在 [opendrivelab.com](https:\u002F\u002Fopendrivelab.com\u002F#news) 上获取最新资讯！\n\n\u003Cdiv id=\"top\" align=\"center\">\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenDriveLab_DriveLM_readme_527c5e3a0c7d.jpg\">\n\u003C\u002Fp>\n    \n**DriveLM:** *基于**图**像**问**答的驾驶*\n\n\u003C!-- 下载数据集 [**HERE**](docs\u002Fdata_prep_nus.md)（作为 `Autonomous Driving Challenge 2024` 的官方来源） -->\n`Autonomous Driving Challenge 2024` **语言驱动的自动驾驶** [排行榜](https:\u002F\u002Fopendrivelab.com\u002Fchallenge2024\u002F#driving_with_language)。\n\u003C\u002Fdiv>\n\n\u003Cdiv id=\"top\" align=\"center\">\n\n[![](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject%20Page-8A2BE2)](https:\u002F\u002Fopendrivelab.com\u002FDriveLM\u002F)\n[![License: Apache2.0](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-Apache%202.0-blue.svg)](#licenseandcitation)\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2312.14150-b31b1b.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.14150)\n[![](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLatest%20release-v1.1-yellow)](#gettingstarted)\n[![Hugging Face](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTest%20Server-%F0%9F%A4%97-ffc107?color=ffc107&logoColor=white)](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FAGC2024\u002Fdriving-with-language-official)\n\n\u003C!-- \u003Ca href=\"https:\u002F\u002Fopendrivelab.github.io\u002FDriveLM\" target=\"_blank\">\n    \u003Cimg alt=\"Github Page\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject%20Page-white?logo=GitHub&color=green\" \u002F>\n  \u003C\u002Fa> -->\n\n\u003C!-- [![Hugging Face](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-DriveLM-ffc107?color=ffc107&logoColor=white)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenDrive\u002FDriveLM) -->\n\n\u003C\u002Fdiv>\n\n\n\u003C!-- > https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FDriveLM\u002Fassets\u002F103363891\u002F67495435-4a32-4614-8d83-71b5c8b66443 -->\n\n\u003C!-- > 上面是旧版演示视频。演示场景标识符：cc8c0bf57f984915a77078b10eb33198 -->\n\nhttps:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FDriveLM\u002Fassets\u002F54334254\u002Fcddea8d6-9f6e-4e7e-b926-5afb59f8dce2\n\n\u003C!-- > 上面是新版演示视频。演示场景标识符：cc8c0bf57f984915a77078b10eb33198 -->\n\n## 亮点 \u003Ca name=\"highlight\">\u003C\u002Fa>\n\n🔥 我们基于 nuScenes 和 CARLA 构建了数据集（**DriveLM-Data**），并提出了一种基于 VLM 的基线方法（**DriveLM-Agent**），用于联合执行 **图像视觉问答** 和端到端驾驶。\n\n\u003C!-- 🔥 **关键洞察** 是，通过我们提出的这套工具，我们获得了一个合适的代理任务，可以模拟人类在驾驶过程中的推理过程。  -->\n\n🏁 **DriveLM** 是 [**`CVPR 2024 自动驾驶挑战赛`**](https:\u002F\u002Fopendrivelab.com\u002Fchallenge2024\u002F#driving_with_language) 的主要赛道之一。 您参加该挑战所需的一切都在 [这里](https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FDriveLM\u002Ftree\u002Fmain\u002Fchallenge)，包括基线、测试数据、提交格式以及评估流程！\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenDriveLab_DriveLM_readme_95ebd8758850.jpg\">\n\u003C\u002Fp>\n\n\n\u003C!-- ### DriveLM-Data 的亮点 -->\n\n\u003C!-- #### 从全栈自动驾驶的角度来看\n- 🛣 功能完整性（涵盖 **感知**、**预测** 和 **规划** 的问答对）。\n\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenDriveLab_DriveLM_readme_3a84c6d5b4e5.png\">\n\u003C\u002Fp>  -->\n\n\n\u003C!-- - 🔜 对尚未发生事件的推理。\n  - 许多 **“如果……会怎样”** 式的问题：通过语言想象未来。\n \n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenDriveLab_DriveLM_readme_12edefc7df69.png\" width=70%>\n\u003C\u002Fp>\n\n- ♻ 任务驱动的分解。\n  - **一个** 场景级描述被分解为 **许多** 帧级轨迹和规划问答对。\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenDriveLab_DriveLM_readme_eb9a4f71ae57.png\">\n\u003C\u002Fp> -->\n\n\u003C!-- ### DriveLM-Agent 的亮点 -->\n\n\u003C!-- #### 从通用视觉语言模型的角度来看 -->\n\u003C!-- 🕸️ 多模态 **图像视觉问答**（GVQA）基准，用于通用视觉语言模型中的结构化推理。\n\nhttps:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FDriveLM-new\u002Fassets\u002F75412366\u002F78c32442-73c8-4f1d-ab69-34c15e7060af -->\n\n\u003C!-- > 上面是图像视觉问答演示视频。  -->\n\n## 新闻 \u003Ca name=\"news\">\u003C\u002Fa>\n\n- **`[2025\u002F01\u002F08]`** [Drive-Bench](https:\u002F\u002Fdrive-bench.github.io\u002F) 发布！深入分析 DriveLM 到底在衡量什么。请参阅 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2501.04003)。\n- **`[2024\u002F07\u002F16]`** DriveLM [官方排行榜](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FAGC2024\u002Fdriving-with-language-official) 重新开放！\n- **`[2024\u002F07\u002F01]`** DriveLM 被 ECCV 2024 接收！祝贺团队！\n- **`[2024\u002F06\u002F01]`** 挑战赛结束！[查看最终排行榜](https:\u002F\u002Fopendrivelab.com\u002Fchallenge2024\u002F#driving_with_language)。\n- **`[2024\u002F03\u002F25]`** 挑战赛测试服务器上线，测试题目已发布。[快来看看！](https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FDriveLM\u002Ftree\u002Fmain\u002Fchallenge)\n- **`[2024\u002F02\u002F29]`** 挑战赛代码库发布。包含基线、数据、提交格式及评估流程。[赶紧看看！](https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FDriveLM\u002Ftree\u002Fmain\u002Fchallenge)\n- **`[2023\u002F08\u002F25]`** DriveLM-nuScenes 演示发布。\n- **`[2023\u002F12\u002F22]`** DriveLM-nuScenes 完整 `v1.0` 版本及 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.14150) 发布。\n\u003C!-- > - **`[2024年初]`** DriveLM-Agent 推理代码。  -->\n\u003C!-- > - **`注：`** 我们计划发布一套简单灵活的训练代码，支持多视角输入，作为自动驾驶挑战赛的入门工具包（敬请关注详情）。  -->\n\n## 目录\n1. [亮点](#highlight)\n2. [开始使用](#gettingstarted)\n   - [准备 DriveLM-nuScenes](docs\u002Fdata_prep_nus.md)  \n3. [当前进展与未来展望](#timeline)\n4. [待办事项列表](#newsandtodolist)\n5. [DriveLM-Data](#drivelmdata)\n   - [对比与统计](#comparison)\n   - [GVQA 细节](docs\u002Fgvqa.md)\n   - [标注与特性](docs\u002Fdata_details.md)\n6. [许可与引用](#licenseandcitation)\n7. [其他资源](#otherresources)\n\n\u003C!--\n- [新闻](#news)\n- [DriveLM-Data](#drivelm-data)\n- [开始使用](#getting-started)\n- [许可与引用](#license-and-citation)\n- [其他资源](#other-resources) -->\n\n\n## 开始使用 \u003Ca name=\"gettingstarted\">\u003C\u002Fa>\n要开始使用 DriveLM：\n- [准备 DriveLM-nuScenes](\u002Fdocs\u002Fdata_prep_nus.md)\n- [挑战赛开发工具包](\u002Fchallenge\u002F)\n- [更多内容即将推出](#todolist)\n\n\u003Cp align=\"right\">(\u003Ca href=\"#top\">返回顶部\u003C\u002Fa>)\u003C\u002Fp>\n\n\n## 当前进展与未来方向 \u003Ca name=\"timeline\">\u003C\u002Fa>\n> - GPT 类型的多模态模型在实际应用中的出现，促使人们研究语言在驾驶中的作用。\n> - 下方日期反映了 arXiv 的提交日期。\n> - 如果有任何遗漏的工作，请随时联系我们！\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenDriveLab_DriveLM_readme_1f19f52fb57d.jpg\">\n\u003C\u002Fp>\n\nDriveLM 试图解决社区面临的一些挑战。\n\n- **数据不足**：DriveLM-Data 作为一个全面的语言驱动驾驶基准。\n- **具身化**：GVQA 为 LLM \u002F VLM 的具身化应用提供了一个潜在的方向。\n- **闭环**：DriveLM-CARLA 试图探索基于语言的闭环规划。\n\n\u003Cp align=\"right\">(\u003Ca href=\"#top\">返回顶部\u003C\u002Fa>)\u003C\u002Fp>\n\n## 待办事项清单 \u003Ca name=\"newsandtodolist\">\u003C\u002Fa>\n\n- [x] DriveLM-Data\n  - [x] DriveLM-nuScenes\n  - [x] DriveLM-CARLA\n- [x] DriveLM-Metrics\n  - [x] GPT-score\n- [ ] DriveLM-Agent\n  - [x] 在DriveLM-nuScenes上的推理代码\n  - [ ] 在DriveLM-CARLA上的推理代码\n\n\u003Cp align=\"right\">(\u003Ca href=\"#top\">返回顶部\u003C\u002Fa>)\u003C\u002Fp>\n\n## DriveLM-Data \u003Ca name=\"drivelmdata\">\u003C\u002Fa>\n\n我们通过人类编写的推理逻辑来连接并促进“感知、预测、规划、行为、运动”等任务。我们在DriveLM-Data数据集上提出了[GVQA](docs\u002Fgvqa.md)任务。\n\n\u003C!-- DriveLM是一个融合了语言信息的自动驾驶（AD）数据集。通过DriveLM，我们希望将大型语言模型与自动驾驶系统连接起来，最终将大型语言模型的推理能力引入自动驾驶领域，以支持决策制定和可解释的规划过程。 -->\n\n\u003C!-- 在DriveLM中，我们研究如何将基于网络规模数据训练的视觉-语言模型（VLMs）集成到端到端的驾驶系统中，从而提升泛化能力，并实现与人类用户的交互性。\n\n具体而言，我们旨在利用人类编写的推理逻辑来连接“感知、预测、规划、行为、运动”等任务。我们提出了GVQA任务，以图结构的方式连接问答对。为了支持这一新颖的任务，我们提供了DriveLM-Data数据集。\n\n\n### 什么是GVQA？\n该数据集最令人兴奋的特点是，问题和答案（QA）以图结构的形式相互连接，每个节点都是一个问答对，而边则代表潜在的逻辑推演关系。在自动驾驶领域采用这种方式的原因在于，自动驾驶任务按阶段划分得非常清晰，从原始传感器输入开始，经过感知、预测和规划，最终生成控制动作。\n\n它与以往自动驾驶领域的VQA任务的关键区别在于，QA之间存在逻辑依赖关系，这些关系可以用来指导回答过程。 -->\n\n### 📊 对比与统计数据 \u003Ca name=\"comparison\">\u003C\u002Fa>\n**DriveLM-Data** 是*首个*以图结构逻辑依赖关系支持完整驾驶任务栈的语言驱动数据集。\n\u003C!-- \u003Ccenter>\n  \n| 语言数据集  | 基础数据集 |      语言形式    |   视角 | 规模      |  是否发布?|\n|:---------:|:-------------:|:-------------:|:------:|:--------------------------------------------:|:----------:|\n| [BDD-X 2018](https:\u002F\u002Fgithub.com\u002FJinkyuKimUCB\u002Fexplainable-deep-driving)  |  [BDD](https:\u002F\u002Fbdd-data.berkeley.edu\u002F)  | 描述 | 感知与推理    | 800万帧，2万条文本字符串   |**:heavy_check_mark:**|\n| [HAD 2019](https:\u002F\u002Fusa.honda-ri.com\u002Fhad)  |  [HDD](https:\u002F\u002Fusa.honda-ri.com\u002Fhdd)  | 建议 | 目标导向且受刺激驱动的建议 | 5,675段视频，4.5万条文本字符串   |**:heavy_check_mark:**|\n| [DRAMA 2022](https:\u002F\u002Fusa.honda-ri.com\u002Fdrama)   |    - | 描述 | 感知与规划结果 | 1.8万帧，10万条文本字符串 | **:heavy_check_mark:**|\n| [Rank2Tell 2023](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.06597)   |   - | 感知与规划结果 |  QA + 字幕 | 5千帧 | :x: |\n| [nuScenes-QA 2023](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14836)   |   [nuScenes](https:\u002F\u002Fwww.nuscenes.org\u002F)  | QA |  感知结果     | 3万帧，46万组自动生成的问答对|**:heavy_check_mark:**|\n| [nuPrompt 2023](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.04379)   |   [nuScenes](https:\u002F\u002Fwww.nuscenes.org\u002F)  | 物体描述 |  感知结果     | 3万帧，3.5万组半自动生成的问答对| :x:|\n| **DriveLM 2023** | [nuScenes](https:\u002F\u002Fwww.nuscenes.org\u002F) | **:boom: QA + 场景描述** | **:boom:感知、预测和规划结合逻辑** | 3万帧，36万组标注的问答对 |**:heavy_check_mark:** |\n\n\u003C\u002Fcenter> -->\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenDriveLab_DriveLM_readme_cb1aeadf2936.png\">\n\u003C\u002Fp>\n\n有关[GVQA任务](docs\u002Fgvqa.md)、[数据集特性](docs\u002Fdata_details.md\u002F#features)以及[标注](docs\u002Fdata_details.md\u002F#annotation)的详细链接。\n\n\u003C!-- 更多详情请参阅[这里](docs\u002Fdata_details.md)。 -->\n\u003C!--\n### DriveLM-Data包含哪些内容？\nDriveLM-Data由两个不同的组成部分构成：DriveLM-nuScenes和DriveLM-CARLA。对于DriveLM-nuScenes，我们基于现有的nuScenes数据集构建数据集。而对于DriveLM-CARLA，则是从CARLA模拟器中收集数据。DriveLM的核心要素是以帧为单位的“多阶段”“QA”。其中，“感知”问题要求模型识别场景中的物体；“预测”问题则要求模型预测场景中重要物体的未来状态；“规划”问题则引导模型给出合理的规划行动，同时避免危险行为。此外，我们还包含一个“行为”问题，该问题提供了一种行为模板，整合了其他类型问题的信息。\n\n\n### 标注过程是怎样的呢？\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenDriveLab_DriveLM_readme_e22702c4187d.jpg\">\n\u003C\u002Fp>\n\n**对于DriveLM-nuScenes：**\n\n1️⃣ 关键帧选择。在一段视频的所有帧中，标注人员会选择需要标注的关键帧。选择标准是这些帧应包含本车行驶状态的变化（变道、急停、停车后重新启动等）。\n\n2️⃣ 关键对象选择。在选定的关键帧基础上，标注人员需要从周围六幅图像中挑选出关键对象。选择标准是这些对象应当能够影响本车的行为（交通信号灯、过马路的行人、与本车同向行驶的其他车辆等）。\n\n3️⃣ 问答标注。基于这些关键对象，我们会自动生成关于单个或多个对象的感知、预测和规划问题。更多细节请参阅我们的数据说明。\n\n**对于DriveLM-CARLA：**\n\n我们使用CARLA 0.9.14，在Leaderboard 2.0框架下，借助具有特权规则的专家来收集数据。我们在城市、住宅区和乡村地区设置了多条路线，并让专家按照这些路线行驶。在此过程中，我们收集必要的传感器数据，根据关于物体和场景的特权信息生成相关的QA，并组织逻辑关系，将这一系列QA连接成一个图。-->\n\n\u003Cp align=\"right\">(\u003Ca href=\"#top\">返回顶部\u003C\u002Fa>)\u003C\u002Fp>\n\n## 许可与引用 \u003Ca name=\"licenseandcitation\">\u003C\u002Fa>\n除非另有说明，本仓库中的所有资产和代码均采用 [Apache 2.0 许可证](.\u002FLICENSE)。语言数据则采用 [CC BY-NC-SA 4.0](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F) 许可证。其他数据集（包括 nuScenes）则遵循其各自的分发许可证。如果您在研究中使用了这些资源，请考虑引用我们的论文和项目。\n\n```BibTeX\n@article{sima2023drivelm,\n  title={DriveLM: 基于图结构视觉问答的自动驾驶},\n  author={Sima, Chonghao and Renz, Katrin and Chitta, Kashyap and Chen, Li and Zhang, Hanxue and Xie, Chengen and Luo, Ping and Geiger, Andreas and Li, Hongyang},\n  journal={arXiv 预印本 arXiv:2312.14150},\n  year={2023}\n}\n```\n\n```BibTeX\n@misc{contributors2023drivelmrepo,\n  title={DriveLM: 基于图结构视觉问答的自动驾驶},\n  author={DriveLM 贡献者},\n  howpublished={\\url{https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FDriveLM}},\n  year={2023}\n}\n```\n\n\u003Cp align=\"right\">(\u003Ca href=\"#top\">返回顶部\u003C\u002Fa>)\u003C\u002Fp>\n\n## 其他资源 \u003Ca name=\"otherresources\">\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Ftwitter.com\u002FOpenDriveLab\" target=\"_blank\">\n    \u003Cimg alt=\"Twitter 关注\" src=\"https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Ffollow\u002FOpenDriveLab?style=social&color=brightgreen&logo=twitter\" \u002F>\n  \u003C\u002Fa>\n\n\u003C!--\n [![页面浏览量](https:\u002F\u002Fbadges.toozhao.com\u002Fbadges\u002F01H9CR01K73G1S0AKDMF1ABC73\u002Fblue.svg)](https:\u002F\u002Fbadges.toozhao.com\u002Fstats\u002F01H9CR01K73G1S0AKDMF1ABC73 \"在 badges.toozhao.com 上获取您自己的页面浏览量徽章\")\n-->\n\n**OpenDriveLab**\n- [DriveAGI](https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FDriveAGI) | [UniAD](https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FUniAD) | [OpenLane-V2](https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FOpenLane-V2) | [端到端自动驾驶综述](https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FEnd-to-end-Autonomous-Driving)\n- [BEV 感知综述](https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FBEVPerception-Survey-Recipe) | [BEVFormer](https:\u002F\u002Fgithub.com\u002Ffundamentalvision\u002FBEVFormer) | [OccNet](https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FOccNet)\n\n\u003Ca href=\"https:\u002F\u002Ftwitter.com\u002FAutoVisionGroup\" target=\"_blank\">\n    \u003Cimg alt=\"Twitter 关注\" src=\"https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Ffollow\u002FAwesome Vision Group?style=social&color=brightgreen&logo=twitter\" \u002F>\n  \u003C\u002Fa>\n\n**自主视觉组**\n- [tuPlan 车库](https:\u002F\u002Fgithub.com\u002Fautonomousvision\u002Ftuplan_garage) | [CARLA 车库](https:\u002F\u002Fgithub.com\u002Fautonomousvision\u002Fcarla_garage) | [端到端自动驾驶综述](https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FEnd-to-end-Autonomous-Driving)\n- [PlanT](https:\u002F\u002Fgithub.com\u002Fautonomousvision\u002Fplant) | [KING](https:\u002F\u002Fgithub.com\u002Fautonomousvision\u002Fking) | [TransFuser](https:\u002F\u002Fgithub.com\u002Fautonomousvision\u002Ftransfuser) | [NEAT](https:\u002F\u002Fgithub.com\u002Fautonomousvision\u002Fneat)\n\n\u003Cp align=\"right\">(\u003Ca href=\"#top\">返回顶部\u003C\u002Fa>)\u003C\u002Fp>","# DriveLM 快速上手指南\n\nDriveLM 是一个基于图视觉问答（Graph VQA）的自动驾驶开源项目，旨在通过语言模型增强自动驾驶系统的感知、预测和规划能力。本项目包含基于 nuScenes 和 CARLA 构建的数据集（DriveLM-Data）以及基线模型（DriveLM-Agent）。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 18.04\u002F20.04)\n*   **Python**: 3.8 或更高版本\n*   **GPU**: 支持 CUDA 的 NVIDIA 显卡（建议显存 16GB+ 以运行大模型）\n*   **前置依赖**:\n    *   PyTorch (与您的 CUDA 版本匹配)\n    *   Git\n    *   pip\n\n> **注意**：本项目深度依赖多模态大模型，建议预先配置好基础的深度学习环境。\n\n## 2. 安装步骤\n\n### 2.1 克隆仓库\n首先，从 GitHub 克隆项目代码：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FDriveLM.git\ncd DriveLM\n```\n\n### 2.2 安装 Python 依赖\n安装项目所需的 Python 包。如果国内网络下载较慢，建议使用国内镜像源加速：\n\n```bash\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n*(注：如果根目录下没有 `requirements.txt`，请参考 `challenge\u002F` 目录或具体子模块的依赖文件进行安装)*\n\n### 2.3 数据准备 (DriveLM-nuScenes)\nDriveLM 的核心数据基于 nuScenes 数据集。您需要先下载原始的 nuScenes 数据集，然后按照项目指引准备 DriveLM 格式的数据。\n\n详细的数据预处理步骤请参阅官方文档：\n*   [数据准备指南 (docs\u002Fdata_prep_nus.md)](docs\u002Fdata_prep_nus.md)\n\n主要流程通常包括：\n1.  下载 [nuScenes](https:\u002F\u002Fwww.nuscenes.org\u002F) 原始数据。\n2.  下载 DriveLM 的标注文件（JSON 格式）。\n3.  运行预处理脚本将两者对齐。\n\n## 3. 基本使用\n\n目前项目主要提供了针对 **DriveLM-nuScenes** 的推理代码基线。以下是最简单的使用流程示例。\n\n### 3.1 运行推理 (Inference)\n假设您已经准备好了数据并配置了模型权重，可以使用以下命令运行基线模型进行推理（具体脚本路径可能随版本更新略有调整，请以 `challenge\u002F` 或根目录下的最新脚本为准）：\n\n```bash\n# 示例命令：运行 DriveLM-Agent 在 nuScenes 验证集上的推理\npython inference.py \\\n    --data_path .\u002Fdata\u002Fdrivelm_nuscenes \\\n    --model_path .\u002Fpretrained_models\u002Fdrivelm_agent \\\n    --output_dir .\u002Fresults\n```\n\n### 3.2 参与挑战赛 (可选)\n如果您希望参与 `CVPR 2024 Autonomous Driving Challenge` 的 \"Driving-with-Language\" 赛道，请使用专门的挑战赛开发包：\n\n```bash\ncd challenge\n# 按照 challenge 目录下的 README 运行评估流水线\npython eval_pipeline.py --submission_file .\u002Fyour_submission.json\n```\n\n### 3.3 查看结果\n推理完成后，生成的答案通常位于 `--output_dir` 指定的文件夹中。您可以结合可视化工具查看模型对场景图的问答结果及驾驶决策逻辑。\n\n---\n**更多资源**:\n*   [项目主页](https:\u002F\u002Fopendrivelab.com\u002FDriveLM\u002F)\n*   [论文链接 (arXiv:2312.14150)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.14150)\n*   [Hugging Face 测试服务器](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FAGC2024\u002Fdriving-with-language-official)","某自动驾驶研发团队正在基于 nuScenes 数据集训练端到端驾驶模型，急需提升系统对复杂路况的逻辑推理与可解释性。\n\n### 没有 DriveLM 时\n- 模型仅能输出简单的控制指令（如转向角度、加速度），无法用自然语言解释“为什么此时要刹车”，导致调试黑盒化。\n- 缺乏结构化场景理解，难以处理涉及多车交互的长尾场景（例如：“如果左侧车辆突然变道会发生什么”）。\n- 感知、预测与规划模块割裂，开发人员需分别标注不同任务的数据，耗时耗力且难以统一逻辑。\n- 面对突发状况，系统缺乏类似人类的“假设性推理”能力，无法预判未发生事件的潜在风险。\n\n### 使用 DriveLM 后\n- 通过图视觉问答（Graph VQA）技术，模型不仅能执行驾驶操作，还能生成如“因前方行人横穿而减速”的自然语言解释，大幅提升可解释性。\n- 利用构建的场景图结构，DriveLM 能精准回答复杂的交互问题，有效处理多智能体博弈下的决策难题。\n- 实现了从场景级描述到帧级轨迹规划的统一数据流，一套数据即可同时优化感知、预测和规划任务，显著降低标注成本。\n- 支持\"What If\"式的反事实推理，让模型能在虚拟环境中模拟未来事件并提前制定防御性驾驶策略。\n\nDriveLM 通过将驾驶决策转化为可理解的图形化问答任务，成功赋予了自动驾驶系统类人的逻辑推理与语言表达能力。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenDriveLab_DriveLM_527c5e3a.jpg","OpenDriveLab","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FOpenDriveLab_721a66c7.png","AI for Robotics and Autonomous Driving at The University of Hong Kong (HKU)",null,"contact@opendrivelab.com","https:\u002F\u002Fopendrivelab.com","https:\u002F\u002Fgithub.com\u002FOpenDriveLab",[80,84,87],{"name":81,"color":82,"percentage":83},"HTML","#e34c26",96.9,{"name":85,"color":86,"percentage":10},"Python","#3572A5",{"name":88,"color":89,"percentage":90},"Shell","#89e051",0,1297,86,"2026-04-13T20:17:22","Apache-2.0",4,"","未说明",{"notes":99,"python":97,"dependencies":100},"提供的 README 内容主要介绍了项目背景、数据集（DriveLM-Data）、任务定义（GVQA）及新闻更新，未包含具体的安装指南、环境配置或依赖列表。文中提到推理代码（Inference code）已发布，并指引用户查看 'docs\u002Fdata_prep_nus.md' 和 'challenge\u002F' 目录以获取开始使用的步骤，但具体技术栈（如 PyTorch 版本、CUDA 要求等）需参考这些外部文档或源代码。",[],[13,14,35],[103,104,105,106,107,108,109,110,111],"autonomous-driving","large-language-models","vision-language","chain-of-thought","graph-of-thoughts","llm","prompting","tree-of-thoughts","prompt-engineering","2026-03-27T02:49:30.150509","2026-04-14T15:23:16.076074",[115,120,125,130,135,140],{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},33204,"提交评测后状态一直显示为 PENDING 正常吗？已经等待了几个小时。","这通常是因为测试服务器正在分配更多的计算资源，或者 Hugging Face 团队正在处理排队任务。建议先下载 submission.json 文件在本地机器上进行测试以验证结果，同时耐心等待服务器资源释放。","https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FDriveLM\u002Fissues\u002F114",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},33205,"评测失败并报错 'No available key left' 或 'Evaluation failed' 是什么原因？","这通常不是由于 API 欠费造成的，而是因为测试服务器带宽限制或账户类型问题导致暂时无法获取密钥。请等待测试服务器恢复在线（维护者通常会更新状态），稍后重试即可。","https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FDriveLM\u002Fissues\u002F111",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},33206,"运行 evaluation.py 时遇到 multiprocessing 相关的 TypeError 错误如何解决？","这通常是由于 openai 包版本不兼容（openai>=1.0.0）导致的。解决方案有两种：\n1. 修改 gpt_eval.py 中的 call_chatgpt 函数，使用新的 `openai.chat.completions.create` 接口替代旧接口，并调整 prompts 格式。\n2. 如果不想修改代码，可以将 openai 包回退到 1.0.0 之前的版本，或者还原到 Pull Request #60 之前的代码版本。","https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FDriveLM\u002Fissues\u002F62",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},33207,"在 DriveLM 任务中是否可以使用 nuScenes 的额外信息（如连续帧图像、雷达点或标注数据）？","允许使用 nuScenes 中的原始传感器数据（如连续帧图像或雷达点）来辅助获取更精确的速度等信息。但是，严禁使用任何人工标注的数据以及 nuScenes 提供的真值标注（包括但不限于 bbox、地图、lidar seg 等）。","https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FDriveLM\u002Fissues\u002F38",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},33208,"微调时找不到 'v1_0_train_nus_llama.json' 文件或图片路径错误怎么办？","这是因为配置文件中的文件名或路径已更新。请执行以下操作：\n1. 确保数据目录结构正确，例如：`data\u002Fnuscenes\u002Fsamples\u002FCAM_FRONT_LEFT\u002F...`。\n2. 检查并更新 `finetune_data_config.yaml` 中的 META 字段，使其指向正确的 JSON 文件名（项目已调整文件名以匹配内容）。\n3. 如果缺少图片文件，可能需要重新下载完整的 nuScenes 数据集子集，因为演示数据可能不包含所有样本。","https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FDriveLM\u002Fissues\u002F20",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},33209,"完整版的 DriveLM 数据集什么时候发布？","根据维护者的回复，完整数据集预计在 11 月份发布。在此之前，用户可以参考类似的 DriveGPT4 项目或使用 BDD-X 数据集进行预研。","https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FDriveLM\u002Fissues\u002F2",[]]