deeptraffic
DeepTraffic 是 MIT 深度学习系列课程推出的一个深度强化学习竞赛平台,旨在通过游戏化的方式解决密集交通场景下的车辆导航难题。参与者需要设计神经网络来控制一辆或多辆车,在拥堵的高速公路上以最快的速度安全行驶,同时避免碰撞。
这个平台直面现代交通的核心痛点——拥堵。仅在美国,每年就有 69 亿小时被浪费在交通堵塞中。DeepTraffic 为自动驾驶运动规划算法提供了一个理想的实验场,让研究者探索如何减少幽灵堵车、提升道路通行效率。
DeepTraffic 适合从初学者到专家各类水平的研究人员和开发者。新手可以通过修改预设的神经网络代码快速上手,而资深研究者则能深入调优模型,在排行榜上与全球参与者一较高下。平台提供实时可视化、网络激活状态监控和在线训练测试环境,让算法调试直观易懂。
其技术亮点在于将众包超参数调优与多智能体深度强化学习相结合,让数千名参与者的集体智慧共同推动复杂交通场景下的 AI 决策能力边界。所有提交方案均可生成可视化回放,便于分享和分析。
使用场景
某大学人工智能课程的期末项目中,学生团队需要设计一个能在密集车流中自主导航的驾驶策略,作为强化学习模块的实践考核。
没有 deeptraffic 时
- 环境搭建耗时:学生需用 Unity 或 CARLA 自行构建高速公路仿真场景,仅配置多车交互逻辑就花费两周时间,核心算法研究被严重压缩
- 调试过程盲目:训练时只能看日志数据,无法直观看到车辆决策瞬间的神经网络激活情况,一个参数调错往往要重新训练6小时才能发现
- 缺乏性能标尺:团队不知道65mph的测试成绩是好是坏,没有行业基准参考,优化方向全凭感觉,学习动力逐渐消退
- 协作门槛极高:非计算机专业学生因环境配置复杂(CUDA、依赖库版本冲突)而难以参与,团队被迫缩减为3名核心成员
使用 deeptraffic 后
- 即开即用的战场:浏览器打开即可开始,预置的密集交通流和碰撞检测让团队第一天就进入算法设计,将开发周期从3周压缩到5天
- 实时诊断能力:训练时同步观察车辆视角、Q值热图和每层神经元激活状态,一次训练就发现卷积层感受野设置过小的问题,调试效率提升80%
- 全球排行榜驱动:提交后立刻看到排名,从第200名提升到第47名的过程让团队保持高度专注,MIT官方提供的baseline网络成为明确的超越目标
- 零门槛团队协作:前端同学也能在网页上修改奖励函数参数,5人小组各自尝试不同策略并行训练,最终融合方案达到72mph,获得课程最高分
deeptraffic 将强化学习从"环境搭建噩梦"转变为"算法创新游乐场",让学生真正把时间花在探索智能决策的本质上。
运行环境要求
- 未说明
未说明
未说明

快速开始
DeepTraffic: MIT 深度强化学习竞赛
DeepTraffic - 可视化 - 排行榜 - 文档 - 论文 - MIT 深度学习 [ GitHub | 网站 ]
DeepTraffic 是作为 MIT 深度学习 课程一部分举办的深度强化学习(deep reinforcement learning)竞赛。目标是创建一个神经网络(neural network),使其能够在密集的高速公路交通中尽可能快地驾驶车辆(或多辆车辆)。排行榜前 10 名的提交将显示在 排行榜 上,您将能够以以下方式 可视化 您的提交:

如果您在研究中发现该工作有用,请引用 DeepTraffic 论文:
@inproceedings{fridman2018deeptraffic,
author = {Lex Fridman and Jack Terwilliger and Benedikt Jenik},
title = {DeepTraffic: Crowdsourced Hyperparameter Tuning of Deep Reinforcement Learning Systems for Multi-Agent Dense Traffic Navigation},
booktitle = {Neural Information Processing Systems (NIPS 2018) Deep Reinforcement Learning Workshop}
year = {2018},
url = {http://arxiv.org/abs/1801.02805},
doi = {10.5281/zenodo.2530457}
archivePrefix = {arXiv},
}
要立即开始,本仓库提供了一段代码片段,可插入到 DeepTraffic 网站 的代码框中。随着课程的进展,我们将添加更多智能体(agents):
network_basic.js:一个基础网络,可达到约 66.8 英里/小时的速度。
现在让我们回到交通问题:
问题陈述:交通状况糟糕
"只要不影响交通,美国人什么都能忍受。" —— Dan Rather
"交通让人精神崩溃。" —— Elon Musk
仅在美国,我们每年就花费 69 亿小时坐在交通拥堵中 [1] —— 大约相当于 10,000 个人一生的时间 [2]。自动驾驶汽车(autonomous vehicles)将能够缓解部分(但不是全部)问题。它们已经在减少幽灵交通拥堵(phantom traffic jams)方面显示出潜力 [3,4]。
我们设计 DeepTraffic 的目的是让人们(从初学者到专家)探索自动驾驶车辆的运动规划算法(motion planning algorithms)设计,并激励下一代交通工程的发展。我们感谢数千名提交解决方案并积极参与的参赛者。
DeepTraffic 布局

游戏页面由四个不同的区域组成:
在左侧,您可以找到道路的实时模拟,具有不同的显示选项。
在页面的上半部分,您可以找到(1)一个代码编辑区域(coding area),您可以在其中更改控制智能体(agents)的神经网络设计,以及(2)一些用于应用更改、保存/加载和提交结果的按钮。
在代码编辑区域下方,您可以找到(1)显示中央红色车辆奖励(reward)移动平均值的图表,(2)神经网络激活(activations)的可视化,以及(3)用于训练和测试网络的按钮。
在模拟道路和图表之间,您可以找到您车辆的当前图像以及一些自定义选项,用于创建您最佳提交的可视化效果。
模拟区域显示一些基本信息,如汽车的当前速度以及自您打开网站以来已超越的车辆数量。它还允许您更改模拟的显示方式。

DeepTraffic 模拟与游戏
简而言之,DeepTraffic 是一个游戏,在其中您(参赛者)设计自己的运动规划算法(motion planning algorithm),以便在密集的交通中尽可能快地驾驶车辆。
您的算法将在一条 7 车道的高速公路上运行。道路上有 20 辆车。您的算法控制其中一些车辆,游戏控制其他车辆。
每个自主智能体(autonomous agent)都运行您的算法的一个副本。每 30 帧,您的算法从 5 个动作中选择 1 个:
- 加速(accelerate)
- 减速(decelerate)
- 变换到左侧车道
- 变换到右侧车道
- 什么都不做(do nothing),即在当前车道保持速度。
您的算法将接收一个占用网格(occupancy grid)作为输入,表示智能体周围的自由空间。未被占用的单元格值设置为 80 英里/小时。被占用的单元格值设置为占用车辆的速度。例如,这是一个占用网格(occupancy grid)(lanesSide = 1; patchesAhead = 10):

DeepTraffic 的动力学有一些特殊之处:
安全系统
每辆车都有一个防止其与其他车辆碰撞的安全系统(safety system)。这对您设计算法有两个影响。首先,您的算法不需要考虑碰撞避免(collision avoidance)。其次,当安全系统被激活时,您的路径将被覆盖。
例如,在这里,红色汽车无法加速或变换到右侧车道,因为碰撞避免系统(collision avoidance system)已检测到前方有车辆:

一辆位于另一辆车后方 4 个单元格的车辆将立即减速以匹配前方车辆的速度,无论其算法试图做什么。(见上图)
一辆在另一辆车旁边行驶的车辆将无法变换到邻车的车道,直到有足够的间隙,无论其算法试图做什么。(见上图)
多智能体
在 2.0 版本(当前版本)中,您可以选择在 11 辆车上部署您的算法的一个副本。您的算法不会进行多智能体规划(multi-agent planning),而是每辆车做出贪婪选择(greedy choice)。挑战在于设计一个算法,在控制多辆车时不会妨碍自己。
高速公路的尽头
DeepTraffic 只跟随其中一辆车(自车,ego vehicle),因此您会注意到当某些车辆比自车开得慢或快时,它们会从高速公路上消失。这些车辆会发生什么?
当车辆从道路上消失时,它们会在高速公路的另一端被新车辆取代。当车辆被替换时,其速度和车道将被随机选择。
超参数
要在 DeepTraffic 中使用 DQN(Deep Q-Network,深度 Q 网络)取得好成绩,你必须选择好的超参数。这可能很棘手,因为 (1) 完整的超参数空间相当大,(2) 网络越大,训练所需的时间就越长,这意味着你能探索的超参数空间就越少。因此,在训练前了解改变超参数将如何影响性能是很有帮助的。

结果
进展
下图展示了比赛随时间推移的进展情况:

提交的结构
下面是一个 t-SNE(t-分布随机邻域嵌入)图。该图将原本在向量空间中的提交(此空间涵盖 patchesAhead、patchesBehind、l2_decay、layer_count、gamma、learning_rate、lanesSide、train_iterations 等维度)映射到二维空间,同时保留邻近点的关系结构。每个点的颜色对应提交的分数。这张图的一个有趣特征是出现了几个聚类——参赛者找到了相似的解决方案。

帮助与文档
查看文档页面以获取更多详情、提示以及如何向比赛提交。
团队
参考文献
- [1] https://static.tti.tamu.edu/tti.tamu.edu/documents/mobility-scorecard-2015.pdf
- [2] (6.9 * 1000000000) / (75 * 365 * 24)
- [3] Horn, Berthold KP. "Suppressing traffic flow instabilities." Intelligent Transportation Systems-(ITSC), 2013 16th International IEEE Conference on. IEEE, 2013. https://people.csail.mit.edu/bkph/articles/Suppressing_Traffic_Flow%20Instabilities_IEEE_ITS_2013.pdf
- [4] Stern, Raphael E., et al. "Dissipation of stop-and-go waves via control of autonomous vehicles: Field experiments." Transportation Research Part C: Emerging Technologies 89 (2018): 205-221. https://arxiv.org/pdf/1705.01693.pdf
- [5] https://link.springer.com/content/pdf/10.1007/BF00992698.pdf
常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。