Codes-for-Lane-Detection

GitHub
1.1k 335 较难 1 次阅读 6天前MIT其他开发框架
AI 解读 由 AI 自动生成,仅供参考

Codes-for-Lane-Detection 是一个专注于自动驾驶场景下车道线检测的开源项目,核心目标是让高精度的检测模型在资源受限的设备上也能高效运行。它主要解决了传统高性能车道线检测算法(如 SCNN)参数量大、计算速度慢,难以部署在嵌入式系统或实时应用中的痛点。

该项目非常适合计算机视觉领域的研究人员、算法工程师以及自动驾驶开发者使用。其最大的技术亮点在于提出了基于“自注意力蒸馏”(Self Attention Distillation)的轻量级模型 ENet-SAD。相比当时的最先进模型 SCNN,ENet-SAD 将参数量减少了 20 倍,推理速度提升了 10 倍,同时在 CULane、TuSimple 和 BDD100K 等主流数据集上的检测精度(F1 值或准确率)反而略有提升。此外,代码库还包含了经典 SCNN 模型的 TensorFlow 实现,并支持多 GPU 训练,为复现论文结果和进行二次开发提供了便利的基础设施。无论是希望探索轻量化网络设计的研究者,还是需要落地实时车道线检测功能的工程师,都能从中获得有价值的参考与工具支持。

使用场景

某自动驾驶初创团队正在为一款面向量产的低成本物流车开发车道线感知模块,需要在算力有限的嵌入式芯片上实现高实时性的车道检测。

没有 Codes-for-Lane-Detection 时

  • 硬件成本高昂:为了运行当时主流的 SCNN 模型,团队不得不选用昂贵的高算力工控机,导致单车 BOM 成本大幅超出预算。
  • 推理延迟严重:现有模型参数量大,在边缘设备上推理速度慢,无法满足车辆高速行驶时对毫秒级响应的安全需求。
  • 复杂场景识别率低:在夜间、遮挡或车道线模糊的 CULane 测试集中,模型经常出现漏检或误检,F1 值难以突破瓶颈。
  • 多数据集适配困难:针对不同地区的数据集(如 TuSimple 或 BDD100K),需要重新设计网络结构并耗费大量时间调优。

使用 Codes-for-Lane-Detection 后

  • 显著降低硬件门槛:基于 ENet 架构并结合自注意力蒸馏技术,模型参数量减少了 20 倍,使得低成本嵌入式芯片也能流畅运行。
  • 实时性提升十倍:推理速度比 SCNN 快 10 倍,确保了车辆在高速场景下的决策延迟极低,满足量产实时性要求。
  • 精度全面超越标杆:在 CULane 测试集上 F1 值提升至 72.0(优于 SCNN 的 71.6),在 TuSimple 上准确率高达 96.64%,有效解决了复杂路况下的识别难题。
  • 泛化能力更强:同一套轻量级架构无需大幅修改即可在 BDD100K 等多个数据集上取得优于主流模型的效果,大幅缩短了新场景的落地周期。

Codes-for-Lane-Detection 通过自注意力蒸馏技术,成功打破了高精度车道检测与低算力部署之间的壁垒,让量产级自动驾驶感知成为可能。

运行环境要求

操作系统
  • Linux
GPU

需要 NVIDIA GPU (基于 tensorflow-gpu),支持多卡训练,具体显存大小未说明

内存

未说明

依赖
notes1. 该项目主要基于 TensorFlow 1.3.0 (SCNN-Tensorflow) 和 PyTorch (ENet/ERFNet 部分),安装指令中明确展示了 TensorFlow 环境的构建。2. 需手动下载 VGG-16 预训练模型文件 (vgg.npy) 并放置于指定目录。3. 测试时需注意图像通道顺序 (RGB/BGR) 及均值处理顺序与预训练模型保持一致。4. 数据集 (TuSimple, CULane, BDD100K) 需单独下载并按特定格式整理标签文件。5. 多 GPU 训练需修改配置文件中的 BATCH_SIZE 和 GPU_NUM,并使用 CUDA_VISIBLE_DEVICES 环境变量启动。
python3.5
tensorflow-gpu==1.3.0
VGG-16 预训练权重 (vgg.npy)
Codes-for-Lane-Detection hero image

快速开始

用于通过自注意力蒸馏学习轻量级车道线检测CNN的代码库。

该仓库还包含Spatial As Deep: 用于交通场景理解的空间CNN的TensorFlow实现。(SCNN-Tensorflow)

新闻

  1. ERFNet-CULane-PyTorch 已发布。(它在CULane测试集上可达到73.1的F1分数)

  2. ENet-Label-TorchENet-TuSimple-TorchENet-BDD100K-Torch 已发布。

主要特点:

(1) ENet-label 是一个基于 ENet轻量级 车道线检测模型,并采用了 自注意力蒸馏 技术(更多细节请参阅我们的论文)。

(2) 相较于当前最先进的SCNN,它拥有 20倍 更少的参数,运行速度则快了 10倍,并在CULane测试集上达到了 72.0 的F1分数(优于SCNN的71.6)。此外,在TuSimple测试集上其准确率达到 96.64%(高于SCNN的96.53%),而在BDD100K测试集上则为 36.56%(同样优于SCNN的35.79%)。

(3) 将ENet-SAD应用于 LLAMAS 数据集时,在 多类别车道标记分割任务 中获得了 0.635 的mAP,远超基线算法的0.500 mAP。详细信息请参见 此仓库

(欢迎试用我们的模型!!!)

  1. 现已支持多GPU训练。只需修改 global_config.py 中的 BATCH_SIZE 和 GPU_NUM,然后使用 CUDA_VISIBLE_DEVICES="0,1,2,3" python 文件名.py 即可。感谢 @ yujincheng08。

内容

安装

  1. 安装必要的软件包:
    conda create -n tensorflow_gpu pip python=3.5
    source activate tensorflow_gpu
    pip install --upgrade tensorflow-gpu==1.3.0
    pip3 install -r SCNN-Tensorflow/lane-detection-model/requirements.txt
  1. 下载VGG-16:

这里 下载 vgg.npy,并将其放置在 SCNN-Tensorflow/lane-detection-model/data 目录下。

  1. 用于测试的预训练模型:

请从 这里 下载预训练模型。

数据集

TuSimple

TuSimple测试集的真实标签现已在 TuSimple 上提供。标注过的训练集(#frame = 3268)和验证集标签(#frame = 358)可在 这里 找到,请使用这些文件(list-name.txt)替换 train_lanenet.py 中的 train_gt.txt 和 val_gt.txt。此外,您需要将图像尺寸调整为256 x 512,而非TuSimple默认的288 x 800。请务必更改行和列的最大索引,详细说明请参见 此处。请使用这些标签和 此脚本 来评估您的 pred.json。另外,生成 pred.json 的方法可参考 此议题

CULane

完整数据集可在 CULane 获取。

BDD100K

完整数据集可在 BDD100K 获取。

SCNN-Tensorflow

测试

cd SCNN-Tensorflow/lane-detection-model
CUDA_VISIBLE_DEVICES="0" python tools/test_lanenet.py --weights_path 模型权重文件路径 --image_path 图像名称列表路径 --save_dir 保存目录

请注意,图像名称列表的路径应类似于 test_img.txt。此时,您将获得来自我们模型的概率图。为了得到最终的性能指标,您需要按照 SCNN 的方法,从概率图中提取曲线,并计算精确率、召回率和F1分数。

提醒:请检查 lanenet_data_processor.pylanenet_data_processor_test.py ,以确保图像路径处理正确。建议在图像路径列表中使用绝对路径。此外,此代码要求训练和测试时的批次大小保持一致。如需在测试阶段启用任意批次大小,请参阅 此议题

训练

CUDA_VISIBLE_DEVICES="0" python tools/train_lanenet.py --net vgg --dataset_dir CULane数据集路径/

请注意,CULane数据集路径下应包含类似 train_gt.txtval_gt.txt 的文件。

性能

  1. TuSimple 测试集:
模型 准确率 假阳性 假阴性
SCNN-Torch 96.53% 0.0617 0.0180
SCNN-Tensorflow -- -- --
ENet-Label-Torch 96.64% 0.0602 0.0205

用于测试的预训练模型在此处。(即将发布!)请注意,在 TuSimple 数据集中,SCNN-Torch 基于 ResNet-101,而 SCNN-Tensorflow 则基于 VGG-16。在 CULane 和 BDD100K 数据集中,SCNN-Torch 和 SCNN-Tensorflow 均基于 VGG-16。

  1. CULane 测试集(F1 分数):
类别 SCNN-Torch SCNN-Tensorflow ENet-Label-Torch ERFNet-CULane-PyTorch
正常 90.6 90.2 90.7 91.5
拥挤 69.7 71.9 70.8 71.6
夜间 66.1 64.6 65.9 67.1
无线 43.4 45.8 44.7 45.1
阴影 66.9 73.8 70.6 71.3
箭头 84.1 83.8 85.8 87.2
眩光 58.5 59.5 64.4 66.0
弯道 64.4 63.4 65.4 66.3
十字路口 1990 4137 2729 2199
总计 71.6 71.3 72.0 73.1
运行时间(ms) 133.5 -- 13.4 10.2
参数量(M) 20.72 -- 0.98 2.49

用于测试的预训练模型请见此处。请注意,您需要在 test_lanenet.py 中调换 VGG-MEAN 的顺序,并将输入图像的通道顺序由 RGB 改为 BGR,因为该预训练模型使用 OpenCV 读取图像。您还可以参考此问题,以进一步提升性能。

  1. BDD100K 测试集:
模型 准确率 IoU
SCNN-Torch 35.79% 15.84
SCNN-Tensorflow -- --
ENet-Label-Torch 36.56% 16.02

计算的是车道像素的准确率和 IoU。用于测试的预训练模型在此处。(即将发布!)

其他

引用

如果您使用这些代码,请引用以下文献:

@article{hou2019learning,
  title={Learning Lightweight Lane Detection CNNs by Self Attention Distillation},
  author={Hou, Yuenan and Ma, Zheng and Liu, Chunxiao and Loy, Chen Change},
  journal={arXiv preprint arXiv:1908.00821},
  year={2019}
}

@inproceedings{pan2018SCNN,  
  author = {Xingang Pan, Jianping Shi, Ping Luo, Xiaogang Wang, and Xiaoou Tang},  
  title = {Spatial As Deep: Spatial CNN for Traffic Scene Understanding},  
  booktitle = {AAAI Conference on Artificial Intelligence (AAAI)},  
  month = {February},  
  year = {2018}  
}

@misc{hou2019agnostic,
    title={Agnostic Lane Detection},
    author={Yuenan Hou},
    year={2019},
    eprint={1905.03704},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}

致谢

本仓库基于 SCNNLaneNet 构建。

联系方式

如果您在复现结果时遇到任何问题,请在此仓库中提交 issue。

待办事项

  • 在 TuSimple 和 BDD100K 上测试 SCNN-Tensorflow
  • 提供在 TuSimple 和 BDD100K 上运行 SCNN-Tensorflow 的详细说明
  • 上传我们的轻量级模型(ENet-SAD)及其训练和测试脚本

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

152.6k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|3天前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|3天前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|6天前
插件开发框架