lcnn

561 104 中等 1 次阅读 1个月前MIT开发框架数据工具

AI 解读由 AI 自动生成，仅供参考

lcnn 是一款基于 PyTorch 开发的开源深度学习模型，专注于实现从单张图像中端到端地解析线框结构。它主要解决了传统算法在复杂场景下难以精准提取直线段及其交点、导致线框重建不完整或噪声过多的难题。通过直接输出结构化的线框表示，lcnn 能够高效地将照片转化为简洁的几何线条图。

该工具特别适合计算机视觉领域的研究人员、算法开发者以及需要处理建筑图纸或场景理解任务的工程师使用。对于希望复现前沿论文结果或构建线框检测基线的团队，lcnn 提供了易于上手且可复现的代码实现。

其核心技术亮点在于概念简洁却效果显著的网络架构。在权威的 ShanghaiTech 数据集测试中，lcnn 在多项关键指标上大幅超越了 LSD、AFM 等此前的最先进方法，展现了卓越的检测精度与鲁棒性。作为 ICCV 2019 收录论文的官方实现，它不仅性能出众，还具备良好的代码结构性，方便用户进行数据预处理、模型训练及结果可视化，是线框解析领域极具参考价值的基础工具。

使用场景

某建筑数字化团队正致力于将大量老旧的手绘建筑草图转化为可编辑的矢量 CAD 图纸，以便进行后续的 BIM 建模。

没有 lcnn 时

线条断裂严重：传统算法（如 LSD）难以处理手绘图中的断点和噪点，导致生成的墙体和梁柱线条支离破碎，无法形成闭合轮廓。
拓扑关系缺失：检测到的线段仅仅是独立的几何元素，缺乏端点连接信息，工程师必须手动逐条拼接才能还原房间结构。
后处理成本高昂：为了修复错误的连接和剔除冗余短线，团队需编写复杂的启发式规则代码，且仍需大量人工介入校正。
泛化能力弱：面对不同笔触风格或光照条件的草图，现有模型效果波动极大，难以满足批量自动化处理的需求。

使用 lcnn 后

端到端完整解析：lcnn 直接输出结构完整的线框图，能智能补全手绘中的微小断裂，精准还原连续的墙体与门窗轮廓。
自动构建拓扑网络：模型天然理解线段间的交点与连接关系，直接生成带有节点信息的矢量数据，无需额外算法拼接。
流程极简高效：凭借在 ShanghaiTech 数据集上超越前代模型的大幅精度提升（sAP 从 24.4 跃升至 62.9），团队省去了繁琐的规则清洗步骤，实现“输入图片即得矢量”。
鲁棒性显著增强：无论是铅笔素描还是扫描件，lcnn 均能保持稳定的高召回率与精确率，大幅降低了人工复核的工作量。

lcnn 通过端到端的深度学习架构，将非结构化的图像像素直接转化为高精度的结构化线框数据，彻底打通了从手绘草图到数字孪生的关键路径。

运行环境要求

操作系统

Linux

GPU

需要 NVIDIA GPU，推荐显存 12GB+（如 GTX 1080Ti 或 RTX 2080Ti），支持 CUDA 10.1
也可通过参数强制使用 CPU 推理

内存

未说明

依赖

notes建议使用 Miniconda 管理环境。评估 AP^H 指标时必须安装 MATLAB 并配置到系统路径，且强烈建议安装 MATLAB 并行计算工具箱 (Parallel Computing Toolbox)。默认批处理大小基于 12GB 显存设定，显存较小需手动调整。

python未说明 (需通过 conda 安装)

pytorch

cudatoolkit=10.1

tensorboardx

pyyaml

docopt

matplotlib

scikit-image

opencv

快速开始

端到端线框解析

本仓库包含论文的官方 PyTorch 实现：Yichao Zhou, Haozhi Qi, Yi Ma. "End-to-End Wireframe Parsing." ICCV 2019。

简介

L-CNN 是一种概念简单但高效的神经网络，用于从给定图像中检测线框。它在性能上大幅超越了先前的最先进线框和线条检测器。我们希望本仓库能为该领域的未来研究提供一个易于复现的基准。

主要结果

定性评估


LSD	AFM	Wireframe	L-CNN	Ground Truth

更多随机采样的结果可在论文的补充材料中找到。

定量评估

下表报告了多个线框和线条检测器在上海科技大学数据集上的性能指标。

	上海科技大学 (sAP¹⁰)	上海科技大学 (AP^H)	上海科技大学 (F^H)	上海科技大学 (mAP^J)
LSD	/	52.0	61.0	/
AFM	24.4	69.5	77.2	23.3
Wireframe	5.1	67.8	72.6	40.9
L-CNN	62.9	82.8	81.2	59.3

精度-召回率曲线

代码结构

以下是各文件功能的简要概述。

########################### 数据 ###########################
figs/
data/                           # 默认数据存放目录
    wireframe/                  # 上海科技大学数据集（Huang 等人）存放目录
logs/                           # 训练过程中输出的默认存储目录
########################### 代码 ###########################
config/                         # 神经网络超参数及配置
    wireframe.yaml              # 上海科技大学数据集的默认参数
dataset/                        # 所有与数据生成相关的脚本
    wireframe.py                # 将上海科技大学数据集预处理为 npz 格式的脚本
misc/                           # 不重要的辅助脚本
    draw-wireframe.py           # 生成图格的脚本
    lsd.py                      # 为 LSD 生成 npz 文件的脚本
    plot-sAP.py                 # 绘制所有算法 sAP10 曲线的脚本
lcnn/                           # lcnn 模块，可在其他脚本中“import lcnn”
    models/                     # 神经网络结构
        hourglass_pose.py       # 主干网络（堆叠沙漏网络）
        line_vectorizer.py      # 抽样及线条验证网络
        multitask_learner.py    # 多任务学习网络
    datasets.py                 # 读取训练数据
    metrics.py                  # 评估指标相关函数
    trainer.py                  # 训练器
    config.py                   # 全局配置变量
    utils.py                    # 辅助函数
demo.py                         # 用于检测单张图像线框的脚本
eval-sAP.py                     # sAP 评估脚本
eval-APH.py                     # APH 评估脚本
eval-mAPJ.py                    # mAPJ 评估脚本
train.py                        # 神经网络训练脚本
post.py                         # 后处理脚本
process.py                      # 从检查点处理数据集的脚本

结果复现

安装

为便于复现，建议您在执行以下命令之前先安装 miniconda。

git clone https://github.com/zhou13/lcnn
cd lcnn
conda create -y -n lcnn
source activate lcnn
# 根据您的 CUDA 版本修改命令：https://pytorch.org/
conda install -y pytorch cudatoolkit=10.1 -c pytorch
conda install -y tensorboardx -c conda-forge
conda install -y pyyaml docopt matplotlib scikit-image opencv
mkdir data logs post

预训练模型

您可以从我们的HuggingFace 仓库下载参考预训练模型。这些模型使用 config/wireframe.yaml 训练了 312k 次迭代。请使用 demo.py、process.py 和 eval-*.py 来评估预训练模型。

检测您自己的图像中的线框

要测试 LCNN 在您自己的图像上的效果，您需要下载预训练模型并执行以下命令：

python ./demo.py -d 0 config/wireframe.yaml <预训练模型路径> <图像路径>

其中，-d 0 指定了用于评估的 GPU ID，您也可以指定 -d "" 强制使用 CPU 进行推理。

下载处理后的数据集

请确保您的系统已安装 curl，然后执行以下命令：

cd data
wget https://huggingface.co/yichaozhou/lcnn/resolve/main/Data/wireframe.tar.xz
tar xf wireframe.tar.xz
rm wireframe.tar.xz
cd ..

或者，您也可以从我们的 HuggingFace 仓库手动下载预处理好的数据集 wireframe.tar.xz，并按照相应步骤进行操作。

数据集的预处理

可选地，您可以从头开始对数据集进行预处理（例如生成热力图、进行数据增强），而不是直接下载已经处理好的数据集。如果您只想使用预处理好的数据集 wireframe.tar.xz，请跳过本节。

cd data
wget https://huggingface.co/yichaozhou/lcnn/resolve/main/Data/wireframe_raw.tar.xz
tar xf wireframe_raw.tar.xz
rm wireframe_raw.tar.xz
cd ..
dataset/wireframe.py data/wireframe_raw data/wireframe

训练

默认的批处理大小假设您使用的是显存为 12GB 的显卡，例如 GTX 1080Ti 或 RTX 2080Ti。如果您的显存较少，可以适当减小批处理大小。

要在 GPU 0 上（通过 -d 0 指定）使用默认参数训练神经网络，请执行以下命令：

python ./train.py -d 0 --identifier baseline config/wireframe.yaml

测试预训练模型

要使用预训练模型在验证数据集中生成线框图，请执行以下命令：

./process.py config/wireframe.yaml <checkpoint.pth路径> data/wireframe logs/pretrained-model/npz/000312000

后处理

要对神经网络的输出进行后处理（仅在需要评估 AP^H 时才需要），请执行以下命令：

python ./post.py --plot --thresholds="0.010,0.015" logs/RUN/npz/ITERATION post/RUN-ITERATION

其中，--plot 是一个_可选_参数，用于控制程序是否在生成包含线条信息的 npz 文件之外，还生成用于可视化的图像；--thresholds 则用于控制后处理的激进程度。--thresholds 中可以指定多个值，便于超参数搜索。您需要将 RUN 和 ITERATION 替换为您训练实例的具体值。

评估

要评估 logs/ 目录下所有检查点的 sAP（推荐），请执行以下命令：

python eval-sAP.py logs/*/npz/*

要评估 mAP^J,请执行以下命令：

python eval-mAPJ.py logs/*/npz/*

要评估 AP^H,您首先需要对结果进行后处理（参见上一节）。此外，AP^H 的评估需要 MATLAB，并且 matlab 应位于您的 $PATH 中。由于使用了 parfor，强烈建议安装 并行计算工具箱。后处理完成后，执行以下命令以获取图表：

python eval-APH.py post/RUN-ITERATION/0_010 post/RUN-ITERATION/0_010-APH

其中，0_010 是后处理时使用的阈值，而 post/RUN-ITERATION-APH 是用于存储中间文件的临时目录。由于采用了逐像素匹配的方式，AP^H 的评估时间可能长达一小时，具体取决于您的 CPU 性能。

更多关于评估的详细信息，请参阅 eval-sAP.py、eval-mAPJ.py、eval-APH.py 以及 misc/*.py 的源代码。

引用端到端线框解析

如果您在研究中发现 L-CNN 非常有用，请考虑引用以下文献：

@inproceedings{zhou2019end,
 author={Zhou, Yichao and Qi, Haozhi and Ma, Yi},
 title={End-to-End Wireframe Parsing},
 booktitle={ICCV 2019},
 year={2019}
}

L-CNN 快速上手指南

L-CNN 是一个用于端到端线框解析（Wireframe Parsing）的 PyTorch 实现，能够高效地从图像中检测线框结构，性能优于传统的线检测器。

环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统: Linux (推荐) 或 macOS
Python: 3.6+
GPU: 支持 CUDA 的 NVIDIA 显卡（训练推荐显存 12GB+，如 GTX 1080Ti/RTX 2080Ti；推理可酌情降低）
依赖软件: git, curl, wget

注意：若需评估 $AP^H$ 指标，必须安装 MATLAB 并将其加入系统 $PATH，同时建议安装 Parallel Computing Toolbox。

安装步骤

推荐使用 miniconda 管理环境以保证复现性。

克隆仓库并创建环境

git clone https://github.com/zhou13/lcnn
cd lcnn
conda create -y -n lcnn python=3.7
source activate lcnn

安装深度学习依赖 请根据您的 CUDA 版本调整 cudatoolkit 版本号（参考 PyTorch 官网）。以下示例适用于 CUDA 10.1：

# 安装 PyTorch (国内用户可使用清华源加速：-c https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/)
conda install -y pytorch cudatoolkit=10.1 -c pytorch

# 安装其他依赖
conda install -y tensorboardx -c conda-forge
conda install -y pyyaml docopt matplotlib scikit-image opencv

创建必要目录
```
mkdir data logs post
```

基本使用

1. 下载预训练模型

从 HuggingFace 下载官方提供的预训练权重（基于 ShanghaiTech 数据集训练 312k 次迭代）：

下载地址：HuggingFace Repo
将下载的 .pth 文件放置在任意方便访问的路径。

2. 检测自定义图像的线框

使用预训练模型对单张图片进行线框检测是最简单的用法。

命令格式：

python ./demo.py -d <GPU_ID> config/wireframe.yaml <path-to-pretrained-pth> <path-to-image>

示例： 假设您使用 GPU 0，预训练模型路径为 pretrained.pth，待检测图片为 test.jpg：

python ./demo.py -d 0 config/wireframe.yaml pretrained.pth test.jpg

-d 0: 指定使用的 GPU ID。
-d "": 强制使用 CPU 进行推理（速度较慢）。
输出结果通常包含可视化的线框图及对应的数据文件。

3. (可选) 使用处理好的数据集

如果您计划复现论文结果或进行微调，可下载已预处理好的 ShanghaiTech 数据集：

cd data
wget https://huggingface.co/yichaozhou/lcnn/resolve/main/Data/wireframe.tar.xz
tar xf wireframe.tar.xz
rm wireframe.tar.xz
cd ..

常见问题

在 Windows 上训练时遇到 'BoxKeyError' 或对象属性缺失错误怎么办？

输入数据字典中的 lmap, jmap, joff, Lpos, Lneg 等变量具体代表什么含义？

训练过程中验证损失（validation loss）不下降甚至震荡怎么办？

如何可视化模型的输出结果？

如何将其他方法（如 AFM）的结果转换为 lcnn 评估所需的 npz 格式？

在哪里可以下载预训练模型以及如何评估它们？

测试或验证阶段是否需要 Ground Truth (GT) 数据？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|今天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架