Design2Code

570 49 中等 1 次阅读 1周前MIT语言模型图像其他

AI 解读由 AI 自动生成，仅供参考

Design2Code 是由斯坦福大学 NLP 实验室推出的开源项目，旨在探索并推动前端工程的自动化进程。它的核心功能是将网页设计截图直接转换为可运行的 HTML 代码，从而解决传统前端开发中从视觉设计到代码实现耗时费力、重复性高的问题。

该项目不仅提供了一个包含 484 个真实世界网页样本的基准数据集，还特别构建了"Design2Code-Hard"子集，收录了 80 个高难度案例，用于挑战当前最先进多模态大模型在复杂用户界面生成上的能力极限。此外，团队开源了自研的 Design2Code-18B 模型，并提供了完整的评估代码及针对 GPT-4o、Gemini Pro Vision、Claude 3.5 等主流模型的多模态提示实验框架。

Design2Code 非常适合 AI 研究人员用来评估和对比不同视觉语言模型在前端生成任务上的表现，也适合开发者参考其数据构建与微调流程，以优化自身的代码生成工作流。对于希望了解“设计即代码”技术边界的设计师和技术决策者而言，它同样是一个极具价值的参考资源。通过开放数据、模型权重及评估工具，Design2Code 为社区提供了一个透明、可复现的研究平台，助力前端自动化技术的持续演进。

使用场景

某初创公司的前端团队需要在一天内将设计师提供的 20 张高保真活动页截图转化为可交互的 HTML 原型，以赶在周五前向投资人演示。

没有 Design2Code 时

重复劳动繁重：开发人员需手动对照截图逐行编写 HTML 结构和 CSS 样式，每张页面平均耗时 3-4 小时，极易产生疲劳性错误。
还原度难以保证：人工估算间距、字体大小和颜色值往往存在偏差，导致最终页面与设计稿“形似神不似”，需反复修改调整。
响应式适配滞后：在完成桌面端开发后，还需额外花费大量时间重构代码以适配移动端，严重拖慢整体交付进度。
沟通成本高昂：前端与设计师之间因像素级细节确认频繁开会，大量时间浪费在“这个边距是不是 12px"的琐碎争论上。

使用 Design2Code 后

生成效率飞跃：利用 Design2Code-18B 模型直接上传截图，几分钟内即可生成结构完整、样式高度还原的基础代码，单页耗时缩短至 15 分钟。
像素级精准还原：模型能准确识别视觉元素属性，生成的代码在布局、色彩和排版上与设计稿保持高度一致，大幅减少后期微调工作。
内置适配逻辑：生成的代码天然包含合理的响应式结构，开发者只需少量补充即可实现多端兼容，显著压缩适配周期。
聚焦核心逻辑：团队可将精力从繁琐的切图写样式中解放出来，专注于业务逻辑实现和交互动效优化，提升演示原型的质感。

Design2Code 通过将视觉设计直接转化为高质量代码，将前端工程从“手工复刻”升级为“智能生成”，让团队得以在极短周期内交付高保真产品原型。

运行环境要求

操作系统

未说明

GPU

运行 Design2Code-18B 模型需要高性能 GPU（基于 CogAgent-18B），具体显存需求未说明，但 18B 参数模型通常建议 24GB+ 显存
截图和评估功能无需 GPU

内存

未说明

依赖

notes1. 代码已在 Python 3.11 上测试，建议使用虚拟环境管理依赖。 2. 需安装 Playwright 以支持浏览器截图和自动评估功能（运行 'playwright install'）。 3. 运行 GPT-4V、Gemini 或 Claude 实验需配置对应的 API 密钥。 4. 微调或推理 Design2Code-18B 模型需遵循 CogAgent 的安装指南，该模型基于 CogVLM 架构。 5. 自动评估脚本支持多进程加速，全量测试集评估耗时约 1 小时。

python3.11

playwright

torch (通过 CogVLM/CogAgent 依赖)

transformers (通过 CogVLM/CogAgent 依赖)

快速开始

Design2Code：前端工程自动化还有多远？

快速链接： [数据集] [模型检查点] [项目页面] [论文]

概述

这是由斯坦福NLP实验室SALT组维护的Design2Code项目的官方仓库。在该仓库中，我们提供了：

用于将视觉设计（截图）转换为代码实现任务的 Design2Code 基准数据集，包含来自C4的484个真实世界网页（示例如下）。
Design2Code-Hard 数据集，是从Github Pages收集的80个额外困难测试用例的子集，旨在挑战当前最先进视觉语言模型在Web UI生成方面的能力。
用于运行所有自动评估的代码。
用于在GPT-4O、Gemini Pro Vision和Claude 3.5系列模型上进行多模态提示实验的代码。
用于微调并运行我们开源的Design2Code-18B模型推理的代码。

环境搭建

所有代码均在Python 3.11环境下测试通过。我们建议使用虚拟环境来管理依赖项。

克隆本仓库并安装必要的库：

pip install -e .

截取屏幕和运行评估还需要安装浏览器：

playwright install

如果上述命令无法执行，请尝试：

python3 -m playwright install

数据与预测

Design2Code

您可以从这个 Google Drive链接下载完整的Design2Code测试集，或访问Huggingface数据集的页面。

解压到testset_final/目录后，文件夹应包含484对截图（xx.png）和对应的HTML代码（xx.html）。我们还附带了HTML代码中使用的占位图片rick.jpg。

Design2Code-HARD

您可以从这个链接下载完整的Design2Code-HARD测试集，或者访问Huggingface数据集的页面。

下载的文件夹包含80对截图（xx.png）和对应的HTML代码（xx.html）。我们同样附带了HTML代码中使用的占位图片rick.jpg。

截取屏幕

如果您想自行截取网页的屏幕截图，可以运行以下命令：

cd Design2Code
python3 data_utils/screenshot.py

请记得将脚本中的文件名或目录替换为您自己的内容。

模型预测

为了便于进一步分析，我们还发布了模型在基准测试集上的所有预测结果：

GPT-4V（包括直接提示、文本增强提示和自我修正提示）
Gemini Pro Vision（包括直接提示、文本增强提示和自我修正提示）
WebSight VLM-8B（Huggingface）
Design2Code-18B（我们的模型）
自动评估结果
人工评估——模型两两比较
人工评估——直接评分

运行提示实验

要运行提示实验，首先将您的OpenAI或Google Gemini API密钥放入根目录下的api_keys.json文件中。文件格式如下：

{
    "organization_id": "",
    "openai_key": "",
    "openai_endpoint": "",
    "gemini_api_key": ""
}

然后，要运行GPT-4V实验，执行：

bash prompting/gpt4v.sh

要运行Gemini Pro Vision实验，执行：

bash prompting/gemini.sh

要运行Claude 3.5 Sonnet实验，执行：

bash prompting/claude3-5.sh

这些bash脚本包含了运行直接提示、文本增强提示和自我修正提示的脚本。所有提示语都写在prompting/gpt4v.py和prompting/gemini.py中，您可以修改它们以运行自己的提示或开发更智能的提示策略。我们欢迎对该部分项目的任何贡献！

另外请注意，我们目前是从Azure访问OpenAI API的，如果您直接调用OpenAI API，可能需要做一些小的调整。

在CogAgent-18B上运行推理

我们还提供了在基础模型CogAgent-18B上运行推理的代码：

python3 prompting/cogagent.py

请注意，该模型并未针对Design2Code任务进行微调，因此性能非常差，往往甚至无法生成有效的HTML代码。

在Design2Code-18B上运行推理

微调后的模型基于CogAgent，请按照说明安装必要的库。

您可以通过以下命令运行推理：

python3 CogVLM/finetune_demo/inference_design2code.py

微调Design2Code-18B

微调脚本为finetune_cogagent_lora_design2code.sh。

运行自动评估

您可以使用以下命令来运行自动评估：

python3 metrics/multi_processing_eval.py

请注意，您需要在 metrics/multi_processing_eval.py 文件中（从第54行开始）指定存储模型预测结果的目录，如下所示：

test_dirs = {
        "gpt4v_direct_prompting": "../predictions_final/gpt4v_direct_prompting",
        "gemini_direct_prompting": "../predictions_final/gemini_direct_prompting"
}

其中，我们假设字典中的每个目录都包含对应模型或方法的预测结果（即，每个目录应包含针对完整测试集的484个预测HTML文件，或者您自行采样的子集）。脚本将为每个目录中的所有示例计算所有自动指标的得分，并将结果存储在一个字典中，格式如下：

{
    "gpt4v_direct_prompting": {
        "2.html": [0.1, 0.2, ...],
        "6.html": [0.3, 0.4, ...],
        ...
    },
    "gemini_direct_prompting": {
        "2.html": [0.5, 0.6, ...],
        "6.html": [0.7, 0.8, ...],
        ...
    }
}

其中，每个列表包含了细粒度的分解指标。脚本最后还会打印出每个模型或方法的平均得分，格式如下：

gpt4v_direct_prompting

块匹配： 0.6240771561959276
文本： 0.9769471025300969
位置： 0.7787072741618328
颜色： 0.7068853534416764
CLIP： 0.8924754858016968
--------------------------------

gemini_direct_prompting

块匹配： 0.6697374012874602
文本： 0.9731735845969769
位置： 0.6502285758036523
颜色： 0.8531304981602478
CLIP： 0.8571878373622894
--------------------------------

这些指标也是我们在论文中报告的内容。默认情况下，我们支持多进程加速评估；您也可以通过将第40行的 multiprocessing = False 来手动关闭多进程功能。

供您参考，对完整测试集进行评估（针对每个模型/方法）可能需要长达1小时。

其他功能

data_utils 包含了我们用于从C4数据集中构建测试数据的各种过滤和处理脚本。

许可证

本项目的数据、代码和模型检查点仅限于研究用途。请勿将其用于任何恶意目的。

该基准测试基于C4数据集构建，采用ODC署名许可协议（ODC-By）。

致谢

我们的测试集是从C4中筛选得到的；训练样本则来自HuggingFaceM4的Websight。我们的模型是在CogAgent的基础上进行微调的。感谢他们出色的工作！

如果您觉得我们的工作有所帮助，请考虑引用我们的论文：

@misc{si2024design2code,
    title={Design2Code: 我们距离前端工程自动化还有多远？},
    author={Chenglei Si、Yanzhe Zhang、Zhengyuan Yang、Ruibo Liu、Diyi Yang},
    year={2024},
    eprint={2403.03163},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

我们欢迎对该项目的各种贡献（欢迎提交PR）。如有任何问题，请随时提出Issue或发送邮件给我们。

Design2Code 快速上手指南

Design2Code 是由斯坦福 NLP SALT 实验室开源的项目，旨在评估和实现将视觉设计（截图）自动转换为前端代码（HTML）的任务。本指南帮助开发者快速搭建环境并运行基准测试或模型推理。

环境准备

操作系统: Linux / macOS (Windows 需使用 WSL)
Python 版本: 推荐 Python 3.11
依赖管理: 建议使用虚拟环境 (venv 或 conda)
浏览器驱动: 需要安装 Playwright 以支持截图和自动化评估

安装步骤

克隆仓库并进入目录
```
git clone <repo_url>
cd Design2Code
```

创建并激活虚拟环境

python3 -m venv venv
source venv/bin/activate  # Windows: venv\Scripts\activate

安装项目依赖
```
pip install -e .
```
安装浏览器驱动 (Playwright)
```
playwright install
```
如果上述命令失败，请尝试：
```
python3 -m playwright install
```

基本使用

1. 获取数据集

你可以从 Hugging Face 或 Google Drive 下载测试集。下载后解压到 testset_final/ 目录，结构应包含成对的截图 (xx.png) 和参考 HTML 代码 (xx.html)。

Design2Code (484 个样本): Hugging Face
Design2Code-Hard (80 个高难样本): Hugging Face

2. 运行多模态提示实验 (GPT-4V / Gemini / Claude)

首先在项目根目录创建 api_keys.json 文件并填入你的 API Key：

{
    "organization_id": "",
    "openai_key": "",
    "openai_endpoint": "",
    "gemini_api_key": ""
}

然后运行对应的脚本启动实验（包含直接提示、文本增强提示和自我修正提示）：

# 运行 GPT-4V 实验
bash prompting/gpt4v.sh

# 运行 Gemini Pro Vision 实验
bash prompting/gemini.sh

# 运行 Claude 3.5 Sonnet 实验
bash prompting/claude3-5.sh

3. 运行开源模型推理 (Design2Code-18B)

该模型基于 CogAgent 微调而成。确保已按照 CogAgent 说明安装相关库。

运行推理命令：

python3 CogVLM/finetune_demo/inference_design2code.py

4. 运行自动评估

将模型生成的 HTML 文件整理到指定目录后，运行以下脚本计算各项指标（Block-Match, Text, Position, Color, CLIP 等）：

python3 metrics/multi_processing_eval.py

注意：需在 metrics/multi_processing_eval.py 第 54 行左右配置预测结果目录路径 (test_dirs)。

常见问题

训练 Design2Code 模型时，输入（Prompt）是什么？

如何处理 Websight 数据集中包含的图片 URL？

预处理阶段是否应该移除外部链接（如 Google Fonts）以防止截图失败？

为什么选择使用 CLIP 嵌入来计算高层相似度，而不是其他模型？

该项目支持哪个版本的 Python？

为什么代码库不支持 CentOS 系统？

找不到 `Pix2Code/metrics/visual_score.py` 文件怎么办？

visual_eval_v3_multi 函数是否必须提供生成网页的截图作为输入？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160.8k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent