AI 解读由 AI 自动生成，仅供参考

tools 是知名开发者 Simon Willison 打造的一个在线实用工具箱，汇集了数十个专注于图像处理、文档解析及文本操作的小型 Web 应用。它主要解决了用户在日常生活中频繁遇到的碎片化需求，例如快速裁剪社交媒体配图、对比图片压缩质量、在浏览器端直接进行 OCR 文字识别、转换文件格式（如 RTF 转 HTML）以及可视化 PDF 差异等，让用户无需安装庞大软件即可完成特定任务。

这套工具集非常适合设计师、内容创作者、开发者以及任何需要高效处理多媒体文件的普通用户使用。其最独特的技术亮点在于“提示词驱动开发”的实验性质：绝大多数工具并非由人类逐行编写，而是借助大语言模型（LLM）自动生成 HTML 和 JavaScript 代码构建而成。项目不仅开源了所有代码，还公开了每个工具的生成对话记录与提交信息，既展示了 AI 辅助编程的实际潜力，也为开发者探索如何与大模型协作提供了生动的参考案例。所有功能均基于浏览器运行，注重隐私与便捷性，是体验轻量级 AI 开发成果的绝佳窗口。

使用场景

内容创作者小明在准备一篇技术博客时，需要处理大量截图、提取文档文字并优化排版格式。

没有 tools 时

手动使用 Photoshop 逐张裁剪图片以适应社交媒体比例，耗时且容易出错。
遇到扫描版 PDF 中的文字无法直接复制，必须安装重型 OCR 软件或依赖在线付费服务。
对比两个版本的 PDF 文档差异时，只能肉眼逐页查找，效率极低且易遗漏细节。
将 Markdown 草稿转换为带数学公式的 HTML 预览时，需反复切换本地编辑器与浏览器刷新查看效果。
从网页复制富文本到剪贴板后，难以查看其底层 HTML 结构，导致粘贴到 CMS 后台时常出现样式错乱。

使用 tools 后

利用 Social media cropper 一键将多张截图批量裁剪为 2:1 比例，瞬间完成社媒配图准备。
直接在浏览器中通过 PDF OCR 工具上传文件，几秒钟内即可提取并复制扫描文档中的全部文字。
使用 Compare PDFs 可视化高亮显示两份文档的差异点，快速定位修改内容，无需人工比对。
借助 Markdown math 实时预览包含 LaTeX 公式的文章效果，边写边看，大幅减少调试时间。
通过 Paste rich text 和 Clipboard viewer 即时 inspect 剪贴板中的 HTML 源码，精准清理冗余标签，确保发布样式整洁。

tools 让原本繁琐的媒体处理与文档编辑工作流在浏览器内轻量化完成，显著提升了内容生产的效率与质量。

运行环境要求

操作系统

未说明

GPU

不需要

内存

未说明

依赖

notes该工具集主要由 HTML 和 JavaScript 构建，直接在浏览器中运行，无需安装本地环境、Python 或 GPU。部分功能（如 OCR、Markdown 渲染）依赖浏览器内置能力或调用外部 API（如 GitHub API、LLM API）。

python不需要

快速开始

tools.simonwillison.net

各种 HTML+JavaScript 工具，主要借助大语言模型构建。另请参阅 /python/，其中包含使用 Python 编写的工具。

本系列是一次低风险的提示驱动开发实验。

后记列出了每个工具的提交信息和对话记录。

代码托管在 simonw/tools 中，许多工具使用了此处描述的 Claude 自定义指令：这里。

图片与媒体

社交媒体裁剪器将图片裁剪为 2×1 比例，适合社交媒体分享
图片尺寸与质量对比比较 JPEG 质量设置
图片转 JPEG 将 PNG 或 WebP 文件转换为 JPEG
图片转 SVG 将位图图像描摹为 SVG 路径
SVG 转 JPEG/PNG 将 SVG 渲染为栅格图像
SVG 沙盒安全显示解码后的 SVG 文件
SVG 渐进式渲染观看 SVG 自动绘制过程
边界框裁剪器绘制边界框并读取坐标
掩码可视化器检查带有边界框的 JSON 掩码
FFmpeg 裁剪助手生成用于裁剪视频的 FFmpeg 命令
TIFF 方向查看器检查 EXIF 方向元数据
头像 Web 组件在原地上传和裁剪头像
YouTube 缩略图列出视频的缩略图 URL

文本与文档

OCR 在浏览器中识别图片和 PDF 中的文本
PDF OCR 对上传的 PDF 进行光学字符识别
比较 PDF 可视化两个 PDF 之间的差异
渲染 Markdown 使用 GitHub API 将 Markdown 转换为 HTML
HTML 预览左侧输入 HTML，右侧实时显示渲染结果
RTF 转 HTML 检查 RTF 剪贴板数据并将其转换为 HTML
Markdown 数学实时预览包含 LaTeX 公式的 Markdown
脚注实验演示将脚注链接到弹出窗口
阅读时间计算器估算阅读一段文字所需的时间
字数统计统计多个文本块中的单词数量
文本换行平衡导航探索 text-wrap: balance 属性
标题导航生成基于 ID 的目录
粘贴富文本检查剪贴板中的 HTML 和纯文本
粘贴 HTML 子集查看哪些标签在 HTML 净化后仍保留
剪贴板查看器调试剪贴板中存储的所有内容
提取 URL 从粘贴的 HTML 中提取链接列表
JSON 转 Markdown 记录将记录 JSON 转换为 Markdown
JSON 转 YAML 在 JSON 和 YAML 格式之间进行转换
YAML 浏览器以可折叠树形结构浏览 YAML 文档
JSON 模式生成器可视化设计 JSON 模式
不完整 JSON 打印美观地打印部分 JSON 文档
PHP 反序列化工具将序列化的 PHP 数据转换为 JSON
SQL 格式化工具重新格式化 SQL 查询以提高可读性
Pipfile.lock 解析器从 Pipfile.lock 中提取依赖版本

数据与时间工具

时间戳转换器将 Unix 时间戳转换为可读日期
时区比较多个时区的时间
日期计算器计算日期之间的天数或仅计算工作日
文件传输时间估算计算文件传输所需时间
Token 使用量计算器按模型汇总 LLM 的 token 日志
LLM 价格重定向快速链接到最新的模型定价网站
CSV 标记地图根据 CSV 文件在地图上绘制标记
物种观测地图浏览近期的 iNaturalist 观测记录

GitHub 与开发

GitHub API 写入直接将文本或图片上传到仓库
GitHub 问题查看器获取 GitHub 问题和评论
GitHub 问题转 Markdown 将问题线程转换为 Markdown
Zip/Wheel 浏览器查看 Python wheel 和 zip 文件的内容
Ares 语音字母表将文本转换为 ARES 紧急语音编码
与 Claude 一起编码 2025 原型化 Claude 编码的工作流程
侧边栏对话演示实验 HTML dialog 元素
广播通道聊天使用 BroadcastChannel 在不同标签页之间聊天

Bluesky 和社交工具

Bluesky WebSocket Firehose 实时查看 Bluesky 上的动态
Bluesky 解析 DID 将类似 simonwillison.net 的句柄转换为 DID
Bluesky 时间线查看用户的最新帖子和回复
Bluesky 线程导出将 Bluesky 线程保存为 Markdown 格式
Bluesky 引用查找器查找某条 Bluesky 帖子的所有引用
活动策划器存储在 localStorage 中的简易日程规划工具
无密码密钥演示体验基于浏览器的无密码密钥认证

大模型 Playground 和调试工具

Haiku 使用 Claude Haiku 和你的摄像头生成俳句
Chrome Prompt Playground 在 Chrome 的 Gemini Nano 上运行提示词
Gemini 边界框可视化器可视化 Gemini 返回的边界框
Gemini 聊天客户端用于 Gemini API 的简单聊天界面
Gemini 掩码可视化器将 Gemini 的分割掩码叠加显示
Gemini 图像 JSON 渲染器展示来自 Gemini JSON 输出的图像
Claude 令牌计数器统计 Claude 提示词中的令牌数量
OpenAI 音频输入录制音频并发送给 OpenAI 模型
OpenAI 音频输出使用 OpenAI 的语音合成技术生成语音
OpenAI WebRTC 演示与 OpenAI 的实时音频 API 进行交互
GPT-4o Gist 音频播放器播放存储在 GitHub Gist 上的音频响应
JSON 模式构建器使用可视化编辑器构建 JSON 模式

其他工具

Arena 动画图 LMSYS 聊天机器人竞技场的动画图表
加州夏令时调整查看夏令时调整的具体时间
Open Sauce 2025 议程浏览即将举行的会议议程
OpenFreeMap 演示 MapLibre 演示，包含旧金山随机点位
美国总统任期进展跟踪当前总统任期已过去的天数
用户代理显示显示你的浏览器的用户代理字符串
消息加密/解密分享简短的加密消息
ARIA 实时区域动态页面公告演示
Prompts.js 一个用于美化 JavaScript 提示框的小型库
APSW SQLite 查询解释器使用 APSW 解释 SQLite 查询

在 Observable 上

在 Observable 上：

博客转邮件列表帮助将博客文章转化为邮件列表
将 Claude JSON 转换为 Markdown 用于分享 Claude 的对话记录
按最新排序的 Hacker News 首页，附带评论链接

常见问题

为什么 Claude Code 无法提交 PR 或创建 Issue？

OCR 工具支持哪些语言？如何为特定语言生成可分享的链接？

如何在网页中实现粘贴图片进行 OCR 识别的功能？

使用 OCR 工具时，如果先上传图片再切换语言导致识别失败，该如何修复？

如何解决 date-calculator.html 中的布局错位问题？

如何让 HTML 文件更好地支持屏幕阅读器（无障碍访问）？

如何在项目首页动态展示“最近添加”和“最近更新”的工具列表？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|今天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|1周前

开发框架图像Agent

tools

使用场景

没有 tools 时

使用 tools 后

运行环境要求

快速开始

tools.simonwillison.net

图片与媒体

文本与文档

数据与时间工具

GitHub 与开发

Bluesky 和社交工具

大模型 Playground 和调试工具

其他工具

在 Observable 上

tools.simonwillison.net 快速上手指南

项目简介

环境准备

系统要求

前置依赖

安装步骤

方式一：在线使用（推荐）

方式二：本地克隆源码（开发者适用）

基本使用

1. 图像与媒体处理

2. 文档与文本工具

3. LLM 调试与实验

4. 数据格式转换

5. 高级功能：GitHub 集成

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

ComfyUI

gemini-cli

LLMs-from-scratch

Deep-Live-Cam