markdowner

1.9k 146 简单 1 次阅读今天MIT数据工具插件

AI 解读由 AI 自动生成，仅供参考

Markdowner 是一款由 Supermemory 团队打造的高效工具，旨在将任意网站内容快速转换为大语言模型（LLM）易于理解的 Markdown 格式数据。在构建 AI 应用时，结构化且可预测的数据能显著提升模型的回答质量，而现有的同类方案往往存在费用高昂、功能受限或部署困难等痛点。Markdowner 的出现正是为了解决这些问题，它完全免费且支持轻松自托管，让高质量的数据预处理不再成为门槛。

这款工具非常适合开发者、AI 研究人员以及需要构建知识库或 RAG（检索增强生成）应用的技术人员使用。它不仅支持将单个网页转为 Markdown，还具备独特的自动爬虫功能，无需网站地图即可抓取多达 10 个子页面；同时提供"LLM 过滤”选项，能智能剔除无关信息，只保留核心内容。此外，用户还可以选择获取详细的 HTML 内容或直接输出 JSON 格式，灵活满足不同场景需求。

在技术实现上，Markdowner 巧妙利用了 Cloudflare 的浏览器渲染（Browser Rendering）和持久化对象（Durable Objects）技术，在云端动态启动浏览器实例并结合 Turndown 库完成转换，既保证了渲染的准确性，又实现了极高的运行效率。无论是想快速测试网页内容，还是搭建大规模数据采集管道，Markdowner 都是一个轻量、强大且友好的选择。

使用场景

某 AI 初创团队正在构建一个垂直领域的行业知识库，需要每日自动抓取并清洗数十个技术博客和新闻网站的内容，以供大模型进行检索增强生成（RAG）。

没有 markdowner 时

数据格式混乱：直接抓取的 HTML 包含大量导航栏、广告和脚本标签，导致大模型被噪声干扰，回答准确率大幅下降。
开发成本高昂：团队需自行编写复杂的解析规则或使用昂贵的商业 API 来清洗数据，且难以应对不同网站的结构差异。
部署维护困难：现有的开源替代方案往往依赖重型浏览器环境，本地部署复杂，且在处理动态渲染页面时极易失败。
缺乏智能过滤：无法自动剔除与正文无关的侧边栏或推荐内容，需要人工二次校验，严重拖慢知识库更新速度。

使用 markdowner 后

原生适配大模型：通过 llmFilter 参数自动过滤噪声，将任意网页瞬间转换为结构清晰、重点突出的 Markdown 格式，显著提升模型理解力。
零成本高效集成：仅需一行 curl 命令即可调用 API，无需维护复杂的爬虫基础设施，免费且支持高并发处理。
完美处理动态内容：基于 Cloudflare Browser Rendering 技术，轻松抓取由 JavaScript 动态渲染的现代网站内容，无需配置 sitemap。
灵活扩展采集深度：利用 crawlSubpages 功能自动递归抓取子页面，一次性获取整个专题的完整上下文，大幅减少工程链路。

markdowner 通过将杂乱的网页实时转化为大模型“爱吃”的结构化数据，让构建高质量 AI 知识库变得像发送 HTTP 请求一样简单。

运行环境要求

操作系统

未说明

GPU

不需要 GPU

内存

未说明

依赖

notes该工具基于 Cloudflare Workers 运行，自托管需要订阅 Cloudflare Workers 付费计划以使用浏览器渲染和 Durable Objects 功能。开发环境需安装 Node.js 和 npm，通过 wrangler 进行部署，不涉及本地 Python 环境或 GPU 资源。

python未说明

Node.js

npm

wrangler

Cloudflare Workers (Paid Plan)

Turndown

快速开始

Markdowner ⚡📝

一款快速工具，可将任何网站转换为适合大语言模型的 Markdown 数据。

👀 为什么？

我正在开发一款名为 Supermemory 的 AI 应用——https://git.new/memory。用户可以将网站内容存储在应用中，并通过 AI 进行查询。我发现，当数据以结构化且可预测的 Markdown 格式呈现时，大语言模型的响应质量会 高得多。

目前市面上也有类似的解决方案，例如 https://r.jina.ai、https://firecrawl.dev 等。但它们要么：

价格昂贵或专有；
功能过于有限；
部署难度极高。

以下是我朋友 @nexxeln 的一段评价：用户看法

于是我们自然而然地决定自己动手解决这个问题 ⚡

特性 🚀

将任意网站转换为 Markdown
大语言模型过滤
详细 Markdown 模式
自动爬虫（无需站点地图！）
支持文本和 JSON 格式的响应
易于自托管
……以及更多功能，全部免费！

使用方法

要使用 API，只需向 https://md.dhr.wtf 发送 GET 请求即可。

使用示例：

$ curl 'https://md.dhr.wtf/?url=https://example.com'

必填参数

url（字符串）-> 要转换为 Markdown 的网站 URL。

可选参数

enableDetailedResponse（布尔值：false）-> 切换是否返回包含完整 HTML 内容的详细响应。 crawlSubpages（布尔值：false）-> 爬取并返回最多 10 个子页面的 Markdown 内容。 llmFilter（布尔值：false）-> 使用大语言模型过滤掉不必要的信息。

响应类型

在请求头中添加 Content-Type: text/plain 可获取纯文本响应。在请求头中添加 Content-Type: application/json 可获取 JSON 格式的响应。

技术栈

Markdowner 的底层实现利用了 Cloudflare 的浏览器渲染和 Durable Objects 来启动浏览器实例，随后使用 Turndown 将其转换为 Markdown。

架构图

自托管

您可以轻松地自托管该项目。为了使用浏览器渲染和 Durable Objects，您需要 Workers 付费方案。

克隆仓库并安装依赖项：

git clone https://github.com/dhravya/markdowner
npm i

运行以下命令：

npx wrangler kv:namespace create md_cache

打开 Wrangler.toml 文件，并相应地修改 ID。
运行 npm run deploy。
完成！👍

支持

只需给这个仓库点个赞，就能支持我啦！⭐

Markdowner 快速上手指南

Markdowner 是一个高性能工具，可将任意网站内容转换为适合大语言模型（LLM）处理的 Markdown 格式数据。

环境准备

系统要求：支持 Node.js 的操作系统（Windows/macOS/Linux）
前置依赖：
- Node.js (推荐 v18+)
- npm 包管理器
- Cloudflare Workers 账号（如需自托管，需订阅 Workers Paid 计划以使用 Browser Rendering 和 Durable Objects）

安装步骤

若选择自托管部署，请执行以下命令：

git clone https://github.com/dhravya/markdowner
cd markdowner
npm i

配置 Cloudflare 环境变量：

npx wrangler kv:namespace create md_cache

随后编辑 wrangler.toml 文件，将生成的 ID 填入对应配置项，最后执行部署：

npm run deploy

基本使用

无需安装即可直接使用官方提供的公共 API。只需发送 GET 请求至服务端点。

最简单的使用示例：

curl 'https://md.dhr.wtf/?url=https://example.com'

可选参数说明：

enableDetailedResponse=true：返回包含完整 HTML 内容的详细响应。
crawlSubpages=true：自动爬取并返回最多 10 个子页面的 Markdown。
llmFilter=true：利用 LLM 过滤无关信息，提升数据质量。

指定响应格式：

纯文本：添加请求头 Content-Type: text/plain
JSON 格式：添加请求头 Content-Type: application/json

常见问题

自托管安装时提示缺少依赖（如 @cloudflare/puppeteer, react-tweet）且无法运行，如何解决？

为什么无法抓取 Notion 页面内容或只能提取到极少信息？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|昨天

Agent插件

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|1周前

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|1周前

语言模型数据工具其他