markdowner
Markdowner 是一款由 Supermemory 团队打造的高效工具,旨在将任意网站内容快速转换为大语言模型(LLM)易于理解的 Markdown 格式数据。在构建 AI 应用时,结构化且可预测的数据能显著提升模型的回答质量,而现有的同类方案往往存在费用高昂、功能受限或部署困难等痛点。Markdowner 的出现正是为了解决这些问题,它完全免费且支持轻松自托管,让高质量的数据预处理不再成为门槛。
这款工具非常适合开发者、AI 研究人员以及需要构建知识库或 RAG(检索增强生成)应用的技术人员使用。它不仅支持将单个网页转为 Markdown,还具备独特的自动爬虫功能,无需网站地图即可抓取多达 10 个子页面;同时提供"LLM 过滤”选项,能智能剔除无关信息,只保留核心内容。此外,用户还可以选择获取详细的 HTML 内容或直接输出 JSON 格式,灵活满足不同场景需求。
在技术实现上,Markdowner 巧妙利用了 Cloudflare 的浏览器渲染(Browser Rendering)和持久化对象(Durable Objects)技术,在云端动态启动浏览器实例并结合 Turndown 库完成转换,既保证了渲染的准确性,又实现了极高的运行效率。无论是想快速测试网页内容,还是搭建大规模数据采集管道,Markdowner 都是一个轻量、强大且友好的选择。
使用场景
某 AI 初创团队正在构建一个垂直领域的行业知识库,需要每日自动抓取并清洗数十个技术博客和新闻网站的内容,以供大模型进行检索增强生成(RAG)。
没有 markdowner 时
- 数据格式混乱:直接抓取的 HTML 包含大量导航栏、广告和脚本标签,导致大模型被噪声干扰,回答准确率大幅下降。
- 开发成本高昂:团队需自行编写复杂的解析规则或使用昂贵的商业 API 来清洗数据,且难以应对不同网站的结构差异。
- 部署维护困难:现有的开源替代方案往往依赖重型浏览器环境,本地部署复杂,且在处理动态渲染页面时极易失败。
- 缺乏智能过滤:无法自动剔除与正文无关的侧边栏或推荐内容,需要人工二次校验,严重拖慢知识库更新速度。
使用 markdowner 后
- 原生适配大模型:通过
llmFilter参数自动过滤噪声,将任意网页瞬间转换为结构清晰、重点突出的 Markdown 格式,显著提升模型理解力。 - 零成本高效集成:仅需一行 curl 命令即可调用 API,无需维护复杂的爬虫基础设施,免费且支持高并发处理。
- 完美处理动态内容:基于 Cloudflare Browser Rendering 技术,轻松抓取由 JavaScript 动态渲染的现代网站内容,无需配置 sitemap。
- 灵活扩展采集深度:利用
crawlSubpages功能自动递归抓取子页面,一次性获取整个专题的完整上下文,大幅减少工程链路。
markdowner 通过将杂乱的网页实时转化为大模型“爱吃”的结构化数据,让构建高质量 AI 知识库变得像发送 HTTP 请求一样简单。
运行环境要求
- 未说明
不需要 GPU
未说明

快速开始
Markdowner ⚡📝
一款快速工具,可将任何网站转换为适合大语言模型的 Markdown 数据。
👀 为什么?
我正在开发一款名为 Supermemory 的 AI 应用——https://git.new/memory。用户可以将网站内容存储在应用中,并通过 AI 进行查询。我发现,当数据以结构化且可预测的 Markdown 格式呈现时,大语言模型的响应质量会 高得多。
目前市面上也有类似的解决方案,例如 https://r.jina.ai、https://firecrawl.dev 等。但它们要么:
- 价格昂贵或专有;
- 功能过于有限;
- 部署难度极高。
以下是我朋友 @nexxeln 的一段评价:

于是我们自然而然地决定自己动手解决这个问题 ⚡
特性 🚀
- 将任意网站转换为 Markdown
- 大语言模型过滤
- 详细 Markdown 模式
- 自动爬虫(无需站点地图!)
- 支持文本和 JSON 格式的响应
- 易于自托管
- ……以及更多功能,全部免费!
使用方法
要使用 API,只需向 https://md.dhr.wtf 发送 GET 请求即可。
使用示例:
$ curl 'https://md.dhr.wtf/?url=https://example.com'
必填参数
url(字符串)-> 要转换为 Markdown 的网站 URL。
可选参数
enableDetailedResponse(布尔值:false)-> 切换是否返回包含完整 HTML 内容的详细响应。
crawlSubpages(布尔值:false)-> 爬取并返回最多 10 个子页面的 Markdown 内容。
llmFilter(布尔值:false)-> 使用大语言模型过滤掉不必要的信息。
响应类型
在请求头中添加 Content-Type: text/plain 可获取纯文本响应。
在请求头中添加 Content-Type: application/json 可获取 JSON 格式的响应。
技术栈
Markdowner 的底层实现利用了 Cloudflare 的 浏览器渲染 和 Durable Objects 来启动浏览器实例,随后使用 Turndown 将其转换为 Markdown。

自托管
您可以轻松地自托管该项目。为了使用浏览器渲染和 Durable Objects,您需要 Workers 付费方案。
- 克隆仓库并安装依赖项:
git clone https://github.com/dhravya/markdowner
npm i
运行以下命令:
npx wrangler kv:namespace create md_cache打开 Wrangler.toml 文件,并相应地修改 ID。
运行
npm run deploy。完成!👍
支持
只需给这个仓库点个赞,就能支持我啦!⭐
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
opencode
OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
funNLP
funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。