llms-txt

GitHub
2.3k 123 非常简单 1 次阅读 3天前Apache-2.0语言模型开发框架
AI 解读 由 AI 自动生成,仅供参考

llms-txt 是一项旨在优化大语言模型(LLM)与网站交互的开源倡议。它建议在网站根目录添加一个名为 /llms.txt 的标准 Markdown 文件,作为专门供 AI 阅读的“导航图”。

当前,大模型在理解网站时面临两大痛点:一是网页上下文窗口有限,难以处理包含导航、广告和复杂脚本的完整 HTML;二是将混乱的网页代码转化为纯净文本既困难又不精确。llms-txt 通过提供简洁的背景介绍、使用指南以及指向详细文档的链接,让 AI 能快速定位并获取高质量信息。此外,它还提倡为关键页面提供同 URL 但后缀为 .md 的纯净 Markdown 版本,进一步降低模型的理解门槛。

这一方案特别适合开发者、技术文档撰写者以及希望提升网站 AI 友好度的企业。其独特亮点在于采用人类和机器均可读的 Markdown 格式,既保留了自然语言的灵活性,又具备结构化数据便于程序解析的特性。无论是软件文档、个人简历还是电商政策,llms-txt 都能帮助大模型更高效地提取核心内容,显著提升推理时的准确性和响应速度。

使用场景

某后端开发团队正在利用 AI 辅助编程,需要让大模型快速理解并基于公司复杂的内部 API 文档生成代码。

没有 llms-txt 时

  • 信息过载与截断:网站包含大量导航栏、广告和 JavaScript 动态内容,导致 LLM 上下文窗口迅速耗尽,无法读取核心文档。
  • 解析噪音干扰:模型被迫从杂乱的 HTML 标签中提取文本,经常误读侧边栏菜单或页脚信息为业务逻辑,产生幻觉。
  • 检索效率低下:开发者需手动整理多个分散的文档链接喂给模型,过程繁琐且容易遗漏关键更新。
  • 格式转换困难:缺乏统一的纯文本入口,每次询问新问题时都需重新清洗数据,难以实现自动化工作流。

使用 llms-txt 后

  • 精准上下文注入:llms-txt 提供了精简的 Markdown 索引,直接引导模型定位核心文档,完美适配有限的上下文窗口。
  • 纯净数据源:模型直接读取对应的 .md 版本页面,彻底规避了 HTML 标签、广告和导航噪音,显著提升回答准确率。
  • 一键式知识加载:只需提供 /llms.txt 的 URL,AI 即可自动抓取并结构化所有相关技术文档,极大简化了配置流程。
  • 标准化自动化集成:固定的 Markdown 格式便于编写脚本自动解析,轻松将最新文档实时同步到开发环境的 AI 助手之中。

llms-txt 通过建立标准化的机器可读文档入口,将原本杂乱无章的网站内容转化为大模型高效理解的精准知识源。

运行环境要求

GPU

未说明

内存

未说明

依赖
notesllms-txt 本身不是一个需要特定运行环境(如 GPU、特定 OS 或 Python 版本)的 AI 模型或重型软件,而是一份关于在网站根目录添加 `/llms.txt` 文件的规范提案。它主要由 LLM 直接读取,或通过轻量级工具(如 llms_txt2ctx)解析。若使用 nbdev 项目,可自动为文档生成对应的 Markdown 版本以符合该规范。
python未说明
llms_txt2ctx (CLI/Python module)
nbdev (可选,用于自动生成 .md 文件)
llms-txt hero image

快速开始


title: "llms.txt 文件" date: 2024-09-03 author: "Jeremy Howard" description: "一项关于标准化使用 /llms.txt 文件的提案,旨在为大型语言模型在推理时提供帮助其理解网站内容的信息。" image: "/sample.png"

背景

大型语言模型越来越多地依赖于网站信息,但面临一个关键限制:上下文窗口太小,无法完整处理大多数网站的内容。将包含导航、广告和 JavaScript 的复杂 HTML 页面转换为适合 LLM 的纯文本既困难又不精确。

虽然网站同时服务于人类读者和 LLM,但后者更需要集中在一个易于访问的位置、经过提炼且具有专业水准的信息。这一点对于开发环境等场景尤为重要,在这些场景中,LLM 需要快速获取编程文档和 API 信息。

提案

llms.txt 标志{.lightbox width=150px .floatr}

我们建议在网站上添加一个 /llms.txt Markdown 文件,用于提供适合 LLM 的内容。该文件包含简要的背景信息、使用指南以及指向详细 Markdown 文件的链接。

llms.txt 使用 Markdown 格式,既便于人类阅读,也便于 LLM 解析;同时,其格式规范,可采用固定的处理方法(如解析器和正则表达式等传统编程技术)。

此外,我们还建议那些可能对 LLM 有用的网页,应在与原页面相同的 URL 下提供一个纯净的 Markdown 版本,只需在原 URL 后加上 .md 后缀即可。对于没有明确文件名的 URL,则应附加 index.html.md

FastHTML 项目 的文档就遵循了这两项提议。例如,这是 FastHTML 文档中的 llms.txt。而这里是一个普通的 HTML 文档页面 https://www.fastht.ml/docs/tutorials/by_example.html,以及完全相同 URL 但带有 .md 后缀的版本 https://www.fastht.ml/docs/tutorials/by_example.html.md

本提案并未对如何处理 llms.txt 文件提出具体建议,因为这将取决于具体的应用场景。例如,FastHTML 项目选择自动将 llms.txt 展开为两个 Markdown 文件,内容来自其中链接的 URL,并采用适合 Claude 等 LLM 使用的 XML 结构。这两个文件分别是:llms-ctx.txt,不含可选的 URL;以及 llms-ctx-full.txt,包含所有 URL。它们是通过 llms_txt2ctx 命令行工具生成的,FastHTML 文档中也提供了用户如何使用它们的相关说明。

llms.txt 文件的灵活性使其能够满足多种需求——从帮助开发者熟悉软件文档,到为企业梳理组织架构,甚至为利益相关者解读复杂的法律法规。它同样适用于个人网站,可用于解答关于个人简历的问题;也可用于电商网站,以清晰地说明产品和政策;或供学校和大学快速提供课程信息及资源。

值得注意的是,所有 nbdev 项目现在都会默认生成所有页面的 .md 版本。所有使用 nbdev 的 Answer.AI 和 fast.ai 软件项目都已重新生成了包含此功能的文档。例如,可以参阅 fastcore 的文档模块的 Markdown 版本 https://fastcore.fast.ai/docments.html.md

格式

目前,语言模型最广泛且最容易理解的格式就是 Markdown。简单地指出关键 Markdown 文件的位置,就是一个很好的开端。提供一些基本的结构,有助于语言模型找到所需信息的来源。

llms.txt 文件的独特之处在于,它使用 Markdown 来组织信息,而非传统的结构化格式(如 XML)。之所以如此,是因为我们预计许多此类文件将由语言模型和智能体读取。尽管如此,llms.txt 中的信息仍遵循特定的格式,可以使用标准的程序化工具进行解析。

llms.txt 文件的规范适用于位于网站根路径 /llms.txt(或可选地位于子路径)的文件。符合规范的文件应按以下顺序包含以下 Markdown 段落:

  • 一个 H1 标题,标明项目或站点名称。这是唯一必需的部分。
  • 一段引用块,包含项目的简短概述,列出理解文件其余部分所必需的关键信息。
  • 零个或多个非标题类型的 Markdown 段落、列表等,提供更多关于项目及其所提供文件的详细信息。
  • 零个或多个由 H2 标题分隔的 Markdown 段落,包含“文件列表”,列出可获取更多细节的 URL。
    • 每个“文件列表”都是一个 Markdown 列表,至少包含一个必填的 Markdown 超链接 [名称](网址),随后可选地加上 : 及对该文件的注释。

以下是一个示例:

# 标题

> 可选描述放在这里

可选详细信息放在这里

## 部分名称

- [链接标题](https://链接地址): 可选链接详情

## 可选部分

- [链接标题](https://链接地址)

需要注意的是,“可选部分”具有特殊含义——如果包含这一部分,当需要较短的上下文时,其中提供的 URL 就可以被跳过。因此,建议将其用于通常可以忽略的次要信息。

现有标准

llms.txt 文件旨在与当前的 Web 标准共存。虽然站点地图为搜索引擎列出了所有页面,但 llms.txt 则为大型语言模型提供了一份精选的概览。它可以通过为允许的内容提供上下文,来补充 robots.txt 文件的功能。该文件还可以引用网站上使用的结构化数据标记,帮助大型语言模型理解如何在特定上下文中解释这些信息。

将文件路径标准化的做法,沿用了 /robots.txt/sitemap.xml 的模式。robots.txtllms.txt 的用途有所不同:robots.txt 通常用于告知自动化工具哪些内容可以被访问,例如用于搜索索引的爬虫;而 llms.txt 中的信息则更多是在用户明确请求相关主题信息时按需使用,比如在项目中引入某个代码库的文档,或向具备搜索功能的聊天机器人提问时。我们预计,llms.txt 主要会在推理阶段发挥作用——即用户寻求帮助的时候,而非用于训练。不过,如果 llms.txt 得到广泛应用,未来的训练过程也可能会利用其中的信息。

sitemap.xml 是网站上所有可索引的人类可读内容的列表。但这并不能替代 llms.txt,因为:

  • 它通常不会列出面向大型语言模型的版本页面;
  • 它不包含外部网站的 URL,尽管这些链接可能有助于理解相关信息;
  • 它通常会涵盖大量文档,整体内容往往超出大型语言模型的上下文窗口限制,并且包含许多对理解网站本身并非必要的信息。

示例

以下是一个 llms.txt 文件的示例,这里是 FastHTML 项目所用文件的精简版(参见完整版):

# FastHTML

> FastHTML 是一个 Python 库,它将 Starlette、Uvicorn、HTMX 以及 fastcore 的 `FT`“FastTags”整合在一起,用于构建服务器端渲染的超媒体应用。

重要提示:

- 尽管其部分 API 受到 FastAPI 的启发,但它*并不*兼容 FastAPI 的语法,也不以构建 API 服务为目标。
- FastHTML 兼容原生 JavaScript Web 组件和任何原生 JavaScript 库,但不兼容 React、Vue 或 Svelte。

## 文档

- [FastHTML 快速入门](https://fastht.ml/docs/tutorials/quickstart_for_web_devs.html.md):简要概述 FastHTML 的多项功能。
- [HTMX 参考](https://github.com/bigskysoftware/htmx/blob/master/www/content/reference.md):对所有 HTMX 属性、CSS 类、HTTP 头、事件、扩展、JavaScript 库方法及配置选项的简要说明。

## 示例

- [待办事项列表应用](https://github.com/AnswerDotAI/fasthtml/blob/main/examples/adv_app.py):详细演示一个完整的 CRUD 应用,展示 FastHTML 和 HTMX 模式的典型用法。

## 可选资源

- [Starlette 完整文档](https://gist.githubusercontent.com/jph00/809e4a4808d4510be0e3dc9565e9cbd3/raw/9b717589ca44cedc8aaf00b2b8cacef922964c0f/starlette-sml.md):适用于 FastHTML 开发的 Starlette 文档子集。

为了创建有效的 llms.txt 文件,建议遵循以下指南:

  • 使用简洁明了的语言。
  • 链接资源时,附上简短而富有信息量的描述。
  • 避免使用含糊不清的术语或未加解释的专业词汇。
  • 使用工具将 llms.txt 文件扩展为大型语言模型的上下文文件,并测试多种语言模型,以确认它们能否回答关于您内容的问题。

目录

以下是一些列出网络上可用 llms.txt 文件的目录:

集成工具

目前已有多种工具和插件可以帮助您将 llms.txt 规范集成到工作流中:

  • llms_txt2ctx —— 用于解析 llms.txt 文件并生成大型语言模型上下文的命令行工具和 Python 模块。
  • JavaScript 实现 —— 示例性的 JavaScript 实现。
  • vitepress-plugin-llms —— 一个 VitePress 插件,可根据 llms.txt 规范自动生成适合大型语言模型的网站文档。
  • docusaurus-plugin-llms —— 一个 Docusaurus 插件,用于按照 llmtxt.org 标准生成适合大型语言模型的文档。
  • Drupal LLM 支持 —— 一个 Drupal 模块,可在任何运行 Drupal 10.3 及以上版本的站点上全面支持 llms.txt 提案。
  • llms-txt-php —— 一个用于编写和读取 llms.txt Markdown 文件的库。
  • VS Code PagePilot 扩展 —— PagePilot 是一款 VS Code 聊天插件,能够自动加载外部上下文(文档、API、README 文件),从而提供更优质的回复。

后续步骤

llms.txt 规范向社区开放,欢迎提出意见和建议。一个 GitHub 仓库 托管着这份非正式概述,便于版本控制和公开讨论。此外,还有一个社区 Discord 频道,供大家分享实施经验并探讨最佳实践。

版本历史

0.0.62026/01/29
0.0.52026/01/29
0.0.42024/09/23
0.0.32024/09/13
0.0.22024/09/10

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架