llms-txt

2.3k 123 非常简单 1 次阅读 3天前Apache-2.0语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

llms-txt 是一项旨在优化大语言模型（LLM）与网站交互的开源倡议。它建议在网站根目录添加一个名为 /llms.txt 的标准 Markdown 文件，作为专门供 AI 阅读的“导航图”。

当前，大模型在理解网站时面临两大痛点：一是网页上下文窗口有限，难以处理包含导航、广告和复杂脚本的完整 HTML；二是将混乱的网页代码转化为纯净文本既困难又不精确。llms-txt 通过提供简洁的背景介绍、使用指南以及指向详细文档的链接，让 AI 能快速定位并获取高质量信息。此外，它还提倡为关键页面提供同 URL 但后缀为 .md 的纯净 Markdown 版本，进一步降低模型的理解门槛。

这一方案特别适合开发者、技术文档撰写者以及希望提升网站 AI 友好度的企业。其独特亮点在于采用人类和机器均可读的 Markdown 格式，既保留了自然语言的灵活性，又具备结构化数据便于程序解析的特性。无论是软件文档、个人简历还是电商政策，llms-txt 都能帮助大模型更高效地提取核心内容，显著提升推理时的准确性和响应速度。

使用场景

某后端开发团队正在利用 AI 辅助编程，需要让大模型快速理解并基于公司复杂的内部 API 文档生成代码。

没有 llms-txt 时

信息过载与截断：网站包含大量导航栏、广告和 JavaScript 动态内容，导致 LLM 上下文窗口迅速耗尽，无法读取核心文档。
解析噪音干扰：模型被迫从杂乱的 HTML 标签中提取文本，经常误读侧边栏菜单或页脚信息为业务逻辑，产生幻觉。
检索效率低下：开发者需手动整理多个分散的文档链接喂给模型，过程繁琐且容易遗漏关键更新。
格式转换困难：缺乏统一的纯文本入口，每次询问新问题时都需重新清洗数据，难以实现自动化工作流。

使用 llms-txt 后

精准上下文注入：llms-txt 提供了精简的 Markdown 索引，直接引导模型定位核心文档，完美适配有限的上下文窗口。
纯净数据源：模型直接读取对应的 .md 版本页面，彻底规避了 HTML 标签、广告和导航噪音，显著提升回答准确率。
一键式知识加载：只需提供 /llms.txt 的 URL，AI 即可自动抓取并结构化所有相关技术文档，极大简化了配置流程。
标准化自动化集成：固定的 Markdown 格式便于编写脚本自动解析，轻松将最新文档实时同步到开发环境的 AI 助手之中。

llms-txt 通过建立标准化的机器可读文档入口，将原本杂乱无章的网站内容转化为大模型高效理解的精准知识源。

运行环境要求

GPU

未说明

内存

未说明

依赖

notesllms-txt 本身不是一个需要特定运行环境（如 GPU、特定 OS 或 Python 版本）的 AI 模型或重型软件，而是一份关于在网站根目录添加 `/llms.txt` 文件的规范提案。它主要由 LLM 直接读取，或通过轻量级工具（如 llms_txt2ctx）解析。若使用 nbdev 项目，可自动为文档生成对应的 Markdown 版本以符合该规范。

python未说明

llms_txt2ctx (CLI/Python module)

nbdev (可选，用于自动生成 .md 文件)

快速开始

title: "llms.txt 文件" date: 2024-09-03 author: "Jeremy Howard" description: "一项关于标准化使用 /llms.txt 文件的提案，旨在为大型语言模型在推理时提供帮助其理解网站内容的信息。" image: "/sample.png"

背景

大型语言模型越来越多地依赖于网站信息，但面临一个关键限制：上下文窗口太小，无法完整处理大多数网站的内容。将包含导航、广告和 JavaScript 的复杂 HTML 页面转换为适合 LLM 的纯文本既困难又不精确。

虽然网站同时服务于人类读者和 LLM，但后者更需要集中在一个易于访问的位置、经过提炼且具有专业水准的信息。这一点对于开发环境等场景尤为重要，在这些场景中，LLM 需要快速获取编程文档和 API 信息。

提案

llms.txt 标志 {.lightbox width=150px .floatr}

我们建议在网站上添加一个 /llms.txt Markdown 文件，用于提供适合 LLM 的内容。该文件包含简要的背景信息、使用指南以及指向详细 Markdown 文件的链接。

llms.txt 使用 Markdown 格式，既便于人类阅读，也便于 LLM 解析；同时，其格式规范，可采用固定的处理方法（如解析器和正则表达式等传统编程技术）。

此外，我们还建议那些可能对 LLM 有用的网页，应在与原页面相同的 URL 下提供一个纯净的 Markdown 版本，只需在原 URL 后加上 .md 后缀即可。对于没有明确文件名的 URL，则应附加 index.html.md。

FastHTML 项目的文档就遵循了这两项提议。例如，这是 FastHTML 文档中的 llms.txt。而这里是一个普通的 HTML 文档页面 https://www.fastht.ml/docs/tutorials/by_example.html，以及完全相同 URL 但带有 .md 后缀的版本 https://www.fastht.ml/docs/tutorials/by_example.html.md。

本提案并未对如何处理 llms.txt 文件提出具体建议，因为这将取决于具体的应用场景。例如，FastHTML 项目选择自动将 llms.txt 展开为两个 Markdown 文件，内容来自其中链接的 URL，并采用适合 Claude 等 LLM 使用的 XML 结构。这两个文件分别是：llms-ctx.txt，不含可选的 URL；以及 llms-ctx-full.txt，包含所有 URL。它们是通过 llms_txt2ctx 命令行工具生成的，FastHTML 文档中也提供了用户如何使用它们的相关说明。

llms.txt 文件的灵活性使其能够满足多种需求——从帮助开发者熟悉软件文档，到为企业梳理组织架构，甚至为利益相关者解读复杂的法律法规。它同样适用于个人网站，可用于解答关于个人简历的问题；也可用于电商网站，以清晰地说明产品和政策；或供学校和大学快速提供课程信息及资源。

值得注意的是，所有 nbdev 项目现在都会默认生成所有页面的 .md 版本。所有使用 nbdev 的 Answer.AI 和 fast.ai 软件项目都已重新生成了包含此功能的文档。例如，可以参阅 fastcore 的文档模块的 Markdown 版本 https://fastcore.fast.ai/docments.html.md。

格式

目前，语言模型最广泛且最容易理解的格式就是 Markdown。简单地指出关键 Markdown 文件的位置，就是一个很好的开端。提供一些基本的结构，有助于语言模型找到所需信息的来源。

llms.txt 文件的独特之处在于，它使用 Markdown 来组织信息，而非传统的结构化格式（如 XML）。之所以如此，是因为我们预计许多此类文件将由语言模型和智能体读取。尽管如此，llms.txt 中的信息仍遵循特定的格式，可以使用标准的程序化工具进行解析。

llms.txt 文件的规范适用于位于网站根路径 /llms.txt（或可选地位于子路径）的文件。符合规范的文件应按以下顺序包含以下 Markdown 段落：

一个 H1 标题，标明项目或站点名称。这是唯一必需的部分。
一段引用块，包含项目的简短概述，列出理解文件其余部分所必需的关键信息。
零个或多个非标题类型的 Markdown 段落、列表等，提供更多关于项目及其所提供文件的详细信息。
零个或多个由 H2 标题分隔的 Markdown 段落，包含“文件列表”，列出可获取更多细节的 URL。
- 每个“文件列表”都是一个 Markdown 列表，至少包含一个必填的 Markdown 超链接 [名称](网址)，随后可选地加上 : 及对该文件的注释。

以下是一个示例：

# 标题

> 可选描述放在这里

可选详细信息放在这里

## 部分名称

- [链接标题](https://链接地址): 可选链接详情

## 可选部分

- [链接标题](https://链接地址)

需要注意的是，“可选部分”具有特殊含义——如果包含这一部分，当需要较短的上下文时，其中提供的 URL 就可以被跳过。因此，建议将其用于通常可以忽略的次要信息。

现有标准

llms.txt 文件旨在与当前的 Web 标准共存。虽然站点地图为搜索引擎列出了所有页面，但 llms.txt 则为大型语言模型提供了一份精选的概览。它可以通过为允许的内容提供上下文，来补充 robots.txt 文件的功能。该文件还可以引用网站上使用的结构化数据标记，帮助大型语言模型理解如何在特定上下文中解释这些信息。

将文件路径标准化的做法，沿用了 /robots.txt 和 /sitemap.xml 的模式。robots.txt 和 llms.txt 的用途有所不同：robots.txt 通常用于告知自动化工具哪些内容可以被访问，例如用于搜索索引的爬虫；而 llms.txt 中的信息则更多是在用户明确请求相关主题信息时按需使用，比如在项目中引入某个代码库的文档，或向具备搜索功能的聊天机器人提问时。我们预计，llms.txt 主要会在推理阶段发挥作用——即用户寻求帮助的时候，而非用于训练。不过，如果 llms.txt 得到广泛应用，未来的训练过程也可能会利用其中的信息。

sitemap.xml 是网站上所有可索引的人类可读内容的列表。但这并不能替代 llms.txt，因为：

它通常不会列出面向大型语言模型的版本页面；
它不包含外部网站的 URL，尽管这些链接可能有助于理解相关信息；
它通常会涵盖大量文档，整体内容往往超出大型语言模型的上下文窗口限制，并且包含许多对理解网站本身并非必要的信息。

示例

以下是一个 llms.txt 文件的示例，这里是 FastHTML 项目所用文件的精简版（参见完整版）：

# FastHTML

> FastHTML 是一个 Python 库，它将 Starlette、Uvicorn、HTMX 以及 fastcore 的 `FT`“FastTags”整合在一起，用于构建服务器端渲染的超媒体应用。

重要提示：

- 尽管其部分 API 受到 FastAPI 的启发，但它*并不*兼容 FastAPI 的语法，也不以构建 API 服务为目标。
- FastHTML 兼容原生 JavaScript Web 组件和任何原生 JavaScript 库，但不兼容 React、Vue 或 Svelte。

## 文档

- [FastHTML 快速入门](https://fastht.ml/docs/tutorials/quickstart_for_web_devs.html.md)：简要概述 FastHTML 的多项功能。
- [HTMX 参考](https://github.com/bigskysoftware/htmx/blob/master/www/content/reference.md)：对所有 HTMX 属性、CSS 类、HTTP 头、事件、扩展、JavaScript 库方法及配置选项的简要说明。

## 示例

- [待办事项列表应用](https://github.com/AnswerDotAI/fasthtml/blob/main/examples/adv_app.py)：详细演示一个完整的 CRUD 应用，展示 FastHTML 和 HTMX 模式的典型用法。

## 可选资源

- [Starlette 完整文档](https://gist.githubusercontent.com/jph00/809e4a4808d4510be0e3dc9565e9cbd3/raw/9b717589ca44cedc8aaf00b2b8cacef922964c0f/starlette-sml.md)：适用于 FastHTML 开发的 Starlette 文档子集。

为了创建有效的 llms.txt 文件，建议遵循以下指南：

使用简洁明了的语言。
链接资源时，附上简短而富有信息量的描述。
避免使用含糊不清的术语或未加解释的专业词汇。
使用工具将 llms.txt 文件扩展为大型语言模型的上下文文件，并测试多种语言模型，以确认它们能否回答关于您内容的问题。

集成工具

目前已有多种工具和插件可以帮助您将 llms.txt 规范集成到工作流中：

llms_txt2ctx —— 用于解析 llms.txt 文件并生成大型语言模型上下文的命令行工具和 Python 模块。
JavaScript 实现 —— 示例性的 JavaScript 实现。
vitepress-plugin-llms —— 一个 VitePress 插件，可根据 llms.txt 规范自动生成适合大型语言模型的网站文档。
docusaurus-plugin-llms —— 一个 Docusaurus 插件，用于按照 llmtxt.org 标准生成适合大型语言模型的文档。
Drupal LLM 支持 —— 一个 Drupal 模块，可在任何运行 Drupal 10.3 及以上版本的站点上全面支持 llms.txt 提案。
llms-txt-php —— 一个用于编写和读取 llms.txt Markdown 文件的库。
VS Code PagePilot 扩展 —— PagePilot 是一款 VS Code 聊天插件，能够自动加载外部上下文（文档、API、README 文件），从而提供更优质的回复。

后续步骤

llms.txt 规范向社区开放，欢迎提出意见和建议。一个 GitHub 仓库托管着这份非正式概述，便于版本控制和公开讨论。此外，还有一个社区 Discord 频道，供大家分享实施经验并探讨最佳实践。

llms.txt 快速上手指南

llms.txt 是一种为大型语言模型（LLM）设计的标准化文件规范。通过在网站根目录部署该文件，开发者可以为 LLM 提供精简、结构化的项目背景、核心文档链接及使用指南，从而解决 LLM 上下文窗口有限、难以处理复杂 HTML 的问题。

环境准备

llms.txt 本质上是一个遵循特定格式的 Markdown 文件，无需复杂的运行时环境即可创建。但为了验证文件有效性或自动生成上下文文件，建议准备以下环境：

操作系统：Linux, macOS, 或 Windows (WSL)
前置依赖：
- 任意文本编辑器（用于编写 .md 文件）
- Python 3.8+（可选，用于使用官方 CLI 工具 llms_txt2ctx）
- Node.js（可选，若使用前端框架插件如 VitePress 或 Docusaurus）

安装步骤

方式一：手动创建（推荐用于静态站点）

无需安装任何软件包，直接在网站项目的根目录（或文档子目录）下创建名为 llms.txt 的文件。

方式二：使用 CLI 工具（用于生成和验证）

如果你希望将 llms.txt 扩展为包含完整内容的 LLM 上下文文件，可以安装官方提供的 Python 命令行工具：

pip install llms-txt2ctx

方式三：集成到文档框架（自动化生成）

如果你使用主流静态站点生成器，可安装对应插件自动构建 llms.txt：

VitePress:
```
npm install vitepress-plugin-llms
```
Docusaurus:
```
npm install docusaurus-plugin-llms
```
nbdev (Python 项目): 无需额外安装，最新版本的 nbdev 默认会自动生成所有页面的 .md 版本及 llms.txt。

基本使用

1. 编写 llms.txt 文件

在项目根目录创建 llms.txt，遵循以下标准结构：

H1 标题：项目或网站名称（必填）。
引用块：简短的项目摘要，包含理解项目所需的关键信息。
详细说明：可选的段落或列表，解释如何使用提供的文件。
文件列表 (H2 开头)：包含指向详细文档（通常为 .md 结尾）的链接列表。
- 格式：- [链接标题](URL): 可选的描述
- Optional 章节：使用 ## Optional 作为标题，其中的链接在上下文受限时可被跳过。

示例内容 (llms.txt)：

# MyProject

> MyProject 是一个基于 Python 的高效数据处理库，旨在简化 ETL 流程。

重要提示：
- 本库不兼容 Python 3.7 及以下版本。
- 需要预先安装 Pandas 和 NumPy。

## 核心文档

- [快速开始](https://example.com/docs/quickstart.md): 5 分钟内上手的核心教程
- [API 参考](https://example.com/docs/api-reference.md): 完整的函数与类定义

## 示例代码

- [数据清洗示例](https://example.com/examples/cleaning.py): 展示如何处理缺失值

## Optional

- [底层架构设计](https://example.com/docs/architecture.md): 适合高级开发者的深度解析
- [历史版本变更日志](https://example.com/changelog.md)

2. 提供 Markdown 版本的文档

为了让 LLM 更好地读取，建议网站上的关键文档页面同时提供纯 Markdown 版本。

规则：在原 URL 后追加 .md。
示例：如果原页面是 https://example.com/docs/guide.html，请确保 https://example.com/docs/guide.html.md 也可访问并返回纯文本 Markdown 内容。

3. 验证与生成上下文 (可选)

使用安装的 CLI 工具测试你的 llms.txt 是否能正确解析并生成适合 LLM 的上下文文件：

# 生成不包含 Optional 链接的精简上下文
llms_txt2ctx llms.txt --output llms-ctx.txt

# 生成包含所有链接的完整上下文
llms_txt2ctx llms.txt --full --output llms-ctx-full.txt

生成的文件可直接作为 Prompt 上下文输入给 Claude、GPT-4 等模型进行测试，确保模型能准确回答关于你项目的问题。

版本历史

0.0.62026/01/29

0.0.52026/01/29

0.0.42024/09/23

0.0.32024/09/13

0.0.22024/09/10

常见问题

llms.txt 文件应该放在网站的什么位置？是否支持子路径？

如何在同一个域名下为不同的产品或模块提供多个 llms.txt 文件？

llms.txt 是否支持通过 URL 参数（如 ?search=query）进行动态搜索以减少上下文消耗？

安装 llms-txt 时遇到 fastcore 相关的报错或兼容性问题怎么办？

是否有官方的 SVG 格式 logo 可供编辑器插件（如 vscode-icons）使用？

llms.txt 与 HTTP Content-Type 协商机制（如 Accept 头）是什么关系？是否需要替代现有标准？

文档中的示例链接失效或指向了错误的地址怎么办？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架