augmentoolkit

1.8k 244 中等 2 次阅读 4天前MIT图像Agent数据工具开发框架语言模型

AI 解读由 AI 自动生成，仅供参考

augmentoolkit 是一款专为打造领域专家型 AI 而设计的开源工具。通过简单的文档上传操作，它能自动生成高质量的数据集，进而更新大模型的“知识库”，使其成为你指定领域的专家。这有效解决了通用大模型知识截止早、无法理解私有数据或特定小众领域内容的问题。

无论你是需要追踪前沿科研论文的学者，希望 AI 深刻理解个人兴趣的研究者，还是想为虚构世界构建 lore 专家的创作者，augmentoolkit 都能满足需求。它特别适合开发者、技术人员及有一定动手能力的普通用户使用。

技术层面，augmentoolkit 支持在本地计算机离线运行，无需外部 API 密钥即可生成数据，极大保障了数据安全与隐私。此外，它还能自动创建 RAG 就绪数据集并启动推理服务器，兼容 Deepseek、Llama 等主流开源模型，且支持多 GPU 并行加速。作为 MIT 许可的项目，它高度可定制，是构建专属智能助手的高效选择。

使用场景

某医疗科研团队希望构建一个能深度理解特定罕见病领域文献与内部实验数据的 AI 助手，用于加速新药研发讨论与文献综述。

没有 augmentoolkit 时

通用大模型缺乏垂直领域知识，对专业医学术语理解偏差大，容易产生事实性幻觉。
依赖外部 API 调用，敏感患者数据和未公开实验细节面临隐私泄露与合规隐患。
传统 RAG 方案检索延迟高，且难以将新知识真正融入模型参数，导致回答生硬。
每次更新知识库需重新清洗数据并调整向量库，IT 运维负担沉重且响应慢。

使用 augmentoolkit 后

直接上传 PDF 论文与实验报告，一键生成领域专家级定制模型，术语理解精准且逻辑连贯。
支持本地离线运行数据生成与推理，无需外部 API Key，彻底保障核心数据不出内网。
自动创建 RAG 就绪数据集，既保留传统检索能力，又实现关键知识内化于模型权重。
新增文档即可快速迭代模型认知，无需重复繁琐的工程配置流程，大幅缩短上线周期。

augmentoolkit 让科研人员能够以最低成本、最高安全性打造完全受控的私有化领域 AI 专家。

运行环境要求

操作系统

Linux
macOS
Windows (推荐 WSL)

GPU

未明确指定具体型号及显存大小，本地训练建议高性能机器或租用云资源，支持多 GPU 张量并行，消费级硬件可运行量化版

内存

未说明

依赖

notes必须使用 Python 3.11 创建虚拟环境；Windows 用户强烈建议使用 WSL；界面模式需安装 Valkey（Mac 通过 brew，Linux 可源码编译）；数据生成可选离线运行但旧硬件较慢；训练支持本地或云端租用；支持多卡并行 (--tensor-parallelism)。

python3.11

valkey

axolotl

快速开始

Augmentoolkit - 领域专家 AI 的数据

Augmentoolkit 创建领域专家数据集，用于更新 AI 的大脑（基本上是其知识截止日期），从而使 AI 成为您选择领域的专家。

您上传文档，点击按钮。即可获得一个完全训练好的自定义大语言模型 (LLM)。现在，AI 行为的每一个方面及其理解能力都在您的掌控之中。更棒的是，Augmentoolkit 可选择在您的计算机上离线工作 —— 在大多数硬件上进行数据生成 (datagen) 无需外部 API 密钥*†。

也许您希望 AI 了解您所在领域的最新研究论文，或者您可能想要一个深刻理解您热情并从与您相同来源学习的 LLM。也有可能，您梦想为您喜爱的冷门虚构宇宙创建一个背景设定专家。无论应用场景如何，Augmentoolkit 都能让您利用文本，使 LLM 的大脑内在地学习其中包含的信息。此外，如果您也需要一些传统的事实依据，它还可以自动创建一个就绪的检索增强生成 (RAG) 数据集（并可以启动一个推理服务器）。

立即开始（界面将引导您生成第一个数据集）：

（创建虚拟环境时请务必使用 Python 3.11 以确保正常运行）

MacOS (界面)

git clone https://github.com/e-p-armstrong/augmentoolkit.git
cd augmentoolkit # Python == 3.11
bash macos.sh # NOTE: Will attempt to install valkey via brew if not found.
# bash local_macos.sh # use this command if doing local dataset generation

Linux (界面)

git clone https://github.com/e-p-armstrong/augmentoolkit.git
cd augmentoolkit # Python == 3.11
bash linux.sh # NOTE: will build Valkey from source if a Redis/Valkey server is not running

或者用于本地推理

git clone https://github.com/e-p-armstrong/augmentoolkit.git
cd augmentoolkit # Python == 3.11
bash local_linux.sh normal # or you can write "small" or a custom model name to serve the quantized version (for more consumer hardware) or a model of your choice, respectively. See the quickstart page linked just a bit farther down for a full reference here.

如果您有多个 GPU，请使用 --tensor-parallelism N 参数运行 local_linux.sh。N == 您拥有的 GPU 数量（偶数）。所以：1, 2, 4, 8... 等等。

[!IMPORTANT]

请给仓库点个 Star。

Windows (界面)

[!NOTE]

如果您使用的是 Windows，最好的选择是使用 WSL。老实说，CLI 在 Windows 上更容易运行。

_{*注意，数据生成在很多硬件上可能需要一段时间，例如不要指望在旧款 Mac 上能实现快速数据生成。对于训练，您需要要么拥有自己的强大机器，要么租用（如果您选择后者，系统会自动为您完成）。}

_{†如果您希望数据生成更快，您可以使用开源 LLM API，且快速入门指南也鼓励您这样做。除了其自定义数据集生成模型外，Augmentoolkit 还针对 Deepseek 或 Llama 等开源 LLM 进行了优化。}

Augmentoolkit 现已更新至 3.0 版本，经过了一年多的专业应用和实验的打磨与改进。它是目前世界上创建领域专家 LLM 的最佳方式，并且采用 MIT 许可证。

如果您使用了这个项目并喜欢它，请考虑给仓库点个 Star！它的设计也非常易于定制，因此请考虑 Fork（分支） Augmentoolkit！

[!IMPORTANT]

下面的链接包含非常有用的信息。稍后下方有一个目录，链接到项目中任何可想象部分的详细文档页面。

帮助视频我将从零开始演示如何完成本项目中的所有酷炫操作，包括使用您获得的数据和配置训练 LLM（耗时 10 分钟）。如果您需要更多指导，请查看帮助视频！

社区如果您有问题，如果您正在训练模型，如果您正在基于 Augmentoolkit 的代码构建新的酷炫流水线或扩展，或者只是想聊聊，我很高兴在 Augmentoolkit Discord 上看到您！这也是联系我的好地方。

通讯我在 Substack 上撰写关于模型训练和数据生成的文章。完全免费，我只是想帮助大家更好地使用该工具。

联系我正在围绕这个项目做各种事情，如果您对将定制、个人对齐的 AI 带给每个人的使命和业务感兴趣，请联系我们！

构建 Augmentoolkit 旨在成为人们实验训练 LLM 的首选工具，无论是爱好者还是专业人士。为此，构建新流水线就像编写 Python 函数一样简单（同时遵守大约 2 个主要是可选的约定）。我们为您提供高效的解释器和流水线模板，以便您构建自己的数据集生成流水线，进而构建您自己的数据集和您自己完全定制的 LLM。

所有配置文件都带有完整的注释和占位符，以帮助您在使用时理解它们。

文档页面

[!NOTE]

请注意，此文档页面（主 README）包含关于事实模型训练的重要说明，无论您的经验水平如何都应阅读。

如果您熟悉大语言模型 (LLM) 并希望了解 Augmentoolkit 是什么以及它为何出色的更技术性概述，请查看本节

引用：

[!NOTE]

如果您不想进行模型训练，而只想生成数据集，请在您的数据生成配置 (Config) 中关闭 do_train。

视频教程

13 分钟内使用自己的数据训练模型

界面深度探索！

CLI 和代码结构深度探索！

^ 如果您打算修改代码，这个很有用

优势

Augmentoolkit 让 LLM 数据处理变得简单。

廉价： Augmentoolkit 流水线使用开源 LLM，因此可以在消费级硬件上以极低的成本运行，或者通过 Deepinfra 等应用程序接口 (API) 廉价运行 (“本地”提示词集也应使推理模型能够使用大多数流水线)
轻松： 任何 Augmentoolkit 流水线都可以通过直观的界面运行，只需运行启动脚本即可。或者，您可以将一些文件放入文件夹，然后运行 Python 脚本来生成数据。如果这还不够，您还可以使用图形用户界面 (GUI)，现在是 Augmentoolkit 3 中的一等公民（事实上，也是运行 Augmentoolkit 的推荐方式）。之前启动的运行会自动继续，因此您无需担心中断会耗费您的时间和/或金钱。
快速： 使用 API 时，您可以快速生成数百万个可训练令牌 (Tokens)。完全异步 (Async) 的代码让您能快速获得结果。读取和分块 (Chunking) 缓存确保即使是大规模工作负载也能快速使用。数据准备好后，模型会自动训练，甚至会自动下载并准备在您的本地机器上进行推理 (Inference)。过程中所有困难或烦人的部分都已自动化并高效化。过去创建数据集、迭代、测试和学习可能需要熟练人员数月；现在，任何人都可以按下一个按钮，一天后回来，与新训练的模型聊天。
事实性训练的创新有效方法： Augmentoolkit 拥有一种经过生产验证的方法，用于创建能够理解全新主题的领域专家 LLM。许多独立的流水线组合在一起，产生高质量的数据集，教授诸如回答事实性问题、承认模型未知内容、纠正错误等能力。使用 Augmentoolkit 时，您可以确信能获得高质量的专家模型。

我们已竭尽全力简化生成数据后的步骤——训练你的大语言模型 (LLM)：

生产级规模： 使用 Augmentoolkit 已经生成了高达数 GB 的数据集——它经过了实战检验，能够大规模运行而不会因恼人的低效而浪费大量时间，并且能够承受生产环境的压力。
用吃顿晚饭的代价训练一个 AI： 你可以基本免费地用自己的硬件生成数据。然后 Augmentoolkit 可以自动使用你自己的数据对 AI 进行全量微调，费用极低（微调部分的费用大约只需 20 美元）。
在一天内创建你的 LLM： 通过全自动化的流程将文档转化为数据集，并且只需点击一下按钮即可启动训练，构建领域专家级 LLM 的速度非常快（特别是当你使用 API 生成数据集时）。实现快速且廉价的迭代。
使用相同的配方，你总会得到同样的面包： Augmentoolkit 的数据集已成功用于专业咨询项目。本 README 中链接的视频文档详细展示了如何完全一样地使用本工具。你所需要的代码、设置和提示词（prompts）就在这里。示例、模板、注释、标记出的占位符以及详尽的说明文档一应俱全。
放心大胆地训练 AI，尤其是如果你是第一次尝试： 凭借经过实战检验的流程、丰富的视频文档、深入的 README 以及 Discord 社区的支持，你可以确信能从中获得一个优质的 LLM。

全部在本地完成 借助专门为此类流水线构建的定制训练的 7b 模型，Augmentoolkit 可以在消费级硬件上生成数据，并且在高性能计算机上可以实现惊人的规模和并行度。预算不应成为限制条件——只需要热情和时间的投入。当然，如果你需要即时的结果/速度，也可以使用 API（应用程序编程接口）。

最后，使用你创建的模型应该既简单又有价值：

理解你事实数据的 AI： 面向专业人士和爱好者：使用 Augmentoolkit 的 Complete Factual Datagen“组合”流水线训练 LLM，可以创建一个理解你所训练数据宏观图景的助手。如果说 RAG（检索增强生成）就像是给 LLM 一场关于它从未读过的教科书的开卷考试，那么在 Augmentoolkit 数据上进行训练则像是给了它在考试前一些复习时间。该流水线已在不同行业的咨询项目中经过实战检验。与早期版本相比，Augmentoolkit 3.0 版本生成了各种各样的不同领域数据，并且会自动将这些数据与其使用的通用数据进行平衡。
个体对齐 (Individual Alignment)： 使用 GPRO（使 Deepseek R1 如此出色的同一算法）来调整模型以适应任何想象得到的任务，而无需修改任何代码。Augmentoolkit 采用了一种创新的方法，允许你将 LLM 用作奖励函数（reward function）——你编写一个提示词来给某些输出打更高的分数，然后这些奖励分数会教导模型在未来更多地表现出类似的行为。希望你的模型更好地执行任务吗？解释一下什么是“更好”，然后模型就会学会它。希望你的模型更富有人情味和情感吗？解释一下如何根据情感内容给回复打分，模型就会学会它。希望你的模型写起东西像海盗一样吗？在你的评分提示词中解释什么样的回复是好的海盗风格回复，模型就会学会它。你也可以根据需要修改代码并使用传统的奖励函数。GRPO 流水线目前处于实验阶段并处于测试版（beta），但初步结果令人鼓舞。
在不使用人工标注的情况下理解海量数据： 面向重度机器学习（ML）专业人士：如果你有一个包含大量未标注文本的大型数据集（如 Enron 邮件数据集、IMDb 或 fineweb 等），你现在可以写一两句话来描述其中存在的两个类别。Augmentoolkit 的分类器创建流水线随后将使用 LLM 基于输入数据的子集和你指定的类别来制作完整的分类数据集；然后它会训练一个分类器并评估它，再获取更多数据并重新训练，如此循环，直到验证损失（validation loss）低于指定阈值。使用此流水线训练出的分类器似乎能达到与在人类标注数据上训练出的分类器相似的性能。请注意，目前数据在不同标签之间尚未实现自动平衡。
受你喜爱的小说启发的 AI： 面向创意工作者和娱乐从业者：使用 RPToolkit，你可以围绕你能想到的任何故事主题，创建详细多样的多轮角色扮演数据。如果你是为了创作或娱乐目的创建自定义 AI，现在你可以将其专业化到任何你想要的类型。想要一个专攻机甲故事的阴郁黑暗专家吗？输入一些故事，你就可以获得大量相关数据。那来一个温馨日常生活的 AI 作家呢？你也可以为这个获取数据。从你能找到的任何灵感出发，创建范围可宽可窄的写作 AI。

澄清：Augmentoolkit 项目包含多个流水线：原始流水线（QA）、RPtoolkit（丰富的多轮角色扮演数据）和分类器创建器。如果提到"Augmentoolkit 可以生成 [某种数据]"，我的意思是 Augmentoolkit 的某个流水线可以做到这一点。

开始训练时的注意事项

事实性微调 (Factual finetuning) 需要一定数量的优化器步数 (optimizer steps) 才能稳固生效。如果将训练视为大语言模型 (LLM) 的“大脑”向理解你新领域的方向“移动”的过程，那么“优化器步数”就是 LLM 移动的次数。如果你的数据集很小，可能没有足够的优化器步数让 LLM 很好地学习新领域。

因此，讽刺的是，通过训练，教 LLM 大型新领域可能比小型领域更容易。不过，当你使用 Augmentoolkit 时，有一些工具可以将小数据集转化为大数据集。

在完整事实数据集中，你有针对整个流程的 number_of_factual_sft_generations_to_do 设置，以及可以按输入目录自定义的 variation_generation_counts。按目录自定义的设置会让特定输入目录的数据在继续预训练数据中占比更多；另一个设置则增加所有输入目录共同生成的监督微调 (SFT) 数据的总量。利用这两个杠杆，你可以将小数据集扩大到所需的大小——尽管部分数据可能非常相似，但你仍然可以通过这种方式将其放大并教给 LLM，而不会造成灾难性的后果。

作为一个“紧急情况下打破玻璃”的选项，如果你的数据集特别小，你可能需要考虑关闭样本打包 (sample packing)。这可以通过修改预训练和微调的关键字参数 (kwargs) 来关闭样本打包（请在完整事实数据生成配置中进行此操作）。

other_pretrain_kwargs: {sample_packing: False}
other_finetune_kwargs: {sample_packing: False}

关闭样本打包尚未在当前版本的 Augmentoolkit 设置中进行测试，因此对于极小的数据集，这种紧急方法的成功无法保证，但由于极小数据集的主要问题在于每个轮次 (epoch) 的优化器步数不足导致 LLM 未能充分学习数据，理论上，这应该有效。

除了为不同模型更改输入/输出路径外，你对 Augmentoolkit 进行的大部分配置可能都与优化器步数有关。对于非常大的输入数据集，你希望减少那些会增加优化器步数的因素，否则训练时间会很长；而对于非常小的数据集，你则需要使出浑身解数来增加它。这就是为什么这里有专门的部分并将其标记为重要——在创建数据集时要意识到其大小！

如果你对你的具体用例有任何疑问，请考虑前往 Discord

如果您之前来过这里的临时公告

如果你过了一段时间回来查看这个仓库，我想澄清几件事！

首先，发生了很多变化。我消失了六个月，一半时间花在研究上，另一半时间花在构建上。我希望这个工具能在根本上运作得更好。现在，Augmentoolkit 能够可靠地在不同大小的数据集上生成优秀的领域专家。它甚至可以教会模型一些它在预训练期间完全未见过的内容。这次实验自费花费了数千美元，但我认为这是值得的，因为现在任何人都可以用很少的技术经验制作关于任意主题的领域专家。

其次，事情变得容易多了。接口很健壮，不再是二等公民了。启动脚本、自动生成且平衡的训练配置、更好的错误消息以及其他众多改进应该会让 Augmentoolkit 更易用。

原始代码留存不多，但让旧管道 (pipeline) 适应现在的项目非常简单（查看新的管道示例，你就会了解它们现在的样子）。此外，如果你之前有自定义提示词 (prompts)，它们应该可以在新管道中无需修改即可工作。旧的管道与这一个相比就像老鼠与人一样——它们在技术上是相关的，有很多相同的 DNA，但人类进化得更完善，能力更强。希望你享受使用新项目并获得很好的结果。

坏消息是，由于变化如此之大，可能引入了一些新 Bug。请报告 Bug 以便修复。过去 4 个月我没有太密切关注问题，反正整个项目都在被拆解重组——现在它处于更最终的形式，坦白说，既然我现在对这类事情有更好的自律，我将专注于 Discord 和 GitHub 问题，纠正你们指出的任何错误。如果新文档对项目某些部分的说明不清楚，请告诉我。另外，如果你有想添加的自定义管道或 Bug 修复，请查看贡献指南并提交拉取请求 (PR)！

Discord

定制构建的模型（通常）不仅仅供创建者自己享用。Augmentoolkit 有一个新功能，你可以轻松地将自定义模型变成 Discord 机器人！现在你可以与朋友或社区分享你的自定义 AI 创作！此外，所有代码都在你自己的电脑上运行，所以不用担心持续费用。

说到 Discord...

Augmentoolkit 部分是为了普及数据集生成，因此社区对项目至关重要！有一个 Discord 服务器，你可以在那里获得自定义模型创建的帮助，也可以分享新的管道、提示词集或你正在创建的项目！来逛逛，成为志同道合的有用社区的一员吧！

训练和数据生成技巧博客

我在一个免费的 Substack (博客平台) 上撰写关于模型训练和数据生成的文章！如果你想在我继续实验和探索数据集生成时阅读我的思路，考虑订阅以提升你的模型创建水平。如果你计划使用 Augmentoolkit 提供的工具和抽象来构建自己的数据集生成管道，那里的一些建议可能会非常有用。

现在新版本 Augmentoolkit 已经发布，我终于有时间再次发帖了（也有新的想法要分享）。

贡献！

欢迎提交用于修复错误（bugfixes）、新流水线（pipelines）和改进的 PR（Pull Request，拉取请求）！如果您有引以为傲的实验，请考虑提交一个 PR。规则相当标准：

贡献者可以提交 PR
协作者可以向分支推送代码并将 PR 合并到主分支（master branch）
协作者可能根据贡献被选中，也可能由 Augmentoolkit（公司）内部选定
示例流水线及其文档包含制作您自己流水线的有用信息。鼓励您 Fork（复刻）Augmentoolkit 并进行实验！
按您喜欢的风格编写代码，只需在提交 PR 前充分测试即可
- 注意：如果达到不可能状态，静默失败或继续运行比明确报错更糟糕
- 断言（Asserts）是您的朋友
- black . 甚至能让我的代码看起来格式美观，它也能对您的代码做到同样效果。

数据生成 (Datagen) 和训练工作流的有用命令

在适当时复制粘贴这些命令，或将其作为参考。

将文件复制到另一台计算机（例如 RunPod 上的 GPU 实例）

scp -P [port] -r ./outputs/your-output-dir/pretraining_run root@123.456.78.9:/workspace/axolotl

启动训练任务：

accelerate launch -m axolotl.cli.train [your_config].yaml

使用 llama.cpp 进行转换和量化 (quantize)

python ~/llama.cpp/convert_hf_to_gguf.py --outtype q8_0

联系方式！

通过电子邮件联系我：evanpeterarmstrong@gmail.com（注意：我的收件箱已满，您的消息可能无法送达，对于严肃的讨论，建议预约通话）
对于严肃且紧急的讨论，我们可以安排通话！
我在 Augmentoolkit Discord 服务器以及许多其他 AI Discord 上非常活跃。搜索 @heralax 找到我！
我有时会在 X/Twitter 上发布内容
Substack！我终于又开始发文了。
YouTube —— 帮助视频的来源
让我们在 LinkedIn 上建立联系！

如果您所在的公司或组织希望为内部用户（让员工获得做好工作所需的信息）或外部用户（例如回答社区问题或提高产品知名度）提供定制的领域专家 AI，那么我们应该取得联系。

此外，如果您是一家目前正受到 OpenAI 勒索的AI 聊天封装 (Chat Wrapper) 初创公司或企业，我们也应该谈谈，因为我相当确定我可以在保持或提高回答质量的同时为您节省大量 API 成本。我不仅会使用此工具生产高质量模型，还拥有大规模运行的手段，这并非一个容易解决的问题。

Augmentoolkit 项目将继续开发。它已经持续开发了很长时间——从上一次更新到这次重大更新的数月间隔是因为我正忙于研究和开发技术，随后准备此次发布本身（这次更新已经筹备了很久）。我愿意并感谢组织赞助这个开源项目——我最想做的就是整天研究并构建创建定制 LLM（大语言模型）的工具！

我也正在致力于涉及 Augmentoolkit 及其技术的雄心勃勃的商业解决方案。该项目是一个更大总体规划的一部分。如果您是投资者，我非常乐意就此进行讨论！我的 Calendly 随时开放。

当前的通用 AI (Generalized AI) 意味着幻觉、陈词滥调和阿谀奉承；领域专家 AI 则运用您的知识、理解力，并与您的品味保持一致。随着越来越多的人使用相同的 AI，世界听起来越来越相似，思考方式也越来越一致——我相信，个性化定制的 LLM 是避免这种充满垃圾内容 (slop) 世界的唯一途径。

Augmentoolkit 快速上手指南

Augmentoolkit 是一个用于创建领域专家级数据集的工具，可帮助你基于自定义文档训练专属的 LLM。它支持离线运行，无需外部 API 密钥即可在大多数硬件上生成数据，并能自动构建 RAG 就绪的数据集。

1. 环境准备

在开始之前，请确保你的开发环境满足以下要求：

操作系统：macOS、Linux 或 Windows（推荐通过 WSL 运行）。
Python 版本：必须使用 Python 3.11。请在创建虚拟环境时特别注意此版本要求，以确保兼容性。
依赖管理：工具会自动处理部分依赖（如通过 brew 安装 valkey），但需要系统已安装 git。
网络环境：虽然支持离线工作流，但初始克隆仓库和首次依赖拉取需要网络连接。

注意：Windows 用户强烈建议使用 WSL 以获得最佳体验。

2. 安装步骤

请根据你的操作系统选择对应的启动脚本。所有操作均需在终端中执行。

通用克隆命令

git clone https://github.com/e-p-armstrong/augmentoolkit.git
cd augmentoolkit

按系统执行启动脚本

macOS

bash macos.sh

如果本地生成数据集，可使用：bash local_macos.sh

Linux

bash linux.sh

如果没有运行 Redis/Valkey 服务，脚本将尝试从源码构建 Valkey。

本地推理 (Local Inference)

如果你希望直接进行本地推理，可以使用以下命令（支持指定模型大小）：

bash local_linux.sh normal

注：可以将 normal 替换为 small 以使用量化版本，或填入其他自定义模型名称。

多 GPU 支持

如果你拥有多个 GPU，可以在运行 local_linux.sh 时添加 --tensor-parallelism N 参数（N 为 GPU 数量，需为偶数，如 2, 4, 8 等）。

3. 基本使用

Augmentoolkit 设计有直观的界面来引导用户完成首个数据集的生成。

启动界面：运行上述对应系统的 .sh 脚本后，工具将启动配置好的环境。
上传文档：通过提供的界面上传你的领域文档。
生成数据与训练：
- 点击按钮即可开始数据处理。
- 系统会自动创建 RAG 就绪的数据集。
- 如果需要训练模型，确保在数据生成配置中开启训练选项（默认可能关闭，可在配置中将 do_train 设为 true）。
结果获取：
- 处理完成后，你可以获得一个经过微调的 LLM 或高质量数据集。
- 工具甚至可以直接启动推理服务器供你测试。

提示：如果你只想要生成数据集而不想训练模型，请在数据生成配置中将 do_train 设置为 off。

版本历史

v1.0.02024/06/08

v3.0.02025/06/12

v2.5.02025/06/12

v2.0.02024/09/12

v1.5.02024/07/09

常见问题

使用 Ollama 时 API 请求返回 404 Not Found 错误怎么办？

Augmentoolkit 支持直接读取 PDF 文件作为输入吗？

WebUI 启动时报错 UnicodeDecodeError 如何解决？

运行过程中内存占用过高（例如达到 30GB）是否正常？

遇到 "ERROR - Error in Generation Step: 'NoneType' object has no attribute 'group'" 是否需要停止程序？

在 create_conversation 阶段出现 'NoneType' object has no attribute 'strip' 错误怎么办？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架