RedPajama-Data

4.9k 372 困难 1 次阅读 2天前Apache-2.0语言模型数据工具

AI 解读由 AI 自动生成，仅供参考

RedPajama-Data 是一个专为训练大型语言模型打造的开源数据准备工具集，其核心成果是发布了包含 30 万亿 token 的 RedPajama-V2 数据集。它主要解决了大模型训练中高质量、多语言语料获取难及数据冗余的问题，通过自动化流水线从 84 个 CommonCrawl 快照中清洗出超过 1000 亿份文档。

该工具特别适合 AI 研究人员和开发者使用，尤其是那些希望复现顶级模型训练数据流程或需要大规模多语言语料的团队。其技术亮点在于集成了完整的 CCNet 处理管道，不仅支持英语、德语、法语、西班牙语和意大利语五种语言，还引入了先进的质量信号评估机制与严格的去重算法。数据显示，仅经过筛选和去重的核心部分就包含约 208 亿份文档，其中英文语料高达 20.5 万亿 token。此外，RedPajama-Data 提供了基于 Docker 的标准化部署方案，涵盖从构建质量分类器、计算重要性权重到执行最终去重的全流程脚本，让用户能够透明、可控地构建属于自己的高性能训练数据集。

使用场景

某初创 AI 实验室正致力于训练一个支持英、德、法、西、意五国语言的高质量垂直领域大模型，但在数据准备阶段遭遇了严峻挑战。

没有 RedPajama-Data 时

数据规模难以企及：团队需自行从 CommonCrawl 抓取并清洗海量原始网页，耗时数月仅能凑齐数十亿 token，远未达到训练高性能模型所需的万亿级规模。
多语言覆盖不均：非英语语料（如德语、意大利语）稀缺且质量参差不齐，导致模型在多语言任务上表现严重失衡，出现“偏科”现象。
去重与过滤成本高昂：缺乏成熟的去重流水线，训练数据中包含大量重复内容和低质噪声，不仅浪费算力，还导致模型容易过拟合或生成有害内容。
复现门槛极高：由于缺乏统一的质量信号标注和标准化的处理代码，不同工程师处理出的数据集差异巨大，实验结果无法稳定复现。

使用 RedPajama-Data 后

即刻获取万亿级语料：直接利用已处理好的 30.4 万亿 token 数据集（含 208 亿文档），将原本数月的数据工程周期缩短至几天，迅速启动模型训练。
多语言能力天然均衡：得益于内置的德、法、西、意等高质量多语言子集，模型在跨语言理解与生成任务上表现一致且强劲，无需额外费力搜集小语种数据。
内置质量与去重保障：直接使用经过 CCNet 管道处理、带有质量信号标注且已完成去重的数据，显著提升了训练效率，模型收敛更快且输出更安全。
流程标准化可复现：依托官方提供的完整 Docker 化流水线脚本，团队能快速复现数据预处理步骤，确保实验基准一致，让研发重心回归算法优化。

RedPajama-Data 通过提供规模化、多语言且经严格清洗的开源数据底座，彻底消除了大模型训练中最繁琐的数据工程瓶颈。

运行环境要求

操作系统

Linux

GPU

未说明

内存

测试环境为 500GB (针对模糊去重步骤)

依赖

notes1. 强烈建议使用提供的 Docker 或 Apptainer 容器环境运行，若自行运行需设置 PYTHONHASHSEED 环境变量以保证哈希一致性。 2. 必须安装并配置 s5cmd 以从 S3 存储桶拉取数据。 3. 模糊去重步骤在 64 核机器上测试时消耗了 500GB 内存。 4. 需要手动下载 Wikipedia 参考分类器模型文件。

python3.x (未指定具体版本，需支持 Docker/Apptainer)

Docker

Apptainer (Singularity)

s5cmd

pybloomfiltermmap3

polars

fasttext

快速开始

RedPajama-Data-v2：用于训练大型语言模型的拥有30万亿标记的开放数据集

本仓库包含RedPajama-V2数据集的相关代码。如需了解更多关于该数据集的信息，请参阅我们的博客文章。该数据集也可在 HuggingFace 上获取。有关RedPajama-1T数据集所用代码，请参考本仓库中的rp_v1分支。

数据集

RedPajama-V2 是一个用于训练大型语言模型的开放数据集。该数据集包含了来自84个CommonCrawl快照的超过1000亿份文本文档，并使用 CCNet 流水线进行处理。其中，语料库中有300亿份文档附带质量信号，另有200亿份文档已完成去重。

带标注且已去重的“head_middle”部分的文档与标记数量

下表展示了该数据集中带标注且已去重的“head_middle”部分的文档与标记数量。

	文档数	估计标记数（去重后）
英文	145亿	20.5万亿
德文	19亿	3.0万亿
法文	16亿	2.7万亿
西班牙文	18亿	2.8万亿
意大利文	9亿	1.5万亿
总计	208亿	30.4万亿

语言

英语、德语、法语、意大利语、西班牙语

设置

配置

将文件configs/rp_v2.0.conf复制到例如configs/default.conf中，并配置环境变量。这些环境变量将在整个流水线中被使用。

构建Docker镜像

若要使用Docker运行，可使用以下命令构建Docker镜像：

. configs/default.conf
cd app
docker build -t "${DOCKER_REPO}:" .

此外，请确保已安装s5cmd并配置好S3访问权限，以便能够从S3存储桶中拉取数据。

您也可以不使用容器化环境来运行流水线的各个步骤。不过，运行脚本时假设您已安装了Docker和Apptainer。

运行流水线

该流水线由三个步骤组成，分别是1）准备工件，2）计算质量信号，以及3）去重。

重要提示： 如果您未使用提供的脚本（即使用提供的Dockerfile构建的Docker容器）来运行步骤（1）和步骤（2），请务必通过以下命令将PYTHONHASHSEED环境变量设置为一个固定值（例如42）：

export PYTHONHASHSEED=42

这样做是为了确保在计算DSIR权重时所使用的哈希函数具有一致性。

1. 创建工件

流水线的这一部分会创建后续步骤中需要用到的工件。其中包括构建质量分类器、训练用于计算重要性权重的n-gram生成模型、从LDNOOBW仓库获取脏话列表，以及从UT1黑名单获取最新的被屏蔽网址列表。

首先，从这里下载英文维基百科参考分类器，并将其放置在${DATA_ROOT}/wikiref-model/en/en-model.bin中。这与RedPajama-V1中使用的FastText分类器相同。

要创建其余工件，请确保已在配置文件中设置好环境变量。然后，在仓库的根目录下运行以下命令：

bash scripts/run_prep_artifacts.sh \
  --config configs/rp_v2.0.conf \
  --listings /path/to/listings/file.txt\
  --max_workers 32

其中，/path/to/listings/file.txt是一个包含您想要处理的ccnet数据键的文件（例如2023-06/0000/en_head.json.gz）。

您可以将max_workers标志设置为您希望使用的并行进程数。

此步骤将生成一个ID，您可以将其存储在环境变量ARTIFACTS_ID中，以供下一步使用。

2. 计算质量信号

流水线的第二步负责计算质量信号，包括用于后续模糊去重的minhash签名。要运行此步骤，需确保配置文件中已设置好环境变量。然后，在仓库的根目录下执行以下命令：

bash scripts/apptainer_run_quality_signals.sh \
  --config configs/rp_v2.0.conf \
  --dump_id "2022-49" \
  --input_base_uri "file:///path/to/data/root" \
  --output_base_uri "file:///path/to/outout/data/root" \
  --max_docs -1

3. 去重

流水线的第三部分是去重步骤。我们在此提供用于执行精确去重和模糊去重的代码。

使用Bloom过滤器的精确去重

基于内容的去重功能实现在app/src/bloomfilter.py中。它可以在不依赖于前一步骤的情况下独立运行，但需要将数据存储在S3存储桶中。对于此步骤，在app目录下运行以下命令：

python3 app/src/bloomfilter.py \
  --listings /path/to/listings/file.txt \
  --input_base_uri "s3://path/to/ccnet/data" \
  --output_dir "/path/to/output" \
  --s3_profile "..." \
  --endpoint_url "..." \
  --parallel_readers 32 \
  --batch_size 10 \
  --capacity "..." \
  --error_rate "..."

选择正确的容量（即大于文档数量）非常重要，否则将无法保证错误率，可能会出现更多假阳性结果。该实现基于 pybloomfiltermmap3 库。

使用局部敏感哈希的模糊去重

在流水线的第三步，我们对第一步生成的minhash签名进行局部敏感哈希处理。要运行此步骤，需确保使用与计算质量信号时相同的配置。然后，在仓库的根目录下执行以下命令：

bash scripts/apptainer_run_lsh.sh \
  --config configs/rp_v2.0.conf \
  --dump_id "2022-49" \
  --input_base_uri "file:///path/to/data/root" \
  --output_dir "/path/to/output" \
  --similarity "<similarity_threshold>" \
  --listings "/minhash/listings/file.txt" \
  --max_docs -1

该实现基于Polars，并曾在一台拥有64核CPU和500GB内存的机器上对2亿份文档进行了测试。

质量信号概览

该流水线的第二步会计算以下一组质量信号。我们希望随着更多信号的开发，未来能进一步扩充此列表。

质量标注

注释标签	描述	分类	参考
ccnet_bucket	困惑度分数的头部、中部或尾部桶	CCNet	CCNet
ccnet_language_score	语言识别模型的得分	CCNet	CCNet
ccnet_length	字符数量	CCNet	CCNet
ccnet_nlines	行数	CCNet	CCNet
ccnet_original_length	文档内去重前的字符数量	CCNet	CCNet
ccnet_original_nlines	文档内去重前的行数	CCNet	CCNet
ccnet_perplexity	基于维基百科训练的语言模型的困惑度	CCNet	CCNet
rps_doc_books_importance	给定一个基于书籍语料 p 训练的 {1,2}-词 n-gram 模型，以及一个基于源域 q 训练的模型，这是 p(doc)/q(doc) 的对数值。	机器学习启发式	重要性重采样 (Xie 等)
rps_doc_openwebtext_importance	给定一个基于 OpenWebText 语料 p 训练的 {1,2}-词 n-gram 模型，以及一个基于源域 q 训练的模型，这是 p(doc)/q(doc) 的对数值。	机器学习启发式	重要性重采样 (Xie 等)
rps_doc_wikipedia_importance	给定一个基于维基百科文章 p 训练的 {1,2}-词 n-gram 模型，以及一个基于源域 q 训练的模型，这是 p(doc)/q(doc) 的对数值。	机器学习启发式	重要性重采样 (Xie 等)
rps_doc_ml_wikiref_score	FastText 分类器对文档是否为维基百科参考文献的预测。该 FastText 模型与 RedPajama-1T 数据集所使用的相同。仅适用于英文数据。	机器学习启发式	LLaMA, RedPajama-1T
rps_doc_ml_palm_score	FastText 分类器对文档是否为维基百科文章、OpenWebText 样本或 RedPajama-V1 书籍的预测。仅适用于英文数据。	机器学习启发式	PALM, GLaM
rps_doc_ml_wikipedia_score	FastText 分类器对文档是否为维基百科文章的预测。此用于非英文数据	机器学习启发式	-
rps_doc_curly_bracket	“{” 或 “}” 出现次数与原始文本字符数之比。	自然语言处理	C4
rps_doc_frac_all_caps_words	内容中仅由大写字母组成的单词所占比例。基于原始内容计算。	自然语言处理	预训练指南
rps_doc_frac_lines_end_with_ellipsis	以省略号结尾的行所占比例，其中省略号定义为“…”或“…”。	自然语言处理	RefinedWeb, Gopher
rps_doc_frac_no_alph_words	不包含任何字母字符的单词所占比例。	自然语言处理	RefinedWeb, Gopher
rps_doc_lorem_ipsum	“lorem ipsum” 出现次数与归一化后内容字符数之比。	自然语言处理	C4
rps_doc_mean_word_length	归一化后内容中单词的平均长度。	自然语言处理	RefinedWeb, Gopher
rps_doc_stop_word_fraction	停用词数量与文档中总词数之比。停用词来自 stopwords-json 仓库。	自然语言处理	RefinedWeb, Gopher
rps_doc_symbol_to_word_ratio	内容中符号与单词的比例。符号定义为“#”、“…”和“…”。	自然语言处理	RefinedWeb, Gopher
rps_doc_frac_unique_words	内容中唯一单词的比例。这也被称为文本样本的退化程度。基于归一化后的内容计算。	自然语言处理	预训练指南
rps_doc_unigram_entropy	内容中 unigram 分布的熵。这衡量内容的多样性，计算公式为 sum(-x / total * log(x / total))，其中求和是对归一化后内容中唯一单词计数的总和。	自然语言处理	-
rps_doc_word_count	归一化后内容中的单词数量。	自然语言处理	RefinedWeb, Gopher
rps_lines_ending_with_terminal_punctution_mark	表示某行是否以终结标点符号结尾。终结标点符号定义为：“.”、“!”、“?”、“””。	自然语言处理	C4
rps_lines_javascript_counts	每行中“javascript”一词出现的次数。	自然语言处理	C4
rps_lines_num_words	每行中的单词数量。基于归一化文本计算。	自然语言处理	C4 , RefinedWeb
rps_lines_numerical_chars_fraction	每行中数字字符数量与总字符数之比。基于归一化内容计算。	自然语言处理	RefinedWeb
rps_lines_start_with_bulletpoint	是否以项目符号开头。被视为项目符号的 Unicode 编码包括：\u2022（实心圆点）、\u2023（三角形圆点）、\u25B6（黑色右向三角形）、\u25C0（黑色左向三角形）、\u25E6（白色圆点）、\u25A0（黑色方块）、\u25A1（白色方块）、\u25AA（黑色小方块）、\u25AB（白色小方块）、\u2013（短破折号）。	自然语言处理	RefinedWeb, Gopher
rps_lines_uppercase_letter_fraction	每行中大写字母数量与总字符数之比。基于原始文本计算。	自然语言处理	RefinedWeb
rps_doc_num_sentences	内容中的句子数量。使用正则表达式 `r'\b[^.!?]+[.!?]*'` 计算。	自然语言处理	C4
rps_doc_frac_chars_dupe_10grams	重复 10-gram 中的字符比例。操作对象是已转为小写且去除标点的内容。同时确保重叠 n-gram 中的字符只被计数一次。	重复性	RefinedWeb, Gopher
rps_doc_frac_chars_dupe_5grams	重复 5-gram 中的字符比例。	重复性	RefinedWeb, Gopher
rps_doc_frac_chars_dupe_6grams	重复 6-gram 中的字符比例。	重复性	RefinedWeb, Gopher
rps_doc_frac_chars_dupe_7grams	重复 7-gram 中的字符比例。	重复性	RefinedWeb, Gopher
rps_doc_frac_chars_dupe_8grams	重复 8-gram 中的字符比例。	重复性	RefinedWeb, Gopher
rps_doc_frac_chars_dupe_9grams	重复 9-gram 中的字符比例。	重复性	RefinedWeb, Gopher
rps_doc_frac_chars_top_2gram	最常见的 2-gram 中的字符比例。	重复性	RefinedWeb, Gopher
rps_doc_frac_chars_top_3gram	最常见的 3-gram 中的字符比例。	重复性	RefinedWeb, Gopher
rps_doc_frac_chars_top_4gram	最常见的 4-gram 中的字符比例。	重复性	RefinedWeb, Gopher
rps_doc_ldnoobw_words	包含在“脏话、下流、淫秽及其他不良词汇”黑名单中的词序列数量。该黑名单来自 LDNOOBW 仓库。	有害内容	C4
rps_doc_ut1_blacklist	对应文档所属领域的类别标识。类别来自 UT1 黑名单，该名单来源于 UT-Capitole。	有害内容	RefinedWeb
minhash_signature_0.7	文档的带状 MinHash 签名，用于 Jaccard 相似度为 0.7 时的模糊去重。签名基于 128 个哈希函数，分为 14 个带和 9 行，用于 LSH。	去重
minhash_signature_0.8	文档的带状 MinHash 签名，用于 Jaccard 相似度为 0.8 时的模糊去重。签名基于 128 个哈希函数，分为 9 个带和 13 行，用于 LSH。	去重
minhash_signature_0.9	文档的带状 MinHash 签名，用于 Jaccard 相似度为 0.9 时的模糊去重。签名基于 128 个哈希函数，分为 5 个带和 25 行，用于 LSH。	去重
minhash_signature_1.0	文档的带状 MinHash 签名，用于 Jaccard 相似度为 1.0 时的模糊去重。签名基于 128 个哈希函数，分为 1 个带和 128 行，用于 LSH。	去重

致谢

我们衷心感谢众多合作伙伴与协作方，正是大家的共同努力，推动着开源大语言模型领域的前沿发展。

感谢 AI2 的 OLMo 团队以及 OpenGPT-X 的朋友们，就数据集与数据质量展开了富有洞见的讨论！同时也要感谢所有基于 RedPajama 数据集进行开发的人们，包括 Cerebras 在 SlimPajama 方面所做的努力，以及开源 AI 社区迄今为止基于 RedPajama 构建的超过 500 个模型。
我们感激 EleutherAI 的优秀团队，他们通过 The Pile 数据集为开源训练数据铺平了道路，并开源了我们在训练部分 RedPajama 模型时所使用的代码。
感谢 RedPajama-v1 的合作伙伴，包括 Ontocord.ai、MILA 魁北克人工智能研究所、ETH DS3Lab、蒙特利尔大学、斯坦福基础模型研究中心 (CRFM)、斯坦福 Hazy Research 研究组以及 LAION。

许可证

版权所有 © 2023 Together Computer

本软件依照 Apache License, Version 2.0（“许可证”）授权使用；
除非符合许可证的规定，否则不得使用本文件。
您可以在以下网址获取许可证的副本：

   http://www.apache.org/licenses/LICENSE-2.0

除非适用法律另有规定或双方另有约定，否则根据本许可证分发的软件以“AS IS”为基础提供，不附带任何明示或暗示的担保或条件。
有关特定语言的权限及限制，请参阅本许可证。

完整条款请参阅 LICENSE 文件。如您对许可有任何疑问、意见或顾虑，请联系我们。

关于数据集本身，请参阅 Common Crawl 基金会使用条款。

引用 RedPajama 时，请使用以下格式：

@article{weber2024redpajama,
	title   = {RedPajama：用于训练大型语言模型的开源数据集},
	author  = {Maurice Weber、Daniel Y. Fu、Quentin Anthony、Yonatan Oren、Shane Adams、Anton Alexandrov、Xiaozhong Lyu、Huu Nguyen、Xiaozhe Yao、Virginia Adams、Ben Athiwaratkun、Rahul Chalamala、Kezhen Chen、Max Ryabinin、Tri Dao、Percy Liang、Christopher Ré、Irina Rish、Ce Zhang},
	journal = {NeurIPS 数据集与基准测试赛道},
	year    = 2024,
}

RedPajama-Data-v2 快速上手指南

RedPajama-Data-v2 是一个用于训练大型语言模型的开源数据集，包含来自 84 个 CommonCrawl 快照的超过 1000 亿份文档，总计约 30 万亿 tokens。本指南将帮助您配置环境并运行数据处理流水线。

环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统: Linux (推荐 Ubuntu)
容器工具: 已安装 Docker 和 Apptainer (Singularity)。虽然部分步骤可脱离容器运行，但官方脚本默认依赖这些工具。
存储工具: 已安装 s5cmd，并配置好 S3 配置文件（用于从 S3 桶拉取数据）。
硬件建议: 去重步骤（特别是模糊去重）资源消耗较大。参考测试环境为 64 核 CPU 和 500GB 内存。
网络: 能够访问 HuggingFace、S3 存储桶以及外部黑名单源（如 LDNOOBW, UT1 blacklist）。

安装步骤

1. 获取代码与配置

克隆仓库并复制配置文件：

git clone https://github.com/togethercomputer/RedPajama-Data.git
cd RedPajama-Data
cp configs/rp_v2.0.conf configs/default.conf

编辑 configs/default.conf，根据实际环境设置必要的环境变量（如 DATA_ROOT, S3_PROFILE 等）。

2. 构建 Docker 镜像

加载配置并构建运行所需的 Docker 镜像：

. configs/default.conf
cd app
docker build -t "${DOCKER_REPO}:" .

3. 下载基础模型

下载英语维基百科参考分类器（fasttext 模型），这是生成质量信号所必需的：

# 假设 ${DATA_ROOT} 已在配置文件中定义
mkdir -p ${DATA_ROOT}/wikiref-model/en
wget https://data.together.xyz/redpajama-data-v2/v1.0.0/artifacts/wikiref.model.bin -O ${DATA_ROOT}/wikiref-model/en/en-model.bin

基本使用

数据处理流水线主要包含三个步骤：创建工件、计算质量信号、去重。

重要提示：如果您未使用提供的 Docker/Apptainer 脚本运行前两步，请务必设置以下环境变量以保证哈希一致性：

export PYTHONHASHSEED=42

第一步：创建工件 (Create Artifacts)

此步骤构建质量分类器、训练 n-gram 模型并获取黑名单数据。

准备一个列表文件（例如 listings.txt），包含您要处理的 CCNet 数据键值（如 2023-06/0000/en_head.json.gz）。然后运行：

bash scripts/run_prep_artifacts.sh \
  --config configs/rp_v2.0.conf \
  --listings /path/to/listings/file.txt\
  --max_workers 32

运行成功后，记录输出的 ID 并导出为环境变量 ARTIFACTS_ID，供下一步使用。

第二步：计算质量信号 (Compute Quality Signals)

此步骤计算文档的质量分数（如困惑度、语言得分）并生成用于模糊去重的 MinHash 签名。

bash scripts/apptainer_run_quality_signals.sh \
  --config configs/rp_v2.0.conf \
  --dump_id "2022-49" \
  --input_base_uri "file:///path/to/data/root" \
  --output_base_uri "file:///path/to/outout/data/root" \
  --max_docs -1

注：请将 --dump_id 替换为您实际处理的数据批次 ID。

第三步：去重 (Deduplication)

方案 A：精确去重 (Exact Deduplication)

基于 Bloomfilter 的内容去重，数据需位于 S3 桶中。

python3 app/src/bloomfilter.py \
  --listings /path/to/listings/file.txt \
  --input_base_uri "s3://path/to/ccnet/data" \
  --output_dir "/path/to/output" \
  --s3_profile "..." \
  --endpoint_url "..." \
  --parallel_readers 32 \
  --batch_size 10 \
  --capacity "..." \
  --error_rate "..."

注意：--capacity 必须大于文档总数，否则错误率无法保证。

方案 B：模糊去重 (Fuzzy Deduplication)

基于局部敏感哈希 (LSH) 对 MinHash 签名进行去重。

bash scripts/apptainer_run_lsh.sh \
  --config configs/rp_v2.0.conf \
  --dump_id "2022-49" \
  --input_base_uri "file:///path/to/data/root" \
  --output_dir "/path/to/output" \
  --similarity "<similarity_threshold>" \
  --listings "/minhash/listings/file.txt" \
  --max_docs -1

完成上述步骤后，您将获得经过质量筛选和去重处理的高质量数据集，可用于大模型训练。

常见问题

运行 `python -m cc_net` 时遇到 `argument -l/--lang_whitelist: invalid Sequence value` 错误怎么办？

`run_lsh.py` 脚本输出的 Parquet 文件行数远少于输入文件，这些输出代表什么？如何利用它们进行去重？

如何为其他语言（如中文）构建质量分类器所需的训练语料？

在 Wikipedia 文件夹中测试 `download.py` 时出现 `FileNotFoundError` 且无法解析数据文件，如何解决？

RedPajama 数据集中同时包含 Common Crawl 和 C4，这两者是否存在完全重叠导致数据冗余？

项目目前支持哪些语言？是否计划添加阿拉伯语等多语言支持？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

OpenHands

OpenHands 是一个专注于 AI 驱动开发的开源平台，旨在让智能体（Agent）像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点，通过自动化流程显著提升开发速度。无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员，还是需要快速原型验证的技术团队，都能从中受益。OpenHands 提供了灵活多样的使用方式：既可以通过命令行（CLI）或本地图形界面在个人电脑上轻松上手，体验类似 Devin 的流畅交互；也能利用其强大的 Python SDK 自定义智能体逻辑，甚至在云端大规模部署上千个智能体并行工作。其核心技术亮点在于模块化的软件智能体 SDK，这不仅构成了平台的引擎，还支持高度可组合的开发模式。此外，OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩，证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能，支持与 Slack、Jira 等工具集成，并提供细粒度的权限管理，适合从个人开发者到大型企业的各类用户场景。

★ 70.6k|★★★☆☆|今天

语言模型Agent开发框架