openwebtext

763 85 较难 1 次阅读 2周前GPL-3.0语言模型数据工具

AI 解读由 AI 自动生成，仅供参考

OpenWebText 是 OpenAI 未公开数据集 WebText 的开源复刻版，旨在为训练类似 GPT-2 的大型语言模型提供高质量的文本语料。它通过挖掘 Reddit 社区中获赞数较高的帖子链接，自动抓取网页并提取纯净文本，最终构建出包含超 2300 万个 URL 和 1000 多万页 HTML 内容的庞大数据库。

该工具主要解决了高质量、大规模预训练数据获取难的问题。传统爬虫效率低且噪音大，而 OpenWebText 创新性地利用 Pushshift.io 的离线归档数据替代实时 API 调用，大幅提升了抓取速度。同时，它内置了智能去重机制和基于“点赞数（Karma）”的过滤策略，确保收录内容的质量与多样性。此外，项目还提供了从 URL 提取、HTML 下载到文本清洗的全流程脚本，支持高度自定义的过滤条件和并行处理。

OpenWebText 非常适合 AI 研究人员、机器学习工程师以及需要构建自定义语料库的开发者使用。如果你正在探索自然语言处理的前沿技术，或希望复现大模型训练过程，这套工具能提供坚实的数据基础。虽然普通用户可能较少直接接触其底层代码，但它所生成的开放数据集正间接推动着整个 AI 社区的进步。

使用场景

某初创 AI 实验室正致力于训练一个垂直领域的中文对话模型，急需海量且高质量的通用语料来夯实模型的语言理解基础。

没有 openwebtext 时

数据获取门槛极高：团队无法复现 OpenAI 用于训练 GPT-2 的核心数据集 WebText，只能依赖规模较小或质量参差不齐的公开语料，导致模型泛化能力受限。
清洗效率低下：若尝试自行从 Reddit 等源头爬取，需处理数百 GB 的原始转储文件，手动编写脚本过滤低分链接和去重耗时数周，且极易因 API 限流而中断。
资源浪费严重：缺乏智能预筛选机制，爬虫会抓取大量包含广告、脚本或无意义的低质页面，浪费了宝贵的计算算力和存储带宽。
文本提取困难：从原始 HTML 中精准提取正文需要反复调整解析规则，难以平衡覆盖率与噪声控制，导致最终可用的纯文本数据寥寥无几。

使用 openwebtext 后

直接复用高质量源：团队利用 openwebtext 提供的预过滤 URL 列表（仅 2GB），直接锁定了超过 2300 万个高热度链接，瞬间获得了媲美工业级的数据种子。
采集速度显著提升：通过基于 pushshift.io 本地文件的离线挖掘模式，避开了网络 API 调用的延迟与限制，将原本数周的数据准备周期缩短至几天。
智能去重与过滤：工具内置的去重算法和基于 Karma 值的筛选机制，自动剔除了冗余和低质内容，确保下载的每一页 HTML 都具有高信息密度。
灵活的文字萃取：支持并行调用 newspaper 或 BeautifulSoup 模块，一键从压缩的 HTML 归档中提取纯净文本，快速构建出千万级句子的训练语料库。

openwebtext 让中小团队也能以极低的成本，高效构建出足以训练大型语言模型的工业级通用语料底座。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明（建议多核 CPU 并行处理，n_procs 推荐 20-40）

依赖

notes该工具主要用于爬取和清洗 Reddit 高积分帖子中的 URL 及 HTML 文本，非深度学习训练框架。运行时需要大量存储空间（原始 Pushshift 数据约 140GB，过滤后 URL 列表约 2GB，最终 HTML/文本数据量巨大）。下载脚本支持多线程并行（--n_procs），建议设置 20-40 或更高以加快速度；需设置超时时间（--timeout）防止大文件下载挂起。可选用预过滤的 URL 列表以节省时间。

python3.x (通过 pip3 安装)

pipenv

newspaper

beautifulsoup4 (bs4)

快速开始

OpenWebText

乔舒亚·彼得森、斯蒂芬·梅兰和大卫·布尔金

OpenWebText 是 OpenAI 未公开的 WebText 数据集的一个开源克隆版（博客、论文、代码），该数据集曾用于训练 GPT-2。目前的结果是超过 2300 万个 URL 和超过 1000 万个 HTML 页面。

此实现从预先下载的（每月更新的）pushshift.io Reddit 提交数据转储中挖掘并智能去重 +3 karma 的 URL（这种方式比多次调用 Web API 快得多），然后下载原始 HTML 并提取文本。为了节省时间，您可以使用此处提供的预过滤 URL 列表链接，它可将 140GB 的 pushshift 数据缩减至仅需用于内容抓取的 2GB URL。此外，我们还提供了一个用于分词的初始工具，并计划尽快加入 BPE 编码功能。该代码库已具备基本功能，但仍在积极开发中，欢迎提出问题或改进建议（欢迎提交 Pull Request）。

依赖项

如果您使用 pipenv（pip install --user pipenv），请进入项目根目录并运行：

pipenv install 
pipenv shell

否则，请在新的虚拟环境中运行以下命令：

pip3 install -r requirements.txt

自行提取/清理 URL

您可以在此处下载预过滤的 URL 链接，但如果您希望使用不同的过滤条件重新筛选这些 URL，可以按照以下步骤操作。首先需要使用 fetch_urls.py 脚本（感谢 simonfall）下载 pushshift 数据转储，或者手动从这里下载。仓库中的“pushshift_dumps”文件夹内包含了两个示例数据转储。接下来，使用以下命令提取符合条件的 URL：

python extract_urls.py --single_file RS_v2_2005-06.xz

若要处理多个 pushshift 文件，可以指定年份范围：

python extract_urls.py --year_start 2016 --year_end 2018

如需更改 karma 阈值：

python extract_urls.py --single_file RS_v2_2005-06.xz --min_karma 4

要对提取出的 URL 进行去重，请提供包含所有 URL 转储的目录：

python deduplicate_urls.py --input_dir url_dumps

extract_urls.py 和 deduplicate_urls.py 的输出均为文本文件，因为所有 2300 万个“优质”URL 仅占用 2GB 空间。

抓取 HTML（或直接抓取文本）

由于计算和带宽需求较高，此过程按月进行。n_procs 表示用于并行化的核心数，为获得最快结果，建议设置为至少 20–40。脚本会以 chunk_size 大小的块输出结果。如果未设置 timeout 或将其设为 -1，下载器可能会在处理大文件时卡住。

若要抓取原始 HTML 以供后续处理和文本提取，请将 --scraper 参数设置为 raw，如下所示。下载的 HTML 将被剥离 script 和 style 标签，并使用 LZMA 压缩存储为压缩档案，同时附带少量元数据。

python download.py url_dumps_deduped/RS_20XX-XX.xz.deduped.txt --n_procs 100 --scraper raw --chunk_size 100000 --compress --timeout 30

若要直接抓取文本内容以节省磁盘空间（但无法在未来使用不同参数重新提取文本），请将 --scraper 设置为 newspaper，利用 Python 的 newspaper 库提取文本。若需更精细地提取文本，可将 --scraper 设置为 bs4（Beautiful Soup 4），它将提取页面上所有 <p> 标签中的文本。

从已下载的 HTML 中提取文本

python extract_text.py --html_archive scraped/RS_20XX-XX-X_data.xz --n_procs 100

目前该脚本使用 newspaper 工具，并输出 txt 文件。

分词

原始 WebText 并未使用分词，但如果您需要分词功能，可以使用以下命令：

python tokenize_text.py --input_glob "parsed/*.txt" --output_dir tokenized

该功能将在不久的将来得到改进并实现并行化。

BPE 编码

即将推出……

OpenAI 原始项目链接

其他实现

基于 pushshift.io API 且 fork 自上述下载代码的替代抓取工具可在这里找到。

OpenWebText 快速上手指南

OpenWebText 是 OpenAI 未公开 WebText 数据集（用于训练 GPT-2）的开源复刻版。该项目通过挖掘 Reddit 高热度提交记录，智能去重并抓取 HTML 页面以提取高质量文本数据。

环境准备

系统要求：Linux 或 macOS（推荐），需具备较高的网络带宽和充足的磁盘空间（原始数据量较大）。
Python 版本：Python 3.6+
前置依赖：
- pip 包管理工具
- 推荐使用 pipenv 管理虚拟环境（可选，但推荐）

注意：由于项目依赖大量外部库且涉及网络爬虫，建议在网络环境稳定的情况下操作。原文未提供中国镜像源，若安装缓慢，可临时指定国内 pip 源（如 -i https://pypi.tuna.tsinghua.edu.cn/simple）。

安装步骤

方式一：使用 Pipenv（推荐）

# 安装 pipenv (如果尚未安装)
pip install --user pipenv

# 进入项目根目录
cd openwebtext

# 安装依赖并激活虚拟环境
pipenv install 
pipenv shell

方式二：使用标准虚拟环境

# 创建并激活虚拟环境 (示例)
python3 -m venv venv
source venv/bin/activate  # Windows 用户请使用: venv\Scripts\activate

# 安装依赖
pip3 install -r requirements.txt

基本使用

本项目核心流程分为：获取 URL 列表 -> 抓取内容 -> 提取文本。为节省时间，强烈建议直接使用作者预过滤好的 URL 列表，而非从头处理 Reddit 原始转储数据。

1. 获取 URL 列表

你可以从 Mega.nz 下载预过滤的 URL 列表（约 2GB），这将跳过处理 140GB Pushshift 原始数据的步骤。

若需自行过滤（例如修改 Karma 阈值），可使用以下命令：

# 提取单个文件的 URL (Karma >= 3)
python extract_urls.py --single_file RS_v2_2005-06.xz

# 提取指定年份范围的 URL
python extract_urls.py --year_start 2016 --year_end 2018

# 去重处理
python deduplicate_urls.py --input_dir url_dumps

2. 抓取 HTML 或文本

抓取过程消耗大量带宽和计算资源，建议分月处理并开启多进程。

方案 A：抓取原始 HTML（推荐，便于后续灵活提取） 此模式会去除 script/style 标签，并使用 LZMA 压缩存储。

# n_procs 建议设置为 20-40 以上以加速；timeout 防止大文件挂起
python download.py url_dumps_deduped/RS_20XX-XX.xz.deduped.txt --n_procs 100 --scraper raw --chunk_size 100000 --compress --timeout 30

方案 B：直接抓取文本（节省磁盘空间） 使用 newspaper 库直接提取正文，但无法重新调整提取参数。

python download.py url_dumps_deduped/RS_20XX-XX.xz.deduped.txt --n_procs 100 --scraper newspaper --chunk_size 100000 --timeout 30

注：若需更精细的控制（仅提取 <p> 标签），可将 --scraper 设为 bs4。

3. 从 HTML 提取文本

如果你选择了方案 A（抓取原始 HTML），需运行以下步骤提取文本：

python extract_text.py --html_archive scraped/RS_20XX-XX-X_data.xz --n_procs 100

4. 分词（可选）

如果需要像原始 WebText 那样进行分词处理：

python tokenize_text.py --input_glob "parsed/*.txt" --output_dir tokenized

常见问题

如何引用 OpenWebText 数据集？

下载中断或报错后如何恢复下载？

Pushshift 不提供实时 Karma 分数，项目是如何获取 karma >= min_karma 的数据的？

运行 extract_text.py 时提示缺少 --html_archive 参数怎么办？

如何实现 BPE (Byte Pair Encoding) 分词？

为什么使用 Newspaper3k 进行 HTML 抓取而不是更简单的 requests？

extract_text.py 脚本运行缓慢且未充分利用多进程怎么办？

无法下载 2G 链接或链接指向 MEGA 主页怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 156.8k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|1周前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|5天前

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|1周前

语言模型数据工具其他