gensim-data

1k 142 非常简单 2 次阅读 2周前LGPL-2.1数据工具

AI 解读由 AI 自动生成，仅供参考

gensim-data 是一个专注于自然语言处理（NLP）领域的开源数据存储库，提供预训练模型和文本语料库。它解决了研究数据集经常消失、格式复杂或难以使用的问题，通过标准化的 API 和长期支持，为非结构化文本处理提供了稳定可靠的数据来源。

这个存储库非常适合 NLP 研究人员和开发者使用，尤其是那些需要快速获取高质量语料或预训练模型的人。用户无需直接与存储库交互，只需通过 Gensim 的下载 API 即可轻松加载所需资源，例如词向量模型或文本数据集。所有数据会自动保存到本地 ~/gensim-data 文件夹中，方便管理。

gensim-data 的独特之处在于其设计的可持续性：每个数据集都有独立的版本发布，并附带详细的使用示例和许可证说明，确保透明性和合规性。此外，数据以 GitHub 发布附件的形式存储，保证了数据的不可变性和长期可用性。

无论是加载预训练模型（如 GloVe 词向量）还是获取语料库（如 Wikipedia 或 text8），gensim-data 都能显著简化工作流程，让研究人员和开发者专注于核心任务，而不必为数据准备耗费精力。

使用场景

一位数据科学家正在开发一个基于自然语言处理的问答系统，需要使用预训练的词向量模型来提升语义理解能力。

没有 gensim-data 时

需要手动搜索和下载预训练模型，比如从不同网站获取 GloVe 或 Word2Vec 模型，过程繁琐且容易出错。
下载的文件格式不统一，可能需要额外编写代码来解析和加载模型，增加了开发时间。
数据集或模型可能因为链接失效或版本更新而无法长期使用，导致项目维护困难。
缺乏对数据集许可证的清晰说明，可能在无意中违反使用条款，带来法律风险。
文件存储位置分散，团队协作时难以共享和管理资源。

使用 gensim-data 后

只需调用简单的 API（如 api.load("glove-twitter-25")），即可自动下载并加载所需模型，大幅简化操作流程。
所有数据集和模型都经过标准化处理，开箱即用，无需额外编写解析代码，节省开发时间。
数据集和模型存储在本地 ~/gensim-data 文件夹中，版本固定且长期可用，确保项目的稳定性和可维护性。
每个数据集附带明确的许可证信息，帮助开发者合规使用，降低法律风险。
团队成员可以通过相同的 API 轻松获取资源，文件路径统一，便于协作和资源共享。

gensim-data 的核心价值在于为自然语言处理任务提供了便捷、可靠的数据和模型获取方式，显著提升了开发效率和项目稳定性。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notes需要安装 Gensim 库并通过其 API 下载数据集或模型，所有数据存储在 ~/gensim-data 文件夹中。部分数据集和模型文件较大（如 wiki-english-20171001 为 6214 MB），建议确保磁盘空间充足。

python未说明

gensim

快速开始

Gensim-data 是用来做什么的？

研究数据集经常会出现消失、随时间变化、变得过时，或者没有合理的实现来处理数据格式的读取和处理。

基于这个原因，Gensim 推出了自己的数据集存储库，致力于长期支持、提供标准化的使用 API，并专注于非结构化文本处理（不包括图像或音频）的数据集。这个 Gensim-data 仓库就充当了这样的存储库。

您无需直接使用此存储库。相反，只需安装 Gensim 并使用其下载 API（见下文快速入门）。它会自动与该存储库进行交互。

💡 当您使用 Gensim 下载 API 时，所有数据都会存储在您的 ~/gensim-data 主目录文件夹中。

有关项目原理和设计决策的更多信息，请阅读这篇文章：New Download API for Pretrained NLP Models and Datasets。

它是如何工作的？

从技术上讲，实际的（有时非常大的）语料库和模型文件被存储为 release attachments 在 Github 上。每个数据集（以及每个数据集的新版本）都有自己的发布版本，且永远不可更改。

每次发布都附带一个使用示例和发布说明，例如：2017 年 USPTO 专利语料库; 2017 年英文维基百科，包含纯文本部分。

🔴 每个数据集都有自己的许可证，用户在使用数据集之前应仔细阅读！

快速入门

要加载模型或语料库，可以使用 Gensim 的 Python 或命令行接口（首先需要安装 Gensim）：

Python API

示例：加载预训练模型（gloVe 词向量）：

import gensim.downloader as api

info = api.info()  # 显示可用模型/数据集的信息
model = api.load("glove-twitter-25")  # 下载模型并返回可直接使用的对象
model.most_similar("cat")

"""
输出：

[(u'dog', 0.9590819478034973),
 (u'monkey', 0.9203578233718872),
 (u'bear', 0.9143137335777283),
 (u'pet', 0.9108031392097473),
 (u'girl', 0.8880630135536194),
 (u'horse', 0.8872727155685425),
 (u'kitty', 0.8870542049407959),
 (u'puppy', 0.886769711971283),
 (u'hot', 0.8865255117416382),
 (u'lady', 0.8845518827438354)]

"""

示例：加载语料库并用它训练 Word2Vec 模型：

from gensim.models.word2vec import Word2Vec
import gensim.downloader as api

corpus = api.load('text8')  # 下载语料库并返回打开后的可迭代对象
model = Word2Vec(corpus)  # 使用语料库训练模型
model.most_similar("car")

"""
输出：

[(u'driver', 0.8273754119873047),
 (u'motorcycle', 0.769528865814209),
 (u'cars', 0.7356342077255249),
 (u'truck', 0.7331641912460327),
 (u'taxi', 0.718338131904602),
 (u'vehicle', 0.7177008390426636),
 (u'racing', 0.6697118878364563),
 (u'automobile', 0.6657308340072632),
 (u'passenger', 0.6377975344657898),
 (u'glider', 0.6374964714050293)]

"""

示例：仅下载数据集并返回本地文件路径（不打开）：

import gensim.downloader as api

print(api.load("20-newsgroups", return_path=True))  # 输出: /home/user/gensim-data/20-newsgroups/20-newsgroups.gz
print(api.load("glove-twitter-25", return_path=True))  # 输出: /home/user/gensim-data/glove-twitter-25/glove-twitter-25.gz

同样的操作，但通过CLI，命令行界面完成：

python -m gensim.downloader --info  # 显示可用模型/数据集的信息
python -m gensim.downloader --download text8  # 将 text8 数据集下载到 ~/gensim-data/text8
python -m gensim.downloader --download glove-twitter-25  # 将模型下载到 ~/gensim-data/glove-twitter-50/

可用数据

数据集

名称	文件大小	了解更多	描述	许可
20-newsgroups	13 MB	http://qwone.com/~jason/20Newsgroups/	臭名昭著的约20,000篇新闻组帖子集合，几乎均匀分布在20个不同的新闻组中。	未找到
fake-news	19 MB	https://www.kaggle.com/mrisdal/fake-news	新闻数据集，包含来自244个网站的文本和元数据，总计代表了在特定30天窗口内的12,999篇帖子。数据通过webhose.io API抓取，由于数据来源于其爬虫，并非所有被BS Detector（垃圾站点检测器）识别的网站都出现在此数据集中。缺少标签的数据源被简单地标记为'bs'。该数据集中没有（据称）任何真实、可靠或值得信赖的新闻来源（至少目前如此），所以请不要相信你读到的内容。	https://creativecommons.org/publicdomain/zero/1.0/
patent-2017	2944 MB	http://patents.reedtech.com/pgrbft.php	专利授权全文。包含2017年发布的每项专利授权的完整文本，包括表格、序列数据和“内联”数学表达式。	未找到
quora-duplicate-questions	20 MB	https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs	超过400,000行潜在的重复问题对。每一行包含每对问题的ID、每个问题的完整文本以及一个二进制值，指示该行是否包含重复对。	可能是 https://www.quora.com/about/tos
semeval-2016-2017-task3-subtaskA-unannotated	223 MB	http://alt.qcri.org/semeval2016/task3/ http://alt.qcri.org/semeval2016/task3/data/uploads/semeval2016-task3-report.pdf https://github.com/RaRe-Technologies/gensim-data/issues/18 https://github.com/Witiko/semeval-2016_2017-task3-subtaskA-unannotated-english	SemEval 2016 / 2017任务3子任务A未标注数据集包含从卡塔尔生活社区问答（CQA）网络论坛收集的189,941个问题和1,894,456条评论。这些可以用作语言建模的语料库。	这些数据集可供一般研究用途免费使用。
semeval-2016-2017-task3-subtaskBC	6 MB	http://alt.qcri.org/semeval2017/task3/ http://alt.qcri.org/semeval2017/task3/data/uploads/semeval2017-task3.pdf https://github.com/RaRe-Technologies/gensim-data/issues/18 https://github.com/Witiko/semeval-2016_2017-task3-subtaskB-english	SemEval 2016 / 2017任务3子任务B和C数据集包含英语的训练+开发集（317个原始问题，3,169个相关问题和31,690条评论）以及测试数据集。任务描述和收集的数据详见任务论文的第3节和第4.1节 http://alt.qcri.org/semeval2016/task3/data/uploads/semeval2016-task3-report.pdf，链接位于 https://github.com/RaRe-Technologies/gensim-data/issues/18 的“Papers”部分。	为该任务发布的所有文件均可供一般研究用途免费使用。
text8	31 MB	http://mattmahoney.net/dc/textdata.html	来自维基百科的前100,000,000字节纯文本。用于测试目的；完整的维基百科数据集请参见wiki-english-*。	未找到
wiki-english-20171001	6214 MB	https://dumps.wikimedia.org/enwiki/20171001/	2017年10月提取的维基百科数据转储。通过 `python -m gensim.scripts.segment_wiki -f enwiki-20171001-pages-articles.xml.bz2 -o wiki-en.gz` 生成。	https://dumps.wikimedia.org/legal.html

模型

名称	向量数量	文件大小	基础数据集	了解更多	描述	参数	预处理	许可协议
conceptnet-numberbatch-17-06-300	1917247	1168 MB	ConceptNet, word2vec, GloVe 和 OpenSubtitles 2016	http://aaai.org/ocs/index.php/AAAI/AAAI17/paper/view/14972 https://github.com/commonsense/conceptnet-numberbatch http://conceptnet.io/	ConceptNet Numberbatch 包含最先进的语义向量（也称为词嵌入，word embeddings），可以直接用作单词意义的表示，也可以作为进一步机器学习的起点。ConceptNet Numberbatch 是 ConceptNet 开放数据项目的一部分。ConceptNet 提供了多种计算单词意义的方法，其中之一是词嵌入。ConceptNet Numberbatch 是这些词嵌入的一个快照。它通过一种集成方法构建，结合了来自 ConceptNet、word2vec、GloVe 和 OpenSubtitles 2016 的数据，并使用了一种改进的 retrofitting 方法。	维度 - 300	-	https://github.com/commonsense/conceptnet-numberbatch/blob/master/LICENSE.txt
fasttext-wiki-news-subwords-300	999999	958 MB	Wikipedia 2017, UMBC webbase 语料库和 statmt.org 新闻数据集 (16B tokens)	https://fasttext.cc/docs/en/english-vectors.html https://arxiv.org/abs/1712.09405 https://arxiv.org/abs/1607.01759	在 Wikipedia 2017、UMBC webbase 语料库和 statmt.org 新闻数据集（16B tokens）上训练的 100 万个词向量。	维度 - 300	-	https://creativecommons.org/licenses/by-sa/3.0/
glove-twitter-100	1193514	387 MB	Twitter (2B 推文, 27B tokens, 1.2M 词汇, 不区分大小写)	https://nlp.stanford.edu/projects/glove/ https://nlp.stanford.edu/pubs/glove.pdf	基于 2B 推文、27B tokens、1.2M 词汇、不区分大小写的预训练向量（https://nlp.stanford.edu/projects/glove/）。	维度 - 100	使用 `python -m gensim.scripts.glove2word2vec -i <fname> -o glove-twitter-100.txt` 转换为 w2v 格式。	http://opendatacommons.org/licenses/pddl/
glove-twitter-200	1193514	758 MB	Twitter (2B 推文, 27B tokens, 1.2M 词汇, 不区分大小写)	https://nlp.stanford.edu/projects/glove/ https://nlp.stanford.edu/pubs/glove.pdf	基于 2B 推文、27B tokens、1.2M 词汇、不区分大小写的预训练向量（https://nlp.stanford.edu/projects/glove/）。	维度 - 200	使用 `python -m gensim.scripts.glove2word2vec -i <fname> -o glove-twitter-200.txt` 转换为 w2v 格式。	http://opendatacommons.org/licenses/pddl/
glove-twitter-25	1193514	104 MB	Twitter (2B 推文, 27B tokens, 1.2M 词汇, 不区分大小写)	https://nlp.stanford.edu/projects/glove/ https://nlp.stanford.edu/pubs/glove.pdf	基于 2B 推文、27B tokens、1.2M 词汇、不区分大小写的预训练向量（https://nlp.stanford.edu/projects/glove/）。	维度 - 25	使用 `python -m gensim.scripts.glove2word2vec -i <fname> -o glove-twitter-25.txt` 转换为 w2v 格式。	http://opendatacommons.org/licenses/pddl/
glove-twitter-50	1193514	199 MB	Twitter (2B 推文, 27B tokens, 1.2M 词汇, 不区分大小写)	https://nlp.stanford.edu/projects/glove/ https://nlp.stanford.edu/pubs/glove.pdf	基于 2B 推文、27B tokens、1.2M 词汇、不区分大小写的预训练向量（https://nlp.stanford.edu/projects/glove/）。	维度 - 50	使用 `python -m gensim.scripts.glove2word2vec -i <fname> -o glove-twitter-50.txt` 转换为 w2v 格式。	http://opendatacommons.org/licenses/pddl/
glove-wiki-gigaword-100	400000	128 MB	Wikipedia 2014 + Gigaword 5 (6B tokens, 不区分大小写)	https://nlp.stanford.edu/projects/glove/ https://nlp.stanford.edu/pubs/glove.pdf	基于 Wikipedia 2014 + Gigaword 5 的预训练向量，6B tokens，400K 词汇，不区分大小写（https://nlp.stanford.edu/projects/glove/）。	维度 - 100	使用 `python -m gensim.scripts.glove2word2vec -i <fname> -o glove-wiki-gigaword-100.txt` 转换为 w2v 格式。	http://opendatacommons.org/licenses/pddl/
glove-wiki-gigaword-200	400000	252 MB	Wikipedia 2014 + Gigaword 5 (6B tokens, 不区分大小写)	https://nlp.stanford.edu/projects/glove/ https://nlp.stanford.edu/pubs/glove.pdf	基于 Wikipedia 2014 + Gigaword 5 的预训练向量，5.6B tokens，400K 词汇，不区分大小写（https://nlp.stanford.edu/projects/glove/）。	维度 - 200	使用 `python -m gensim.scripts.glove2word2vec -i <fname> -o glove-wiki-gigaword-200.txt` 转换为 w2v 格式。	http://opendatacommons.org/licenses/pddl/
glove-wiki-gigaword-300	400000	376 MB	Wikipedia 2014 + Gigaword 5 (6B tokens, 不区分大小写)	https://nlp.stanford.edu/projects/glove/ https://nlp.stanford.edu/pubs/glove.pdf	基于 Wikipedia 2014 + Gigaword 5 的预训练向量，5.6B tokens，400K 词汇，不区分大小写（https://nlp.stanford.edu/projects/glove/）。	维度 - 300	使用 `python -m gensim.scripts.glove2word2vec -i <fname> -o glove-wiki-gigaword-300.txt` 转换为 w2v 格式。	http://opendatacommons.org/licenses/pddl/
glove-wiki-gigaword-50	400000	65 MB	Wikipedia 2014 + Gigaword 5 (6B tokens, 不区分大小写)	https://nlp.stanford.edu/projects/glove/ https://nlp.stanford.edu/pubs/glove.pdf	基于 Wikipedia 2014 + Gigaword 5 的预训练向量，5.6B tokens，400K 词汇，不区分大小写（https://nlp.stanford.edu/projects/glove/）。	维度 - 50	使用 `python -m gensim.scripts.glove2word2vec -i <fname> -o glove-wiki-gigaword-50.txt` 转换为 w2v 格式。	http://opendatacommons.org/licenses/pddl/
word2vec-google-news-300	3000000	1662 MB	Google News (约 1000 亿单词)	https://code.google.com/archive/p/word2vec/ https://arxiv.org/abs/1301.3781 https://arxiv.org/abs/1310.4546 https://www.microsoft.com/en-us/research/publication/linguistic-regularities-in-continuous-space-word-representations/?from=http%3A%2F%2Fresearch.microsoft.com%2Fpubs%2F189726%2Frvecs.pdf	基于 Google News 数据集（约 1000 亿单词）部分训练的预训练向量。该模型包含 300 万单词和短语的 300 维向量。短语是通过 'Distributed Representations of Words and Phrases and their Compositionality' 中描述的一种简单数据驱动方法获得的（https://code.google.com/archive/p/word2vec/）。	维度 - 300	-	未找到
word2vec-ruscorpora-300	184973	198 MB	俄罗斯国家语料库（约 2.5 亿单词）	https://www.academia.edu/24306935/WebVectors_a_Toolkit_for_Building_Web_Interfaces_for_Vector_Semantic_Models http://rusvectores.org/en/ https://github.com/RaRe-Technologies/gensim-data/issues/3	在完整俄罗斯国家语料库（约 2.5 亿单词）上训练的 Word2vec Continuous Skipgram 向量。该模型包含 18.5 万单词。	维度 - 300 窗口大小 - 10	语料库经过词形还原并标注了通用词性标签	https://creativecommons.org/licenses/by/4.0/deed.en

（由 generate_table.py 根据 list.json 生成）

想要添加新的语料库或模型吗？

使用 gzip 或 bz2 压缩你的数据集。
在任何文件共享服务上分享压缩后的文件。
创建一个新问题，并提供数据集的链接。附上一份详细描述，说明你为什么以及如何创建该数据集，相关的论文或研究内容，以及其他用户应如何使用它。在适当的情况下，请包含代码示例。

Gensim-data 是开源软件，遵循 LGPL 2.1 许可证发布。

gensim-data 快速上手指南

gensim-data 是 Gensim 提供的一个长期支持的开源数据存储库，专注于非结构化文本处理相关的数据集和预训练模型。通过 Gensim 的下载 API，用户可以轻松获取并使用这些资源。

环境准备

系统要求

操作系统：Windows、macOS 或 Linux
Python 版本：Python 3.6 及以上

前置依赖

在使用 gensim-data 之前，请确保已安装 Gensim 库：

pip install gensim

如果在中国大陆地区，建议使用国内镜像源加速安装：

pip install gensim -i https://pypi.tuna.tsinghua.edu.cn/simple

安装步骤

无需单独安装 gensim-data，只需安装 Gensim 即可。所有数据集和模型会通过 Gensim 的下载 API 自动获取。

基本使用

使用 Python API

示例 1：加载预训练模型（如 GloVe 词向量）

以下代码加载预训练的 glove-twitter-25 模型，并查询与“cat”最相似的词：

import gensim.downloader as api

info = api.info()  # 查看可用模型/数据集信息
model = api.load("glove-twitter-25")  # 下载并加载模型
print(model.most_similar("cat"))

示例 2：加载语料库并训练 Word2Vec 模型

以下代码加载 text8 语料库，并用其训练一个 Word2Vec 模型：

from gensim.models.word2vec import Word2Vec
import gensim.downloader as api

corpus = api.load('text8')  # 下载并加载语料库
model = Word2Vec(corpus)  # 训练模型
print(model.most_similar("car"))

示例 3：仅下载数据集并获取本地路径

以下代码仅下载数据集并返回其本地文件路径：

import gensim.downloader as api

print(api.load("20-newsgroups", return_path=True))  # 输出：/home/user/gensim-data/20-newsgroups/20-newsgroups.gz
print(api.load("glove-twitter-25", return_path=True))  # 输出：/home/user/gensim-data/glove-twitter-25/glove-twitter-25.gz

使用命令行接口 (CLI)

查看可用数据集和模型信息

python -m gensim.downloader --info

下载数据集或模型

以下命令分别下载 text8 数据集和 glove-twitter-25 模型到本地目录 ~/gensim-data：

python -m gensim.downloader --download text8
python -m gensim.downloader --download glove-twitter-25

注意事项

所有数据默认存储在 ~/gensim-data 目录下。
每个数据集都有自己的许可证，请在使用前仔细阅读相关条款。

更多详细信息，请参考 Gensim-data GitHub 仓库。

版本历史

fasttext-wiki-news-subwords-3002018/03/16

semeval-2016-2017-task3-subtaskBC2018/02/05

semeval-2016-2017-task3-subtaskA-unannotated2018/02/05

patent-20172017/12/28

conceptnet-numberbatch-17-06-3002017/12/18

word2vec-ruscorpora-3002017/12/18

wiki-english-201710012017/11/10

quora-duplicate-questions2017/11/14

word2vec-google-news-3002017/11/09

__testing_word2vec-matrix-synopsis2017/10/29

__testing_multipart-matrix-synopsis2017/11/08

__testing_matrix-synopsis2017/10/29

glove-twitter-2002017/10/30

glove-wiki-gigaword-3002017/10/28

glove-wiki-gigaword-2002017/10/28

glove-wiki-gigaword-1002017/10/28

glove-twitter-502017/10/28

glove-twitter-252017/10/28

glove-twitter-1002017/10/28

20-newsgroups2017/10/28

常见问题

为什么使用 gensim.downloader 加载的 FastText 模型无法处理未登录词（OOV）？

如何正确加载 FastText 模型以支持未登录词（OOV）？

gensim 中的 FastText 是否支持监督学习模式？

为什么加载 GloVe 向量时会报 'unicode' 未定义的错误？

为什么使用 gensim.downloader 时会出现 'No module named gensim.downloader' 错误？

如何离线使用已下载的 Gensim 数据集？

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

scikit-learn

scikit-learn 是一个基于 Python 构建的开源机器学习库，依托于 SciPy、NumPy 等科学计算生态，旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口，涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具，内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言，scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点，让用户无需重复造轮子，只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。其核心技术亮点在于高度一致的 API 设计风格，所有估算器（Estimator）均遵循相同的调用逻辑，极大地降低了学习成本并提升了代码的可读性与可维护性。此外，它还提供了强大的模型选择与评估工具，如交叉验证和网格搜索，帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目，scikit-learn 以其稳定性、详尽的文档和活跃的社区支持，成为连接理论学习与工业级应用的最

★ 65.6k|★☆☆☆☆|今天

开发框架其他数据工具

keras

Keras 是一个专为人类设计的深度学习框架，旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。无论是刚入门的学生、专注算法的研究人员，还是需要快速落地产品的工程师，都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。 Keras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码，即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性，还允许开发者根据需求自由选择：利用 JAX 或 PyTorch 的即时执行模式进行高效调试，或切换至速度最快的后端以获得最高 350% 的性能提升。此外，Keras 具备强大的扩展能力，能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群，是连接原型开发与生产部署的理想桥梁。

★ 63.9k|★★☆☆☆|昨天

开发框架数据工具其他

crawl4ai

Crawl4AI 是一款专为大语言模型（LLM）设计的开源网络爬虫与数据提取工具。它的核心使命是将纷繁复杂的网页内容转化为干净、结构化的 Markdown 格式，直接服务于检索增强生成（RAG）、智能体构建及各类数据管道，让 AI 能更轻松地“读懂”互联网。传统爬虫往往面临反爬机制拦截、动态内容加载困难以及输出格式杂乱等痛点，导致后续数据处理成本高昂。Crawl4AI 通过内置自动化的三级反机器人检测、代理升级策略以及对 Shadow DOM 的深度支持，有效突破了这些障碍。它能智能移除同意弹窗，处理深层链接，并具备长任务崩溃恢复能力，确保数据采集的稳定与高效。这款工具特别适合开发者、AI 研究人员及数据工程师使用。无论是需要为本地模型构建知识库，还是搭建大规模自动化信息采集流程，Crawl4AI 都提供了极高的可控性与灵活性。作为 GitHub 上备受瞩目的开源项目，它完全免费开放，无需繁琐的注册或昂贵的 API 费用，让用户能够专注于数据价值本身而非采集难题。

★ 63.2k|★★☆☆☆|3天前

数据工具Agent

meilisearch

Meilisearch 是一个开源的极速搜索服务，专为现代应用和网站打造，开箱即用。它能帮助开发者快速集成高质量的搜索功能，无需复杂的配置或额外的数据预处理。传统搜索方案往往需要大量调优才能实现准确结果，而 Meilisearch 内置了拼写容错、同义词识别、即时响应等实用特性，并支持 AI 驱动的混合搜索（结合关键词与语义理解），显著提升用户查找信息的体验。 Meilisearch 特别适合 Web 开发者、产品团队或初创公司使用，尤其适用于需要快速上线搜索功能的场景，如电商网站、内容平台或 SaaS 应用。它提供简洁的 RESTful API 和多种语言 SDK，部署简单，资源占用低，本地开发或生产环境均可轻松运行。对于希望在不依赖大型云服务的前提下，为用户提供流畅、智能搜索体验的团队来说，Meilisearch 是一个高效且友好的选择。

★ 57k|★★☆☆☆|今天

图像Agent数据工具

Made-With-ML

Made-With-ML 是一个面向实战的开源项目，旨在帮助开发者系统掌握从设计、开发到部署和迭代生产级机器学习应用的完整流程。它解决了许多人在学习机器学习时“会训练模型但不会上线”的痛点，强调将软件工程最佳实践与 ML 技术结合，构建可靠、可维护的端到端系统。该项目特别适合三类人群：一是希望将模型真正落地的开发者（包括软件工程师、数据科学家）；二是刚毕业、想补齐工业界所需技能的学生；三是需要理解技术边界以更好推动产品的技术管理者或产品经理。 Made-With-ML 的亮点在于注重第一性原理讲解，避免盲目调包；同时覆盖 MLOps 关键环节（如实验跟踪、模型测试、服务部署、CI/CD 等），并支持在 Python 生态内平滑扩展训练与推理任务，无需切换语言或复杂基础设施。课程内容结构清晰，配有详细代码示例和视频导览，兼顾理论深度与工程实用性。

★ 47.1k|★★☆☆☆|今天

语言模型其他数据工具