[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tool-google-deepmind--mathematics_dataset":3,"similar-google-deepmind--mathematics_dataset":82},{"id":4,"github_repo":5,"name":6,"description_en":7,"description_zh":8,"ai_summary_zh":9,"readme_en":10,"readme_zh":11,"quickstart_zh":12,"use_case_zh":13,"hero_image_url":14,"owner_login":15,"owner_name":16,"owner_avatar_url":17,"owner_bio":18,"owner_company":19,"owner_location":19,"owner_email":19,"owner_twitter":19,"owner_website":20,"owner_url":21,"languages":22,"stars":27,"forks":28,"last_commit_at":29,"license":30,"difficulty_score":31,"env_os":32,"env_gpu":33,"env_ram":33,"env_deps":34,"category_tags":37,"github_topics":19,"view_count":41,"oss_zip_url":19,"oss_zip_packed_at":19,"status":42,"created_at":43,"updated_at":44,"faqs":45,"releases":81},2540,"google-deepmind\u002Fmathematics_dataset","mathematics_dataset","This dataset code generates mathematical question and answer pairs, from a range of question types at roughly school-level difficulty.","Mathematics Dataset 是由 DeepMind 开发的一个开源数学数据集生成工具，旨在自动生成涵盖多种题型的中小学难度数学问答对。它主要服务于人工智能领域，专门用于测试和评估机器学习模型在数学学习及代数推理方面的能力。\n\n对于 AI 研究人员和开发者而言，训练模型具备严谨的逻辑推理能力一直是个挑战。Mathematics Dataset 通过提供大规模、结构化的数学题目，帮助解决模型在符号推理和精确计算上的短板。它不仅包含预生成的 200 万组问答数据，还允许用户通过代码灵活生成新的题目，从而满足特定的实验需求。\n\n该工具的独特亮点在于其精细的数据分级机制。它将训练数据划分为“简单”、“中等”和“困难”三个等级，支持研究者采用课程学习（Curriculum Learning）策略，让模型由浅入深地掌握知识。此外，其覆盖的数学领域非常广泛，包括代数（线性方程、多项式）、算术、微积分（求导）、概率、数值比较以及单位换算等八大类别。\n\nMathematics Dataset 非常适合从事自然语言处理、机器推理研究的科研人员，以及希望提升模型逻辑能力的 AI 工程师使用。用户可","Mathematics Dataset 是由 DeepMind 开发的一个开源数学数据集生成工具，旨在自动生成涵盖多种题型的中小学难度数学问答对。它主要服务于人工智能领域，专门用于测试和评估机器学习模型在数学学习及代数推理方面的能力。\n\n对于 AI 研究人员和开发者而言，训练模型具备严谨的逻辑推理能力一直是个挑战。Mathematics Dataset 通过提供大规模、结构化的数学题目，帮助解决模型在符号推理和精确计算上的短板。它不仅包含预生成的 200 万组问答数据，还允许用户通过代码灵活生成新的题目，从而满足特定的实验需求。\n\n该工具的独特亮点在于其精细的数据分级机制。它将训练数据划分为“简单”、“中等”和“困难”三个等级，支持研究者采用课程学习（Curriculum Learning）策略，让模型由浅入深地掌握知识。此外，其覆盖的数学领域非常广泛，包括代数（线性方程、多项式）、算术、微积分（求导）、概率、数值比较以及单位换算等八大类别。\n\nMathematics Dataset 非常适合从事自然语言处理、机器推理研究的科研人员，以及希望提升模型逻辑能力的 AI 工程师使用。用户可以通过 pip 轻松安装，或利用提供的脚本自定义生成特定类型的数学题（如一元一次方程），并将其导出为文本文件用于模型训练与验证。这是一个专业且实用的基准测试资源，为推动 AI 数学推理能力的发展提供了坚实的数据基础。","# Mathematics Dataset\n\nThis dataset code generates mathematical question and answer pairs, from a range\nof question types at roughly school-level difficulty. This is designed to test\nthe mathematical learning and algebraic reasoning skills of learning models.\n\nOriginal paper: [Analysing Mathematical\nReasoning Abilities of Neural Models](https:\u002F\u002Fopenreview.net\u002Fpdf?id=H1gR5iR5FX)\n(Saxton, Grefenstette, Hill, Kohli).\n\n## Example questions\n\n```\nQuestion: Solve -42*r + 27*c = -1167 and 130*r + 4*c = 372 for r.\nAnswer: 4\n\nQuestion: Calculate -841880142.544 + 411127.\nAnswer: -841469015.544\n\nQuestion: Let x(g) = 9*g + 1. Let q(c) = 2*c + 1. Let f(i) = 3*i - 39. Let w(j) = q(x(j)). Calculate f(w(a)).\nAnswer: 54*a - 30\n\nQuestion: Let e(l) = l - 6. Is 2 a factor of both e(9) and 2?\nAnswer: False\n\nQuestion: Let u(n) = -n**3 - n**2. Let e(c) = -2*c**3 + c. Let l(j) = -118*e(j) + 54*u(j). What is the derivative of l(a)?\nAnswer: 546*a**2 - 108*a - 118\n\nQuestion: Three letters picked without replacement from qqqkkklkqkkk. Give prob of sequence qql.\nAnswer: 1\u002F110\n```\n\n## Pre-generated data\n\n[Pre-generated files](https:\u002F\u002Fconsole.cloud.google.com\u002Fstorage\u002Fbrowser\u002Fmathematics-dataset)\n\n### Version 1.0\n\nThis is the version released with the original paper. It contains 2 million\n(question, answer) pairs per module, with questions limited to 160 characters in\nlength, and answers to 30 characters in length. Note the training data for each\nquestion type is split into \"train-easy\", \"train-medium\", and \"train-hard\". This\nallows training models via a curriculum. The data can also be mixed together\nuniformly from these training datasets to obtain the results reported in the\npaper. Categories:\n\n* **algebra** (linear equations, polynomial roots, sequences)\n* **arithmetic** (pairwise operations and mixed expressions, surds)\n* **calculus** (differentiation)\n* **comparison** (closest numbers, pairwise comparisons, sorting)\n* **measurement** (conversion, working with time)\n* **numbers** (base conversion, remainders, common divisors and multiples,\n  primality, place value, rounding numbers)\n* **polynomials** (addition, simplification, composition, evaluating, expansion)\n* **probability** (sampling without replacement)\n\n## Getting the source\n\n### PyPI\n\nThe easiest way to get the source is to use pip:\n\n```shell\n$ pip install mathematics_dataset\n```\n\n### From GitHub\n\nAlternately you can get the source by cloning the mathematics_dataset\nrepository:\n\n```shell\n$ git clone https:\u002F\u002Fgithub.com\u002Fdeepmind\u002Fmathematics_dataset\n$ pip install --upgrade mathematics_dataset\u002F\n```\n\n## Generating examples\n\nGenerated examples can be printed to stdout via the `generate` script. For\nexample:\n\n```shell\npython -m mathematics_dataset.generate --filter=linear_1d\n```\n\nwill generate example (question, answer) pairs for solving linear equations in\none variable.\n\nWe've also included `generate_to_file.py` as an example of how to write the\ngenerated examples to text files. You can use this directly, or adapt it for\nyour generation and training needs.\n\n## Dataset Metadata\nThe following table is necessary for this dataset to be indexed by search\nengines such as \u003Ca href=\"https:\u002F\u002Fg.co\u002Fdatasetsearch\">Google Dataset Search\u003C\u002Fa>.\n\u003Cdiv itemscope itemtype=\"http:\u002F\u002Fschema.org\u002FDataset\">\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>property\u003C\u002Fth>\n    \u003Cth>value\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>name\u003C\u002Ftd>\n    \u003Ctd>\u003Ccode itemprop=\"name\">Mathematics Dataset\u003C\u002Fcode>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>url\u003C\u002Ftd>\n    \u003Ctd>\u003Ccode itemprop=\"url\">https:\u002F\u002Fgithub.com\u002Fdeepmind\u002Fmathematics_dataset\u003C\u002Fcode>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>sameAs\u003C\u002Ftd>\n    \u003Ctd>\u003Ccode itemprop=\"sameAs\">https:\u002F\u002Fgithub.com\u002Fdeepmind\u002Fmathematics_dataset\u003C\u002Fcode>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>description\u003C\u002Ftd>\n    \u003Ctd>\u003Ccode itemprop=\"description\">This dataset consists of mathematical question and answer pairs, from a range\nof question types at roughly school-level difficulty. This is designed to test\nthe mathematical learning and algebraic reasoning skills of learning models.\\n\n\\n\n## Example questions\\n\n\\n\n```\\n\nQuestion: Solve -42*r + 27*c = -1167 and 130*r + 4*c = 372 for r.\\n\nAnswer: 4\\n\n\\n\nQuestion: Calculate -841880142.544 + 411127.\\n\nAnswer: -841469015.544\\n\n\\n\nQuestion: Let x(g) = 9*g + 1. Let q(c) = 2*c + 1. Let f(i) = 3*i - 39. Let w(j) = q(x(j)). Calculate f(w(a)).\\n\nAnswer: 54*a - 30\\n\n```\\n\n\\n\nIt contains 2 million\n(question, answer) pairs per module, with questions limited to 160 characters in\nlength, and answers to 30 characters in length. Note the training data for each\nquestion type is split into \"train-easy\", \"train-medium\", and \"train-hard\". This\nallows training models via a curriculum. The data can also be mixed together\nuniformly from these training datasets to obtain the results reported in the\npaper. Categories:\\n\n\\n\n* **algebra** (linear equations, polynomial roots, sequences)\\n\n* **arithmetic** (pairwise operations and mixed expressions, surds)\\n\n* **calculus** (differentiation)\\n\n* **comparison** (closest numbers, pairwise comparisons, sorting)\\n\n* **measurement** (conversion, working with time)\\n\n* **numbers** (base conversion, remainders, common divisors and multiples,\\n\n  primality, place value, rounding numbers)\\n\n* **polynomials** (addition, simplification, composition, evaluating, expansion)\\n\n* **probability** (sampling without replacement)\u003C\u002Fcode>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>provider\u003C\u002Ftd>\n    \u003Ctd>\n      \u003Cdiv itemscope itemtype=\"http:\u002F\u002Fschema.org\u002FOrganization\" itemprop=\"provider\">\n        \u003Ctable>\n          \u003Ctr>\n            \u003Cth>property\u003C\u002Fth>\n            \u003Cth>value\u003C\u002Fth>\n          \u003C\u002Ftr>\n          \u003Ctr>\n            \u003Ctd>name\u003C\u002Ftd>\n            \u003Ctd>\u003Ccode itemprop=\"name\">DeepMind\u003C\u002Fcode>\u003C\u002Ftd>\n          \u003C\u002Ftr>\n          \u003Ctr>\n            \u003Ctd>sameAs\u003C\u002Ftd>\n            \u003Ctd>\u003Ccode itemprop=\"sameAs\">https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FDeepMind\u003C\u002Fcode>\u003C\u002Ftd>\n          \u003C\u002Ftr>\n        \u003C\u002Ftable>\n      \u003C\u002Fdiv>\n    \u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>citation\u003C\u002Ftd>\n    \u003Ctd>\u003Ccode itemprop=\"citation\">https:\u002F\u002Fidentifiers.org\u002Farxiv:1904.01557\u003C\u002Fcode>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\u003C\u002Fdiv>\n","# 数学数据集\n\n该数据集代码生成数学问题和答案对，涵盖多种题型，难度大致为学校水平。其设计目的是测试学习模型的数学学习能力和代数推理能力。\n\n原始论文：[分析神经模型的数学推理能力](https:\u002F\u002Fopenreview.net\u002Fpdf?id=H1gR5iR5FX)（Saxton、Grefenstette、Hill、Kohli）。\n\n## 示例问题\n\n```\n问题：解方程组 -42*r + 27*c = -1167 和 130*r + 4*c = 372，求 r 的值。\n答案：4\n\n问题：计算 -841880142.544 + 411127。\n答案：-841469015.544\n\n问题：设 x(g) = 9*g + 1，q(c) = 2*c + 1，f(i) = 3*i - 39，w(j) = q(x(j))。计算 f(w(a))。\n答案：54*a - 30\n\n问题：设 e(l) = l - 6。问 2 是否是 e(9) 和 2 的公因数？\n答案：否\n\n问题：设 u(n) = -n**3 - n**2，e(c) = -2*c**3 + c，l(j) = -118*e(j) + 54*u(j)。求 l(a) 的导数。\n答案：546*a**2 - 108*a - 118\n\n问题：从字符串 qqqkkklkqkkk 中不放回地抽取三个字母，求抽到 qql 的概率。\n答案：1\u002F110\n```\n\n## 预生成数据\n\n[预生成文件](https:\u002F\u002Fconsole.cloud.google.com\u002Fstorage\u002Fbrowser\u002Fmathematics-dataset)\n\n### 版本 1.0\n\n这是随原始论文发布的版本。每个模块包含 200 万个 (问题, 答案) 对，问题长度限制为 160 个字符，答案长度限制为 30 个字符。请注意，每种题型的训练数据被分为“易”、“中”、“难”三类，这允许通过课程式训练来训练模型。也可以将这些训练数据均匀混合，以获得论文中报告的结果。类别包括：\n\n* **代数**（线性方程、多项式根、数列）\n* **算术**（两两运算与混合表达式、根式）\n* **微积分**（求导）\n* **比较**（最接近的数、两两比较、排序）\n* **测量**（单位换算、时间运算）\n* **数论**（进制转换、余数、公约数与公倍数、质数判断、位值、四舍五入）\n* **多项式**（加法、化简、复合、求值、展开）\n* **概率**（无放回抽样）\n\n## 获取源代码\n\n### PyPI\n\n获取源代码最简单的方式是使用 pip：\n\n```shell\n$ pip install mathematics_dataset\n```\n\n### 从 GitHub\n\n你也可以通过克隆 mathematics_dataset 仓库来获取源代码：\n\n```shell\n$ git clone https:\u002F\u002Fgithub.com\u002Fdeepmind\u002Fmathematics_dataset\n$ pip install --upgrade mathematics_dataset\u002F\n```\n\n## 生成示例\n\n可以通过 `generate` 脚本将生成的示例打印到标准输出。例如：\n\n```shell\npython -m mathematics_dataset.generate --filter=linear_1d\n```\n\n将生成一元线性方程的 (问题, 答案) 对示例。\n\n我们还提供了 `generate_to_file.py`，作为如何将生成的示例写入文本文件的示例。你可以直接使用它，或根据你的生成和训练需求进行调整。\n\n## 数据集元数据\n下表对于使该数据集被搜索引擎（如 \u003Ca href=\"https:\u002F\u002Fg.co\u002Fdatasetsearch\">Google Dataset Search\u003C\u002Fa>）索引是必要的。\n\u003Cdiv itemscope itemtype=\"http:\u002F\u002Fschema.org\u002FDataset\">\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>属性\u003C\u002Fth>\n    \u003Cth>值\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>名称\u003C\u002Ftd>\n    \u003Ctd>\u003Ccode itemprop=\"name\">数学数据集\u003C\u002Fcode>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>网址\u003C\u002Ftd>\n    \u003Ctd>\u003Ccode itemprop=\"url\">https:\u002F\u002Fgithub.com\u002Fdeepmind\u002Fmathematics_dataset\u003C\u002Fcode>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>相同条目\u003C\u002Ftd>\n    \u003Ctd>\u003Ccode itemprop=\"sameAs\">https:\u002F\u002Fgithub.com\u002Fdeepmind\u002Fmathematics_dataset\u003C\u002Fcode>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>描述\u003C\u002Ftd>\n    \u003Ctd>\u003Ccode itemprop=\"description\">该数据集由数学问题和答案对组成，涵盖多种题型，难度大致为学校水平。其设计目的是测试学习模型的数学学习能力和代数推理能力。\\n\n\\n\n## 示例问题\\n\n\\n\n```\\n\n问题：解方程组 -42*r + 27*c = -1167 和 130*r + 4*c = 372，求 r 的值。\\n\n答案：4\\n\n\\n\n问题：计算 -841880142.544 + 411127。\\n\n答案：-841469015.544\\n\n\\n\n问题：设 x(g) = 9*g + 1，q(c) = 2*c + 1，f(i) = 3*i - 39，w(j) = q(x(j))。计算 f(w(a))。\\n\n答案：54*a - 30\\n\n```\\n\n\\n\n每个模块包含 200 万个 (问题, 答案) 对，问题长度限制为 160 个字符，答案长度限制为 30 个字符。请注意，每种题型的训练数据被分为“易”、“中”、“难”三类，这使得可以通过课程式训练来训练模型。也可以将这些训练数据均匀混合，以获得论文中报告的结果。类别包括：\\n\n\\n\n* **代数**（线性方程、多项式根、数列）\\n\n* **算术**（两两运算与混合表达式、根式）\\n\n* **微积分**（求导）\\n\n* **比较**（最接近的数、两两比较、排序）\\n\n* **测量**（单位换算、时间运算）\\n\n* **数论**（进制转换、余数、公约数与公倍数、质数判断、位值、四舍五入）\\n\n* **多项式**（加法、化简、复合、求值、展开）\\n\n* **概率**（无放回抽样）\u003C\u002Fcode>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>提供者\u003C\u002Ftd>\n    \u003Ctd>\n      \u003Cdiv itemscope itemtype=\"http:\u002F\u002Fschema.org\u002FOrganization\" itemprop=\"provider\">\n        \u003Ctable>\n          \u003Ctr>\n            \u003Cth>属性\u003C\u002Fth>\n            \u003Cth>值\u003C\u002Fth>\n          \u003C\u002Ftr>\n          \u003Ctr>\n            \u003Ctd>名称\u003C\u002Ftd>\n            \u003Ctd>\u003Ccode itemprop=\"name\">DeepMind\u003C\u002Fcode>\u003C\u002Ftd>\n          \u003C\u002Ftr>\n          \u003Ctr>\n            \u003Ctd>相同条目\u003C\u002Ftd>\n            \u003Ctd>\u003Ccode itemprop=\"sameAs\">https:\u002F\u002Fzh.wikipedia.org\u002Fwiki\u002FDeepMind\u003C\u002Fcode>\u003C\u002Ftd>\n          \u003C\u002Ftr>\n        \u003C\u002Ftable>\n      \u003C\u002Fdiv>\n    \u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>引用\u003C\u002Ftd>\n    \u003Ctd>\u003Ccode itemprop=\"citation\">https:\u002F\u002Fidentifiers.org\u002Farxiv:1904.01557\u003C\u002Fcode>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\u003C\u002Fdiv>","# Mathematics Dataset 快速上手指南\n\nMathematics Dataset 是由 DeepMind 开源的数学问答数据集生成工具，旨在测试学习模型的数学学习和代数推理能力。该工具可生成涵盖代数、算术、微积分等学校难度级别的题目与答案对。\n\n## 环境准备\n\n*   **系统要求**：支持 Python 的操作系统（Linux, macOS, Windows）。\n*   **前置依赖**：\n    *   Python 3.x\n    *   pip 包管理工具\n\n## 安装步骤\n\n推荐使用 pip 进行安装，这是获取源码最便捷的方式。\n\n### 方式一：通过 PyPI 安装（推荐）\n\n在终端中执行以下命令：\n\n```shell\n$ pip install mathematics_dataset\n```\n\n> **提示**：如果在国内网络环境下安装较慢，建议使用国内镜像源加速，例如：\n> `pip install mathematics_dataset -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n\n### 方式二：从 GitHub 源码安装\n\n如果你需要修改源码或获取最新版本，可以克隆仓库进行安装：\n\n```shell\n$ git clone https:\u002F\u002Fgithub.com\u002Fdeepmind\u002Fmathematics_dataset\n$ pip install --upgrade mathematics_dataset\u002F\n```\n\n## 基本使用\n\n安装完成后，你可以直接使用内置脚本生成示例数据。生成的示例将以 `(问题, 答案)` 对的形式输出到标准输出（stdout）。\n\n### 生成特定类型的题目\n\n例如，生成用于求解单变量线性方程的示例数据：\n\n```shell\npython -m mathematics_dataset.generate --filter=linear_1d\n```\n\n### 自定义生成与保存\n\n项目中提供了 `generate_to_file.py` 作为参考示例，展示如何将生成的数据写入文本文件。你可以根据实际需求直接使用该脚本，或基于它进行修改以适应你的训练数据生成流程。\n\n### 预生成数据\n\n如果不想自行生成，也可以直接使用官方提供的预生成数据（Version 1.0），包含每个模块 200 万组问答对，分为 \"train-easy\", \"train-medium\", 和 \"train-hard\" 以支持课程学习（Curriculum Learning）。\n\n*   **下载地址**：[Google Cloud Storage - mathematics-dataset](https:\u002F\u002Fconsole.cloud.google.com\u002Fstorage\u002Fbrowser\u002Fmathematics-dataset)","某教育科技公司的 AI 研发团队正在开发一款智能数学辅导助手，旨在通过自然语言交互帮助学生解决从基础算术到微积分的各类学校级别数学问题。为了训练模型具备严谨的逻辑推理和代数思维能力，团队需要构建一个高质量、大规模且覆盖多种题型的训练数据集。\n\n### 没有 mathematics_dataset 时\n- **数据收集成本高昂**：团队需手动从教科书或网络爬取题目，不仅耗时费力，还面临严重的版权合规风险。\n- **答案标注困难且易错**：人工编写标准答案效率极低，且难以保证复杂代数运算或微积分推导过程的绝对准确性。\n- **题型覆盖不均**：难以系统性地生成涵盖线性方程、多项式、概率等所有关键知识点的平衡数据，导致模型在冷门题型上表现不佳。\n- **缺乏难度分级机制**：无法轻松区分“简单”、“中等”和“困难”样本，难以实施课程学习（Curriculum Learning）策略来逐步提升模型能力。\n\n### 使用 mathematics_dataset 后\n- **自动化生成海量数据**：通过几行代码即可按需生成数百万对高质量的问答样本，彻底解决了数据短缺问题，且无版权顾虑。\n- **确保逻辑绝对正确**：基于程序化规则生成的答案具有数学上的确定性，消除了人工标注的噪声，为模型提供了完美的监督信号。\n- **全面覆盖核心考点**：内置代数、算术、微积分、概率等八大模块，确保训练数据在知识点分布上的均匀性和完整性。\n- **支持渐进式训练**：利用其自带的难易度分级功能，团队可以先用简单样本预热模型，再逐步引入复杂推理题，显著提升了模型的收敛速度和最终准确率。\n\nmathematics_dataset 的核心价值在于以极低的工程成本，为 AI 模型提供了标准化、可编程且逻辑严密的数学推理训练基石，大幅加速了教育类 AI 产品的研发迭代。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgoogle-deepmind_mathematics_dataset_ccc4dbc0.png","google-deepmind","Google DeepMind","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fgoogle-deepmind_06b1dd17.png","",null,"https:\u002F\u002Fwww.deepmind.com\u002F","https:\u002F\u002Fgithub.com\u002Fgoogle-deepmind",[23],{"name":24,"color":25,"percentage":26},"Python","#3572A5",100,1949,269,"2026-04-01T03:52:15","Apache-2.0",1,"Linux, macOS, Windows","未说明",{"notes":35,"python":33,"dependencies":36},"该工具主要用于生成数学问答对数据集，而非训练模型本身，因此README中未列出具体的硬件加速（GPU）或高内存需求。安装方式支持通过 pip 直接安装 (`pip install mathematics_dataset`) 或从 GitHub 克隆源码后安装。生成数据时可通过脚本将结果输出到标准输出或写入文本文件。",[],[38,39,40],"语言模型","数据工具","其他",2,"ready","2026-03-27T02:49:30.150509","2026-04-06T06:46:15.673688",[46,51,56,61,66,71,76],{"id":47,"question_zh":48,"answer_zh":49,"source_url":50},11729,"运行代码时出现 ImportError: cannot import name 'base_solution_linear' 错误，如何解决？","这是由于 SymPy 版本更新导致的导入路径变化。请打开 `mathematics_dataset\u002Fsample\u002Fpolynomials.py` 文件，找到第 33 行，将：\n`from sympy.solvers.diophantine import base_solution_linear as diophantine_solve_linear_2d`\n修改为：\n`from sympy.solvers.diophantine.diophantine import base_solution_linear as diophantine_solve_linear_2d`","https:\u002F\u002Fgithub.com\u002Fgoogle-deepmind\u002Fmathematics_dataset\u002Fissues\u002F14",{"id":52,"question_zh":53,"answer_zh":54,"source_url":55},11730,"生成示例时遇到 np.int32 不被识别为整数的错误，该如何修复？","需要修改两个文件以显式包含 np.int32 类型检查：\n1. 在 `mathematics_dataset\u002Fsample\u002Fnumber.py` 第 144 行，修改为：\n`return isinstance(value, (int, np.int64, np.int32, sympy.Integer))`\n2. 在 `mathematics_dataset\u002Fsample\u002Fops.py` 第 202-207 行附近，添加对 np.int32 的检查，使其变为：\n```python\nelif (isinstance(self._value, int)\n      or isinstance(self._value, sympy.Integer)\n      or isinstance(self._value, display.Decimal)\n      or isinstance(self._value, np.int64)\n      or isinstance(self._value, np.int32)):\n  return self._value >= 0\n```","https:\u002F\u002Fgithub.com\u002Fgoogle-deepmind\u002Fmathematics_dataset\u002Fissues\u002F12",{"id":57,"question_zh":58,"answer_zh":59,"source_url":60},11731,"论文中报告的基线准确率是否使用了束搜索（Beam Search）？是 Top-1 还是 Top-K 准确率？","没有使用束搜索。模型使用贪心解码器（greedy decoder），即在每一步输出概率最高的字符。正如论文第 4.1 节所述：“与常见的序列到序列模型一样，模型使用贪心解码器自回归地预测答案（在每一步输出多数类）。”因此报告的是 Top-1 准确率。","https:\u002F\u002Fgithub.com\u002Fgoogle-deepmind\u002Fmathematics_dataset\u002Fissues\u002F9",{"id":62,"question_zh":63,"answer_zh":64,"source_url":65},11732,"数据集中“x 和 y 的差”（difference between x and y）的计算结果似乎缺少负号，这是错误吗？","这不是错误，而是预期行为。在该数据集中，“x 和 y 的差”被定义为绝对值 |x-y|，而不是 x-y。只要在整个数据集中一致地应用此约定（即在提到“difference”的地方都如此处理），就不会有问题。","https:\u002F\u002Fgithub.com\u002Fgoogle-deepmind\u002Fmathematics_dataset\u002Fissues\u002F11",{"id":67,"question_zh":68,"answer_zh":69,"source_url":70},11733,"从 GCP 下载的预生成数据压缩包中只包含 train-medium，其他数据集（如 train-easy, test 等）在哪里？","完整的 .tar.gz 文件应包含 interpolate, extrapolate, train-easy, train-medium, train-hard 等子目录。如果只看到部分数据，可能是下载不完整。建议重新下载并解压文件。","https:\u002F\u002Fgithub.com\u002Fgoogle-deepmind\u002Fmathematics_dataset\u002Fissues\u002F10",{"id":72,"question_zh":73,"answer_zh":74,"source_url":75},11734,"LSTM 基线训练中，答案字符串是如何处理的？是否需要预测填充字符（padding）？","答案是固定长度的字符串（例如 30 个字符），包含填充字符。例如，“2 + 2 = ?”的答案可能是 “2··························”，其中 “·” 是特殊的填充字符。模型必须预测这些填充字符。不过，一旦模型预测出第一个填充字符，后续预测填充字符是非常简单的，这不会对训练性能产生负面影响。","https:\u002F\u002Fgithub.com\u002Fgoogle-deepmind\u002Fmathematics_dataset\u002Fissues\u002F15",{"id":77,"question_zh":78,"answer_zh":79,"source_url":80},11735,"如何修改代码以生成数学陈述（如 \"4 + 4 = 8\"）而不是问答形式（如 \"What is 4 + 4?\" -> \"8\"）？","可以通过修改代码轻松实现。例如，要更改加法问题，可以修改 `mathematics_dataset\u002Fmodules\u002Farithmetic.py` 中的模板（将所需格式作为问题模板），然后修改生成逻辑以仅输出问题部分（参考 `mathematics_dataset\u002Fgenerate.py` 中的生成代码）。","https:\u002F\u002Fgithub.com\u002Fgoogle-deepmind\u002Fmathematics_dataset\u002Fissues\u002F8",[],[83,93,101,113,122,130],{"id":84,"name":85,"github_repo":86,"description_zh":87,"stars":88,"difficulty_score":41,"last_commit_at":89,"category_tags":90,"status":42},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,"2026-04-05T11:33:21",[91,92,38],"开发框架","Agent",{"id":94,"name":95,"github_repo":96,"description_zh":97,"stars":98,"difficulty_score":41,"last_commit_at":99,"category_tags":100,"status":42},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[91,38],{"id":102,"name":103,"github_repo":104,"description_zh":105,"stars":106,"difficulty_score":41,"last_commit_at":107,"category_tags":108,"status":42},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[109,39,110,111,92,40,38,91,112],"图像","视频","插件","音频",{"id":114,"name":115,"github_repo":116,"description_zh":117,"stars":118,"difficulty_score":119,"last_commit_at":120,"category_tags":121,"status":42},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,3,"2026-04-04T04:44:48",[92,109,91,38,40],{"id":123,"name":124,"github_repo":125,"description_zh":126,"stars":127,"difficulty_score":119,"last_commit_at":128,"category_tags":129,"status":42},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",74913,"2026-04-05T10:44:17",[38,109,91,40],{"id":131,"name":132,"github_repo":133,"description_zh":134,"stars":135,"difficulty_score":31,"last_commit_at":136,"category_tags":137,"status":42},3215,"awesome-machine-learning","josephmisiti\u002Fawesome-machine-learning","awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。\n\n它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。\n\n其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。",72149,"2026-04-03T21:50:24",[91,40]]