[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-open-thought--reasoning-gym":3,"tool-open-thought--reasoning-gym":65},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",159636,2,"2026-04-17T23:33:34",[13,14,15],"开发框架","Agent","语言模型","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,3,"2026-04-06T11:19:32",[15,26,14,13],"图像",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":10,"last_commit_at":33,"category_tags":34,"status":16},8553,"spec-kit","github\u002Fspec-kit","Spec Kit 是一款专为提升软件开发效率而设计的开源工具包，旨在帮助团队快速落地“规格驱动开发”（Spec-Driven Development）模式。传统开发中，需求文档往往与代码实现脱节，导致沟通成本高且结果不可控；而 Spec Kit 通过将规格说明书转化为可执行的指令，让 AI 直接依据明确的业务场景生成高质量代码，从而减少从零开始的随意编码，确保产出结果的可预测性。\n\n该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程，用户只需通过简单的命令行操作，即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念，支持社区扩展与预设模板，允许用户根据特定技术栈定制开发流程。此外，Spec Kit 强调官方维护的安全性，提供稳定的版本管理，帮助开发者在享受 AI 红利的同时，依然牢牢掌握架构设计的主动权，真正实现从“凭感觉写代码”到“按规格建系统”的转变。",88749,"2026-04-17T09:48:14",[15,26,14,13],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":10,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,15],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":10,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85092,"2026-04-10T11:13:16",[26,51,52,53,14,54,15,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":62,"last_commit_at":63,"category_tags":64,"status":16},5784,"funNLP","fighting41love\u002FfunNLP","funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为\"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。\n\n面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。\n\n无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。",79857,1,"2026-04-08T20:11:31",[15,51,54],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":80,"owner_twitter":80,"owner_website":80,"owner_url":81,"languages":82,"stars":87,"forks":88,"last_commit_at":89,"license":90,"difficulty_score":62,"env_os":91,"env_gpu":91,"env_ram":91,"env_deps":92,"category_tags":96,"github_topics":97,"view_count":10,"oss_zip_url":80,"oss_zip_packed_at":80,"status":16,"created_at":101,"updated_at":102,"faqs":103,"releases":139},8873,"open-thought\u002Freasoning-gym","reasoning-gym","[NeurIPS 2025 Spotlight] Reasoning Environments for Reinforcement Learning with Verifiable Rewards","Reasoning Gym 是一个专为强化学习打造的开源 Python 库，旨在为训练 AI 推理模型提供无限且可验证的练习环境。它核心解决了高质量推理训练数据稀缺且难以自动评估的痛点，通过程序化生成技术，能够按需创建复杂度可调的海量数据集，并内置算法自动验证答案的正确性，无需人工标注。\n\n该工具目前涵盖代数、算术、几何、逻辑、图论及多种经典游戏等超过 100 种任务类型。无论是需要唯一解的数学题，还是像魔方、数字游戏那样存在多种解法的开放性问题，Reasoning Gym 都能提供标准化的验证接口。其独特的技术亮点在于“程序化数据生成”与“可验证奖励机制”的结合，支持开发者轻松构建包含多种任务类型的混合数据集，并灵活配置任务权重。\n\nReasoning Gym 非常适合 AI 研究人员、大模型开发者以及强化学习工程师使用。如果你正在探索如何提升模型的逻辑推理能力，或需要构建自定义的 RL 训练环境，它能让你通过几行代码快速启动实验，高效生成从简单计数到复杂博弈的各类训练样本，是加速推理模型研发的得力助手。","\u003Cp align=\"center\">\n     \u003C!-- title -->\n        \u003Ch1 align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fopen-thought_reasoning-gym_readme_35a45fc0c826.png\" alt=\"Reasoning Gym Logo\" style=\"vertical-align: bottom;\" width=\"54px\" height=\"40px\"> Reasoning Gym\u003C\u002Fh1>\n        \u003C!-- teaser -->\n        \u003Cp align=\"center\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fopen-thought_reasoning-gym_readme_dad703593467.png\" width=\"800px\">\n        \u003C\u002Fp>\n        \u003C!-- badges -->\n        \u003Cp align=\"center\">\n            \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.24760\" target=\"_blank\" style=\"margin-right: 10px;\">\n                \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2505.24760-b31b1b.svg?style=for-the-badge\" alt=\"Paper PDF\">\n            \u003C\u002Fa>\n            \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002Fgpumode\" target=\"_blank\">\n                \u003Cimg src=\"https:\u002F\u002Fdcbadge.limes.pink\u002Fapi\u002Fserver\u002Fgpumode?style=for-the-badge\" alt=\"Discord Server\">\n            \u003C\u002Fa>\n        \u003C\u002Fp>\n\u003C\u002Fp>\n\n## 🧠 About\n\n**Reasoning Gym** is a community-created Python library of procedural dataset generators and algorithmically verifiable reasoning environments for training reasoning models with reinforcement learning (RL). The goal is to generate virtually infinite training data with adjustable complexity.\n\nIt currently provides **more than 100** tasks over many domains, including but not limited to _algebra_, _arithmetic_, _computation_, _cognition_, _geometry_, _graph theory_, _logic_, and many common _games_.\n\nSome tasks have a single correct answer, while others, such as [Rubik‘s Cube](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FRubik%27s_Cube) and [Countdown](\u003Chttps:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FCountdown_(game_show)#Numbers_Round>), have many correct solutions. To support this, we provide a standard interface for procedurally verifying solutions.\n\n## 🖼️ Dataset Gallery\n\nIn [GALLERY.md](https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fblob\u002Fmain\u002FGALLERY.md), you can find example outputs of all datasets available in `reasoning-gym`.\n\n## ⬇️ Installation\n\nThe `reasoning-gym` package requires Python >= 3.10.\n\nInstall the latest published [package from PyPI](https:\u002F\u002Fpypi.org\u002Fproject\u002Freasoning-gym\u002F) via `pip`:\n\n```\npip install reasoning-gym\n```\n\n_Note that this project is currently under active development, and the version published on PyPI may be a few days behind `main`._\n\n## ✨ Quickstart\n\nStarting to generate tasks using Reasoning Gym is straightforward:\n\n```python\nimport reasoning_gym\ndata = reasoning_gym.create_dataset('leg_counting', size=10, seed=42)\nfor i, x in enumerate(data):\n    print(f'{i}: q=\"{x['question']}\", a=\"{x['answer']}\"')\n    print('metadata:', x['metadata'])\n    # use the dataset's `score_answer` method for algorithmic verification\n    assert data.score_answer(answer=x['answer'], entry=x) == 1.0\n```\n\nOutput:\n\n```\n0: q=\"How many legs are there in total if you have 1 sea slug, 1 deer?\", a=\"4\"\nmetadata: {'animals': {'sea slug': 1, 'deer': 1}, 'total_legs': 4}\n1: q=\"How many legs are there in total if you have 2 sheeps, 2 dogs?\", a=\"16\"\nmetadata: {'animals': {'sheep': 2, 'dog': 2}, 'total_legs': 16}\n2: q=\"How many legs are there in total if you have 1 crab, 2 lobsters, 1 human, 1 cow, 1 bee?\", a=\"42\"\n...\n```\n\nUse keyword arguments to pass task-specific configuration values:\n\n```python\nreasoning_gym.create_dataset('leg_counting', size=10, seed=42, max_animals=20)\n```\n\nCreate a composite dataset containing multiple task types, with optional relative task weightings:\n\n```python\nfrom reasoning_gym.composite import DatasetSpec\nspecs = [\n    # here, leg_counting tasks will make up two thirds of tasks\n    DatasetSpec(name='leg_counting', weight=2, config={}),  # default config\n    DatasetSpec(name='figlet_font', weight=1, config={\"min_word_len\": 4, \"max_word_len\": 6}),  # specify config\n]\nreasoning_gym.create_dataset('composite', size=10, seed=42, datasets=specs)\n```\n\nFor the simplest way to get started training models with Reasoning Gym, we recommend using the `verifiers` library, which directly supports RG tasks. See `examples\u002Fverifiers` for details. However, RG data can be used with any major RL training framework.\n\nThe *cascade scorer* applies progressively lenient fallback matchers — string, numeric, and symbolic math — to reduce false negatives from formatting differences (LaTeX wrappers, casing, numeric representation). Install with `pip install reasoning-gym[scoring]` for symbolic math verification.\n\n```python\nfrom reasoning_gym import cascade_score\n\nassert cascade_score(answer=r\"\\text{42}\", expected=\"42\") == 1.0\n```\n\n## 🔍 Evaluation\n\nInstructions for running the evaluation scripts are provided in [eval\u002FREADME.md](https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fblob\u002Fmain\u002Feval\u002FREADME.md).\n\nEvaluation results of different reasoning models will be tracked in the [reasoning-gym-eval](https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym-eval) repo.\n\n## 🤓 Training\n\nThe `training\u002F` directory has full details of the training runs we carried out with RG for the paper. In our experiments, we utilise custom Dataset code to dynamically create RG samples at runtime, and to access the RG scoring function for use as a training reward. See `training\u002FREADME.md` to reproduce our runs.\n\nFor a more plug-and-play experience, it may be easier to build a dataset ahead of time. See `scripts\u002Fhf_dataset\u002F` for a simple script allowing generation of RG data and conversion to a HuggingFace dataset. To use the script, build your dataset configurations in the YAML. You can find a list of tasks and configurable parameters in [the dataset gallery](GALLERY.md). Then run `save_hf_dataset.py` with desired arguments.\n\nThe script will save each dataset entries as a row with `question`, `answer`, and `metadata` columns. The RG scoring functions expect the entry object from each row along with the model response to obtain reward values. Calling the scoring function is therefore simple:\n\n```python\nfrom reasoning_gym import get_score_answer_fn\n\nfor entry in dataset:\n    model_response = generate_response(entry[\"question\"])\n    rg_score_fn = get_score_answer_fn(entry[\"metadata\"][\"source_dataset\"])\n    score = rg_score_fn(model_response, entry)\n    # do something with the score...\n```\n\n## 👷 Contributing\n\nPlease see [CONTRIBUTING.md](CONTRIBUTING.md).\n\nIf you have ideas for dataset generators please create an issue here or contact us in the `#reasoning-gym` channel of the [GPU-Mode discord server](https:\u002F\u002Fdiscord.gg\u002Fgpumode).\n\n[![](https:\u002F\u002Fdcbadge.limes.pink\u002Fapi\u002Fserver\u002Fgpumode?style=flat)](https:\u002F\u002Fdiscord.gg\u002Fgpumode)\n\n\n## 🚀 Projects Using Reasoning Gym\n\nFollowing is a list of awesome projects building on top of Reasoning Gym:\n- [Verifiers: Reinforcement Learning with LLMs in Verifiable Environments](https:\u002F\u002Fgithub.com\u002Fwillccbb\u002Fverifiers)\n- [(NVIDIA) ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.24864)\n- [(Nous Research) Atropos - an LLM RL Gym](https:\u002F\u002Fgithub.com\u002FNousResearch\u002Fatropos)\n- [(PrimeIntellect) SYNTHETIC-2: a massive open-source reasoning dataset](https:\u002F\u002Fwww.primeintellect.ai\u002Fblog\u002Fsynthetic-2)\n- [(Gensyn) RL Swarm: a framework for planetary-scale collaborative RL](https:\u002F\u002Fx.com\u002Fgensynai\u002Fstatus\u002F1937917790922649669)\n- [(Axon RL) GEM: a comprehensive framework for RL environments](https:\u002F\u002Fgithub.com\u002Faxon-rl\u002Fgem)\n- [(FAIR at Meta) OptimalThinkingBench: Evaluating Over and Underthinking in LLMs](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FRAM\u002Ftree\u002Fmain\u002Fprojects\u002Fotb)\n- [(Gensyn) Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.08721v1)\n- [(MILA) Self-Evolving Curriculum for LLM Reasoning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.14970)\n- [(MILA) Recursive Self-Aggregation Unlocks Deep Thinking in Large Language Models](https:\u002F\u002Frsa-llm.github.io)\n- [(NVIDIA) BroRL: Scaling Reinforcement Learning via Broadened Exploration](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.01180)\n- [(NVIDIA) Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning](https:\u002F\u002Fresearch.nvidia.com\u002Flabs\u002Fnemotron\u002Ffiles\u002FNVIDIA-Nemotron-3-Super-Technical-Report.pdf)\n- [(Apple) Multilingual Reasoning Gym: Multilingual Scaling of Procedural Reasoning Environments](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.10793)\n\n\n## 📝 Citation\n\nIf you use this library in your research, please cite the paper:\n\n```bibtex\n@misc{stojanovski2025reasoninggymreasoningenvironments,\n      title={REASONING GYM: Reasoning Environments for Reinforcement Learning with Verifiable Rewards},\n      author={Zafir Stojanovski and Oliver Stanley and Joe Sharratt and Richard Jones and Abdulhakeem Adefioye and Jean Kaddour and Andreas Köpf},\n      year={2025},\n      eprint={2505.24760},\n      archivePrefix={arXiv},\n      primaryClass={cs.LG},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.24760},\n}\n```\n\n## ⭐️ Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fopen-thought_reasoning-gym_readme_e79fe9bf9d64.png)](https:\u002F\u002Fwww.star-history.com\u002F#open-thought\u002Freasoning-gym&Date)\n","\u003Cp align=\"center\">\n     \u003C!-- 标题 -->\n        \u003Ch1 align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fopen-thought_reasoning-gym_readme_35a45fc0c826.png\" alt=\"Reasoning Gym Logo\" style=\"vertical-align: bottom;\" width=\"54px\" height=\"40px\"> Reasoning Gym\u003C\u002Fh1>\n        \u003C!-- 简介 -->\n        \u003Cp align=\"center\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fopen-thought_reasoning-gym_readme_dad703593467.png\" width=\"800px\">\n        \u003C\u002Fp>\n        \u003C!-- 礼物\u002F徽章 -->\n        \u003Cp align=\"center\">\n            \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.24760\" target=\"_blank\" style=\"margin-right: 10px;\">\n                \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2505.24760-b31b1b.svg?style=for-the-badge\" alt=\"论文PDF\">\n            \u003C\u002Fa>\n            \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002Fgpumode\" target=\"_blank\">\n                \u003Cimg src=\"https:\u002F\u002Fdcbadge.limes.pink\u002Fapi\u002Fserver\u002Fgpumode?style=for-the-badge\" alt=\"Discord服务器\">\n            \u003C\u002Fa>\n        \u003C\u002Fp>\n\u003C\u002Fp>\n\n## 🧠 关于\n\n**Reasoning Gym** 是一个由社区创建的 Python 库，包含程序化数据集生成器和可算法验证的推理环境，用于通过强化学习（RL）训练推理模型。其目标是生成具有可调复杂度的几乎无限量的训练数据。\n\n目前，它提供了 **100 多个** 涉及多个领域的任务，包括但不限于 _代数_、_算术_、_计算_、_认知_、_几何_、_图论_、_逻辑_，以及许多常见的 _游戏_。\n\n有些任务只有一个正确答案，而另一些任务，例如 [魔方](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FRubik%27s_Cube) 和 [倒计时](\u003Chttps:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FCountdown_(game_show)#Numbers_Round>)，则有多个正确解法。为此，我们提供了一个标准接口来对解决方案进行程序化验证。\n\n## 🖼️ 数据集图库\n\n在 [GALLERY.md](https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fblob\u002Fmain\u002FGALLERY.md) 中，您可以找到 `reasoning-gym` 中所有可用数据集的示例输出。\n\n## ⬇️ 安装\n\n`reasoning-gym` 包需要 Python >= 3.10。\n\n通过 `pip` 从 [PyPI](https:\u002F\u002Fpypi.org\u002Fproject\u002Freasoning-gym\u002F) 安装最新发布的包：\n\n```\npip install reasoning-gym\n```\n\n*请注意，该项目目前仍在积极开发中，PyPI 上发布的版本可能比 `main` 分支落后几天。*\n\n## ✨ 快速入门\n\n使用 Reasoning Gym 生成任务非常简单：\n\n```python\nimport reasoning_gym\ndata = reasoning_gym.create_dataset('leg_counting', size=10, seed=42)\nfor i, x in enumerate(data):\n    print(f'{i}: q=\"{x['question']}\", a=\"{x['answer']}\"')\n    print('metadata:', x['metadata'])\n    # 使用数据集的 `score_answer` 方法进行算法验证\n    assert data.score_answer(answer=x['answer'], entry=x) == 1.0\n```\n\n输出：\n\n```\n0: q=\"如果你有 1 只海蛞蝓、1 只鹿，一共有多少条腿？\", a=\"4\"\nmetadata: {'animals': {'sea slug': 1, 'deer': 1}, 'total_legs': 4}\n1: q=\"如果你有 2 只绵羊、2 只狗，一共有多少条腿？\", a=\"16\"\nmetadata: {'animals': {'sheep': 2, 'dog': 2}, 'total_legs': 16}\n2: q=\"如果你有 1 只螃蟹、2 只龙虾、1 名人类、1 头牛、1 只蜜蜂，一共有多少条腿？\", a=\"42\"\n...\n```\n\n使用关键字参数传递特定于任务的配置值：\n\n```python\nreasoning_gym.create_dataset('leg_counting', size=10, seed=42, max_animals=20)\n```\n\n创建包含多种任务类型的复合数据集，并可选择性地设置各任务的相对权重：\n\n```python\nfrom reasoning_gym.composite import DatasetSpec\nspecs = [\n    # 在这里，腿部计数任务将占任务总数的三分之二\n    DatasetSpec(name='leg_counting', weight=2, config={}),  \u002F\u002F 默认配置\n    DatasetSpec(name='figlet_font', weight=1, config={\"min_word_len\": 4, \"max_word_len\": 6}),  \u002F\u002F 指定配置\n]\nreasoning_gym.create_dataset('composite', size=10, seed=42, datasets=specs)\n```\n\n对于使用 Reasoning Gym 训练模型最简单的方式，我们建议使用 `verifiers` 库，该库直接支持 RG 任务。详情请参阅 `examples\u002Fverifiers`。不过，RG 数据也可以与任何主流的 RL 训练框架一起使用。\n\n*Cascade Scorer* 会依次应用宽松的回退匹配器——字符串、数值和符号数学——以减少因格式差异（如 LaTeX 包裹、大小写、数字表示）导致的假阴性。安装 `pip install reasoning-gym[scoring]` 即可获得符号数学验证功能。\n\n```python\nfrom reasoning_gym import cascade_score\n\nassert cascade_score(answer=r\"\\text{42}\", expected=\"42\") == 1.0\n```\n\n## 🔍 评估\n\n运行评估脚本的说明已在 [eval\u002FREADME.md](https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fblob\u002Fmain\u002Feval\u002FREADME.md) 中提供。\n\n不同推理模型的评估结果将在 [reasoning-gym-eval](https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym-eval) 仓库中跟踪记录。\n\n## 🤓 训练\n\n`training\u002F` 目录包含了我们为论文所进行的 RG 训练实验的完整细节。在我们的实验中，我们使用自定义的数据集代码，在运行时动态生成 RG 样本，并访问 RG 的评分函数作为训练奖励。请参阅 `training\u002FREADME.md` 以复现我们的实验。\n\n为了更即插即用的体验，提前构建数据集可能会更容易。请参阅 `scripts\u002Fhf_dataset\u002F` 中的一个简单脚本，该脚本允许生成 RG 数据并将其转换为 HuggingFace 数据集。要使用该脚本，请在 YAML 文件中构建您的数据集配置。您可以在 [数据集图库](GALLERY.md) 中找到任务列表和可配置参数。然后使用所需的参数运行 `save_hf_dataset.py`。\n\n该脚本会将每个数据集条目保存为一行，包含 `question`、`answer` 和 `metadata` 列。RG 的评分函数期望从每一行中获取条目对象以及模型响应，从而得到奖励值。因此，调用评分函数非常简单：\n\n```python\nfrom reasoning_gym import get_score_answer_fn\n\nfor entry in dataset:\n    model_response = generate_response(entry[\"question\"])\n    rg_score_fn = get_score_answer_fn(entry[\"metadata\"][\"source_dataset\"])\n    score = rg_score_fn(model_response，entry)\n    # 对分数做些什么...\n```\n\n## 👷 贡献\n\n请参阅 [CONTRIBUTING.md](CONTRIBUTING.md)。\n\n如果您有关于数据集生成器的想法，请在此处创建一个问题，或在 [GPU-Mode Discord 服务器](https:\u002F\u002Fdiscord.gg\u002Fgpumode) 的 `#reasoning-gym` 频道中与我们联系。\n\n[![](https:\u002F\u002Fdcbadge.limes.pink\u002Fapi\u002Fserver\u002Fgpumode?style=flat)](https:\u002F\u002Fdiscord.gg\u002Fgpumode)\n\n## 🚀 使用 Reasoning Gym 的项目\n\n以下是基于 Reasoning Gym 构建的一些优秀项目列表：\n- [Verifiers：在可验证环境中使用 LLM 进行强化学习](https:\u002F\u002Fgithub.com\u002Fwillccbb\u002Fverifiers)\n- [(NVIDIA) ProRL：长期强化学习扩展大型语言模型的推理边界](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.24864)\n- [(Nous Research) Atropos - 一个 LLM RL Gym](https:\u002F\u002Fgithub.com\u002FNousResearch\u002Fatropos)\n- [(PrimeIntellect) SYNTHETIC-2：一个大规模开源推理数据集](https:\u002F\u002Fwww.primeintellect.ai\u002Fblog\u002Fsynthetic-2)\n- [(Gensyn) RL Swarm：一个用于行星尺度协作式强化学习的框架](https:\u002F\u002Fx.com\u002Fgensynai\u002Fstatus\u002F1937917790922649669)\n- [(Axon RL) GEM：一个全面的强化学习环境框架](https:\u002F\u002Fgithub.com\u002Faxon-rl\u002Fgem)\n- [(Meta FAIR) OptimalThinkingBench：评估 LLM 中的过度思考与不足思考](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FRAM\u002Ftree\u002Fmain\u002Fprojects\u002Fotb)\n- [(Gensyn) 分享即关怀：通过集体 RL 经验共享实现高效的 LM 后训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.08721v1)\n- [(MILA) 针对 LLM 推理的自进化课程](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.14970)\n- [(MILA) 递归式自我聚合解锁大型语言模型中的深度思考](https:\u002F\u002Frsa-llm.github.io)\n- [(NVIDIA) BroRL：通过扩大探索范围来扩展强化学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.01180)\n- [(NVIDIA) Nemotron 3 Super：面向代理式推理的开放、高效混合专家架构 Mamba-Transformer 模型](https:\u002F\u002Fresearch.nvidia.com\u002Flabs\u002Fnemotron\u002Ffiles\u002FNVIDIA-Nemotron-3-Super-Technical-Report.pdf)\n- [(Apple) 多语言推理 Gym：程序化推理环境的多语言扩展](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.10793)\n\n\n## 📝 引用\n\n如果您在研究中使用了本库，请引用以下论文：\n\n```bibtex\n@misc{stojanovski2025reasoninggymreasoningenvironments,\n      title={REASONING GYM：用于具有可验证奖励的强化学习的推理环境},\n      author={Zafir Stojanovski 和 Oliver Stanley 和 Joe Sharratt 和 Richard Jones 和 Abdulhakeem Adefioye 和 Jean Kaddour 和 Andreas Köpf},\n      year={2025},\n      eprint={2505.24760},\n      archivePrefix={arXiv},\n      primaryClass={cs.LG},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.24760},\n}\n```\n\n## ⭐️ 星标历史\n\n[![星标历史图表](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fopen-thought_reasoning-gym_readme_e79fe9bf9d64.png)](https:\u002F\u002Fwww.star-history.com\u002F#open-thought\u002Freasoning-gym&Date)","# Reasoning Gym 快速上手指南\n\n**Reasoning Gym** 是一个用于训练推理模型的 Python 库，它通过程序化生成数据集和算法可验证的推理环境，支持使用强化学习（RL）生成近乎无限的训练数据。目前涵盖代数、算术、逻辑、几何、图论及多种游戏等超过 100 种任务类型。\n\n## 环境准备\n\n- **操作系统**：Linux, macOS, Windows\n- **Python 版本**：>= 3.10\n- **前置依赖**：无特殊系统级依赖，需确保 `pip` 可用\n\n> 💡 **国内加速建议**：建议使用清华或阿里云镜像源加速安装过程。\n\n## 安装步骤\n\n通过 `pip` 安装最新发布的版本：\n\n```bash\npip install reasoning-gym -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n若需要使用符号数学验证功能（cascade scorer），请安装额外依赖：\n\n```bash\npip install \"reasoning-gym[scoring]\" -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n> ⚠️ 注意：该项目处于活跃开发中，PyPI 版本可能略滞后于 GitHub 主分支。如需最新功能，可从源码安装。\n\n## 基本使用\n\n### 1. 生成单一任务数据集\n\n以下示例展示如何生成“数腿”任务的数据集，并进行算法验证：\n\n```python\nimport reasoning_gym\n\n# 创建数据集：10 条数据，固定随机种子\ndata = reasoning_gym.create_dataset('leg_counting', size=10, seed=42)\n\nfor i, x in enumerate(data):\n    print(f'{i}: q=\"{x[\"question\"]}\", a=\"{x[\"answer\"]}\"')\n    print('metadata:', x['metadata'])\n    \n    # 使用内置评分函数进行算法验证\n    assert data.score_answer(answer=x['answer'], entry=x) == 1.0\n```\n\n**输出示例：**\n```text\n0: q=\"How many legs are there in total if you have 1 sea slug, 1 deer?\", a=\"4\"\nmetadata: {'animals': {'sea slug': 1, 'deer': 1}, 'total_legs': 4}\n1: q=\"How many legs are there in total if you have 2 sheeps, 2 dogs?\", a=\"16\"\nmetadata: {'animals': {'sheep': 2, 'dog': 2}, 'total_legs': 16}\n```\n\n### 2. 自定义任务参数\n\n可以通过关键字传递任务特定的配置：\n\n```python\n# 限制最大动物数量为 20\nreasoning_gym.create_dataset('leg_counting', size=10, seed=42, max_animals=20)\n```\n\n### 3. 创建复合数据集\n\n组合多个任务类型，并可设置权重和独立配置：\n\n```python\nfrom reasoning_gym.composite import DatasetSpec\n\nspecs = [\n    # leg_counting 占 2\u002F3 权重，使用默认配置\n    DatasetSpec(name='leg_counting', weight=2, config={}),\n    # figlet_font 占 1\u002F3 权重，自定义单词长度配置\n    DatasetSpec(name='figlet_font', weight=1, config={\"min_word_len\": 4, \"max_word_len\": 6}),\n]\n\n# 生成包含混合任务的复合数据集\nreasoning_gym.create_dataset('composite', size=10, seed=42, datasets=specs)\n```\n\n### 4. 使用级联评分器（Cascade Scorer）\n\n为减少因格式差异（如 LaTeX、大小写、数字表示）导致的误判，可使用级联评分器：\n\n```python\nfrom reasoning_gym import cascade_score\n\n# 即使答案包含 LaTeX 格式，也能正确匹配\nassert cascade_score(answer=r\"\\text{42}\", expected=\"42\") == 1.0\n```\n\n### 5. 在训练流程中获取奖励分数\n\n若需将生成的数据用于模型训练，可通过以下方式动态获取评分函数：\n\n```python\nfrom reasoning_gym import get_score_answer_fn\n\nfor entry in dataset:\n    # 假设这是你的模型生成的回答\n    model_response = generate_response(entry[\"question\"])\n    \n    # 根据元数据获取对应的评分函数\n    rg_score_fn = get_score_answer_fn(entry[\"metadata\"][\"source_dataset\"])\n    \n    # 计算奖励分数\n    score = rg_score_fn(model_response, entry)\n    \n    # 使用 score 进行后续训练逻辑...\n```","某 AI 实验室团队正在训练一个专攻数学推理的大语言模型，急需海量且难度可控的高质量逻辑题数据。\n\n### 没有 reasoning-gym 时\n- **数据枯竭快**：依赖人工编写或爬取静态数据集，模型很快“背完”题目，导致过拟合，泛化能力差。\n- **验证成本高**：缺乏标准答案校验机制，需人工核对复杂逻辑题（如几何证明、代数推导），效率极低且易出错。\n- **难度调节难**：无法动态调整题目复杂度，难以实施课程学习（Curriculum Learning），模型训练曲线不稳定。\n- **领域覆盖窄**：单独收集代数、逻辑、博弈等多领域数据耗时耗力，数据集多样性严重不足。\n\n### 使用 reasoning-gym 后\n- **无限数据生成**：利用程序化生成器，瞬间产出成千上万道不重复的逻辑题（如动态变化的“数腿游戏”或“魔方还原”），彻底解决数据荒。\n- **自动算法验真**：内置 `score_answer` 接口可自动验证答案正确性，即使面对多解问题（如 Countdown 游戏）也能精准评分，零人工干预。\n- **粒度精细控难**：通过配置参数（如 `max_animals` 或单词长度）随意调节题目难度，轻松构建从入门到精通的渐进式训练课程。\n- **一站式多域融合**：直接调用复合数据集功能，按比例混合代数、图论、认知等 100+ 任务类型，快速构建全方位推理训练场。\n\nreasoning-gym 将原本需要数周的数据工程压缩为几行代码，让团队能专注于模型架构优化而非数据搬运。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fopen-thought_reasoning-gym_35a45fc0.png","open-thought","Open Thought","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fopen-thought_bad4e11a.png","Exploring AGI, designing cognitive architectures, and sharing knowledge.",null,"https:\u002F\u002Fgithub.com\u002Fopen-thought",[83],{"name":84,"color":85,"percentage":86},"Python","#3572A5",100,1398,117,"2026-04-17T19:39:20","Apache-2.0","未说明",{"notes":93,"python":94,"dependencies":95},"该工具是一个程序化数据集生成库，主要用于生成训练数据而非直接运行大型模型，因此对硬件无特殊强制要求。若需使用符号数学验证功能，需安装额外依赖：pip install reasoning-gym[scoring]。项目处于活跃开发中，PyPI 版本可能滞后于主分支。",">=3.10",[],[15],[98,99,100],"gym","reinforcement-learning","large-language-models","2026-03-27T02:49:30.150509","2026-04-18T14:24:33.144586",[104,109,114,119,124,129,134],{"id":105,"question_zh":106,"answer_zh":107,"source_url":108},39791,"Reasoning Gym 中的数据集是如何构建的？有哪些灵感来源？","数据集灵感主要来自维基百科上的逻辑谜题、娱乐数学和数论主题列表。社区贡献的具体想法包括：谋杀之谜逻辑谜题、康威生命游戏模拟、量子逻辑谜题、国际象棋残局（如两步杀）、Wordle 最后一行预测、情感推理问题等。目前已有超过 100 个数据集被实现。","https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fissues\u002F26",{"id":110,"question_zh":111,"answer_zh":112,"source_url":113},39792,"如何实现自动课程学习（Auto-Curriculum）以动态调整任务难度？","自动课程旨在根据模型能力自适应调整任务难度，避免任务过难或过易。实现需要三个部分：1. 测量当前模型能力；2. 定义调整任务难度的标准方法；3. 创建课程装饰器（例如在每个 epoch 结束时调整难度）。技术上可以在 `ProceduralDataset` 基类中添加抽象方法，由具体任务类实现难度调整逻辑，并扩展装饰器以调整数据集集合的难度及采样频率。相关规划讨论可参考 Issue #27。","https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fissues\u002F17",{"id":115,"question_zh":116,"answer_zh":117,"source_url":118},39793,"`knight_swap` 数据集中的 `impossible_ratio` 参数为什么无法按预期工作？","这是因为 `make_impossible` 变量在每次 `__getitem__` 调用时并未固定，且生成可行问题的成功率较低。当前实现中，若设置不可能比例为 0.2，实际生成可行问题的概率会受重试次数影响而偏离预期。单纯增加 `max_attempts`（如设为 1000 或 10000）理论上能收敛到设定比例，但核心问题在于参数耦合。建议修复代码逻辑，确保在每次采样尝试前固定 `make_impossible` 状态，以保证比例准确。","https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fissues\u002F521",{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},39794,"Reasoning Gym 项目中引用了哪些第三方开源代码，如何归属？","项目引用并改编了多个第三方代码：1. `zebra_puzzles` 直接复用了 `faith-and-fate` (MIT) 的代码；2. `arc_1d` 生成器转换自 `optozorax\u002Farc_1d` (MIT)；3. `gsm-symbolic` 模板转换自 Apple 的研究代码；4. `rush_hour` 使用了 Michael Fogleman 的数据库采样版本；5. 部分任务移植自 `CodeSteer-v1.0`；6. `re-arc` 数据集基于 `michaelhodel\u002Fre-arc`。建议在 NOTICE.txt 中详细记录这些归属信息。","https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fissues\u002F56",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},39795,"如何为 `PolynomialEquationsDataset` 添加答案评分功能（score_answer）？","需要重写 `PolynomialEquationsDataset` 类中的 `score_answer()` 方法。具体步骤：1. 解析提交的答案，计算其与真实解的绝对距离，据此给出奖励分数；2. 在问题提示中明确期望的答案精度（如小数位数）；3. 返回的 \"answer\" 字段应包含所有正确解的字符串形式，确保传入 `score_answer()` 时得分为 1.0。可参考 `ProceduralDataset` 基类中的默认实现及 Gallery 中的输出示例。","https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fissues\u002F44",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},39796,"Reasoning Gym 是否支持与其他训练框架（如 OpenRLHF 或 TRL）集成？","是的，社区正在推动与主流框架的集成。已有用户完成了将 Reasoning Gym 移植到 Atropos 的工作。对于 OpenRLHF，曾有人提议创建使用 REINFORCE++ 训练 1B 或 3B 模型的示例配置（包括本地 transformers 生成和 Ray 变体）。此外，也有开发者表示愿意为 TRL 框架编写示例代码。用户可以关注相关 Issue 或直接参与贡献示例配置。","https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fissues\u002F10",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},39797,"模型输出的格式（如 boxed{green}）无法被环境正确解析怎么办？","当前某些环境的解析器可能仅支持单个单词输出，导致无法识别如 `\\boxed{green}` 等复杂格式。如果遇到此类问题，建议检查具体环境的解析逻辑，或暂时调整模型输出格式为纯文本单词。维护者已注意到该需求，计划在未来增加对更多解析格式的支持。","https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fissues\u002F455",[140,145,150,155,160],{"id":141,"version":142,"summary_zh":143,"released_at":144},315714,"v0.1.25","## 变更内容\n* @zafstojano 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F508 中添加了 mila 项目\n* @zafstojano 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F510 中更新了 README.md，加入了新项目\n* @zafstojano 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F511 中更新了 spiral_matrix.py 文件\n* @RawthiL 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F513 中修复了 Codeio 提示问题\n* Fix(reasoning_gym\u002Fgames\u002Fcountdown): @asaberui1 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F514 中解决了 SymPy 解析 10 个以上输入数字时的冲突问题\n* @Gjorgji-Noveski 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F515 中为迷宫约束添加了断言，并限制了 _random_floor_cell 的尝试次数\n* @theblackcat102 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F517 中修复了 cryptarithm 多解问题\n* @zafstojano 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F518 中更新了 README.md，加入了 NVIDIA Nemotron 3 Super 的相关内容\n* @zafstojano 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F519 中更新了 README.md，加入了 Apple 的多语言推理训练场相关内容\n* @zafstojano 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F523 中修正了 shortest_path 提示中的误导性说明\n* @zafstojano 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F524 中修复了 knight_swap 中 impossible_ratio 未被正确遵守的问题\n* @olliestanley 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F499 中添加了 path-star 任务环境\n\n## 新贡献者\n* @RawthiL 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F513 中完成了首次贡献\n* @asaberui1 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F514 中完成了首次贡献\n* @Gjorgji-Noveski 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F515 中完成了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fcompare\u002Fv0.1.24...v0.1.25","2026-03-28T13:52:25",{"id":146,"version":147,"summary_zh":148,"released_at":149},315715,"v0.1.24","## 变更内容\n* [修复 #484] 由 @theblackcat102 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F485 中解决，当规模较大时 basic_arithmetic 会失败的问题\n* 当前实验由 @joesharratt1229 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F487 中完成\n* 修复：训练 README.md，由 @zafstojano 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F491 中完成\n* 添加增加超时时间的选项，由 @SzymonOzog 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F493 中完成\n* 并行运行类别，由 @SzymonOzog 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F492 中完成\n* 功能（课程）：骑士与说谎者配置，由 @zafstojano 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F488 中完成\n* 修复（评估）：添加在 MMLU Pro 上运行的说明，由 @zafstojano 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F497 中完成\n* （README）：将 GEM 添加到使用 RG 的项目中，由 @zafstojano 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F498 中完成\n* （README）：添加 Discord 徽章，由 @zafstojano 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F500 中完成\n* 修复编码问题，以便在 Windows 上运行，由 @denini08 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F502 中完成\n* 将 OptimalThinkingBench 添加到使用 RG 的项目中，由 @Miserlou 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F503 中完成\n* 添加概率数据集（初始：硬币抛掷数据集 + 课程），由 @kumaranant1 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F505 中完成\n* （README）：添加 gensyn 论文，由 @zafstojano 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F506 中完成\n* 修复：注册缺失的 `coin_flip`，由 @zafstojano 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F507 中完成\n\n## 新贡献者\n* @SzymonOzog 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F493 中完成了首次贡献\n* @denini08 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F502 中完成了首次贡献\n* @kumaranant1 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F505 中完成了首次贡献\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fcompare\u002Fv0.1.23...v0.1.24","2025-09-29T07:38:04",{"id":151,"version":152,"summary_zh":153,"released_at":154},315716,"v0.1.23","## 变更内容\n* @olliestanley 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F460 中添加了 kakurasu 环境\n* @zafstojano 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F463 中更新了 README.md - 星标历史\n* @olliestanley 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F461 中添加了 survo 环境\n* @olliestanley 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F464 中修复了 color_cubes 的答案字符串，并用最新环境更新了图库\n* @joesharratt1229 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F465 中修复并验证了 verl 示例\n* @Adefioye 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F462 中修复了 score_answer 中的四舍五入问题，并添加了单元测试\n* @olliestanley 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F472 中添加了最小验证器示例\n* @zafstojano 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F473 中在教程（训练）部分添加了一个使用 `trl` 的最小示例\n* @zafstojano 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F475 中更新了 README.md\n* @joesharratt1229 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F479 中修正了倒计时问题\n* @olittestanley 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F477 中改进了 README 中的使用演示\n* @Miserlou 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F480 中更新了 README.md（RLSwarm GenRL）\n* @joesharratt1229 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F482 中添加了 unsloth 示例\n* @zafstojano 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F483 中更新了 README.md\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fcompare\u002Fv0.1.22...v0.1.23","2025-07-05T12:26:25",{"id":156,"version":157,"summary_zh":158,"released_at":159},315717,"v0.1.22","## 变更内容\n* 由 @zafstojano 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F449 中添加的图片绝对路径\n* 由 @olliestanley 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F450 中添加的 Python 3.10 支持\n* 由 @zafstojano 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F451 中更新的 README.md\n* 由 @zafstojano 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F458 中更新的包含 Atropos 的 README.md\n* 由 @olliestanley 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F454 中简化的训练环境配置说明\n* 由 @andreaskoepf 在 https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fpull\u002F459 中为 README.md 中的图片使用原始 URL\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fopen-thought\u002Freasoning-gym\u002Fcompare\u002Fv0.1.20...v0.1.22","2025-06-06T20:39:44",{"id":161,"version":162,"summary_zh":163,"released_at":164},315718,"v0.1.20","https:\u002F\u002Fpypi.org\u002Fproject\u002Freasoning-gym\u002F0.1.20\u002F","2025-06-04T14:37:26"]