[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-werner-duvaud--muzero-general":3,"tool-werner-duvaud--muzero-general":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",155373,2,"2026-04-14T11:34:08",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":78,"owner_email":79,"owner_twitter":79,"owner_website":80,"owner_url":81,"languages":82,"stars":87,"forks":88,"last_commit_at":89,"license":90,"difficulty_score":10,"env_os":91,"env_gpu":92,"env_ram":93,"env_deps":94,"category_tags":101,"github_topics":102,"view_count":32,"oss_zip_url":79,"oss_zip_packed_at":79,"status":17,"created_at":121,"updated_at":122,"faqs":123,"releases":153},7393,"werner-duvaud\u002Fmuzero-general","muzero-general","MuZero","muzero-general 是谷歌 DeepMind 前沿强化学习算法 MuZero 的一个开源实现版本，旨在通过代码复现帮助开发者深入理解这一技术。它解决了传统 AI 在未知环境中难以高效决策的难题：无需预先知晓游戏规则或环境动态，muzero-general 能自主构建环境模型，仅利用对预测奖励、价值和策略有用的内部信息即可掌握棋类、Atari 游戏等多种复杂任务。\n\n该项目主要面向研究人员、AI 工程师及希望学习强化学习的开发者。作为教育导向的工具，它提供了详尽的代码注释和技术文档，并支持快速适配新的游戏环境或 Gym 接口，用户只需添加简单的配置文件即可开展实验。\n\n在技术亮点方面，muzero-general 基于 PyTorch 构建，不仅支持残差网络与全连接网络，还具备强大的扩展能力：支持多线程异步训练、Ray 集群部署以及多 GPU 加速，显著提升了训练效率。此外，它集成了 TensorBoard 实时监控、自动模型存档、超参数搜索及连续动作空间支持等实用功能，甚至提供了预训练权重供直接调用。无论是用于学术探索还是算法验证，muzero-general 都是一个灵活且","muzero-general 是谷歌 DeepMind 前沿强化学习算法 MuZero 的一个开源实现版本，旨在通过代码复现帮助开发者深入理解这一技术。它解决了传统 AI 在未知环境中难以高效决策的难题：无需预先知晓游戏规则或环境动态，muzero-general 能自主构建环境模型，仅利用对预测奖励、价值和策略有用的内部信息即可掌握棋类、Atari 游戏等多种复杂任务。\n\n该项目主要面向研究人员、AI 工程师及希望学习强化学习的开发者。作为教育导向的工具，它提供了详尽的代码注释和技术文档，并支持快速适配新的游戏环境或 Gym 接口，用户只需添加简单的配置文件即可开展实验。\n\n在技术亮点方面，muzero-general 基于 PyTorch 构建，不仅支持残差网络与全连接网络，还具备强大的扩展能力：支持多线程异步训练、Ray 集群部署以及多 GPU 加速，显著提升了训练效率。此外，它集成了 TensorBoard 实时监控、自动模型存档、超参数搜索及连续动作空间支持等实用功能，甚至提供了预训练权重供直接调用。无论是用于学术探索还是算法验证，muzero-general 都是一个灵活且功能完备的学习平台。","![supported platforms](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fplatform-Linux%20%7C%20Mac%20%7C%20Windows%20(soon)-929292)\n![supported python versions](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpython-%3E%3D%203.6-306998)\n![dependencies status](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdependencies-up%20to%20date-brightgreen)\n[![style black](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fcode%20style-black-000000.svg)](https:\u002F\u002Fgithub.com\u002Fpsf\u002Fblack)\n![license MIT](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicence-MIT-green)\n[![discord badge](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdiscord-join-6E60EF)](https:\u002F\u002Fdiscord.gg\u002FGB2vwsF)\n\n![ci-testing workflow](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fworkflows\u002FCI%20testing\u002Fbadge.svg)\n\n# MuZero General\n\nA commented and [documented](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fwiki\u002FMuZero-Documentation) implementation of MuZero based on the Google DeepMind [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1911.08265) (Schrittwieser et al., Nov 2019) and the associated [pseudocode](https:\u002F\u002Farxiv.org\u002Fsrc\u002F1911.08265v2\u002Fanc\u002Fpseudocode.py).\nIt is designed to be easily adaptable for every games or reinforcement learning environments (like [gym](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fgym)). You only need to add a [game file](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Ftree\u002Fmaster\u002Fgames) with the hyperparameters and the game class. Please refer to the [documentation](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fwiki\u002FMuZero-Documentation) and the [example](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fblob\u002Fmaster\u002Fgames\u002Fcartpole.py).\nThis implementation is primarily for educational purpose.\\\n[Explanatory video of MuZero](https:\u002F\u002Fyoutu.be\u002FWe20YSAJZSE)\n\nMuZero is a state of the art RL algorithm for board games (Chess, Go, ...) and Atari games.\nIt is the successor to [AlphaZero](https:\u002F\u002Farxiv.org\u002Fabs\u002F1712.01815) but without any knowledge of the environment underlying dynamics. MuZero learns a model of the environment and uses an internal representation that contains only the useful information for predicting the reward, value, policy and transitions. MuZero is also close to [Value prediction networks](https:\u002F\u002Farxiv.org\u002Fabs\u002F1707.03497). See [How it works](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fwiki\u002FHow-MuZero-works).\n\n## Features\n\n* [x] Residual Network and Fully connected network in [PyTorch](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Fpytorch)\n* [x] Multi-Threaded\u002FAsynchronous\u002F[Cluster](https:\u002F\u002Fdocs.ray.io\u002Fen\u002Flatest\u002Fcluster-index.html) with [Ray](https:\u002F\u002Fgithub.com\u002Fray-project\u002Fray)\n* [X] Multi GPU support for the training and the selfplay\n* [x] TensorBoard real-time monitoring\n* [x] Model weights automatically saved at checkpoints\n* [x] Single and two player mode\n* [x] Commented and [documented](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fwiki\u002FMuZero-Documentation)\n* [x] Easily adaptable for new games\n* [x] [Examples](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fblob\u002Fmaster\u002Fgames\u002Fcartpole.py) of board games, Gym and Atari games (See [list of implemented games](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general#games-already-implemented))\n* [x] [Pretrained weights](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Ftree\u002Fmaster\u002Fresults) available\n* [ ] Windows support (Experimental \u002F Workaround: Use the [notebook](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fblob\u002Fmaster\u002Fnotebook.ipynb) in [Google Colab](https:\u002F\u002Fcolab.research.google.com))\n\n### Further improvements\nHere is a list of features which could be interesting to add but which are not in MuZero's paper. We are open to contributions and other ideas.\n\n* [x] [Hyperparameter search](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fwiki\u002FHyperparameter-Optimization)\n* [x] [Continuous action space](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Ftree\u002Fcontinuous)\n* [x] [Tool to understand the learned model](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fblob\u002Fmaster\u002Fdiagnose_model.py)\n* [ ] Batch MCTS\n* [ ] Support of more than two player games\n\n## Demo\n\nAll performances are tracked and displayed in real time in [TensorBoard](https:\u002F\u002Fwww.tensorflow.org\u002Ftensorboard) :\n\n![cartpole training summary](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwerner-duvaud_muzero-general_readme_fc3c74ed6d30.png)\n\nTesting Lunar Lander :\n\n![lunarlander training preview](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwerner-duvaud_muzero-general_readme_dd3ececbc5a0.png)\n\n## Games already implemented\n\n* Cartpole      (Tested with the fully connected network)\n* Lunar Lander  (Tested in deterministic mode with the fully connected network)\n* Gridworld     (Tested with the fully connected network)\n* Tic-tac-toe   (Tested with the fully connected network and the residual network)\n* Connect4      (Slightly tested with the residual network)\n* Gomoku\n* Twenty-One \u002F Blackjack    (Tested with the residual network)\n* Atari Breakout\n\nTests are done on Ubuntu with 16 GB RAM \u002F Intel i7 \u002F GTX 1050Ti Max-Q. We make sure to obtain a progression and a level which ensures that it has learned. But we do not systematically reach a human level. For certain environments, we notice a regression after a certain time. The proposed configurations are certainly not optimal and we do not focus for now on the optimization of hyperparameters. Any help is welcome.\n\n## Code structure\n\n![code structure](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwerner-duvaud_muzero-general_readme_ce9bdba4364d.png)\n\nNetwork summary:\n\n\u003Cp align=\"center\">\n\u003Ca href=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwerner-duvaud_muzero-general_readme_31e3a590a866.png\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwerner-duvaud_muzero-general_readme_31e3a590a866.png\" width=\"250\"\u002F>\n\u003C\u002Fa>\n\u003C\u002Fp>\n\n## Getting started\n### Installation\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general.git\ncd muzero-general\n\npip install -r requirements.lock\n```\n\n### Run\n\n```bash\npython muzero.py\n```\nTo visualize the training results, run in a new terminal:\n```bash\ntensorboard --logdir .\u002Fresults\n```\n\n### Config\n\nYou can adapt the configurations of each game by editing the `MuZeroConfig` class of the respective file in the [games folder](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Ftree\u002Fmaster\u002Fgames).\n\n## Related work\n\n* [EfficientZero](https:\u002F\u002Farxiv.org\u002Fabs\u002F2111.00210) (Weirui Ye, Shaohuai Liu, Thanard Kurutach, Pieter Abbeel, Yang Gao)\n* [Sampled MuZero](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.06303) (Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Mohammadamin Barekatain, Simon Schmitt, David Silver)\n\n## Authors\n\n* Werner Duvaud\n* Aurèle Hainaut\n* Paul Lenoir\n* [Contributors](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fgraphs\u002Fcontributors)\n\nPlease use this bibtex if you want to cite this repository (master branch) in your publications:\n```bash\n@misc{muzero-general,\n  author       = {Werner Duvaud, Aurèle Hainaut},\n  title        = {MuZero General: Open Reimplementation of MuZero},\n  year         = {2019},\n  publisher    = {GitHub},\n  journal      = {GitHub repository},\n  howpublished = {\\url{https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general}},\n}\n```\n\n## Getting involved\n\n* [GitHub Issues](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fissues): For reporting bugs.\n* [Pull Requests](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fpulls): For submitting code contributions.\n* [Discord server](https:\u002F\u002Fdiscord.gg\u002FGB2vwsF): For discussions about development or any general questions.\n","![支持的平台](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fplatform-Linux%20%7C%20Mac%20%7C%20Windows%20(soon)-929292)\n![支持的 Python 版本](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpython-%3E%3D%203.6-306998)\n![依赖状态](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdependencies-up%20to%20date-brightgreen)\n[![代码风格 black](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fcode%20style-black-000000.svg)](https:\u002F\u002Fgithub.com\u002Fpsf\u002Fblack)\n![MIT 许可证](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicence-MIT-green)\n[![Discord 社区徽章](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdiscord-join-6E60EF)](https:\u002F\u002Fdiscord.gg\u002FGB2vwsF)\n\n![CI 测试工作流](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fworkflows\u002FCI%20testing\u002Fbadge.svg)\n\n# MuZero General\n\n基于 Google DeepMind 的 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1911.08265)（Schrittwieser 等人，2019 年 11 月）及其配套 [伪代码](https:\u002F\u002Farxiv.org\u002Fsrc\u002F1911.08265v2\u002Fanc\u002Fpseudocode.py) 的、带有注释且已 [文档化](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fwiki\u002FMuZero-Documentation) 的 MuZero 实现。该实现旨在轻松适配各类游戏或强化学习环境（如 [gym](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fgym)）。您只需添加一个包含超参数和游戏类的 [游戏文件](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Ftree\u002Fmaster\u002Fgames) 即可。请参阅 [文档](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fwiki\u002FMuZero-Documentation) 和 [示例](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fblob\u002Fmaster\u002Fgames\u002Fcartpole.py)。此实现主要用于教育目的。\\\n[MuZero 解说视频](https:\u002F\u002Fyoutu.be\u002FWe20YSAJZSE)\n\nMuZero 是一种用于棋类游戏（象棋、围棋等）和 Atari 游戏的最先进强化学习算法。它是 [AlphaZero](https:\u002F\u002Farxiv.org\u002Fabs\u002F1712.01815) 的后继者，但无需任何关于环境底层动态的知识。MuZero 学习环境模型，并使用仅包含预测奖励、价值、策略和转移所需有用信息的内部表示。MuZero 也与 [价值预测网络](https:\u002F\u002Farxiv.org\u002Fabs\u002F1707.03497) 非常接近。详情请参阅 [工作原理](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fwiki\u002FHow-MuZero-works)。\n\n## 特性\n\n* [x] 在 [PyTorch](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Fpytorch) 中使用残差网络和全连接网络\n* [x] 多线程\u002F异步\u002F[集群](https:\u002F\u002Fdocs.ray.io\u002Fen\u002Flatest\u002Fcluster-index.html) 支持，通过 [Ray](https:\u002F\u002Fgithub.com\u002Fray-project\u002Fray) 实现\n* [X] 训练和自我对弈的多 GPU 支持\n* [x] TensorBoard 实时监控\n* [x] 模型权重在检查点自动保存\n* [x] 单人和双人模式\n* [x] 带有注释并已 [文档化](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fwiki\u002FMuZero-Documentation)\n* [x] 易于适配新游戏\n* [x] 包含棋类游戏、Gym 和 Atari 游戏的 [示例](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fblob\u002Fmaster\u002Fgames\u002Fcartpole.py)（详见 [已实现游戏列表](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general#games-already-implemented)）\n* [x] 提供 [预训练权重](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Ftree\u002Fmaster\u002Fresults)\n* [ ] Windows 支持（实验性 \u002F 变通方案：使用 [Google Colab](https:\u002F\u002Fcolab.research.google.com) 中的 [笔记本](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fblob\u002Fmaster\u002Fnotebook.ipynb)）\n\n### 进一步改进\n以下是一些可能值得添加但未在 MuZero 论文中提及的功能。我们欢迎贡献和其他想法。\n\n* [x] [超参数搜索](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fwiki\u002FHyperparameter-Optimization)\n* [x] [连续动作空间](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Ftree\u002Fcontinuous)\n* [x] [理解所学模型的工具](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fblob\u002Fmaster\u002Fdiagnose_model.py)\n* [ ] 批量 MCTS\n* [ ] 支持超过两名玩家的游戏\n\n## 演示\n\n所有性能指标均在 [TensorBoard](https:\u002F\u002Fwww.tensorflow.org\u002Ftensorboard) 中实时跟踪和显示：\n\n![cartpole 训练摘要](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwerner-duvaud_muzero-general_readme_fc3c74ed6d30.png)\n\nLunar Lander 测试：\n\n![lunarlander 训练预览](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwerner-duvaud_muzero-general_readme_dd3ececbc5a0.png)\n\n## 已实现的游戏\n\n* Cartpole      （使用全连接网络测试）\n* Lunar Lander  （使用全连接网络以确定性模式测试）\n* Gridworld     （使用全连接网络测试）\n* Tic-tac-toe   （使用全连接网络和残差网络测试）\n* Connect4      （使用残差网络进行了初步测试）\n* Gomoku\n* Twenty-One \u002F Blackjack    （使用残差网络测试）\n* Atari Breakout\n\n测试在 Ubuntu 系统上进行，配备 16 GB 内存、Intel i7 处理器和 GTX 1050Ti Max-Q 显卡。我们确保模型能够取得进展并达到一定的水平，证明其确实有所学习。不过，我们并未系统性地达到人类水平。对于某些环境，我们发现经过一段时间后会出现退化现象。目前提出的配置显然并非最优，我们也尚未专注于超参数的优化。欢迎大家提供帮助。\n\n## 代码结构\n\n![代码结构](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwerner-duvaud_muzero-general_readme_ce9bdba4364d.png)\n\n网络概览：\n\n\u003Cp align=\"center\">\n\u003Ca href=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwerner-duvaud_muzero-general_readme_31e3a590a866.png\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwerner-duvaud_muzero-general_readme_31e3a590a866.png\" width=\"250\"\u002F>\n\u003C\u002Fa>\n\u003C\u002Fp>\n\n## 开始使用\n### 安装\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general.git\ncd muzero-general\n\npip install -r requirements.lock\n```\n\n### 运行\n\n```bash\npython muzero.py\n```\n要查看训练结果，请在另一个终端中运行：\n```bash\ntensorboard --logdir .\u002Fresults\n```\n\n### 配置\n\n您可以通过编辑 [games 文件夹](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Ftree\u002Fmaster\u002Fgames) 中相应文件中的 `MuZeroConfig` 类来调整各游戏的配置。\n\n## 相关工作\n\n* [EfficientZero](https:\u002F\u002Farxiv.org\u002Fabs\u002F2111.00210)（Weirui Ye、Shaohuai Liu、Thanard Kurutach、Pieter Abbeel、Yang Gao）\n* [Sampled MuZero](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.06303)（Thomas Hubert、Julian Schrittwieser、Ioannis Antonoglou、Mohammadamin Barekatain、Simon Schmitt、David Silver）\n\n## 作者\n\n* Werner Duvaud\n* Aurèle Hainaut\n* Paul Lenoir\n* [贡献者](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fgraphs\u002Fcontributors)\n\n如果您希望在出版物中引用此仓库（主分支），请使用以下 BibTeX 格式：\n```bash\n@misc{muzero-general,\n  author       = {Werner Duvaud, Aurèle Hainaut},\n  title        = {MuZero General: Open Reimplementation of MuZero},\n  year         = {2019},\n  publisher    = {GitHub},\n  journal      = {GitHub repository},\n  howpublished = {\\url{https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general}},\n}\n```\n\n## 参与贡献\n\n* [GitHub Issues](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fissues)：用于报告 bug。\n* [Pull Requests](https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fpulls)：用于提交代码贡献。\n* [Discord 服务器](https:\u002F\u002Fdiscord.gg\u002FGB2vwsF)：用于讨论开发相关事宜或解答一般性问题。","# MuZero General 快速上手指南\n\nMuZero General 是基于 Google DeepMind 论文实现的 MuZero 算法开源项目，旨在用于教育目的，并支持轻松适配各类游戏或强化学习环境（如 Gym、Atari 等）。\n\n## 环境准备\n\n*   **操作系统**：Linux, macOS (Windows 支持尚在实验中，建议通过 Google Colab 笔记本运行)\n*   **Python 版本**：>= 3.6\n*   **核心依赖**：PyTorch, Ray, TensorBoard\n*   **硬件建议**：支持单卡或多卡 GPU 训练（测试环境参考：Ubuntu, 16GB RAM, GTX 1050Ti）\n\n## 安装步骤\n\n1.  **克隆仓库**\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general.git\n    cd muzero-general\n    ```\n\n2.  **安装依赖**\n    *注：若需加速下载，可配置国内 pip 镜像源（如清华源）。*\n    ```bash\n    # 使用默认源\n    pip install -r requirements.lock\n    \n    # 或使用国内镜像源（推荐）\n    pip install -r requirements.lock -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n    ```\n\n## 基本使用\n\n### 1. 启动训练\n运行主程序开始训练（默认使用 Cartpole 等示例游戏）：\n```bash\npython muzero.py\n```\n\n### 2. 实时监控\n打开一个新的终端窗口，启动 TensorBoard 以实时查看训练指标和模型性能：\n```bash\ntensorboard --logdir .\u002Fresults\n```\n随后在浏览器中访问显示的本地地址（通常为 `http:\u002F\u002Flocalhost:6006`）。\n\n### 3. 自定义游戏配置\n若要适配新游戏或调整超参数，请编辑 `games` 文件夹下对应游戏的 `MuZeroConfig` 类。例如修改 `games\u002Fcartpole.py` 中的配置即可改变 Cartpole 的训练行为。","某机器人实验室团队正尝试让机械臂在未知物理环境中学习抓取策略，但缺乏对环境动力学模型的先验知识。\n\n### 没有 muzero-general 时\n- 团队必须手动编写复杂的环境物理公式来模拟机械臂运动，耗时数周且极易出错。\n- 传统强化学习算法（如 DQN）因无法理解环境内部动态，导致训练收敛极慢，甚至完全失败。\n- 缺乏统一的框架适配不同任务，每次更换抓取对象都需重写大量底层代码，复用性极差。\n- 训练过程如同“黑盒”，无法实时监控模型内部表征的学习进度，难以排查策略失效原因。\n\n### 使用 muzero-general 后\n- 直接利用 muzero-general 无需环境模型的特性，机械臂通过与真实环境交互自动学习内部动态，省去了手动建模环节。\n- 基于 MuZero 算法的高效规划能力，智能体在少量试错后迅速掌握抓取技巧，训练效率提升显著。\n- 只需按照文档添加一个新的游戏配置文件（类似 cartpole.py），即可快速将框架迁移至新的抓取任务，开发周期缩短至几天。\n- 借助内置的 TensorBoard 实时监测和模型诊断工具，研究人员能清晰观察价值预测与策略网络的演变，精准优化超参数。\n\nmuzero-general 让团队在零先验知识下，高效实现了复杂连续动作空间内的自适应决策控制。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwerner-duvaud_muzero-general_270fa5fa.png","werner-duvaud","Werner Duvaud","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fwerner-duvaud_50e8e102.png","Director of AI @ hypr.co\r\n","hypr.co","France",null,"https:\u002F\u002Flinkedin.com\u002Fin\u002Fwerner-duvaud","https:\u002F\u002Fgithub.com\u002Fwerner-duvaud",[83],{"name":84,"color":85,"percentage":86},"Python","#3572A5",100,2799,673,"2026-04-10T01:08:01","MIT","Linux, macOS, Windows (实验性支持\u002F需通过 Google Colab 使用)","非必需，但支持多 GPU 训练和自我对弈。测试环境使用 GTX 1050Ti Max-Q，未指定具体显存或 CUDA 版本要求。","测试环境为 16GB，最低需求未说明",{"notes":95,"python":96,"dependencies":97},"该项目主要用于教育目的。Windows 支持尚处于实验阶段，建议 Windows 用户使用 Google Colab 中的 Notebook。代码包含残差网络和全连接网络实现，支持多线程、异步及集群训练（基于 Ray）。配置可通过编辑 games 文件夹下的 MuZeroConfig 类进行调整。",">= 3.6",[98,99,100],"PyTorch","Ray","TensorBoard",[14],[103,104,105,106,107,108,109,110,111,112,113,114,64,115,116,117,118,119,120],"muzero","reinforcement-learning","alphazero","pytorch","python3","self-learning","monte-carlo-tree-search","deep-learning","deep-reinforcement-learning","neural-network","model-based-rl","rl","tensorboard","gym","mcts","alphago","residual-network","machine-learning","2026-03-27T02:49:30.150509","2026-04-14T20:52:28.357301",[124,129,134,139,144,149],{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},33454,"如何将 MuZero 算法应用于金融交易（期货\u002F外汇）？","可以直接使用 MuZero，但为了获得更现实的离线模型，必须在环境中模拟滑点（slippage）、点差（spread）和交易费用。关于训练策略：\n1. 可以加载多个股票代码的历史数据（例如 20 个），将每个 episode 的长度设置为 `股票代码数量 * K 线数量`，将其视为一个单一的投资组合以获取最大奖励。\n2. 也可以将每个股票代码视为独立的 episode，有用户反馈后者能带来更好的奖励。\n3. 增加特征输入窗口中的 K 线数量有助于模型策略优于简单的“买入并持有”策略。\n注意：虽然实时性对交易很重要，但目前最好的方法仍是利用历史数据将其作为离线问题进行训练。","https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fissues\u002F158",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},33455,"在井字棋（Tic Tac Toe）训练中效果不佳或学习率导致发散怎么办？","如果默认配置效果不好或学习率过高导致损失发散至无穷大，可以尝试同时提高学习率（learning rate）和批次大小（batch size）。有用户反馈，单独提高学习率会导致不稳定，但同时增加 batch size 可以防止发散并取得良好的训练结果。此外，维护者提到社区已提交了新的超参数配置（HP），可以参考相关 PR 进行调整。","https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fissues\u002F152",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},33456,"Windows 上设置 num_gpus=0 但 cuda.is_available() 仍返回 True 导致报错怎么办？","这是 Windows 上 PyTorch DataParallel 的一个已知行为：即使指定 CPU，只要检测到 CUDA 可用，DataParallel 也会尝试将模型移动到 GPU，若随后手动移回 CPU 则会引发 RuntimeError。\n解决方案：\n1. 暂时在 Windows 上使用 WSL (Windows Subsystem for Linux) 运行项目。\n2. 或者考虑替换掉 Ray 多进程方案，改用 PyTorch 原生的 DataLoader 或 torch.distributed 来避免此兼容性问题。","https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fissues\u002F66",{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},33457,"训练时 Loss 收敛但奖励（Reward）停滞不前，没有学习效果怎么办？","如果损失计算正常但奖励一直在 0 附近波动且无提升，通常是因为超参数配置不适合当前游戏。有效的调整方案包括：\n1. 将 `root_dirichlet_alpha` 从 0.2 调整为 1。\n2. 将 `num_unroll_steps` 从 5 增加到 15。\n3. 将 `PER_alpha` (优先经验回放参数) 从 0.5 增加到 0.95。\n有用户应用这些修改后，在 30k 次迭代内就实现了收敛。此外，确保正确加载预训练模型或使用针对特定游戏（如 Connect4, Gomoku）优化过的参数集也很重要。","https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fissues\u002F119",{"id":145,"question_zh":146,"answer_zh":147,"source_url":148},33458,"遇到 'CUDNN_STATUS_NOT_INITIALIZED' 运行时错误如何解决？","该错误通常与 cuDNN 初始化失败有关，常见于显存不足或环境配置冲突。虽然具体评论被截断，但此类问题的通用解决步骤包括：\n1. 检查 GPU 显存是否充足，尝试减小 batch size。\n2. 确保 CUDA、cuDNN 和 PyTorch 版本相互兼容。\n3. 如果是多卡环境，检查是否存在设备索引冲突。\n4. 尝试重启 Python 内核或重新分配 GPU 资源（特别是在使用 Ray 等多进程框架时）。","https:\u002F\u002Fgithub.com\u002Fwerner-duvaud\u002Fmuzero-general\u002Fissues\u002F139",{"id":150,"question_zh":151,"answer_zh":152,"source_url":128},33459,"如何在多股票交易中构建 Episode 以获得最佳奖励？","在处理多股票交易时，有两种主要的 Episode 构建方式：\n1. 组合法：将所有股票（如 20 个）视为一个投资组合，Episode 长度 = 股票数 × 时间步数。这种方式旨在最大化整体组合奖励。\n2. 独立法：将每只股票视为一个独立的 Episode。\n根据社区经验，将每只股票作为独立 Episode 进行训练往往能获得更好的奖励表现。同时，务必在环境中加入固定的交易费用成本以提高模型的现实适应性。",[]]