[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-junxiaosong--AlphaZero_Gomoku":3,"tool-junxiaosong--AlphaZero_Gomoku":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",144730,2,"2026-04-07T23:26:32",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":77,"owner_url":78,"languages":79,"stars":84,"forks":85,"last_commit_at":86,"license":87,"difficulty_score":32,"env_os":88,"env_gpu":89,"env_ram":90,"env_deps":91,"category_tags":100,"github_topics":101,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":115,"updated_at":116,"faqs":117,"releases":158},5301,"junxiaosong\u002FAlphaZero_Gomoku","AlphaZero_Gomoku","An implementation of the AlphaZero algorithm for Gomoku (also called Gobang or Five in a Row) ","AlphaZero_Gomoku 是一个基于 AlphaZero 算法的五子棋（Gobang）AI 开源项目。它通过纯粹的自我对弈进行强化学习训练，无需任何人类棋谱知识，即可从零开始掌握五子棋策略。该项目主要解决了在资源有限的环境下，如何高效复现和验证顶级博弈算法的难题。由于五子棋规则比围棋或国际象棋更简单，用户仅需一台普通个人电脑，花费数小时至两天时间，就能训练出具备相当水平的 AI 模型，极大地降低了研究门槛。\n\n这款工具非常适合人工智能开发者、强化学习研究人员以及高校学生使用。对于希望深入理解蒙特卡洛树搜索（MCTS）与深度神经网络结合机制的学习者来说，它是一个极佳的实践平台。其独特的技术亮点在于高度的框架灵活性：除了最初支持的 Theano\u002FLasagne 外，后续更新还完美兼容 PyTorch 和 TensorFlow。用户只需修改少量代码即可切换深度学习后端，甚至自定义网络结构。此外，项目提供了完整的训练脚本与人机对战示例，支持从简单的 6x6 棋盘快速上手，逐步过渡到标准规则，帮助使用者直观观察 AI 从“新手”成长为“高手”的全过程。","## AlphaZero-Gomoku\nThis is an implementation of the AlphaZero algorithm for playing the simple board game Gomoku (also called Gobang or Five in a Row) from pure self-play training. The game Gomoku is much simpler than Go or chess, so that we can focus on the training scheme of AlphaZero and obtain a pretty good AI model on a single PC in a few hours. \n\nReferences:  \n1. AlphaZero: Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm\n2. AlphaGo Zero: Mastering the game of Go without human knowledge\n\n### Update 2018.2.24: supports training with TensorFlow!\n### Update 2018.1.17: supports training with PyTorch!\n\n### Example Games Between Trained Models\n- Each move with 400 MCTS playouts:  \n![playout400](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjunxiaosong_AlphaZero_Gomoku_readme_54e20699d6e7.gif)\n\n### Requirements\nTo play with the trained AI models, only need:\n- Python >= 2.7\n- Numpy >= 1.11\n\nTo train the AI model from scratch, further need, either:\n- Theano >= 0.7 and Lasagne >= 0.1      \nor\n- PyTorch >= 0.2.0    \nor\n- TensorFlow\n\n**PS**: if your Theano's version > 0.7, please follow this [issue](https:\u002F\u002Fgithub.com\u002Faigamedev\u002Fscikit-neuralnetwork\u002Fissues\u002F235) to install Lasagne,  \notherwise, force pip to downgrade Theano to 0.7 ``pip install --upgrade theano==0.7.0``\n\nIf you would like to train the model using other DL frameworks, you only need to rewrite policy_value_net.py.\n\n### Getting Started\nTo play with provided models, run the following script from the directory:  \n```\npython human_play.py  \n```\nYou may modify human_play.py to try different provided models or the pure MCTS.\n\nTo train the AI model from scratch, with Theano and Lasagne, directly run:   \n```\npython train.py\n```\nWith PyTorch or TensorFlow, first modify the file [train.py](https:\u002F\u002Fgithub.com\u002Fjunxiaosong\u002FAlphaZero_Gomoku\u002Fblob\u002Fmaster\u002Ftrain.py), i.e., comment the line\n```\nfrom policy_value_net import PolicyValueNet  # Theano and Lasagne\n```\nand uncomment the line \n```\n# from policy_value_net_pytorch import PolicyValueNet  # Pytorch\nor\n# from policy_value_net_tensorflow import PolicyValueNet # Tensorflow\n```\nand then execute: ``python train.py``  (To use GPU in PyTorch, set ``use_gpu=True`` and use ``return loss.item(), entropy.item()`` in function train_step in policy_value_net_pytorch.py if your pytorch version is greater than 0.5)\n\nThe models (best_policy.model and current_policy.model) will be saved every a few updates (default 50).  \n\n**Note:** the 4 provided models were trained using Theano\u002FLasagne, to use them with PyTorch, please refer to [issue 5](https:\u002F\u002Fgithub.com\u002Fjunxiaosong\u002FAlphaZero_Gomoku\u002Fissues\u002F5).\n\n**Tips for training:**\n1. It is good to start with a 6 * 6 board and 4 in a row. For this case, we may obtain a reasonably good model within 500~1000 self-play games in about 2 hours.\n2. For the case of 8 * 8 board and 5 in a row, it may need 2000~3000 self-play games to get a good model, and it may take about 2 days on a single PC.\n\n### Further reading\nMy article describing some details about the implementation in Chinese: [https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F32089487](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F32089487) \n","## AlphaZero-Gomoku\n这是AlphaZero算法的一个实现，用于通过纯自我对弈训练来下简单的棋类游戏五子棋（也称为Gobang或Five in a Row）。五子棋比围棋或国际象棋简单得多，因此我们可以专注于AlphaZero的训练方案，并在几小时内用一台普通PC就得到一个相当不错的AI模型。\n\n参考文献：\n1. AlphaZero：通过通用强化学习算法的自我对弈掌握国际象棋和将棋\n2. AlphaGo Zero：无需人类知识即可掌握围棋\n\n### 更新 2018年2月24日：支持使用TensorFlow进行训练！\n### 更新 2018年1月17日：支持使用PyTorch进行训练！\n\n### 训练好的模型之间的对局示例\n- 每步走法进行400次MCTS模拟：\n![playout400](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjunxiaosong_AlphaZero_Gomoku_readme_54e20699d6e7.gif)\n\n### 环境要求\n要与训练好的AI模型对弈，只需：\n- Python >= 2.7\n- Numpy >= 1.11\n\n若要从零开始训练AI模型，则还需要以下任一环境：\n- Theano >= 0.7 和 Lasagne >= 0.1\n或\n- PyTorch >= 0.2.0\n或\n- TensorFlow\n\n**注**：如果你的Theano版本高于0.7，请按照此[issue](https:\u002F\u002Fgithub.com\u002Faigamedev\u002Fscikit-neuralnetwork\u002Fissues\u002F235)安装Lasagne；否则，请强制使用pip将Theano降级到0.7版本：``pip install --upgrade theano==0.7.0``\n\n如果你想使用其他深度学习框架来训练模型，只需重写policy_value_net.py文件即可。\n\n### 快速入门\n要使用提供的模型进行对弈，请在目录下运行以下脚本：\n```\npython human_play.py\n```\n你可以修改human_play.py以尝试不同的预训练模型或纯MCTS算法。\n\n要使用Theano和Lasagne从零开始训练AI模型，直接运行：\n```\npython train.py\n```\n\n如果使用PyTorch或TensorFlow，首先需要修改[train.py](https:\u002F\u002Fgithub.com\u002Fjunxiaosong\u002FAlphaZero_Gomoku\u002Fblob\u002Fmaster\u002Ftrain.py)文件，即注释掉以下行：\n```\nfrom policy_value_net import PolicyValueNet  # Theano and Lasagne\n```\n并取消注释以下行之一：\n```\n# from policy_value_net_pytorch import PolicyValueNet  # Pytorch\n或\n# from policy_value_net_tensorflow import PolicyValueNet # Tensorflow\n```\n然后执行：``python train.py``。 （若要在PyTorch中使用GPU，请设置``use_gpu=True``，并且如果你的PyTorch版本高于0.5，在policy_value_net_pytorch.py中的train_step函数中使用``return loss.item(), entropy.item()``）\n\n模型（best_policy.model和current_policy.model）会在每隔几次更新后保存（默认每50次）。\n\n**注意**：提供的4个模型是使用Theano\u002FLasagne训练的，若要用PyTorch加载它们，请参阅[issue 5](https:\u002F\u002Fgithub.com\u002Fjunxiaosong\u002FAlphaZero_Gomoku\u002Fissues\u002F5)。\n\n**训练提示**：\n1. 建议从6×6棋盘、4子连珠开始。在这种情况下，大约2小时内完成500~1000局自我对弈，就能得到一个相当不错的模型。\n2. 对于8×8棋盘、5子连珠的情况，可能需要2000~3000局自我对弈才能得到较好的模型，这在单台PC上大约需要2天时间。\n\n### 更多阅读\n我的一篇中文文章详细介绍了该实现的一些细节：[https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F32089487](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F32089487)","# AlphaZero_Gomoku 快速上手指南\n\nAlphaZero_Gomoku 是一个基于纯自我对弈训练的 AlphaZero 算法实现，专为五子棋（Gomoku）设计。相比围棋或国际象棋，五子棋规则更简单，适合在单机上快速验证 AlphaZero 的训练流程并构建强力 AI 模型。该项目支持 Theano、PyTorch 和 TensorFlow 多种深度学习框架。\n\n## 环境准备\n\n### 系统要求\n- **操作系统**：Linux \u002F macOS \u002F Windows\n- **Python 版本**：>= 2.7 (推荐 Python 3.x)\n\n### 前置依赖\n根据您的需求选择安装以下依赖：\n\n1. **仅运行预训练模型（人机对战）**：\n   - `numpy` >= 1.11\n\n2. **从头训练 AI 模型**（任选其一）：\n   - **方案 A (原默认)**: `theano` >= 0.7 且 `lasagne` >= 0.1\n     > *注意：若 Theano 版本 > 0.7，需参考相关 issue 安装 Lasagne，或强制降级 Theano：`pip install --upgrade theano==0.7.0`*\n   - **方案 B (推荐)**: `pytorch` >= 0.2.0\n   - **方案 C**: `tensorflow`\n\n> **国内加速建议**：安装 Python 包时建议使用清华或阿里镜像源以提升下载速度。\n> 例如：`pip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple \u003Cpackage_name>`\n\n## 安装步骤\n\n1. **克隆项目代码**\n   ```bash\n   git clone https:\u002F\u002Fgithub.com\u002Fjunxiaosong\u002FAlphaZero_Gomoku.git\n   cd AlphaZero_Gomoku\n   ```\n\n2. **安装基础依赖**\n   ```bash\n   pip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple numpy\n   ```\n\n3. **安装深度学习框架（以 PyTorch 为例）**\n   若选择使用 PyTorch 进行训练，请安装对应版本：\n   ```bash\n   pip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple torch torchvision\n   ```\n   *(若使用 TensorFlow 或 Theano，请替换为相应的安装命令)*\n\n## 基本使用\n\n### 1. 体验预训练模型（人机对战）\n直接运行脚本即可与内置的强 AI 对弈（默认使用 Theano\u002FLasagne 训练的模型）：\n\n```bash\npython human_play.py\n```\n*提示：您可以修改 `human_play.py` 文件来切换不同的预训练模型或尝试纯 MCTS 模式。*\n\n### 2. 从头训练 AI 模型\n\n#### 使用 PyTorch 或 TensorFlow 训练\n由于默认配置指向 Theano，使用前需修改 `train.py` 文件：\n\n1. 打开 `train.py`。\n2. **注释掉** Theano 相关的导入行：\n   ```python\n   # from policy_value_net import PolicyValueNet  # Theano and Lasagne\n   ```\n3. **取消注释** 您所使用的框架对应的行：\n   ```python\n   from policy_value_net_pytorch import PolicyValueNet  # Pytorch\n   # 或者\n   # from policy_value_net_tensorflow import PolicyValueNet # Tensorflow\n   ```\n4. *(可选)* 若使用 PyTorch 且版本 > 0.5 并希望启用 GPU，请在 `policy_value_net_pytorch.py` 的 `train_step` 函数中设置 `use_gpu=True` 并确保返回值为 `loss.item(), entropy.item()`。\n\n5. 执行训练：\n   ```bash\n   python train.py\n   ```\n\n#### 使用 Theano 训练\n无需修改代码，直接运行：\n```bash\npython train.py\n```\n\n**训练建议**：\n- **快速验证**：建议从 6x6 棋盘、四子连珠开始。约 2 小时（500~1000 局自我对弈）即可获得不错的模型。\n- **标准配置**：8x8 棋盘、五子连珠通常需要 2000~3000 局自我对弈，单机耗时约 2 天。\n- 模型文件（`best_policy.model` 和 `current_policy.model`）默认每 50 次更新保存一次。\n\n> *注：项目提供的 4 个预训练模型是基于 Theano\u002FLasagne 训练的。若需在 PyTorch 环境下加载这些特定模型，请参考项目 Issue #5 进行格式转换。*","某高校人工智能实验室的研究员需要在普通 PC 上快速验证 AlphaZero 强化学习算法的核心机制，并构建一个高水平的五子棋对战演示系统。\n\n### 没有 AlphaZero_Gomoku 时\n- **开发门槛极高**：研究员需从零复现复杂的蒙特卡洛树搜索（MCTS）与神经网络结合架构，极易在策略价值网络（Policy Value Net）的代码实现上出错。\n- **训练资源受限**：传统方案通常依赖昂贵的 GPU 集群或云端算力，在单机环境下训练收敛极慢，难以在数小时内获得可用模型。\n- **框架适配困难**：若团队熟悉 PyTorch 或 TensorFlow 而非 Theano，需耗费大量时间重写底层网络接口，无法直接利用现有成果。\n- **缺乏直观验证**：缺少内置的人机对战脚本和可视化示例，难以向非技术背景的访客直观展示算法的博弈能力。\n\n### 使用 AlphaZero_Gomoku 后\n- **开箱即用**：直接运行 `train.py` 即可启动纯自我对弈训练，无需手动编写复杂的强化学习循环，大幅降低试错成本。\n- **单机高效训练**：针对五子棋规则优化后，仅需单台 PC 运行约 2 小时（6x6 棋盘）至 2 天（8x8 棋盘），即可通过 500-3000 局自弈生成高水平模型。\n- **灵活框架支持**：只需简单修改 `train.py` 中的导入语句，即可无缝切换 PyTorch、TensorFlow 或 Theano 后端，完美适配团队技术栈。\n- **即时交互演示**：通过 `human_play.py` 脚本加载预训练模型，研究员可立即与 AI 进行高质量对弈，生动展示算法决策过程。\n\nAlphaZero_Gomoku 将原本需要数周搭建的强化学习实验环境压缩至几小时，让研究者能在单机上专注于算法原理验证而非工程基建。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjunxiaosong_AlphaZero_Gomoku_54e20699.gif","junxiaosong","Junxiao Song","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fjunxiaosong_d6915ced.jpg","PhD, ECE, HKUST",null,"https:\u002F\u002Fscholar.google.com.hk\u002Fcitations?user=J95hmyQAAAAJ&hl=zh-CN","https:\u002F\u002Fgithub.com\u002Fjunxiaosong",[80],{"name":81,"color":82,"percentage":83},"Python","#3572A5",100,3607,1026,"2026-04-07T15:36:40","MIT","","非必需。若使用 PyTorch 进行 GPU 训练，需在代码中设置 use_gpu=True（具体显卡型号、显存及 CUDA 版本未说明）。","未说明",{"notes":92,"python":93,"dependencies":94},"该项目支持多种深度学习框架（Theano\u002FLasagne, PyTorch, TensorFlow），训练前需在 train.py 中切换对应的导入语句。若 Theano 版本高于 0.7，需按特定 issue 指引安装 Lasagne 或强制降级 Theano。提供的预训练模型基于 Theano\u002FLasagne，若要在 PyTorch 中使用需参考相关 issue 进行转换。初学者建议从 6x6 棋盘开始训练，约 2 小时可完成；标准 8x8 棋盘在单机上训练约需 2 天。",">= 2.7",[95,96,97,98,99],"numpy>=1.11","theano>=0.7 (可选)","lasagne>=0.1 (可选，配合 Theano)","pytorch>=0.2.0 (可选)","tensorflow (可选)",[14],[102,103,104,105,106,107,108,109,110,111,112,113,114],"alphazero","mcts","alphago-zero","gomoku","gobang","monte-carlo-tree-search","alphago","reinforcement-learning","rl","board-game","self-learning","pytorch","tensorflow","2026-03-27T02:49:30.150509","2026-04-08T10:11:24.447435",[118,123,128,133,138,143,148,153],{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},24029,"训练时自我对弈陷入局部最优，双方只进攻不防守导致局面单一，如何解决？","可以尝试减小 mcts_alphaZero.py 中 Dirichlet 噪声的参数 alpha。代码默认值为 0.3，建议减小到 0.15 或 0.1。注意：减小 alpha 参数会让 Dirichlet 噪声分布更集中（more peak），而不是减小噪声前面的权重，这有助于增加探索多样性，避免每局局面过于类似。","https:\u002F\u002Fgithub.com\u002Fjunxiaosong\u002FAlphaZero_Gomoku\u002Fissues\u002F14",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},24030,"在 Python 3 中加载模型时报错 'UnicodeDecodeError' 或 'No module named numpy.core.multiarray' 怎么办？","这是 Python 2 和 Python 3 之间 pickle 编码格式不兼容导致的。解决方法是在 human_play.py 中加载模型时添加 encoding 参数。将代码修改为：pickle.load(open(model_file, 'rb'), encoding='bytes')。如果是 Windows 下生成的模型文件在 Linux 运行，可能需要先转换换行符格式。","https:\u002F\u002Fgithub.com\u002Fjunxiaosong\u002FAlphaZero_Gomoku\u002Fissues\u002F1",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},24031,"MCTS 模拟时选择 Q+u 最大的节点，为什么正式下棋时却只看访问次数（visit count）而忽略 Q+u？","这是 MCTS 算法的核心思想。模拟过程中选择 Q+u 是为了平衡利用（exploitation，Q 值高）和探索（exploration，u 值高，给访问少的分支机会）。而在正式下棋时，不再需要探索，只需充分利用模拟时积累的信息来选择最稳健的策略。通常选择访问次数（visit count）最多的分支，这种方法相对更鲁棒（Robust）。虽然也可以选择 Q 最大的分支，但标准做法是依据访问次数。","https:\u002F\u002Fgithub.com\u002Fjunxiaosong\u002FAlphaZero_Gomoku\u002Fissues\u002F33",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},24032,"如何将 Theano 训练的模型参数转换为 PyTorch 可用的 state_dict 格式？","Theano 和 PyTorch 的参数字典结构不同，且卷积核定义存在翻转差异。可以使用以下脚本进行转换：\n1. 加载 Theano 参数列表。\n2. 创建 OrderedDict 映射到 PyTorch 的 key。\n3. 对于全连接层（fc）权重，需要转置（value.T）。\n4. 对于卷积层（conv）权重，需要旋转 180 度（value[:,:,::-1,::-1]）。\n示例代码片段：\nif 'fc' in key and 'weight' in key: param_pytorch[key] = torch.FloatTensor(value.T)\nelif 'conv' in key and 'weight' in key: param_pytorch[key] = torch.FloatTensor(value[:,:,::-1,::-1].copy())","https:\u002F\u002Fgithub.com\u002Fjunxiaosong\u002FAlphaZero_Gomoku\u002Fissues\u002F5",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},24033,"MCTS 反向传播更新节点时，代码中 `leaf_value - Q` 的含义是什么？为什么要乘以 1.0？","1. `leaf_value - Q` 是一种数学上等价的增量更新实现方式。原本需要存储所有子节点的 V(s') 最后算均值，现在通过增量更新公式，无需存储所有值即可计算出等价结果。\n2. 乘以 1.0 是为了兼容老版本 Python。在旧版 Python 中整数除以整数结果仍为整数，乘以 1.0 确保运算结果为浮点数（float），保证精度。","https:\u002F\u002Fgithub.com\u002Fjunxiaosong\u002FAlphaZero_Gomoku\u002Fissues\u002F119",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},24034,"在 15x15 棋盘上训练效果差，如何改进网络结构或提升训练量？","15x15 棋盘对算力要求很高，个人电脑难以跑出有意义的结果。建议：\n1. 增加训练量：11x11 棋盘约需十万盘，15x15 可能需要百万级别的训练量。\n2. 改进网络：将当前的普通 Net 网络改为 ResNet（残差网络）结构可以显著提升性能。\n3. 并行加速：可以参考 Issue #13 中的多线程\u002F多进程方案，利用 virtual loss 技巧实现 MCTS 并行加速。","https:\u002F\u002Fgithub.com\u002Fjunxiaosong\u002FAlphaZero_Gomoku\u002Fissues\u002F78",{"id":149,"question_zh":150,"answer_zh":151,"source_url":152},24035,"MCTS 递归更新节点权重时，为什么要先更新父节点再更新子节点？顺序有影响吗？","实际上更新顺序与原理无关。虽然代码注释中强调“如果不是根节点，应先更新父节点”，但从算法原理上看，直接从子节点往上更新也是完全可行的，结果一致。代码中的顺序更多是实现习惯，不影响最终数值计算。","https:\u002F\u002Fgithub.com\u002Fjunxiaosong\u002FAlphaZero_Gomoku\u002Fissues\u002F77",{"id":154,"question_zh":155,"answer_zh":156,"source_url":157},24036,"如何实现 Self-Play 数据生成与训练过程的并行化？","可以采用多进程架构：使用一个进程负责 self-play 和 training 部分，另外开启多个进程（如 4 个）专门负责 self-play 生成数据。要注意 Python 全局锁（GIL）对多线程的限制，建议使用多进程。若要实现 MCTS 内部的并行加速，还需要引入论文中描述的 'virtual loss' 技巧。","https:\u002F\u002Fgithub.com\u002Fjunxiaosong\u002FAlphaZero_Gomoku\u002Fissues\u002F35",[]]