[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-starry-sky6688--MADDPG":3,"tool-starry-sky6688--MADDPG":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":77,"owner_location":77,"owner_email":77,"owner_twitter":77,"owner_website":77,"owner_url":80,"languages":81,"stars":86,"forks":87,"last_commit_at":88,"license":77,"difficulty_score":10,"env_os":89,"env_gpu":90,"env_ram":90,"env_deps":91,"category_tags":97,"github_topics":77,"view_count":23,"oss_zip_url":77,"oss_zip_packed_at":77,"status":16,"created_at":98,"updated_at":99,"faqs":100,"releases":136},3361,"starry-sky6688\u002FMADDPG","MADDPG","Pytorch implementation of the MARL algorithm, MADDPG, which correspondings to the paper \"Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments\".","MADDPG 是一个基于 PyTorch 实现的开源多智能体强化学习算法库，源自论文《混合协作与竞争环境下的多智能体 Actor-Critic》。它主要解决多个智能体在复杂环境中如何协同合作或相互竞争的学习难题，特别适用于那些环境动态随其他智能体行为而变化的场景。\n\n在传统单智能体算法难以应对的多方博弈中，MADDPG 通过“集中式训练、分布式执行”的独特机制，让每个智能体在训练时能获取全局信息以优化策略，而在实际运行时仅依赖本地观测进行决策。这种设计有效平衡了训练稳定性与实际部署的灵活性。\n\n该工具内置了对 OpenAI 多智能体粒子环境（MPE）的支持，默认提供了“简单追捕”场景的示例代码：用户可观察三个捕食者智能体如何通过学习协作围捕一个随机移动的猎物。虽然预提供模型并非最优性能，但为开发者留出了充足的微调与再训练空间。此外，项目还允许用户灵活切换稀疏奖励与稠密奖励设置，以便探索不同激励机制对学习效果的影响。\n\nMADDPG 非常适合人工智能研究人员、强化学习开发者以及高校师生使用。如果你正在探索多智能体系统的博弈策略、机器人编队控制或自动化对抗仿真，这套代码库将为你提供扎实的实","MADDPG 是一个基于 PyTorch 实现的开源多智能体强化学习算法库，源自论文《混合协作与竞争环境下的多智能体 Actor-Critic》。它主要解决多个智能体在复杂环境中如何协同合作或相互竞争的学习难题，特别适用于那些环境动态随其他智能体行为而变化的场景。\n\n在传统单智能体算法难以应对的多方博弈中，MADDPG 通过“集中式训练、分布式执行”的独特机制，让每个智能体在训练时能获取全局信息以优化策略，而在实际运行时仅依赖本地观测进行决策。这种设计有效平衡了训练稳定性与实际部署的灵活性。\n\n该工具内置了对 OpenAI 多智能体粒子环境（MPE）的支持，默认提供了“简单追捕”场景的示例代码：用户可观察三个捕食者智能体如何通过学习协作围捕一个随机移动的猎物。虽然预提供模型并非最优性能，但为开发者留出了充足的微调与再训练空间。此外，项目还允许用户灵活切换稀疏奖励与稠密奖励设置，以便探索不同激励机制对学习效果的影响。\n\nMADDPG 非常适合人工智能研究人员、强化学习开发者以及高校师生使用。如果你正在探索多智能体系统的博弈策略、机器人编队控制或自动化对抗仿真，这套代码库将为你提供扎实的实验基准与清晰的实现参考，助你快速验证想法并深入理解多智能体交互的核心逻辑。","# MADDPG\n\nThis is a pytorch implementation of MADDPG on [Multi-Agent Particle Environment(MPE)](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fmultiagent-particle-envs), the corresponding paper of MADDPG is [Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments](https:\u002F\u002Farxiv.org\u002Fabs\u002F1706.02275).\n\n## Requirements\n\n- python=3.6.5\n- [Multi-Agent Particle Environment(MPE)](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fmultiagent-particle-envs)\n- torch=1.1.0\n\n## Quick Start\n\n```shell\n$ python main.py --scenario-name=simple_tag --evaluate-episodes=10\n```\n\nDirectly run the main.py, then the algrithm will be tested on scenario 'simple_tag' for 10 episodes, using the pretrained model.\n\n## Note\n\n+ We have train the agent on scenario 'simple_tag', but the model we provide is not the best because we don't want to waste time on training, you can keep training it for better performence.\n\n+ There are 4 agents in simple_tag, including 3 predators and 1 prey. we use MADDPG to train predators to catch the prey. The prey's action can be controlled by you, in our case we set it random. \n\n+ The default setting of Multi-Agent Particle Environment(MPE) is sparse reward, you can change it to dense reward by replacing 'shape=False' to 'shape=True' in file multiagent-particle-envs\u002Fmultiagent\u002Fscenarios\u002Fsimple_tag.py\u002F.\n","# MADDPG\n\n这是在 [多智能体粒子环境(MPE)](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fmultiagent-particle-envs) 上实现的 MADDPG 的 PyTorch 版本。MADDPG 的相关论文是 [混合合作-竞争环境下的多智能体演员-评论家算法](https:\u002F\u002Farxiv.org\u002Fabs\u002F1706.02275)。\n\n## 需求\n\n- python=3.6.5\n- [多智能体粒子环境(MPE)](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fmultiagent-particle-envs)\n- torch=1.1.0\n\n## 快速开始\n\n```shell\n$ python main.py --scenario-name=simple_tag --evaluate-episodes=10\n```\n\n直接运行 main.py，算法将在 'simple_tag' 场景下使用预训练模型进行 10 轮评估。\n\n## 注意事项\n\n+ 我们已经在 'simple_tag' 场景上训练了智能体，但我们提供的模型并非最佳，因为我们没有花太多时间去进一步训练。你可以继续训练以获得更好的性能。\n\n+ 'simple_tag' 场景中有 4 个智能体，包括 3 个捕食者和 1 个猎物。我们使用 MADDPG 来训练捕食者捕捉猎物。猎物的行为可以由你控制，在我们的实验中，我们将其设置为随机行为。\n\n+ 多智能体粒子环境(MPE)的默认奖励机制是稀疏奖励。你可以通过将文件 `multiagent-particle-envs\u002Fmultiagent\u002Fscenarios\u002Fsimple_tag.py` 中的 `'shape=False'` 改为 `'shape=True'` 来切换到密集奖励模式。","# MADDPG 快速上手指南\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n- **Python**: 3.6.5\n- **PyTorch**: 1.1.0\n- **依赖库**: [Multi-Agent Particle Environment (MPE)](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fmultiagent-particle-envs)\n\n> **提示**：国内开发者在安装 Python 依赖时，推荐使用清华或阿里镜像源以加速下载。例如：`pip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple \u003Cpackage_name>`\n\n## 安装步骤\n\n1. **克隆并安装 MPE 环境**\n   首先获取官方多智能体粒子环境代码并进行安装：\n   ```shell\n   git clone https:\u002F\u002Fgithub.com\u002Fopenai\u002Fmultiagent-particle-envs.git\n   cd multiagent-particle-envs\n   pip install -e .\n   ```\n   *(如需加速，可添加 `-i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`)*\n\n2. **安装 PyTorch**\n   根据项目要求安装指定版本的 PyTorch（1.1.0）：\n   ```shell\n   pip install torch==1.1.0\n   ```\n\n3. **获取 MADDPG 代码**\n   确保当前目录下包含 `main.py` 及相关模型文件。\n\n## 基本使用\n\n完成环境配置后，您可以直接运行测试脚本。以下命令将加载预训练模型，在 `simple_tag` 场景下进行 10 个回合的评估测试：\n\n```shell\npython main.py --scenario-name=simple_tag --evaluate-episodes=10\n```\n\n**场景说明**：\n- 该场景包含 4 个智能体：3 个捕食者（Predators）和 1 个猎物（Prey）。\n- 本实现使用 MADDPG 算法训练捕食者捕捉猎物。\n- 猎物的动作默认设置为随机策略，您也可以自行控制。\n\n> **注意**：提供的预训练模型并非最优性能（为节省时间未进行充分训练）。如需获得更好效果，建议移除评估参数继续训练。此外，默认环境使用稀疏奖励（Sparse Reward），若需改为稠密奖励（Dense Reward），请修改 `multiagent-particle-envs\u002Fmultiagent\u002Fscenarios\u002Fsimple_tag.py` 文件，将 `shape=False` 改为 `shape=True`。","某自动驾驶研发团队正在开发多辆无人配送车在复杂路口的协同调度系统，需解决车辆间既合作又竞争的资源博弈问题。\n\n### 没有 MADDPG 时\n- 各车辆采用独立强化学习算法，无法感知其他车辆的策略意图，导致路口频繁发生死锁或碰撞。\n- 训练过程中环境非平稳，因其他车辆策略实时变化，单车模型难以收敛，调试周期长达数周。\n- 缺乏有效的多智能体通信机制，车辆只能基于局部观测行动，无法形成“围堵”或“让行”等高级协作战术。\n- 在混合博弈场景下（如部分车辆需竞速、部分需护航），传统算法难以平衡合作与竞争目标，整体通行效率低下。\n\n### 使用 MADDPG 后\n- 引入集中式训练与分布式执行架构，每辆车能隐式推断同伴策略，路口通过率提升 40% 且零碰撞。\n- 利用全局状态信息稳定训练过程，模型收敛速度加快 3 倍，大幅缩短从仿真到实车的部署时间。\n- 通过多智能体演员 - 评论家结构，车辆自主学会复杂的协同战术，如三车合围疏导拥堵或动态礼让紧急车辆。\n- 完美适配混合博弈环境，算法自动调整权重，使竞速车辆保持速度的同时，确保护航车辆优先保障安全。\n\nMADDPG 通过将多智能体间的动态博弈转化为可学习的协同策略，彻底解决了复杂交通场景下的群体智能决策难题。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstarry-sky6688_MADDPG_8667146e.png","starry-sky6688",null,"https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fstarry-sky6688_0543ff5f.jpg","DRL   MARL","https:\u002F\u002Fgithub.com\u002Fstarry-sky6688",[82],{"name":83,"color":84,"percentage":85},"Python","#3572A5",100,680,93,"2026-03-24T16:59:24","","未说明",{"notes":92,"python":93,"dependencies":94},"该工具基于 OpenAI 的多智能体粒子环境 (MPE)。默认场景 'simple_tag' 包含 4 个智能体（3 个捕食者和 1 个猎物），预训练模型并非最优，建议继续训练以提升性能。默认奖励设置为稀疏奖励，如需稠密奖励，需修改 MPE 源码中的 'shape=False' 为 'shape=True'。","3.6.5",[95,96],"torch==1.1.0","multiagent-particle-envs",[15,13],"2026-03-27T02:49:30.150509","2026-04-06T08:45:22.843907",[101,106,111,116,121,126,131],{"id":102,"question_zh":103,"answer_zh":104,"source_url":105},15450,"运行代码时遇到 'Box' object has no attribute 'n' 或 'MultiDiscrete' object has no attribute 'n' 错误怎么办？","这是由于 openai gym 或 multi-agent-particle-environment (MPE) 版本不兼容导致的。解决方案如下：\n1. 卸载当前的 openai PE。\n2. 安装作者指定的新版 openai PE（参考项目链接）。\n3. 严格控制 gym 版本为 0.10.5，执行命令：pip install gym==0.10.5。\n此问题在 simple_tag, simple_world_comm 等场景中均会出现。","https:\u002F\u002Fgithub.com\u002Fstarry-sky6688\u002FMADDPG\u002Fissues\u002F1",{"id":107,"question_zh":108,"answer_zh":109,"source_url":110},15451,"该 MADDPG 模型是用于连续动作空间还是离散动作空间？","该模型设计用于连续动作场景。虽然代码中 env.discrete_action_space 可能显示为 True，但这可能是环境定义的特定含义。如果在 utils.py 中将动作空间改为连续（Box 类型）导致报错，是因为代码中使用了 .n 属性（仅适用于离散空间）。若要支持连续动作，需要修改 utils.py 中的 action_shape 获取逻辑，不再依赖 .n 属性，而是直接获取 Box 的维度。","https:\u002F\u002Fgithub.com\u002Fstarry-sky6688\u002FMADDPG\u002Fissues\u002F35",{"id":112,"question_zh":113,"answer_zh":114,"source_url":115},15452,"Critic 网络的输入状态是所有智能体的状态吗？与论文描述是否一致？","是的，Critic 网络输入的是所有 Agent 的全局状态（x）和所有 Agent 的动作。这与 MADDPG 论文一致。注意区分变量含义：x 代表全局状态（包含所有 agent 信息），而 o 代表每个 agent 自己的局部观察。代码实现中确实使用了全局信息进行 Critic 训练。","https:\u002F\u002Fgithub.com\u002Fstarry-sky6688\u002FMADDPG\u002Fissues\u002F46",{"id":117,"question_zh":118,"answer_zh":119,"source_url":120},15453,"如何修改代码以支持对抗方（反方）也使用神经网络进行训练（Self-Play）？","可以给反方也添加一个 DDPG\u002FMADDPG 网络，使其能选择对自己奖励最高的动作。具体做法：\n1. 为反方设置独立的奖励函数（Reward），正反方奖励需分开计算。\n2. 采用自我博弈（Self-Play）的方式进行迭代训练，即双方网络交替或同时更新。\n3. 展示结果时，建议分别绘制正方和反方的 Reward 随 episode 变化的曲线以便分析。","https:\u002F\u002Fgithub.com\u002Fstarry-sky6688\u002FMADDPG\u002Fissues\u002F39",{"id":122,"question_zh":123,"answer_zh":124,"source_url":125},15454,"调整 Actor 和 Critic 的更新顺序后出现梯度更新失败（inplace 操作错误）如何解决？","如果先更新 Critic 再更新 Actor 导致报错，原因是 Actor 的损失计算依赖于旧的 Critic 网络梯度，而 Critic 更新后这些梯度在 PyTorch 看来已过期。建议不要简单调换顺序，而是确保在计算 Actor 损失时使用正确的计算图。如果必须调整，可以尝试将 Critic 的更新步骤放在特定的位置，或者确保在反向传播前正确清零梯度（zero_grad），避免 inplace 操作破坏计算图。通常标准做法是先计算所有 loss，再按依赖关系更新。","https:\u002F\u002Fgithub.com\u002Fstarry-sky6688\u002FMADDPG\u002Fissues\u002F27",{"id":127,"question_zh":128,"answer_zh":129,"source_url":130},15455,"训练模型达到收敛大概需要多长时间？提供的预训练模型对应多少步数？","模型收敛通常需要约一晚上的时间（取决于硬件配置）。项目中提供的预训练模型参数是在训练完 200 万（2,000,000）个 time-step 后得到的结果。此时最终 Reward 可以达到较高水平（如简单场景中约 1000 左右）。","https:\u002F\u002Fgithub.com\u002Fstarry-sky6688\u002FMADDPG\u002Fissues\u002F21",{"id":132,"question_zh":133,"answer_zh":134,"source_url":135},15456,"自定义场景训练时奖励不收敛或智能体表现异常（如原地抖动）可能的原因是什么？","可能的原因包括：\n1. Off-policy 算法本身不稳定，容易发散，特别是在训练初期。\n2. 某个智能体未收敛可能是因为未采用共享奖励机制，导致协作困难。\n3. 如果智能体原地抖动，检查环境中是否有代码覆盖了设定的动作，或者动作空间的定义与实际输出不匹配。\n4. 确认最大累计奖励是否已在早期达到，若已达到则后续波动属正常现象。","https:\u002F\u002Fgithub.com\u002Fstarry-sky6688\u002FMADDPG\u002Fissues\u002F48",[]]