overcooked_ai
Overcooked-AI 是一个基于热门游戏《胡闹厨房》(Overcooked)构建的基准测试环境,专门用于评估人类与人工智能在完全协作任务中的表现。在这个虚拟厨房中,智能体需要与队友默契配合,完成分配食材、烹饪汤品及送餐等一系列复杂操作,目标是以最快速度交付订单以获取高分。
该工具主要解决了人机协作中“默契度”难以量化和训练的难题。传统 AI 往往擅长与同类配合,却难以适应人类多变的操作习惯。Overcooked-AI 通过提供高度灵活的关卡布局和标准化的交互接口,让研究人员能够系统地训练和测试 AI 理解人类意图、动态调整策略以及灵活分工的能力。
它非常适合人工智能研究人员、强化学习开发者以及对人机交互(HRI)感兴趣的学者使用。借助该平台,用户可以复现经典论文实验,或利用已有的真人游戏数据训练更懂人类的协作型智能体。其独特亮点在于不仅提供了丰富的预设地图和程序化生成能力,还开源了大量珍贵的人机协作实测数据,为开发具备高度适应性和鲁棒性的协作算法提供了坚实基础。
使用场景
某高校人机协作实验室正在研发一款能与人类自然配合的服务型机器人,急需验证其动态分工与即时协调能力。
没有 overcooked_ai 时
- 缺乏标准化测试场:团队需自行搭建复杂的模拟环境来测试协作逻辑,代码重复开发且难以复现经典博弈场景。
- 评估指标不统一:由于缺少公认的基准(Benchmark),不同算法间的协作效率无法横向对比,论文实验数据缺乏说服力。
- 真人测试成本高昂:直接让真人与早期机器人原型配合测试风险高、耗时久,且难以收集到足够多的“人类 - 人类”高质量协作数据作为训练参照。
- 场景泛化性差:自研环境往往布局单一,导致训练出的智能体只会死记硬背特定路线,一旦厨房布局微调就彻底“罢工”。
使用 overcooked_ai 后
- 即插即用基准环境:直接调用内置的多种厨房布局(如不对称通道、动态障碍),瞬间获得工业级标准的协作测试场,大幅缩短研发周期。
- 量化协作性能:利用其成熟的评分机制,精确量化机器人在“煮汤”、“递盘”等环节与人类的配合度,使实验结果可被学术界直接认可。
- 低成本数据增强:通过内置接口快速采集或利用已有的大规模人类协作数据集,让智能体在虚拟环境中先学会“像人一样思考”,再上岗实战。
- 提升鲁棒性与适应性:在随机生成的复杂布局中强化训练,使机器人学会根据队友位置动态调整策略,即使面对陌生厨房布局也能灵活补位。
overcooked_ai 将抽象的人机协作理论转化为可视化的烹饪博弈,成为衡量智能体是否真正具备“团队意识”的黄金标尺。
运行环境要求
- 未说明
未说明
未说明

快速开始
Overcooked-AI 🧑🍳🤖
5 种可用布局。新的布局可以轻松硬编码或通过程序生成。
简介 🥘
Overcooked-AI 是一个用于完全协作式人机任务表现的基准环境,基于广受欢迎的电子游戏 Overcooked。
游戏的目标是尽快送出汤品。每份汤需要将最多 3 种食材放入锅中,等待汤煮熟后,由智能体拿起汤并送达。智能体应实时分配任务并有效协作,以获得高奖励。
您可以在 这里尝试游戏(使用一些先前训练好的 DRL 智能体)。要使用此界面与您自己训练的智能体进行交互,或收集更多人机或人人数据,您可以使用 此处 的代码。我们已经收集了一些人人和人机对战数据,可在此处找到:https://github.com/HumanCompatibleAI/overcooked_ai/tree/master/src/human_aware_rl/static/human_data。
注意 + 寻求贡献者: DRL 和 BC 实现现已弃用。我们过去曾在 human_aware_rl 目录中包含训练 BC 和 PPO 智能体的代码。有关详细信息,请参阅 此问题。
该基准是在 2019 年的一篇论文背景下构建的:关于学习人类知识对人机协作的效用。另请参阅我们的 博客文章。
使用 Overcooked-AI 的研究论文 📑
- Carroll, Micah, Rohin Shah, Mark K. Ho, Thomas L. Griffiths, Sanjit A. Seshia, Pieter Abbeel, and Anca Dragan. "关于学习人类知识对人机协作的效用。" NeurIPS 2019。
- Charakorn, Rujikorn, Poramate Manoonpong, and Nat Dilokthanakul. “合作式多智能体深度强化学习中伙伴多样化方法的研究。” 神经信息处理。ICONIP 2020。
- Knott, Paul, Micah Carroll, Sam Devlin, Kamil Ciosek, Katja Hofmann, Anca D. Dragan, and Rohin Shah. "评估协作智能体的鲁棒性。" AAMAS 2021。
- Nalepka, Patrick, Jordan P. Gregory-Dunsmore, James Simpson, Gaurav Patil, and Michael J. Richardson. "人工智能体与人类团队合作中的交互灵活性。" Cogsci 2021。
- Fontaine, Matthew C., Ya-Chuan Hsu, Yulun Zhang, Bryon Tjanaka, and Stefanos Nikolaidis. “环境在人机协作中的重要性” RSS 2021。
- Zhao, Rui, Jinming Song, Hu Haifeng, Yang Gao, Yi Wu, Zhongqian Sun, Yang Wei. "最大熵群体基础训练用于零样本人机协作"。NeurIPS 合作人工智能研讨会,2021 年。
- Sarkar, Bidipta, Aditi Talati, Andy Shih, and Dorsa Sadigh. “PantheonRL:用于动态训练交互的 MARL 库”。AAAI 2022。
- Ribeiro, João G., Cassandro Martinho, Alberto Sardinha, Francisco S. Melo. "在部分可观测环境下协助未知队友完成未知任务:临时团队合作"。
- Xihuai Wang, Shao Zhang, Wenhao Zhang, Wentao Dong, Jingxiao Chen, Ying Wen and Weinan Zhang. NeurIPS 2024。“ZSC-Eval:用于多智能体零样本协作的评估工具包和基准测试”。
安装 ☑️
从 PyPI 安装 🗜
您可以使用 pip 安装预编译的 wheel 文件。
pip install overcooked-ai
请注意,PyPI 发布版本稳定但频率较低。如需最新的开发功能,请从源代码构建。我们建议使用 uv 来安装软件包,以便您可以使用提供的锁定文件来确保不会出现最低软件包版本问题。
从源代码构建 🔧
克隆仓库
git clone https://github.com/HumanCompatibleAI/overcooked_ai.git
使用 uv(推荐):
uv venv
uv sync
验证安装 📈
从源代码构建时,可以通过运行 Overcooked 单元测试套件来验证安装。以下命令都应在 overcooked_ai 项目根目录下执行:
python testing/overcooked_test.py
如果您打算大量使用规划代码,应运行完整的测试套件,以验证所有 Overcooked 附加工具(这可能需要 5–10 分钟):
python -m unittest discover -s testing/ -p "*_test.py"
有关快速入门环境使用的指南,请参阅此 笔记本。
代码结构概览 🗺
overcooked_ai_py 包含以下内容:
mdp/:
overcooked_mdp.py:Overcooked 游戏的主要逻辑overcooked_env.py:基于 Overcooked MDP 构建的环境类layout_generator.py:用于以编程方式生成随机布局的函数
agents/:
agent.py:智能体类的存放位置benchmarking.py:智能体(包括训练好的模型和规划器)的示例轨迹,并可加载各种模型
planning/:
planners.py:近似最优的智能体规划逻辑search.py:A* 搜索及最短路径逻辑
overcooked_demo 包含以下内容:
server/:
app.py:Flask 应用程序game.py:游戏的主要逻辑。状态转移由嵌入在游戏环境中的 overcooked.Gridworld 对象处理move_agents.py:一个脚本,用于简化将检查点文件复制到 agents 目录的操作。使用说明可在文件内找到,或通过运行python move_agents.py -h获取
up.sh:用于启动托管游戏的 Docker 服务器的 Shell 脚本
human_aware_rl 包含以下内容(注意:此部分已不再维护,更多信息请参阅 README 的底部):
ppo/:
ppo_rllib.py:PPO 智能体训练代码的主要模块。其中包括对OvercookedEnv的 rllib 兼容封装、将 rllib 的Policy类转换为 OvercookedAgent的工具函数,以及一些实用函数和回调ppo_rllib_client.py:用于配置和启动智能体训练的驱动代码。使用详情见下文ppo_rllib_from_params_client.py:在具有可变 MDP 的 Overcooked 环境中使用 PPO 训练单个智能体ppo_rllib_test.py:用于本地验证的可重复性测试run_experiments.sh:用于在 5 种经典布局上训练智能体的脚本trained_example/:用于测试的预训练模型
rllib/:
rllib.py:利用 Overcooked API 的 rllib 智能体及训练工具utils.py:上述模块的工具函数tests.py:上述模块的初步测试
imitation/:
behavior_cloning_tf2.py:用于训练、保存和加载行为克隆模型的模块behavior_cloning_tf2_test.py:包含基本的可重复性测试以及行为克隆模块各组件的单元测试
human/:
process_data.py:用于将人类数据处理成特定格式以便 DRL 算法使用的脚本data_processing_utils.py:上述脚本的工具函数
utils.py:整个仓库的工具函数
原始数据 :ledger:
行为克隆训练过程中使用的原始数据超过 100 MB,因此不便通过 Git 分发。代码使用了序列化后的 DataFrame 进行训练和测试,但如果需要原始数据,可以在此处获取:链接
已弃用:行为克隆与强化学习
更多问题与疑问 ❓
如有任何问题或疑问,请联系 Micah Carroll,邮箱地址为 mdc@berkeley.edu。
版本历史
1.1.02021/05/291.0.42020/09/04常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。
