[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-xlang-ai--OSWorld":3,"tool-xlang-ai--OSWorld":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",153609,2,"2026-04-13T11:34:59",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":77,"owner_website":78,"owner_url":79,"languages":80,"stars":105,"forks":106,"last_commit_at":107,"license":108,"difficulty_score":109,"env_os":110,"env_gpu":111,"env_ram":112,"env_deps":113,"category_tags":119,"github_topics":121,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":136,"updated_at":137,"faqs":138,"releases":167},7166,"xlang-ai\u002FOSWorld","OSWorld","[NeurIPS 2024] OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments","OSWorld 是一个专为评估多模态 AI 智能体而设计的开源基准测试平台，旨在让 AI 在真实的计算机操作系统环境中完成各种开放式任务。它解决了当前 AI 评估往往局限于静态数据集或简化模拟环境的问题，通过提供包含真实桌面操作（如文件管理、网页浏览、软件配置等）的动态测试场景，能够更准确地衡量 AI 代理在实际工作流中的规划与执行能力。\n\n这款工具特别适合 AI 研究人员、开发者以及希望验证大模型落地能力的技术团队使用。其核心亮点在于构建了一个可交互的真实操作系统沙箱，支持 VMware、VirtualBox 乃至云端容器等多种部署方式，确保了测试环境的多样性与真实性。最新推出的\"OSWorld-Verified\"版本进一步优化了评估信号的有效性，并大幅提升了在 AWS 等云平台上的并行评估效率，将测试时间缩短至一小时以内。作为 NeurIPS 2024 的入选项目，OSWorld 以开放的姿态推动了具身智能与计算机操作自动化领域的研究进展，帮助社区更客观地对比不同模型的性能表现。","\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxlang-ai_OSWorld_readme_ed52258a2a4c.png\" alt=\"Banner\">\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fos-world.github.io\u002F\">Website\u003C\u002Fa> •\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.07972\">Paper\u003C\u002Fa> •\n  \u003Ca href=\"https:\u002F\u002Ftimothyxxx.github.io\u002FOSWorld\u002F\">Doc\u003C\u002Fa> •\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOSWorld\u002Ftree\u002Fmain\u002Fevaluation_examples\">Data\u003C\u002Fa> •\n  \u003Ca href=\"https:\u002F\u002Fos-world.github.io\u002Fexplorer.html\">Data Viewer\u003C\u002Fa> •\n  \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002F4Gnw7eTEZR\">Discord\u003C\u002Fa> •\n  \u003Ca href=\"https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1XlEy49otYDyBlA3O9NbR0BpPfr2TXgaD\u002Fview?usp=drive_link\">Cache\u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n    \u003Ca href=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPRs-Welcome-red\">\n        \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPRs-Welcome-red\">\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flast-commit\u002Fxlang-ai\u002FOSWorld?color=green\">\n        \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flast-commit\u002Fxlang-ai\u002FOSWorld?color=green\">\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fopensource.org\u002Flicenses\u002FApache-2.0\">\n        \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache%202.0-blue.svg\">\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fbadge.fury.io\u002Fpy\u002Fdesktop-env\">\n        \u003Cimg src=\"https:\u002F\u002Fbadge.fury.io\u002Fpy\u002Fdesktop-env.svg\">\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fpepy.tech\u002Fproject\u002Fdesktop-env\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxlang-ai_OSWorld_readme_7a9c5045e66f.png\">\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n\u003C\u002Fp>\n\n\n## 📢 Updates\n- 2025-07-28: Introducing **OSWorld-Verified**! We have made major updates, fixed several issues reported by the community, with more support for AWS (can reduce evaluation time to within 1 hour through parallelization!), and making the benchmark signals more effective. Check out more in the [report](https:\u002F\u002Fxlang.ai\u002Fblog\u002Fosworld-verified). We have run new model results in the latest version and updated them on the [official website](https:\u002F\u002Fos-world.github.io\u002F). Please compare your OSWorld results with the new benchmark results when running the latest version.\n- 2025-05-01: If you need pre-downloaded files for init state setup, we downloaded for you [here](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1XlEy49otYDyBlA3O9NbR0BpPfr2TXgaD\u002Fview?usp=drive_link).\n- 2024-10-22: We supported Docker🐳 for hosting virtual machines on virtualized platforms. Check below for detailed instructions!\n- 2024-06-15: We refactor the code of environment part to decompose VMware Integration, and start to support other platforms such as VirtualBox, AWS, Azure, etc. Hold tight!\n- 2024-04-11: We released our [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.07972), [environment and benchmark](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOSWorld), and [project page](https:\u002F\u002Fos-world.github.io\u002F). Check it out!\n\n## 💾 Installation\n### VMware\u002FVirtualBox (Desktop, Laptop, Bare Metal Machine)\nSuppose you are operating on a system that has not been virtualized (e.g. your desktop, laptop, bare metal machine), meaning you are not utilizing a virtualized environment like AWS, Azure, or k8s.\nIf this is the case, proceed with the instructions below. However, if you are on a virtualized platform, please refer to the [Docker](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOSWorld?tab=readme-ov-file#docker-server-with-kvm-support-for-the-better) section.\n\n1. First, clone this repository and `cd` into it. Then, install the dependencies listed in `requirements.txt`. It is recommended that you use the latest version of Conda to manage the environment, but you can also choose to manually install the dependencies. Please ensure that the version of Python is >= 3.10.\n```bash\n# Clone the OSWorld repository\ngit clone https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOSWorld\n\n# Change directory into the cloned repository\ncd OSWorld\n\n# Optional: Create a Conda environment for OSWorld\n# conda create -n osworld python=3.10\n# conda activate osworld\n\n# Install required dependencies\npip install -r requirements.txt\n```\n\nAlternatively, you can install the environment without any benchmark tasks:\n```bash\npip install desktop-env\n```\n\n2. Install [VMware Workstation Pro](https:\u002F\u002Fwww.vmware.com\u002Fproducts\u002Fworkstation-pro\u002Fworkstation-pro-evaluation.html) (for systems with Apple Chips, you should install [VMware Fusion](https:\u002F\u002Fsupport.broadcom.com\u002Fgroup\u002Fecx\u002Fproductdownloads?subfamily=VMware+Fusion)) and configure the `vmrun` command.  The installation process can refer to [How to install VMware Workstation Pro](desktop_env\u002Fproviders\u002Fvmware\u002FINSTALL_VMWARE.md). Verify the successful installation by running the following:\n```bash\nvmrun -T ws list\n```\nIf the installation along with the environment variable set is successful, you will see the message showing the current running virtual machines.\n> **Note:** We also support using [VirtualBox](https:\u002F\u002Fwww.virtualbox.org\u002F) if you have issues with VMware Pro. However, features such as parallelism and macOS on Apple chips might not be well-supported.\n\nAll set! Our setup script will automatically download the necessary virtual machines and configure the environment for you.\n\n### Docker (Server with KVM Support for Better Performance)\nIf you are running on a non-bare metal server, or prefer not to use VMware and VirtualBox platforms, we recommend using our Docker support.\n\n#### Prerequisite: Check if your machine supports KVM\nWe recommend running the VM with KVM support. To check if your hosting platform supports KVM, run\n```\negrep -c '(vmx|svm)' \u002Fproc\u002Fcpuinfo\n```\non Linux. If the return value is greater than zero, the processor should be able to support KVM.\n> **Note**: macOS hosts generally do not support KVM. You are advised to use VMware if you would like to run OSWorld on macOS.\n\n#### Install Docker\nIf your hosting platform supports a graphical user interface (GUI), you may refer to [Install Docker Desktop on Linux](https:\u002F\u002Fdocs.docker.com\u002Fdesktop\u002Finstall\u002Flinux\u002F) or [Install Docker Desktop on Windows](https:\u002F\u002Fdocs.docker.com\u002Fdesktop\u002Finstall\u002Fwindows-install\u002F) based on your OS. Otherwise, you may [Install Docker Engine](https:\u002F\u002Fdocs.docker.com\u002Fengine\u002Finstall\u002F).\n\n#### Running Experiments\nAdd the following arguments when initializing `DesktopEnv`: \n- `provider_name`: `docker`\n- `os_type`: `Ubuntu` or `Windows`, depending on the OS of the VM\n> **Note**: If the experiment is interrupted abnormally (e.g., by interrupting signals), there may be residual docker containers which could affect system performance over time. Please run `docker stop $(docker ps -q) && docker rm $(docker ps -a -q)` to clean up.\n\n### AWS\nUsing cloud services for parallel evaluation can significantly accelerate evaluation efficiency (can reduce evaluation time to within 1 hour through parallelization!) and can even be used as infrastructure for training.\nWe provide comprehensive AWS support with a Host-Client architecture that enables large-scale parallel evaluation of OSWorld tasks.\nFor detailed setup instructions, see [Setup Guideline](SETUP_GUIDELINE.md) and [AWS Configuration Guide](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOSWorld\u002Fblob\u002Fmain\u002Fdesktop_env\u002Fproviders\u002Faws\u002FAWS_GUIDELINE.md). \n\n### Others\nWe are working on supporting more 👷. Please hold tight!\n\n\n## 🚀 Quick Start\nRun the following minimal example to interact with the environment:\n\n```bash\n# Basic usage with default settings\npython quickstart.py\n\n# Customize provider and VM path\npython quickstart.py --provider_name vmware --path_to_vm \"path\u002Fto\u002Fyour\u002Fvm.vmx\"\n```\n\nYou will see all the logs of the system running normally, including the successful creation of the environment, completion of setup, and successful execution of actions. In the end, you will observe a successful right-click on the screen, which means you are ready to go.\n\n## 🧪 Experiments\n### Agent Baselines\n\n> **⚠️ Important Configuration Requirements:**\n>\n> * **Google Account Tasks**: Some tasks require Google account access and OAuth2.0 configuration. Please refer to [Setup Guideline - Google Account Setup](SETUP_GUIDELINE.md#1-google-account-setup) for detailed setup instructions.\n> * **Proxy Configuration**: Some tasks may require proxy settings to function properly (this depends on the strength of website defenses against your network location). Please refer to [Setup Guideline - Proxy Configuration](SETUP_GUIDELINE.md#2-proxy-configuration).\n> * **Impact of Missing Configuration**: If these configurations are not properly set up, the corresponding tasks will fail to execute correctly, leading to lower evaluation scores.\n\n\nIf you wish to run the baseline agent used in our paper, you can execute the following command as an example under the GPT-4o pure-screenshot setting:\n\nSet **OPENAI_API_KEY** environment variable with your API key\n```bash\nexport OPENAI_API_KEY='changeme'\n```\n\nOptionally, set **OPENAI_BASE_URL** to use a custom OpenAI-compatible API endpoint\n```bash\nexport OPENAI_BASE_URL='http:\u002F\u002Fyour-custom-endpoint.com\u002Fv1'  # Optional: defaults to https:\u002F\u002Fapi.openai.com\n```\n\nSingle-threaded execution (deprecated, using `vmware` provider as example)\n```bash\npython run.py \\\n    --provider_name vmware \\\n    --path_to_vm Ubuntu\u002FUbuntu.vmx \\\n    --headless \\\n    --observation_type screenshot \\\n    --model gpt-4o \\\n    --sleep_after_execution 3 \\\n    --max_steps 15 \\\n    --result_dir .\u002Fresults \\\n    --client_password password\n```\n\nParallel execution (example showing switching provider to `docker`)\n```bash\npython scripts\u002Fpython\u002Frun_multienv.py \\\n    --provider_name docker \\\n    --headless \\\n    --observation_type screenshot \\\n    --model gpt-4o \\\n    --sleep_after_execution 3 \\\n    --max_steps 15 \\\n    --num_envs 10 \\\n    --client_password password\n```\n\nThe results, which include screenshots, actions, and video recordings of the agent's task completion, will be saved in the `.\u002Fresults` (or other `result_dir` you specified) directory in this case.\nYou can then run the following command to obtain the result:\n\n```bash\n# Basic usage with default parameters\npython show_result.py\n\n# Specify custom parameters\npython show_result.py \\\n    --action_space pyautogui \\\n    --model gpt-4o \\\n    --observation_type screenshot \\\n    --result_dir .\u002Fresults\n\n# Show detailed scores per domain (format: score\u002Ftotal)\npython show_result.py --detailed\n```\n\nThe script will display:\n- Per-domain success rates\n- Category-level statistics (Office, Daily, Professional)\n- Overall success rate and total score\n- With `--detailed` flag: compact format showing \"score\u002Ftotal\" for each domain\n\n### Manual Task Examination\nFor manual verification and examination of specific benchmark tasks, you can use the manual examination tool:\n\n```bash\npython scripts\u002Fpython\u002Fmanual_examine.py \\\n    --headless \\\n    --observation_type screenshot \\\n    --result_dir .\u002Fresults_human_examine \\\n    --test_all_meta_path evaluation_examples\u002Ftest_all.json \\\n    --domain libreoffice_impress \\\n    --example_id a669ef01-ded5-4099-9ea9-25e99b569840 \\\n    --max_steps 3\n```\n\nThis tool allows you to:\n- Manually execute tasks in the environment\n- Verify task correctness and evaluation metrics\n- Record the execution process with screenshots and videos\n- Examine specific problematic tasks\n\nSee `scripts\u002Fbash\u002Frun_manual_examine.sh` for example task IDs across different domains.\n\n## Evaluation\n### Local Evaluation\nPlease start by reading through the [agent interface](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOSWorld\u002Fblob\u002Fmain\u002Fmm_agents\u002FREADME.md) and the [environment interface](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOSWorld\u002Fblob\u002Fmain\u002Fdesktop_env\u002FREADME.md).\nCorrectly implement the agent interface and import your customized version in the `run.py` (for single-threaded execution) or `scripts\u002Fpython\u002Frun_multienv.py` \u002F `scripts\u002Fpython\u002Frun_multienv_xxx.py` (for parallel execution) file.\nAfterward, you can execute a command similar to the one in the previous section to run the benchmark on your agent.\n\n### Public Evaluation\nIf you want your results to be verified and displayed on the verified leaderboard, you need to schedule a meeting with us (current maintainer: tianbaoxiexxx@gmail.com, yuanmengqi732@gmail.com) to run your agent code on our side and have us report the results. \nYou need to upload and allow us to disclose your agent implementation under the OSWorld framework (you may choose not to expose your model API to the public), along with a report that allows the public to understand what's happening behind the scenes.\nAlternatively, if you are from a trusted institution, you can share your monitoring data and trajectories with us.\nPlease carefully follow the [Setup Guideline - Public Evaluation Platform](SETUP_GUIDELINE.md#3-public-evaluation-platform) to get results.\n\n\n## ❓ FAQ\n### What is the username and password for the virtual machines?\nThe username and password for the virtual machines are as follows (for provider `vmware`, `virtualbox` and `docker`): we set the account credentials for Ubuntu as `user` \u002F `password`. \nFor cloud service providers like `aws`, to prevent attacks due to weak passwords, we default to `osworld-public-evaluation`. \nIf you make further modifications, remember to set the client_password variable and pass it to DesktopEnv and Agent (if supported) when running experiments. \nSome features like setting up proxy require the environment to have the client VM password to obtain sudo privileges, and for some OSWorld tasks, the agent needs the password to obtain sudo privileges to complete them.\n\n### How to setup the account and credentials for Google and Google Drive?\n\nSee [Setup Guideline - Google Account Setup](SETUP_GUIDELINE.md#1-google-account-setup).\n\n### How can I configure a proxy for the VM (if I'm behind the GFW, or I don't want some of my tasks to be identified as bot and get lower scores)?\n\nSee [Setup Guideline - Proxy Configuration](SETUP_GUIDELINE.md#2-proxy-configuration).\nWe also provide a pre-configured solution based on DataImpulse, please refer to the [proxy setup section](SETUP_GUIDELINE.md#23-proxy-for-specific-tasks-recommended).\n\n### Open Source Contributors\n\nThanks to all the contributors!\n\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOSWorld\u002Fgraphs\u002Fcontributors\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxlang-ai_OSWorld_readme_2f9f94439bee.png\" \u002F>\n\u003C\u002Fa>\n\n\n## 📄 Citation\nIf you find this environment useful, please consider citing our work:\n```\n@misc{OSWorld,\n      title={OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments}, \n      author={Tianbao Xie and Danyang Zhang and Jixuan Chen and Xiaochuan Li and Siheng Zhao and Ruisheng Cao and Toh Jing Hua and Zhoujun Cheng and Dongchan Shin and Fangyu Lei and Yitao Liu and Yiheng Xu and Shuyan Zhou and Silvio Savarese and Caiming Xiong and Victor Zhong and Tao Yu},\n      year={2024},\n      eprint={2404.07972},\n      archivePrefix={arXiv},\n      primaryClass={cs.AI}\n}\n```\n\n## Acknowledgement for OSWorld-Verified\nSpecial thanks to the following institutions that provided feedback and participated in the fixes (as well as institutions that provided feedback during the process): [MoonShot AI, a.k.a. Kimi](https:\u002F\u002Fwww.moonshot.ai\u002F)，[Human Data](https:\u002F\u002Fwww.hud.so\u002F), [OpenAI](https:\u002F\u002Fopenai.com\u002F), [ByteDance Seed TARS](https:\u002F\u002Fseed-tars.com\u002F), [Anthropic](https:\u002F\u002Fwww.anthropic.com\u002F), [Simular](https:\u002F\u002Fwww.simular.ai\u002F), [HKU Data Intelligence Lab](https:\u002F\u002Fsites.google.com\u002Fview\u002Fchaoh)\n\nSpecial thanks to the following students who participated in the specific fixes: [Mengqi Yuan](https:\u002F\u002Fyuanmengqi.github.io\u002F), [Danyang Zhang](https:\u002F\u002Fzdy023.github.io\u002F), [Xinzhuang Xiong](https:\u002F\u002Fthisisxxz.com\u002F),  [Zhennan Shen](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=JPwg5MwAAAAJ&hl=en), [Zilong Zhou](https:\u002F\u002Fgithub.com\u002Fadlsdztony), Yanxu Chen, [Jiaqi Deng](https:\u002F\u002Fmillank0817.github.io\u002F), [Tianbao Xie](https:\u002F\u002Ftianbaoxie.com\u002F), Junda Chen, [Jixuan Chen](https:\u002F\u002Fchenjix.github.io\u002F), [Haoyuan Wu](https:\u002F\u002Fwww.linkedin.com\u002Fin\u002Fhaoyuan-wu-240878291\u002F).\n\nSpecial thanks to the following students who participated in running the re-evaluation: [Mengqi Yuan](https:\u002F\u002Fyuanmengqi.github.io\u002F), [Zilong Zhou](https:\u002F\u002Fgithub.com\u002Fadlsdztony), [Xinyuan Wang](https:\u002F\u002Fxinyuanwangcs.github.io\u002F), [Bowen Wang](https:\u002F\u002Fbowenbryanwang.github.io\u002F).\n\n## You might also be interested\n\n- **OSWorld-MCP**: Benchmarking MCP Tool Invocation in Computer-Use Agents. [Website](https:\u002F\u002Fosworld-mcp.github.io\u002F)\n","\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxlang-ai_OSWorld_readme_ed52258a2a4c.png\" alt=\"Banner\">\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fos-world.github.io\u002F\">官网\u003C\u002Fa> •\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.07972\">论文\u003C\u002Fa> •\n  \u003Ca href=\"https:\u002F\u002Ftimothyxxx.github.io\u002FOSWorld\u002F\">文档\u003C\u002Fa> •\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOSWorld\u002Ftree\u002Fmain\u002Fevaluation_examples\">数据\u003C\u002Fa> •\n  \u003Ca href=\"https:\u002F\u002Fos-world.github.io\u002Fexplorer.html\">数据查看器\u003C\u002Fa> •\n  \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002F4Gnw7eTEZR\">Discord\u003C\u002Fa> •\n  \u003Ca href=\"https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1XlEy49otYDyBlA3O9NbR0BpPfr2TXgaD\u002Fview?usp=drive_link\">缓存\u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n    \u003Ca href=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPRs-Welcome-red\">\n        \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPRs-Welcome-red\">\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flast-commit\u002Fxlang-ai\u002FOSWorld?color=green\">\n        \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flast-commit\u002Fxlang-ai\u002FOSWorld?color=green\">\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fopensource.org\u002Flicenses\u002FApache-2.0\">\n        \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache%202.0-blue.svg\">\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fbadge.fury.io\u002Fpy\u002Fdesktop-env\">\n        \u003Cimg src=\"https:\u002F\u002Fbadge.fury.io\u002Fpy\u002Fdesktop-env.svg\">\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fpepy.tech\u002Fproject\u002Fdesktop-env\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxlang-ai_OSWorld_readme_7a9c5045e66f.png\">\n    \u003C\u002Fa>\n    \u003Cbr\u002F>\n\u003C\u002Fp>\n\n\n## 📢 最新动态\n- 2025-07-28：隆重推出 **OSWorld-Verified**！我们进行了重大更新，修复了社区反馈的多个问题，并进一步增强了对 AWS 的支持（通过并行化可将评估时间缩短至 1 小时以内），同时使基准测试信号更加有效。更多详情请参阅 [报告](https:\u002F\u002Fxlang.ai\u002Fblog\u002Fosworld-verified)。我们已在最新版本中运行了新的模型结果，并已同步更新至 [官方网站](https:\u002F\u002Fos-world.github.io\u002F)。请在使用最新版本时，将您的 OSWorld 结果与新的基准测试结果进行对比。\n- 2025-05-01：如果您需要用于初始化状态的预下载文件，我们已为您准备好了[此处](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1XlEy49otYDyBlA3O9NbR0BpPfr2TXgaD\u002Fview?usp=drive_link)。\n- 2024-10-22：我们新增了对 Docker🐳 的支持，可在虚拟化平台上托管虚拟机。详细说明请见下文！\n- 2024-06-15：我们重构了环境部分的代码，以解耦 VMware 集成，并开始支持 VirtualBox、AWS、Azure 等其他平台。敬请期待！\n- 2024-04-11：我们发布了[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.07972)、[环境与基准测试](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOSWorld)以及[项目主页](https:\u002F\u002Fos-world.github.io\u002F)。欢迎查阅！\n\n## 💾 安装指南\n### VMware\u002FVirtualBox（桌面、笔记本、裸金属服务器）\n假设您当前使用的系统尚未进行虚拟化（例如您的桌面、笔记本电脑或裸金属服务器），即未在 AWS、Azure 或 k8s 等虚拟化环境中运行。\n如果是这种情况，请按照以下步骤操作。但若您正在使用虚拟化平台，请参阅[Docker](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOSWorld?tab=readme-ov-file#docker-server-with-kvm-support-for-the-better)部分。\n\n1. 首先，克隆本仓库并进入其中。随后安装 `requirements.txt` 中列出的依赖项。建议使用最新版 Conda 来管理环境，但您也可以选择手动安装依赖。请确保 Python 版本 ≥ 3.10。\n```bash\n# 克隆 OSWorld 仓库\ngit clone https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOSWorld\n\n# 进入克隆后的目录\ncd OSWorld\n\n# 可选：创建 OSWorld 的 Conda 环境\n# conda create -n osworld python=3.10\n# conda activate osworld\n\n# 安装所需依赖\npip install -r requirements.txt\n```\n\n或者，您也可以不包含基准任务直接安装环境：\n```bash\npip install desktop-env\n```\n\n2. 安装 [VMware Workstation Pro](https:\u002F\u002Fwww.vmware.com\u002Fproducts\u002Fworkstation-pro\u002Fworkstation-pro-evaluation.html)（对于搭载 Apple 芯片的系统，应安装 [VMware Fusion](https:\u002F\u002Fsupport.broadcom.com\u002Fgroup\u002Fecx\u002Fproductdownloads?subfamily=VMware+Fusion)），并配置 `vmrun` 命令。安装过程可参考 [如何安装 VMware Workstation Pro](desktop_env\u002Fproviders\u002Fvmware\u002FINSTALL_VMWARE.md)。可通过运行以下命令验证安装是否成功：\n```bash\nvmrun -T ws list\n```\n若安装及环境变量设置成功，您将看到当前正在运行的虚拟机列表。\n> **注意**：如果您在使用 VMware Pro 时遇到问题，我们也支持使用 [VirtualBox](https:\u002F\u002Fwww.virtualbox.org\u002F)。不过，某些功能（如并行化和 Apple 芯片上的 macOS）可能无法得到良好支持。\n\n至此，所有准备工作已完成！我们的设置脚本将自动下载所需的虚拟机并为您配置好环境。\n\n### Docker（支持 KVM 的服务器，性能更佳）\n如果您运行的不是裸金属服务器，或者更倾向于不使用 VMware 和 VirtualBox 平台，我们推荐使用 Docker 支持。\n\n#### 前提条件：检查您的机器是否支持 KVM\n我们建议使用支持 KVM 的虚拟机。要检查您的主机平台是否支持 KVM，请在 Linux 上运行：\n```\negrep -c '(vmx|svm)' \u002Fproc\u002Fcpuinfo\n```\n如果返回值大于零，则说明您的处理器可以支持 KVM。\n> **注意**：macOS 主机通常不支持 KVM。如果您希望在 macOS 上运行 OSWorld，建议使用 VMware。\n\n#### 安装 Docker\n如果您的主机平台配备了图形用户界面（GUI），您可以根据操作系统参考 [在 Linux 上安装 Docker Desktop](https:\u002F\u002Fdocs.docker.com\u002Fdesktop\u002Finstall\u002Flinux\u002F) 或 [在 Windows 上安装 Docker Desktop](https:\u002F\u002Fdocs.docker.com\u002Fdesktop\u002Finstall\u002Fwindows-install\u002F)。否则，您可以[安装 Docker 引擎](https:\u002F\u002Fdocs.docker.com\u002Fengine\u002Finstall\u002F)。\n\n#### 运行实验\n在初始化 `DesktopEnv` 时，请添加以下参数：\n- `provider_name`: `docker`\n- `os_type`: `Ubuntu` 或 `Windows`，具体取决于虚拟机的操作系统\n> **注意**：如果实验被异常中断（例如因信号中断），可能会留下残余的 Docker 容器，从而影响系统性能。请运行 `docker stop $(docker ps -q) && docker rm $(docker ps -a -q)` 进行清理。\n\n### AWS\n利用云服务进行并行评估可以显著提升评估效率（通过并行化可将评估时间缩短至 1 小时以内），甚至可用作训练基础设施。\n我们提供完善的 AWS 支持，采用“主机-客户端”架构，能够实现 OSWorld 任务的大规模并行评估。\n有关详细的设置说明，请参阅 [设置指南](SETUP_GUIDELINE.md) 和 [AWS 配置指南](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOSWorld\u002Fblob\u002Fmain\u002Fdesktop_env\u002Fproviders\u002Faws\u002FAWS_GUIDELINE.md)。\n\n### 其他\n我们正在努力支持更多 👷。请耐心等待！\n\n\n## 🚀 快速入门\n运行以下最小示例即可与环境交互：\n\n```bash\n# 使用默认设置的基本用法\npython quickstart.py\n\n# 自定义提供商和虚拟机路径\npython quickstart.py --provider_name vmware --path_to_vm \"path\u002Fto\u002Fyour\u002Fvm.vmx\"\n```\n\n您将看到系统正常运行的所有日志，包括环境成功创建、设置完成以及操作成功执行。最后，您会观察到屏幕上成功执行了右键单击操作，这意味着您可以开始使用了。\n\n## 🧪 实验\n### 代理基线\n\n> **⚠️ 重要配置要求：**\n>\n> * **Google 账号任务**：部分任务需要 Google 账号访问权限及 OAuth2.0 配置。请参阅 [设置指南 - Google 账号设置](SETUP_GUIDELINE.md#1-google-account-setup) 获取详细设置说明。\n> * **代理配置**：某些任务可能需要配置代理才能正常运行（这取决于网站针对您所在网络位置的防御强度）。请参阅 [设置指南 - 代理配置](SETUP_GUIDELINE.md#2-proxy-configuration)。\n> * **缺少配置的影响**：如果未正确配置上述内容，相应任务将无法正常执行，导致评估分数降低。\n\n\n如果您希望运行我们论文中使用的基线代理，可以在 GPT-4o 纯截图设置下执行以下命令作为示例：\n\n使用您的 API 密钥设置 **OPENAI_API_KEY** 环境变量：\n```bash\nexport OPENAI_API_KEY='changeme'\n```\n\n可选地，设置 **OPENAI_BASE_URL** 以使用自定义的 OpenAI 兼容 API 端点：\n```bash\nexport OPENAI_BASE_URL='http:\u002F\u002Fyour-custom-endpoint.com\u002Fv1'  # 可选：默认为 https:\u002F\u002Fapi.openai.com\n```\n\n单线程执行（已弃用，以 `vmware` 提供商为例）：\n```bash\npython run.py \\\n    --provider_name vmware \\\n    --path_to_vm Ubuntu\u002FUbuntu.vmx \\\n    --headless \\\n    --observation_type screenshot \\\n    --model gpt-4o \\\n    --sleep_after_execution 3 \\\n    --max_steps 15 \\\n    --result_dir .\u002Fresults \\\n    --client_password password\n```\n\n并行执行（示例展示切换提供商为 `docker`）：\n```bash\npython scripts\u002Fpython\u002Frun_multienv.py \\\n    --provider_name docker \\\n    --headless \\\n    --observation_type screenshot \\\n    --model gpt-4o \\\n    --sleep_after_execution 3 \\\n    --max_steps 15 \\\n    --num_envs 10 \\\n    --client_password password\n```\n\n在此情况下，结果（包括截图、动作记录和代理完成任务的视频录制）将保存在 `.\u002Fresults`（或您指定的其他 `result_dir`）目录中。然后您可以运行以下命令获取结果：\n\n```bash\n# 使用默认参数的基本用法\npython show_result.py\n\n# 指定自定义参数\npython show_result.py \\\n    --action_space pyautogui \\\n    --model gpt-4o \\\n    --observation_type screenshot \\\n    --result_dir .\u002Fresults\n\n# 显示各领域的详细得分（格式：得分\u002F总分）\npython show_result.py --detailed\n```\n\n该脚本将显示：\n- 各领域的成功率\n- 类别级统计信息（办公、日常、专业）\n- 总体成功率和总分\n- 使用 `--detailed` 标志时：以“得分\u002F总分”的紧凑格式显示每个领域的情况。\n\n### 手动任务检查\n对于特定基准任务的手动验证和检查，您可以使用手动检查工具：\n\n```bash\npython scripts\u002Fpython\u002Fmanual_examine.py \\\n    --headless \\\n    --observation_type screenshot \\\n    --result_dir .\u002Fresults_human_examine \\\n    --test_all_meta_path evaluation_examples\u002Ftest_all.json \\\n    --domain libreoffice_impress \\\n    --example_id a669ef01-ded5-4099-9ea9-25e99b569840 \\\n    --max_steps 3\n```\n\n此工具允许您：\n- 在环境中手动执行任务\n- 验证任务的正确性和评估指标\n- 使用截图和视频记录执行过程\n- 检查特定的问题任务\n\n有关不同领域的示例任务 ID，请参阅 `scripts\u002Fbash\u002Frun_manual_examine.sh`。\n\n## 评估\n### 本地评估\n请先阅读 [代理接口](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOSWorld\u002Fblob\u002Fmain\u002Fmm_agents\u002FREADME.md) 和 [环境接口](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOSWorld\u002Fblob\u002Fmain\u002Fdesktop_env\u002FREADME.md)。\n正确实现代理接口，并将您的定制版本导入到 `run.py`（用于单线程执行）或 `scripts\u002Fpython\u002Frun_multienv.py` \u002F `scripts\u002Fpython\u002Frun_multienv_xxx.py`（用于并行执行）文件中。\n之后，您可以执行与上一节类似的命令来对您的代理进行基准测试。\n\n### 公开评估\n如果您希望您的结果被验证并在经过验证的排行榜上展示，您需要与我们预约会议（当前维护者：tianbaoxiexxx@gmail.com, yuanmengqi732@gmail.com），以便我们在我们的端运行您的代理代码并报告结果。您需要上传并允许我们在 OSWorld 框架下公开您的代理实现（您可以选择不向公众披露您的模型 API），同时提交一份报告，使公众能够了解其背后的工作原理。\n或者，如果您来自受信任的机构，也可以与我们共享您的监控数据和轨迹。\n请仔细遵循 [设置指南 - 公开评估平台](SETUP_GUIDELINE.md#3-public-evaluation-platform) 以获得评估结果。\n\n\n## ❓ 常见问题解答\n### 虚拟机的用户名和密码是什么？\n虚拟机的用户名和密码如下（适用于 `vmware`、`virtualbox` 和 `docker` 提供商）：我们为 Ubuntu 设置的账户凭据是 `user` \u002F `password`。\n对于像 `aws` 这样的云服务提供商，为了防止因弱密码而遭受攻击，我们默认使用 `osworld-public-evaluation`。\n如果您进行了进一步修改，请务必设置 `client_password` 变量，并在运行实验时将其传递给 DesktopEnv 和 Agent（如果支持）。某些功能（如设置代理）需要环境拥有客户端 VM 的密码才能获得 sudo 权限；而对于某些 OSWorld 任务，代理也需要密码才能获得 sudo 权限来完成它们。\n\n### 如何设置 Google 和 Google Drive 的账号及凭据？\n\n请参阅 [设置指南 - Google 账号设置](SETUP_GUIDELINE.md#1-google-account-setup)。\n\n### 如果我在中国大陆（GFW 后），或者不想让某些任务被识别为机器人而降低分数，该如何为虚拟机配置代理？\n\n请参阅 [设置指南 - 代理配置](SETUP_GUIDELINE.md#2-proxy-configuration)。\n我们还提供基于 DataImpulse 的预配置解决方案，请参考 [针对特定任务推荐的代理设置](SETUP_GUIDELINE.md#23-proxy-for-specific-tasks-recommended)。\n\n### 开源贡献者\n\n感谢所有贡献者！\n\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOSWorld\u002Fgraphs\u002Fcontributors\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxlang-ai_OSWorld_readme_2f9f94439bee.png\" \u002F>\n\u003C\u002Fa>\n\n\n## 📄 引用\n如果您觉得这个环境很有用，请考虑引用我们的工作：\n```\n@misc{OSWorld,\n      title={OSWorld: 在真实计算机环境中针对开放性任务的多模态智能体基准测试}, \n      author={谢天宝、张丹阳、陈继轩、李晓川、赵思恒、曹瑞生、托·京华、程周俊、申东灿、雷方宇、刘一涛、许一恒、周书妍、西尔维奥·萨瓦雷斯、熊才明、钟维克、余涛},\n      year={2024},\n      eprint={2404.07972},\n      archivePrefix={arXiv},\n      primaryClass={cs.AI}\n}\n```\n\n## OSWorld-Verified 感谢名单\n特别感谢以下机构提供的反馈及参与修复工作（以及在此过程中提供过宝贵意见的机构）：[MoonShot AI，又名 Kimi](https:\u002F\u002Fwww.moonshot.ai\u002F)、[Human Data](https:\u002F\u002Fwww.hud.so\u002F)、[OpenAI](https:\u002F\u002Fopenai.com\u002F)、[字节跳动 Seed TARS](https:\u002F\u002Fseed-tars.com\u002F)、[Anthropic](https:\u002F\u002Fwww.anthropic.com\u002F)、[Simular](https:\u002F\u002Fwww.simular.ai\u002F)、[香港大学数据智能实验室](https:\u002F\u002Fsites.google.com\u002Fview\u002Fchaoh)。\n\n同时，特别感谢以下同学在具体修复工作中做出的贡献：[袁梦琪](https:\u002F\u002Fyuanmengqi.github.io\u002F)、[张丹阳](https:\u002F\u002Fzdy023.github.io\u002F)、[熊新庄](https:\u002F\u002Fthisisxxz.com\u002F)、[沈振楠](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=JPwg5MwAAAAJ&hl=en)、[周子龙](https:\u002F\u002Fgithub.com\u002Fadlsdztony)、陈燕旭、[邓佳琪](https:\u002F\u002Fmillank0817.github.io\u002F)、[谢天宝](https:\u002F\u002Ftianbaoxie.com\u002F)、陈俊达、[陈继轩](https:\u002F\u002Fchenjix.github.io\u002F)、[吴浩远](https:\u002F\u002Fwww.linkedin.com\u002Fin\u002Fhaoyuan-wu-240878291\u002F)。\n\n此外，还要感谢以下同学参与了重新评估的运行工作：[袁梦琪](https:\u002F\u002Fyuanmengqi.github.io\u002F)、[周子龙](https:\u002F\u002Fgithub.com\u002Fadlsdztony)、[王欣元](https:\u002F\u002Fxinyuanwangcs.github.io\u002F)、[王博文](https:\u002F\u002Fbowenbryanwang.github.io\u002F)。\n\n## 您可能也会感兴趣\n\n- **OSWorld-MCP**：面向计算机使用型智能体的 MCP 工具调用基准测试。[官网](https:\u002F\u002Fosworld-mcp.github.io\u002F)","# OSWorld 快速上手指南\n\nOSWorld 是一个用于评估智能体在真实操作系统环境中执行复杂任务能力的基准测试平台。本指南将帮助中国开发者快速完成环境搭建并运行首个示例。\n\n## 环境准备\n\n### 系统要求\n- **操作系统**: Linux (推荐), Windows, 或 macOS (Apple Silicon 芯片需特殊配置)\n- **Python 版本**: >= 3.10\n- **虚拟化支持** (二选一):\n  - **方案 A (本地桌面\u002F笔记本)**: 安装 [VMware Workstation Pro](https:\u002F\u002Fwww.vmware.com\u002Fproducts\u002Fworkstation-pro\u002Fworkstation-pro-evaluation.html) (Windows\u002FLinux) 或 [VMware Fusion](https:\u002F\u002Fsupport.broadcom.com\u002Fgroup\u002Fecx\u002Fproductdownloads?subfamily=VMware+Fusion) (macOS)。\n    - *备选*: VirtualBox (功能支持可能不如 VMware 完善，如并行处理和 macOS 支持)。\n  - **方案 B (服务器\u002F高性能需求)**: 支持 KVM 的 Linux 服务器 + Docker。\n    - 检查 KVM 支持：运行 `egrep -c '(vmx|svm)' \u002Fproc\u002Fcpuinfo`，返回值大于 0 即支持。\n    - *注意*: macOS 主机通常不支持 KVM，建议使用 VMware 方案。\n\n### 前置依赖\n- Git\n- Conda (推荐用于环境管理) 或 pip\n- 稳定的网络连接 (用于下载初始虚拟机镜像和依赖)\n\n## 安装步骤\n\n### 1. 克隆项目与安装依赖\n首先克隆仓库并安装 Python 依赖。国内用户若遇到 `pip` 下载慢的问题，可临时指定清华或阿里镜像源。\n\n```bash\n# 克隆 OSWorld 仓库\ngit clone https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOSWorld\ncd OSWorld\n\n# (可选) 创建并激活 Conda 环境\nconda create -n osworld python=3.10\nconda activate osworld\n\n# 安装依赖 (国内加速示例：使用清华源)\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n> **提示**: 如果仅需环境包而不需要基准测试任务，可运行 `pip install desktop-env`。\n\n### 2. 配置虚拟化后端\n\n#### 方案 A：配置 VMware (适用于本地开发)\n安装 VMware Workstation Pro\u002FFusion 后，确保 `vmrun` 命令可用。\n\n```bash\n# 验证安装是否成功\nvmrun -T ws list\n```\n若输出当前运行的虚拟机列表或空列表（无报错），则配置成功。后续脚本会自动下载所需的虚拟机镜像。\n\n#### 方案 B：配置 Docker (适用于服务器\u002FKVM)\n若使用 Docker 方案，请确保已安装 Docker Engine 或 Docker Desktop。\n*注意*: 异常中断实验可能会残留容器，清理命令为 `docker stop $(docker ps -q) && docker rm $(docker ps -a -q)`。\n\n## 基本使用\n\n安装完成后，运行以下最小化示例来验证环境交互是否正常。\n\n### 运行快速启动示例\n该脚本将自动创建环境、完成设置并执行一个简单的右键点击操作。\n\n```bash\n# 使用默认设置运行 (自动检测 provider)\npython quickstart.py\n\n# 或者手动指定 provider 和虚拟机路径 (以 VMware 为例)\npython quickstart.py --provider_name vmware --path_to_vm \"path\u002Fto\u002Fyour\u002Fvm.vmx\"\n```\n\n### 预期结果\n终端将输出系统运行日志，包括环境创建成功、设置完成以及动作执行成功的消息。最终你会观察到屏幕截图显示鼠标成功执行了右键点击操作，标志着环境已就绪，可以开始进行智能体实验。\n\n### 下一步\n环境验证通过后，你可以参考 `run.py` (单线程) 或 `scripts\u002Fpython\u002Frun_multienv.py` (并行执行) 来运行具体的基准测试任务或部署自己的 Agent。记得根据任务需求配置 `OPENAI_API_KEY` 等环境变量。","某大型云服务商的 AI 研发团队正在评估新一代多模态智能体在真实操作系统中的任务执行能力，以优化其自动化运维助手。\n\n### 没有 OSWorld 时\n- **测试环境失真**：团队只能在模拟界面或静态截图中测试模型，无法验证智能体在真实 Linux\u002FWindows 桌面环境中操作文件、点击按钮的实际效果。\n- **评估标准模糊**：缺乏统一的开放型任务基准，不同成员设计的测试用例难度不一，导致模型性能对比困难，难以量化进步。\n- **部署成本高昂**：手动搭建包含各种预置文件和特定状态的虚拟机耗时费力，每次复现测试环境都需要数小时的人工配置。\n- **反馈循环缓慢**：由于环境重置困难，模型训练后的验证周期长，严重拖慢了从“代码提交”到“效果验证”的迭代速度。\n\n### 使用 OSWorld 后\n- **真实环境交互**：OSWorld 提供了基于 VMware 或 Docker 的真实计算机环境，智能体可以直接操作真实的鼠标、键盘和文件系统，测试结果极具说服力。\n- **标准化基准评测**：利用其内置的开放型任务数据集，团队能够在一个公平、统一的维度上量化对比不同模型的处理能力，清晰识别优劣。\n- **一键环境初始化**：通过预下载的镜像和自动化脚本，研究人员可在几分钟内完成复杂测试环境的搭建与重置，彻底消除了手动配置的繁琐。\n- **高效并行验证**：借助 OSWorld-Verified 对 AWS 等云平台的支持，团队实现了大规模并行评估，将原本需要数天的评测工作压缩至 1 小时内完成。\n\nOSWorld 通过将智能体测试从“纸上谈兵”升级为“实战演练”，极大地加速了多模态代理在真实计算环境中的落地进程。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxlang-ai_OSWorld_ed52258a.png","xlang-ai","XLANG Lab","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fxlang-ai_02033ec0.png","Developing embodied AI agents that empower users to use language to interact with digital and physical environments to carry out real-world tasks.",null,"XLangNLP","https:\u002F\u002Fxlang.ai","https:\u002F\u002Fgithub.com\u002Fxlang-ai",[81,85,89,93,97,101],{"name":82,"color":83,"percentage":84},"Python","#3572A5",98.7,{"name":86,"color":87,"percentage":88},"JavaScript","#f1e05a",0.5,{"name":90,"color":91,"percentage":92},"CSS","#663399",0.4,{"name":94,"color":95,"percentage":96},"HTML","#e34c26",0.2,{"name":98,"color":99,"percentage":100},"Shell","#89e051",0.1,{"name":102,"color":103,"percentage":104},"Dockerfile","#384d54",0,2775,440,"2026-04-13T09:53:45","Apache-2.0",4,"Linux, macOS, Windows","未说明 (依赖宿主机虚拟化支持，如 KVM 或 VMware\u002FVirtualBox)","未说明 (需满足宿主机运行虚拟机及并行评估的内存需求)",{"notes":114,"python":115,"dependencies":116},"1. 核心依赖虚拟化软件：Linux\u002FWindows 推荐安装 VMware Workstation Pro 或 VirtualBox；macOS (Apple Chip) 需安装 VMware Fusion。2. 服务器环境推荐使用支持 KVM 的 Docker 以获得更好性能，但 macOS 不支持 KVM。3. 部分任务需要配置 Google 账户 (OAuth2.0) 和网络代理。4. 支持 AWS 云架构进行大规模并行评估。5. 首次运行脚本会自动下载必要的虚拟机镜像。","3.10+",[117,118],"desktop-env","requirements.txt 中列出的依赖",[13,52,14,35,120],"其他",[122,123,124,125,126,127,128,129,130,131,132,133,134,135],"agent","artificial-intelligence","benchmark","multimodal","reinforcement-learning","rpa","code-generation","language-model","cli","gui","natural-language-processing","large-action-model","llm","vlm","2026-03-27T02:49:30.150509","2026-04-13T23:54:31.332812",[139,144,149,154,158,163],{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},32168,"在 Linux 上启动虚拟机时遇到警告或无法连续运行代理怎么办？","该问题通常由 VMware 的僵尸进程或后台残留进程引起。解决方法包括：1. 确保没有与 VMware 相关的进程在运行；2. 停止所有虚拟机；3. 删除 `vm_data` 文件夹；4. 如果上述方法无效，尝试完全卸载并重新安装 VMware。注意：首次启动代码可能需要较长时间，请耐心等待。","https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOSWorld\u002Fissues\u002F42",{"id":145,"question_zh":146,"answer_zh":147,"source_url":148},32169,"运行第二个任务时出现连接错误，Chrome 远程调试端口无法访问怎么办？","这通常是网络配置或代理问题。建议步骤：1. 暂停程序，手动进入正在运行的虚拟机检查网络配置（如 VPN 端口冲突）；2. 确认虚拟机内可以正常访问互联网和使用 Chrome；3. 检查 `socat` 命令是否正确映射端口（例如：`socat tcp-listen:9222,fork tcp:localhost:1337`）；4. 如果使用了代理，需确认 WebSocket 在代理环境下是否能正常工作。目前该问题在本地测试中可能非紧急，但在集群环境中需注意代理配置。","https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOSWorld\u002Fissues\u002F24",{"id":150,"question_zh":151,"answer_zh":152,"source_url":153},32170,"在 M1 Mac 上启动虚拟机失败，提示多次重试后仍无法启动怎么办？","M1 Mac 用户可能会遇到虚拟机启动失败的问题。常见现象是代码报错“最大重试次数已达”，但手动打开 `.vmx` 文件可以启动虚拟机。这可能涉及权限问题或 VMware Fusion 与 Apple Silicon 的兼容性。建议：1. 检查是否有权限问题（rights issues）；2. 尝试手动启动虚拟机后再运行代码；3. 关注官方对 M1 架构的后续支持更新。","https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOSWorld\u002Fissues\u002F38",{"id":155,"question_zh":156,"answer_zh":157,"source_url":153},32171,"每次测试新示例时都需要手动点击 VMware 启动虚拟机，否则报错“操作已取消”怎么办？","这是自动化启动失败的表现。可能原因包括虚拟机状态未正确重置或 VMware API 调用时机问题。临时解决方案是手动启动虚拟机后再运行测试代码。长期解决需检查环境重置逻辑（如快照恢复）是否正常，或等待维护者修复自动化启动流程。",{"id":159,"question_zh":160,"answer_zh":161,"source_url":162},32172,"服务器代码中出现 `_append_event`、`traceback` 或 `timeout` 未定义错误怎么办？","这些是代码中的未定义变量错误，通常由于版本更新不一致导致。用户反馈直接删除 `_append_event` 调用在 Docker 环境中无效，因为相关代码可能已打包进虚拟机镜像或 Docker 镜像中。目前尚无官方修复方案，建议：1. 不要随意使用 AI 重写未知功能的函数；2. 等待维护者发布修复版本；3. 如需临时解决，需深入虚拟机镜像内部修改对应 Python 文件（难度较高）。","https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOSWorld\u002Fissues\u002F300",{"id":164,"question_zh":165,"answer_zh":166,"source_url":148},32173,"如何确认虚拟机内的网络配置是否正确？","可以通过以下步骤验证：1. 暂停主程序，手动登录到运行的虚拟机；2. 在虚拟机内执行 `ping` 或 `curl` 命令测试外网连通性；3. 打开 Chrome 浏览器访问目标网站（如 amazon.com）确认是否正常；4. 检查远程调试端口（如 1337）是否监听成功，并使用 `socat` 转发到主机端口（如 9222）后访问 `http:\u002F\u002Flocalhost:9222` 查看是否为空页面。",[168,173],{"id":169,"version":170,"summary_zh":171,"released_at":172},241296,"v0.1.16","## :package: 有什么新内容？虚拟机 + 云支持！\n- 新增 VirtualBox，支持免费创建虚拟机快照\n- 增加 AWS 支持，优化了界面映射和实例类型\n- 修复了已报告的注释相关 bug\n- 支持 Gemini 1.5-Pro、Llama-3 和 Qwen 的新模型\n- 添加了关于代理等更详细的 README 文档\n\n## 贡献者\n感谢所有为本次发布提供帮助的贡献者！\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOSWorld\u002Fgraphs\u002Fcontributors\">\n  \u003Cimg src=\"https:\u002F\u002Fcontrib.rocks\u002Fimage?repo=xlang-ai\u002FOSWorld\" \u002F>\n\u003C\u002Fa>","2024-06-26T04:22:29",{"id":174,"version":175,"summary_zh":176,"released_at":177},241297,"v0.1.0","## [OSWorld](https:\u002F\u002Fos-world.github.io\u002F) 环境的首个版本发布\n详情请参阅我们的 [README](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOSWorld\u002Fblob\u002Fmain\u002FREADME.md)！\n\n## 贡献者\n感谢所有为本次发布提供帮助的贡献者！\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOSWorld\u002Fgraphs\u002Fcontributors\">\n  \u003Cimg src=\"https:\u002F\u002Fcontrib.rocks\u002Fimage?repo=xlang-ai\u002FOSWorld\" \u002F>\n\u003C\u002Fa>","2024-04-11T15:23:46"]