[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-inclusionAI--UI-Venus":3,"tool-inclusionAI--UI-Venus":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":75,"owner_avatar_url":76,"owner_bio":77,"owner_company":78,"owner_location":78,"owner_email":78,"owner_twitter":78,"owner_website":79,"owner_url":80,"languages":81,"stars":90,"forks":91,"last_commit_at":92,"license":78,"difficulty_score":10,"env_os":93,"env_gpu":94,"env_ram":95,"env_deps":96,"category_tags":104,"github_topics":105,"view_count":23,"oss_zip_url":78,"oss_zip_packed_at":78,"status":16,"created_at":110,"updated_at":111,"faqs":112,"releases":113},2710,"inclusionAI\u002FUI-Venus","UI-Venus","UI-Venus is a native UI agent designed to perform precise GUI element grounding and effective navigation using only screenshots as input.","UI-Venus 是一款原生的图形界面（GUI）智能体，专为通过屏幕截图精准定位界面元素并执行复杂导航任务而设计。它主要解决了传统自动化工具在面对动态变化、多步骤操作及不同应用界面时适应性差、容易出错的难题，能够像人类一样“看懂”屏幕并自主完成指令。\n\n无论是需要构建自动化测试流程的开发者、研究多模态交互的科研人员，还是希望提升移动端操作效率的技术爱好者，都能从 UI-Venus 中获益。其最新发布的 1.5 版本在技术上颇具亮点：采用了包含密集模型与混合专家（MoE）架构的统一端到端方案，并通过千万级 token 的中间阶段训练和在线强化学习，显著提升了长程任务规划能力。该模型不仅融合了网页与移动端的专业技能，更在多个权威基准测试中取得领先成绩，尤其在四十多款中文主流移动应用（如喜马拉雅、微博、小红书等）中展现出卓越的鲁棒性与实操能力，是实现真实场景下智能人机交互的有力助手。","\u003Ch1 align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FinclusionAI_UI-Venus_readme_dd0383abc0a0.png\" width=\"60\" align=\"center\"> UI-Venus 1.5\n\u003C\u002Fh1>\n\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fopensource.org\u002Flicenses\u002FApache-2.0\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache_2.0-blue.svg\" alt=\"License\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.09082\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FReport-Technical%20Report-blueviolet?logo=notion\" alt=\"Report\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fui-venus.github.io\u002FUI-Venus-1.5\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🌐%20Website-UI--Venus--1.5-blue\" alt=\"Website\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FinclusionAI\u002FUI-Venus\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FGitHub-Repository-green?logo=github\" alt=\"GitHub\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FinclusionAI\u002Fui-venus-689f2fb01a4234cbce91c56a\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHugging%20Face-Model-orange?logo=huggingface\" alt=\"Hugging Face\">\u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  \u003Cem>UI-Venus 1.5 is a unified, end-to-end GUI Agent designed for robust real-world applications. The model family includes two dense (2B\u002F8B) and one MoE (30B-A3B) variants to meet various downstream scenarios.\u003C\u002Fem>\n\u003C\u002Fp>\n\n**Upgrades from UI-Venus 1.0:**\n- 🔹 **Mid-Training Stage**: 10B tokens across 30+ datasets for foundational GUI semantics\n- 🔹 **Online RL**: Full-trajectory rollouts for long-horizon dynamic navigation\n- 🔹 **Model Merging**: Unified agent combining grounding, web, and mobile specialists\n\n**Results:** SOTA on ScreenSpot-Pro (69.6%), VenusBench-GD (75.0%), AndroidWorld (77.6%), with robust navigation across 40+ Chinese mobile apps.\n\n---\n\n\u003Cp align=\"center\">\n  📈 \u003Cstrong>UI-Venus Benchmark Performance\u003C\u002Fstrong>\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FinclusionAI_UI-Venus_readme_9770254084ee.png\" alt=\"UI-Venus Performance\" width=\"1200\" \u002F>\n\u003C\u002Fp>\n\n> **Figure:** Performance of UI-Venus 1.5 across multiple benchmarks. UI-Venus 1.5 achieves **State-of-the-Art (SOTA)** results on key grounding benchmarks (**ScreenSpot-Pro**, **VenusBench-GD**, **OSWorld-G**, **UI-Vision**) and agent benchmarks (**AndroidWorld**, **AndroidLab**, **VenusBench-Mobile**).\n\n---\n\n# 🚀 News\n\n* [2026\u002F02] We release **UI-Venus 1.5**, an end-to-end GUI Agent designed for robust real-world applications.\n* [2026\u002F02] We release **VenusBench-Mobile**, a challenging online benchmark for mobile GUI agents. See branch [VenusBench-Mobile](https:\u002F\u002Fgithub.com\u002FinclusionAI\u002FUI-Venus\u002Ftree\u002FVenusBench-Mobile).\n* [2025\u002F12] We release [VenusBench-GD](https:\u002F\u002Fui-venus.github.io\u002FVenusBench-GD\u002F), a comprehensive multi-platform GUI grounding benchmark. See branch [VenusBench-GD](https:\u002F\u002Fgithub.com\u002FinclusionAI\u002FUI-Venus\u002Ftree\u002FVenusBench-GD).\n* [2025\u002F8] We release **[UI-Venus 1.0](https:\u002F\u002Fgithub.com\u002FinclusionAI\u002FUI-Venus\u002Ftree\u002FUI-Venus-1.0)**, the first version of our UI agent model.\n\n---\n\n# Overview\n\n* [Demo](#-demo)\n* [Venus Framework](#venus-framework)\n* [Quick Start](#-quick-start)\n* [Benchmark Results](#detailed-benchmark-results)\n* [Contact](#contact)\n* [Citation](#citation)\n\n---\n\n# ✨ Demo\n\n### Chinese App Demo Videos \u002F 中文应用演示视频\n\n#### Ximalaya - 喜马拉雅\n**Open Ximalaya FM, play \"Zootopia 2,\" and set the playback mode to list loop.**  \n**打开喜马拉雅，帮我播放疯狂动物城2，设置列表循环播放**\n\n![Ximalaya Demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FinclusionAI_UI-Venus_readme_939a46abd844.gif)\n\n---\n\n#### Qimao Novel - 七猫免费小说\n**Open Qimao Free Webnovel and add the top 3 books from the \"Creative\u002FMind-bending\" chart to the bookshelf.**  \n**打开七猫免费小说，将小说脑洞榜前三名都加入书架**\n\n![Qimao Demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FinclusionAI_UI-Venus_readme_a431469223a8.gif)\n\n---\n\n#### Weibo - 微博\n**Open Weibo, search for \"Hangzhou Weather,\" and post a comment based on the current weather.**  \n**打开微博，搜索杭州天气，并根据天气进行评论**\n\n![Weibo Demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FinclusionAI_UI-Venus_readme_e7173a25e465.gif)\n\n---\n\n#### Xiaohongshu - 小红书\n**Open Xiaohongshu, search for baking tutorials, and play a video with over 10,000 views.**  \n**打开小红书，搜索烘焙教程，找到播放量大于1w的视频进行播放**\n\n![Xiaohongshu Demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FinclusionAI_UI-Venus_readme_a60403616300.gif)\n\n---\n\n#### Toutiao - 今日头条\n**Open Toutiao, click on the top trending story, and view the \"Event Summary.**  \n**打开今日头条，点击进入热榜第1名，查看事件速览**\n\n![Toutiao Demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FinclusionAI_UI-Venus_readme_8c7768f8615e.gif)\n\n\n\n---\n\n# Venus Framework\n\nWe provide a complete Android automation framework for deploying UI-Venus 1.5 as an autonomous mobile agent.\n\n**Features:**\n- 🎯 Single task execution with natural language\n- 🔄 Multi-device parallel batch processing\n- 📊 Trajectory recording and replay\n- 🔁 Intelligent loop detection\n\n👉 **[Documentation →](.\u002FVenus_framework\u002FREADME.md)** | **[中文文档 →](.\u002FVenus_framework\u002FREADME_CN.md)**\n\n\n\n**Supported:** 40+ mainstream Chinese apps including Weibo, Xiaohongshu, Taobao, Meituan, Bilibili, Alipay, and more.\n\n---\n\n# 🚀 Quick Start\n\n### Installation\n\n```bash\npip install -r requirements.txt\n```\n\n### Grounding Evaluation\n\nEdit `scripts\u002Frun_gd_auto.sh` or `scripts\u002Frun_gd_ddp.sh` to configure:\n\n```bash\n# GPU Configuration\nexport CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7\n\n# Model Configuration\nMODEL_PATH=\"\u002Fpath\u002Fto\u002FUI-Venus-1.5\"  # Your model checkpoint path\n\n# Dataset Configuration (uncomment one)\n# ScreenSpot-Pro\nIMGS_PATH=\"\u002Fpath\u002Fto\u002FScreenspot-pro\u002Fimages\"\nTEST_PATH=\"\u002Fpath\u002Fto\u002FScreenspot-pro\u002Fannotations\"\n```\n\nRun evaluation:\n\n```bash\n# Single\u002FMulti-GPU with device_map=\"auto\"\nbash scripts\u002Frun_gd_auto.sh\n\n# Multi-GPU with DDP (faster for large datasets)\nbash scripts\u002Frun_gd_ddp.sh\n```\n\n### Navigation Evaluation\n\nEdit `scripts\u002Frun_navi.sh` to configure:\n\n```bash\n# GPU Configuration\nCUDA_DEVICES=\"0,1,2,3\"\n\n# Model Configuration\nMODEL_PATH=\"\u002Fpath\u002Fto\u002FUI-Venus-1.5\"\n\n# Input\u002FOutput\nINPUT_FILE=\"examples\u002Ftrace\u002Ftrace.json\"   # Navigation task file\nOUTPUT_FILE=\".\u002Fresults\u002Fnavi\u002Foutput.json\"\n\n# Prompt Type Configuration (important!)\nPROMPT_TYPE=\"mobile\"      # Options: \"web\" for web tasks, \"mobile\" for mobile tasks (default: mobile)\n\n# vLLM Configuration\nTENSOR_PARALLEL_SIZE=4    # Should match GPU count\nGPU_MEMORY_UTIL=0.8       # Reduce if OOM\nMAX_MODEL_LEN=16192\n```\n\n**Prompt Type Selection:**\n- `PROMPT_TYPE=\"mobile\"` - Use mobile-specific prompts for Android\u002FiOS app navigation tasks\n- `PROMPT_TYPE=\"web\"` - Use web-specific prompts for browser\u002Fweb page navigation tasks\n\nRun evaluation:\n\n```bash\n# Default: Mobile prompt\nbash scripts\u002Frun_navi.sh\n\n```\n\n---\n\n# Detailed Benchmark Results\n\n### Grounding Benchmarks\n\n| Models | VenusBench-GD | ScreenSpot-Pro | OSworld-G | UI-Vision |\n|--------|:-------------:|:--------------:|:---------:|:---------:|\n| Qwen3-VL-30B-A3B | 52.4 | 53.7 | 69.3 | 61.2 |\n| Step-GUI-8B | - | 62.6 | - | - |\n| MAI-UI-8B | 65.2 | 65.8 | 60.1 | 40.7 |\n| MAI-UI-32B | - | 67.9 | 67.6 | 47.1 |\n| UI-Venus-1.0-7B | 49.0 | 50.8 | 54.6 | 26.5 |\n| UI-Venus-1.0-72B | 70.2 | 61.9 | 62.2 | 36.8 |\n| **UI-Venus-1.5-2B** | **67.3** | **57.7** | **59.4** | **44.8** |\n| + ZoomIn | **67.9** | **64.6** | **61.4** | **46.8** |\n| **UI-Venus-1.5-8B** | **72.3** | **68.4** | **69.7** | **46.5** |\n| + ZoomIn | **72.6** | **73.9** | **70.6** | **51.7** |\n| **UI-Venus-1.5-30B-A3B** | **75.0** | **69.6** | **70.6** | **54.7** |\n| + ZoomIn | 74.3 | **74.8** | **72.2** | **57.8** |\n\n\n### Navigation Benchmarks\n\n| Models | Params | AndroidWorld | AndroidLab | VenusBench-Mobile | WebVoyager |\n|--------|:------:|:------------:|:----------:|:-----------------:|:----------:|\n| *General VLMs* | | | | | |\n| GPT-4o | - | - | 31.2 | - | 55.5 |\n| Claude-3.7 | - | - | - | - | 84.1 |\n| Qwen3-VL-30B-A3B | 30B | 54.3 | 42.0* | 8.7 | 47.5* |\n| GLM-4.6V | 106B | 57.0 | - | - | - |\n| Gemini-2.5-Pro | - | 69.7 | - | - | - |\n| Seed1.8 | - | 70.7 | - | - | - |\n| *GUI-specific Models* | | | | | |\n| UI-TARS-72B | 72B | 46.6 | - | - | - |\n| UI-TARS-1.5 | - | - | - | - | 84.8 |\n| Step-GUI-8B | 8B | 67.7 | 47.8* | 8.0 | - |\n| Holo2-30B-A3B | 30B | 71.6 | - | - | 83.0 |\n| MAI-UI-8B | 8B | 70.7 | - | 12.7 | - |\n| MAI-UI-32B | 32B | 73.3 | - | - | - |\n| OpenAI-CUA | - | - | - | - | **87.0** |\n| AutoGLM-Mobile | 9B | - | 46.8 | - | - |\n| *Ours* | | | | | |\n| UI-Venus-1.0-7B | 7B | 49.1 | 41.3 | 8.1 | - |\n| UI-Venus-1.0-72B | 72B | 65.9 | 49.3 | 15.4 | - |\n| **UI-Venus-1.5-2B** | 2B | 55.6 | 36.2 \u002F 44.2† | 8.7 | 56.4 |\n| **UI-Venus-1.5-8B** | 8B | 73.7 | **55.1** \u002F 68.1† | 16.1 | 70.8 |\n| **UI-Venus-1.5-30B-A3B** | 30B | **77.6** | 52.9 \u002F 68.1† | **21.5** | 76.0 |\n\n> \\* Results evaluated by us. † Results manually verified by human evaluators.\n\n---\n\n## Contact\n\nFor any questions or collaboration, please contact:\n\n- **Email**: Contact the maintainers\n- **WeChat Group**: Scan to join our discussion group\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FinclusionAI_UI-Venus_readme_33686efeceb1.png\" alt=\"WeChat Group QR Code\" width=\"200\">\n\u003C\u002Fp>\n\n---\n\n# Citation\n\nIf you find our work helpful, please cite:\n\n```bibtex\n# UI-Venus 1.5\n@misc{venusteam2026uivenus15technicalreport,\n      title={UI-Venus-1.5 Technical Report}, \n      author={Venus-Team and Changlong Gao and Zhangxuan Gu and Yulin Liu and Xinyu Qiu and Shuheng Shen and Yue Wen and Tianyu Xia and Zhenyu Xu and Zhengwen Zeng and Beitong Zhou and Xingran Zhou and Weizhi Chen and Sunhao Dai and Jingya Dou and Yichen Gong and Yuan Guo and Zhenlin Guo and Feng Li and Qian Li and Jinzhen Lin and Yuqi Zhou and Linchao Zhu and Liang Chen and Zhenyu Guo and Changhua Meng and Weiqiang Wang},\n      year={2026},\n      eprint={2602.09082},\n      archivePrefix={arXiv},\n      primaryClass={cs.CV},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.09082}, \n}\n\n# UI-Venus 1.0\n@misc{gu2025uivenustechnicalreportbuilding,\n      title={UI-Venus Technical Report: Building High-performance UI Agents with RFT}, \n      author={Zhangxuan Gu and Zhengwen Zeng and Zhenyu Xu and others},\n      year={2025},\n      eprint={2508.10833},\n      archivePrefix={arXiv},\n      primaryClass={cs.CV},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.10833}, \n}\n```\n\n---\n\n# License\n\nThis project is for research and educational purposes only.\n","\u003Ch1 align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FinclusionAI_UI-Venus_readme_dd0383abc0a0.png\" width=\"60\" align=\"center\"> UI-Venus 1.5\n\u003C\u002Fh1>\n\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fopensource.org\u002Flicenses\u002FApache-2.0\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache_2.0-blue.svg\" alt=\"License\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.09082\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FReport-Technical%20Report-blueviolet?logo=notion\" alt=\"Report\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fui-venus.github.io\u002FUI-Venus-1.5\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🌐%20Website-UI--Venus--1.5-blue\" alt=\"Website\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FinclusionAI\u002FUI-Venus\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FGitHub-Repository-green?logo=github\" alt=\"GitHub\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FinclusionAI\u002Fui-venus-689f2fb01a4234cbce91c56a\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHugging%20Face-Model-orange?logo=huggingface\" alt=\"Hugging Face\">\u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  \u003Cem>UI-Venus 1.5 是一款面向稳健真实世界应用的统一端到端 GUI 智能体。该模型家族包含两个密集型（2B\u002F8B）和一个 MoE 型（30B-A3B）变体，以满足各类下游场景需求。\u003C\u002Fem>\n\u003C\u002Fp>\n\n**UI-Venus 1.0 的升级点：**\n- 🔹 **训练中期阶段**：在 30 多个数据集上进行了 100 亿 token 的预训练，用于构建基础的 GUI 语义理解能力。\n- 🔹 **在线强化学习**：支持全轨迹回放，实现长时程动态导航。\n- 🔹 **模型融合**：整合了视觉定位、网页和移动端专长，形成统一的智能体。\n\n**结果：** 在 ScreenSpot-Pro（69.6%）、VenusBench-GD（75.0%）、AndroidWorld（77.6%）等基准测试中达到 SOTA 水平，并在 40 多款中国主流移动应用中表现出稳健的导航能力。\n\n---\n\n\u003Cp align=\"center\">\n  📈 \u003Cstrong>UI-Venus 基准性能\u003C\u002Fstrong>\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FinclusionAI_UI-Venus_readme_9770254084ee.png\" alt=\"UI-Venus 性能\" width=\"1200\" \u002F>\n\u003C\u002Fp>\n\n> **图示：** UI-Venus 1.5 在多个基准上的表现。该模型在关键的视觉定位基准（ScreenSpot-Pro、VenusBench-GD、OSWorld-G、UI-Vision）以及智能体基准（AndroidWorld、AndroidLab、VenusBench-Mobile）上均取得了 **SOTA** 成绩。\n\n---\n\n# 🚀 新闻\n\n* [2026年2月] 我们发布了 **UI-Venus 1.5**，这是一款专为稳健真实世界应用设计的端到端 GUI 智能体。\n* [2026年2月] 我们推出了 **VenusBench-Mobile**，这是一个针对移动端 GUI 智能体的高难度在线基准测试。详情请见分支 [VenusBench-Mobile](https:\u002F\u002Fgithub.com\u002FinclusionAI\u002FUI-Venus\u002Ftree\u002FVenusBench-Mobile)。\n* [2025年12月] 我们发布了 [VenusBench-GD](https:\u002F\u002Fui-venus.github.io\u002FVenusBench-GD\u002F)，这是一个全面的跨平台 GUI 视觉定位基准测试。详情请见分支 [VenusBench-GD](https:\u002F\u002Fgithub.com\u002FinclusionAI\u002FUI-Venus\u002Ftree\u002FVenusBench-GD)。\n* [2025年8月] 我们发布了 **[UI-Venus 1.0](https:\u002F\u002Fgithub.com\u002FinclusionAI\u002FUI-Venus\u002Ftree\u002FUI-Venus-1.0)**，这是我们首款 GUI 智能体模型。\n\n---\n\n# 概述\n\n* [演示](#-demo)\n* [Venus 框架](#venus-framework)\n* [快速入门](#-quick-start)\n* [基准测试结果](#detailed-benchmark-results)\n* [联系方式](#contact)\n* [引用](#citation)\n\n---\n\n# ✨ 演示\n\n### 中文应用演示视频 \u002F 中文应用演示视频\n\n#### Ximalaya - 喜马拉雅\n**打开喜马拉雅，帮我播放疯狂动物城2，设置列表循环播放。**  \n**打开喜马拉雅，播放“Zootopia 2”，并设置为列表循环模式。**\n\n![Ximalaya 演示](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FinclusionAI_UI-Venus_readme_939a46abd844.gif)\n\n---\n\n#### Qimao Novel - 七猫免费小说\n**打开七猫免费小说，将小说脑洞榜前三名都加入书架。**  \n**打开七猫免费小说，把“脑洞榜”前三名的小说添加到书架上。**\n\n![Qimao 演示](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FinclusionAI_UI-Venus_readme_a431469223a8.gif)\n\n---\n\n#### Weibo - 微博\n**打开微博，搜索杭州天气，并根据天气进行评论。**  \n**打开微博，搜索“杭州天气”，然后根据当前天气状况发表评论。**\n\n![Weibo 演示](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FinclusionAI_UI-Venus_readme_e7173a25e465.gif)\n\n---\n\n#### Xiaohongshu - 小红书\n**打开小红书，搜索烘焙教程，找到播放量大于1w的视频进行播放。**  \n**打开小红书，搜索“烘焙教程”，然后播放一条播放量超过1万次的视频。**\n\n![小红书 演示](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FinclusionAI_UI-Venus_readme_a60403616300.gif)\n\n---\n\n#### Toutiao - 今日头条\n**打开今日头条，点击进入热榜第1名，查看事件速览。**  \n**打开今日头条，点击进入热门榜单的第一条新闻，查看事件摘要。**\n\n![Toutiao 演示](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FinclusionAI_UI-Venus_readme_8c7768f8615e.gif)\n\n\n\n---\n\n# Venus 框架\n\n我们提供了一个完整的 Android 自动化框架，用于将 UI-Venus 1.5 部署为自主移动智能体。\n\n**功能：**\n- 🎯 支持自然语言单任务执行\n- 🔄 多设备并行批量处理\n- 📊 轨迹记录与回放\n- 🔁 智能循环检测\n\n👉 **[文档 →](.\u002FVenus_framework\u002FREADME.md)** | **[中文文档 →](.\u002FVenus_framework\u002FREADME_CN.md)**\n\n\n\n**支持的应用：** 包括微博、小红书、淘宝、美团、哔哩哔哩、支付宝等在内的 40 多款中国主流应用。\n\n---\n\n# 🚀 快速入门\n\n### 安装\n\n```bash\npip install -r requirements.txt\n```\n\n### 视觉定位评估\n\n编辑 `scripts\u002Frun_gd_auto.sh` 或 `scripts\u002Frun_gd_ddp.sh` 进行配置：\n\n```bash\n# GPU 配置\nexport CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7\n\n# 模型配置\nMODEL_PATH=\"\u002Fpath\u002Fto\u002FUI-Venus-1.5\"  # 您的模型检查点路径\n\n# 数据集配置（选择其一）\n# ScreenSpot-Pro\nIMGS_PATH=\"\u002Fpath\u002Fto\u002FScreenspot-pro\u002Fimages\"\nTEST_PATH=\"\u002Fpath\u002Fto\u002FScreenspot-pro\u002Fannotations\"\n```\n\n运行评估：\n\n```bash\n# 单\u002F多 GPU，使用 device_map=\"auto\"\nbash scripts\u002Frun_gd_auto.sh\n\n# 多 GPU，使用 DDP（适合大规模数据集，速度更快）\nbash scripts\u002Frun_gd_ddp.sh\n```\n\n### 导航评估\n\n编辑 `scripts\u002Frun_navi.sh` 进行配置：\n\n```bash\n# GPU 配置\nCUDA_DEVICES=\"0,1,2,3\"\n\n# 模型配置\nMODEL_PATH=\"\u002Fpath\u002Fto\u002FUI-Venus-1.5\"\n\n# 输入输出\nINPUT_FILE=\"examples\u002Ftrace\u002Ftrace.json\"   # 导航任务文件\nOUTPUT_FILE=\".\u002Fresults\u002Fnavi\u002Foutput.json\"\n\n# 提示类型配置（非常重要！）\nPROMPT_TYPE=\"mobile\"      # 选项：“web”用于网页任务，“mobile”用于移动端任务（默认为 mobile）\n\n# vLLM 配置\nTENSOR_PARALLEL_SIZE=4    # 应与 GPU 数量一致\nGPU_MEMORY_UTIL=0.8       # 如出现 OOM，请降低\nMAX_MODEL_LEN=16192\n```\n\n**提示类型选择：**\n- `PROMPT_TYPE=\"mobile\"` - 使用移动端专用提示，适用于 Android\u002FiOS 应用导航任务。\n- `PROMPT_TYPE=\"web\"` - 使用网页专用提示，适用于浏览器或网页导航任务。\n\n运行评估：\n\n```bash\n# 默认使用移动端提示\nbash scripts\u002Frun_navi.sh\n\n```\n\n---\n\n# 详细基准测试结果\n\n### 视觉定位基准\n\n| 模型 | VenusBench-GD | ScreenSpot-Pro | OSworld-G | UI-Vision |\n|--------|:-------------:|:--------------:|:---------:|:---------:|\n| Qwen3-VL-30B-A3B | 52.4 | 53.7 | 69.3 | 61.2 |\n| Step-GUI-8B | - | 62.6 | - | - |\n| MAI-UI-8B | 65.2 | 65.8 | 60.1 | 40.7 |\n| MAI-UI-32B | - | 67.9 | 67.6 | 47.1 |\n| UI-Venus-1.0-7B | 49.0 | 50.8 | 54.6 | 26.5 |\n| UI-Venus-1.0-72B | 70.2 | 61.9 | 62.2 | 36.8 |\n| **UI-Venus-1.5-2B** | **67.3** | **57.7** | **59.4** | **44.8** |\n| + ZoomIn | **67.9** | **64.6** | **61.4** | **46.8** |\n| **UI-Venus-1.5-8B** | **72.3** | **68.4** | **69.7** | **46.5** |\n| + ZoomIn | **72.6** | **73.9** | **70.6** | **51.7** |\n| **UI-Venus-1.5-30B-A3B** | **75.0** | **69.6** | **70.6** | **54.7** |\n| + ZoomIn | 74.3 | **74.8** | **72.2** | **57.8** |\n\n### 导航基准测试\n\n| 模型 | 参数量 | AndroidWorld | AndroidLab | VenusBench-Mobile | WebVoyager |\n|--------|:------:|:------------:|:----------:|:-----------------:|:----------:|\n| *通用多模态模型* | | | | | |\n| GPT-4o | - | - | 31.2 | - | 55.5 |\n| Claude-3.7 | - | - | - | - | 84.1 |\n| Qwen3-VL-30B-A3B | 30B | 54.3 | 42.0* | 8.7 | 47.5* |\n| GLM-4.6V | 106B | 57.0 | - | - | - |\n| Gemini-2.5-Pro | - | 69.7 | - | - | - |\n| Seed1.8 | - | 70.7 | - | - | - |\n| *GUI专用模型* | | | | | |\n| UI-TARS-72B | 72B | 46.6 | - | - | - |\n| UI-TARS-1.5 | - | - | - | - | 84.8 |\n| Step-GUI-8B | 8B | 67.7 | 47.8* | 8.0 | - |\n| Holo2-30B-A3B | 30B | 71.6 | - | - | 83.0 |\n| MAI-UI-8B | 8B | 70.7 | - | 12.7 | - |\n| MAI-UI-32B | 32B | 73.3 | - | - | - |\n| OpenAI-CUA | - | - | - | - | **87.0** |\n| AutoGLM-Mobile | 9B | - | 46.8 | - | - |\n| *我们的模型* | | | | | |\n| UI-Venus-1.0-7B | 7B | 49.1 | 41.3 | 8.1 | - |\n| UI-Venus-1.0-72B | 72B | 65.9 | 49.3 | 15.4 | - |\n| **UI-Venus-1.5-2B** | 2B | 55.6 | 36.2 \u002F 44.2† | 8.7 | 56.4 |\n| **UI-Venus-1.5-8B** | 8B | 73.7 | **55.1** \u002F 68.1† | 16.1 | 70.8 |\n| **UI-Venus-1.5-30B-A3B** | 30B | **77.6** | 52.9 \u002F 68.1† | **21.5** | 76.0 |\n\n> \\* 由我们评估的结果。 † 由人工评估者手动验证的结果。\n\n---\n\n## 联系方式\n\n如有任何问题或合作意向，请联系：\n\n- **邮箱**: 联系维护人员\n- **微信群**: 扫描加入我们的讨论群\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FinclusionAI_UI-Venus_readme_33686efeceb1.png\" alt=\"微信群二维码\" width=\"200\">\n\u003C\u002Fp>\n\n---\n\n# 引用\n\n如果您觉得我们的工作有所帮助，请引用以下内容：\n\n```bibtex\n# UI-Venus 1.5\n@misc{venusteam2026uivenus15technicalreport,\n      title={UI-Venus-1.5 技术报告}, \n      author={金星团队及高长龙、顾章轩、刘宇林、邱欣宇、沈书恒、温岳、夏天宇、许振宇、曾正文、周贝彤、周兴然、陈伟志、戴孙浩、窦静雅、龚一辰、郭源、郭振林、李峰、李倩、林金震、周宇琪、朱林超、陈亮、郭振宇、孟昌华、王伟强},\n      year={2026},\n      eprint={2602.09082},\n      archivePrefix={arXiv},\n      primaryClass={cs.CV},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.09082}, \n}\n\n# UI-Venus 1.0\n@misc{gu2025uivenustechnicalreportbuilding,\n      title={UI-Venus 技术报告：使用 RFT 构建高性能 UI 代理}, \n      author={顾章轩、曾正文、许振宇等},\n      year={2025},\n      eprint={2508.10833},\n      archivePrefix={arXiv},\n      primaryClass={cs.CV},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.10833}, \n}\n```\n\n---\n\n# 许可协议\n\n本项目仅用于研究和教育目的。","# UI-Venus 1.5 快速上手指南\n\nUI-Venus 1.5 是一个统一的端到端 GUI 智能体，专为鲁棒的现实世界应用设计。模型家族包含两个稠密模型（2B\u002F8B）和一个混合专家模型（30B-A3B），支持网页和移动端（Android\u002FiOS）的复杂导航与操作任务。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04+)\n*   **Python**: 3.10 或更高版本\n*   **GPU**: \n    *   推理\u002F评估：建议至少 1 张 NVIDIA GPU (显存需求视模型大小而定，2B 模型约需 6GB+，30B MoE 模型建议多卡或多显存)\n    *   驱动：已安装兼容的 CUDA 驱动\n*   **依赖管理**: `pip`\n\n> **提示**：国内开发者建议使用国内镜像源加速依赖下载（如清华源、阿里源）。\n\n## 安装步骤\n\n1.  **克隆仓库**\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002FinclusionAI\u002FUI-Venus.git\n    cd UI-Venus\n    ```\n\n2.  **安装依赖**\n    推荐使用国内镜像源安装 Python 依赖：\n    ```bash\n    pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n    ```\n\n3.  **下载模型权重**\n    从 Hugging Face 或 ModelScope（魔搭社区，国内加速推荐）下载 UI-Venus 1.5 模型权重。\n    \n    *假设您已将模型下载至本地路径 `\u002Fpath\u002Fto\u002FUI-Venus-1.5`。*\n\n## 基本使用\n\nUI-Venus 主要支持两类核心任务：**界面元素定位 (Grounding)** 和 **任务导航 (Navigation)**。以下是基于官方脚本的最简运行示例。\n\n### 1. 界面元素定位评估 (Grounding Evaluation)\n\n此步骤用于测试模型在截图中标识特定 UI 元素的能力（如 ScreenSpot-Pro 数据集）。\n\n**配置脚本**\n编辑 `scripts\u002Frun_gd_auto.sh`，设置 GPU 和模型路径：\n\n```bash\n# 设置可见 GPU (例如使用 0 号卡)\nexport CUDA_VISIBLE_DEVICES=0\n\n# 设置模型本地路径\nMODEL_PATH=\"\u002Fpath\u002Fto\u002FUI-Venus-1.5\"\n\n# 设置数据集路径 (以 ScreenSpot-Pro 为例)\nIMGS_PATH=\"\u002Fpath\u002Fto\u002FScreenspot-pro\u002Fimages\"\nTEST_PATH=\"\u002Fpath\u002Fto\u002FScreenspot-pro\u002Fannotations\"\n```\n\n**运行评估**\n```bash\n# 单卡或多卡自动分配模式\nbash scripts\u002Frun_gd_auto.sh\n\n# 或者使用 DDP 模式加速大规模数据集评估\n# bash scripts\u002Frun_gd_ddp.sh\n```\n\n### 2. 任务导航评估 (Navigation Evaluation)\n\n此步骤用于测试模型执行多步操作任务的能力（如“打开微信并发送消息”）。\n\n**配置脚本**\n编辑 `scripts\u002Frun_navi.sh`，关键配置如下：\n\n```bash\n# 设置 GPU 设备\nCUDA_DEVICES=\"0\"\n\n# 设置模型本地路径\nMODEL_PATH=\"\u002Fpath\u002Fto\u002FUI-Venus-1.5\"\n\n# 输入输出文件\nINPUT_FILE=\"examples\u002Ftrace\u002Ftrace.json\"   # 包含导航任务的 JSON 文件\nOUTPUT_FILE=\".\u002Fresults\u002Fnavi\u002Foutput.json\"\n\n# 【重要】提示词类型选择\n# \"mobile\": 针对 Android\u002FiOS App 任务 (默认)\n# \"web\": 针对浏览器\u002F网页任务\nPROMPT_TYPE=\"mobile\"\n\n# vLLM 配置 (根据显存调整)\nTENSOR_PARALLEL_SIZE=1    # 若使用多卡并行，此处设为显卡数量\nGPU_MEMORY_UTIL=0.8       # 显存利用率，若报 OOM 错误请调低此值\nMAX_MODEL_LEN=16192\n```\n\n**运行评估**\n```bash\n# 执行导航任务评估\nbash scripts\u002Frun_navi.sh\n```\n\n### 3. 部署为自主移动智能体 (可选)\n\n若需在真实 Android 设备上运行自动化任务，请参考项目中的 `Venus_framework` 目录。该框架支持：\n*   自然语言单任务执行\n*   多设备并行批处理\n*   轨迹记录与回放\n\n详细部署文档请查看：`Venus_framework\u002FREADME_CN.md`","某大型电商公司的自动化测试团队需要每日对旗下 App 在安卓端的 50+ 核心业务流程（如领券、下单、查看物流）进行回归测试，以确保新版本上线后的功能稳定性。\n\n### 没有 UI-Venus 时\n- **脚本维护成本极高**：传统自动化依赖固定的控件 ID 或 XPath，一旦 App 界面微调或更新，大量测试脚本立即失效，工程师需花费数天重新定位元素。\n- **复杂指令难以执行**：面对“查找销量最高且评分大于 4.8 的商品”这类多步逻辑任务，传统工具无法理解语义，必须编写冗长且脆弱的硬编码逻辑。\n- **跨应用场景割裂**：若流程涉及从微信跳转到自家 App 再返回，不同工具间难以协同，往往需要人工介入或放弃覆盖此类真实用户路径。\n- **视觉识别能力弱**：对于纯图片展示的按钮或非标准控件，传统 OCR 或模板匹配准确率低下，导致测试频繁误报或漏测。\n\n### 使用 UI-Venus 后\n- **纯视觉自适应导航**：UI-Venus 仅凭截图即可精准定位 GUI 元素，无需依赖底层代码特征，即使 App 界面频繁迭代，测试流程也能稳定运行，维护工作量减少 90%。\n- **自然语言驱动操作**：测试人员直接用中文下达“将脑洞榜前三本小说加入书架”等复杂指令，UI-Venus 能自主规划长程步骤并准确执行，大幅降低脚本编写门槛。\n- **端到端全链路覆盖**：得益于其强大的移动端泛化能力，UI-Venus 能流畅处理跨应用跳转及动态内容加载，完美复现真实用户在 40+ 主流中文 App 中的操作路径。\n- **高精度元素接地**：在 ScreenSpot-Pro 等基准测试中达到 SOTA 水平，确保了对模糊图标、动态广告等复杂视觉元素的精准点击，显著提升测试通过率。\n\nUI-Venus 通过将自然语言指令直接转化为高鲁棒性的屏幕操作，彻底解决了传统自动化测试在动态 UI 和复杂逻辑面前的脆弱性难题。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FinclusionAI_UI-Venus_939a46ab.gif","inclusionAI","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FinclusionAI_70666e45.jpg","This organization contains the series of open-source projects from Ant Group with dedicated efforts to work towards Artificial General Intelligence (AGI).",null,"https:\u002F\u002Finclusion-ai.org","https:\u002F\u002Fgithub.com\u002FinclusionAI",[82,86],{"name":83,"color":84,"percentage":85},"Python","#3572A5",96.2,{"name":87,"color":88,"percentage":89},"Shell","#89e051",3.8,1143,95,"2026-04-02T02:07:54","Linux","必需 NVIDIA GPU。支持单卡或多卡配置（示例显示最多 8 卡）。运行 30B MoE 模型建议使用多卡并行（Tensor Parallel），显存需求取决于模型大小：2B\u002F8B 模型需较高显存，30B 模型需多卡分摊（配置中建议 GPU_MEMORY_UTIL=0.8 以防 OOM）。需支持 CUDA 环境（具体版本未说明，通常需 11.7+ 以配合现代 PyTorch\u002FvLLM）。","未说明（建议根据模型大小配置充足系统内存，运行 30B 模型推荐 64GB+）",{"notes":97,"python":98,"dependencies":99},"1. 项目提供完整的 Android 自动化框架用于部署移动端 Agent，需在 Android 环境或模拟器中测试导航功能。\n2. 推理后端明确使用 vLLM，配置脚本中包含 TENSOR_PARALLEL_SIZE（张量并行数）和 MAX_MODEL_LEN（最大上下文长度 16192）等参数。\n3. 针对不同任务需设置 PROMPT_TYPE 环境变量（'mobile' 用于安卓\u002FiOS，'web' 用于网页）。\n4. 模型包含 2B、8B 稠密版及 30B-A3B MoE 版，请根据硬件资源选择对应 checkpoint。\n5. 安装仅需执行 'pip install -r requirements.txt'，具体依赖列表需查看该文件。","未说明（需满足 requirements.txt 依赖，通常建议 Python 3.9+）",[100,101,102,103],"vLLM","torch","transformers","accelerate",[15,26],[106,107,108,109],"multimodel-large-language-model","reinforcement-learning","ui-agent","grounding","2026-03-27T02:49:30.150509","2026-04-06T05:35:30.171924",[],[]]