[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-IPADS-SAI--MobiAgent":3,"tool-IPADS-SAI--MobiAgent":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":75,"owner_avatar_url":76,"owner_bio":77,"owner_company":77,"owner_location":77,"owner_email":77,"owner_twitter":77,"owner_website":77,"owner_url":78,"languages":79,"stars":111,"forks":112,"last_commit_at":113,"license":114,"difficulty_score":115,"env_os":116,"env_gpu":117,"env_ram":118,"env_deps":119,"category_tags":130,"github_topics":77,"view_count":23,"oss_zip_url":77,"oss_zip_packed_at":77,"status":16,"created_at":131,"updated_at":132,"faqs":133,"releases":174},2906,"IPADS-SAI\u002FMobiAgent","MobiAgent","The Intelligent GUI Agent for Mobile Phones","MobiAgent 是一个专为智能手机设计的智能 GUI 代理系统，旨在让手机能够像人类一样理解屏幕内容并自主执行复杂操作。它通过整合自定义的 MobiMind 模型家族、加速框架 AgentRR 以及评测基准 MobiFlow，构建了一套完整且可定制的移动智能体解决方案。\n\n这一工具主要解决了传统自动化脚本灵活性差、难以应对动态界面及跨应用多步骤任务的问题。无论是需要在小红书查找攻略、去淘宝比价，再将结果通过微信发送给朋友这类复杂的跨应用流程，MobiAgent 都能通过视觉感知与逻辑推理自动完成。其独特的技术亮点包括支持纯端侧推理（无需联网即可在手机本地运行）、具备用户偏好记忆系统以提供个性化服务，以及高效的“记录与回放”加速机制，显著提升了任务执行效率。\n\nMobiAgent 非常适合 AI 研究人员探索移动端智能体架构，也适合开发者用于构建下一代自动化应用或进行数据收集。随着纯端侧推理功能的完善，未来普通用户也能直接利用它在手机上实现高度智能化的个人助理体验，轻松处理繁琐的日常数字任务。","\u003Cdiv align=\"center\">\n  \u003Cpicture>\n    \u003Cimg alt=\"MobiAgent\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FIPADS-SAI_MobiAgent_readme_570da72e3740.png\" width=10%>\n  \u003C\u002Fpicture>\n\u003C\u002Fdiv>\n\n\u003Ch3 align=\"center\">\nMobiAgent: A Systematic Framework for Customizable Mobile Agents\n\u003C\u002Fh3>\n\n\u003Cp align=\"center\">\n| \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.00531\">\u003Cb>MobiAgent Paper\u003C\u002Fb>\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.15784\">\u003Cb>MobiMem Paper\u003C\u002Fb>\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FIPADS-SAI\u002Fmobimind-68b2aad150ccafd9d9e10e4d\">\u003Cb>Huggingface\u003C\u002Fb>\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FIPADS-SAI\u002FMobiAgent\u002Freleases\u002Ftag\u002Fv1.0.1\">\u003Cb>App\u003C\u002Fb>\u003C\u002Fa> |\n\u003C\u002Fp> \n\n\u003Cp align=\"center\">\n \u003Cstrong>English\u003C\u002Fstrong> | \u003Ca href=\"README_zh.md\">中文\u003C\u002Fa>\n\u003C\u002Fp> \n\n---\n\n## About\n\n**MobiAgent** is a powerful and customizable mobile agent system including:\n\n* **An agent model family**: MobiMind\n* **An agent acceleration framework**: AgentRR\n* **An agent benchmark**: MobiFlow\n\n**System Architecture:**\n\n\u003Cdiv align=\"center\">\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FIPADS-SAI_MobiAgent_readme_8f36e50df302.png\" width=\"100%\"\u002F>\n\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n## News\n\n- [2026.3.14] 🔥 We are excited to announce the release of [MobiClaw](https:\u002F\u002Fgithub.com\u002FIPADS-SAI\u002FMobiClaw), our first GUI-based mobile \"claw\", and new GUI model: [MobiMind-1.5-4B](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002Ffengerhu1\u002FMobiMind-1.5-4B-0313).\n- [2025.12.26] 📱 **Pure on-device inference on smartphones is now supported!** See [`phone_runner\u002FREADME.md`](phone_runner\u002FREADME.md) to get started.\n- [2025.12.25] 🛠️ We've released **unified GUI agent runner** supporting one-click config of multiple models (`MobiAgent`, `UI-TARS`, `AutoGLM`, `Qwen-VL`, `Gemini`, etc.). See [Unify Runner README](https:\u002F\u002Fgithub.com\u002FIPADS-SAI\u002FMobiAgent\u002Fblob\u002Funify-runner\u002Frunner\u002FRUNNER_README.md) to get started.\n- [2025.12.08] We've released [MobiMind-Reasoning-4B](https:\u002F\u002Fhuggingface.co\u002FIPADS-SAI\u002FMobiMind-Reasoning-4B-1208) and its quantized version [MobiMind-Reasoning-4B-AWQ](https:\u002F\u002Fhuggingface.co\u002FIPADS-SAI\u002FMobiMind-Reasoning-4B-1208-AWQ). \n- [2025.11.03] Added multi-task execution support. See [Multi-task README](runner\u002Fmobiagent\u002Fmulti_task\u002FREADME.md) for details. \n- [2025.11.03] Introduced a user profile memory system, enabled via `--user_profile on`. See [User Profile README](runner\u002FREADME.md#user-profile--preference-memory-mem0graphrag) for details.\n\n\u003Cdetails>\u003Csummary>Full News\u003C\u002Fsummary>\n\u003Cul>\n  \u003Cli>[2025.10.31] We've updated the MobiMind-Mixed model based on Qwen3-VL-4B-Instruct! Download it at \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FIPADS-SAI\u002FMobiMind-Mixed-4B-1031\">MobiMind-Mixed-4B-1031\u003C\u002Fa>.\u003C\u002Fli>\n  \u003Cli>[2025.9.30] Added an experience memory module.\u003C\u002Fli>\n  \u003Cli>[2025.9.29] We've open-sourced a mixed version of MobiMind, capable of both Decider and Grounder tasks! Download it at \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FIPADS-SAI\u002FMobiMind-Mixed-7B\">MobiMind-Mixed-7B\u003C\u002Fa>.\u003C\u002Fli>\n\u003C\u002Ful>\n\u003C\u002Fdetails>\n\n- [2025.8.30] We've open-sourced MobiAgent!\n\n## Evaluation Results\n\n\u003Cdiv align=\"center\">\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FIPADS-SAI_MobiAgent_readme_80540eee8da9.png\" width=\"30%\" style=\"margin-right: 15px;\"\u002F>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FIPADS-SAI_MobiAgent_readme_3c11eec6806d.png\" width=\"30%\" style=\"margin-right: 15px;\"\u002F>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FIPADS-SAI_MobiAgent_readme_66ea4ee3aeca.png\" width=\"30%\"\u002F>\n\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n\u003Cdiv align=\"center\">\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FIPADS-SAI_MobiAgent_readme_32d1d3302ebe.png\" width=\"60%\"\u002F>\n\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n## Demo\n\n**Mobile App Demo**:\n\u003Cdiv align=\"center\">\n  \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fab748578-7d17-47e1-a47c-4d9c3d34b28f\"\u002F>\n\u003C\u002Fdiv>\n\n**AgentRR Demo** (Left: first task; Right: subsequent task)\n\u003Cdiv align=\"center\">\n  \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fef5268a2-2e9c-489c-b8a7-828f00ec3ed1\"\u002F>\n\u003C\u002Fdiv>\n\n**Multi Task Demo**\n\ntask: `在小红书查找2025年性价比最高的单反相机推荐，然后在淘宝搜索该相机，并将淘宝中的相机品牌、名称和价格通过微信发送给小赵。`\n\u003Cdiv align=\"center\">\n  \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F92fdf23c-71d6-4c67-b02a-c3fa13fcc0e7\"\u002F>\n\u003C\u002Fdiv>\n\n## Project Structure\n\n- `agent_rr\u002F` - Agent Record & Replay framework\n- `collect\u002F` - Data collection, annotation, processing and export tools\n- `runner\u002F` - Agent executor that connects to phone via ADB, executes tasks, and records execution traces\n- `MobiFlow\u002F` - Agent evaluation benchmark based on milestone DAG\n- `app\u002F` - MobiAgent Android app\n- `deployment\u002F` - Service deployment for MobiAgent mobile application\n\n## Quick Start\n\n### Use with MobiAgent APP\n\nIf you would like to try MobiAgent directly with our APP, please download it in [Download Link](https:\u002F\u002Fgithub.com\u002FIPADS-SAI\u002FMobiAgent\u002Freleases\u002Ftag\u002Fv1.0.1) and enjoy yourself!\n\n### Use with Python Scripts\n\nIf you would like to try MobiAgent with python scripts which leverage Android Debug Bridge (ADB) to control your phone, please follow these steps:\n\n#### 1. Environment Setup\n\nCreate virtual environment, e.g., using conda:\n\n```bash\nconda create -n MobiMind python=3.10\nconda activate MobiMind\n```\n\nSimplest environment setup (in case you want to run the agent runner alone):\n\n```bash\n# Install simplest dependencies\npip install -r requirements_simple.txt\n```\n\nFull environment setup (in case you want to run the full pipeline): \n\n```bash\npip install -r requirements.txt\n\n# Download OmniParser model weights\nfor f in icon_detect\u002F{train_args.yaml,model.pt,model.yaml} ; do huggingface-cli download microsoft\u002FOmniParser-v2.0 \"$f\" --local-dir weights; done\n\n# Download embedding model utils\nhuggingface-cli download BAAI\u002Fbge-small-zh --local-dir .\u002Futils\u002Fexperience\u002FBAAI\u002Fbge-small-zh\n\n# Install OCR utils (optional)\nsudo apt install tesseract-ocr tesseract-ocr-chi-sim\n\n# If you need GPU acceleration for OCR, install paddlepaddle-gpu according to your CUDA version\n# For details, refer to https:\u002F\u002Fwww.paddlepaddle.org.cn\u002Finstall\u002Fquick, CUDA 11.8 for example:\npython -m pip install paddlepaddle-gpu>=3.1.0 -i https:\u002F\u002Fwww.paddlepaddle.org.cn\u002Fpackages\u002Fstable\u002Fcu118\u002F\n\n```\n\n#### 2. Mobile Device Setup\n\n- Download and install [ADBKeyboard](https:\u002F\u002Fgithub.com\u002Fsenzhk\u002FADBKeyBoard\u002Fblob\u002Fmaster\u002FADBKeyboard.apk) on your Android device\n- Enable Developer Options on your Android device and allow USB debugging\n- Connect your phone to the computer using a USB cable\n\n#### 3. Model Deployment\n\nAfter downloading the model checkpoints, use vLLM to deploy model inference services:\n\ndownload urls:\n- MobiMind-1.5-4B:\n  -  [huggingface](https:\u002F\u002Fhuggingface.co\u002FIPADS-SAI\u002FMobiMind-1.5-4B-0313)\n  -  [modelscope](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002Ffengerhu1\u002FMobiMind-1.5-4B-0313)\n\n\n```bash\nvllm serve MobiMind-Reasoning-4B --port \u003Cdecider\u002Fgrounder port>\nvllm serve Qwen\u002FQwen3-4B-Instruct --port \u003Cplanner port>\n```\n\n#### 4. Agent Memory Setup (Optional)\n\nMobiAgent supports three types of memory systems to enhance agent performance:\n\n##### 4.1 User Profile Memory\n\nUser preference memory system (Mem0) provides personalized context for planning. To enable it, set up the backend storage:\n\nMilvus (Vector Database) - Required for vector search:\n\n```bash\n# Download the installation script\ncurl -sfL https:\u002F\u002Fraw.githubusercontent.com\u002Fmilvus-io\u002Fmilvus\u002Fmaster\u002Fscripts\u002Fstandalone_embed.sh -o standalone_embed.sh\n# Start the Docker container\nbash standalone_embed.sh start\n```\n\nAdd to your `.env` file:\n```bash\nMILVUS_URL=http:\u002F\u002Flocalhost:19530\nEMBEDDING_MODEL=BAAI\u002Fbge-small-zh\nEMBEDDING_MODEL_DIMS=384\nOPENAI_API_KEY=your_key_here\nOPENAI_BASE_URL=your_llm_endpoint_here\n```\n\nNeo4j (GraphRAG) - Optional for graph-based retrieval:\n\n```bash\ndocker run -d --name neo4j \\\n  -p 7474:7474 -p 7687:7687 \\\n  -e NEO4J_AUTH=neo4j\u002Ftestpassword \\\n  neo4j:5.23.0\n```\n\nAdd to your `.env` file:\n```bash\nNEO4J_URL=neo4j:\u002F\u002Flocalhost:7687\nNEO4J_USERNAME=neo4j\nNEO4J_PASSWORD=testpassword\n```\n\nFor detailed configuration, see [runner README](runner\u002FREADME.md#用户画像与偏好记忆).\n\n##### 4.2 Experience Memory\n\nExperience memory enables the planner to retrieve and use similar past task execution experiences. Enable it by adding the `--use_experience` flag when launching the agent runner.\n\n##### 4.3 Action Memory\n\nAction memory (AgentRR) caches and reuses successful action sequences to accelerate task execution. For ActTree reproduction and evaluation, see [AgentRR README (ActTree)](agent_rr\u002FREADME.md). For ActChain (experience-based action memory) which is being integrated with Agent Runner as an experimental feature, see [#49](https:\u002F\u002Fgithub.com\u002FIPADS-SAI\u002FMobiAgent\u002Fpull\u002F49).\n\n#### 5. Launch Agent Runner\n\nWrite the list of tasks that you would like to test in `runner\u002Fmobiagent\u002Ftask.json`, then launch agent runner:\n\n**Basic launch:**\n```bash\npython -m runner.mobiagent.mobiagent \\\n  --service_ip \u003CService IP> \\\n  --decider_port \u003CDecider Service Port> \\\n  --planner_port \u003CPlanner Service Port>\n  # grounder_port is deprecated after MobiMind-1.5-4B-0313\n```\n\n**With user profile memory:**\n```bash\npython -m runner.mobiagent.mobiagent \\\n  --service_ip \u003CService IP> \\\n  --decider_port \u003CDecider Service Port> \\\n  --planner_port \u003CPlanner Service Port> \\\n  --user_profile on \\\n  --use_graphrag off  # Use 'on' for GraphRAG (Neo4j), 'off' for vector search (Milvus)\n  # grounder_port is deprecated after MobiMind-1.5-4B-0313\n```\n\nCommon parameters:\n\n- `--service_ip`: Service IP (default: `localhost`)\n- `--decider_port`: Decider service port (default: `8000`)\n- `--grounder_port`: Grounder service port (default: `8001`)\n- `--planner_port`: Planner service port (default: `8002`)\n- `--e2e`: Use end-to-end model and elinimates grounder calls to accelerate execution (default: `false`)\n- `--device`: Device type, `Android` or `Harmony` (default: `Android`)\n- `--user_profile`: Enable user profile memory, `on` or `off` (default: `off`)\n- `--use_graphrag`: Use GraphRAG (Neo4j) for retrieval, `on` or `off` (default: `off`)\n- `--use_experience`: Enable experience-based task rewriting (default: `False`)\n- `--data_dir`: Directory to save result data (default: `runner\u002Fmobiagent\u002Fdata\u002F`)\n- `--task_file`: Path to the task list file (default: `runner\u002Fmobiagent\u002Ftask.json`)\n\nThe runner automatically controls the device and invoke agent models to complete the pre-defined tasks.\n\n> **Important**: If you deploy MobiMind-Reasoning-4B model inference, set both decider\u002Fgrounder ports to `\u003Cdecider\u002Fgrounder port>`.\n\nFor all available parameters, see [runner README](runner\u002FREADME.md#项目启动).\n\n**Multi-task Execution:**\n\nFor complex tasks that require interaction with multiple applications, use the multi-task executor:\n\n```bash\npython -m runner.mobiagent.multi_task.mobiagent_refactored \\\n  --service_ip \u003CService IP> \\\n  --decider_port \u003CDecider Service Port> \\\n  --grounder_port \u003CGrounder Service Port> \\\n  --planner_port \u003CPlanner Service Port> \\\n  --task \"Your multi-step task description\"\n```\n\nFor detailed configuration, multi-screenshot support, OCR settings, and experience memory integration, see [Multi-task README](runner\u002Fmobiagent\u002Fmulti_task\u002FREADME.md).\n\n## Detailed Sub-module Usage\n\nFor detailed usage instructions, see the `README.md` files in each sub-module directory.\n\n## Citation\n\nIf you find MobiAgent useful in your research, please feel free to cite our [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.00531):\n\n```\n@misc{zhang2025mobiagentsystematicframeworkcustomizable,\n  title={MobiAgent: A Systematic Framework for Customizable Mobile Agents}, \n  author={Cheng Zhang and Erhu Feng and Xi Zhao and Yisheng Zhao and Wangbo Gong and Jiahui Sun and Dong Du and Zhichao Hua and Yubin Xia and Haibo Chen},\n  year={2025},\n  eprint={2509.00531},\n  archivePrefix={arXiv},\n  primaryClass={cs.MA},\n  url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.00531}, \n}\n@misc{liu2025trainingenablingselfevolutionagents,\n  title={Beyond Training: Enabling Self-Evolution of Agents with MOBIMEM}, \n  author={Zibin Liu and Cheng Zhang and Xi Zhao and Yunfei Feng and Bingyu Bai and Dahu Feng and Erhu Feng and Yubin Xia and Haibo Chen},\n  year={2025},\n  eprint={2512.15784},\n  archivePrefix={arXiv},\n  primaryClass={cs.AI},\n  url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.15784}, \n}\n```\n\n## Acknowledgements\nWe gratefully acknowledge the open-source projects like MobileAgent, UI-TARS, and Qwen-VL, etc. We also thank the National Innovation Institute of High-end Smart Appliances for their support of this project.\n\n## Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FIPADS-SAI_MobiAgent_readme_6a7bc1659cbf.png)](https:\u002F\u002Fwww.star-history.com\u002F#IPADS-SAI\u002FMobiAgent&Date)\n","\u003Cdiv align=\"center\">\n  \u003Cpicture>\n    \u003Cimg alt=\"MobiAgent\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FIPADS-SAI_MobiAgent_readme_570da72e3740.png\" width=10%>\n  \u003C\u002Fpicture>\n\u003C\u002Fdiv>\n\n\u003Ch3 align=\"center\">\nMobiAgent：可定制移动智能体的系统化框架\n\u003C\u002Fh3>\n\n\u003Cp align=\"center\">\n| \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.00531\">\u003Cb>MobiAgent论文\u003C\u002Fb>\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.15784\">\u003Cb>MobiMem论文\u003C\u002Fb>\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FIPADS-SAI\u002Fmobimind-68b2aad150ccafd9d9e10e4d\">\u003Cb>Huggingface\u003C\u002Fb>\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FIPADS-SAI\u002FMobiAgent\u002Freleases\u002Ftag\u002Fv1.0.1\">\u003Cb>App\u003C\u002Fb>\u003C\u002Fa> |\n\u003C\u002Fp> \n\n\u003Cp align=\"center\">\n \u003Cstrong>English\u003C\u002Fstrong> | \u003Ca href=\"README_zh.md\">中文\u003C\u002Fa>\n\u003C\u002Fp> \n\n---\n\n## 关于\n\n**MobiAgent** 是一个功能强大且可定制的移动智能体系统，包含：\n\n* **智能体模型家族**：MobiMind\n* **智能体加速框架**：AgentRR\n* **智能体基准测试**：MobiFlow\n\n**系统架构：**\n\n\u003Cdiv align=\"center\">\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FIPADS-SAI_MobiAgent_readme_8f36e50df302.png\" width=\"100%\"\u002F>\n\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n## 新闻\n\n- [2026.3.14] 🔥 我们很高兴地宣布发布 [MobiClaw](https:\u002F\u002Fgithub.com\u002FIPADS-SAI\u002FMobiClaw)，这是我们首个基于GUI的移动“爪子”工具，以及新的GUI模型：[MobiMind-1.5-4B](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002Ffengerhu1\u002FMobiMind-1.5-4B-0313)。\n- [2025.12.26] 📱 **现已支持在智能手机上进行纯设备端推理！** 请参阅 [`phone_runner\u002FREADME.md`](phone_runner\u002FREADME.md) 开始使用。\n- [2025.12.25] 🛠️ 我们发布了 **统一GUI智能体运行器**，支持一键配置多种模型（`MobiAgent`、`UI-TARS`、`AutoGLM`、`Qwen-VL`、`Gemini` 等）。请参阅 [Unify Runner README](https:\u002F\u002Fgithub.com\u002FIPADS-SAI\u002FMobiAgent\u002Fblob\u002Funify-runner\u002Frunner\u002FRUNNER_README.md) 开始使用。\n- [2025.12.08] 我们发布了 [MobiMind-Reasoning-4B](https:\u002F\u002Fhuggingface.co\u002FIPADS-SAI\u002FMobiMind-Reasoning-4B-1208) 及其量化版本 [MobiMind-Reasoning-4B-AWQ](https:\u002F\u002Fhuggingface.co\u002FIPADS-SAI\u002FMobiMind-Reasoning-4B-1208-AWQ)。\n- [2025.11.03] 增加了多任务执行支持。详情请参阅 [Multi-task README](runner\u002Fmobiagent\u002Fmulti_task\u002FREADME.md)。\n- [2025.11.03] 引入了用户画像记忆系统，可通过 `--user_profile on` 启用。详情请参阅 [User Profile README](runner\u002FREADME.md#user-profile--preference-memory-mem0graph)。\n\n\u003Cdetails>\u003Csummary>完整新闻\u003C\u002Fsummary>\n\u003Cul>\n  \u003Cli>[2025.10.31] 我们基于 Qwen3-VL-4B-Instruct 更新了 MobiMind-Mixed 模型！请前往 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FIPADS-SAI\u002FMobiMind-Mixed-4B-1031\">MobiMind-Mixed-4B-1031\u003C\u002Fa> 下载。\u003C\u002Fli>\n  \u003Cli>[2025.9.30] 增加了经验记忆模块。\u003C\u002Fli>\n  \u003Cli>[2025.9.29] 我们开源了 MobiMind 的混合版本，能够同时完成决策和接地任务！请前往 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FIPADS-SAI\u002FMobiMind-Mixed-7B\">MobiMind-Mixed-7B\u003C\u002Fa> 下载。\u003C\u002Fli>\n\u003C\u002Ful>\n\u003C\u002Fdetails>\n\n- [2025.8.30] 我们开源了 MobiAgent！\n\n## 评估结果\n\n\u003Cdiv align=\"center\">\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FIPADS-SAI_MobiAgent_readme_80540eee8da9.png\" width=\"30%\" style=\"margin-right: 15px;\"\u002F>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FIPADS-SAI_MobiAgent_readme_3c11eec6806d.png\" width=\"30%\" style=\"margin-right: 15px;\"\u002F>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FIPADS-SAI_MobiAgent_readme_66ea4ee3aeca.png\" width=\"30%\"\u002F>\n\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n\u003Cdiv align=\"center\">\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FIPADS-SAI_MobiAgent_readme_32d1d3302ebe.png\" width=\"60%\"\u002F>\n\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n## 演示\n\n**移动端演示**：\n\u003Cdiv align=\"center\">\n  \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fab748578-7d17-47e1-a47c-4d9c3d34b28f\"\u002F>\n\u003C\u002Fdiv>\n\n**AgentRR 演示**（左：首次任务；右：后续任务）\n\u003Cdiv align=\"center\">\n  \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fef5268a2-2e9c-489c-b8a7-828f00ec3ed1\"\u002F>\n\u003C\u002Fdiv>\n\n**多任务演示**\n\n任务：`在小红书查找2025年性价比最高的单反相机推荐，然后在淘宝搜索该相机，并将淘宝中的相机品牌、名称和价格通过微信发送给小赵。`\n\u003Cdiv align=\"center\">\n  \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F92fdf23c-71d6-4c67-b02a-c3fa13fcc0e7\"\u002F>\n\u003C\u002Fdiv>\n\n## 项目结构\n\n- `agent_rr\u002F` - 智能体记录与回放框架\n- `collect\u002F` - 数据收集、标注、处理和导出工具\n- `runner\u002F` - 智能体执行器，通过 ADB 连接到手机，执行任务并记录执行轨迹\n- `MobiFlow\u002F` - 基于里程碑DAG的智能体评估基准\n- `app\u002F` - MobiAgent 安卓应用\n- `deployment\u002F` - MobiAgent 移动应用的服务部署\n\n## 快速入门\n\n### 使用 MobiAgent 应用\n\n如果您想直接通过我们的APP体验MobiAgent，请在 [下载链接](https:\u002F\u002Fgithub.com\u002FIPADS-SAI\u002FMobiAgent\u002Freleases\u002Ftag\u002Fv1.0.1) 下载并尽情享受吧！\n\n### 使用 Python 脚本\n\n如果您希望通过利用 Android Debug Bridge (ADB) 控制手机的 Python 脚本来尝试 MobiAgent，请按照以下步骤操作：\n\n#### 1. 环境设置\n\n创建虚拟环境，例如使用 conda：\n\n```bash\nconda create -n MobiMind python=3.10\nconda activate MobiMind\n```\n\n最简单的环境设置（如果您只想单独运行智能体运行器）：\n\n```bash\n# 安装最简依赖\npip install -r requirements_simple.txt\n```\n\n完整的环境设置（如果您想运行整个流程）：\n\n```bash\npip install -r requirements.txt\n\n# 下载 OmniParser 模型权重\nfor f in icon_detect\u002F{train_args.yaml,model.pt,model.yaml} ; do huggingface-cli download microsoft\u002FOmniParser-v2.0 \"$f\" --local-dir weights; done\n\n# 下载嵌入模型工具\nhuggingface-cli download BAAI\u002Fbge-small-zh --local-dir .\u002Futils\u002Fexperience\u002FBAAI\u002Fbge-small-zh\n\n# 安装 OCR 工具（可选）\nsudo apt install tesseract-ocr tesseract-ocr-chi-sim\n\n# 如果需要 GPU 加速 OCR，请根据您的 CUDA 版本安装 paddlepaddle-gpu\n# 详情请参考 https:\u002F\u002Fwww.paddlepaddle.org.cn\u002Finstall\u002Fquick，以 CUDA 11.8 为例：\npython -m pip install paddlepaddle-gpu>=3.1.0 -i https:\u002F\u002Fwww.paddlepaddle.org.cn\u002Fpackages\u002Fstable\u002Fcu118\u002F\n\n```\n\n#### 2. 移动设备设置\n\n- 在您的安卓设备上下载并安装 [ADBKeyboard](https:\u002F\u002Fgithub.com\u002Fsenzhk\u002FADBKeyBoard\u002Fblob\u002Fmaster\u002FADBKeyboard.apk)\n- 在您的安卓设备上启用开发者选项并允许 USB 调试\n- 使用 USB 数据线将您的手机连接到电脑\n\n#### 3. 模型部署\n\n下载模型检查点后，使用 vLLM 部署模型推理服务：\n\n下载链接：\n- MobiMind-1.5-4B：\n  -  [huggingface](https:\u002F\u002Fhuggingface.co\u002FIPADS-SAI\u002FMobiMind-1.5-4B-0313)\n  -  [modelscope](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002Ffengerhu1\u002FMobiMind-1.5-4B-0313)\n\n\n```bash\nvllm serve MobiMind-Reasoning-4B --port \u003Cdecider\u002Fgrounder port>\nvllm serve Qwen\u002FQwen3-4B-Instruct --port \u003Cplanner port>\n```\n\n#### 4. 智能体记忆设置（可选）\n\nMobiAgent 支持三种记忆系统来提升智能体性能：\n\n##### 4.1 用户画像记忆\n\n用户偏好记忆系统（Mem0）为规划提供个性化上下文。要启用它，请设置后端存储：\n\nMilvus（向量数据库）——用于向量搜索：\n\n```bash\n# 下载安装脚本\ncurl -sfL https:\u002F\u002Fraw.githubusercontent.com\u002Fmilvus-io\u002Fmilvus\u002Fmaster\u002Fscripts\u002Fstandalone_embed.sh -o standalone_embed.sh\n\n# 启动 Docker 容器\nbash standalone_embed.sh start\n```\n\n将以下内容添加到你的 `.env` 文件中：\n```bash\nMILVUS_URL=http:\u002F\u002Flocalhost:19530\nEMBEDDING_MODEL=BAAI\u002Fbge-small-zh\nEMBEDDING_MODEL_DIMS=384\nOPENAI_API_KEY=your_key_here\nOPENAI_BASE_URL=your_llm_endpoint_here\n```\n\nNeo4j（GraphRAG）——基于图的检索功能为可选：\n\n```bash\ndocker run -d --name neo4j \\\n  -p 7474:7474 -p 7687:7687 \\\n  -e NEO4J_AUTH=neo4j\u002Ftestpassword \\\n  neo4j:5.23.0\n```\n\n将以下内容添加到你的 `.env` 文件中：\n```bash\nNEO4J_URL=neo4j:\u002F\u002Flocalhost:7687\nNEO4J_USERNAME=neo4j\nNEO4J_PASSWORD=testpassword\n```\n\n有关详细配置，请参阅 [runner README](runner\u002FREADME.md#用户画像与偏好记忆)。\n\n##### 4.2 经验记忆\n\n经验记忆使规划器能够检索并使用类似的过往任务执行经验。在启动代理运行程序时，通过添加 `--use_experience` 标志来启用该功能。\n\n##### 4.3 行动记忆\n\n行动记忆（AgentRR）会缓存并重用成功的动作序列，以加速任务执行。有关 ActTree 的复现和评估，请参阅 [AgentRR README (ActTree)](agent_rr\u002FREADME.md)。对于正在作为实验性功能集成到 Agent Runner 中的 ActChain（基于经验的动作记忆），请参阅 [#49](https:\u002F\u002Fgithub.com\u002FIPADS-SAI\u002FMobiAgent\u002Fpull\u002F49)。\n\n#### 5. 启动代理运行程序\n\n将你想要测试的任务列表写入 `runner\u002Fmobiagent\u002Ftask.json`，然后启动代理运行程序：\n\n**基本启动：**\n```bash\npython -m runner.mobiagent.mobiagent \\\n  --service_ip \u003C服务IP> \\\n  --decider_port \u003C决策者服务端口> \\\n  --planner_port \u003C规划者服务端口>\n  # grounder_port 在 MobiMind-1.5-4B-0313 之后已被弃用\n```\n\n**带用户画像记忆：**\n```bash\npython -m runner.mobiagent.mobiagent \\\n  --service_ip \u003C服务IP> \\\n  --decider_port \u003C决策者服务端口> \\\n  --planner_port \u003C规划者服务端口> \\\n  --user_profile on \\\n  --use_graphrag off  # 使用 'on' 表示启用 GraphRAG（Neo4j），使用 'off' 表示启用向量检索（Milvus）\n  # grounder_port 在 MobiMind-1.5-4B-0313 之后已被弃用\n```\n\n常用参数：\n\n- `--service_ip`：服务 IP 地址（默认值：`localhost`）\n- `--decider_port`：决策者服务端口（默认值：`8000`）\n- `--grounder_port`：分组者服务端口（默认值：`8001`）\n- `--planner_port`：规划者服务端口（默认值：`8002`）\n- `--e2e`：使用端到端模型并消除分组调用以加速执行（默认值：`false`）\n- `--device`：设备类型，`Android` 或 `Harmony`（默认值：`Android`）\n- `--user_profile`：启用用户画像记忆，`on` 或 `off`（默认值：`off`）\n- `--use_graphrag`：是否使用 GraphRAG（Neo4j）进行检索，`on` 或 `off`（默认值：`off`）\n- `--use_experience`：启用基于经验的任务重写功能（默认值：`False`）\n- `--data_dir`：保存结果数据的目录（默认值：`runner\u002Fmobiagent\u002Fdata\u002F`）\n- `--task_file`：任务列表文件的路径（默认值：`runner\u002Fmobiagent\u002Ftask.json`）\n\n运行程序会自动控制设备，并调用代理模型来完成预定义的任务。\n\n> **重要提示**：如果你部署了 MobiMind-Reasoning-4B 模型推理，则需将决策者和分组者的端口都设置为 `\u003C决策者\u002F分组者端口>`。\n\n有关所有可用参数，请参阅 [runner README](runner\u002FREADME.md#项目启动)。\n\n**多任务执行：**\n\n对于需要与多个应用交互的复杂任务，可以使用多任务执行器：\n\n```bash\npython -m runner.mobiagent.multi_task.mobiagent_refactored \\\n  --service_ip \u003C服务IP> \\\n  --decider_port \u003C决策者服务端口> \\\n  --grounder_port \u003C分组者服务端口> \\\n  --planner_port \u003C规划者服务端口> \\\n  --task \"你的多步骤任务描述\"\n```\n\n有关详细配置、多截图支持、OCR 设置以及经验记忆集成等内容，请参阅 [多任务 README](runner\u002Fmobiagent\u002Fmulti_task\u002FREADME.md)。\n\n## 子模块详细使用说明\n\n有关详细的使用说明，请参阅各个子模块目录中的 `README.md` 文件。\n\n## 引用\n\n如果你在研究中发现 MobiAgent 非常有用，请随时引用我们的论文：\n\n```\n@misc{zhang2025mobiagentsystematicframeworkcustomizable,\n  title={MobiAgent：一种用于可定制移动代理的系统化框架}, \n  author={Cheng Zhang 和 Erhu Feng、Xi Zhao、Yisheng Zhao、Wangbo Gong、Jiahui Sun、Dong Du、Zhichao Hua、Yubin Xia 和 Haibo Chen},\n  year={2025},\n  eprint={2509.00531},\n  archivePrefix={arXiv},\n  primaryClass={cs.MA},\n  url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.00531}, \n}\n@misc{liu2025trainingenablingselfevolutionagents,\n  title={超越训练：利用 MOBIMEM 实现代理的自我进化}, \n  author={Zibin Liu、Cheng Zhang、Xi Zhao、Yunfei Feng、Bingyu Bai、Dahu Feng、Erhu Feng、Yubin Xia 和 Haibo Chen},\n  year={2025},\n  eprint={2512.15784},\n  archivePrefix={arXiv},\n  primaryClass={cs.AI},\n  url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.15784}, \n}\n```\n\n## 致谢\n我们衷心感谢 MobileAgent、UI-TARS、Qwen-VL 等开源项目。同时，我们也感谢国家高端智能家电创新研究院对本项目的大力支持。\n\n## 星标历史\n\n[![星标历史图表](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FIPADS-SAI_MobiAgent_readme_6a7bc1659cbf.png)](https:\u002F\u002Fwww.star-history.com\u002F#IPADS-SAI\u002FMobiAgent&Date)","# MobiAgent 快速上手指南\n\nMobiAgent 是一个可定制的移动智能体系统，包含模型家族 (MobiMind)、加速框架 (AgentRR) 和评测基准 (MobiFlow)。本指南将帮助您快速在本地部署并运行基于 Python 脚本的 MobiAgent。\n\n## 1. 环境准备\n\n### 系统要求\n- **操作系统**: Linux (推荐 Ubuntu) 或 macOS\n- **Python 版本**: 3.10+\n- **移动设备**: Android 手机 (需开启 USB 调试) 或 鸿蒙设备\n- **硬件**: 建议配备 NVIDIA GPU 以加速模型推理和 OCR 处理\n\n### 前置依赖\n- **ADB (Android Debug Bridge)**: 用于电脑与手机通信\n- **Git**: 代码克隆\n- **Docker**: 可选，用于部署记忆模块所需的向量数据库 (Milvus) 或图数据库 (Neo4j)\n\n## 2. 安装步骤\n\n### 2.1 创建虚拟环境\n推荐使用 Conda 管理环境：\n```bash\nconda create -n MobiMind python=3.10\nconda activate MobiMind\n```\n\n### 2.2 安装依赖\n**方案 A：最小化安装** (仅运行 Agent Runner)\n```bash\npip install -r requirements_simple.txt\n```\n\n**方案 B：完整安装** (包含数据处理、OCR 及完整流程)\n```bash\npip install -r requirements.txt\n\n# 下载 OmniParser 模型权重\nfor f in icon_detect\u002F{train_args.yaml,model.pt,model.yaml} ; do huggingface-cli download microsoft\u002FOmniParser-v2.0 \"$f\" --local-dir weights; done\n\n# 下载嵌入模型工具 (国内用户若访问 HuggingFace 困难，可自行替换为 ModelScope 下载)\nhuggingface-cli download BAAI\u002Fbge-small-zh --local-dir .\u002Futils\u002Fexperience\u002FBAAI\u002Fbge-small-zh\n\n# 安装 OCR 工具 (Linux)\nsudo apt install tesseract-ocr tesseract-ocr-chi-sim\n\n# [可选] 安装 PaddlePaddle GPU 版本以加速 OCR (根据 CUDA 版本选择，例如 CUDA 11.8)\npython -m pip install paddlepaddle-gpu>=3.1.0 -i https:\u002F\u002Fwww.paddlepaddle.org.cn\u002Fpackages\u002Fstable\u002Fcu118\u002F\n```\n\n### 2.3 移动端设置\n1. 在 Android 手机上下载并安装 [ADBKeyboard](https:\u002F\u002Fgithub.com\u002Fsenzhk\u002FADBKeyBoard\u002Fblob\u002Fmaster\u002FADBKeyboard.apk)。\n2. 进入手机「开发者选项」，开启「USB 调试」。\n3. 使用 USB 数据线将手机连接至电脑，并确保 `adb devices` 能识别到设备。\n\n### 2.4 部署模型服务\n下载模型检查点并使用 vLLM 启动推理服务。\n*推荐国内用户使用 ModelScope 下载模型。*\n\n**模型下载地址:**\n- MobiMind-1.5-4B: [ModelScope](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002Ffengerhu1\u002FMobiMind-1.5-4B-0313) | [HuggingFace](https:\u002F\u002Fhuggingface.co\u002FIPADS-SAI\u002FMobiMind-1.5-4B-0313)\n\n**启动命令示例:**\n```bash\n# 启动决策\u002F定位模型 (Decider\u002FGrounder)\nvllm serve MobiMind-Reasoning-4B --port 8000\n\n# 启动规划模型 (Planner)\nvllm serve Qwen\u002FQwen3-4B-Instruct --port 8002\n```\n> **注意**: 如果使用 `MobiMind-Reasoning-4B` 端到端模型，只需启动一个服务端口，并在运行脚本时指定相同端口。\n\n### 2.5 配置记忆模块 (可选)\n若需启用用户画像记忆功能，需部署后端存储：\n\n**启动 Milvus (向量数据库):**\n```bash\ncurl -sfL https:\u002F\u002Fraw.githubusercontent.com\u002Fmilvus-io\u002Fmilvus\u002Fmaster\u002Fscripts\u002Fstandalone_embed.sh -o standalone_embed.sh\nbash standalone_embed.sh start\n```\n\n在项目根目录创建 `.env` 文件并配置：\n```bash\nMILVUS_URL=http:\u002F\u002Flocalhost:19530\nEMBEDDING_MODEL=BAAI\u002Fbge-small-zh\nEMBEDDING_MODEL_DIMS=384\nOPENAI_API_KEY=your_key_here\nOPENAI_BASE_URL=your_llm_endpoint_here\n```\n\n## 3. 基本使用\n\n### 3.1 准备任务\n编辑 `runner\u002Fmobiagent\u002Ftask.json` 文件，填入您想要测试的任务列表。\n\n### 3.2 启动 Agent\n运行以下命令启动智能体执行器：\n\n**基础模式:**\n```bash\npython -m runner.mobiagent.mobiagent \\\n  --service_ip localhost \\\n  --decider_port 8000 \\\n  --planner_port 8002\n```\n\n**启用用户画像记忆模式:**\n```bash\npython -m runner.mobiagent.mobiagent \\\n  --service_ip localhost \\\n  --decider_port 8000 \\\n  --planner_port 8002 \\\n  --user_profile on \\\n  --use_graphrag off\n```\n\n**多任务复杂场景示例:**\n```bash\npython -m runner.mobiagent.multi_task.mobiagent_refactored \\\n  --service_ip localhost \\\n  --decider_port 8000 \\\n  --grounder_port 8000 \\\n  --planner_port 8002 \\\n  --task \"在小红书查找 2025 年性价比最高的单反相机推荐，然后在淘宝搜索该相机，并将淘宝中的相机品牌、名称和价格通过微信发送给小赵。\"\n```\n\n### 常用参数说明\n- `--service_ip`: 服务 IP 地址 (默认 `localhost`)\n- `--decider_port`: 决策模型服务端口\n- `--planner_port`: 规划模型服务端口\n- `--e2e`: 是否使用端到端模型 (设为 `true` 可跳过 Grounder 调用)\n- `--device`: 设备类型 (`Android` 或 `Harmony`)\n- `--user_profile`: 是否开启用户画像记忆 (`on`\u002F`off`)\n- `--task`: 直接传入单条任务描述 (用于多任务模式)\n\n运行后，MobiAgent 将自动控制连接的移动设备，调用模型完成指定任务，并记录执行轨迹。","一位电商运营人员需要每日跨平台收集竞品数据，整理成报表并通过微信发送给团队负责人。\n\n### 没有 MobiAgent 时\n- **操作繁琐重复**：需人工在小红书搜索评测、复制相机型号，再切换至淘宝搜索比价，最后手动录入 Excel，耗时且易出错。\n- **多任务中断频繁**：在不同 APP 间反复跳转时，容易因消息通知或记忆偏差导致流程中断，难以一次性完成“搜索 - 比对 - 发送”的闭环。\n- **缺乏个性化记忆**：每次执行任务都需重新输入详细的筛选条件（如\"2025 年性价比最高”），系统无法记住用户的偏好习惯。\n- **夜间执行困难**：若需在非工作时间自动完成任务，传统脚本难以适配动态变化的 GUI 界面，维护成本极高。\n\n### 使用 MobiAgent 后\n- **全自动跨端执行**：MobiAgent 能自主理解“查找推荐并比价”的指令，自动在小红书提取关键信息，无缝跳转淘宝完成搜索与价格抓取。\n- **复杂任务流闭环**：依托多任务执行支持，MobiAgent 可一气呵成地完成从信息检索、数据清洗到通过微信发送报表的全流程，无需人工干预。\n- **用户偏好自学习**：内置的用户画像记忆系统让 MobiAgent 记住了你对“性价比”的定义和汇报格式，后续任务只需一句简单指令即可精准执行。\n- **端侧智能运行**：利用纯端侧推理能力，MobiAgent 可直接在手机后台静默运行，即使锁屏也能稳定处理任务，彻底释放人力。\n\nMobiAgent 将原本耗时数小时的跨应用繁琐操作，转化为一次简单的自然语言指令，实现了真正的移动端智能自动化。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FIPADS-SAI_MobiAgent_570da72e.png","IPADS-SAI","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FIPADS-SAI_4f5601e5.png",null,"https:\u002F\u002Fgithub.com\u002FIPADS-SAI",[80,84,88,92,96,100,104,107],{"name":81,"color":82,"percentage":83},"Python","#3572A5",42.5,{"name":85,"color":86,"percentage":87},"Makefile","#427819",36.5,{"name":89,"color":90,"percentage":91},"Java","#b07219",16.8,{"name":93,"color":94,"percentage":95},"JavaScript","#f1e05a",2.6,{"name":97,"color":98,"percentage":99},"CSS","#663399",0.7,{"name":101,"color":102,"percentage":103},"HTML","#e34c26",0.4,{"name":105,"color":106,"percentage":103},"Shell","#89e051",{"name":108,"color":109,"percentage":110},"CMake","#DA3434",0.2,1780,221,"2026-04-03T16:05:32","Apache-2.0",4,"Linux","可选但推荐。若需 OCR GPU 加速，需安装 paddlepaddle-gpu（示例支持 CUDA 11.8）；运行 vLLM 部署模型通常也需要 NVIDIA GPU，具体显存取决于模型大小（如 4B\u002F7B 模型）。","未说明",{"notes":120,"python":121,"dependencies":122},"1. 主要开发环境基于 Linux（文中明确使用了 sudo apt 安装依赖及 Docker 部署数据库）。2. 必须安装 Android Debug Bridge (ADB) 并在安卓手机上开启 USB 调试模式以控制设备。3. 可选组件包括：Milvus（用于用户画像记忆）、Neo4j（用于 GraphRAG）、Tesseract OCR（需额外安装 tesseract-ocr-chi-sim 支持中文）。4. 模型服务需使用 vLLM 部署（如 MobiMind-Reasoning-4B, Qwen3-4B-Instruct）。5. 纯手机端推理功能已支持，详见 phone_runner 目录。","3.10",[123,124,125,126,127,128,129],"vllm","paddlepaddle-gpu (可选)","tesseract-ocr","milvus (向量数据库)","neo4j (图数据库，可选)","huggingface-cli","ADBKeyboard (Android 端)",[26,13,15,54],"2026-03-27T02:49:30.150509","2026-04-06T05:35:40.709454",[134,139,144,149,154,159,164,169],{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},13444,"如何部署整个项目？OCR 是在本地运行还是云端处理？","部署教程见 README 中的 Quick Start -> Use with Python Scripts 小节。具体步骤如下：\n1. 在能连接手机的 PC 上安装环境，手机开启开发者模式并安装 ADBKeyBoard。\n2. 在服务器上部署模型 vLLM 服务：\n   vllm serve IPADS-SAI\u002FMobiMind-Mixed-4B --port \u003Cmixed port>\n   vllm serve Qwen\u002FQwen3-4B-Instruct --port \u003Cplanner port>\n3. 在 PC 上运行 agent runner：\n   python -m runner.mobiagent.mobiagent \\\n       --service_ip \u003C服务器的 IP 地址> \\\n       --decider_port \u003Cmixed port>\\\n       --grounder_port \u003Cmixed port> \\\n       --planner_port \u003Cplanner port> \\\n       --device \u003CHarmony\u002FAndroid>\nOCR 部分通常随截图上传到云端或在配置的服务端处理，具体取决于上述服务部署方式。","https:\u002F\u002Fgithub.com\u002FIPADS-SAI\u002FMobiAgent\u002Fissues\u002F35",{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},13445,"MobiMind 系列模型（如 Mixed-7B 或 Mixed-4B）应该使用哪个 Prompt 文件？","不建议直接使用 MobiMind-Mixed-7B，推荐使用 MobiMind-Reasoning-4B 或最新的 e2e 模型。Prompt 文件对应如下：\n- Decider Prompt: prompts\u002Fdecider_v2.md\n- Grounder Prompt: prompts\u002Fgrounder_qwen3_bbox.md (或 grounder_bbox.md)\n执行流程可参考 readme 中的 runner.mobiagent.mobiagent，先使用 decider prompt 生成操作原语，再使用 grounder prompt 生成具体坐标。","https:\u002F\u002Fgithub.com\u002FIPADS-SAI\u002FMobiAgent\u002Fissues\u002F43",{"id":145,"question_zh":146,"answer_zh":147,"source_url":148},13446,"模型定位不准（bbox 偏差）或任务执行卡死怎么办？","如果遇到定位不准或任务循环卡死的情况，建议更换模型版本以提升稳定性：\n1. 推荐使用 reasoning 模型：MobiMind-Reasoning-4B-1208，其稳定性更好。\n2. 或者使用最新的 e2e 模型：MobiMind-1.5-4B-1220（速度最快）。\n注意：不同模型对 runner 的指令略有不同（例如是否需要 --e2e flag），请参考官方 README 中关于 Launch Agent Runner 的最新说明。","https:\u002F\u002Fgithub.com\u002FIPADS-SAI\u002FMobiAgent\u002Fissues\u002F64",{"id":150,"question_zh":151,"answer_zh":152,"source_url":153},13447,"为什么在弹框页面（Modal\u002FPopup）中 Grounder 返回的坐标不准确？","这是一个已知问题，大模型似乎倾向于以弹框本身的长度而非整张图片来计算相对坐标，导致 X 坐标出现偏差。即使在 prompt 中强调以整张图片为参考，目前可能仍无法完全解决。建议提供不带弹框的原始图像进行对比测试，或等待后续模型更新优化此场景下的定位能力。","https:\u002F\u002Fgithub.com\u002FIPADS-SAI\u002FMobiAgent\u002Fissues\u002F41",{"id":155,"question_zh":156,"answer_zh":157,"source_url":158},13448,"APP 连接服务器时报错\"Broken pipe\"或网络请求失败怎么办？","公共演示服务器可能会因占用率高而暂时不可用。如果遇到此类错误，说明服务可能正在恢复中或已过载。更加推荐的方式是进行本地部署（参考部署教程自行搭建 vLLM 服务），以获得更稳定和完整的体验。APP 版本目前仅作为初步体验，支持的应用和功能较少。","https:\u002F\u002Fgithub.com\u002FIPADS-SAI\u002FMobiAgent\u002Fissues\u002F42",{"id":160,"question_zh":161,"answer_zh":162,"source_url":163},13449,"agentRR 目录的具体用途是什么？如何复现论文中的 ActTree？","`agent_rr` 目录包含了论文中 ActTree 的实现、Latent Memory Model 的训练代码以及离线任务测试代码，主要用于复现 ActTree 算法。该目录与命令行 runner 集成的部分目前属于实验特性。如果运行 run_experiment.py 报错或不清楚目的，请知悉其主要服务于学术复现和离线评估，而非直接的在线代理运行。","https:\u002F\u002Fgithub.com\u002FIPADS-SAI\u002FMobiAgent\u002Fissues\u002F47",{"id":165,"question_zh":166,"answer_zh":167,"source_url":168},13450,"项目在 AndroidWorld 或 ScreenSpot 等公开数据集上有评测结果吗？","团队认为像 AndroidWorld 这样的数据集已经严重偏离真实的移动端工作负载（workload），因此没有实际的评测价值。团队计划发布更能反映真实移动端场景下的 Benchmark，建议关注项目的后续更新以获取更权威的评测数据。","https:\u002F\u002Fgithub.com\u002FIPADS-SAI\u002FMobiAgent\u002Fissues\u002F56",{"id":170,"question_zh":171,"answer_zh":172,"source_url":173},13451,"MobiFlow 数据集什么时候会在 Hugging Face 上发布？","MobiFlow 数据集包含大量真实应用轨迹，其中涉及敏感的个人数据。团队目前正在加速进行数据脱敏处理。一旦所有数据处理完成，将会立即上传至 Hugging Face。届时将支持通过 `datasets` 库直接加载，并可能设置 gated access 以保护隐私。","https:\u002F\u002Fgithub.com\u002FIPADS-SAI\u002FMobiAgent\u002Fissues\u002F6",[175,180],{"id":176,"version":177,"summary_zh":178,"released_at":179},72173,"v1.0.1","本次发布对 MobiAgent Android 应用程序进行了一些 UI\u002FUX 优化，提升了其易用性：\n\n* 设计了全新的聊天机器人界面。\n* 修复了任务完成通知缺失的问题。\n* 支持更多第三方应用。\n* 支持自定义服务 URL。","2025-12-22T07:07:09",{"id":181,"version":182,"summary_zh":183,"released_at":184},72174,"v1.0","MobiAgent — 您的专属 AI 助手，免费体验全球领先的手机端智能体交互模型。\r\n\r\n想用 Agent 帮您在携程自动预订一间大床房吗？  \r\n想用 Agent 帮您在饿了么自动点一杯酸奶西米露吗？  \r\n想用 Agent 帮您在 B 站自动播放“伊丽莎白鼠”的第一个视频吗？\r\n\r\nMobiAgent 都能帮您实现！\r\n\r\n目前支持在安卓手机上对以下应用执行智能操作：\r\n• QQ、B站、高德地图、饿了么、淘宝、知乎、网易云音乐等  \r\n\r\n涵盖操作包括但不限于：\r\n• 点击按钮、输入文字、滑动界面等\r\n\r\n📌 当前版本限制说明：\r\n\r\n1. 每次重新打开 MobiAgent 时，需在系统设置中手动开启无障碍功能权限；\r\n2. 可随时点击“终止”按钮，强制停止 Agent 执行；\r\n3. Agent 仍处于优化阶段，可能发生异常行为（如下单、发消息等），请及时留意并手动接管；\r\n4. 当前网络响应延迟较高，部分操作可能执行较慢；\r\n5. 如出现“应用等待”提示，通常无需干预，除非该操作重复发生；\r\n6. 微信中的文字输入功能目前存在兼容问题，可依提示手动输入；\r\n7. 小米手机自带输入法可能存在 Bug，可能导致 Agent 输入操作失败；\r\n8. 遇到广告，弹窗等问题，可能会使得Agent提前终止，或者误触。\r\n\r\n如果您有任何疑问或反馈，欢迎通过 GitHub Issues 或 Discussions 与我们联系！我们也非常期待您分享使用体验或成功案例✨\r\n\r\n![1756451227469-dc688f84-48e5-45b6-b5f9-84310917bad1](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fe9b82331-9731-4526-bbd9-3aa2b973fa7c)\r\n![1756451219001-f382792e-a506-4765-99ad-be3730ae00f2](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F96610d48-f869-4e6e-9bdf-6fd3460f37af)\r\n","2025-08-29T11:51:20"]