OpenPhone

757 151 较难 2 次阅读昨天MITAgent

AI 解读由 AI 自动生成，仅供参考

OpenPhone 是一个面向智能手机的智能体基础模型开源项目，旨在让 AI 能够像真人一样理解和操作手机界面，完成复杂的多步骤任务。它通过模拟人类与手机的交互过程，将用户的高层指令（如“帮我订一张明天去北京的机票”）自动分解为一系列具体的屏幕操作（如点击、滑动、输入），并自主执行。

它主要解决了当前大语言模型在移动设备上“能说不能做”的问题，即模型虽然能理解任务，却无法直接操控手机应用来完成任务。OpenPhone 通过其核心的“Ralph 循环”（执行→评估→修复→重复）机制，让 AI 能够自主尝试、检查结果并在失败时调整策略，从而实现真正端到端的自动化操作。

这个工具非常适合AI 研究人员、移动应用开发者以及对智能体技术和自动化感兴趣的技术爱好者。研究人员可以利用其开源模型和数据集探索移动智能体的能力边界；开发者可以基于它构建更智能的手机助手或自动化测试工具。

其技术亮点在于构建了一个大规模、高质量的智能手机交互数据集，并训练了专门的视觉-语言-动作基础模型。最新发布的 PhoneClaw 功能尤为突出，它像一个不知疲倦的 AI 手机管家，专门针对 iOS 设备，具备用户记忆能力，能够学习并记住用户的个人习惯与历史信息，从而提供更个性化、更连贯的服务体验。

使用场景

场景背景：一位独立开发者小张，正在开发一款新的健康饮食 App。他需要频繁地在自己的安卓测试手机上手动操作，以验证各种用户交互流程是否顺畅，例如注册登录、浏览食谱、记录饮食等，这个过程耗时且重复。

没有 OpenPhone 时

手动执行耗时冗长：小张需要亲自在测试手机上一步步点击，完成从启动 App、输入测试账号到查看特定食谱页面的完整流程，每次验证都要花费 5-10 分钟。
测试覆盖不全面且易出错：复杂的多步骤操作（如先搜索食材，再筛选食谱，最后收藏）很容易因手误而中断，难以保证每次测试路径的一致性，边缘用例更容易被忽略。
问题复现与调试困难：当收到用户反馈“在某个界面点击提交后卡顿”时，小张很难精确复现用户的操作序列和环境状态，导致定位问题效率低下。

使用 OpenPhone 后

自动化执行提升效率：小张通过自然语言向 OpenPhone 的智能体描述测试任务（如“请用测试账号登录，并浏览‘低碳水晚餐’分类下的前三个食谱”），它便能自动规划并执行操作，将验证时间从数分钟缩短至秒级。
可靠且全面的交互测试：OpenPhone 的智能体能精准、稳定地执行复杂的多步操作流程，并能通过其“执行-评估-修复”循环自动处理意外弹窗或界面变化，确保测试路径的完整性和可重复性，轻松覆盖更多场景。
精准复现与辅助诊断：借助 OpenPhone 对手机状态的深度感知和控制能力，小张可以录制或精确指令化任何用户报错的操作序列，一键复现问题，并能利用其分析能力快速定位可能的原因（如特定控件未加载）。

OpenPhone 将小张从重复、琐碎的手动测试操作中解放出来，使其能专注于更核心的创意与开发工作，同时大幅提升了测试的可靠性与开发迭代速度。

运行环境要求

操作系统

Android
iOS

GPU

需要，用于模型推理
支持消费级 GPU（8-12GB 显存）及移动设备 NPU
CUDA 版本未明确说明

内存

未说明

依赖

notes该项目为移动端AI代理模型，核心是部署在手机等边缘设备上。运行环境需求主要围绕模型部署和推理，而非传统的PC端开发环境。需要下载 OpenPhone-3B 模型文件。包含独立的 iOS 代理组件 PhoneClaw。

python未说明

torch

transformers

accelerate

vLLM

快速开始

✨OpenPhone✨：面向 AI 手机的移动智能体基础模型

🦾 新发布：PhoneClaw —— 你的 iPhone 自主 AI 管家

PhoneClaw 是一个不知疲倦的 AI 手机管家，为你处理任何 iOS 任务 —— 并且 每次会话都变得更聪明。它由 Ralph 循环 (执行 → 评估 → 修复 → 重复) 驱动，将你的请求分解为子任务，在手机上执行，检查每一步是否成功，并自动利用失败上下文重试 —— 直到任务完成。

🧠 用户记忆 —— 构建关于你是谁（姓名、城市、习惯、历史）的持久档案，并将其注入到每个计划中，让管家真正了解它的主人
📚 经验日志 —— 记录跨会话的应用特定导航知识（点击坐标、失败模式、时机），自动压缩成一个精简、高置信度的知识库
⚡ 记忆优先的答案 —— 重复的问题可以立即从用户档案中得到回答，无需任何设备交互
🤖 交互式守护进程模式 —— 连接一次，即可连续接受无限任务；屏幕自动保持开启
🎓 学习模式 —— 你只需像往常一样操作手机，PhoneClaw 会在一旁观察；它以约 8 fps 的速度捕获屏幕截图，通过计算机视觉检测你的点击，并将你的操作提炼成可复用的导航经验，立即添加到经验日志中

📖 PhoneClaw 完整文档 → iOS 智能体 README →

🎯 什么是 OpenPhone？

问题所在：大多数 AI 智能体依赖于昂贵的云端 API 和大模型，这对于现实世界的设备端部署来说是不切实际的。当用户的手机需要为每次交互调用外部服务时，他们面临着隐私问题、延迟问题和高昂成本。

我们的解决方案：OpenPhone 推出了首个专为设备端智能手机交互设计的开源、30亿参数智能体基础模型。这个紧凑的视觉语言模型完全在本地运行 —— 这意味着没有隐私顾虑、不依赖云端，以及零 API 成本。

🤔 为什么是 30亿参数？

我们相信移动 AI 的未来不仅在于让模型变得更大，更在于让它们在现实世界的限制下变得更智能、更高效。我们的 30亿参数模型是：

⚡ 边缘优化：效率足以在商用 GPU 和下一代移动 NPU 上运行。
🔒 隐私优先：所有计算都保留在你的设备上。
💰 完全免费：无需云端推理，没有持续的 API 费用。
🎯 高性能：通过先进的训练，达到与 70亿–90亿参数模型相当的性能。

💡 研究亮点

🔍 OpenPhone‑3B：轻量级智能体模型

考虑到当前边缘设备的计算限制，参数 ≤ 3B 的模型在能力与可部署性之间取得了实用的平衡。基于此洞察，我们推出了 OpenPhone‑3B，一个轻量级但功能强大的端侧智能体模型。

模型规模与架构：专为在严格的移动计算限制下进行高效端侧推理而设计的视觉语言模型。
原生边缘设计：主要作为本地智能体，兼容消费级 GPU 和移动 NPU，消除了对云端的持续依赖。
GUI 感知的操作能力：经过训练，可在真实的移动任务中进行视觉理解、指令跟随和结构化操作生成。
开源发布：完整的模型权重、配置和推理栈，支持社区部署和开发。
实用最佳点：3B 规模提供了最佳平衡——性能显著强于微型模型，同时仍可在大型模型无法部署的场景下运行。

为什么 3B 是手机智能体的最佳选择

硬件适配：3B 参数完美契合消费级 GPU 内存（8-12GB）和新兴移动 NPU 的计算预算。
速度优势：与 7B 模型相比，3B 模型的推理速度快 3-5 倍，同时为亚秒级 GUI 响应保持了有竞争力的准确性。
能效优势：更小的模型占用延长了电池续航——这对于功耗影响用户体验的移动部署至关重要。
隐私优先：使手机任务完全在设备上运行，保护用户隐私，同时消除网络依赖。
成本节约：本地处理消除了昂贵的云端 API 和按请求计费，实现可持续运营。

🦾 PhoneClaw：您的 iPhone 自主 AI 管家

一个基于 Ralph Loop 构建的自主 iOS 手机管家——这是一种闭环执行方法，会一直运行直到每个子任务都通过其成功标准。其关键区别在于 双层自学习记忆，使得管家在每次会话后都能明显变得更智能：

用户记忆 —— 维护一个持久的用户档案（推断出的姓名、城市、应用习惯、任务历史），并注入到每个规划提示中，因此智能体从一开始就能做出符合上下文的智能决策。重复的问题会直接从记忆中回答，无需任何设备交互。
经验日志 —— 记录每次会话中特定于应用的导航知识：成功的点击坐标、失败模式、UI 时序特性。经验教训会进行语义去重，在确认后得到强化，并且当一个应用积累了 ≥ 20 条记录时会自动压缩——保持知识库的精简和高质量。
智能规划：视觉语言模型将每个任务分解为具有明确成功标准的子任务，从而实现精确的逐步骤评估和有针对性的重试，而非盲目重复。
交互式守护进程模式：连接一次，即可无限期接受不限量的任务——在整个会话期间，设备屏幕会自动保持开启。
学习模式：只需正常使用您的手机，PhoneClaw 会在一旁观察。它以约 8 fps 的速度捕获屏幕截图，通过计算机视觉（HoughCircles + 像素差异后备方案）检测点击位置，注释每一帧，并将您的操作提炼成可重用的导航经验，直接添加到经验日志中——无需手动标注。

➜ 完整的 PhoneClaw 文档

🚀 模型发布与资源

📦 开箱即用的模型

模型权重：OpenPhone-3B 已在 Hugging Face 上提供，附带完整的许可，可用于研究和商业用途。
生产就绪的服务：预配置的 vLLM 推理脚本可实现高效部署，并优化吞吐量和内存使用。

🛠️ 完整的训练流程

可复现的方案：完整的训练实现，包括我们新颖的两阶段方法（SFT + 使用合成 GUI 数据的 GRPO 风格 RL）。
定制化支持：model_training/ 中的详细文档允许研究人员针对特定领域的手机任务调整模型，或扩展到新的移动平台。
数据生成范式：用于大规模创建高质量训练数据的脚本和方法论。

📖 目录

✨OpenPhone✨：面向 AI 手机的移动智能体基础模型

🚀 快速开始

本项目包含三个核心组件，旨在为全面的移动智能体开发和评估提供支持：

⚡ 关于模型训练，请参阅训练指南 README 以获取完整的设置和执行说明。
🔧 关于数据生成流程，请参阅数据准备指南 README 以获取详细的实现步骤。

下文将重点介绍使用 AndroidLab 基准测试框架进行评估。

📱 AndroidLab 基准测试环境设置

安装：请按照官方 AndroidLab 文档 AndroidLab 完成完整的设置说明。

环境配置：

推荐模式：Mac (arm64) 上的 AVD（Android 虚拟设备）—— 已在我们的实验中验证。
应用设置：需要手动安装应用并进行特定于任务的配置。
兼容性说明：原始的 Docker 镜像与 AVD 环境不兼容。

🚀 模型部署与推理

vLLM 集成：

推理脚本位于 ./vllm_script/ 目录中
针对高效的小模型服务进行了优化

模型访问：

OpenPhone 权重：托管在 HuggingFace 上的 30 亿参数模型
部署流程：下载权重 → 通过 vLLM 部署 → 配置推理服务
服务就绪：与评估流程无缝集成

⚙️ 测试前配置

需要设置 API：在 ./evaluation/evaluation.py 的第 63、75、81 行配置云端模型凭据
即将推出：正在开发简化的配置界面

🌟 OpenPhone 主要特性

🤖 轻量级智能体基础模型

• 紧凑架构：专为移动 GUI（图形用户界面）任务优化的30亿参数规模视觉语言模型，计算足迹最小。
• 设备端部署：真正兼容智能手机的模型，在本地运行且不依赖云端的情况下，仍能保持有竞争力的性能。

☁️ 设备-云端协作框架

• 动态编排：实时评估任务复杂度，根据执行需求智能地在设备模型和云端模型之间切换。
• 成本-性能优化：战略性的资源分配，利用经济高效的设备端模型，同时通过选择性使用云端模型来弥补其局限性。

🎯 全面的移动智能体评估平台

• 扩展的基准测试套件：超越 AndroidLab，整合了流行移动应用中的 25 个以上额外任务，用于现实世界验证。
• 多维度评估：全面的评估，涵盖性能指标、计算效率和实际部署场景。

🌟 技术创新与实现

🧠 模型训练：SFT+RL

• 合成数据生成：利用先进的 MLLMs（多模态大语言模型）创建高质量推理链训练数据，解决人工标注稀缺的问题。
• 两阶段训练：SFT（监督微调）注入 GUI 基础知识，而 GRPO（分组相对策略优化）强化学习则优化任务完成准确率。
• 小模型增强：通过结构化训练，使 30 亿参数模型在 GUI 任务上达到与 70 亿-90 亿参数模型相当的性能。

☁️ 设备-云端协作框架

• 动态任务评估：实时复杂度评估决定了何时以及以何种频率监控设备模型的性能。
• 智能编排：根据执行进度和失败模式，在设备和云端模型之间无缝切换。
• 成本-性能优化：通过战略性的资源分配，在保持高任务成功率的同时，将云端调用减少约 10%。

💾 移动代理的高效记忆机制

• 长程推理：通过多步思维链推理与反思性错误纠正来增强决策能力。
• 基于文本的摘要：将高分辨率屏幕截图压缩为紧凑的文本表示，以实现高效的内存管理。
• 结构化上下文保留：通过优化的令牌使用，在资源受限的环境中保持 10-20 步的历史上下文。

🧪 测试与评估

单任务测试

使用以下命令结构测试单个任务：

python eval.py -n test_name -c your path to config.yaml --task_id task_id

使用示例：

python eval.py -n all_cloud_v1_hyper -c ./configs/example_xml_cloud_hyper.yaml --task_id zoom_1

批量评估脚本

./test_script 目录下提供了便捷的批量测试脚本：

• all_test_cloud_v1_hyper.sh：评估 AndroidLab 基准测试中的所有 138 个任务
• all_test_cloud_v1_hyper_add.sh：评估四个额外移动应用的任务

额外应用文档

关于四个额外应用任务的完整详细信息，请参阅文档：额外应用文档

📊 结果生成

LLM 评估器设置

所需配置：在 ./evaluation/tasks/llm_evaluator.py 中设置 LLM 服务凭证：

• 第 10 行：API 配置
• 第 12 行：服务 URL

💡 增强功能：我们的实现用基于 LLM 的评估取代了 AndroidLab 基于规则的评估，提供了更细致、更准确的任务完成度评估。

生成评估结果

使用以下命令执行结果生成：

python generate_result.py --input_folder ./logs/evaluation/ --output_folder ./logs/evaluation/ --output_excel ./logs/evaluation/test_name.xlsx

批量测试文件管理

⚠️ 重要提示：当使用 ./test_script/ 中的批量脚本时：
• 需要手动转移：将脚本目录中生成的评估文件移动到 ./logs/ 目录下
• 然后执行：运行上述结果生成命令
• 错误预防：此步骤可防止文件路径冲突并确保正确的结果汇总

🎯 📊 OpenPhone 的关键评估发现

🏆 小模型，大性能

尺寸与性能：OpenPhone-3B 实现了与 9B 模型相当的性能，同时保持了紧凑架构的部署优势。
效率冠军：确立了自己作为真正的“小巨人”的地位，挑战了移动 AI 中“越大越好”的假设。

🥊 有竞争力的性能

与专有模型对比：在标准基准测试中，OpenPhone-3B 与专有模型的轻量级版本相比，表现出可观的性能。
小模型的潜力：展示了有希望的结果，验证了紧凑开源方法在移动代理开发中的可行性。

🔄 设备-云端框架有效

性能与效率兼备：OpenPhone 的混合架构提供了接近最优的性能，同时显著减少了云端模型的使用。
智能路由：证明了智能任务路由可以在不牺牲能力的情况下创造实际的效率增益。

🧠 更长的提示词并不总是有帮助

上下文很重要：扩展的提示策略只有在与足够强大的云端模型配对时才能提高性能。
智能匹配：强调了将推理复杂度与模型能力相匹配的重要性，而不是假设更长的提示词总是有帮助。

📈 手机代理的设备-云端分布分析

为了评估我们混合方法的实际效率，我们测量了不同 MLLM 的关键指标：每个任务的平均总步数、由设备端模型与云端模型处理的步骤比例，以及与纯云端基线相比云端调用的减少量。

📊 工作负载分布

云端模型仍然处理大约 65% 的执行步骤，这反映了较小的设备端模型在复杂推理任务上的计算限制。

💰 效率增益

引入设备端处理实现了大约 10% 的云端 API 调用减少，转化为直接的成本节约和延迟降低。

🎯 模型能力的影响

像 GLM-4.5V 这样的先进云端模型显示出云端依赖性的减少幅度较小，因为其卓越的能力使其能够更独立地完成任务，而无需设备端协助。

⚡ 推理速度比较

我们使用 vLLM 评估了不同 GPU 配置下每步的平均推理时间，以评估实际部署的可行性。请注意，由于上下文长度限制，GLM-4.1V-9B-Thinking 无法在单个 3090 GPU 上运行。

模型	GPU 配置	尺寸	SR	时间成本 / 步
Qwen2.5-VL-7B-Instruct	单 3090	7B	10.1	6289.15 ms
OpenPhone	单 3090	3B	15.2	4170.63 ms
GLM-4.1V-9B-Thinking	双 3090	9B	24.6	14584.89 ms
Qwen2.5-VL-7B-Instruct	双 3090	7B	10.1	4587.79 ms
OpenPhone	双 3090	3B	15.2	3524.25 ms

🎯 速度优势

明显胜出：得益于其轻量级的 3B 架构，OpenPhone 展现出显著的推理速度优势。
适合实际应用：在计算资源受限的情况下，速度优势变得更加明显，符合典型的边缘部署场景。

📊 量化比较

快 3.5 倍：单 3090 上的 OpenPhone 对比双 3090 上的 GLM-4.1V-9B-Thinking。
快 4 倍：双 3090 上的 OpenPhone 对比双 3090 上的 GLM-4.1V-9B-Thinking。
OpenPhone 的轻量级优势：GLM-4.1V-9B-Thinking 无法在单 3090 上运行，严重限制了其边缘部署选项。

💡 实际意义

权衡是明确的：虽然像 GLM-4.1V-9B-Thinking 这样更大的模型实现了更高的任务性能，但 OpenPhone 的速度优势使其更适合对响应时间和硬件约束有要求的实际设备端场景。

🌟 引用

如果您发现这项工作对您的研究有帮助，请考虑引用我们的论文。

@article{jiang2025lightagent,
  title={LightAgent: Mobile Agentic Foundation Models},
  author={Jiang, Yangqin and Huang, Chao},
  journal={arXiv preprint arXiv:2510.22009},
  year={2025}
}

🔗 相关项目

OpenPhone 建立在优秀的开源项目之上。我们衷心感谢这些项目的作者和贡献者：

AndroidLab - 基准测试框架。
R1-V - GRPO 训练方法的具体实现细节。
LLaMA Factory - 支持高效模型微调的统一训练框架。

📜 许可证

本项目基于 MIT 许可证发布。

如果本项目对您有帮助，请为我们点个 Star🌟

🤖 用智能体赋能 AI 手机！

❤️ 感谢访问 ✨ OpenPhone！

访问量

OpenPhone 快速上手指南

环境准备

系统要求

操作系统: Linux (推荐 Ubuntu 20.04+ 或同等版本)
Python: 3.9 或 3.10
CUDA: 11.8 或更高版本 (如需 GPU 推理)
内存: 至少 8GB RAM
存储: 至少 10GB 可用空间

前置依赖

确保已安装以下基础工具：

Git
pip (Python 包管理器)

安装步骤

克隆仓库

git clone https://github.com/HKUDS/OpenPhone.git
cd OpenPhone

创建并激活 Python 虚拟环境 (推荐)

python -m venv openphone_env
source openphone_env/bin/activate  # Linux/macOS
# 或 openphone_env\Scripts\activate  # Windows

安装 Python 依赖包

pip install -r requirements.txt

提示：如遇网络问题，可使用国内镜像源加速下载，例如：

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

下载模型 (可选，如需本地运行)
- 模型可从 Hugging Face 获取：
```
# 使用 huggingface-cli (需先登录)
huggingface-cli download hkuds/OpenPhone_model --local-dir ./model_weights
```
- 或直接从 Hugging Face 页面手动下载。

基本使用

1. 运行基础推理示例

以下是一个使用 OpenPhone-3B 模型进行简单推理的脚本示例 (demo_inference.py)：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# 加载模型和分词器 (请将路径替换为实际模型路径)
model_path = "./model_weights"  # 或 "hkuds/OpenPhone_model"
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.float16,
    device_map="auto",
    trust_remote_code=True
)

# 准备输入
prompt = "分析当前手机屏幕并描述你可以执行的操作。"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

# 生成响应
with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=100)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)

print("模型响应：", response)

运行脚本：

python demo_inference.py

2. 连接 Android 设备进行测试 (基于 AndroidLab)

如需在真实或虚拟 Android 设备上测试智能体功能，请参考 AndroidLab 集成指南：

确保已安装 Android SDK 并配置 adb。
按照项目内 AndroidLab 相关文档设置设备连接。
运行提供的测试脚本与设备交互。

3. 体验 PhoneClaw (iOS 智能管家)

如需在 iOS 设备上运行自主智能体，请参考 PhoneClaw 子模块文档：

cd PhoneClaw
# 按照 ./PhoneClaw/README.md 中的说明进行配置和运行

下一步

查看 ./examples/ 目录获取更多使用示例。
访问 Hugging Face 模型页面获取最新的模型权重和详细配置。
参考项目 Wiki 或 Communication.md 加入社区讨论。

常见问题

README中提到的“No Cloud Dependence”与论文中强调的“Device-cloud collaborative agent system”是否矛盾？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

OpenHands

OpenHands 是一个专注于 AI 驱动开发的开源平台，旨在让智能体（Agent）像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点，通过自动化流程显著提升开发速度。无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员，还是需要快速原型验证的技术团队，都能从中受益。OpenHands 提供了灵活多样的使用方式：既可以通过命令行（CLI）或本地图形界面在个人电脑上轻松上手，体验类似 Devin 的流畅交互；也能利用其强大的 Python SDK 自定义智能体逻辑，甚至在云端大规模部署上千个智能体并行工作。其核心技术亮点在于模块化的软件智能体 SDK，这不仅构成了平台的引擎，还支持高度可组合的开发模式。此外，OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩，证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能，支持与 Slack、Jira 等工具集成，并提供细粒度的权限管理，适合从个人开发者到大型企业的各类用户场景。

★ 70.6k|★★★☆☆|今天

语言模型Agent开发框架