Stable-Diffusion-Android

1.2k 123 简单 1 次阅读 2天前AGPL-3.0图像Agent开发框架数据工具

AI 解读由 AI 自动生成，仅供参考

Stable-Diffusion-Android 是一款专为安卓设备打造的 Stable Diffusion AI 绘画客户端，旨在让用户随时随地体验数字艺术创作的魅力。它解决了移动端用户难以便捷调用强大 AI 绘图能力的痛点，同时严格保护隐私，承诺无广告、无遥测且不收集用户数据。

这款应用非常适合设计师、AI 艺术爱好者以及希望摆脱电脑束缚的普通用户使用。其核心亮点在于极高的灵活性与兼容性：用户既可以选择连接公共的 AI Horde 分布式集群免费生成图像，也能无缝对接本地部署的 Automatic1111 WebUI、SwarmUI，或是调用 Hugging Face、OpenAI (DALL-E)、Stability AI 等云端 API。此外，它还支持实验性的本地离线生成模式。

在功能上，Stable-Diffusion-Android 提供了专业级的控制选项，包括文生图与图生图模式、正负提示词设置、动态分辨率调整、多种采样器选择以及面部修复等高级参数。对于进阶用户，它还支持 LoRA、文本反转和超网络模型的切换。内置的本地画廊不仅方便管理作品，还支持批量导出，让创意管理更加高效。无论是想快速尝试 AI 绘画的新手，还是需要精细控制的专业创作者，都能在其中找到适合自己的工作流。

使用场景

独立插画师小林在通勤途中急需为刚构思的奇幻角色生成概念草图，以便立刻与客户沟通修改方向。

没有 Stable-Diffusion-Android 时

设备限制严重：手机无法运行本地大模型，必须等到回家打开高性能电脑才能开始创作，灵感极易流失。
操作繁琐低效：若强行使用手机浏览器访问远程 WebUI，界面在小屏上难以操控，调整提示词和参数体验极差。
隐私与干扰担忧：市面上的在线生成应用多含广告或暗中收集用户数据，且无法自由选择后端引擎，创作自由度受限。
素材管理混乱：生成的图片散落在聊天记录或浏览器下载项中，缺乏统一的本地画廊查看元数据（如 Seed、步数），难以复盘优化。

使用 Stable-Diffusion-Android 后

随时随地创作：通过连接家中的 Automatic1111 服务器或公共 AI Horde 节点，小林在地铁上即可利用手机调用云端算力实时绘图。
原生交互体验：App 提供专为移动端优化的界面，支持从相册选取参考图进行图生图（Img2Img），并精细调节重绘幅度与蒙版区域。
纯净自主可控：全程无广告、无遥测，可自由切换 Stability AI、OpenAI 或本地私有部署作为生成后端，确保数据主权。
高效资产管理：内置本地画廊自动保存所有作品及生成参数，支持一键导出 ZIP 包，方便直接整理发送给客户确认。

Stable-Diffusion-Android 将专业级的 AI 绘画工作流从固定桌解放至移动场景，让创意捕捉不再受地点与设备的束缚。

运行环境要求

操作系统

Android

GPU

本地运行（Local Diffusion）需依赖手机硬件资源（具体型号未说明）
若连接自建服务器（Automatic1111/SwarmUI），则服务器端需配备现代 NVIDIA 或 AMD GPU

内存

未说明（取决于手机端性能或连接的服务器配置）

依赖

notes该工具主要为 Android 客户端，本身不直接包含完整的 Stable Diffusion 模型运行环境。它支持两种主要模式：1. 远程模式：连接到外部服务器（如自动安装的 A1111、SwarmUI 或各类 API 服务），此时对手机硬件要求低，但需网络及对应的服务端密钥；2. 本地模式（Beta）：利用手机自身资源生成图像（仅支持 txt2img），依赖 ONNX Runtime 或 MediaPipe，功能受限且对手机算力有要求。若选择自建服务器，需在服务器端配置现代 GPU 及相应的 Python 环境。

python不适用（此为 Android 移动应用，非 Python 脚本环境）

AI Horde (可选)

Stable-Diffusion-WebUI (可选，需开启 --api --listen)

SwarmUI (可选)

Hugging Face Inference API (可选)

OpenAI API (可选)

Stability AI API (可选)

Microsoft ONNX Runtime (Beta, 本地模式)

Google AI MediaPipe (Beta, 本地模式，仅限 Play Store/Full 版本)

快速开始

稳定扩散安卓版 (SDAI)

稳定扩散 AI (SDAI) 是一款易于使用的应用，它：

为您带来稳定扩散 AI 的数字艺术创作力量
让您自由选择 AI 生成服务提供商
没有广告、遥测功能，也不会监视您的行为

截图

功能

可以使用由 AI Horde 提供支持的服务器环境（一个众包分布式稳定扩散工作集群）
可以使用由 Stable-Diffusion-WebUI（AUTOMATIC1111）提供的服务器环境
可以使用由 SwarmUI 提供支持的服务器环境
可以使用由 Hugging Face Inference API 提供支持的服务器环境
可以使用由 OpenAI（DALL-E-2、DALL-E-3）提供的服务器环境
可以使用由 Stability AI 提供支持的服务器环境
可以使用由 LocalDiffusion 提供支持的本地环境（Beta 版）
支持原生的文本转图像和图像转图像模式
- 支持正面和负面提示词
- 支持动态尺寸，范围从 64 到 2048 像素（宽度和高度）
- 可选择不同的采样方法（可用的采样器从服务器加载）
- 独特的种子输入
- 动态采样步数，范围从 1 到 150 步
- 动态CFG 缩放，范围从 1.0 到 30.0
- 修复人脸选项
- （仅限图像转图像）：从设备图库中选择图片 (需要用户权限)
- （仅限图像转图像）：从相机捕获输入图像 (需要用户权限)
- （仅限图像转图像）：随机获取输入图像
- （仅限图像转图像）：修复涂鸦（适用于 A1111）
  - 马克模糊度（1 到 64）
  - 马克模式（已马克、未马克）
  - 已马克内容（填充、原始、潜在噪声、无内容）
  - 修复区域（整张图片、仅已马克部分）
  - 仅已马克部分的填充（0 到 256 像素）
- 批量生成，最多可生成 20 张图片（适用于 A1111 和 Horde）
- Lora 选择器（适用于 A1111）
- 文本反演选择器（适用于 A1111）
- 超网络选择器（适用于 A1111）
- SD 模型选择器（适用于 A1111）
应用内图库，本地存储，包含所有 AI 生成的图片
- 显示生成的图片网格
- 图片详情视图：缩放、双指缩放、生成信息
- 将整个图库导出为 .zip 文件
- 将单张照片导出为 .zip 文件
设置
- WebUI 服务器 URL
- 活跃 SD 模型选择
- 服务器可用性监控（http-ping 方法）
- 启用/禁用自动保存生成的图片
- 启用/禁用将生成的图片保存到 Android MediaStore 的 Download/SDAI 文件夹
- 清空图库 / 应用缓存

设置说明

选项 1：使用您自己的 Automatic1111 实例

这要求您拥有以服务器模式运行的 AUTOMATIC1111 WebUI。

您可以将其部署在配备现代 NVIDIA 或 AMD 显卡的自有硬件上，也可以通过 Google Colab 运行。

按照 Stable-Diffusion-WebUI 仓库中的设置说明进行操作。
在 WebUI 启动脚本的命令行参数中添加 --api --listen 参数。
服务器启动后，获取您的 WebUI 服务器的 IP 地址或 URL。
首次启动时，应用会提示您输入服务器 URL，输入后点击“连接”按钮。如果您想更改服务器 URL，可以前往设置页面，选择“配置”选项，并重复设置流程。

如果由于某种原因您无法运行自己的服务器实例，可以在服务器设置页面切换到演示模式：这将允许您测试应用并熟悉其功能，但会返回一些模拟图像，而不是 AI 生成的图像。

选项 2：使用您自己的 SwarmUI 实例

这要求您拥有以服务器模式运行的 SwarmUI。

您可以将其部署在配备现代 NVIDIA 或 AMD 显卡的自有硬件上，也可以通过 Google Colab 运行。

请参阅 SwarmUI 文档获取安装说明。

选项 3：使用 AI Horde

AI Horde 是一个众包分布式图像生成和文本生成工作者集群。

AI Horde 需要使用 API 密钥，这款移动应用允许您使用默认 API 密钥（即“0000000000”），或者输入您自己的密钥。您可以在这里注册并获取您自己的 AI Horde API 密钥。

选项 4：Hugging Face 推理

Hugging Face 推理 API 允许您通过简单的 HTTP 请求，在 Hugging Face 共享基础设施上快速推理，从而测试和评估超过 15 万个公开可用的机器学习模型，或您自己的私有模型。这项服务是免费的，但存在速率限制。

Hugging Face 推理需要使用 API 密钥，该密钥可在 Hugging Face 账户设置中创建。

选项 5：OpenAI

OpenAI 提供基于 DALLE-2 或 DALLE-3 模型的文本到图像生成服务。这项服务是收费的。

OpenAI 需要使用 API 密钥，该密钥可在 OpenAI API 密钥设置中创建。

选项 6：StabilityAI

StabilityAI 是由 DreamStudio 提供的图像生成服务。

StabilityAI 需要使用 API 密钥，该密钥可在 API 密钥页面中创建。

选项 7：本地扩散 Microsoft ONNX Runtime（Beta 版）

仅支持文本转图像模式。

允许使用手机资源生成图像。

选项 8：本地扩散 Google AI MediaPipe（Beta 版）

仅在 Play 商店 和 完整版 中可用。

仅支持文本转图像模式。

允许使用手机资源生成图像。

支持的语言

应用使用操作系统默认设置的语言。

应用的用户界面已翻译为本表中列出的语言：

语言	自版本	状态
英语	0.1.0	`已翻译`
乌克兰语	0.1.0	`已翻译`
土耳其语	0.4.1	`已翻译`
俄语	0.5.5	`已翻译`
中文（简体）	0.6.2	`已翻译`

欢迎任何对翻译的贡献。

构建变体之间的差异（Google Play、F-Droid、GitHub 发布）

由于规则和合规政策，SDAI 应用的一些功能无法通过不同的渠道（Google Play、F-Droid）进行分发。

SDAI 应用不同构建变体之间的差异已在项目维基页面构建变体差异中说明。

捐赠

本软件为开源软件，不提供任何担保，您可以免费使用。

如果您觉得本软件很有价值，并希望表达感谢和支持，可以点击以下按钮：

Stable-Diffusion-Android 快速上手指南

Stable-Diffusion-Android (SDAI) 是一款开源的 Android 应用，让您能够在手机上轻松使用 Stable Diffusion 进行 AI 绘画。它支持连接多种后端服务（如 Automatic1111, AI Horde, OpenAI 等），无广告且不收集用户隐私数据。

环境准备

系统要求

操作系统: Android 8.0 (API 26) 及以上版本。
硬件: 推荐使用具备现代 GPU 的设备以获得更好的本地生成体验（仅限 Beta 功能），或任意安卓设备用于连接远程服务器。
网络: 稳定的互联网连接（用于连接云端 API 或局域网内的自建服务器）。

前置依赖

本应用为客户端工具，必须拥有一个可用的 Stable Diffusion 后端服务。请根据您的需求选择以下任一方案：

自建服务器 (推荐开发者):
- 拥有搭载 NVIDIA 或 AMD 显卡的电脑。
- 已部署 Stable-Diffusion-WebUI (Automatic1111)、SwarmUI 或本地推理环境。
- 或者使用 Google Colab 云端运行上述 WebUI。
使用公共/第三方 API:
- AI Horde: 免费分布式集群（无需自有硬件，可选注册获取专属 Key）。
- Hugging Face: 需准备 Hugging Face Token。
- OpenAI / Stability AI: 需准备对应的付费 API Key。
本地运行 (Beta):
- 利用手机算力直接生成（仅支持 Txt2Img，性能取决于手机芯片，支持 Microsoft ONNX Runtime 或 Google MediaPipe）。

安装步骤

您可以通过以下三种方式之一安装应用：

方式一：Google Play 商店 (含专有特性)

适合普通用户，自动更新。

打开 Google Play 商店。
搜索 Stable Diffusion AI 或访问链接：Google Play 详情页。
点击“安装”。

方式二：F-Droid (完全开源版)

适合追求纯粹开源的用户。

确保设备已安装 F-Droid 客户端。
在 F-Droid 中搜索 com.shifthackz.aisdv1.app.foss。
点击安装，或直接下载 APK：F-Droid 包页面。

方式三：GitHub Releases (手动安装)

适合无法访问应用商店的用户。

访问项目 GitHub Release 页面：ShiftHackZ/Stable-Diffusion-Android Releases。
下载最新的 .apk 文件（注意区分 full 完整版和 foss 开源版）。
在 Android 设置中允许“安装未知来源应用”，然后运行下载的 APK 进行安装。

基本使用

以下以连接自建的 Automatic1111 WebUI 为例，展示最基础的文生图流程。

第一步：配置后端服务

启动服务器: 确保您的 Automatic1111 WebUI 已在电脑或云端运行，并添加了 --api --listen 启动参数。
```
# 示例启动命令 (Linux/Mac)
./webui.sh --api --listen
```
获取地址: 记下服务器的 IP 地址和端口（例如：http://192.168.1.5:7860）。如果是局域网访问，请确保手机和电脑在同一 Wi-Fi 下。

第二步：连接应用

打开 Android 上的 SDAI 应用。
首次启动时，应用会提示输入 Server URL。
输入上一步获取的地址（如 http://192.168.1.5:7860）。
点击 Connect 按钮。
- 注：若仅想体验界面而不生成真实图片，可开启 "Demo mode"。
- 注：若使用 AI Horde 或其他 API 服务，请在设置中选择对应提供商并填入 API Key。

第三步：生成图片 (Txt2Img)

在主界面选择 Txt2Img 模式。
Positive Prompt: 输入正向提示词（例如：a cute cat, masterpiece, best quality）。
Negative Prompt: 输入反向提示词（例如：low quality, ugly, blurry）。
参数调整 (可选):
- Steps: 采样步数 (默认 20)。
- CFG Scale: 提示词相关性 (默认 7.0)。
- Size: 图片尺寸 (例如 512x512)。
点击底部的 Generate 按钮。
等待生成完成后，图片将自动保存至应用内画廊及系统相册（需在设置中开启自动保存）。

进阶功能简述

Img2Img: 切换模式后，可从相册选择图片或调用相机拍摄作为底图。
模型选择: 在设置或生成页下拉菜单中切换不同的 SD 模型、LoRA 或 Textual Inversion（需后端支持）。
画廊管理: 应用内置画廊支持查看生成信息、缩放预览，并支持导出为 .zip 压缩包。

版本历史

0.6.82025/04/05

0.6.72025/02/13

0.6.62025/01/26

0.6.52024/11/08

0.6.42024/09/08

0.6.32024/08/12

0.6.22024/08/06

0.6.12024/03/25

0.6.02024/03/11

0.5.112024/03/07

0.5.102024/03/06

0.5.92024/03/06

0.5.82024/03/01

0.5.72024/02/28

0.5.62024/02/27

0.5.52024/02/25

0.5.42024/02/08

0.5.32023/12/24

0.5.22023/09/03

0.5.02023/08/08

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 140.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|昨天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架