Stable-Diffusion-Android

GitHub
1.2k 123 简单 1 次阅读 2天前AGPL-3.0图像Agent开发框架数据工具
AI 解读 由 AI 自动生成,仅供参考

Stable-Diffusion-Android 是一款专为安卓设备打造的 Stable Diffusion AI 绘画客户端,旨在让用户随时随地体验数字艺术创作的魅力。它解决了移动端用户难以便捷调用强大 AI 绘图能力的痛点,同时严格保护隐私,承诺无广告、无遥测且不收集用户数据。

这款应用非常适合设计师、AI 艺术爱好者以及希望摆脱电脑束缚的普通用户使用。其核心亮点在于极高的灵活性与兼容性:用户既可以选择连接公共的 AI Horde 分布式集群免费生成图像,也能无缝对接本地部署的 Automatic1111 WebUI、SwarmUI,或是调用 Hugging Face、OpenAI (DALL-E)、Stability AI 等云端 API。此外,它还支持实验性的本地离线生成模式。

在功能上,Stable-Diffusion-Android 提供了专业级的控制选项,包括文生图与图生图模式、正负提示词设置、动态分辨率调整、多种采样器选择以及面部修复等高级参数。对于进阶用户,它还支持 LoRA、文本反转和超网络模型的切换。内置的本地画廊不仅方便管理作品,还支持批量导出,让创意管理更加高效。无论是想快速尝试 AI 绘画的新手,还是需要精细控制的专业创作者,都能在其中找到适合自己的工作流。

使用场景

独立插画师小林在通勤途中急需为刚构思的奇幻角色生成概念草图,以便立刻与客户沟通修改方向。

没有 Stable-Diffusion-Android 时

  • 设备限制严重:手机无法运行本地大模型,必须等到回家打开高性能电脑才能开始创作,灵感极易流失。
  • 操作繁琐低效:若强行使用手机浏览器访问远程 WebUI,界面在小屏上难以操控,调整提示词和参数体验极差。
  • 隐私与干扰担忧:市面上的在线生成应用多含广告或暗中收集用户数据,且无法自由选择后端引擎,创作自由度受限。
  • 素材管理混乱:生成的图片散落在聊天记录或浏览器下载项中,缺乏统一的本地画廊查看元数据(如 Seed、步数),难以复盘优化。

使用 Stable-Diffusion-Android 后

  • 随时随地创作:通过连接家中的 Automatic1111 服务器或公共 AI Horde 节点,小林在地铁上即可利用手机调用云端算力实时绘图。
  • 原生交互体验:App 提供专为移动端优化的界面,支持从相册选取参考图进行图生图(Img2Img),并精细调节重绘幅度与蒙版区域。
  • 纯净自主可控:全程无广告、无遥测,可自由切换 Stability AI、OpenAI 或本地私有部署作为生成后端,确保数据主权。
  • 高效资产管理:内置本地画廊自动保存所有作品及生成参数,支持一键导出 ZIP 包,方便直接整理发送给客户确认。

Stable-Diffusion-Android 将专业级的 AI 绘画工作流从固定桌解放至移动场景,让创意捕捉不再受地点与设备的束缚。

运行环境要求

操作系统
  • Android
GPU
  • 本地运行(Local Diffusion)需依赖手机硬件资源(具体型号未说明)
  • 若连接自建服务器(Automatic1111/SwarmUI),则服务器端需配备现代 NVIDIA 或 AMD GPU
内存

未说明(取决于手机端性能或连接的服务器配置)

依赖
notes该工具主要为 Android 客户端,本身不直接包含完整的 Stable Diffusion 模型运行环境。它支持两种主要模式:1. 远程模式:连接到外部服务器(如自动安装的 A1111、SwarmUI 或各类 API 服务),此时对手机硬件要求低,但需网络及对应的服务端密钥;2. 本地模式(Beta):利用手机自身资源生成图像(仅支持 txt2img),依赖 ONNX Runtime 或 MediaPipe,功能受限且对手机算力有要求。若选择自建服务器,需在服务器端配置现代 GPU 及相应的 Python 环境。
python不适用(此为 Android 移动应用,非 Python 脚本环境)
AI Horde (可选)
Stable-Diffusion-WebUI (可选,需开启 --api --listen)
SwarmUI (可选)
Hugging Face Inference API (可选)
OpenAI API (可选)
Stability AI API (可选)
Microsoft ONNX Runtime (Beta, 本地模式)
Google AI MediaPipe (Beta, 本地模式,仅限 Play Store/Full 版本)
Stable-Diffusion-Android hero image

快速开始

页眉

稳定扩散安卓版 (SDAI)

Google Play F-Droid

Google Play F-Droid 4pda

稳定扩散 AI (SDAI) 是一款易于使用的应用,它:

  • 为您带来稳定扩散 AI 的数字艺术创作力量
  • 让您自由选择 AI 生成服务提供商
  • 没有广告、遥测功能,也不会监视您的行为

截图

功能

  • 可以使用由 AI Horde 提供支持的服务器环境(一个众包分布式稳定扩散工作集群)
  • 可以使用由 Stable-Diffusion-WebUI(AUTOMATIC1111)提供的服务器环境
  • 可以使用由 SwarmUI 提供支持的服务器环境
  • 可以使用由 Hugging Face Inference API 提供支持的服务器环境
  • 可以使用由 OpenAI(DALL-E-2、DALL-E-3)提供的服务器环境
  • 可以使用由 Stability AI 提供支持的服务器环境
  • 可以使用由 LocalDiffusion 提供支持的本地环境(Beta 版)
  • 支持原生的文本转图像和图像转图像模式
    • 支持正面负面提示词
    • 支持动态尺寸,范围从 64 到 2048 像素(宽度和高度)
    • 可选择不同的采样方法(可用的采样器从服务器加载)
    • 独特的种子输入
    • 动态采样步数,范围从 1 到 150 步
    • 动态CFG 缩放,范围从 1.0 到 30.0
    • 修复人脸选项
    • (仅限图像转图像):从设备图库中选择图片 (需要用户权限)
    • (仅限图像转图像):从相机捕获输入图像 (需要用户权限)
    • (仅限图像转图像):随机获取输入图像
    • (仅限图像转图像):修复涂鸦(适用于 A1111)
      • 马克模糊度(1 到 64)
      • 马克模式(已马克、未马克)
      • 已马克内容(填充、原始、潜在噪声、无内容)
      • 修复区域(整张图片、仅已马克部分)
      • 仅已马克部分的填充(0 到 256 像素)
    • 批量生成,最多可生成 20 张图片(适用于 A1111 和 Horde)
    • Lora 选择器(适用于 A1111)
    • 文本反演选择器(适用于 A1111)
    • 超网络选择器(适用于 A1111)
    • SD 模型选择器(适用于 A1111)
  • 应用内图库,本地存储,包含所有 AI 生成的图片
    • 显示生成的图片网格
    • 图片详情视图:缩放、双指缩放、生成信息
    • 将整个图库导出为 .zip 文件
    • 将单张照片导出为 .zip 文件
  • 设置
    • WebUI 服务器 URL
    • 活跃 SD 模型选择
    • 服务器可用性监控(http-ping 方法)
    • 启用/禁用自动保存生成的图片
    • 启用/禁用将生成的图片保存到 Android MediaStore 的 Download/SDAI 文件夹
    • 清空图库 / 应用缓存

设置说明

选项 1:使用您自己的 Automatic1111 实例

这要求您拥有以服务器模式运行的 AUTOMATIC1111 WebUI。

您可以将其部署在配备现代 NVIDIA 或 AMD 显卡的自有硬件上,也可以通过 Google Colab 运行。

  1. 按照 Stable-Diffusion-WebUI 仓库中的设置说明进行操作。
  2. 在 WebUI 启动脚本的命令行参数中添加 --api --listen 参数。
  3. 服务器启动后,获取您的 WebUI 服务器的 IP 地址或 URL。
  4. 首次启动时,应用会提示您输入服务器 URL,输入后点击“连接”按钮。如果您想更改服务器 URL,可以前往设置页面,选择“配置”选项,并重复设置流程。

如果由于某种原因您无法运行自己的服务器实例,可以在服务器设置页面切换到演示模式:这将允许您测试应用并熟悉其功能,但会返回一些模拟图像,而不是 AI 生成的图像。

选项 2:使用您自己的 SwarmUI 实例

这要求您拥有以服务器模式运行的 SwarmUI。

您可以将其部署在配备现代 NVIDIA 或 AMD 显卡的自有硬件上,也可以通过 Google Colab 运行。

请参阅 SwarmUI 文档 获取安装说明。

选项 3:使用 AI Horde

AI Horde 是一个众包分布式图像生成和文本生成工作者集群。

AI Horde 需要使用 API 密钥,这款移动应用允许您使用默认 API 密钥(即“0000000000”),或者输入您自己的密钥。您可以在 这里 注册并获取您自己的 AI Horde API 密钥。

选项 4:Hugging Face 推理

Hugging Face 推理 API 允许您通过简单的 HTTP 请求,在 Hugging Face 共享基础设施上快速推理,从而测试和评估超过 15 万个公开可用的机器学习模型,或您自己的私有模型。这项服务是免费的,但存在速率限制。

Hugging Face 推理需要使用 API 密钥,该密钥可在 Hugging Face 账户设置 中创建。

选项 5:OpenAI

OpenAI 提供基于 DALLE-2DALLE-3 模型的文本到图像生成服务。这项服务是收费的。

OpenAI 需要使用 API 密钥,该密钥可在 OpenAI API 密钥设置 中创建。

选项 6:StabilityAI

StabilityAI 是由 DreamStudio 提供的图像生成服务。

StabilityAI 需要使用 API 密钥,该密钥可在 API 密钥页面 中创建。

选项 7:本地扩散 Microsoft ONNX Runtime(Beta 版)

仅支持文本转图像模式。

允许使用手机资源生成图像。

选项 8:本地扩散 Google AI MediaPipe(Beta 版)

仅在 Play 商店完整版 中可用。

仅支持文本转图像模式。

允许使用手机资源生成图像。

支持的语言

应用使用操作系统默认设置的语言。

应用的用户界面已翻译为本表中列出的语言:

语言 自版本 状态
英语 0.1.0 已翻译
乌克兰语 0.1.0 已翻译
土耳其语 0.4.1 已翻译
俄语 0.5.5 已翻译
中文(简体) 0.6.2 已翻译

欢迎任何对翻译的贡献。

构建变体之间的差异(Google Play、F-Droid、GitHub 发布)

由于规则和合规政策,SDAI 应用的一些功能无法通过不同的渠道(Google Play、F-Droid)进行分发。

SDAI 应用不同构建变体之间的差异已在项目维基页面 构建变体差异 中说明。

捐赠

本软件为开源软件,不提供任何担保,您可以免费使用。

如果您觉得本软件很有价值,并希望表达感谢和支持,可以点击以下按钮:

版本历史

0.6.82025/04/05
0.6.72025/02/13
0.6.62025/01/26
0.6.52024/11/08
0.6.42024/09/08
0.6.32024/08/12
0.6.22024/08/06
0.6.12024/03/25
0.6.02024/03/11
0.5.112024/03/07
0.5.102024/03/06
0.5.92024/03/06
0.5.82024/03/01
0.5.72024/02/28
0.5.62024/02/27
0.5.52024/02/25
0.5.42024/02/08
0.5.32023/12/24
0.5.22023/09/03
0.5.02023/08/08

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

140.4k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|昨天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|2天前
Agent图像开发框架