AIAS

GitHub
976 292 较难 1 次阅读 昨天Apache-2.0图像语言模型Agent开发框架
AI 解读 由 AI 自动生成,仅供参考

AIAS 是一套专为 Java 开发者打造的一站式人工智能开源解决方案,旨在降低 AI 技术应用门槛,加速产品研发进程。它提供了从模型训练到实际部署的完整闭环,核心功能涵盖产品级的自定义模板 OCR 识别、高精度以图搜图以及人像搜索等热门场景。

对于需要处理复杂票据、证件识别的企业,AIAS 独特的自定义模板 OCR 功能允许用户通过简单的锚点设置即可快速适配各类版式,无需重新训练底层模型。在图像检索方面,它灵活支持从百万级轻量应用到千万级大规模向量检索的不同需求,并内置了面向 Java 程序员的可视化训练平台,让非算法专家也能轻松定制图像分类模型。

该项目完全免费且可商用,采用 Spring Boot 后端与 Vue 前端架构,既提供开箱即用的 Web 应用供直接部署,也开放丰富的 REST API 便于集成到现有系统中。无论是希望快速引入 AI 能力的后端工程师,还是需要构建定制化视觉应用的研发团队,AIAS 都能提供基于 CPU 或 GPU 环境的稳定支持,切实为技术落地减负增效。

使用场景

某大型物流园区的 Java 开发团队正面临海量运单图片结构化提取与违规包裹快速溯源的双重挑战。

没有 AIAS 时

  • 定制识别开发难:面对非标准格式的运单,传统 OCR 无法精准提取特定字段,需人工编写大量规则或采购昂贵的商业 SDK,且难以动态调整模板。
  • 图像检索效率低:在百万级历史包裹图片中查找相似违禁品或特定货物时,只能依靠文件名或人工肉眼翻阅,耗时极长且漏检率高。
  • 技术栈割裂严重:算法团队使用 Python/PyTorch 训练模型,而业务系统是 Java 架构,模型部署、接口封装及跨语言调用耗费了大量联调时间。
  • 人脸安防成本高:园区出入口的人脸搜索功能需单独构建向量数据库和检索引擎,基础设施搭建复杂,维护成本高昂。

使用 AIAS 后

  • 模板识别零代码配置:利用 IOCR 自定义模板功能,通过可视化设置锚点和内容区,无需重新训练即可灵活适配各种新版运单,直接输出结构化数据。
  • 毫秒级以图搜图:内置向量引擎支持千万级图片库,上传可疑包裹照片即可秒级返回相似结果,迅速定位货物轨迹,大幅提升安检效率。
  • Java 原生一站式集成:提供纯 Java 版的训练平台与 SDK,开发人员可直接在 Spring Boot 项目中调用 AI 能力,消除了跨语言部署障碍,研发周期缩短 60%。
  • 开箱即用的人脸搜索:直接部署 Web 应用模块,快速构建起园区人脸门禁与黑名单预警系统,无需从零搭建复杂的底层算法服务。

AIAS 让 Java 团队无需依赖算法专家,即可低成本、高效率地落地产品级计算机视觉应用,真正实现为研发加速。

运行环境要求

操作系统
  • Windows
  • Linux
  • macOS
GPU
  • 可选
  • 支持 NVIDIA GPU (CUDA),适用于 Windows x64 和 Linux x64
  • CPU 模式在所有支持的系统上可用
  • 具体显卡型号、显存大小及 CUDA 版本未说明
内存

未说明

依赖
notes1. 该项目主要面向 Java 开发者,核心后端基于 Spring Boot,前端基于 Vue,并非纯 Python 环境。 2. 提供 CPU 和 GPU (CUDA) 两种运行模式,GPU 仅支持 Windows 和 Linux。 3. 包含多个子模块(如训练平台、Web 应用、OCR、以图搜图、图像生成等),部分功能(如大规模向量搜索)可选配向量引擎(如 Milvus)。 4. 图像生成和模型训练功能需要手动下载额外的模型文件(提供了百度网盘链接)。 5. macOS 用户仅支持 CPU 模式运行。
python未说明 (项目主要面向 Java 程序员,后端基于 Springboot)
Spring Boot
Vue.js
Milvus (向量引擎,可选)
OpenCV (推测)
DeepLearning4J (推测)
AIAS hero image

快速开始

star fork







模型下载:

支持的开发运行环境

  • CPU

  • Windows x64, Linux x64, macOS x64

  • GPU (CUDA)

  • Windows x64, Linux x64

培训课程基础入门(视频)

  • 视频地址:
  • 培训文档位置:
  • 0_docs\

1: 面向 Java 程序员的 AI 训练平台【模型定制】

  • 项目位置:AIAS/2_training_platform
  • 面向java程序员,满足图像识别分类定制化需求。
  • 支持图像分类模型训练
  • 支持图像1:1

AI 训练平台
- training

AI训练平台提供分类模型训练能力。
并以REST API形式为上层应用提供接口。


2: AI Web应用【开箱即用】

  • 项目位置:AIAS/4_web_app
  • Web应用,前端VUE,后端Springboot
  • 可以直接部署使用,使用UI或者调用API集成到现有的系统中。
  • 支持的能力清单:
  1). 图像生成
  2). 人脸搜索
  3). 以图搜图
      ...

#### 2.1 IOCR - 自定义模版识别: - 项目位置:AIAS/4_web_app/iocr
- 1. 参照锚点设置

2. 内容识别区设置


2.2 以图搜图:

  • 项目位置:AIAS/4_web_app/image_search
  • 一共提供了三个不同的版本
  • 无向量引擎的版本,适合100万图片以下:mini_image_search
  • 向量引擎的版本,无管理系统的精简版:simple_image_search
  • 向量引擎的版本,完整的产品级应用:image_search
tr. tr. table.

2.3 跨模态:以文搜图,以图搜图:

  • 项目位置:AIAS/4_web_app/image_text_search
  • 一共提供了2个不同的版本
  • 无向量引擎的版本,适合100万图片以下:mini_image_text_search
  • 向量引擎的版本,适合100万图片以上:image_text_search
- 1. 图片上传
- 1). 支持服务器端文件夹上传
,大量图片使用,如千万张图片入库。
- 2). 点击提取人脸特征按钮.
- 3). 支持客户端文件夹上传.

2. 图像搜索

- 1. 图片上传
- 2. 点击提取特征按钮.
- 1. 以文搜图
- 输入文本:雪地上两只狗.
- 输入图片:一只猫.
- 输入图片:一片森林.
. tr. . tr. . tr. . tr. . tr. . tr. . tr. . tr. . tr.

star fork







模型下载:

支持的开发运行环境

  • CPU

  • Windows x64, Linux x64, macOS x64

  • GPU (CUDA)

  • Windows x64, Linux x64

培训课程基础入门(视频)

  • 视频地址:
  • 培训文档位置:
  • 0_docs\

1: 面向 Java 程序员的 AI 训练平台【模型定制】

  • 项目位置:AIAS/2_training_platform
  • 面向java程序员,满足图像识别分类定制化需求。
  • 支持图像分类模型训练
  • 支持图像1:1

AI 训练平台
- training

AI训练平台提供分类模型训练能力。
并以REST API形式为上层应用提供接口。


2: AI Web应用【开箱即用】

  • 项目位置:AIAS/4_web_app
  • Web应用,前端VUE,后端Springboot
  • 可以直接部署使用,使用UI或者调用API集成到现有的系统中。
  • 支持的能力清单:
  1). 图像生成
  2). 人脸搜索
  3). 以图搜图
      ...

#### 2.1 IOCR - 自定义模版识别: - 项目位置:AIAS/4_web_app/iocr
- 1. 参照锚点设置

2. 内容识别区设置


2.2 以图搜图:

  • 项目位置:AIAS/4_web_app/image_search
  • 一共提供了三个不同的版本
  • 无向量引擎的版本,适合100万图片以下:mini_image_search
  • 向量引擎的版本,无管理系统的精简版:simple_image_search
  • 向量引擎的版本,完整的产品级应用:image_search
tr.
- 1. 图片上传
- 1). 支持服务器端文件夹上传
,大量图片使用,如千万张图片入库。
- 2). 点击提取人脸特征按钮.
- 3). 支持客户端文件夹上传.

2. 图像搜索


2.3 跨模态:以文搜图,以图搜图:

  • 项目位置:AIAS/4_web_app/image_text_search
  • 一共提供了2个不同的版本
  • 无向量引擎的版本,适合100万图片以下:mini_image_text_search
  • 向量引擎的版本,适合100万图片以上:image_text_search

2.4 人脸搜索:

  • 项目位置:AIAS/4_web_app/face_search
- 1. 图片上传
- 2. 点击提取特征按钮.
- 1. 以文搜图
- 输入文本:雪地上两只狗.
- 1. 以图搜图
- 输入画像:一位老人.
- 2. 以图搜图

- 1. 图片上传
- 1). 点击上传按钮上传zip压缩包.
- 2). 点击提取人脸特征按钮.
- Output画像:一位年配の男性.
- Output画像:一位年配の男性.
- Output画像:一位年配の男性.
- Output画像:一位 jeune femme.
- 1. 框选一键抠图例子1
- 2. 框选一键抠图例子2

2.6 文本搜索:

  • 项目位置:AIAS/4_web_app/text_search
  • 随时对数据进行插入、删除、搜索、更新等操作
  • 结合大模型实现RAG功能
  • 根据需要替换其它的特征提取模型:1_sdks\2_nlp_sdks\embedding
  • 一共提供了2个不同的版本
  • 无向量引擎的版本,适合100万条数据以下:simple_text_search
  • 向量引擎的版本,适合100万条数据以上:text_search
- 1. 数据上传
- 1). 点击上传按钮上传CSV文件.
- 2). 点击提取特征按钮.

2. 文本搜索


#### 2.7 图像生成: - 项目位置:AIAS/4_web_app/aigc_image_gen - 模型下载: - 图像生成模型链接: https://pan.baidu.com/s/1znJi092mth3z68Oq_j2lsA?pwd=dmra - 预处理模型链接: https://pan.baidu.com/s/1h75UaEqg_paias8Z1pEjOQ?pwd=yqek

图像生成系列

- 1. Canny 辅助生成
- Canny 边缘检测预处理器,
- 可很好识别出图像内各对象的边缘轮廓,
- 常用于生成线稿。

图像生成系列

- 2. Mlsd 辅助生成
- MLSD 线条检测用于生成房间,
- 直线条的建筑场景效果比较好。

图像生成系列

- 3. Scribble 涂鸦辅助生成
- 不用自己画,
- 图片自动生成类似涂鸦效果的草图线条。

图像生成系列

- 4. SoftEdge 辅助生成
- SoftEdge 边缘检测,
- 可保留更多柔和的边缘细节,
- 类似手绘效果。

图像生成系列

- 5. OpenPose 辅助生成
-姿态检测可生成图像中角色动作姿态的骨架图
- (含脸部特征以及手部骨架检测),
- 这个骨架图可用于控制生成角色的姿态动作。

图像生成系列

- 6. 语义分割辅助生成
- 语义分割可多通道应用,
- 原理是用颜色把不同类型的对象分割开,
- 让AI能正确识别对象类型和需求生成的区界。

图像生成系列

- 7. 深度估计辅助生成
- 通过提取原始图片中的深度信息,
- 生成具有原图同样深度结构的图

图像生成系列

- 8. 法线贴图辅助生成
- 根据图片生成法线贴图,
- 然后根据法向贴图生成新图。
- 适合CG或游戏美术师。

图像生成系列

- 9. 线稿提取辅助生成
- Lineart 边缘检测预处理器,
- 可很好识别出图像内各对象的边缘轮廓,
- 用于生成线稿。

图像生成系列

- 10. 卡通线稿辅助生成
- 卡通边缘检测预处理器,
- 可很好识别出卡通图像内各对象的边缘轮廓,
- 用于生成线稿。

图像生成系列

- 11. 内容重洗辅助生成
- 图片内容变换位置,
- 打乱次序生成新图

3:AI能力平台【开箱即用】

  • 项目位置:AIAS/3_api_platform
  • Web应用,前端VUE,后端Springboot
  • 可以直接部署使用,使用UI或者调用API集成到现有的系统中。
  • 支持的能力清单:
  1). OCR文字识别
  2). 机器翻译
  3). 语音识别
  4). 一键高清
  5). 一键抠图
  6). 黑白照片上色
  7). 图像生成
      ...

3.1 功能说明:

3.2 开发环境搭建:

3.3 如果有任何需求,请点击在线文档填写:

3.4 模型下载:


OCR文字识别

- 自由文本识别
支持旋转、倾斜的图片
- 文本图片转正

语音识别

- 英文语音识别
- 中文语音识别

202种语言互相翻译

- 支持202种语言互相翻译

图像增强

- 图片一键高清:
提升图片4倍分辨率

图像增强

- 头像一键高清

图像增强

- 人脸一键修复:
自动修复图中人脸

通用一键抠图

人体一键抠图

动漫一键抠图

黑白照片上色

图像预处理系列

- 1. Canny 边缘检测
- 常用于生成线稿

图像预处理系列

- 2. MLSD 线条检测
- 线条检测用于生成房间、
- 直线条的建筑场景

图像预处理系列

- 3. Scribble 涂鸦
- 自动生成类似涂鸦效果的草图线条

图像预处理系列

- 4. SoftEdge 边缘检测
- 边缘检测可保留更多柔和的边缘细节,
- 类似手绘效果

图像预处理系列

- 5. OpenPose 姿态检测
- 可生成图像中角色动作姿态的骨架图
- 含脸部特征以及手部骨架检测

图像预处理系列

- 6. 语义分割
- 用颜色把不同类型的对象分割开

图像预处理系列

- 7. Depth 深度估计
- 生成具有原图同样深度结构的深度图

图像预处理系列

- 8. 法线贴图
- 生成凹凸信息的法线贴图

图像预处理系列

- 9. Lineart生成线稿
- 识别出图像内各对象的边缘轮廓
- 用于生成线稿

图像预处理系列

- 10. 生成卡通图线稿
- 识别出卡通图像内各对象的边缘轮廓

图像预处理系列

- 11. 内容重洗
- 图片内容变换位置,打乱次序







其它研究专题:

1). AI + 量子计算

2). AI + 生物医药

版本历史

apps2023/01/10

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|2周前
Agent开发框架图像

n8n

n8n 是一款面向技术团队的公平代码(fair-code)工作流自动化平台,旨在让用户在享受低代码快速构建便利的同时,保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点,帮助用户轻松连接 400 多种应用与服务,实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”:既可以通过直观的可视化界面拖拽节点搭建流程,也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外,n8n 原生集成了基于 LangChain 的 AI 能力,支持用户利用自有数据和模型构建智能体工作流。在部署方面,n8n 提供极高的自由度,支持完全自托管以保障数据隐私和控制权,也提供云端服务选项。凭借活跃的社区生态和数百个现成模板,n8n 让构建强大且可控的自动化系统变得简单高效。

184.7k|★★☆☆☆|今天
数据工具开发框架Agent

AutoGPT

AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台,核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点,让用户只需设定目标,AI 即可自主规划步骤、调用工具并持续运行直至完成任务。 无论是开发者、研究人员,还是希望提升工作效率的普通用户,都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体;研究人员能基于开源架构探索多智能体协作机制;而非技术背景用户也可直接选用预置的智能体模板,立即投入实际工作场景。 AutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑,每个块负责单一动作,灵活且易于调试。同时,平台支持本地自托管与云端部署两种模式,兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本,即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛,让人人都能成为 AI 的创造者与受益者。

183.6k|★★★☆☆|今天
Agent语言模型插件

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|2周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

161.7k|★★☆☆☆|今天
开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信

144.3k|★☆☆☆☆|4天前
Agent插件