SmartJavaAI

GitHub
804 139 简单 1 次阅读 昨天NOASSERTION语言模型图像插件开发框架音频
AI 解读 由 AI 自动生成,仅供参考

SmartJavaAI 是一款专为 Java 开发者打造的免费离线 AI 算法工具箱,旨在让开发者无需深入复杂的深度学习底层,即可像使用 Hutool 一样轻松地在项目中集成人工智能能力。它有效解决了 Java 生态中 AI 模型部署难、环境配置繁琐以及跨语言调用门槛高等痛点,让用户通过简单的 Maven 引用即可直接调用人脸识别、活体检测、目标检测、OCR 文字识别、语音处理及机器翻译等丰富功能。

该工具特别适合广大 Java 后端工程师、全栈开发者以及需要快速落地 AI 功能的企业团队使用,无论是构建智能门禁系统、自动化文档处理还是多媒体分析应用,都能大幅降低开发成本。SmartJavaAI 的独特亮点在于其强大的兼容性与便捷性:底层无缝支持 PyTorch、TensorFlow、PaddlePaddle 等主流框架,并集成了 YOLOv8-v12、InsightFace、Whisper、PaddleOCR 等行业领先模型;同时提供纯离线运行能力,保障数据安全与响应速度。此外,它还扩展支持 Android 移动端商业版,实现了从服务端到移动端的全面覆盖,是 Java 开发者入门和应用 AI 技术的理想选择。

使用场景

某智慧园区安保团队正在开发一套本地化访客门禁系统,需在纯内网环境下实现毫秒级人脸核验与身份证比对,且严禁数据出域。

没有 SmartJavaAI 时

  • 技术栈割裂:Java 后端需通过 HTTP/RPC 调用独立的 Python 算法服务,架构复杂且维护成本高,网络延迟导致识别响应超过 2 秒。
  • 部署门槛极高:团队需手动配置 CUDA、PyTorch 环境及复杂的 C++ JNI 接口,非 AI 专业的后端开发人员难以上手,调试周期长达数周。
  • 离线能力缺失:主流云 API 无法满足内网隔离要求,而自建模型缺乏活体检测与口罩识别等细粒度功能,存在被照片攻击的安全隐患。
  • 资源消耗巨大:为维持独立算法服务,需额外占用多台服务器资源,显著增加了硬件采购与运维预算。

使用 SmartJavaAI 后

  • 原生集成提速:仅需在 Maven 引入依赖即可在 Java 代码中直接调用人脸识别与 OCR 功能,消除跨语言调用开销,端到端识别延迟降至 300 毫秒以内。
  • 零门槛落地:屏蔽了底层深度学习框架(如 YOLOv8、InsightFace)的复杂性,后端开发者无需了解模型原理,三天内即可完成从 Demo 到生产环境的部署。
  • 全功能离线闭环:内置活体检测、人证核验及口罩识别算法,所有计算均在本地完成,完美契合内网安全合规要求,杜绝数据泄露风险。
  • 轻量高效运行:单应用进程即可承载所有 AI 能力,无需额外中间件服务,服务器资源占用减少 60%,大幅降低运营成本。

SmartJavaAI 让 Java 开发者像使用 Hutool 一样简单地将顶尖 AI 算法嵌入业务系统,真正实现了企业级应用的“零门槛”智能化升级。

运行环境要求

操作系统
  • 未说明
GPU

未说明

内存

未说明

依赖
notes该工具为纯 Java 库(Maven 中央仓库可用),旨在让 Java 开发者零门槛使用 AI。底层通过 DJL 封装或 JNI 调用 C++/Python 算法,兼容多种深度学习框架,但开发者无需自行安装这些框架或配置 Python 环境。Android 端有独立的商业版 SDK。
python无需 Python 环境(通过 JNI 接入 C++/Python 算法,对 Java 开发者屏蔽底层依赖)
JDK 8+
DJL (Deep Java Library)
PyTorch (底层支持)
TensorFlow (底层支持)
ONNX (底层支持)
Paddle (底层支持)
SmartJavaAI hero image

快速开始

🍬Java轻量级、免费、离线AI工具箱,致力于帮助Java开发者零门槛使用AI算法模型
像Hutool一样简单易用的Java AI工具箱

👉 http://smartjavaai.cn/ 👈

star github star gitcode star


开发文档


📚简介

SmartJavaAI是专为JAVA 开发者打造的一个功能丰富、开箱即用的 JAVA AI算法工具包,致力于帮助JAVA开发者零门槛使用各种AI算法模型,开发者无需深入了解底层实现,即可轻松在 Java 代码中调用人脸识别、目标检测、OCR 等功能。底层支持包括基于 DJL (Deep Java Library) 封装的深度学习模型,以及通过 JNI 接入的 C++/Python 算法,兼容多种主流深度学习框架如 PyTorch、TensorFlow、ONNX、Paddle 等,屏蔽复杂的模型部署与调用细节,开发者无需了解 AI 底层实现即可直接在 Java 项目中集成使用,后续将持续扩展更多算法,目标是构建一个“像 Hutool 一样简单易用”的 JAVA AI 通用工具箱

📱 SmartJavaAI Android 商业版

SmartJavaAI 现已支持 Android 移动端!

如果您有移动端离线人脸识别的需求,我们推出了基于 SmartJavaAI 的 Android SDK 及演示 APP。

  • 🚀 核心能力:毫秒级离线人脸检测、比对、注册与 1:N 搜索。
  • 📦 开箱即用:提供标准 SDK 接口与完整 Demo APK。
  • 💼 商业授权:Android 版本为商业授权版本。

👉 点击查看 Android 版演示截图、APK 下载及获取方式

🚀 能力展示

人脸检测(Face Detection)

- 5点人脸关键点定位

人脸比对1:1
(Face Recognition)

- 人脸对齐

人证核验
(Face ID Verification)

人脸比对1:N
(Face Recognition)

- 人脸对齐
- 人脸注册
- 人脸库查询
- 人脸库删除

人脸属性检测

- 性别检测(GenderDetection)
- 年龄检测(AgeDetection)
- 口罩检测(Face Mask Detection)
- 眼睛状态检测(EyeClosenessDetection)
- 脸部姿态检测(FacePoseEstimation)

活体检测
(FaceLivenessDetection)

- 图片和视频活体检测

人脸表情识别
(FacialExpressionRecognition)

- 7种表情检测

图像分类
(Image Classification)

目标检测(Object Detection)

- 视频流目标检测:rtsp、摄像头、视频文件等

语义分割
(Semantic Segmentation)

实例分割
(Instance Segmentation)

自定义目标训练+检测
(Object Detection)

行人检测(Person Detection)

人类动作识别
(Action Recognition)

OBB旋转框检测
(Oriented Bounding Boxes Object Detection)

零样本目标检测
(ZeroShot Object Detection)

- YOLO-World 模型

姿态估计
(Pose Estimation)

OCR文字识别
(Text Recognition)

- 支持任意角度文字识别
- 支持印刷体识别
- 支持手写字识别
{
      "name": "小氧",
      "gender": "女",
      "ethnicity": "汉",
      "idNumber": "430602200010108888",
      "birthday": "2000-10-10",
      "address": "湖南省岳阳市岳阳楼区金鄂中路456号"
    }
{"issuingAuthority":"杭州市公安局江干分局","validFrom":"2015-11-05","validTo":"2025-11-05"}

🚀 SmartJavaAI 解决了什么问题?

针对 Java 开发者在集成智能算法时常见的两大痛点:

  • 🐍 主流AI深度学习框架(PyTorch/TensorFlow)的Python生态与Java工程体系割裂

  • ⚙️ 现有AI集成方案分散杂乱,封装不统一,使用门槛高,不易直接服务于 Java 业务开发

我们实现了:

开箱即用 - 两行代码即可调用算法

支持多种深度学习引擎 - Pytorch、Tensorflow、MXNet、ONNX Runtime

功能丰富 - 当前支持人脸识别、目标检测、OCR、NLP 等多个 AI 领域任务,构建全面的智能算法体系。

跨平台兼容 - 支持Windows/Linux/macOS系统(x86 & ARM架构)

📌 支持功能

  • 人脸识别
    • 人脸检测:人脸区域检测、5点人脸关键点定位
    • 人脸识别:人脸512维特征提取、人脸对齐、1:1 人脸比对、1:N 人脸识别
    • 人脸库:人脸注册、更新、查询、删除(支持向量数据库milvus/sqlite)
    • 人脸属性检测:性别、年龄、口罩、眼睛状态、脸部姿态
    • 静默活体检测:图片、视频活体检测
    • 人脸表情识别:7种表情识别
    • 人脸质量评估:亮度评估、清晰度评估、完整度评估、姿态评估、遮挡评估
  • 图像分类
    • 支持多种主流模型:集成 YOLOv8、YOLOv11 等分类模型
    • 支持自定义模型加载:可无缝加载并部署用户自行训练的分类模型
  • 目标检测
    • 支持多种主流模型:集成 YOLOv5、YOLOv8、YOLOv11、YOLOv12、Tensorflow Object Detection 等目标检测模型
    • 支持自定义模型加载:可无缝加载并部署用户自行训练的目标检测模型
    • 集成行人检测模型
  • 语义分割
    • 集成DeepLabV3模型
  • 实例分割
    • 集成YOLOv8-seg、YOLOv11-seg、Mask R-CNN等模型
  • OBB旋转框目标检测
    • 集成YOLOv11-obb模型
  • 动作识别
    • 支持KINETICS400数据集中400个人类动作识别
  • 姿态估计
    • 集成YOLOv8-pose、YOLOv11-pose等模型
  • 零样本目标检测
    • 集成YOLOv8s_worldv2、owlv2_base_patch16模型
  • CLIP
    • 支持提取图片及文本特征
    • 支持文搜图、图搜文、图搜图
  • OCR文字识别
    • 支持PaddleOCR 3.0模型:集成最新PP-OCRv5、PP-OCRv4、表格结构识别模型(SLANet_plus)、文本行方向分类模型
    • 支持任意角度识别,方向校准
    • 支持通用文字识别,通用手写字识别
    • 支持表格识别
    • 支持中文车牌识别:单层/双层检测,颜色识别,支持12种中文车牌
    • 支持身份证识别:支持身份证正反面字段提取、方向矫正与结构化解析
  • 机器翻译
    • 集成NLLB-200模型:支持200+语言互相翻译
  • 语音识别(ASR)
    • 集成openai的whisper模型:支持100种语言
    • 集成vosk语音识别
    • 集成sherpa-onnx语音识别
  • 语音合成(TTS)
    • 集成sherpa-onnx:支持中文、方言、粤语、英文、德语等多种语言

🌟 AI集成方式对比

方案 技术特点 优点 缺点
OpenCV 传统图像处理方案 ✅ 提供java接口
✅ 轻量级部署
✅ 社区资源丰富
❌ 基于传统算法精度低(60%-75%)
❌ 需本地安装环境
商业闭源SDK(如虹软等) 商业级闭源解决方案 ✅ 开箱即用
✅ 提供完整文档和SDK
✅ 支持离线活体检测
❌ 免费版需年度授权更新
❌ 商业授权费用高
❌ 代码不可控
云API(阿里云) SaaS化云端服务 ✅ 零部署成本
✅ 支持高并发
✅ 自带模型迭代
❌ 网络延迟风险(200-800ms)
❌ 按调用量计费
❌ 有数据安全风险
Python混合调用 跨语言调用方案 ✅ 可集成PyTorch/TF等框架
✅ 支持自定义算法
✅ 识别精度高
❌ 需维护双语言环境
❌ 进程通信性能损耗(30%+)
❌ 异常处理复杂度翻倍
JNI/JNA 跨语言底层调用方案 ✅ 直接调用 C/C++ 高性能算法库
✅ 支持调用各种原生成熟库
✅ 可封装成通用工具Jar
❌ 开发成本高,JNI更复杂
❌ 跨平台兼容性差
DJL框架 深度学习框架 ✅ 纯Java实现
✅ 支持主流深度学习框架
✅ 可加载预训练模型(99%+)
❌ 需掌握DL知识
❌ 需处理模型加载、预处理、后处理等复杂技术细节
SmartJavaAI java深度学习工具包 ✅ 支持主流深度学习框架
✅ 提供丰富、开箱即用API
✅ 上手简单,单一Jar包集成

🛠️包含组件

模块 介绍
common 基础通用模块,封装了公共功能,供各算法模块共享使用
bom 依赖管理模块
face 人脸功能模块
vision 通用视觉模块(目标检测等功能)
ocr OCR文字识别模块
translate 机器翻译模块
speech 语音功能模块,包含 ASR 和 TTS

可以根据需求对每个模块单独引入,也可以通过引入all方式引入所有模块。


SmartJavaAI 架构图


📦 安装

1、环境要求

  • Java 版本:JDK 8或更高版本
  • 操作系统:Windows 64 位 / Linux / macOS M1
  • CPU架构:x86_64、ARM64(aarch64)

2、Maven

在项目的 pom.xmldependencies 中可以一次性引入全部功能(如下所示)。

⚠️ 注意:不推荐直接引入全部依赖,更推荐根据实际需求,按功能模块单独引入,避免引入不必要的包。

详细引入方式请查看 文档、或查看示例代码

<dependency>
    <groupId>cn.smartjavaai</groupId>
    <artifactId>all</artifactId>
    <version>1.1.2</version>
</dependency>

3、完整示例代码

示例代码

本项目在 examples 文件夹下提供了多个示例工程,用于演示各功能模块的使用方法:

  • face-example:人脸检测、人脸识别等功能示例
  • vision-example:通用视觉检测示例:目标检测、目标分割、图像分类等
  • ocr-example:OCR文字识别、车牌识别等功能示例
  • translate-example:机器翻译功能示例
  • speech-example:语音识别、语音合成功能示例

运行方式

如果你只想运行某个示例,请按以下方式操作:

  1. 打开 IDEA(或你喜欢的 IDE)

  2. 选择 “Open”,然后仅导入 examples 目录下对应的示例项目,例如:

    examples/face-example
    
  3. IDEA 会自动识别并加载依赖。若首次导入,请等待 Maven 下载依赖完成。

  4. 请从我们提供的 百度网盘 中下载模型及其附带文件,并在示例代码中将模型路径修改为您本地的实际路径。

  5. 可通过查看每个 Java 文件顶部的注释了解对应功能,或参考 README 文件中对各 Java 文件功能的说明,运行相应的测试方法进行体验。

4、文档地址

开发文档

5、模型简介及下载

模型下载

人脸模块

人脸检测模型(FaceDetection、FaceLandmarkExtraction)

模型名称 引擎 模型简介 模型开源网站
MTCNN(均衡) PyTorch 使用最广泛的模型之一,经典多阶段人脸检测,速度与精度均衡 Github
SeetaFace6(均衡模型) C++ 中科视拓最新开放的开源免费的全栈人脸识别工具包 Github
RetinaFace(高精度) PyTorch 基于单阶段检测的多尺度人脸检测 Github
RetinaFace_1080x720(高精度) OnnxRuntime 针对高分辨率图像优化的 RetinaFace 模型 Github
RetinaFace_640x640(高精度) OnnxRuntime 针对低分辨率图像优化的 RetinaFace 模型 Github
yolov5face_n_0.5_320x320(极速) OnnxRuntime YOLOv5 小型人脸检测模型,设计轻量,适合快速推理
yolov5face_m_640x640(极速) OnnxRuntime YOLOv5 中型人脸检测模型
UltraLightFastGenericFace(极速) PyTorch 针对边缘计算设备设计的轻量人脸检测模型 Github

人脸识别模型(FaceRecognition)

模型名称 引擎 模型简介 模型开源网站
InsightFace_IR-SE50(高精度) PyTorch 这是对 ArcFace(论文)和 InsightFace(GitHub)的 PyTorch 重新实现 Github
InsightFace_Mobilefacenet(极速) PyTorch (轻量级)这是对 ArcFace(论文)和 InsightFace(GitHub)的 PyTorch 重新实现 Github
FaceNet PyTorch 基于 PyTorch 的 Inception ResNet(V1)模型仓库 Github
ElasticFace PyTorch 基于 CVPRW2022 论文《ElasticFace: Elastic Margin Loss for Deep Face Recognition》实现的人脸识别模型 Github
SeetaFace6 C++ 中科视拓最新开放的开源免费的全栈人脸识别工具包 Github
SphereFace-20A PyTorch+OnnxRuntime SphereFace:Deep Hypersphere Embedding for Face Recognition Github
DREAM_IJBA_RES18 OnnxRuntime DREAM block for Pose-Robust Face Recognition Github
face.evoLVe PyTorch High-Performance Face Recognition Library based on PaddlePaddle & PyTorch Github
VGGFace2 PyTorch PyTorch Face Recognizer based on 'VGGFace2: A dataset for recognising faces across pose and age'. Github

静态活体检测(RGB)模型(Silent face-anti-spoofing、FaceLivenessDetection)

模型名称 引擎 模型简介 模型开源网站
MiniVision OnnxRuntime 小视科技的静默活体检测 Github
IIC_FL(cv_manual_face-liveness_flrgb) OnnxRuntime 阿里通义工作室人脸活体检测模型-RGB 魔塔
SeetaFace6 C++ 中科视拓最新开放的开源免费的全栈人脸识别工具包 Github

人脸表情识别模型(FacialExpressionRecognition、fer)

支持功能:

  • 支持识别7种表情:neutral(中性)、happy(高兴)、sad(悲伤)、surprise(惊讶)、fear(恐惧)、disgust(厌恶)、anger(愤怒)
模型名称 引擎 模型简介 模型开源网站
DensNet121 PyTorch FaceLib的densnet121表情识别模型 Github
FrEmotion OnnxRuntime FaceRecognition-LivenessDetection-Javascript Github

人脸属性识别模型(GenderDetection、AgeDetection、EyeClosenessDetection、FacePoseEstimation)

支持功能:

  • 性别检测
  • 年龄检测
  • 闭眼检测
  • 人脸姿态检测
  • 戴口罩检测
模型名称 模型简介 模型开源网站
SeetaFace6 中科视拓最新开放的开源免费的全栈人脸识别工具包 Github

人脸质量评估模型(FaceQualityAssessment)

支持功能:

  • 亮度评估
  • 清晰度评估
  • 完整度评估
  • 姿态评估
  • 遮挡评估
模型名称 模型简介 模型开源网站
SeetaFace6 中科视拓最新开放的开源免费的全栈人脸识别工具包 Github

图像分类模型(CLS)

YOLO 系列

模型名称 引擎 模型简介 模型开源网站
YOLOV11-cls OnnxRuntime 最流行的图像分类模型 Github
YOLOV8-cls OnnxRuntime 最流行的图像分类模型 Github

目标检测模型

YOLO 系列

模型名称 引擎 模型简介 模型开源网站
YOLOV12 OnnxRuntime 最流行的目标检测模型 Github
YOLOV11 OnnxRuntime 最流行的目标检测模型 Github
YOLOV8 OnnxRuntime 最流行的目标检测模型 Github

Tensorflow系列

仅测试了以下Tensorflow目标检测模型

模型名称 引擎 模型简介 模型开源网站
EfficientDet Tensorflow Tensorflow目标检测 Github
SSD MobileNet V2 Tensorflow Tensorflow目标检测 Github
Faster RCNN Inception Resnet V2 Tensorflow Tensorflow目标检测 Github

SSD 系列

模型名称 引擎 骨干网络 输入尺寸
训练数据集
精度(mAP)
推理速度
适用场景
SSD_300_RESNET5 PyTorch ResNet‑50 300×300 COCO 中等 精度需求一般
SSD_512_RESNET50_V1_VOC PyTorch ResNet‑50 512×512 Pascal VOC 稍高 中等 精度优先、可接受略低速度的场景
SSD_512_VGG16_ATROUS_COCO MXNet VGG‑16 512×512 COCO 较高 中等 通用场景;对小目标有一定提升
SSD_300_VGG16_ATROUS_VOC MXNet VGG‑16 300×300 Pascal VOC 中等偏上 VOC 数据集同类任务;资源受限时使用
SSD_512_MOBILENET1_VOC MXNet MobileNet‑1.0 512×512 Pascal VOC 中等 嵌入式/移动端设备;算力和内存都很有限

语义分割模型

模型名称 引擎 模型简介 模型开源网站
DeepLabv3 PyTorch DeepLabv3 是一种图像分割模型,可以把图片里的每个像素分类出来

实例分割模型

模型名称 引擎 模型简介 模型开源网站
YOLOV8-SEG OnnxRuntime Ultralytics在COCO 数据集 上训练的模型 Github
YOLOV11-SEG OnnxRuntime Ultralytics在COCO 数据集 上训练的模型 Github
Mask R-CNN MXNet Mask R-CNN 是一种在目标检测基础上,同时为每个物体生成像素级分割区域的深度学习模型

CLIP模型(Connecting text and images)

模型名称 引擎 模型简介 模型开源网站
clip-vit-base-patch32 PyTorch openai的图片及文本特征提取模型 Github

OBB旋转框目标检测模型

模型名称 引擎 模型简介 模型开源网站
YOLOV11-OBB OnnxRuntime Ultralytics在DOTAv1 数据集 上训练的模型、通过引入一个额外的角度来更准确地定位图像中的对象 Github

零样本目标检测模型

模型名称 引擎 模型简介 模型开源网站
YOLOv8s-worldv2 PyTorch 可根据描述性文本检测图像中的任何物体 官网
owlv2-base-patch16 PyTorch OWLv2是一种多模态模型,通过结合CLIP的骨干和ViT样的Transformer,实现零样本文本对象检测 官网

行人检测模型

模型名称 引擎 模型开源网站
YOLOV8_PERSON OnnxRuntime Github

人类动作识别模型

模型名称 引擎
VIT_BASE_PATCH16 PyTorch
INCEPTIONV3_KINETICS400 OnnxRuntime
INCEPTIONV1_KINETICS400 OnnxRuntime
RESNET_V1B_KINETICS400 OnnxRuntime

姿态估计模型

模型名称 引擎 模型开源网站
YOLO11N-POSE OnnxRuntime Github
YOLO8N-POSE OnnxRuntime Github
SIMPLE_POSE MXNet

OCR 模型

支持功能:

  • 支持简体中文、繁体中文、英文、日文四种主要语言
  • 手写、竖版、拼音、生僻字
  • 方向矫正

文本检测模型

模型名称 模型简介 模型开源网站
PP-OCRv5_server_det 服务端文本检测模型,精度更高,适合在性能较好的服务器上部署 Github
PP-OCRv5_mobile_det 轻量文本检测模型,效率更高,适合在端侧设备部署 Github
PP-OCRv4_server_det 服务端文本检测模型,精度更高,适合在性能较好的服务器上部署 Github
PP-OCRv4_mobile_det 轻量文本检测模型,效率更高,适合在端侧设备部署 Github

文本识别模型

模型名称 模型简介 模型开源网站
PP-OCRv5_server_rec (服务端)致力于以单一模型高效、精准地支持简体中文、繁体中文、英文、日文四种主要语言,以及手写、竖版、拼音、生僻字等复杂文本场景的识别。在保持识别效果的同时,兼顾推理速度和模型鲁棒性,为各种场景下的文档理解提供高效、精准的技术支撑。 Github
PP-OCRv5_mobile_rec (轻量)致力于以单一模型高效、精准地支持简体中文、繁体中文、英文、日文四种主要语言,以及手写、竖版、拼音、生僻字等复杂文本场景的识别。在保持识别效果的同时,兼顾推理速度和模型鲁棒性,为各种场景下的文档理解提供高效、精准的技术支撑。 Github
PP-OCRv4_server_rec (服务端)推理精度高,可以部署在多种不同的服务器上 Github
PP-OCRv4_mobile_rec (轻量) 效率更高,适合在端侧设备部署 Github

文本方向分类模型(cls)

模型名称 模型简介 模型开源网站
ch_ppocr_mobile_v2.0_cls 原始分类器模型,对检测到的文本行文字角度分类 Github
PP_LCNET_X0_25 (轻量)基于PP-LCNet_x0_25的文本行分类模型 Github
PP_LCNET_X1_0 基于PP-LCNet_x1_0的文本行分类模型 Github

表格结构识别(Table Structure Recognition)

模型名称 模型简介 模型开源网站
SLANet 该模型通过轻量级骨干 PP-LCNet、CSP-PAN 融合与 SLA Head 解码,有效提升表格结构识别的精度与速度。 Github
SLANet_plus (增强版)该模型通过轻量级骨干 PP-LCNet、CSP-PAN 融合与 SLA Head 解码,有效提升表格结构识别的精度与速度。 Github

车牌检测模型(License Plate Detection)

模型名称 模型简介 模型开源网站
YOLOV5 基于YOLOV5训练,支持12种中文车牌 Github
yolov7-lite-t (超小型模型)YOLOv7-Lite 架构的轻量级车牌检测模型 Github
yolov7-lite-s YOLOv7-Lite 架构的轻量级车牌检测模型 Github

车牌识别模型(License Plate Recognition)

模型名称 模型简介 模型开源网站
PLATE_REC_CRNN CRNN中文字符识别 Github

机器翻译模型

支持功能

  • 200多语言互相翻译
模型名称 模型简介 模型官网
NLLB-200 Meta AI 开发的一个先进的单一多语言机器翻译模型 Github
OPUS_MT_ZH_EN Helsinki-NLP团队开发的中英翻译模型,基于Transformer架构 huggingface
OPUS_MT_EN_ZH Helsinki-NLP团队开发的英中翻译模型,基于Transformer架构 huggingface

语音识别模型(ASR)

这里仅介绍模型的开源项目,每个开源项目通常包含多个具体模型,本文不逐一列出。

模型名称 模型简介 模型官网
Whisper OpenAI 开源的通用语音识别(ASR)模型,支持多语言转写和翻译,具有较高的识别精度,尤其在嘈杂环境中表现良好,适合离线和批量音频处理。 Github
Vosk 一个轻量级离线语音识别工具包,支持多种语言和平台(包括移动端与嵌入式设备),可在低资源环境中运行,适合实时语音识别场景。 Github
sherpa-onnx Sherpa-ONNX 是一个基于 ONNX Runtime 的ASR 及 TTS 推理框架 Github

语音合成模型(TTS)

这里仅介绍模型的开源项目,每个开源项目通常包含多个具体模型,本文不逐一列出。

模型名称 模型简介 模型官网
sherpa-onnx Sherpa-ONNX 是一个基于 ONNX Runtime 的ASR 及 TTS 推理框架 Github

🙏 致谢

本项目在开发过程中借鉴或使用了以下优秀开源项目,特此致谢:

联系方式

如您在使用过程中有任何问题、建议,或希望进行技术交流与合作,欢迎添加微信与我联系,并加入用户交流群。

🚀 如果这个项目对你有帮助,别忘了点个 Star ⭐!你的支持是我持续优化升级的动力! ❤️

献代码的步骤

1、在Gitee或者Github/Gitcode上fork项目到自己的repo

2、把fork过去的项目也就是你的项目clone到你的本地

3、修改代码(记得一定要修改dev分支)

4、commit后push到自己的库(dev分支)

5、登录Gitee或Github/Gitcode在你首页可以看到一个 pull request 按钮,点击它,填写一些说明信息,然后提交即可。

6、等待维护者合并

版本历史

v1.1.22026/03/29
v1.1.12025/12/31
v1.1.02025/11/26
v1.0.272025/10/26

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架