deepdetect

GitHub
2.5k 551 中等 1 次阅读 1周前NOASSERTION插件图像开发框架
AI 解读 由 AI 自动生成,仅供参考

DeepDetect 是一款开源的深度学习服务器与 API,旨在让尖端机器学习技术轻松集成到现有应用中。它基于 C++14 构建,核心解决了开发者在部署复杂模型时面临的框架依赖繁琐、环境配置困难以及从训练到嵌入式设备部署流程割裂等痛点。

无论是进行图像分类、目标检测、文本分析,还是处理时间序列数据,DeepDetect 都能提供统一的接口支持监督与非监督学习。它特别适合后端工程师、AI 开发者以及需要将算法快速落地的研究团队使用。用户无需深入底层代码,即可通过简洁的 API 调用多种主流框架的能力。

其独特的技术亮点在于强大的兼容性与自动化转换能力。DeepDetect 不仅原生支持 PyTorch、TensorFlow、Caffe、Dlib 等多种深度学习库,还集成了 XGBoost 用于梯度提升决策树,以及 T-SNE、FAISS 用于聚类和相似性搜索。更值得一提的是,它能自动将训练好的模型转换为针对 NVIDIA GPU 优化的 TensorRT 格式或适用于 ARM CPU 的 NCNN 格式,极大简化了模型在边缘设备上的部署流程。配合丰富的 Docker 镜像支持,DeepDetect 让机器学习服务的搭建与扩展变得高效而灵活。

使用场景

某中型电商团队急需在现有的 C++ 订单系统中集成实时商品图像分类功能,以自动识别用户上传的晒图并打标。

没有 deepdetect 时

  • 开发门槛高:算法工程师需分别熟悉 PyTorch、TensorFlow 等不同框架的底层 API,且难以将其无缝嵌入现有的 C++ 后端服务。
  • 部署流程繁琐:从模型训练到生产环境部署,需要手动编写大量胶水代码进行格式转换,且缺乏统一的推理接口标准。
  • 硬件适配困难:若要利用 NVIDIA GPU 加速或迁移至 ARM 边缘设备,需单独配置 TensorRT 或 NCNN,重复工作量巨大且容易出错。
  • 维护成本高昂:多种深度学习库并存导致依赖冲突频发,系统升级或更换模型架构时往往牵一发而动全身。

使用 deepdetect 后

  • 统一接入标准:通过 deepdetect 提供的通用 REST API,团队可直接调用支持 PyTorch、TensorFlow 等主流框架的模型,无需关心底层框架差异。
  • 自动化部署加速:deepdetect 自动处理模型加载与推理逻辑,支持一键将训练好的模型转换为 TensorRT(GPU)或 NCNN(ARM)格式,大幅缩短上线周期。
  • 灵活硬件支持:同一套代码即可在服务端高性能 GPU 集群运行,也能轻松部署到移动端 ARM 芯片,实现“一次构建,多处运行”。
  • 系统集成简便:作为独立的 C++ 服务器进程,deepdetect 通过 HTTP 接口与现有订单系统解耦,降低了耦合度与维护难度。

deepdetect 通过屏蔽底层框架差异并提供统一的推理服务,让企业能以最低成本将前沿深度学习能力快速融入现有生产流。

运行环境要求

操作系统
  • Linux
GPU
  • 非必需(支持 CPU 和 GPU)
  • 若使用 GPU,需 NVIDIA GPU 以支持 TensorRT 加速
  • 也支持 ARM CPU (NCNN)
  • 具体显存和 CUDA 版本未在文中说明
内存

未说明

依赖
notes该工具核心是使用 C++11 编写的服务器和 API。支持多种后端引擎(如 Caffe, Tensorflow, PyTorch, TensorRT, NCNN 等),可根据需求选择编译支持的后端。提供 Docker 镜像简化部署。支持将模型自动转换为嵌入式平台格式(TensorRT 用于 NVIDIA GPU,NCNN 用于 ARM CPU)。无数据库依赖,所有数据和模型参数均通过文件系统管理。
python未说明(核心服务为 C++11 编写,提供 Python 客户端)
Caffe
Tensorflow
Caffe2
Libtorch (PyTorch)
NCNN
TensorRT
XGBoost
Dlib
FAISS
Annoy
deepdetect hero image

快速开始

DeepDetect Logo

开源深度学习服务器与API

加入Gitter聊天室 https://gitter.im/beniz/deepdetect GitHub发布版本(最新SemVer) GitHub发布日期 自最新发布以来的GitHub提交数(按日期排序)

DeepDetect (https://www.deepdetect.com/) 是一款用C++11编写的机器学习API和服务器。它使最先进的机器学习技术易于使用,并能轻松集成到现有应用中。该平台同时支持训练和推理,能够自动转换为搭载TensorRT(NVIDIA GPU)和NCNN(ARM CPU)的嵌入式平台。

DeepDetect实现了对图像、文本、时间序列及其他数据的有监督和无监督深度学习支持,注重简洁性和易用性,便于测试及与现有应用程序的对接。它支持分类、目标检测、分割、回归、自编码器等任务。

此外,DeepDetect通过一个高度通用且灵活的API依赖于外部机器学习库。目前支持以下库:

欢迎加入Gitter社区,在那里我们将帮助用户解决安装、API使用、神经网络搭建以及与外部应用集成等方面的问题。


构建类型 稳定版 开发版
源代码

所有DeepDetect Docker镜像均可从https://docker.jolibrain.com/获取。

  • 列出所有可用镜像:
curl -X GET https://docker.jolibrain.com/v2/_catalog
  • 列出特定镜像的标签,例如deepdetect_cpu镜像:
curl -X GET https://docker.jolibrain.com/v2/deepdetect_cpu/tags/list

主要特性

  • 高层次的机器学习和深度学习API
  • 支持Caffe、Tensorflow、XGBoost、T-SNE、Caffe2、NCNN、TensorRT、Pytorch
  • 支持分类、回归、自编码器、目标检测、分割、时间序列分析等任务
  • 使用JSON通信格式
  • 提供远程Python和JavaScript客户端
  • 专用服务器支持异步训练请求
  • 性能优异,充分利用多核CPU和GPU资源
  • 内置基于神经网络嵌入的相似性搜索功能
  • 可处理大规模图像数据集,并支持实时数据增强(如旋转、翻转等)
  • 可处理CSV文件,并具备预处理能力
  • 可处理文本文件、句子及基于字符的模型
  • 可处理SVM格式的稀疏数据
  • 内置多种模型评估指标(如F1分数、多分类对数损失等)
  • 提供多种特殊损失函数(如Dice损失、轮廓损失等)
  • 不依赖数据库同步,所有信息和模型参数均组织在文件系统中并可直接访问
  • 灵活的模板输出格式,简化与外部应用的对接
  • 提供常用神经网络架构模板(如Googlenet、Alexnet、ResNet、卷积神经网络、基于字符的卷积网络、MLP、逻辑回归、SSD、DeepLab、PSPNet、U-Net、CRNN、ShuffleNet、SqueezeNet、MobileNet、RefineDet、VOVNet等)
  • 同时支持GPU和CPU上的稀疏特征和计算
  • 内置预测特征、图像、对象及概率分布的相似性索引与搜索功能
  • 基于Swagger自动生成文档

各库的机器学习功能

Caffe Caffe2 XGBoost TensorRT NCNN Libtorch Tensorflow T-SNE Dlib
服务
训练 (CPU) Y Y Y N/A N/A Y N Y N
训练 (GPU) Y Y Y N/A N/A Y N Y N
推理 (CPU) Y Y Y N Y Y Y N/A Y
推理 (GPU) Y Y Y Y N Y Y N/A Y
模型
分类 Y Y Y Y Y Y Y N/A Y
目标检测 Y Y N Y Y N N N/A Y
分割 Y N N N N N N N/A N
回归 Y N Y N N Y N N/A N
自编码器 Y N N/A N N N N N/A N
自然语言处理 Y N Y N N Y N Y N
OCR / Seq2Seq Y N N N Y N N N N
时间序列 Y N N N Y Y N N N
数据
CSV Y N Y N N N N Y N
SVM Y N Y N N N N N N
文本单词 Y N Y N N N N N N
文本字符 Y N N N N N N Y N
图像 Y Y N Y Y Y Y Y Y
时间序列 Y N N N Y N N N N

工具和客户端

模型

Caffe Tensorflow 来源 Top-1 准确率(ImageNet)
AlexNet BVLC 57.1%
SqueezeNet DeepScale 59.5%
Inception v1 / GoogleNet BVLC / Google 67.9%
Inception v2 Google 72.2%
Inception v3 Google 76.9%
Inception v4 Google 80.2%
ResNet 50 MSR 75.3%
ResNet 101 MSR 76.4%
ResNet 152 MSR 77%
Inception-ResNet-v2 Google 79.79%
VGG-16 Oxford 70.5%
VGG-19 Oxford 71.3%
ResNext 50 https://github.com/terrychenism/ResNeXt 76.9%
ResNext 101 https://github.com/terrychenism/ResNeXt 77.9%
ResNext 152 https://github.com/terrychenism/ResNeXt 78.7%
DenseNet-121 https://github.com/shicai/DenseNet-Caffe 74.9%
DenseNet-161 https://github.com/shicai/DenseNet-Caffe 77.6%
DenseNet-169 https://github.com/shicai/DenseNet-Caffe 76.1%
DenseNet-201 https://github.com/shicai/DenseNet-Caffe 77.3%
SE-BN-Inception https://github.com/hujie-frank/SENet 76.38%
SE-ResNet-50 https://github.com/hujie-frank/SENet 77.63%
SE-ResNet-101 https://github.com/hujie-frank/SENet 78.25%
SE-ResNet-152 https://github.com/hujie-frank/SENet 78.66%
SE-ResNext-50 https://github.com/hujie-frank/SENet 79.03%
SE-ResNext-101 https://github.com/hujie-frank/SENet 80.19%
SENet https://github.com/hujie-frank/SENet 81.32%
VOC0712 (目标检测) https://github.com/weiliu89/caffe/tree/ssd 71.2 mAP
InceptionBN-21k https://github.com/pertusa/InceptionBN-21K-for-Caffe 41.9%
Inception v3 5K https://github.com/openimages/dataset
5点人脸关键点检测模型(人脸检测) http://blog.dlib.net/2017/09/fast-multiclass-object-detection-in.html
前后车辆检测(目标检测) http://blog.dlib.net/2017/09/fast-multiclass-object-detection-in.html

更多模型:

参考文献

作者

DeepDetect 由 Jolibrain 设计、实现并维护,同时得到了其他贡献者的支持。

版本历史

v0.26.22025/07/19
v0.26.12025/07/14
v0.27.02025/11/12
v0.22.12022/05/28
v0.17.02021/05/10
v0.26.02024/11/09
v0.25.02024/01/10
v0.24.02023/03/31
v0.23.12022/10/14
v0.23.02022/09/29
v0.22.02022/05/23
v0.21.02022/02/22
v0.20.02021/12/17
v0.19.02021/09/06
v0.18.02021/06/11
v0.16.02021/04/23
v0.15.02021/03/26
v0.14.02021/03/05
v0.13.02021/01/22
v0.12.02021/01/08

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

159.3k|★★☆☆☆|今天
开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信

144.3k|★☆☆☆☆|昨天
Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|1周前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|1周前
插件Agent图像