[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-geekwenjie--SmartJavaAI":3,"tool-geekwenjie--SmartJavaAI":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":77,"owner_company":77,"owner_location":77,"owner_email":77,"owner_twitter":77,"owner_website":77,"owner_url":79,"languages":80,"stars":85,"forks":86,"last_commit_at":87,"license":88,"difficulty_score":23,"env_os":89,"env_gpu":89,"env_ram":89,"env_deps":90,"category_tags":100,"github_topics":101,"view_count":23,"oss_zip_url":77,"oss_zip_packed_at":77,"status":16,"created_at":122,"updated_at":123,"faqs":124,"releases":145},2050,"geekwenjie\u002FSmartJavaAI","SmartJavaAI","🔥🔥🔥Java免费离线AI算法工具箱，支持人脸识别，活体检测，表情识别、目标检测、实例分割、行人检测、OCR文字识别、车牌识别、表格识别、ASR+TTS、机器翻译等功能，Maven引用即可使用。支持PyTorch、Tensorflow，已集成 Mtcnn、InsightFace、SeetaFace6、YOLOv8~v12、PaddleOCR(PPOCRv5)、Whisper等主流模型","SmartJavaAI 是一款专为 Java 开发者打造的免费离线 AI 算法工具箱，旨在让开发者无需深入复杂的深度学习底层，即可像使用 Hutool 一样轻松地在项目中集成人工智能能力。它有效解决了 Java 生态中 AI 模型部署难、环境配置繁琐以及跨语言调用门槛高等痛点，让用户通过简单的 Maven 引用即可直接调用人脸识别、活体检测、目标检测、OCR 文字识别、语音处理及机器翻译等丰富功能。\n\n该工具特别适合广大 Java 后端工程师、全栈开发者以及需要快速落地 AI 功能的企业团队使用，无论是构建智能门禁系统、自动化文档处理还是多媒体分析应用，都能大幅降低开发成本。SmartJavaAI 的独特亮点在于其强大的兼容性与便捷性：底层无缝支持 PyTorch、TensorFlow、PaddlePaddle 等主流框架，并集成了 YOLOv8-v12、InsightFace、Whisper、PaddleOCR 等行业领先模型；同时提供纯离线运行能力，保障数据安全与响应速度。此外，它还扩展支持 Android 移动端商业版，实现了从服务端到移动端的全面覆盖，是 Java 开发者入门和","SmartJavaAI 是一款专为 Java 开发者打造的免费离线 AI 算法工具箱，旨在让开发者无需深入复杂的深度学习底层，即可像使用 Hutool 一样轻松地在项目中集成人工智能能力。它有效解决了 Java 生态中 AI 模型部署难、环境配置繁琐以及跨语言调用门槛高等痛点，让用户通过简单的 Maven 引用即可直接调用人脸识别、活体检测、目标检测、OCR 文字识别、语音处理及机器翻译等丰富功能。\n\n该工具特别适合广大 Java 后端工程师、全栈开发者以及需要快速落地 AI 功能的企业团队使用，无论是构建智能门禁系统、自动化文档处理还是多媒体分析应用，都能大幅降低开发成本。SmartJavaAI 的独特亮点在于其强大的兼容性与便捷性：底层无缝支持 PyTorch、TensorFlow、PaddlePaddle 等主流框架，并集成了 YOLOv8-v12、InsightFace、Whisper、PaddleOCR 等行业领先模型；同时提供纯离线运行能力，保障数据安全与响应速度。此外，它还扩展支持 Android 移动端商业版，实现了从服务端到移动端的全面覆盖，是 Java 开发者入门和应用 AI 技术的理想选择。","\u003Cp align=\"center\">\n\t\u003Ca href=\"https:\u002F\u002Fgitee.com\u002Fdengwenjie\u002FSmartJavaAI\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_7b1674d92858.png\" width=\"45%\">\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n\t\u003Cstrong>🍬Java轻量级、免费、离线AI工具箱，致力于帮助Java开发者零门槛使用AI算法模型\u003C\u002Fstrong>\u003Cbr>\n\t\u003Cem>像Hutool一样简单易用的Java AI工具箱\u003C\u002Fem>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n\t👉 \u003Ca href=\"http:\u002F\u002Fsmartjavaai.cn\u002F\">http:\u002F\u002Fsmartjavaai.cn\u002F\u003C\u002Fa> 👈\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n\t\u003Ca target=\"_blank\" href=\"https:\u002F\u002Fcentral.sonatype.com\u002Fartifact\u002Fink.numberone\u002Fsmartjavaai-all\">\n\t\t\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fmaven-central\u002Fv\u002Fink.numberone\u002Fsmartjavaai-all.svg?label=Maven%20Central\" \u002F>\n\t\u003C\u002Fa>\n\t\u003Ca target=\"_blank\" href=\"https:\u002F\u002Flicense.coscl.org.cn\u002FMulanPSL2\">\n\t\t\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002F:license-MulanPSL2-blue.svg\" \u002F>\n\t\u003C\u002Fa>\n\t\u003Ca target=\"_blank\" href=\"https:\u002F\u002Fwww.oracle.com\u002Fjava\u002Ftechnologies\u002Fjavase\u002Fjavase-jdk11-downloads.html\">\n\t\t\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FJDK-8+-green.svg\" \u002F>\n\t\u003C\u002Fa>\n\t\u003Ca target=\"_blank\" href='https:\u002F\u002Fgitee.com\u002Fdengwenjie\u002FSmartJavaAI\u002Fstargazers'>\n\t\t\u003Cimg src='https:\u002F\u002Fgitee.com\u002Fdengwenjie\u002FSmartJavaAI\u002Fbadge\u002Fstar.svg?theme=gvp' alt='star'\u002F>\n\t\u003C\u002Fa>\n    \u003Ca target=\"_blank\" href='https:\u002F\u002Fgithub.com\u002Fgeekwenjie\u002FSmartJavaAI'>\n\t\t\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fgeekwenjie\u002FSmartJavaAI.svg?style=social\" alt=\"github star\"\u002F>\n\t\u003C\u002Fa>\n    \u003Ca target=\"_blank\" href='https:\u002F\u002Fgitcode.com\u002Fgeekwenjie\u002FSmartJavaAI'>\n\t\t\u003Cimg src=\"https:\u002F\u002Fgitcode.com\u002Fgeekwenjie\u002FSmartJavaAI\u002Fstar\u002Fbadge.svg\" alt=\"gitcode star\"\u002F>\n\t\u003C\u002Fa>\n\u003C\u002Fp>\n\n-------------------------------------------------------------------------------\n\n[**开发文档**](http:\u002F\u002Fdoc.smartjavaai.cn)\n\n-------------------------------------------------------------------------------\n\n## 📚简介\n\nSmartJavaAI是专为JAVA 开发者打造的一个功能丰富、开箱即用的 JAVA AI算法工具包，致力于帮助JAVA开发者零门槛使用各种AI算法模型，开发者无需深入了解底层实现，即可轻松在 Java 代码中调用人脸识别、目标检测、OCR 等功能。底层支持包括基于 DJL (Deep Java Library) 封装的深度学习模型，以及通过 JNI 接入的 C++\u002FPython 算法，兼容多种主流深度学习框架如 PyTorch、TensorFlow、ONNX、Paddle 等，屏蔽复杂的模型部署与调用细节，开发者无需了解 AI 底层实现即可直接在 Java 项目中集成使用，后续将持续扩展更多算法，目标是构建一个“像 Hutool 一样简单易用”的 JAVA AI 通用工具箱\n\n\n## 📱 SmartJavaAI Android 商业版\n\n**SmartJavaAI 现已支持 Android 移动端！**\n\n如果您有移动端离线人脸识别的需求，我们推出了基于 SmartJavaAI 的 Android SDK 及演示 APP。\n\n* 🚀 **核心能力**：毫秒级离线人脸检测、比对、注册与 1:N 搜索。\n* 📦 **开箱即用**：提供标准 SDK 接口与完整 Demo APK。\n* 💼 **商业授权**：Android 版本为商业授权版本。\n\n👉 **[点击查看 Android 版演示截图、APK 下载及获取方式](.\u002Fandroid.md)**\n\n\n\n\n## 🚀  能力展示\n\n\u003Cdiv align=\"center\">\n  \u003Ctable>      \n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>人脸检测(Face Detection)\u003C\u002Fp>   \n         - 5点人脸关键点定位 \u003Cbr>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_b7bef1e9213b.jpg\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>          \n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>人脸比对1：1\u003Cbr>(Face Recognition)\u003C\u002Fp>\n          - 人脸对齐 \u003Cbr>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_1ad32ecad370.jpg\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>  \n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>人证核验\u003Cbr>(Face ID Verification)\u003C\u002Fp>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_4705f0af7f4e.png\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>人脸比对1：N\u003Cbr>(Face Recognition)\u003C\u002Fp>  \n          - 人脸对齐 \u003Cbr>\n          - 人脸注册 \u003Cbr>\n          - 人脸库查询\u003Cbr>\n          - 人脸库删除\u003Cbr>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_d6da131ba71e.png\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>  \n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>人脸属性检测\u003C\u002Fp>  \n          - 性别检测(GenderDetection) \u003Cbr>\n          - 年龄检测(AgeDetection) \u003Cbr>\n          - 口罩检测(Face Mask Detection)\u003Cbr>\n          - 眼睛状态检测(EyeClosenessDetection)\u003Cbr>\n          - 脸部姿态检测(FacePoseEstimation)\u003Cbr>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_dd58ea3870a1.jpg\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr> \n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>活体检测\u003Cbr>(FaceLivenessDetection)\u003C\u002Fp>  \n          - 图片和视频活体检测 \u003Cbr>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_cb8e0e0e26d8.jpg\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr> \n  \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>人脸表情识别\u003Cbr>(FacialExpressionRecognition)\u003C\u002Fp>  \n          - 7种表情检测 \u003Cbr>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_ddc5672e65a7.jpg\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr> \n  \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>图像分类\u003Cbr>(Image Classification)\u003C\u002Fp>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_8db1a28d8f6f.png\" height = \"300px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n   \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>目标检测(Object Detection)\u003C\u002Fp>\n          - 视频流目标检测：rtsp、摄像头、视频文件等 \u003Cbr>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_f4626a6dc3b9.jpg\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>语义分割\u003Cbr>(Semantic Segmentation)\u003C\u002Fp>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_dc8269d7099b.png\" height = \"300px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>实例分割\u003Cbr>(Instance Segmentation)\u003C\u002Fp>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_f6bdee3c5410.png\" height = \"300px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>自定义目标训练+检测\u003Cbr>(Object Detection)\u003C\u002Fp>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_5c2903a269bc.jpg\" height = \"300px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>行人检测(Person Detection)\u003C\u002Fp>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_7e9eb097b85b.png\" height = \"300px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>人类动作识别\u003Cbr>(Action Recognition)\u003C\u002Fp>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_d2ba527bdd77.jpg\" height = \"300px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>OBB旋转框检测\u003Cbr>(Oriented Bounding Boxes Object Detection)\u003C\u002Fp>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_bc19a77dd9e1.jpg\" height = \"200px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>零样本目标检测\u003Cbr>(ZeroShot Object Detection)\u003C\u002Fp>\n      - YOLO-World 模型 \u003Cbr>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_41cd1e4a7c6b.png\" height = \"200px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>姿态估计\u003Cbr>(Pose Estimation)\u003C\u002Fp>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_47b919d9bc1e.png\" height = \"300px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>OCR文字识别\u003Cbr>(Text Recognition)\u003C\u002Fp>\n          - 支持任意角度文字识别 \u003Cbr>\n          - 支持印刷体识别 \u003Cbr>\n          - 支持手写字识别\u003Cbr>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_1f55ef36354f.png\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr> \n  \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>OCR文字识别\u003C\u002Fp>\n          - 表格识别\u003Cbr>(Table Structure Recognition) \u003Cbr>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_d1683e7358cd.jpg\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>车牌识别\u003Cbr>(License Plate Recognition)\u003C\u002Fp>\n          - 单层\u002F双层检测 \u003Cbr>\n          - 车牌颜色识别 \u003Cbr>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_cf0ae7834564.jpg\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>身份证识别\u003Cbr>(IDCard Recognition)\u003C\u002Fp>\n          - 正面识别 \u003Cbr>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n    \u003Ctd>\n      \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_f3396855bc44.png\" width=\"500px\"\u002F>\n        \u003Cpre align=\"left\">{\n      \"name\": \"小氧\",\n      \"gender\": \"女\",\n      \"ethnicity\": \"汉\",\n      \"idNumber\": \"430602200010108888\",\n      \"birthday\": \"2000-10-10\",\n      \"address\": \"湖南省岳阳市岳阳楼区金鄂中路456号\"\n    }\u003C\u002Fpre>\n      \u003C\u002Fdiv>\n    \u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>身份证识别\u003Cbr>(IDCard Recognition)\u003C\u002Fp>\n          - 反面识别 \u003Cbr>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n     \u003Ctd>\n      \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_edd3b97fd4f7.png\" width=\"500px\"\u002F>\n        \u003Cpre align=\"left\">{\"issuingAuthority\":\"杭州市公安局江干分局\",\"validFrom\":\"2015-11-05\",\"validTo\":\"2025-11-05\"}\u003C\u002Fpre>\n      \u003C\u002Fdiv>\n    \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>机器翻译\u003Cbr>(Machine Translation)\u003C\u002Fp>\n          - 200多种语言互相翻译\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_792d10ddb7cc.png\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>语音识别\u003Cbr>(Speech Recognition)\u003C\u002Fp>\n          - 支持100种语言\u003Cbr>\n          - 支持实时语音识别\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_1e33803119e8.png\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>语音合成(ASR)\u003C\u002Fp>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_a4a89acb9ee3.jpg\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>CLIP\u003C\u002Fp>\n          - 文搜图 \u003Cbr>\n          - 图搜图 \u003Cbr>\n          - 图搜文\u003Cbr>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_cd320c0bc9a8.png\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftable>\n\u003C\u002Fdiv>\n\n\n\n## 🚀  SmartJavaAI 解决了什么问题？\n\n针对 Java 开发者在集成智能算法时常见的两大痛点：\n\n- 🐍 主流AI深度学习框架（PyTorch\u002FTensorFlow）的Python生态与Java工程体系割裂\n\n- ⚙️ 现有AI集成方案分散杂乱，封装不统一，使用门槛高，不易直接服务于 Java 业务开发\n\n我们实现了：\n\n✅ **开箱即用** - 两行代码即可调用算法\n\n✅ **支持多种深度学习引擎** - Pytorch、Tensorflow、MXNet、ONNX Runtime\n\n✅ **功能丰富** - 当前支持人脸识别、目标检测、OCR、NLP 等多个 AI 领域任务，构建全面的智能算法体系。\n\n✅ **跨平台兼容** - 支持Windows\u002FLinux\u002FmacOS系统（x86 & ARM架构）\n\n\n\n## 📌 支持功能\n\n- **人脸识别**\n  - 人脸检测：人脸区域检测、5点人脸关键点定位\n  - 人脸识别：人脸512维特征提取、人脸对齐、1:1 人脸比对、1:N 人脸识别\n  - 人脸库：人脸注册、更新、查询、删除(支持向量数据库milvus\u002Fsqlite)\n  - 人脸属性检测：性别、年龄、口罩、眼睛状态、脸部姿态\n  - 静默活体检测：图片、视频活体检测\n  - 人脸表情识别：7种表情识别\n  - 人脸质量评估：亮度评估、清晰度评估、完整度评估、姿态评估、遮挡评估\n- **图像分类**\n  - 支持多种主流模型：集成 YOLOv8、YOLOv11 等分类模型\n  - 支持自定义模型加载：可无缝加载并部署用户自行训练的分类模型\n- **目标检测**\n  - 支持多种主流模型：集成 YOLOv5、YOLOv8、YOLOv11、YOLOv12、Tensorflow Object Detection 等目标检测模型\n  - 支持自定义模型加载：可无缝加载并部署用户自行训练的目标检测模型\n  - 集成行人检测模型\n- **语义分割**\n  - 集成DeepLabV3模型\n- **实例分割**\n  - 集成YOLOv8-seg、YOLOv11-seg、Mask R-CNN等模型\n- **OBB旋转框目标检测**\n  - 集成YOLOv11-obb模型\n- **动作识别**\n  - 支持KINETICS400数据集中400个人类动作识别\n- **姿态估计**\n  - 集成YOLOv8-pose、YOLOv11-pose等模型\n- **零样本目标检测**\n  - 集成YOLOv8s_worldv2、owlv2_base_patch16模型\n- **CLIP**\n  - 支持提取图片及文本特征\n  - 支持文搜图、图搜文、图搜图\n- **OCR文字识别**\n  - 支持PaddleOCR 3.0模型：集成最新PP-OCRv5、PP-OCRv4、表格结构识别模型(SLANet_plus)、文本行方向分类模型\n  - 支持任意角度识别，方向校准\n  - 支持通用文字识别，通用手写字识别\n  - 支持表格识别\n  - 支持中文车牌识别：单层\u002F双层检测，颜色识别，支持12种中文车牌\n  - 支持身份证识别：支持身份证正反面字段提取、方向矫正与结构化解析\n- **机器翻译**\n  - 集成NLLB-200模型：支持200+语言互相翻译\n- **语音识别(ASR)**\n  - 集成openai的whisper模型：支持100种语言\n  - 集成vosk语音识别\n  - 集成sherpa-onnx语音识别\n- **语音合成(TTS)**\n  - 集成sherpa-onnx：支持中文、方言、粤语、英文、德语等多种语言\n\n\n## 🌟 AI集成方式对比\n\n| 方案                | 技术特点                                                                 | 优点                                                              | 缺点                                            |\n|---------------------|--------------------------------------------------------------------------|-------------------------------------------------------------------|-----------------------------------------------|\n| **OpenCV**         | 传统图像处理方案                                                        | ✅ 提供java接口\u003Cbr>✅ 轻量级部署\u003Cbr>✅ 社区资源丰富                 | ❌ 基于传统算法精度低(60%-75%)\u003Cbr>❌ 需本地安装环境             |\n| &zwnj;**商业闭源SDK（如虹软等）**&zwnj;       | 商业级闭源解决方案                                                      | ✅ 开箱即用\u003Cbr>✅ 提供完整文档和SDK\u003Cbr>✅ 支持离线活体检测      | ❌ 免费版需年度授权更新\u003Cbr>❌ 商业授权费用高\u003Cbr>❌ 代码不可控          |\n| &zwnj;**云API(阿里云)**&zwnj;   | SaaS化云端服务                                                          | ✅ 零部署成本\u003Cbr>✅ 支持高并发\u003Cbr>✅ 自带模型迭代        | ❌ 网络延迟风险(200-800ms)\u003Cbr>❌ 按调用量计费\u003Cbr>❌ 有数据安全风险  |\n| &zwnj;**Python混合调用**&zwnj;  | 跨语言调用方案                                                          | ✅ 可集成PyTorch\u002FTF等框架\u003Cbr>✅ 支持自定义算法\u003Cbr>✅ 识别精度高  | ❌ 需维护双语言环境\u003Cbr>❌ 进程通信性能损耗(30%+)\u003Cbr>❌ 异常处理复杂度翻倍 |\n| &zwnj;**JNI\u002FJNA**&zwnj;         | 跨语言底层调用方案      | ✅ 直接调用 C\u002FC++ 高性能算法库\u003Cbr>✅ 支持调用各种原生成熟库\u003Cbr>✅ 可封装成通用工具Jar | ❌ 开发成本高，JNI更复杂\u003Cbr>❌ 跨平台兼容性差                       |\n| &zwnj;**DJL框架**&zwnj;         | 深度学习框架                                                            | ✅ 纯Java实现\u003Cbr>✅ 支持主流深度学习框架\u003Cbr>✅ 可加载预训练模型(99%+)   | ❌ 需掌握DL知识\u003Cbr>❌ 需处理模型加载、预处理、后处理等复杂技术细节         |\n| &zwnj;**SmartJavaAI**&zwnj;       | java深度学习工具包                                                            | ✅ 支持主流深度学习框架\u003Cbr>✅ 提供丰富、开箱即用API\u003Cbr>✅ 上手简单，单一Jar包集成 | 无                                             |\n\n\n\n## 🛠️包含组件\n\n| 模块                    | 介绍                        |\n|-----------------------|---------------------------|\n| common                | 基础通用模块，封装了公共功能，供各算法模块共享使用 |\n| bom                   | 依赖管理模块                    |\n| face                  | 人脸功能模块                    |\n| vision                | 通用视觉模块(目标检测等功能)           |\n| ocr       | OCR文字识别模块                 |\n| translate | 机器翻译模块                    |\n| speech    | 语音功能模块，包含 ASR 和 TTS       |\n\n可以根据需求对每个模块单独引入，也可以通过引入`all`方式引入所有模块。\n\n-------------------------------------------------------------------------------\n\n\n## SmartJavaAI 架构图\n\n \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_771239a53145.png\" width = \"600px\"\u002F>\n\n-------------------------------------------------------------------------------\n\n## 📦 安装\n\n\n### 1、环境要求\n\n- Java 版本：**JDK 8或更高版本**\n- 操作系统：Windows 64 位 \u002F Linux \u002F macOS M1\n- CPU架构：x86_64、ARM64（aarch64）\n\n### 2、Maven\n\n在项目的 `pom.xml` 的 `dependencies` 中可以一次性引入全部功能（如下所示）。\n\n⚠️ **注意：不推荐直接引入全部依赖**，更推荐根据实际需求，按功能模块单独引入，避免引入不必要的包。\n\n详细引入方式请查看 [文档](http:\u002F\u002Fdoc.smartjavaai.cn\u002Finstall.html)、或查看[示例代码](https:\u002F\u002Fgitee.com\u002Fdengwenjie\u002FSmartJavaAI\u002Ftree\u002Fmaster\u002Fexamples)\n\n```xml\n\u003Cdependency>\n    \u003CgroupId>cn.smartjavaai\u003C\u002FgroupId>\n    \u003CartifactId>all\u003C\u002FartifactId>\n    \u003Cversion>1.1.2\u003C\u002Fversion>\n\u003C\u002Fdependency>\n```\n\n### 3、完整示例代码\n\n[示例代码](https:\u002F\u002Fgitee.com\u002Fdengwenjie\u002FSmartJavaAI\u002Ftree\u002Fmaster\u002Fexamples)\n\n本项目在 `examples` 文件夹下提供了多个示例工程，用于演示各功能模块的使用方法：\n\n* `face-example`：人脸检测、人脸识别等功能示例\n* `vision-example`：通用视觉检测示例：目标检测、目标分割、图像分类等\n* `ocr-example`：OCR文字识别、车牌识别等功能示例\n* `translate-example`：机器翻译功能示例\n* `speech-example`：语音识别、语音合成功能示例\n\n#### 运行方式\n\n如果你只想运行某个示例，请按以下方式操作：\n\n1. 打开 IDEA（或你喜欢的 IDE）\n2. 选择 **“Open”**，然后仅导入 `examples` 目录下对应的示例项目，例如：\n\n   ```\n   examples\u002Fface-example\n   ```\n3. IDEA 会自动识别并加载依赖。若首次导入，请等待 Maven 下载依赖完成。\n4. 请从我们提供的 百度网盘 中下载模型及其附带文件，并在示例代码中将模型路径修改为您本地的实际路径。\n5. 可通过查看每个 Java 文件顶部的注释了解对应功能，或参考 README 文件中对各 Java 文件功能的说明，运行相应的测试方法进行体验。\n\n\n\n### 4、文档地址\n\n[开发文档](http:\u002F\u002Fdoc.smartjavaai.cn)\n\n### 5、模型简介及下载\n\n[模型下载](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1dlZxWEMULnaietMDUJh38g?pwd=1234)\n\n#### 人脸模块\n\n**人脸检测模型(FaceDetection、FaceLandmarkExtraction)**\n\n| 模型名称                         | 引擎          | 模型简介                         | 模型开源网站                                                                          |\n|------------------------------|-------------|------------------------------|---------------------------------------------------------------------------------|\n| MTCNN(均衡)                    | PyTorch     | 使用最广泛的模型之一，经典多阶段人脸检测，速度与精度均衡 | [Github](https:\u002F\u002Fgithub.com\u002Ftimesler\u002Ffacenet-pytorch)                           |\n| SeetaFace6(均衡模型)                 | C++         | 中科视拓最新开放的开源免费的全栈人脸识别工具包      | [Github](https:\u002F\u002Fgithub.com\u002Fseetafaceengine\u002FSeetaFace6)                         |\n| RetinaFace(高精度)              | PyTorch     | 基于单阶段检测的多尺度人脸检测                    | [Github](https:\u002F\u002Fgithub.com\u002Fbiubug6\u002FPytorch_Retinaface)                         |\n| RetinaFace_1080x720(高精度)     | OnnxRuntime | 针对高分辨率图像优化的 RetinaFace 模型                    | [Github](https:\u002F\u002Fgithub.com\u002Fbiubug6\u002FPytorch_Retinaface)                         |\n| RetinaFace_640x640(高精度)      | OnnxRuntime     | 针对低分辨率图像优化的 RetinaFace 模型                   | [Github](https:\u002F\u002Fgithub.com\u002Fbiubug6\u002FPytorch_Retinaface)                         |\n| yolov5face_n_0.5_320x320(极速) | OnnxRuntime     | YOLOv5 小型人脸检测模型，设计轻量，适合快速推理                    | 无                                                                               |\n| yolov5face_m_640x640(极速)     | OnnxRuntime     | YOLOv5 中型人脸检测模型                  | 无                         |\n| UltraLightFastGenericFace(极速) | PyTorch     | 针对边缘计算设备设计的轻量人脸检测模型          | [Github](https:\u002F\u002Fgithub.com\u002FLinzaer\u002FUltra-Light-Fast-Generic-Face-Detector-1MB) |\n\n---\n\n**人脸识别模型(FaceRecognition)**\n\n\n| 模型名称                          | 引擎                  | 模型简介                                                                                 | 模型开源网站                                                                                 |\n|-------------------------------|---------------------|--------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------|\n| InsightFace_IR-SE50(高精度)      | PyTorch             | 这是对 ArcFace（论文）和 InsightFace（GitHub）的 PyTorch 重新实现                                   | [Github](https:\u002F\u002Fgithub.com\u002FTreB1eN\u002FInsightFace_Pytorch)  |\n| InsightFace_Mobilefacenet(极速) | PyTorch             | （轻量级）这是对 ArcFace（论文）和 InsightFace（GitHub）的 PyTorch 重新实现                              | [Github](https:\u002F\u002Fgithub.com\u002FTreB1eN\u002FInsightFace_Pytorch)  |\n| FaceNet                       | PyTorch             | 基于 PyTorch 的 Inception ResNet（V1）模型仓库                                                | [Github](https:\u002F\u002Fgithub.com\u002Ftimesler\u002Ffacenet-pytorch)  |\n| ElasticFace                   | PyTorch             | 基于 CVPRW2022 论文《ElasticFace: Elastic Margin Loss for Deep Face Recognition》实现的人脸识别模型 | [Github](https:\u002F\u002Fgithub.com\u002Ffdbtrs\u002FElasticFace) |\n| SeetaFace6              | C++                 | 中科视拓最新开放的开源免费的全栈人脸识别工具包           | [Github](https:\u002F\u002Fgithub.com\u002Fseetafaceengine\u002FSeetaFace6)     |\n| SphereFace-20A                | PyTorch+OnnxRuntime | SphereFace:Deep Hypersphere Embedding for Face Recognition        | [Github](https:\u002F\u002Fgithub.com\u002Fwy1iu\u002Fsphereface)     |\n| DREAM_IJBA_RES18              | OnnxRuntime | DREAM block for Pose-Robust Face Recognition                           | [Github](https:\u002F\u002Fgithub.com\u002Fpenincillin\u002FDREAM)     |\n| face.evoLVe                   | PyTorch | High-Performance Face Recognition Library based on PaddlePaddle & PyTorch                 | [Github](https:\u002F\u002Fgithub.com\u002FZhaoJ9014\u002Fface.evoLVe)     |\n| VGGFace2                      | PyTorch | PyTorch Face Recognizer based on 'VGGFace2: A dataset for recognising faces across pose and age'.      | [Github](https:\u002F\u002Fgithub.com\u002Fcydonia999\u002FVGGFace2-pytorch)     |\n\n\n**静态活体检测(RGB)模型（Silent face-anti-spoofing、FaceLivenessDetection）**\n\n| 模型名称      | 引擎             | 模型简介                    | 模型开源网站                                                               |\n|-----------|----------------|-------------------------|----------------------------------------------------------------------|\n| MiniVision| OnnxRuntime    | 小视科技的静默活体检测             | [Github](https:\u002F\u002Fgithub.com\u002Fminivision-ai\u002FSilent-Face-Anti-Spoofing) |\n| IIC_FL(cv_manual_face-liveness_flrgb) | OnnxRuntime | 阿里通义工作室人脸活体检测模型-RGB   | [魔塔](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002Fiic\u002Fcv_manual_face-liveness_flrgb\u002Ffeedback)                 |\n| SeetaFace6 | C++            | 中科视拓最新开放的开源免费的全栈人脸识别工具包 | [Github](https:\u002F\u002Fgithub.com\u002Fseetafaceengine\u002FSeetaFace6)              |\n\n\n**人脸表情识别模型(FacialExpressionRecognition、fer)**\n\n支持功能：\n- 支持识别7种表情：neutral（中性）、happy（高兴）、sad（悲伤）、surprise（惊讶）、fear（恐惧）、disgust（厌恶）、anger（愤怒）\n\n| 模型名称     | 引擎      | 模型简介                     | 模型开源网站                                                               |\n|---------|-----------|--------------------------|----------------------------------------------------------------------|\n| DensNet121 | PyTorch| FaceLib的densnet121表情识别模型 | [Github](https:\u002F\u002Fgithub.com\u002Fsajjjadayobi\u002FFaceLib\u002F) |\n| FrEmotion| OnnxRuntime    | FaceRecognition-LivenessDetection-Javascript      | [Github](https:\u002F\u002Fgithub.com\u002FFaceplugin-ltd\u002FFaceRecognition-LivenessDetection-Javascript)                 |\n\n\n**人脸属性识别模型(GenderDetection、AgeDetection、EyeClosenessDetection、FacePoseEstimation)**\n\n支持功能：\n- 性别检测\n- 年龄检测\n- 闭眼检测\n- 人脸姿态检测\n- 戴口罩检测\n\n| 模型名称       | 模型简介                     | 模型开源网站                                                               |\n|------------|--------------------------|----------------------------------------------------------------------|\n| SeetaFace6 | 中科视拓最新开放的开源免费的全栈人脸识别工具包 | [Github](https:\u002F\u002Fgithub.com\u002Fseetafaceengine\u002FSeetaFace6)              |\n\n\n**人脸质量评估模型(FaceQualityAssessment)**\n\n支持功能：\n- 亮度评估\n- 清晰度评估\n- 完整度评估\n- 姿态评估\n- 遮挡评估\n\n| 模型名称       | 模型简介                     | 模型开源网站                                                               |\n|------------|--------------------------|----------------------------------------------------------------------|\n| SeetaFace6 | 中科视拓最新开放的开源免费的全栈人脸识别工具包 | [Github](https:\u002F\u002Fgithub.com\u002Fseetafaceengine\u002FSeetaFace6)              |\n\n\n---\n\n#### 图像分类模型(CLS)\n\n**YOLO 系列**\n\n| 模型名称        | 引擎             | 模型简介       | 模型开源网站                                                               |\n|-------------|----------------|------------|----------------------------------------------------------------------|\n| YOLOV11-cls | OnnxRuntime | 最流行的图像分类模型 | [Github](https:\u002F\u002Fdocs.ultralytics.com\u002Fzh\u002Fmodels\u002F)                 |\n| YOLOV8-cls      | OnnxRuntime            | 最流行的图像分类模型 | [Github](https:\u002F\u002Fdocs.ultralytics.com\u002Fzh\u002Fmodels\u002F)              |\n\n\n#### 目标检测模型\n\n**YOLO 系列**\n\n| 模型名称    | 引擎             | 模型简介                    | 模型开源网站                                                               |\n|---------|----------------|-------------------------|----------------------------------------------------------------------|\n| YOLOV12 | OnnxRuntime    | 最流行的目标检测模型              | [Github](https:\u002F\u002Fdocs.ultralytics.com\u002Fzh\u002Fmodels\u002F) |\n| YOLOV11 | OnnxRuntime | 最流行的目标检测模型     | [Github](https:\u002F\u002Fdocs.ultralytics.com\u002Fzh\u002Fmodels\u002F)                 |\n| YOLOV8  | OnnxRuntime            | 最流行的目标检测模型 | [Github](https:\u002F\u002Fdocs.ultralytics.com\u002Fzh\u002Fmodels\u002F)              |\n\n**Tensorflow系列**\n\n仅测试了以下Tensorflow目标检测模型\n\n| 模型名称    | 引擎          | 模型简介           | 模型开源网站                                                               |\n|---------|-------------|----------------|----------------------------------------------------------------------|\n| EfficientDet | Tensorflow  | Tensorflow目标检测 | [Github](https:\u002F\u002Fgithub.com\u002Ftensorflow\u002Fmodels\u002Fblob\u002Fmaster\u002Fresearch\u002Fobject_detection\u002Fg3doc\u002Ftf2_detection_zoo.md) |\n| SSD MobileNet V2 | Tensorflow | Tensorflow目标检测     | [Github](https:\u002F\u002Fgithub.com\u002Ftensorflow\u002Fmodels\u002Fblob\u002Fmaster\u002Fresearch\u002Fobject_detection\u002Fg3doc\u002Ftf2_detection_zoo.md)                 |\n| Faster RCNN Inception Resnet V2  | Tensorflow | Tensorflow目标检测     | [Github](https:\u002F\u002Fgithub.com\u002Ftensorflow\u002Fmodels\u002Fblob\u002Fmaster\u002Fresearch\u002Fobject_detection\u002Fg3doc\u002Ftf2_detection_zoo.md)              |\n\n**SSD 系列**\n\n| 模型名称 | 引擎               | 骨干网络 | 输入尺寸 | \u003Cdiv style=\"width: 60pt\">训练数据集\u003C\u002Fdiv> | 精度（mAP） | \u003Cdiv style=\"width: 50pt\">推理速度\u003C\u002Fdiv> | \u003Cdiv style=\"width: 150pt\">适用场景\u003C\u002Fdiv>|\n| :-------- |------------------| ------------- | ----------- |--------------------------------------| -------------|-------------------------------------| -------------|\n|SSD_300_RESNET5| PyTorch          | ResNet‑50 | 300×300 | COCO                                 | 中等 | 快                                   | 精度需求一般|\n|SSD_512_RESNET50_V1_VOC| PyTorch | ResNet‑50 | 512×512 | Pascal VOC                           | 稍高 | 中等                                  | 精度优先、可接受略低速度的场景|\n|SSD_512_VGG16_ATROUS_COCO| MXNet | VGG‑16 | 512×512 | COCO                                 | 较高 | 中等                                  | 通用场景；对小目标有一定提升|\n|SSD_300_VGG16_ATROUS_VOC| MXNet | VGG‑16 | 300×300 | Pascal VOC                           | 中等偏上 | 快                                   | VOC 数据集同类任务；资源受限时使用|\n|SSD_512_MOBILENET1_VOC| MXNet | MobileNet‑1.0 | 512×512 | Pascal VOC                           | 中等 | 快                                   | 嵌入式\u002F移动端设备；算力和内存都很有限|\n\n---\n\n#### 语义分割模型\n\n\n| 模型名称    | 引擎      | 模型简介                    | 模型开源网站 |\n|---------|---------|-------------------------|--------|\n| DeepLabv3 | PyTorch | DeepLabv3 是一种图像分割模型，可以把图片里的每个像素分类出来              | 无      |\n---\n\n#### 实例分割模型\n\n\n| 模型名称        | 引擎      | 模型简介                               | 模型开源网站     |\n|-------------|---------|------------------------------------|------------|\n| YOLOV8-SEG  | OnnxRuntime | Ultralytics在COCO 数据集 上训练的模型        | [Github](https:\u002F\u002Fdocs.ultralytics.com\u002Fzh\u002Ftasks\u002Fsegment\u002F) |\n| YOLOV11-SEG | OnnxRuntime | Ultralytics在COCO 数据集 上训练的模型 |  [Github](https:\u002F\u002Fdocs.ultralytics.com\u002Fzh\u002Ftasks\u002Fsegment\u002F)        |\n| Mask R-CNN | MXNet | Mask R-CNN 是一种在目标检测基础上，同时为每个物体生成像素级分割区域的深度学习模型 | 无          |\n\n\n#### CLIP模型(Connecting text and images)\n\n\n| 模型名称        | 引擎          | 模型简介               | 模型开源网站     |\n|-------------|-------------|--------------------|------------|\n| clip-vit-base-patch32  | PyTorch     | openai的图片及文本特征提取模型 | [Github](https:\u002F\u002Fgithub.com\u002Fopenai\u002FCLIP) |\n\n---\n\n#### OBB旋转框目标检测模型\n\n| 模型名称        | 引擎      | 模型简介                           | 模型开源网站     |\n|-------------|---------|--------------------------------|------------|\n| YOLOV11-OBB | OnnxRuntime | Ultralytics在DOTAv1 数据集 上训练的模型、通过引入一个额外的角度来更准确地定位图像中的对象 | [Github](https:\u002F\u002Fdocs.ultralytics.com\u002Fzh\u002Ftasks\u002Fsegment\u002F) |\n---\n\n#### 零样本目标检测模型\n\n| 模型名称        | 引擎      | 模型简介                           | 模型开源网站                                                   |\n|-------------|---------|--------------------------------|----------------------------------------------------------|\n| YOLOv8s-worldv2 | PyTorch | 可根据描述性文本检测图像中的任何物体 | [官网](https:\u002F\u002Fdocs.ultralytics.com\u002Fzh\u002Fmodels\u002Fyolo-world\u002F) |\n| owlv2-base-patch16 | PyTorch | OWLv2是一种多模态模型，通过结合CLIP的骨干和ViT样的Transformer，实现零样本文本对象检测| [官网](https:\u002F\u002Fhuggingface.co\u002Fgoogle\u002Fowlv2-base-patch16) |\n---\n\n#### 行人检测模型\n\n| 模型名称        | 引擎      | 模型开源网站     |\n|-------------|---------|-----|\n| YOLOV8_PERSON | OnnxRuntime | [Github](https:\u002F\u002Fgithub.com\u002FYapaLab\u002Fyolo-face) |\n\n---\n\n#### 人类动作识别模型\n\n| 模型名称        | 引擎      | \n|-------------|---------|\n| VIT_BASE_PATCH16 | PyTorch | \n| INCEPTIONV3_KINETICS400 | OnnxRuntime | \n| INCEPTIONV1_KINETICS400 | OnnxRuntime | \n| RESNET_V1B_KINETICS400 | OnnxRuntime | \n---\n\n#### 姿态估计模型\n\n\n| 模型名称         | 引擎          | 模型开源网站                                                   |\n|--------------|-------------|----------------------------------------------------------|\n| YOLO11N-POSE | OnnxRuntime | [Github](https:\u002F\u002Fdocs.ultralytics.com\u002Fzh\u002Ftasks\u002Fpose\u002F) |\n| YOLO8N-POSE  | OnnxRuntime | [Github](https:\u002F\u002Fdocs.ultralytics.com\u002Fzh\u002Ftasks\u002Fpose\u002F) |\n| SIMPLE_POSE | MXNet       | 无                 |\n---\n\n#### OCR 模型\n\n支持功能：\n- 支持简体中文、繁体中文、英文、日文四种主要语言\n- 手写、竖版、拼音、生僻字\n- 方向矫正\n\n**文本检测模型**\n\n| 模型名称                | 模型简介 | 模型开源网站                                                                                                       |\n| ------------| ------------------- |--------------------------------------------------------------------------------------------------------------|\n| PP-OCRv5_server_det | 服务端文本检测模型，精度更高，适合在性能较好的服务器上部署         | [Github](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleOCR\u002Fblob\u002Fmain\u002Fdocs\u002Fversion3.x\u002Falgorithm\u002FPP-OCRv5\u002FPP-OCRv5.md) |\n| PP-OCRv5_mobile_det | 轻量文本检测模型，效率更高，适合在端侧设备部署         | [Github](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleOCR\u002Fblob\u002Fmain\u002Fdocs\u002Fversion3.x\u002Falgorithm\u002FPP-OCRv5\u002FPP-OCRv5.md) |\n| PP-OCRv4_server_det | 服务端文本检测模型，精度更高，适合在性能较好的服务器上部署         | [Github](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleOCR\u002Fblob\u002Fmain\u002Fdocs\u002Fversion3.x\u002Falgorithm\u002FPP-OCRv5\u002FPP-OCRv5.md) |\n| PP-OCRv4_mobile_det | 轻量文本检测模型，效率更高，适合在端侧设备部署         | [Github](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleOCR\u002Fblob\u002Fmain\u002Fdocs\u002Fversion3.x\u002Falgorithm\u002FPP-OCRv5\u002FPP-OCRv5.md) |\n\n**文本识别模型**\n\n| 模型名称                | 模型简介                                                                                                                 | 模型开源网站                                                                                                       |\n| ------------|----------------------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------------------------|\n| PP-OCRv5_server_rec | （服务端）致力于以单一模型高效、精准地支持简体中文、繁体中文、英文、日文四种主要语言，以及手写、竖版、拼音、生僻字等复杂文本场景的识别。在保持识别效果的同时，兼顾推理速度和模型鲁棒性，为各种场景下的文档理解提供高效、精准的技术支撑。 | [Github](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleOCR\u002Fblob\u002Fmain\u002Fdocs\u002Fversion3.x\u002Falgorithm\u002FPP-OCRv5\u002FPP-OCRv5.md) |\n| PP-OCRv5_mobile_rec | （轻量）致力于以单一模型高效、精准地支持简体中文、繁体中文、英文、日文四种主要语言，以及手写、竖版、拼音、生僻字等复杂文本场景的识别。在保持识别效果的同时，兼顾推理速度和模型鲁棒性，为各种场景下的文档理解提供高效、精准的技术支撑。  | [Github](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleOCR\u002Fblob\u002Fmain\u002Fdocs\u002Fversion3.x\u002Falgorithm\u002FPP-OCRv5\u002FPP-OCRv5.md) |\n| PP-OCRv4_server_rec | （服务端）推理精度高，可以部署在多种不同的服务器上                                                                                                    | [Github](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleOCR\u002Fblob\u002Fmain\u002Fdocs\u002Fversion3.x\u002Falgorithm\u002FPP-OCRv5\u002FPP-OCRv5.md) |\n| PP-OCRv4_mobile_rec | （轻量） 效率更高，适合在端侧设备部署                                                                                                  | [Github](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleOCR\u002Fblob\u002Fmain\u002Fdocs\u002Fversion3.x\u002Falgorithm\u002FPP-OCRv5\u002FPP-OCRv5.md) |\n\n\n**文本方向分类模型(cls)**\n\n| 模型名称                | 模型简介                         | 模型开源网站     |\n| ------------|------------------------------|------------|\n| ch_ppocr_mobile_v2.0_cls   | 原始分类器模型，对检测到的文本行文字角度分类       | [Github](https:\u002F\u002Fpaddlepaddle.github.io\u002FPaddleOCR\u002Flatest\u002Fen\u002Fversion2.x\u002Fppocr\u002Fmodel_list.html?h=models+list#13-multilingual-detection-model) |\n| PP_LCNET_X0_25   | （轻量）基于PP-LCNet_x0_25的文本行分类模型 | [Github](https:\u002F\u002Fpaddlepaddle.github.io\u002FPaddleOCR\u002Fv3.1.0\u002Fversion3.x\u002Fmodule_usage\u002Ftextline_orientation_classification.html) |\n| PP_LCNET_X1_0   | 基于PP-LCNet_x1_0的文本行分类模型      | [Github](https:\u002F\u002Fpaddlepaddle.github.io\u002FPaddleOCR\u002Fv3.1.0\u002Fversion3.x\u002Fmodule_usage\u002Ftextline_orientation_classification.html) |\n\n\n**表格结构识别(Table Structure Recognition)**\n\n| 模型名称                | 模型简介                         | 模型开源网站     |\n| ------------|------------------------------|------------|\n| SLANet   | 该模型通过轻量级骨干 PP-LCNet、CSP-PAN 融合与 SLA Head 解码，有效提升表格结构识别的精度与速度。       | [Github](https:\u002F\u002Fpaddlepaddle.github.io\u002FPaddleOCR\u002Fv3.1.0\u002Fversion3.x\u002Fmodule_usage\u002Ftable_structure_recognition.html#_3) |\n| SLANet_plus   | （增强版）该模型通过轻量级骨干 PP-LCNet、CSP-PAN 融合与 SLA Head 解码，有效提升表格结构识别的精度与速度。 | [Github](https:\u002F\u002Fpaddlepaddle.github.io\u002FPaddleOCR\u002Fv3.1.0\u002Fversion3.x\u002Fmodule_usage\u002Ftable_structure_recognition.html#_3) |\n\n\n**车牌检测模型(License Plate Detection)**\n\n| 模型名称    | 模型简介                     | 模型开源网站     |\n|---------|--------------------------|------------|\n| YOLOV5  | 基于YOLOV5训练，支持12种中文车牌     | [Github](https:\u002F\u002Fgithub.com\u002Fwe0091234\u002FChinese_license_plate_detection_recognition) |\n| yolov7-lite-t | （超小型模型）YOLOv7-Lite 架构的轻量级车牌检测模型 | [Github](https:\u002F\u002Fgithub.com\u002Fwe0091234\u002FChinese_license_plate_detection_recognition) |\n| yolov7-lite-s  | YOLOv7-Lite 架构的轻量级车牌检测模型 | [Github](https:\u002F\u002Fgithub.com\u002Fwe0091234\u002FChinese_license_plate_detection_recognition) |\n\n\n**车牌识别模型(License Plate Recognition)**\n\n| 模型名称   | 模型简介       | 模型开源网站     |\n|--------|------------|------------|\n| PLATE_REC_CRNN | CRNN中文字符识别 | [Github](https:\u002F\u002Fgithub.com\u002FSierkinhane\u002FCRNN_Chinese_Characters_Rec) |\n\n\n---\n\n#### 机器翻译模型\n\n支持功能\n- 200多语言互相翻译\n\n| 模型名称          | 模型简介                                    | 模型官网                                          |\n|---------------|-----------------------------------------|-----------------------------------------------|\n| NLLB-200      | Meta AI 开发的一个先进的单一多语言机器翻译模型             | [Github](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Ffairseq\u002Ftree\u002Fnllb) |\n| OPUS_MT_ZH_EN | Helsinki-NLP团队开发的中英翻译模型，基于Transformer架构 | [huggingface](https:\u002F\u002Fhuggingface.co\u002FHelsinki-NLP\u002Fopus-mt-zh-en) |\n| OPUS_MT_EN_ZH | Helsinki-NLP团队开发的英中翻译模型，基于Transformer架构 | [huggingface](https:\u002F\u002Fhuggingface.co\u002FHelsinki-NLP\u002Fopus-mt-en-zh) |\n\n---\n\n#### 语音识别模型(ASR)\n\n这里仅介绍模型的开源项目，每个开源项目通常包含多个具体模型，本文不逐一列出。\n\n| 模型名称    | 模型简介                                                                    | 模型官网                                          |\n|---------|-------------------------------------------------------------------------|-----------------------------------------------|\n| Whisper | OpenAI 开源的通用语音识别（ASR）模型，支持多语言转写和翻译，具有较高的识别精度，尤其在嘈杂环境中表现良好，适合离线和批量音频处理。  | [Github](https:\u002F\u002Fgithub.com\u002Fggml-org\u002Fwhisper.cpp) |\n| Vosk    | 一个轻量级离线语音识别工具包，支持多种语言和平台（包括移动端与嵌入式设备），可在低资源环境中运行，适合实时语音识别场景。            | [Github](https:\u002F\u002Fgithub.com\u002Falphacep\u002Fvosk-api) |\n| sherpa-onnx    | Sherpa-ONNX 是一个基于 ONNX Runtime 的ASR 及 TTS 推理框架 | [Github](https:\u002F\u002Fgithub.com\u002Fk2-fsa\u002Fsherpa-onnx) |\n\n#### 语音合成模型(TTS)\n\n这里仅介绍模型的开源项目，每个开源项目通常包含多个具体模型，本文不逐一列出。\n\n| 模型名称    | 模型简介                                                                    | 模型官网                                          |\n|---------|-------------------------------------------------------------------------|-----------------------------------------------|\n| sherpa-onnx    | Sherpa-ONNX 是一个基于 ONNX Runtime 的ASR 及 TTS 推理框架 | [Github](https:\u002F\u002Fgithub.com\u002Fk2-fsa\u002Fsherpa-onnx) |\n\n\n---\n\n## 🙏 鸣谢\n\n本项目在开发过程中借鉴或使用了以下优秀开源项目，特此致谢：\n\n- **[Deep Java Library](https:\u002F\u002Fdocs.djl.ai)**\n- **[AIAS](https:\u002F\u002Fgitee.com\u002Fmymagicpower\u002FAIAS)**\n\n## 联系方式\n\n如您在使用过程中有任何问题、建议，或希望进行技术交流与合作，欢迎添加微信与我联系，并加入用户交流群。\n\n- **微信**: deng775747758 （请备注：SmartJavaAI）\n- **Email**: 775747758@qq.com\n\n\n🚀 **如果这个项目对你有帮助，别忘了点个 Star ⭐！你的支持是我持续优化升级的动力！** ❤️\n\n## 献代码的步骤\n\n1、在Gitee或者Github\u002FGitcode上fork项目到自己的repo\n\n2、把fork过去的项目也就是你的项目clone到你的本地\n\n3、修改代码（记得一定要修改dev分支）\n\n4、commit后push到自己的库（dev分支）\n\n5、登录Gitee或Github\u002FGitcode在你首页可以看到一个 pull request 按钮，点击它，填写一些说明信息，然后提交即可。\n\n6、等待维护者合并\n\n\n","\u003Cp align=\"center\">\n\t\u003Ca href=\"https:\u002F\u002Fgitee.com\u002Fdengwenjie\u002FSmartJavaAI\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_7b1674d92858.png\" width=\"45%\">\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n\t\u003Cstrong>🍬Java轻量级、免费、离线AI工具箱，致力于帮助Java开发者零门槛使用AI算法模型\u003C\u002Fstrong>\u003Cbr>\n\t\u003Cem>像Hutool一样简单易用的Java AI工具箱\u003C\u002Fem>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n\t👉 \u003Ca href=\"http:\u002F\u002Fsmartjavaai.cn\u002F\">http:\u002F\u002Fsmartjavaai.cn\u002F\u003C\u002Fa> 👈\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n\t\u003Ca target=\"_blank\" href=\"https:\u002F\u002Fcentral.sonatype.com\u002Fartifact\u002Fink.numberone\u002Fsmartjavaai-all\">\n\t\t\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fmaven-central\u002Fv\u002Fink.numberone\u002Fsmartjavaai-all.svg?label=Maven%20Central\" \u002F>\n\t\u003C\u002Fa>\n\t\u003Ca target=\"_blank\" href=\"https:\u002F\u002Flicense.coscl.org.cn\u002FMulanPSL2\">\n\t\t\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002F:license-MulanPSL2-blue.svg\" \u002F>\n\t\u003C\u002Fa>\n\t\u003Ca target=\"_blank\" href=\"https:\u002F\u002Fwww.oracle.com\u002Fjava\u002Ftechnologies\u002Fjavase\u002Fjavase-jdk11-downloads.html\">\n\t\t\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FJDK-8+-green.svg\" \u002F>\n\t\u003C\u002Fa>\n\t\u003Ca target=\"_blank\" href='https:\u002F\u002Fgitee.com\u002Fdengwenjie\u002FSmartJavaAI\u002Fstargazers'>\n\t\t\u003Cimg src='https:\u002F\u002Fgitee.com\u002Fdengwenjie\u002FSmartJavaAI\u002Fbadge\u002Fstar.svg?theme=gvp' alt='star'\u002F>\n\t\u003C\u002Fa>\n    \u003Ca target=\"_blank\" href='https:\u002F\u002Fgithub.com\u002Fgeekwenjie\u002FSmartJavaAI'>\n\t\t\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fgeekwenjie\u002FSmartJavaAI.svg?style=social\" alt=\"github star\"\u002F>\n\t\u003C\u002Fa>\n    \u003Ca target=\"_blank\" href='https:\u002F\u002Fgitcode.com\u002Fgeekwenjie\u002FSmartJavaAI'>\n\t\t\u003Cimg src=\"https:\u002F\u002Fgitcode.com\u002Fgeekwenjie\u002FSmartJavaAI\u002Fstar\u002Fbadge.svg\" alt=\"gitcode star\"\u002F>\n\t\u003C\u002Fa>\n\u003C\u002Fp>\n\n-------------------------------------------------------------------------------\n\n[**开发文档**](http:\u002F\u002Fdoc.smartjavaai.cn)\n\n-------------------------------------------------------------------------------\n\n## 📚简介\n\nSmartJavaAI是专为JAVA 开发者打造的一个功能丰富、开箱即用的 JAVA AI算法工具包，致力于帮助JAVA开发者零门槛使用各种AI算法模型，开发者无需深入了解底层实现，即可轻松在 Java 代码中调用人脸识别、目标检测、OCR 等功能。底层支持包括基于 DJL (Deep Java Library) 封装的深度学习模型，以及通过 JNI 接入的 C++\u002FPython 算法，兼容多种主流深度学习框架如 PyTorch、TensorFlow、ONNX、Paddle 等，屏蔽复杂的模型部署与调用细节，开发者无需了解 AI 底层实现即可直接在 Java 项目中集成使用，后续将持续扩展更多算法，目标是构建一个“像 Hutool 一样简单易用”的 JAVA AI 通用工具箱\n\n\n## 📱 SmartJavaAI Android 商业版\n\n**SmartJavaAI 现已支持 Android 移动端！**\n\n如果您有移动端离线人脸识别的需求，我们推出了基于 SmartJavaAI 的 Android SDK 及演示 APP。\n\n* 🚀 **核心能力**：毫秒级离线人脸检测、比对、注册与 1:N 搜索。\n* 📦 **开箱即用**：提供标准 SDK 接口与完整 Demo APK。\n* 💼 **商业授权**：Android 版本为商业授权版本。\n\n👉 **[点击查看 Android 版演示截图、APK 下载及获取方式](.\u002Fandroid.md)**\n\n\n\n\n## 🚀  能力展示\n\n\u003Cdiv align=\"center\">\n  \u003Ctable>      \n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>人脸检测(Face Detection)\u003C\u002Fp>   \n         - 5点人脸关键点定位 \u003Cbr>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_b7bef1e9213b.jpg\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>          \n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>人脸比对1：1\u003Cbr>(Face Recognition)\u003C\u002Fp>\n          - 人脸对齐 \u003Cbr>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_1ad32ecad370.jpg\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>  \n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>人证核验\u003Cbr>(Face ID Verification)\u003C\u002Fp>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_4705f0af7f4e.png\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>人脸比对1：N\u003Cbr>(Face Recognition)\u003C\u002Fp>  \n          - 人脸对齐 \u003Cbr>\n          - 人脸注册 \u003Cbr>\n          - 人脸库查询\u003Cbr>\n          - 人脸库删除\u003Cbr>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_d6da131ba71e.png\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>  \n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>人脸属性检测\u003C\u002Fp>  \n          - 性别检测(GenderDetection) \u003Cbr>\n          - 年龄检测(AgeDetection) \u003Cbr>\n          - 口罩检测(Face Mask Detection)\u003Cbr>\n          - 眼睛状态检测(EyeClosenessDetection)\u003Cbr>\n          - 脸部姿态检测(FacePoseEstimation)\u003Cbr>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_dd58ea3870a1.jpg\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr> \n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>活体检测\u003Cbr>(FaceLivenessDetection)\u003C\u002Fp>  \n          - 图片和视频活体检测 \u003Cbr>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_cb8e0e0e26d8.jpg\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr> \n  \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>人脸表情识别\u003Cbr>(FacialExpressionRecognition)\u003C\u002Fp>  \n          - 7种表情检测 \u003Cbr>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_ddc5672e65a7.jpg\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr> \n  \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>图像分类\u003Cbr>(Image Classification)\u003C\u002Fp>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_8db1a28d8f6f.png\" height = \"300px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n   \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>目标检测(Object Detection)\u003C\u002Fp>\n          - 视频流目标检测：rtsp、摄像头、视频文件等 \u003Cbr>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_f4626a6dc3b9.jpg\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>语义分割\u003Cbr>(Semantic Segmentation)\u003C\u002Fp>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_dc8269d7099b.png\" height = \"300px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>实例分割\u003Cbr>(Instance Segmentation)\u003C\u002Fp>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_f6bdee3c5410.png\" height = \"300px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>自定义目标训练+检测\u003Cbr>(Object Detection)\u003C\u002Fp>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_5c2903a269bc.jpg\" height = \"300px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>行人检测(Person Detection)\u003C\u002Fp>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_7e9eb097b85b.png\" height = \"300px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>人类动作识别\u003Cbr>(Action Recognition)\u003C\u002Fp>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_d2ba527bdd77.jpg\" height = \"300px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>OBB旋转框检测\u003Cbr>(Oriented Bounding Boxes Object Detection)\u003C\u002Fp>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_bc19a77dd9e1.jpg\" height = \"200px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>零样本目标检测\u003Cbr>(ZeroShot Object Detection)\u003C\u002Fp>\n      - YOLO-World 模型 \u003Cbr>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_41cd1e4a7c6b.png\" height = \"200px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr.\n  \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>姿态估计\u003Cbr>(Pose Estimation)\u003C\u002Fp>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_47b919d9bc1e.png\" height = \"300px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr.\n    \u003Ctr>\n      \u003Ctd>\n        \u003Cdiv align=\"left\">\n          \u003Cp>OCR文字识别\u003Cbr>(Text Recognition)\u003C\u002Fp>\n          - 支持任意角度文字识别 \u003Cbr>\n          - 支持印刷体识别 \u003Cbr>\n          - 支持手写字识别\u003Cbr>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd>     \n      \u003Ctd>\n        \u003Cdiv align=\"center\">\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_1f55ef36354f.png\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv>\n      \u003C\u002Ftd.\n  \u003Ctr.\n      \u003Ctd.\n        \u003Cdiv align=\"left.\n          \u003Cp>OCR文字识别\n          - 表格识别\u003Cbr>(Table Structure Recognition) \u003Cbr>\n        \u003C\u002Fdiv.\n      \u003C\u002Ftd.     \n      \u003Ctd.\n        \u003Cdiv align=\"center.\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_d1683e7358cd.jpg\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv.\n      \u003C\u002Ftd.\n    \u003C\u002Ftr.\n    \u003Ctr.\n      \u003Ctd.\n        \u003Cdiv align=\"left.\n          \u003Cp>车牌识别\u003Cbr>(License Plate Recognition)\n          - 单层\u002F双层检测 \u003Cbr>\n          - 车牌颜色识别 \u003Cbr>\n        \u003C\u002Fdiv.\n      \u003C\u002Ftd.     \n      \u003Ctd.\n        \u003Cdiv align=\"center.\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_cf0ae7834564.jpg\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv.\n      \u003C\u002Ftd.\n    \u003C\u002Ftr.\n  \u003Ctr.\n      \u003Ctd.\n        \u003Cdiv align=\"left.\n          \u003Cp>身份证识别\u003Cbr>(IDCard Recognition)\n          - 正面识别 \u003Cbr>\n        \u003C\u002Fdiv.\n      \u003C\u002Ftd.     \n      \u003Ctd.\n        \u003Cdiv align=\"center.\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_f3396855bc44.png\" width=\"500px\"\u002F>\n        \u003Cpre align=\"left\">{\n      \"name\": \"小氧\",\n      \"gender\": \"女\",\n      \"ethnicity\": \"汉\",\n      \"idNumber\": \"430602200010108888\",\n      \"birthday\": \"2000-10-10\",\n      \"address\": \"湖南省岳阳市岳阳楼区金鄂中路456号\"\n    }\u003C\u002Fpre>\n      \u003C\u002Fdiv.\n    \u003C\u002Ftr.\n  \u003Ctr.\n      \u003Ctd.\n        \u003Cdiv align=\"left.\n          \u003Cp>身份证识别\u003Cbr>(IDCard Recognition)\n          - 反面识别 \u003Cbr>\n        \u003C\u002Fdiv.\n      \u003C\u002Ftd.     \n      \u003Ctd.\n        \u003Cdiv align=\"center.\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_edd3b97fd4f7.png\" width=\"500px\"\u002F>\n        \u003Cpre align=\"left\">{\"issuingAuthority\":\"杭州市公安局江干分局\",\"validFrom\":\"2015-11-05\",\"validTo\":\"2025-11-05\"}\u003C\u002Fpre>\n      \u003C\u002Fdiv.\n    \u003C\u002Ftr.\n    \u003Ctr.\n      \u003Ctd.\n        \u003Cdiv align=\"left.\n          \u003Cp>机器翻译\u003Cbr>(Machine Translation)\n          - 200多种语言互相翻译\n        \u003C\u002Fdiv.\n      \u003C\u002Ftd.     \n      \u003Ctd.\n        \u003Cdiv align=\"center.\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_792d10ddb7cc.png\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv.\n      \u003C\u002Ftd.\n    tr.\n    \u003Ctr.\n      \u003Ctd.\n        \u003Cdiv align=\"left.\n          \u003Cp>语音识别\u003Cbr>(Speech Recognition)\n          - 支持100种语言\u003Cbr>\n          - 支持实时语音识别\n        \u003C\u002Fdiv.\n      \u003C\u002Ftd.     \n      \u003Ctd.\n        \u003Cdiv align=\"center.\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_1e33803119e8.png\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv.\n      \u003C\u002Ftd.\n  tr.\n      \u003Ctd.\n        \u003Cdiv align=\"left.\n          \u003Cp>语音合成(ASR)\n        \u003C\u002Fdiv.\n      \u003C\u002Ftd.     \n      \u003Ctd.\n        \u003Cdiv align=\"center.\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_a4a89acb9ee3.jpg\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv.\n      \u003C\u002Ftd.\n    tr.\n  tr.\n      \u003Ctd.\n        \u003Cdiv align=\"left.\n          \u003Cp>CLIP\n          - 文搜图 \u003Cbr>\n          - 图搜图 \u003Cbr>\n          - 图搜文\u003Cbr>\n        \u003C\u002Fdiv.\n      \u003C\u002Ftd.     \n      \u003Ctd.\n        \u003Cdiv align=\"center.\n        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_cd320c0bc9a8.png\" width = \"400px\"\u002F>\n        \u003C\u002Fdiv.\n      \u003C\u002Ftd.\n    tr.\n  \u003C\u002Ftable>\n\u003C\u002Fdiv>\n\n## 🚀 SmartJavaAI 解决了什么问题？\n\n针对 Java 开发者在集成智能算法时常见的两大痛点：\n\n- 🐍 主流AI深度学习框架（PyTorch\u002FTensorFlow）的Python生态与Java工程体系割裂\n\n- ⚙️ 现有AI集成方案分散杂乱，封装不统一，使用门槛高，不易直接服务于 Java 业务开发\n\n我们实现了：\n\n✅ **开箱即用** - 两行代码即可调用算法\n\n✅ **支持多种深度学习引擎** - Pytorch、Tensorflow、MXNet、ONNX Runtime\n\n✅ **功能丰富** - 当前支持人脸识别、目标检测、OCR、NLP 等多个 AI 领域任务，构建全面的智能算法体系。\n\n✅ **跨平台兼容** - 支持Windows\u002FLinux\u002FmacOS系统（x86 & ARM架构）\n\n\n\n## 📌 支持功能\n\n- **人脸识别**\n  - 人脸检测：人脸区域检测、5点人脸关键点定位\n  - 人脸识别：人脸512维特征提取、人脸对齐、1:1 人脸比对、1:N 人脸识别\n  - 人脸库：人脸注册、更新、查询、删除(支持向量数据库milvus\u002Fsqlite)\n  - 人脸属性检测：性别、年龄、口罩、眼睛状态、脸部姿态\n  - 静默活体检测：图片、视频活体检测\n  - 人脸表情识别：7种表情识别\n  - 人脸质量评估：亮度评估、清晰度评估、完整度评估、姿态评估、遮挡评估\n- **图像分类**\n  - 支持多种主流模型：集成 YOLOv8、YOLOv11 等分类模型\n  - 支持自定义模型加载：可无缝加载并部署用户自行训练的分类模型\n- **目标检测**\n  - 支持多种主流模型：集成 YOLOv5、YOLOv8、YOLOv11、YOLOv12、Tensorflow Object Detection 等目标检测模型\n  - 支持自定义模型加载：可无缝加载并部署用户自行训练的目标检测模型\n  - 集成行人检测模型\n- **语义分割**\n  - 集成DeepLabV3模型\n- **实例分割**\n  - 集成YOLOv8-seg、YOLOv11-seg、Mask R-CNN等模型\n- **OBB旋转框目标检测**\n  - 集成YOLOv11-obb模型\n- **动作识别**\n  - 支持KINETICS400数据集中400个人类动作识别\n- **姿态估计**\n  - 集成YOLOv8-pose、YOLOv11-pose等模型\n- **零样本目标检测**\n  - 集成YOLOv8s_worldv2、owlv2_base_patch16模型\n- **CLIP**\n  - 支持提取图片及文本特征\n  - 支持文搜图、图搜文、图搜图\n- **OCR文字识别**\n  - 支持PaddleOCR 3.0模型：集成最新PP-OCRv5、PP-OCRv4、表格结构识别模型(SLANet_plus)、文本行方向分类模型\n  - 支持任意角度识别，方向校准\n  - 支持通用文字识别，通用手写字识别\n  - 支持表格识别\n  - 支持中文车牌识别：单层\u002F双层检测，颜色识别，支持12种中文车牌\n  - 支持身份证识别：支持身份证正反面字段提取、方向矫正与结构化解析\n- **机器翻译**\n  - 集成NLLB-200模型：支持200+语言互相翻译\n- **语音识别(ASR)**\n  - 集成openai的whisper模型：支持100种语言\n  - 集成vosk语音识别\n  - 集成sherpa-onnx语音识别\n- **语音合成(TTS)**\n  - 集成sherpa-onnx：支持中文、方言、粤语、英文、德语等多种语言\n\n\n## 🌟 AI集成方式对比\n\n| 方案                | 技术特点                                                                 | 优点                                                              | 缺点                                            |\n|---------------------|--------------------------------------------------------------------------|-------------------------------------------------------------------|-----------------------------------------------|\n| **OpenCV**         | 传统图像处理方案                                                        | ✅ 提供java接口\u003Cbr>✅ 轻量级部署\u003Cbr>✅ 社区资源丰富                 | ❌ 基于传统算法精度低(60%-75%)\u003Cbr>❌ 需本地安装环境             |\n| &zwnj;**商业闭源SDK（如虹软等）**&zwnj;       | 商业级闭源解决方案                                                      | ✅ 开箱即用\u003Cbr>✅ 提供完整文档和SDK\u003Cbr>✅ 支持离线活体检测      | ❌ 免费版需年度授权更新\u003Cbr>❌ 商业授权费用高\u003Cbr>❌ 代码不可控          |\n| &zwnj;**云API(阿里云)**&zwnj;   | SaaS化云端服务                                                          | ✅ 零部署成本\u003Cbr>✅ 支持高并发\u003Cbr>✅ 自带模型迭代        | ❌ 网络延迟风险(200-800ms)\u003Cbr>❌ 按调用量计费\u003Cbr>❌ 有数据安全风险  |\n| &zwnj;**Python混合调用**&zwnj;  | 跨语言调用方案                                                          | ✅ 可集成PyTorch\u002FTF等框架\u003Cbr>✅ 支持自定义算法\u003Cbr>✅ 识别精度高  | ❌ 需维护双语言环境\u003Cbr>❌ 进程通信性能损耗(30%+)\u003Cbr>❌ 异常处理复杂度翻倍 |\n| &zwnj;**JNI\u002FJNA**&zwnj;         | 跨语言底层调用方案      | ✅ 直接调用 C\u002FC++ 高性能算法库\u003Cbr>✅ 支持调用各种原生成熟库\u003Cbr>✅ 可封装成通用工具Jar | ❌ 开发成本高，JNI更复杂\u003Cbr>❌ 跨平台兼容性差                       |\n| &zwnj;**DJL框架**&zwnj;         | 深度学习框架                                                            | ✅ 纯Java实现\u003Cbr>✅ 支持主流深度学习框架\u003Cbr>✅ 可加载预训练模型(99%+)   | ❌ 需掌握DL知识\u003Cbr>❌ 需处理模型加载、预处理、后处理等复杂技术细节         |\n| &zwnj;**SmartJavaAI**&zwnj;       | java深度学习工具包                                                            | ✅ 支持主流深度学习框架\u003Cbr>✅ 提供丰富、开箱即用API\u003Cbr>✅ 上手简单，单一Jar包集成 | 无                                             |\n\n\n\n## 🛠️包含组件\n\n| 模块                    | 介绍                        |\n|-----------------------|---------------------------|\n| common                | 基础通用模块，封装了公共功能，供各算法模块共享使用 |\n| bom                   | 依赖管理模块                    |\n| face                  | 人脸功能模块                    |\n| vision                | 通用视觉模块(目标检测等功能)           |\n| ocr       | OCR文字识别模块                 |\n| translate | 机器翻译模块                    |\n| speech    | 语音功能模块，包含 ASR 和 TTS       |\n\n可以根据需求对每个模块单独引入，也可以通过引入`all`方式引入所有模块。\n\n-------------------------------------------------------------------------------\n\n\n## SmartJavaAI 架构图\n\n \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_readme_771239a53145.png\" width = \"600px\"\u002F>\n\n-------------------------------------------------------------------------------\n\n## 📦 安装\n\n\n### 1、环境要求\n\n- Java 版本：**JDK 8或更高版本**\n- 操作系统：Windows 64 位 \u002F Linux \u002F macOS M1\n- CPU架构：x86_64、ARM64（aarch64）\n\n### 2、Maven\n\n在项目的 `pom.xml` 的 `dependencies` 中可以一次性引入全部功能（如下所示）。\n\n⚠️ **注意：不推荐直接引入全部依赖**，更推荐根据实际需求，按功能模块单独引入，避免引入不必要的包。\n\n详细引入方式请查看 [文档](http:\u002F\u002Fdoc.smartjavaai.cn\u002Finstall.html)、或查看[示例代码](https:\u002F\u002Fgitee.com\u002Fdengwenjie\u002FSmartJavaAI\u002Ftree\u002Fmaster\u002Fexamples)\n\n```xml\n\u003Cdependency>\n    \u003CgroupId>cn.smartjavaai\u003C\u002FgroupId>\n    \u003CartifactId>all\u003C\u002FartifactId>\n    \u003Cversion>1.1.2\u003C\u002Fversion>\n\u003C\u002Fdependency>\n```\n\n### 3、完整示例代码\n\n[示例代码](https:\u002F\u002Fgitee.com\u002Fdengwenjie\u002FSmartJavaAI\u002Ftree\u002Fmaster\u002Fexamples)\n\n本项目在 `examples` 文件夹下提供了多个示例工程，用于演示各功能模块的使用方法：\n\n* `face-example`：人脸检测、人脸识别等功能示例\n* `vision-example`：通用视觉检测示例：目标检测、目标分割、图像分类等\n* `ocr-example`：OCR文字识别、车牌识别等功能示例\n* `translate-example`：机器翻译功能示例\n* `speech-example`：语音识别、语音合成功能示例\n\n#### 运行方式\n\n如果你只想运行某个示例，请按以下方式操作：\n\n1. 打开 IDEA（或你喜欢的 IDE）\n2. 选择 **“Open”**，然后仅导入 `examples` 目录下对应的示例项目，例如：\n\n   ```\n   examples\u002Fface-example\n   ```\n3. IDEA 会自动识别并加载依赖。若首次导入，请等待 Maven 下载依赖完成。\n4. 请从我们提供的 百度网盘 中下载模型及其附带文件，并在示例代码中将模型路径修改为您本地的实际路径。\n5. 可通过查看每个 Java 文件顶部的注释了解对应功能，或参考 README 文件中对各 Java 文件功能的说明，运行相应的测试方法进行体验。\n\n\n\n### 4、文档地址\n\n[开发文档](http:\u002F\u002Fdoc.smartjavaai.cn)\n\n### 5、模型简介及下载\n\n[模型下载](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1dlZxWEMULnaietMDUJh38g?pwd=1234)\n\n#### 人脸模块\n\n**人脸检测模型(FaceDetection、FaceLandmarkExtraction)**\n\n| 模型名称                         | 引擎          | 模型简介                         | 模型开源网站                                                                          |\n|------------------------------|-------------|------------------------------|---------------------------------------------------------------------------------|\n| MTCNN(均衡)                    | PyTorch     | 使用最广泛的模型之一，经典多阶段人脸检测，速度与精度均衡 | [Github](https:\u002F\u002Fgithub.com\u002Ftimesler\u002Ffacenet-pytorch)                           |\n| SeetaFace6(均衡模型)                 | C++         | 中科视拓最新开放的开源免费的全栈人脸识别工具包      | [Github](https:\u002F\u002Fgithub.com\u002Fseetafaceengine\u002FSeetaFace6)                         |\n| RetinaFace(高精度)              | PyTorch     | 基于单阶段检测的多尺度人脸检测                    | [Github](https:\u002F\u002Fgithub.com\u002Fbiubug6\u002FPytorch_Retinaface)                         |\n| RetinaFace_1080x720(高精度)     | OnnxRuntime | 针对高分辨率图像优化的 RetinaFace 模型                    | [Github](https:\u002F\u002Fgithub.com\u002Fbiubug6\u002FPytorch_Retinaface)                         |\n| RetinaFace_640x640(高精度)      | OnnxRuntime     | 针对低分辨率图像优化的 RetinaFace 模型                   | [Github](https:\u002F\u002Fgithub.com\u002Fbiubug6\u002FPytorch_Retinaface)                         |\n| yolov5face_n_0.5_320x320(极速) | OnnxRuntime     | YOLOv5 小型人脸检测模型，设计轻量，适合快速推理                    | 无                                                                               |\n| yolov5face_m_640x640(极速)     | OnnxRuntime     | YOLOv5 中型人脸检测模型                  | 无                         |\n| UltraLightFastGenericFace(极速) | PyTorch     | 针对边缘计算设备设计的轻量人脸检测模型          | [Github](https:\u002F\u002Fgithub.com\u002FLinzaer\u002FUltra-Light-Fast-Generic-Face-Detector-1MB) |\n\n---\n\n**人脸识别模型(FaceRecognition)**\n\n\n| 模型名称                          | 引擎                  | 模型简介                                                                                 | 模型开源网站                                                                                 |\n|-------------------------------|---------------------|--------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------|\n| InsightFace_IR-SE50(高精度)      | PyTorch             | 这是对 ArcFace（论文）和 InsightFace（GitHub）的 PyTorch 重新实现                                   | [Github](https:\u002F\u002Fgithub.com\u002FTreB1eN\u002FInsightFace_Pytorch)  |\n| InsightFace_Mobilefacenet(极速) | PyTorch             | （轻量级）这是对 ArcFace（论文）和 InsightFace（GitHub）的 PyTorch 重新实现                              | [Github](https:\u002F\u002Fgithub.com\u002FTreB1eN\u002FInsightFace_Pytorch)  |\n| FaceNet                       | PyTorch             | 基于 PyTorch 的 Inception ResNet（V1）模型仓库                                                | [Github](https:\u002F\u002Fgithub.com\u002Ftimesler\u002Ffacenet-pytorch)  |\n| ElasticFace                   | PyTorch             | 基于 CVPRW2022 论文《ElasticFace: Elastic Margin Loss for Deep Face Recognition》实现的人脸识别模型 | [Github](https:\u002F\u002Fgithub.com\u002Ffdbtrs\u002FElasticFace) |\n| SeetaFace6              | C++                 | 中科视拓最新开放的开源免费的全栈人脸识别工具包           | [Github](https:\u002F\u002Fgithub.com\u002Fseetafaceengine\u002FSeetaFace6)     |\n| SphereFace-20A                | PyTorch+OnnxRuntime | SphereFace:Deep Hypersphere Embedding for Face Recognition        | [Github](https:\u002F\u002Fgithub.com\u002Fwy1iu\u002Fsphereface)     |\n| DREAM_IJBA_RES18              | OnnxRuntime | DREAM block for Pose-Robust Face Recognition                           | [Github](https:\u002F\u002Fgithub.com\u002Fpenincillin\u002FDREAM)     |\n| face.evoLVe                   | PyTorch | High-Performance Face Recognition Library based on PaddlePaddle & PyTorch                 | [Github](https:\u002F\u002Fgithub.com\u002FZhaoJ9014\u002Fface.evoLVe)     |\n| VGGFace2                      | PyTorch | PyTorch Face Recognizer based on 'VGGFace2: A dataset for recognising faces across pose and age'.      | [Github](https:\u002F\u002Fgithub.com\u002Fcydonia999\u002FVGGFace2-pytorch)     |\n\n\n**静态活体检测(RGB)模型（Silent face-anti-spoofing、FaceLivenessDetection）**\n\n| 模型名称      | 引擎             | 模型简介                    | 模型开源网站                                                               |\n|-----------|----------------|-------------------------|----------------------------------------------------------------------|\n| MiniVision| OnnxRuntime    | 小视科技的静默活体检测             | [Github](https:\u002F\u002Fgithub.com\u002Fminivision-ai\u002FSilent-Face-Anti-Spoofing) |\n| IIC_FL(cv_manual_face-liveness_flrgb) | OnnxRuntime | 阿里通义工作室人脸活体检测模型-RGB   | [魔塔](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002Fiic\u002Fcv_manual_face-liveness_flrgb\u002Ffeedback)                 |\n| SeetaFace6 | C++            | 中科视拓最新开放的开源免费的全栈人脸识别工具包 | [Github](https:\u002F\u002Fgithub.com\u002Fseetafaceengine\u002FSeetaFace6)              |\n\n\n**人脸表情识别模型(FacialExpressionRecognition、fer)**\n\n支持功能：\n- 支持识别7种表情：neutral（中性）、happy（高兴）、sad（悲伤）、surprise（惊讶）、fear（恐惧）、disgust（厌恶）、anger（愤怒）\n\n| 模型名称     | 引擎      | 模型简介                     | 模型开源网站                                                               |\n|---------|-----------|--------------------------|----------------------------------------------------------------------|\n| DensNet121 | PyTorch| FaceLib的densnet121表情识别模型 | [Github](https:\u002F\u002Fgithub.com\u002Fsajjjadayobi\u002FFaceLib\u002F) |\n| FrEmotion| OnnxRuntime    | FaceRecognition-LivenessDetection-Javascript      | [Github](https:\u002F\u002Fgithub.com\u002FFaceplugin-ltd\u002FFaceRecognition-LivenessDetection-Javascript)                 |\n\n\n**人脸属性识别模型(GenderDetection、AgeDetection、EyeClosenessDetection、FacePoseEstimation)**\n\n支持功能：\n- 性别检测\n- 年龄检测\n- 闭眼检测\n- 人脸姿态检测\n- 戴口罩检测\n\n| 模型名称       | 模型简介                     | 模型开源网站                                                               |\n|------------|--------------------------|----------------------------------------------------------------------|\n| SeetaFace6 | 中科视拓最新开放的开源免费的全栈人脸识别工具包 | [Github](https:\u002F\u002Fgithub.com\u002Fseetafaceengine\u002FSeetaFace6)              |\n\n\n**人脸质量评估模型(FaceQualityAssessment)**\n\n支持功能：\n- 亮度评估\n- 清晰度评估\n- 完整度评估\n- 姿态评估\n- 遮挡评估\n\n| 模型名称       | 模型简介                     | 模型开源网站                                                               |\n|------------|--------------------------|----------------------------------------------------------------------|\n| SeetaFace6 | 中科视拓最新开放的开源免费的全栈人脸识别工具包 | [Github](https:\u002F\u002Fgithub.com\u002Fseetafaceengine\u002FSeetaFace6)              |\n\n\n---\n\n#### 图像分类模型(CLS)\n\n**YOLO 系列**\n\n| 模型名称        | 引擎             | 模型简介       | 模型开源网站                                                               |\n|-------------|----------------|------------|----------------------------------------------------------------------|\n| YOLOV11-cls | OnnxRuntime | 最流行的图像分类模型 | [Github](https:\u002F\u002Fdocs.ultralytics.com\u002Fzh\u002Fmodels\u002F)                 |\n| YOLOV8-cls      | OnnxRuntime            | 最流行的图像分类模型 | [Github](https:\u002F\u002Fdocs.ultralytics.com\u002Fzh\u002Fmodels\u002F)              |\n\n\n#### 目标检测模型\n\n**YOLO 系列**\n\n| 模型名称    | 引擎             | 模型简介                    | 模型开源网站                                                               |\n|---------|----------------|-------------------------|----------------------------------------------------------------------|\n| YOLOV12 | OnnxRuntime    | 最流行的目标检测模型              | [Github](https:\u002F\u002Fdocs.ultralytics.com\u002Fzh\u002Fmodels\u002F) |\n| YOLOV11 | OnnxRuntime | 最流行的目标检测模型     | [Github](https:\u002F\u002Fdocs.ultralytics.com\u002Fzh\u002Fmodels\u002F)                 |\n| YOLOV8  | OnnxRuntime            | 最流行的目标检测模型 | [Github](https:\u002F\u002Fdocs.ultralytics.com\u002Fzh\u002Fmodels\u002F)              |\n\n**Tensorflow系列**\n\n仅测试了以下Tensorflow目标检测模型\n\n| 模型名称    | 引擎          | 模型简介           | 模型开源网站                                                               |\n|---------|-------------|----------------|----------------------------------------------------------------------|\n| EfficientDet | Tensorflow  | Tensorflow目标检测 | [Github](https:\u002F\u002Fgithub.com\u002Ftensorflow\u002Fmodels\u002Fblob\u002Fmaster\u002Fresearch\u002Fobject_detection\u002Fg3doc\u002Ftf2_detection_zoo.md) |\n| SSD MobileNet V2 | Tensorflow | Tensorflow目标检测     | [Github](https:\u002F\u002Fgithub.com\u002Ftensorflow\u002Fmodels\u002Fblob\u002Fmaster\u002Fresearch\u002Fobject_detection\u002Fg3doc\u002Ftf2_detection_zoo.md)                 |\n| Faster RCNN Inception Resnet V2  | Tensorflow | Tensorflow目标检测     | [Github](https:\u002F\u002Fgithub.com\u002Ftensorflow\u002Fmodels\u002Fblob\u002Fmaster\u002Fresearch\u002Fobject_detection\u002Fg3doc\u002Ftf2_detection_zoo.md)              |\n\n**SSD 系列**\n\n| 模型名称 | 引擎               | 骨干网络 | 输入尺寸 | \u003Cdiv style=\"width: 60pt\">训练数据集\u003C\u002Fdiv> | 精度（mAP） | \u003Cdiv style=\"width: 50pt\">推理速度\u003C\u002Fdiv> | \u003Cdiv style=\"width: 150pt\">适用场景\u003C\u002Fdiv>|\n| :-------- |------------------| ------------- | ----------- |--------------------------------------| -------------|-------------------------------------| -------------|\n|SSD_300_RESNET5| PyTorch          | ResNet‑50 | 300×300 | COCO                                 | 中等 | 快                                   | 精度需求一般|\n|SSD_512_RESNET50_V1_VOC| PyTorch | ResNet‑50 | 512×512 | Pascal VOC                           | 稍高 | 中等                                  | 精度优先、可接受略低速度的场景|\n|SSD_512_VGG16_ATROUS_COCO| MXNet | VGG‑16 | 512×512 | COCO                                 | 较高 | 中等                                  | 通用场景；对小目标有一定提升|\n|SSD_300_VGG16_ATROUS_VOC| MXNet | VGG‑16 | 300×300 | Pascal VOC                           | 中等偏上 | 快                                   | VOC 数据集同类任务；资源受限时使用|\n|SSD_512_MOBILENET1_VOC| MXNet | MobileNet‑1.0 | 512×512 | Pascal VOC                           | 中等 | 快                                   | 嵌入式\u002F移动端设备；算力和内存都很有限|\n\n---\n\n#### 语义分割模型\n\n\n| 模型名称    | 引擎      | 模型简介                    | 模型开源网站 |\n|---------|---------|-------------------------|--------|\n| DeepLabv3 | PyTorch | DeepLabv3 是一种图像分割模型，可以把图片里的每个像素分类出来              | 无      |\n---\n\n#### 实例分割模型\n\n\n| 模型名称        | 引擎      | 模型简介                               | 模型开源网站     |\n|-------------|---------|------------------------------------|------------|\n| YOLOV8-SEG  | OnnxRuntime | Ultralytics在COCO 数据集 上训练的模型        | [Github](https:\u002F\u002Fdocs.ultralytics.com\u002Fzh\u002Ftasks\u002Fsegment\u002F) |\n| YOLOV11-SEG | OnnxRuntime | Ultralytics在COCO 数据集 上训练的模型 |  [Github](https:\u002F\u002Fdocs.ultralytics.com\u002Fzh\u002Ftasks\u002Fsegment\u002F)        |\n| Mask R-CNN | MXNet | Mask R-CNN 是一种在目标检测基础上，同时为每个物体生成像素级分割区域的深度学习模型 | 无          |\n\n\n#### CLIP模型(Connecting text and images)\n\n\n| 模型名称        | 引擎          | 模型简介               | 模型开源网站     |\n|-------------|-------------|--------------------|------------|\n| clip-vit-base-patch32  | PyTorch     | openai的图片及文本特征提取模型 | [Github](https:\u002F\u002Fgithub.com\u002Fopenai\u002FCLIP) |\n\n---\n\n#### OBB旋转框目标检测模型\n\n| 模型名称        | 引擎      | 模型简介                           | 模型开源网站     |\n|-------------|---------|--------------------------------|------------|\n| YOLOV11-OBB | OnnxRuntime | Ultralytics在DOTAv1 数据集 上训练的模型、通过引入一个额外的角度来更准确地定位图像中的对象 | [Github](https:\u002F\u002Fdocs.ultralytics.com\u002Fzh\u002Ftasks\u002Fsegment\u002F) |\n---\n\n#### 零样本目标检测模型\n\n| 模型名称        | 引擎      | 模型简介                           | 模型开源网站                                                   |\n|-------------|---------|--------------------------------|----------------------------------------------------------|\n| YOLOv8s-worldv2 | PyTorch | 可根据描述性文本检测图像中的任何物体 | [官网](https:\u002F\u002Fdocs.ultralytics.com\u002Fzh\u002Fmodels\u002Fyolo-world\u002F) |\n| owlv2-base-patch16 | PyTorch | OWLv2是一种多模态模型，通过结合CLIP的骨干和ViT样的Transformer，实现零样本文本对象检测| [官网](https:\u002F\u002Fhuggingface.co\u002Fgoogle\u002Fowlv2-base-patch16) |\n---\n\n#### 行人检测模型\n\n| 模型名称        | 引擎      | 模型开源网站     |\n|-------------|---------|-----|\n| YOLOV8_PERSON | OnnxRuntime | [Github](https:\u002F\u002Fgithub.com\u002FYapaLab\u002Fyolo-face) |\n\n---\n\n#### 人类动作识别模型\n\n| 模型名称        | 引擎      | \n|-------------|---------|\n| VIT_BASE_PATCH16 | PyTorch | \n| INCEPTIONV3_KINETICS400 | OnnxRuntime | \n| INCEPTIONV1_KINETICS400 | OnnxRuntime | \n| RESNET_V1B_KINETICS400 | OnnxRuntime | \n---\n\n#### 姿态估计模型\n\n\n| 模型名称         | 引擎          | 模型开源网站                                                   |\n|--------------|-------------|----------------------------------------------------------|\n| YOLO11N-POSE | OnnxRuntime | [Github](https:\u002F\u002Fdocs.ultralytics.com\u002Fzh\u002Ftasks\u002Fpose\u002F) |\n| YOLO8N-POSE  | OnnxRuntime | [Github](https:\u002F\u002Fdocs.ultralytics.com\u002Fzh\u002Ftasks\u002Fpose\u002F) |\n| SIMPLE_POSE | MXNet       | 无                 |\n---\n\n#### OCR 模型\n\n支持功能：\n- 支持简体中文、繁体中文、英文、日文四种主要语言\n- 手写、竖版、拼音、生僻字\n- 方向矫正\n\n**文本检测模型**\n\n| 模型名称                | 模型简介 | 模型开源网站                                                                                                       |\n| ------------| ------------------- |--------------------------------------------------------------------------------------------------------------|\n| PP-OCRv5_server_det | 服务端文本检测模型，精度更高，适合在性能较好的服务器上部署         | [Github](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleOCR\u002Fblob\u002Fmain\u002Fdocs\u002Fversion3.x\u002Falgorithm\u002FPP-OCRv5\u002FPP-OCRv5.md) |\n| PP-OCRv5_mobile_det | 轻量文本检测模型，效率更高，适合在端侧设备部署         | [Github](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleOCR\u002Fblob\u002Fmain\u002Fdocs\u002Fversion3.x\u002Falgorithm\u002FPP-OCRv5\u002FPP-OCRv5.md) |\n| PP-OCRv4_server_det | 服务端文本检测模型，精度更高，适合在性能较好的服务器上部署         | [Github](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleOCR\u002Fblob\u002Fmain\u002Fdocs\u002Fversion3.x\u002Falgorithm\u002FPP-OCRv5\u002FPP-OCRv5.md) |\n| PP-OCRv4_mobile_det | 轻量文本检测模型，效率更高，适合在端侧设备部署         | [Github](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleOCR\u002Fblob\u002Fmain\u002Fdocs\u002Fversion3.x\u002Falgorithm\u002FPP-OCRv5\u002FPP-OCRv5.md) |\n\n**文本识别模型**\n\n| 模型名称                | 模型简介                                                                                                                 | 模型开源网站                                                                                                       |\n| ------------|----------------------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------------------------|\n| PP-OCRv5_server_rec | （服务端）致力于以单一模型高效、精准地支持简体中文、繁体中文、英文、日文四种主要语言，以及手写、竖版、拼音、生僻字等复杂文本场景的识别。在保持识别效果的同时，兼顾推理速度和模型鲁棒性，为各种场景下的文档理解提供高效、精准的技术支撑。 | [Github](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleOCR\u002Fblob\u002Fmain\u002Fdocs\u002Fversion3.x\u002Falgorithm\u002FPP-OCRv5\u002FPP-OCRv5.md) |\n| PP-OCRv5_mobile_rec | （轻量）致力于以单一模型高效、精准地支持简体中文、繁体中文、英文、日文四种主要语言，以及手写、竖版、拼音、生僻字等复杂文本场景的识别。在保持识别效果的同时，兼顾推理速度和模型鲁棒性，为各种场景下的文档理解提供高效、精准的技术支撑。  | [Github](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleOCR\u002Fblob\u002Fmain\u002Fdocs\u002Fversion3.x\u002Falgorithm\u002FPP-OCRv5\u002FPP-OCRv5.md) |\n| PP-OCRv4_server_rec | （服务端）推理精度高，可以部署在多种不同的服务器上                                                                                                    | [Github](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleOCR\u002Fblob\u002Fmain\u002Fdocs\u002Fversion3.x\u002Falgorithm\u002FPP-OCRv5\u002FPP-OCRv5.md) |\n| PP-OCRv4_mobile_rec | （轻量） 效率更高，适合在端侧设备部署                                                                                                  | [Github](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleOCR\u002Fblob\u002Fmain\u002Fdocs\u002Fversion3.x\u002Falgorithm\u002FPP-OCRv5\u002FPP-OCRv5.md) |\n\n\n**文本方向分类模型(cls)**\n\n| 模型名称                | 模型简介                         | 模型开源网站     |\n| ------------|------------------------------|------------|\n| ch_ppocr_mobile_v2.0_cls   | 原始分类器模型，对检测到的文本行文字角度分类       | [Github](https:\u002F\u002Fpaddlepaddle.github.io\u002FPaddleOCR\u002Flatest\u002Fen\u002Fversion2.x\u002Fppocr\u002Fmodel_list.html?h=models+list#13-multilingual-detection-model) |\n| PP_LCNET_X0_25   | （轻量）基于PP-LCNet_x0_25的文本行分类模型 | [Github](https:\u002F\u002Fpaddlepaddle.github.io\u002FPaddleOCR\u002Fv3.1.0\u002Fversion3.x\u002Fmodule_usage\u002Ftextline_orientation_classification.html) |\n| PP_LCNET_X1_0   | 基于PP-LCNet_x1_0的文本行分类模型      | [Github](https:\u002F\u002Fpaddlepaddle.github.io\u002FPaddleOCR\u002Fv3.1.0\u002Fversion3.x\u002Fmodule_usage\u002Ftextline_orientation_classification.html) |\n\n\n**表格结构识别(Table Structure Recognition)**\n\n| 模型名称                | 模型简介                         | 模型开源网站     |\n| ------------|------------------------------|------------|\n| SLANet   | 该模型通过轻量级骨干 PP-LCNet、CSP-PAN 融合与 SLA Head 解码，有效提升表格结构识别的精度与速度。       | [Github](https:\u002F\u002Fpaddlepaddle.github.io\u002FPaddleOCR\u002Fv3.1.0\u002Fversion3.x\u002Fmodule_usage\u002Ftable_structure_recognition.html#_3) |\n| SLANet_plus   | （增强版）该模型通过轻量级骨干 PP-LCNet、CSP-PAN 融合与 SLA Head 解码，有效提升表格结构识别的精度与速度。 | [Github](https:\u002F\u002Fpaddlepaddle.github.io\u002FPaddleOCR\u002Fv3.1.0\u002Fversion3.x\u002Fmodule_usage\u002Ftable_structure_recognition.html#_3) |\n\n\n**车牌检测模型(License Plate Detection)**\n\n| 模型名称    | 模型简介                     | 模型开源网站     |\n|---------|--------------------------|------------|\n| YOLOV5  | 基于YOLOV5训练，支持12种中文车牌     | [Github](https:\u002F\u002Fgithub.com\u002Fwe0091234\u002FChinese_license_plate_detection_recognition) |\n| yolov7-lite-t | （超小型模型）YOLOv7-Lite 架构的轻量级车牌检测模型 | [Github](https:\u002F\u002Fgithub.com\u002Fwe0091234\u002FChinese_license_plate_detection_recognition) |\n| yolov7-lite-s  | YOLOv7-Lite 架构的轻量级车牌检测模型 | [Github](https:\u002F\u002Fgithub.com\u002Fwe0091234\u002FChinese_license_plate_detection_recognition) |\n\n\n**车牌识别模型(License Plate Recognition)**\n\n| 模型名称   | 模型简介       | 模型开源网站     |\n|--------|------------|------------|\n| PLATE_REC_CRNN | CRNN中文字符识别 | [Github](https:\u002F\u002Fgithub.com\u002FSierkinhane\u002FCRNN_Chinese_Characters_Rec) |\n\n\n---\n\n#### 机器翻译模型\n\n支持功能\n- 200多语言互相翻译\n\n| 模型名称          | 模型简介                                    | 模型官网                                          |\n|---------------|-----------------------------------------|-----------------------------------------------|\n| NLLB-200      | Meta AI 开发的一个先进的单一多语言机器翻译模型             | [Github](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Ffairseq\u002Ftree\u002Fnllb) |\n| OPUS_MT_ZH_EN | Helsinki-NLP团队开发的中英翻译模型，基于Transformer架构 | [huggingface](https:\u002F\u002Fhuggingface.co\u002FHelsinki-NLP\u002Fopus-mt-zh-en) |\n| OPUS_MT_EN_ZH | Helsinki-NLP团队开发的英中翻译模型，基于Transformer架构 | [huggingface](https:\u002F\u002Fhuggingface.co\u002FHelsinki-NLP\u002Fopus-mt-en-zh) |\n\n---\n\n#### 语音识别模型(ASR)\n\n这里仅介绍模型的开源项目，每个开源项目通常包含多个具体模型，本文不逐一列出。\n\n| 模型名称    | 模型简介                                                                    | 模型官网                                          |\n|---------|-------------------------------------------------------------------------|-----------------------------------------------|\n| Whisper | OpenAI 开源的通用语音识别（ASR）模型，支持多语言转写和翻译，具有较高的识别精度，尤其在嘈杂环境中表现良好，适合离线和批量音频处理。  | [Github](https:\u002F\u002Fgithub.com\u002Fggml-org\u002Fwhisper.cpp) |\n| Vosk    | 一个轻量级离线语音识别工具包，支持多种语言和平台（包括移动端与嵌入式设备），可在低资源环境中运行，适合实时语音识别场景。            | [Github](https:\u002F\u002Fgithub.com\u002Falphacep\u002Fvosk-api) |\n| sherpa-onnx    | Sherpa-ONNX 是一个基于 ONNX Runtime 的ASR 及 TTS 推理框架 | [Github](https:\u002F\u002Fgithub.com\u002Fk2-fsa\u002Fsherpa-onnx) |\n\n#### 语音合成模型(TTS)\n\n这里仅介绍模型的开源项目，每个开源项目通常包含多个具体模型，本文不逐一列出。\n\n| 模型名称    | 模型简介                                                                    | 模型官网                                          |\n|---------|-------------------------------------------------------------------------|-----------------------------------------------|\n| sherpa-onnx    | Sherpa-ONNX 是一个基于 ONNX Runtime 的ASR 及 TTS 推理框架 | [Github](https:\u002F\u002Fgithub.com\u002Fk2-fsa\u002Fsherpa-onnx) |\n\n\n---\n\n\n\n## 🙏 致谢\n\n本项目在开发过程中借鉴或使用了以下优秀开源项目，特此致谢：\n\n- **[Deep Java Library](https:\u002F\u002Fdocs.djl.ai)**\n- **[AIAS](https:\u002F\u002Fgitee.com\u002Fmymagicpower\u002FAIAS)**\n\n## 联系方式\n\n如您在使用过程中有任何问题、建议，或希望进行技术交流与合作，欢迎添加微信与我联系，并加入用户交流群。\n\n- **微信**: deng775747758 （请备注：SmartJavaAI）\n- **Email**: 775747758@qq.com\n\n\n🚀 **如果这个项目对你有帮助，别忘了点个 Star ⭐！你的支持是我持续优化升级的动力！** ❤️\n\n## 献代码的步骤\n\n1、在Gitee或者Github\u002FGitcode上fork项目到自己的repo\n\n2、把fork过去的项目也就是你的项目clone到你的本地\n\n3、修改代码（记得一定要修改dev分支）\n\n4、commit后push到自己的库（dev分支）\n\n5、登录Gitee或Github\u002FGitcode在你首页可以看到一个 pull request 按钮，点击它，填写一些说明信息，然后提交即可。\n\n6、等待维护者合并","# SmartJavaAI 快速上手指南\n\nSmartJavaAI 是一款专为 Java 开发者打造的轻量级、免费、离线 AI 工具箱。它屏蔽了底层复杂的模型部署细节（如 DJL、JNI、PyTorch、ONNX 等），让开发者能像使用 Hutool 一样简单地在项目中集成人脸识别、OCR、目标检测等 AI 能力。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **JDK 版本**：JDK 8 或更高版本（推荐 JDK 11+）。\n*   **构建工具**：Maven 3.6+ 或 Gradle。\n*   **操作系统**：Windows \u002F Linux \u002F macOS（支持 Android 移动端需单独获取商业版 SDK）。\n*   **硬件建议**：部分深度学习模型在 CPU 上可运行，但涉及视频流处理或高并发场景时，建议使用带有 NVIDIA GPU 的环境以获得更佳性能。\n\n## 2. 安装步骤\n\nSmartJavaAI 已发布至 Maven Central，您可以直接通过添加依赖进行安装。国内开发者如遇下载缓慢，可配置阿里云 Maven 镜像。\n\n### 2.1 配置 Maven 镜像（推荐国内用户）\n\n在 `~\u002F.m2\u002Fsettings.xml` 或项目的 `pom.xml` 中添加阿里云镜像源：\n\n```xml\n\u003Cmirrors>\n    \u003Cmirror>\n        \u003Cid>aliyunmaven\u003C\u002Fid>\n        \u003CmirrorOf>*\u003C\u002FmirrorOf>\n        \u003Cname>Aliyun Maven\u003C\u002Fname>\n        \u003Curl>https:\u002F\u002Fmaven.aliyun.com\u002Frepository\u002Fpublic\u003C\u002Furl>\n    \u003C\u002Fmirror>\n\u003C\u002Fmirrors>\n```\n\n### 2.2 添加项目依赖\n\n根据您的项目类型，选择引入全量包或按需引入模块。以下是引入全量包（包含所有算法模型）的方式：\n\n**Maven 项目 (`pom.xml`)：**\n\n```xml\n\u003Cdependency>\n    \u003CgroupId>ink.numberone\u003C\u002FgroupId>\n    \u003CartifactId>smartjavaai-all\u003C\u002FartifactId>\n    \u003Cversion>0.9.0\u003C\u002Fversion> \u003C!-- 请替换为最新版本号 -->\n\u003C\u002Fdependency>\n```\n\n**Gradle 项目 (`build.gradle`)：**\n\n```groovy\ndependencies {\n    implementation 'ink.numberone:smartjavaai-all:0.9.0' \u002F\u002F 请替换为最新版本号\n}\n```\n\n> **注意**：具体最新版本号请查看 [Maven Central](https:\u002F\u002Fcentral.sonatype.com\u002Fartifact\u002Fink.numberone\u002Fsmartjavaai-all) 或项目 Gitee 页面。\n\n## 3. 基本使用\n\nSmartJavaAI 的设计目标是“零门槛”调用。以下以**人脸检测**和**OCR 文字识别**为例，展示最简单的代码用法。\n\n### 3.1 人脸检测 (Face Detection)\n\n无需手动加载模型文件，工具类会自动初始化默认模型。\n\n```java\nimport ink.numberone.smartjavaai.face.FaceDetector;\nimport ink.numberone.smartjavaai.face.model.FaceInfo;\nimport java.util.List;\n\npublic class FaceDetectionDemo {\n    public static void main(String[] args) {\n        \u002F\u002F 初始化检测器（首次运行会自动下载\u002F加载模型）\n        FaceDetector detector = new FaceDetector();\n\n        \u002F\u002F 执行检测，传入图片路径\n        String imagePath = \"test_image.jpg\";\n        List\u003CFaceInfo> faces = detector.detect(imagePath);\n\n        \u002F\u002F 输出结果\n        if (faces.isEmpty()) {\n            System.out.println(\"未检测到人脸\");\n        } else {\n            System.out.println(\"检测到 \" + faces.size() + \" 张人脸\");\n            for (FaceInfo face : faces) {\n                System.out.println(\"位置：\" + face.getBoundingBox());\n                System.out.println(\"关键点：\" + face.getLandmarks());\n                \u002F\u002F 还可获取性别、年龄、口罩等属性（取决于具体调用方法）\n            }\n        }\n        \n        \u002F\u002F 释放资源\n        detector.close();\n    }\n}\n```\n\n### 3.2 通用 OCR 文字识别\n\n支持印刷体、手写体及任意角度文字识别。\n\n```java\nimport ink.numberone.smartjavaai.ocr.OcrEngine;\nimport ink.numberone.smartjavaai.ocr.model.OcrResult;\nimport java.util.List;\n\npublic class OcrDemo {\n    public static void main(String[] args) {\n        \u002F\u002F 初始化 OCR 引擎\n        OcrEngine ocrEngine = new OcrEngine();\n\n        String imagePath = \"text_image.png\";\n        \n        \u002F\u002F 执行识别\n        List\u003COcrResult> results = ocrEngine.recognize(imagePath);\n\n        \u002F\u002F 遍历结果\n        for (OcrResult result : results) {\n            System.out.println(\"识别文本：\" + result.getText());\n            System.out.println(\"置信度：\" + result.getConfidence());\n            System.out.println(\"坐标位置：\" + result.getBoxPoints());\n        }\n\n        ocrEngine.close();\n    }\n}\n```\n\n### 3.3 更多功能\n\nSmartJavaAI 还支持目标检测、车牌识别、身份证核验、语音识别\u002F合成、机器翻译等功能。所有功能均遵循类似的 `初始化 -> 调用方法 -> 获取结果` 模式。\n\n详细 API 文档及更多示例代码，请访问官方文档中心：[http:\u002F\u002Fdoc.smartjavaai.cn](http:\u002F\u002Fdoc.smartjavaai.cn)","某智慧园区安保团队正在开发一套本地化访客门禁系统，需在纯内网环境下实现毫秒级人脸核验与身份证比对，且严禁数据出域。\n\n### 没有 SmartJavaAI 时\n- **技术栈割裂**：Java 后端需通过 HTTP\u002FRPC 调用独立的 Python 算法服务，架构复杂且维护成本高，网络延迟导致识别响应超过 2 秒。\n- **部署门槛极高**：团队需手动配置 CUDA、PyTorch 环境及复杂的 C++ JNI 接口，非 AI 专业的后端开发人员难以上手，调试周期长达数周。\n- **离线能力缺失**：主流云 API 无法满足内网隔离要求，而自建模型缺乏活体检测与口罩识别等细粒度功能，存在被照片攻击的安全隐患。\n- **资源消耗巨大**：为维持独立算法服务，需额外占用多台服务器资源，显著增加了硬件采购与运维预算。\n\n### 使用 SmartJavaAI 后\n- **原生集成提速**：仅需在 Maven 引入依赖即可在 Java 代码中直接调用人脸识别与 OCR 功能，消除跨语言调用开销，端到端识别延迟降至 300 毫秒以内。\n- **零门槛落地**：屏蔽了底层深度学习框架（如 YOLOv8、InsightFace）的复杂性，后端开发者无需了解模型原理，三天内即可完成从 Demo 到生产环境的部署。\n- **全功能离线闭环**：内置活体检测、人证核验及口罩识别算法，所有计算均在本地完成，完美契合内网安全合规要求，杜绝数据泄露风险。\n- **轻量高效运行**：单应用进程即可承载所有 AI 能力，无需额外中间件服务，服务器资源占用减少 60%，大幅降低运营成本。\n\nSmartJavaAI 让 Java 开发者像使用 Hutool 一样简单地将顶尖 AI 算法嵌入业务系统，真正实现了企业级应用的“零门槛”智能化升级。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgeekwenjie_SmartJavaAI_7b1674d9.png","geekwenjie",null,"https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fgeekwenjie_c2a11ac6.jpg","https:\u002F\u002Fgithub.com\u002Fgeekwenjie",[81],{"name":82,"color":83,"percentage":84},"Java","#b07219",100,804,139,"2026-04-04T15:10:35","NOASSERTION","未说明",{"notes":91,"python":92,"dependencies":93},"该工具为纯 Java 库（Maven 中央仓库可用），旨在让 Java 开发者零门槛使用 AI。底层通过 DJL 封装或 JNI 调用 C++\u002FPython 算法，兼容多种深度学习框架，但开发者无需自行安装这些框架或配置 Python 环境。Android 端有独立的商业版 SDK。","无需 Python 环境（通过 JNI 接入 C++\u002FPython 算法，对 Java 开发者屏蔽底层依赖）",[94,95,96,97,98,99],"JDK 8+","DJL (Deep Java Library)","PyTorch (底层支持)","TensorFlow (底层支持)","ONNX (底层支持)","Paddle (底层支持)",[26,14,53,13,55],[102,103,104,105,106,107,108,109,110,111,112,113,114,115,116,117,118,119,120,121],"deep-learning","face-recognition","object-detection","ocr-recognition","face-attribute","face-comparison","face-detection","face-quality","landmark","pose-estimation","translation","silent-face-anti-spoofing","djl","yolov12","yolov8","table-structure-recognition","asr","clip","tts","android","2026-03-27T02:49:30.150509","2026-04-06T05:16:02.494851",[125,130,135,140],{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},9333,"人脸特征提取速度很慢（如耗时 2 秒），如何优化性能？","人脸检测涉及检测、对齐、特征提取等多个步骤及模型推理，首次调用因模型加载编译可能较慢，后续会大幅加快。优化建议如下：\n1. 利用 Java 多线程：在并发场景下使用线程池并行处理多张图像。\n2. 选择轻量模型：优先选用速度更快的模型。\n3. 关闭人脸对齐：若人脸角度较正，可跳过此步骤减少延迟。\n4. 使用 GPU 加速：部署支持 GPU 的环境显著提升推理速度。\n5. 若场景确定有人脸（如考勤），可直接调用识别接口输入裁剪后的人脸，跳过检测步骤。","https:\u002F\u002Fgithub.com\u002Fgeekwenjie\u002FSmartJavaAI\u002Fissues\u002F4",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},9334,"OCR 或活体检测等模型为什么只能调用一次，第二次调用就报错？","这通常是因为使用了 `try-with-resources` 语法（例如 `try (LivenessDetModel model = getModel()) {}`），该语法会在代码块结束时自动调用 `close()` 方法释放模型资源。\n解决方案：\n1. 若需复用模型：请避免使用 `try-with-resources` 语法，改为手动管理生命周期，在所有调用结束后统一调用 `close()` 释放资源。\n2. 若单次使用：确保所有模型相关调用都在 `try` 代码块内完成。","https:\u002F\u002Fgithub.com\u002Fgeekwenjie\u002FSmartJavaAI\u002Fissues\u002F3",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},9335,"使用自定义训练的 ONNX 模型（如 YOLOv11）时，报错提示输入维度不匹配（Expected: 28, Got: 640）怎么办？","错误信息 `ORT_INVALID_ARGUMENT - Got invalid dimensions` 表明输入图像的分辨率与模型训练时的分辨率不一致。\n解决方法：\n1. 检查模型训练时的输入尺寸（例如本例中模型期望 28x28）。\n2. 在调用检测前，必须将输入图像预处理（Resize）为模型要求的尺寸。\n3. 确保配置文件或代码中指定的输入参数与模型实际接受的维度一致，不能直接传入默认尺寸（如 640x640）的图像。","https:\u002F\u002Fgithub.com\u002Fgeekwenjie\u002FSmartJavaAI\u002Fissues\u002F8",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},9336,"切换 ONNX 模型后，获取到的仍然是旧模型，是什么原因？","这是 `ObjectDetectionModelFactory` 中 `closeAll` 方法的已知问题。该方法之前仅关闭了 DetectorModel 但未清空内部的 `modelMap`，导致再次通过 `getModel` 获取时仍返回基于旧配置名称缓存的模型实例。\n该问题已在 v1.0.24 版本中修复，升级到此版本即可解决。","https:\u002F\u002Fgithub.com\u002Fgeekwenjie\u002FSmartJavaAI\u002Fissues\u002F9",[146,151,156,161],{"id":147,"version":148,"summary_zh":149,"released_at":150},106713,"v1.1.2","1、新增身份证识别：支持正反面解析、支持方向矫正\r\n2、优化 OCR 内存管理，降低峰值内存占用\r\n","2026-03-29T10:19:33",{"id":152,"version":153,"summary_zh":154,"released_at":155},106714,"v1.1.1","1、优化视频目标检测\r\n2、修复 Vosk 中文识别结果乱码问题\r\n3、升级 Lombok 版本，修复编译报错\r\n4、修复 ONNX Runtime 相关问题\r\n5、修复 YOLOv11 目标检测枚举无法使用的问题\r\n6、新增支持通过 URL 创建 Image 的能力","2025-12-31T03:29:37",{"id":157,"version":158,"summary_zh":159,"released_at":160},106715,"v1.1.0","**【核心升级】** 升级 DJL 版本到 0.34.0  \r\n**【平台支持】** 新增对 Linux ARM64 架构的全面支持  \r\n**【通用视觉】** 集成零样本目标检测模型，扩展视觉能力  \r\n**【活体检测】** 优化视频检测流程，实现 Predictor 视频会话级复用  \r\n**【人脸识别】** SQLite 人脸查询线程池优化，提高查询效率  \r\n**【人脸识别】** 修复 Milvus 向量库下 listFaces 接口调用异常  \r\n","2025-11-26T11:09:03",{"id":162,"version":163,"summary_zh":164,"released_at":165},106716,"v1.0.27","## 🐣 新特性\r\n\r\n### 🧠 通用视觉\r\n\r\n* **集成 OpenAI CLIP 模型**，支持 *以图搜图*、*以文搜图*、*以图搜文* 等功能。\r\n* **新增 YOLO 图像分类模型**，增强视觉识别能力。\r\n\r\n### 🗣️ 语音识别 \u002F 语音合成\r\n\r\n* **集成 Sherpa TTS（语音合成）** 与 **ASR（语音识别）** 模块。\r\n\r\n  * 支持 **中文、粤语、方言、英文** 等多种语言的语音合成与识别。\r\n\r\n---\r\n\r\n## 🐞 问题修复\r\n\r\n### 🎯 目标检测\r\n\r\n* 修复部分 **视频流目标检测** 无法正常识别的问题。","2025-10-26T08:26:20"]