iOS_ML
iOS_ML 是一份专为 iOS 开发者精心整理的机器学习与人工智能资源清单。它主要解决了 AI 领域主流工具多基于 Python、Java 等语言,导致在 iOS 原生环境中难以直接应用或集成的痛点。通过汇聚大量使用 Objective-C、Swift、C/C++ 编写或易于移植到 iOS 平台的开源库,iOS_ML 帮助开发者轻松找到适合移动端的技术方案。
这份清单涵盖了从苹果官方的 Core ML 框架、通用机器学习算法库,到深度学习、计算机视觉、自然语言处理、语音识别及 OCR 等垂直领域的丰富资源。此外,它还提供了相关的 Web API、技术博客、学习书籍以及预训练模型索引,甚至包含线性代数、数据可视化等底层数学支持资料。
其独特亮点在于不仅罗列了工具,还详细标注了各库支持的算法类型、编程语言、开源协议及依赖管理方式,并特别关注了模型压缩与动态更新等移动端关键需求。无论是希望将智能功能嵌入 App 的移动端工程师,还是对边缘计算感兴趣的研究人员,都能在这里快速定位所需资源,高效开启 iOS 端的 AI 开发之旅。
使用场景
一家初创团队正在开发一款面向户外爱好者的 iOS 应用,希望利用手机摄像头实时识别沿途的植物种类,并完全在离线状态下运行以节省流量。
没有 iOS_ML 时
- 语言壁垒高:主流 AI 模型多由 Python 或 Java 编写,iOS 开发者难以直接将其集成到 Swift 或 Objective-C 项目中,被迫重写底层代码。
- 硬件性能瓶颈:缺乏针对 Apple 芯片优化的推理框架,导致植物识别过程卡顿严重,甚至造成设备发热和电量骤降。
- 资源筛选困难:面对海量的机器学习库,开发者无法快速分辨哪些支持 Core ML 格式或适合移动端部署,试错成本极高。
- 功能实现受限:由于缺少现成的计算机视觉(Computer Vision)和图像分类解决方案,团队不得不依赖云端 API,导致野外无网环境下功能瘫痪。
使用 iOS_ML 后
- 无缝集成开发:通过列表中筛选出的 Swift/C++ 兼容库及 coremltools 转换器,团队顺利将 Keras 训练的模型转为 Core ML 格式,直接嵌入 App。
- 端侧高效推理:借助列表中推荐的深度优化方案,模型充分利用 iPhone 的神经网络引擎,实现毫秒级植物识别且功耗极低。
- 精准资源定位:利用 iOS_ML 整理的分类目录,开发者迅速锁定了适用于移动端的预训练模型库(如 ModelZoo),大幅缩短研发周期。
- 完美离线体验:基于列表中的本地化机器学习方案,应用无需联网即可完成复杂的图像分析,彻底解决了户外场景的网络痛点。
iOS_ML 通过提供经过验证的 iOS 原生 AI 资源清单,帮助开发者跨越了从算法模型到移动端落地之间的技术与生态鸿沟。
运行环境要求
- iOS
- macOS
未说明 (主要依赖 Apple 硬件优化,部分库如 OpenCV/dlib 为 C++ 编写可调用 CPU/GPU)
未说明

快速开始
iOS 机器学习
最后更新:2018年1月12日。
为 iOS 开发者整理的资源列表,涵盖以下主题:
- Core ML
- 机器学习库
- 深度学习库
- 计算机视觉
- 自然语言处理
- 语音合成 (TTS) 和语音识别 (STT)
- 文本识别 (OCR)
- 其他人工智能
- 机器学习 Web API
- 开源机器学习应用
- 游戏 AI
- 其他相关领域
- iOS 机器学习博客
- 移动机器学习书籍
- GPU 计算博客
- 学习机器学习
- 其他列表
在人工智能相关领域中,大多数事实上的标准工具都是用对 iOS 不友好的语言编写的(如 Python/Java/R/Matlab),因此为你的 iOS 应用找到合适的技术可能会颇具挑战。
本列表主要包含用 Objective-C、Swift、C、C++、JavaScript 等语言编写的库,以及一些易于移植到 iOS 的其他语言实现。此外,我还添加了一些相关的 Web API、博客文章、视频和学习资料的链接。
资源按字母顺序或随机排列,顺序并不代表我的个人偏好或其他任何因素。有些资源非常出色,有些很棒,有些有趣,还有一些可以作为灵感来源。
祝您玩得开心!
欢迎在此处提交 Pull 请求 here。
Core ML
- coremltools 是一个 Python 包,包含了将一些流行的机器学习库转换为 Apple 格式的工具。
- Core ML 是 Apple 提供的一个用于在设备端进行推理的框架,针对 Apple 硬件进行了高度优化。
目前,通过 coremltools Python 包,CoreML 可以(部分地)兼容以下机器学习框架:
此外,还有一些第三方工具可以将以下框架中的模型转换为 CoreML 格式:
目前有许多整理好的预训练神经网络 Core ML 格式资源列表:[1]、[2]、[3]。
Core ML 目前尚不支持模型训练,不过你仍然可以在运行时从服务器下载新模型来替换现有模型。这里有一个示例,展示了如何操作。该示例使用了 MNIST GAN 的生成器部分作为 Core ML 模型。
通用机器学习库
| 库 | 算法 | 语言 | 许可证 | 代码 | 依赖管理器 |
|---|---|---|---|---|---|
| AIToolbox |
|
Swift | Apache 2.0 | ||
dlib |
|
C++ | Boost | GitHub | |
| FANN |
|
C++ | GNU LGPL 2.1 | GitHub | Cocoa Pods |
| lbimproved | k近邻和动态时间规整 | C++ | Apache 2.0 | GitHub | |
| MAChineLearning |
|
Objective-C | BSD 3条款 | GitHub | |
![]() MLKit |
|
Swift | MIT | GitHub | Cocoa Pods |
![]() Mendel |
进化/遗传算法 | Swift | ? | GitHub | |
| multilinear-math |
|
Swift | Apache 2.0 | GitHub | Swift Package Manager |
OpenCV |
|
C++ | 3条款BSD | GitHub | Cocoa Pods |
![]() Shark |
|
C++ | GNU LGPL | GitHub | Cocoa Pods |
![]() YCML |
|
Objective-C | GNU GPL 3.0 | GitHub | |
![]() Kalvar Lin的库 |
|
Objective-C | MIT | GitHub |
多层感知机实现:
- Brain.js - JS
- SNNeuralNet - Brain.js 的 Objective-C 移植版
- MLPNeuralNet - Objective-C,利用 Accelerate 框架
- Swift-AI - Swift
- SwiftSimpleNeuralNetwork - Swift
- ios-BPN-NeuralNetwork - Objective-C
- ios-Multi-Perceptron-NeuralNetwork - Objective-C
- ios-KRDelta - Objective-C
- ios-KRPerceptron - Objective-C
深度学习库:
设备端训练与推理
- Birdbrain - 基于 Metal 和 Accelerate 的 RNN 和前馈神经网络。尚未准备好用于生产环境。
- BrainCore - 用 Swift 编写的简单但快速的神经网络框架。它使用 Metal 框架以达到尽可能高的速度。支持 ReLU、LSTM、L2 等。
- Caffe - 一个以简洁、可读性和速度为核心开发的深度学习框架。GitHub。[BSD 许可证]
- iOS 移植版
- caffe-mobile - 另一个 iOS 移植版。
- C++ 示例:ImageNet 分类、特征提取
- Caffe iOS 示例
- Caffe2 - 一个跨平台框架,注重表达性、速度和模块化。
- Convnet.js - ConvNetJS 是由 Andrej Karpathy 开发的用于训练深度学习模型的 JavaScript 库。GitHub
- ConvNetSwift - Swift 移植版 [正在进行中]。
- Deep Belief SDK - Jetpac 的 iOS Deep Belief 图像识别框架的 SDK
- TensorFlow - 一个开源软件库,用于通过数据流图进行数值计算。图中的节点代表数学运算,而边则表示在这些节点之间传递的多维数据数组(张量)。灵活的架构允许你使用单一 API 将计算部署到台式机、服务器或移动设备上的一个或多个 CPU 或 GPU 上。
- iOS 示例
- 另一个示例
- Perfect-TensorFlow - TensorFlow 绑定到 Perfect(服务器端 Swift 框架)。仅包含 C TF API。
- tiny-dnn - 一个基于 C++11 的无依赖、仅头文件的深度学习框架。
- Torch 是一个科学计算框架,广泛支持机器学习算法。
深度学习:在设备上运行预训练模型
这些库不支持训练,因此你需要在其他 ML 框架中预先训练好模型。
- Bender - 用于构建快速神经网络的框架。支持 TensorFlow 模型。底层使用 Metal。
- Core ML
- DeepLearningKit - Memkite 开发的开源深度学习框架,适用于 Apple 的 tvOS、iOS 和 OS X。
- Espresso - 一个极简且高性能的并行神经网络框架,可在 iOS 上运行。
- Forge - 一个用于 Metal 的神经网络工具包。
- Keras.js - 在网页视图中运行 Keras 模型。
- KSJNeuralNetwork - 基于 BNNS 和 MPS 构建的神经网络推理库
- MXNet - MXNet 是一个为效率和灵活性而设计的深度学习框架。
- Quantized-CNN - 针对移动设备的压缩卷积神经网络
- WebDNN - 如果你希望在网页视图中运行深度学习模型,可以使用此库。提供三种模式:WebGPU 加速、WebAssembly 加速和纯 JS(CPU 上运行)。仅支持推理,不支持训练。
深度学习:低级操作库
- BNNS - 苹果基础神经网络子程序(BNNS)是一组函数,可用于使用先前获得的训练数据来实现和运行神经网络。
- MetalPerformanceShaders - 苹果提供的 GPU 卷积神经网络。
- MetalCNNWeights - 一个 Python 脚本,用于将 Inception v3 转换为 MPS 格式。
- MPSCNNfeeder - Keras 到 MPS 模型的转换工具。
- NNPACK - 多核 CPU 上神经网络的加速包。Prisma 使用 此库于其移动应用中。
- STEM - 用于机器学习的 Swift 张量引擎
深度学习:模型压缩
- TensorFlow 实现的 知识蒸馏 方法
- MobileNet-Caffe - Google MobileNets 的 Caffe 实现
- keras-surgeon - 用于修剪已训练的 Keras 模型。
计算机视觉
- ccv - 基于C语言的缓存核心计算机视觉库,一个现代化的计算机视觉库
- OpenCV – 开源计算机视觉库。[BSD]
- OpenFace – 一款最先进的开源工具,用于人脸特征点检测、头部姿态估计、面部动作单元识别以及视线估计。
- trackingjs – JavaScript中的目标跟踪
- Vision 是苹果公司提供的计算机视觉框架。
自然语言处理
- CoreLinguistics - 词性标注(HMM)、n-gram模型、朴素贝叶斯、IBM对齐模型。
- GloVe Swift软件包。词向量表示。
- NSLinguisticTagger
- Parsimmon
- Twitter text - Twitter文本处理库的Objective-C实现。该库包含提取用户名、提及标签、话题标签等方法——所有你可能需要的推文特定语法。
- 适用于Swift的Verbal Expressions,类似于面向人类的正则表达式。
- Word2Vec - Word2Vec深度学习算法的原始C语言实现。在iPhone上运行得非常流畅。
语音识别(TTS)与生成(STT)
- Kaldi-iOS框架 - 使用深度学习进行设备端语音识别。
- MVSpeechSynthesizer
- OpenEars™:适用于iPhone的免费语音识别和语音合成 - OpenEars™ 让你能够快速简便地为你的iPhone应用添加离线语音识别和合成语音/TTS功能。它使任何人都能在自己的应用中轻松实现统计语言模型和有限状态文法等先进语音用户界面技术的效果,而所需的工作量仅相当于创建一个NSArray或NSDictionary。
- TLSphinx,教程
文本识别(OCR)
- ocrad.js - JS OCR
- Tesseract
其他人工智能
- Axiomatic - Swift统一框架,用于逻辑编程。
- 用Swift构建你自己的Lisp
- Logician - Swift中的逻辑编程
- Swiftlog - 完全用Swift实现的简单Prolog-like语言。
机器学习Web API
- IBM Watson - 使用IBM Watson的语言、视觉、语音和数据API,在你的应用中启用认知计算功能。
- AlchemyAPI - 使用自然语言处理的语义文本分析API。现已成为IBM Watson的一部分。
- Microsoft Project Oxford
- Google Prediction Engine
- Google Translate API
- Google Cloud Vision API
- Amazon Machine Learning - Amazon ML是一种基于云的服务,专为开发者设计。它提供可视化工具来创建机器学习模型,并通过API获取预测结果。
- PredictionIO - 开源机器学习服务器,面向开发者和机器学习工程师。基于Apache Spark、HBase和Spray构建。
- Swift SDK
- Tapster iOS演示 - 该演示展示了如何使用PredictionIO Swift SDK将iOS应用与PredictionIO引擎集成,从而使你的移动应用更加有趣。
- 使用Swift与PredictionIO的教程
- Wit.AI - NLP API
- Yandex SpeechKit 俄语的语音合成和语音转文字。提供iOS SDK。
- Abbyy OCR SDK
- Clarifai - 图像描述的深度学习Web API。iOS入门项目
- MetaMind - 图像描述的深度学习Web API。
- Api.AI - 为应用程序、设备和网页构建智能语音交互界面
- CloudSight.ai - 深度学习Web API,用于细粒度的目标检测或整个屏幕的描述,包括自然语言的对象说明。Objective-C API客户端可用。
开源机器学习应用
深度学习
- DeepDreamer - Deep Dream 应用程序
- DeepDreamApp - Deep Dream Cordova 应用程序。
- Texture Networks,Lua 实现
- 前馈风格迁移,Lua 实现
- TensorFlow 的神经风格实现
- 腐蚀检测应用
- ios_camera_object_detection - 基于 TensorFlow 和 YOLO 模型的实时移动端目标检测可视化
- TensorFlow MNIST iOS 演示 - 在 iOS 上使用深度 MNIST 和 TensorFlow 入门
- 鼓手应用 使用 RNN 和 Swift
- What'sThis
- enVision - 用于 iOS 视觉任务的深度学习模型
- GoogLeNet 在 iOS 上的演示
- Android 中的神经风格
- mnist-bnns - 将 TensorFlow MNIST 演示移植到 BNNS
- BNNS 与 MPS 的基准测试
- VGGNet 在 Metal 上的实现
- 一个利用 TensorFlow 和 iOS BNNS 进行深度学习的 数独求解器。
- HED CoreML 实现 是一个使用 Holistically-Nested Edge Detection 在 iOS 上结合 CoreML 和 Swift 的演示及教程。
传统计算机视觉
- SwiftOCR
- GrabCutIOS - 使用 GrabCut 算法进行 iOS 图像分割
自然语言处理
- 经典 ELIZA 聊天机器人(Swift 实现)
- InfiniteMonkeys - 由 BrainCore 驱动,使用 Keras 训练的 RNN 来模仿著名诗人的作品
其他
游戏 AI
- 游戏 AI 编程入门
- dlib 是一个包含多种实用工具(包括机器学习)的库。
- MicroPather 是一个用平台无关的 C++ 编写的路径规划器和 A* 求解器(astar 或 a-star),可以轻松集成到现有代码中。
- 这里有一个 列表 列出了 OGRE3D 网站上推荐的一些 AI 库。这些库大多用 C++ 编写。
- GameplayKit 编程指南
其他相关资源
线性代数
- Accelerate-in-Swift - Accelerate.framework 的 Swift 示例代码
- cuda-swift - CUDA 的 Swift 绑定。虽然不是 iOS,但仍然很有趣。
- Dimensional - 具有友好语义和熟悉界面的 Swift 矩阵。
- Eigen - 一个高级 C++ 模板头文件库,用于线性代数、矩阵和向量运算、数值求解器及相关算法。[MPL2]
- Matrix - 方便使用的矩阵类型,支持不同类型的下标、自定义运算符和预定义矩阵。Surge 的分支。
- NDArray - 为 Swift 提供的加速框架支持的浮点数库。
- Swift-MathEagle - 一个通用数学框架,旨在简化数学计算。目前支持函数求解与优化、矩阵和向量代数、复数、大整数、大分数、大有理数、图论以及各种实用扩展和函数。
- SwiftNum - 线性代数、FFT、梯度下降、共轭梯度下降、绘图。
- Swix - NumPy 和 OpenCV 的 Swift 实现封装。
- Surge 来自 Mattt
- Upsurge - 基于 Accelerate 的通用张量和矩阵。Surge 的分支。
- YCMatrix - 一个灵活的矩阵库,适用于 Objective-C 和 Swift(OS X / iOS)
统计学、随机数
- SigmaSwiftStatistics - 用 Swift 编写的统计计算函数集合。
- SORandom - 用于从各种分布中生成伪随机变量的函数集合
- RandKit - 用于随机数和分布的 Swift 框架。
数学优化
- fmincg-c - C 语言中的共轭梯度实现
- libLBFGS - 一个基于有限内存 Broyden-Fletcher-Goldfarb-Shanno (L-BFGS) 的 C 语言库
- SwiftOptimizer - QuantLib 的 Swift 移植版。
特征提取
- IntuneFeatures 框架包含从音频文件生成特征以及从相应 MIDI 文件生成特征标签的代码。
- matchbox - 用于 iOS/OSX 的梅尔频率倒谱系数和动态时间规整。警告:该库上次更新时,iOS 4 还很流行。
- LibXtract 是一个简单、便携、轻量级的音频特征提取函数库。
数据可视化
- Charts - MPAndroidChart 的 Swift 移植版。
- iOS-Charts
- Core Plot
- 精彩的 iOS 图表
- JTChartView
- VTK
- D3.js iOS 绑定
生物信息学(有点)
- BioJS - 一套用于浏览器端的生物信息学工具。BioJS构建了一个基础设施、指南和工具集,旨在避免生命科学领域中的重复造轮子现象。社区成员共同开发模块,供所有人复用。
- BioCocoa - BioCocoa是一个用Objective-C编写的开源OpenStep(GNUstep/Cocoa)框架,专为生物信息学设计。[已停止维护]。
- iBio - 一款适用于iPhone的生物信息学应用。
大数据(不算真正的大数据)
- HDF5Kit - 这是一个针对HDF5文件格式的Swift封装库。HDF5在科学界广泛用于管理海量数据。其目标是让开发者能够轻松地从Swift中读写HDF5文件,包括在Playground中使用。
IPython + Swift
- iSwift - 一个用于IPython笔记本的Swift内核。
iOS机器学习博客
常规移动机器学习
- “Machine, think!”博客,作者:Matthijs Hollemans
- 神经网络的“Hello World” - 使用Swift和BNNS
- 在iPhone上使用VGGNet实现卷积神经网络
- Pete Warden的博客
意外的移动机器学习
- Google研究博客
- 苹果机器学习期刊
- Invasive Code博客
- Big Nerd Ranch - 使用TensorFlow和BNNS将机器学习加入你的Mac或iOS应用
其他
GPU计算博客
OpenCL for iOS - 只是一个测试。
探索iOS上的GPGPU技术。
面向Mac和iOS的GPU加速视频处理。文章。
并发与OpenGL ES - 苹果官方编程指南。
OpenCV在iOS上的GPU使用情况 - Stack Overflow上的讨论。
Metal
- Simon's Gladman(又名flexmonkey)博客
- 关于iOS GPU编程的演讲,在Realm Altconf大会上使用Swift和Metal进行讲解。
- 你口袋里的超级计算机: Metal & Swift - 2015年Swift峰会的一段视频。
- https://github.com/FlexMonkey/MetalReactionDiffusion
- https://github.com/FlexMonkey/ParticleLab
- Memkite博客 - 一家旨在为iOS开发深度学习库的初创公司。
- Metal by Example博客
- objc-io关于Metal的文章
移动机器学习书籍
学习机器学习
请注意,在本节中,我并非试图收集所有机器学习学习资源的清单,而是仅整理了一些我认为有用的内容。
- Academic Torrents。有时优秀的课程或数据集会被原网站删除,但这并不意味着它们已经丢失。
- Arxiv Sanity Preserver - 一个帮助追踪机器学习研究进展的工具。
免费书籍
- Immersive Linear Algebra 互动式书籍,作者:J. Ström、K. Åström和T. Akenine-Möller。
- "使用Python进行自然语言处理" - 一本免费的在线书籍。
- 概率编程与黑客的贝叶斯方法 - 一本从计算/理解优先、数学次之的角度介绍贝叶斯方法和概率编程的入门书。
- "深度学习" - Ian Goodfellow、Yoshua Bengio和Aaron Courville合著的书籍
免费课程
- 安德鲁·吴的机器学习Coursera原版课程。
- YouTube上的机器学习播放列表。
- 免费在线互动书籍《神经网络与深度学习》(http://neuralnetworksanddeeplearning.com/)。
- 异构并行编程课程。
- 弗吉尼亚理工大学电气与计算机工程系2015年秋季开设的用于感知的深度学习:ECE 6504。
- 佛罗里达中央大学提供的CAP 5415 - 计算机视觉课程。
- 斯坦福大学提供的CS224d:自然语言处理的深度学习课程。
- 牛津大学提供的机器学习:2014-2015年课程资料。
- 斯坦福大学CS231n课程:用于视觉识别的卷积神经网络(http://cs231n.stanford.edu/)。
- 自然语言处理的深度学习(没有魔法)。
- 2015年蒙特利尔深度学习暑期学校的视频。
- 2016年蒙特利尔深度学习暑期学校的视频。
其他列表
- 超棒的机器学习资源
- 机器学习课程
- 超棒的数据科学资源
- 超棒的计算机视觉资源
- 语音与语言处理资源
- 聊天机器人崛起: 帕夫洛·巴什马科夫整理的实用链接、文章、库和平台。
- 超棒的网络安全机器学习资源
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器


OpenCV

