CV-pretrained-model

1.4k 194 较难 1 次阅读 6天前MIT视频语言模型开发框架图像其他数据工具

AI 解读由 AI 自动生成，仅供参考

CV-pretrained-model 是一个专为计算机视觉领域打造的开源模型资源库，旨在帮助开发者和研究人员快速找到高质量的预训练模型。在人工智能开发中，从零开始训练一个图像识别或目标检测模型往往需要耗费大量时间、算力和数据。CV-pretrained-model 通过汇集基于 TensorFlow、Keras、PyTorch、Caffe 及 MXNet 等主流框架的成熟模型（如 YOLO、Mask R-CNN、MobileNet 等），让用户可以直接复用他人已在大规模数据集上训练好的成果，将其作为解决类似问题的起点，从而大幅降低开发门槛并提升效率。

该项目不仅提供了涵盖物体定位、实例分割、语义分割及实时检测等多种任务的模型列表，还详细标注了每个模型的描述、适用框架及开源许可证信息，方便用户根据需求灵活选择。此外，项目推荐结合 Netron 工具可视化查看网络架构，帮助用户更深入地理解模型结构。无论是希望快速构建自动驾驶图像算法的工程师，还是从事学术研究的科研人员，亦或是想要尝试 AI 应用的原型设计师，都能在这里找到合适的“基石”，避免重复造轮子，将精力更多地集中在业务逻辑与创新上。

使用场景

某初创团队正紧急开发一款用于零售货架的自动补货检测系统，需要在两周内上线以验证商业模式。

没有 CV-pretrained-model 时

研发周期漫长：团队需从零开始收集百万级商品图片并训练基础特征提取器，仅数据准备和模型收敛就需数月，远超项目截止日期。
算力成本高昂：从头训练深度卷积神经网络需要租用大量高性能 GPU 集群，对于资金紧张的初创公司是一笔巨大的非必要开支。
技术门槛过高：团队成员虽熟悉业务逻辑，但缺乏从头设计如 ResNet101 或 FPN 等复杂骨干网络架构的资深算法专家，导致模型精度难以达标。
框架适配困难：在尝试复现论文代码时，面临 TensorFlow、PyTorch 等不同框架的版本兼容性问题，大量时间浪费在环境调试而非业务优化上。

使用 CV-pretrained-model 后

极速启动开发：直接调用库中基于 ImageNet 预训练的 MobileNet 或 Faster-RCNN 模型作为起点，将原本数月的冷启动时间压缩至几天内完成原型验证。
显著降低成本：利用迁移学习技术，仅需少量特定货架数据进行微调（Fine-tuning），大幅减少了对昂贵算力资源的依赖。
站在巨人肩膀上：直接复用谷歌、Facebook 等大厂开源的高精度架构（如 Mask R-CNN），确保系统在物体定位和分割任务上起步即达到行业领先水平。
多框架灵活选择：根据团队技术栈自由选择 TensorFlow 或 PyTorch 版本的预训练权重，无缝集成到现有流水线中，消除了环境适配障碍。

CV-pretrained-model 通过将成熟的视觉能力转化为即插即用的模块，让开发者从重复造轮子的困境中解脱，专注于解决具体的业务难题。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库是一个计算机视觉预训练模型的集合列表，而非单一的可安装工具。它列出了基于不同框架（TensorFlow, Keras, PyTorch, Caffe, MXNet）的多个独立模型项目链接。具体的运行环境需求（如操作系统、GPU、内存、Python 版本等）取决于用户选择的具体模型及其原始仓库说明。建议使用 Netron 工具可视化模型架构。

python未说明

TensorFlow

Keras

PyTorch

Caffe

MXNet

快速开始

计算机视觉预训练模型

CV标志

什么是预训练模型？

预训练模型是由他人为解决类似问题而创建的模型。与其从头开始构建一个解决类似问题的模型，不如将已在其他问题上训练好的模型作为起点。不过，预训练模型在你的应用场景中可能并不完全准确。

例如，如果你想开发一辆自动驾驶汽车，你可以花费数年时间从零开始构建一个像样的图像识别算法；或者，你可以直接使用谷歌提供的Inception模型（一种预训练模型），该模型基于ImageNet数据集训练而成，能够识别图片中的内容。

其他预训练模型

模型部署库

模型服务

模型可视化

你可以使用Netron查看每个模型的网络架构可视化图。

CV标志

TensorFlow

模型名称	描述	框架	许可证
目标检测	在单张图像中定位并识别多个对象。	`TensorFlow`	Apache许可证
Mask R-CNN	该模型为图像中每个对象实例生成边界框和分割掩码。它基于特征金字塔网络（FPN）和ResNet101骨干网络。	`TensorFlow`	MIT许可证
Faster-RCNN	这是Faster RCNN的实验性TensorFlow实现——一种带有区域建议网络的目标检测卷积神经网络。	`TensorFlow`	MIT许可证
YOLO TensorFlow	这是YOLO：实时目标检测的TensorFlow实现。	`TensorFlow`	自定义
YOLO TensorFlow ++	“YOLO：实时目标检测”的TensorFlow实现，支持训练并在移动设备上实现实时运行。	`TensorFlow`	GNU通用公共许可证
MobileNet	MobileNets在延迟、大小和精度之间进行权衡，同时与文献中流行的模型相比具有优势。	`TensorFlow`	MIT许可证
DeepLab	用于语义图像分割的深度标注。	`TensorFlow`	Apache许可证
Colornet	将灰度图像着色的神经网络。	`TensorFlow`	未找到
SRGAN	使用生成对抗网络实现照片级真实的单幅图像超分辨率。	`TensorFlow`	未找到
DeepOSM	使用OpenStreetMap特征和卫星图像训练TensorFlow神经网络。	`TensorFlow`	MIT许可证
领域迁移网络	无监督跨域图像生成的实现。	`TensorFlow`	MIT许可证
Show, Attend and Tell	基于注意力机制的图像字幕生成器。	`TensorFlow`	MIT许可证
android-yolo	使用YOLO网络和TensorFlow在Android设备上实现实时目标检测。	`TensorFlow`	Apache许可证
DCSCN超分辨率	这是“通过带有跳跃连接和网络内网络的深度CNN实现快速准确的图像超分辨率”的TensorFlow实现，是一种基于深度学习的单幅图像超分辨率（SISR）模型。	`TensorFlow`	未找到
GAN-CLS	这是合成图像的实验性TensorFlow实现。	`TensorFlow`	未找到
U-Net	用于脑肿瘤分割。	`TensorFlow`	未找到
改进的CycleGAN	无配对图像到图像的转换。	`TensorFlow`	MIT许可证
Im2txt	用于图像字幕生成的图像到文本神经网络。	`TensorFlow`	Apache许可证
SLIM	TF-Slim中的图像分类模型。	`TensorFlow`	Apache许可证
DELF	用于图像匹配和检索的深度局部特征。	`TensorFlow`	Apache许可证
压缩	使用预训练的残差GRU网络对图像进行压缩和解压缩。	`TensorFlow`	Apache许可证
AttentionOCR	用于从真实世界图像中提取文本的模型。	`TensorFlow`	Apache许可证

↥ 回到顶部

Keras

模型名称	描述	框架	许可证
Mask R-CNN	该模型为图像中每个对象实例生成边界框和分割掩码。它基于特征金字塔网络（FPN）和ResNet101骨干网络。	`Keras`	MIT许可证（MIT）
VGG16	用于大规模图像识别的非常深的卷积神经网络。	`Keras`	MIT许可证（MIT）
VGG19	用于大规模图像识别的非常深的卷积神经网络。	`Keras`	MIT许可证（MIT）
ResNet	用于图像识别的深度残差学习。	`Keras`	MIT许可证（MIT）
ResNet50	用于图像识别的深度残差学习。	`Keras`	MIT许可证（MIT）
Nasnet	NASNet指的是神经架构搜索网络，这是一系列通过直接在感兴趣的数据集上学习模型架构而自动设计出来的模型。	`Keras`	MIT许可证（MIT）
MobileNet	适用于Keras的MobileNet v1模型。	`Keras`	MIT许可证（MIT）
MobileNet V2	适用于Keras的MobileNet v2模型。	`Keras`	MIT许可证（MIT）
MobileNet V3	适用于Keras的MobileNet v3模型。	`Keras`	MIT许可证（MIT）
efficientnet	对卷积神经网络的模型缩放进行重新思考。	`Keras`	MIT许可证（MIT）
图像类比	使用神经匹配和混合生成图像类比。	`Keras`	MIT许可证（MIT）
流行的图像分割模型	在Keras中实现Segnet、FCN、UNet等模型。	`Keras`	MIT许可证
超声神经分割	本教程展示了如何使用Keras库构建用于超声图像神经分割的深度神经网络。	`Keras`	MIT许可证
DeepMask对象分割	这是基于Keras的Python实现，用于学习对象分割掩码的复杂深度神经网络DeepMask。	`Keras`	未找到
单语和多语图像描述	这是伴随《使用神经序列模型的多语图像描述》一书的源代码。	`Keras`	BSD-3-Clause许可证
pix2pix	由Phillip Isola、Jun-Yan Zhu、Tinghui Zhou、Alexei A.等人提出的条件对抗网络图像到图像转换的Keras实现。	`Keras`	未找到
彩色图像着色	黑白转彩色。	`Keras`	未找到
CycleGAN	实现了“使用循环一致性对抗网络的非配对图像到图像转换”。	`Keras`	MIT许可证
DualGAN	实现了“DualGAN：用于图像到图像转换的无监督双学习”。	`Keras`	MIT许可证
超分辨率GAN	实现了“使用生成对抗网络进行照片级真实感单张图像超分辨率”。	`Keras`	MIT许可证

↥ 返回顶部

PyTorch

模型名称	描述	框架	许可证
detectron2	Detectron2 是 Facebook AI Research 的下一代软件系统，实现了最先进的目标检测算法	`PyTorch`	Apache License 2.0
FastPhotoStyle	一种用于照片级真实感图像风格化的闭式解。	`PyTorch`	知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议
pytorch-CycleGAN-and-pix2pix	一种用于照片级真实感图像风格化的闭式解。	`PyTorch`	BSD 许可证
maskrcnn-benchmark	在 PyTorch 中快速、模块化的实例分割和目标检测算法参考实现。	`PyTorch`	MIT 许可证
deep-image-prior	使用神经网络进行图像恢复，但无需学习。	`PyTorch`	Apache License 2.0
StarGAN	StarGAN：用于多领域图像到图像转换的统一生成对抗网络。	`PyTorch`	MIT 许可证
faster-rcnn.pytorch	该项目是一个更快的 Faster R-CNN 实现，旨在加速 Faster R-CNN 目标检测模型的训练。	`PyTorch`	MIT 许可证
pix2pixHD	使用条件 GAN 合成和操作 2048x1024 分辨率的图像。	`PyTorch`	BSD 许可证
Augmentor	用于机器学习的 Python 图像增强库。	`PyTorch`	MIT 许可证
albumentations	快速图像增强库。	`PyTorch`	MIT 许可证
Deep Video Analytics	Deep Video Analytics 是一个用于对视频和图像进行索引和信息提取的平台	`PyTorch`	自定义许可
semantic-segmentation-pytorch	MIT ADE20K 数据集上的语义分割/场景解析的 PyTorch 实现。	`PyTorch`	BSD 3-Clause 许可证
基于图像序列识别的端到端可训练神经网络	该软件实现了卷积循环神经网络 (CRNN)，它是 CNN、RNN 和 CTC 损失的结合体，适用于基于图像的序列识别任务，如场景文本识别和 OCR。	`PyTorch`	MIT 许可证
UNIT	我们用于无监督图像到图像转换的耦合 VAE-GAN 算法的 PyTorch 实现。	`PyTorch`	知识共享署名-非商业性使用-相同方式共享 4.0 国际公共许可
神经序列标注模型	序列标注模型在许多 NLP 任务中非常流行，例如命名实体识别 (NER)、词性标注 (POS) 和分词。	`PyTorch`	Apache 许可证
faster rcnn	这是 Faster RCNN 的 PyTorch 实现。该项目主要基于 py-faster-rcnn 和 TFFRCNN。有关 R-CNN 的详细信息，请参阅 Shaoqing Ren、Kaiming He、Ross Girshick 和 Jian Sun 的论文《Faster R-CNN：通过区域建议网络实现实时目标检测》。	`PyTorch`	MIT 许可证
pytorch-semantic-segmentation	用于语义分割的 PyTorch。	`PyTorch`	MIT 许可证
EDSR-PyTorch	论文《用于单张图像超分辨率的增强深度残差网络》的 PyTorch 版本。	`PyTorch`	MIT 许可证
image-classification-mobile	ImageNet-1K 上预训练的分类模型集合。	`PyTorch`	MIT 许可证
FaderNetworks	Fader Networks：通过滑动属性操纵图像——NIPS 2017。	`PyTorch`	知识共享署名-非商业性使用 4.0 国际公共许可
neuraltalk2-pytorch	PyTorch 中的图像字幕模型（带有 finetune 分支的可微调 CNN）。	`PyTorch`	MIT 许可证
RandWireNN	实现：“探索随机连接的神经网络用于图像识别”。	`PyTorch`	未找到
stackGAN-v2	PyTorch 实现，用于复现论文 StackGAN++ 中的 StackGAN_v2 结果。	`PyTorch`	MIT 许可证
Detectron 目标检测模型	此代码允许使用来自 Facebook AI Research 的部分 Detectron 目标检测模型，并与 PyTorch 配合使用。	`PyTorch`	Apache 许可证
DEXTR-PyTorch	本文探讨了将物体的极端点（最左、最右、顶部、底部像素）作为输入，以获得精确的图像和视频对象分割。	`PyTorch`	GNU 通用公共许可证
pointnet.pytorch	“PointNet：用于 3D 分类和分割的点云深度学习”的 PyTorch 实现。	`PyTorch`	MIT 许可证
self-critical.pytorch	该仓库包含非官方实现“用于图像字幕的自我批判序列训练”以及“用于图像字幕和视觉问答的自下而上和自上而下的注意力”。	`PyTorch`	MIT 许可证
vnet.pytorch	V-Net 的 PyTorch 实现：用于体积医学图像分割的全卷积神经网络。	`PyTorch`	BSD 3-Clause 许可证
piwise	使用 PyTorch 对 VOC2012 数据集进行逐像素分割。	`PyTorch`	BSD 3-Clause 许可证
pspnet-pytorch	PSPNet 分割网络的 PyTorch 实现。	`PyTorch`	未找到
pytorch-SRResNet	使用生成对抗网络实现照片级真实感单张图像超分辨率的 PyTorch 实现。	`PyTorch`	MIT 许可证
PNASNet.pytorch	PNASNet-5 在 ImageNet 上的 PyTorch 实现。	`PyTorch`	Apache 许可证
img_classification_pk_pytorch	快速比较您的图像分类模型与最先进模型。	`PyTorch`	未找到
深度神经网络很容易被欺骗	对无法识别的图像做出高度自信的预测。	`PyTorch`	MIT 许可证
pix2pix-pytorch	“使用条件对抗网络进行图像到图像转换”的 PyTorch 实现。	`PyTorch`	未找到
NVIDIA/semantic-segmentation	在 CVPR2019 上提出的通过视频传播和标签松弛来改进语义分割的 PyTorch 实现。	`PyTorch`	CC BY-NC-SA 4.0 许可证
Neural-IMage-Assessment	神经图像评估的 PyTorch 实现。	`PyTorch`	未找到
torchxrayvision	用于胸部 X 光 (CXR) 病理预测的预训练模型。医疗、健康护理、放射学	`PyTorch`	Apache 许可证
pytorch-image-models	PyTorch 图像模型、脚本、预训练权重——(SE)ResNet/ResNeXT、DPN、EfficientNet、MixNet、MobileNet-V3/V2、MNASNet、Single-Path NAS、FBNet 等	`PyTorch`	Apache License 2.0

↥ 返回顶部

Caffe

模型名称	描述	框架	许可证
OpenPose	OpenPose 是首个能够在单张图像上同时检测人体、手部和面部关键点（共130个关键点）的实时多人系统。	`Caffe`	自定义
用于语义分割的全卷积网络	用于语义分割的全卷积模型。	`Caffe`	未找到
彩色图像着色	彩色图像着色。	`Caffe`	BSD-2-Clause 许可证
R-FCN	R-FCN：基于区域的全卷积网络目标检测。	`Caffe`	MIT 许可证
cnn-vis	受谷歌近期 Inceptionism 博客文章启发，cnn-vis 是一款开源工具，允许使用卷积神经网络生成图像。	`Caffe`	MIT 许可证
DeconvNet	学习用于语义分割的反卷积网络。	`Caffe`	自定义

↥ 返回顶部

MXNet

模型名称	描述	框架	许可证
Faster RCNN	区域建议网络将目标检测问题转化为回归问题。	`MXNet`	Apache 许可证，版本 2.0
SSD	SSD 是一种使用单一网络进行目标检测的统一框架。	`MXNet`	MIT 许可证
Faster RCNN+焦点损失	该代码是针对密集目标检测的焦点损失的非官方版本。	`MXNet`	未找到
CNN-LSTM-CTC	我实现了三种不同的文本识别模型，它们都包含 CTC 损失层，以实现对文本图像的无分割识别。	`MXNet`	未找到
Faster_RCNN_for_DOTA	这是论文 DOTA：航空影像中的大规模目标检测数据集的官方仓库。	`MXNet`	Apache 许可证
RetinaNet	密集目标检测的焦点损失。	`MXNet`	未找到
MobileNetV2	这是根据论文倒残差与线性瓶颈：用于分类、检测和分割的移动网络中描述的 MobileNetV2 架构的 MXNet 实现。	`MXNet`	Apache 许可证
neuron-selectivity-transfer	该代码是对论文喜欢你所喜欢的：通过神经元选择性迁移进行知识蒸馏中 ImageNet 分类实验的重新实现。	`MXNet`	Apache 许可证
MobileNetV2	这是根据论文倒残差与线性瓶颈：用于分类、检测和分割的移动网络中描述的 MobileNetV2 架构的 Gluon 实现。	`MXNet`	Apache 许可证
sparse-structure-selection	该代码是对论文面向深度神经网络的数据驱动稀疏结构选择中 ImageNet 分类实验的重新实现。	`MXNet`	Apache 许可证
FastPhotoStyle	照片级真实感图像风格化的闭式解。	`MXNet`	知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议

↥ 返回顶部

贡献

我们始终欢迎您的贡献！！请查看 contributing.md

许可证

MIT 许可证

CV-pretrained-model 快速上手指南

CV-pretrained-model 是一个汇集了多种计算机视觉（Computer Vision）预训练模型的开源资源库，涵盖目标检测、图像分割、超分辨率、图像描述生成等任务。本指南将帮助你快速了解并使用这些模型。

环境准备

在开始之前，请确保你的开发环境满足以下要求：

操作系统: Linux, macOS 或 Windows
Python: 建议版本 3.6 - 3.9 (具体版本取决于所选框架)
深度学习框架: 根据你要使用的模型，需安装以下任一框架：
- TensorFlow
- Keras
- PyTorch
- Caffe
- MXNet
硬件加速 (可选但推荐): NVIDIA GPU 及对应的 CUDA/cuDNN 驱动，以加速模型推理和训练。
可视化工具 (可选): Netron，用于查看模型网络架构。

前置依赖安装

推荐使用国内镜像源加速 Python 包的安装。以下以安装 TensorFlow 和 Keras 为例（其他框架请参考官方文档）：

# 配置 pip 使用清华镜像源
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

# 安装 TensorFlow (GPU 版本示例，如需 CPU 版去掉 gpu 后缀)
pip install tensorflow-gpu

# 安装 Keras (通常包含在 TensorFlow 2.x 中，也可单独安装)
pip install keras

# 安装常用图像处理库
pip install opencv-python pillow matplotlib numpy

安装步骤

本项目本身是一个模型列表索引，不需要像普通 Python 库那样通过 pip install cv-pretrained-model 进行安装。使用流程如下：

浏览模型列表: 访问项目的 README 或 GitHub 页面，根据任务需求（如目标检测、图像分割）和框架偏好（TensorFlow/Keras/PyTorch）选择合适的模型。
克隆具体模型仓库: 点击表格中对应模型的链接，进入其原始 GitHub 仓库。

下载代码与权重:

# 示例：克隆 Mask R-CNN (Keras 版本)
git clone https://github.com/matterport/Mask_RCNN.git
cd Mask_RCNN

# 安装该模型特定的依赖
pip install -r requirements.txt

注意：部分模型可能需要手动下载预训练权重文件（.h5, .pth, .ckpt 等），请参照各模型仓库的说明文档。

基本使用

不同模型的具体调用方式差异较大，以下提供一个基于 Keras 的通用加载预训练模型（以 VGG16 为例）进行图像分类的最简示例。

示例：使用 Keras 加载 VGG16 进行图像预测

import tensorflow as tf
from tensorflow.keras.applications import VGG16
from tensorflow.keras.preprocessing import image
from tensorflow.keras.applications.vgg16 import preprocess_input, decode_predictions
import numpy as np

# 1. 加载预训练模型 (权重使用 ImageNet)
# include_top=True 表示包含全连接层，适用于分类任务
model = VGG16(weights='imagenet', include_top=True)

# 2. 准备输入图像
img_path = 'your_image.jpg'  # 替换为你的图片路径
img = image.load_img(img_path, target_size=(224, 224))
x = image.img_to_array(img)
x = np.expand_dims(x, axis=0)
x = preprocess_input(x)

# 3. 进行预测
preds = model.predict(x)

# 4. 解码预测结果
results = decode_predictions(preds, top=3)[0]

# 5. 输出结果
print("预测结果:")
for label, description, score in results:
    print(f"{description}: {score:.2f}")

进阶使用提示

模型可视化: 下载模型文件后，可使用 Netron 打开查看网络结构：
```
netron model.h5
```
迁移学习: 大多数模型支持移除顶层（include_top=False），以便你在此基础上添加自定义层进行微调（Fine-tuning），适应特定领域的数据。
框架切换: 如果首选框架不支持某模型，可查阅列表中是否提供了其他框架（如 PyTorch 或 TensorFlow）的实现版本。

版本历史

v1.02020/07/17

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|4天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|4天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 148.6k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.1k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|今天

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|3天前

插件开发框架