datasets

GitHub
1.1k 127 非常简单 1 次阅读 3天前图像数据工具
AI 解读 由 AI 自动生成,仅供参考

datasets 是一个专为深度学习打造的卫星与航空影像数据资源库,旨在解决遥感领域高质量标注数据分散、难以查找的痛点。它并非单一的数据集,而是一份精心整理的“导航地图”,汇集了全球多个权威开源项目、基准测试集及数据枢纽链接。

无论是需要训练模型的研究人员,还是开发地理空间应用的工程师,都能在这里快速定位所需资源。内容覆盖广泛,包括用于洪水监测的 Sentinel-1 雷达数据、用于地物分类的 Sentinel-2 光学影像,以及作物产量预测、超分辨率算法训练等特定场景的专业数据集。此外,它还整合了 AWS、Google Earth Engine 和 Microsoft Planetary Computer 等主流云平台的数据目录,方便用户直接访问海量云端数据。

其独特亮点在于极强的针对性与实用性:不仅按传感器类型(如 SAR 与光学)和应用场景(如变化检测、时间序列分析)进行了细致分类,还提供了从原始数据下载到代码示例(如 Python/Keras 加载教程)的一站式指引。如果你正在寻找可靠的遥感数据来启动或优化你的 AI 项目,datasets 将是不可或缺的起点。

使用场景

某农业科技公司数据团队正致力于开发基于卫星影像的作物产量预测模型,急需整合多源遥感数据以训练高精度深度学习算法。

没有 datasets 时

  • 数据搜集极其耗时,工程师需手动在 AWS、Google Earth Engine 及各类论文附录中分散查找 Sentinel-1/2 数据,往往数周无法凑齐实验所需样本。
  • 数据格式混乱且不统一,不同来源的影像分辨率、坐标系和预处理标准各异,导致大量时间浪费在清洗和对齐数据上,而非模型优化。
  • 缺乏权威基准测试集,团队难以验证新算法的有效性,无法与业界最新成果(如 SEN12MS 或 M3LEO)进行公平对比,研发方向容易偏离。
  • 特定任务数据稀缺,针对洪水监测或超分辨率等细分场景,很难找到带有高质量标注的现成数据集,迫使团队从零开始标注,成本高昂。

使用 datasets 后

  • 一键获取丰富资源,通过索引直接定位到 mmflood 洪水数据集或 CYCleSS 作物产量数据,将数据准备周期从数周缩短至数小时。
  • 标准化数据流无缝接入,直接调用已预处理的 Sentinel-2 COGs 或 SEN12MS 融合数据集,确保输入数据格式统一,让团队能立即投入模型训练。
  • 依托权威基准快速迭代,利用 Radiant MLHub 或 Awesome_Satellite_Benchmark_Datasets 中的标准集进行评测,迅速明确模型性能差距并调整策略。
  • 细分场景即时可用,针对变化检测或森林覆盖分析,直接复用专门的开源集合,大幅降低标注成本并加速原型验证。

datasets 通过聚合全球优质遥感数据资源,彻底消除了数据获取与预处理的壁垒,让开发者能专注于核心算法创新与应用落地。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该 README 内容并非针对名为 'datasets' 的可执行软件工具,而是一个卫星与航空影像深度学习数据集的汇总列表(Awesome List)。它提供了指向各种数据集、论文、代码库和数据枢纽(如 AWS, Google Earth Engine)的链接,因此不包含具体的操作系统、GPU、内存、Python 版本或依赖库等运行环境需求。用户需根据列表中具体选定的某个数据集或其关联的代码库去查询相应的环境要求。
python未说明
datasets hero image

快速开始

用于卫星与航空影像深度学习的数据集。

👉 satellite-image-deep-learning.com 👈

如何使用本仓库: 如果您确切知道要查找的内容(例如,论文名称),可以使用 Control+F 在此页面中搜索(或直接在原始 Markdown 文件中搜索)。

数据集列表

遥感数据集中心

哨兵系列

作为 欧盟哥白尼计划 的一部分,多颗哨兵卫星正在采集影像 -> 参见 维基百科

哨兵-1(SAR)

Sentinel-2(光学)

综合哨兵

Landsat

美国长期运行的卫星计划 -> 参见 维基百科

VENμS

新型微型卫星上的植被与环境监测(VENμS

Vantor

Vantor公司(前身为Maxar & DigitalGlobe)拥有的卫星包括GeoEye-1WorldView-23号4号

Planet

另请参阅本页后续的Spacenet-7以及Kaggle上的船舶和飞机分类数据集

UC Merced

土地利用分类数据集,包含21个类别,每个类别有100张RGB TIFF图像。每张图像尺寸为256×256像素,像素分辨率为1英尺

EuroSAT

Sentinel-2卫星影像的土地利用分类数据集,覆盖13个光谱波段,包含10个类别,共27000个已标注且地理参考的样本。提供RGB版本和13波段版本

PatternNet

土地利用分类数据集,包含38个类别,每个类别有800张RGB JPG图像

Gaofen图像数据集(GID)用于分类

Million-AID

一个包含百万级样本的大规模基准数据集,用于遥感场景分类,共51个场景类别,按层次化类别组织。

DIOR目标检测数据集

一个用于光学遥感图像中目标检测的大规模基准数据集,包含23,463张图像和192,518个由水平边界框标注的目标实例。

Multiscene

MultiScene数据集旨在解决两个任务:开发多场景识别算法以及在带噪声标签的数据上进行网络学习。

FAIR1M目标检测数据集

一个用于高分辨率遥感图像中细粒度目标识别的基准数据集。

  • arXiv论文
  • 可从gaofen-challenge.com下载
  • 2020Gaofen -> 2020年高分挑战赛的数据、基线和评估指标

DOTA目标检测数据集

一个用于航空图像中目标检测的大规模基准及挑战赛。分割标注可在iSAID数据集中找到。

iSAID实例分割数据集

一个用于航空图像中实例分割的大规模数据集。

HRSC RGB船舶目标检测数据集

SAR船舶检测数据集(SSDD)

高分辨率SAR旋转船舶检测数据集(SRSDD)

LEVIR船舶数据集

一个用于中等分辨率遥感图像下微小船舶检测的数据集。标注采用边界框格式。

SAR飞机检测数据集

收集了2966个不重叠的224×224切片,包含7835个飞机目标。

xView1:航拍影像中的上下文对象

一个细粒度的目标检测数据集,包含60个对象类别,涵盖8种类别的本体结构。超过100万个对象分布在超过1,400平方公里的0.3米分辨率影像中。标注采用边界框格式。

xView2:xBD建筑物损毁评估

一个用于建筑物损毁评估的高分辨率卫星影像标注数据集,提供精确的分割掩码和四级损伤标签,影像分辨率为0.3米。

xView3:SAR影像中的暗色船只检测

在合成孔径雷达(SAR)影像中检测从事非法、未报告和无管制(IUU)捕捞活动的暗色船只。该多模态数据集包含人类和算法标注的船只及固定设施实例,覆盖43,200,000平方公里的Sentinel-1影像,使算法能够检测并分类暗色船只。

航空影像中的车辆检测(VEDAI)

航空影像中的车辆检测。标注采用边界框格式。

俯视视角车辆数据集(COWC)

包含大量标注的俯视视角车辆图像。为目标检测和计数任务提供了基准数据集。标注采用边界框格式。

AI-TOD & AI-TOD-v2 - 微小目标检测

AI-TOD 数据集中物体的平均尺寸约为 12.8 像素,远小于其他数据集。标注采用边界框格式。v2 是对 v1 数据集进行细致重新标注的结果。

RarePlanes

Counting from Sky

用于遥感目标计数的大规模数据集及基准方法

AIRS(用于屋顶分割的航空影像)

公开数据集,用于从超高分辨率航空影像(7.5cm)中进行屋顶分割。覆盖新西兰南岛最大城市克赖斯特彻奇的几乎全部区域。

Inria 建筑物/非建筑物分割数据集

空间分辨率为 0.3 m 的 RGB GeoTIFF 文件。数据涵盖奥斯汀、芝加哥、基茨普县、西蒂罗尔和东蒂罗尔、因斯布鲁克、旧金山和维也纳。

AICrowd Mapping Challenge:建筑物分割数据集

300×300 像素的 RGB 图像,标注采用 COCO 格式。影像似乎覆盖全球,但北美地区的比例较大。

  • 作为 mapping-challenge 的一部分发布的数据集。
  • neptune.ai 发布的获胜方案 这里,使用带有 Resnet 的 Unet 实现了 0.943 的精确率和 0.954 的召回率。
  • mappingchallenge -> 将 YOLOv5 应用于 AICrowd Mapping Challenge 数据集。

BONAI - 建筑物轮廓数据集

BONAI(斜视角航空影像中的建筑物)是一个用于从斜视角航空影像中提取建筑物轮廓(BFE)的数据集。

LEVIR-CD 建筑物变化检测数据集

Onera(OSCD)Sentinel-2 变化检测数据集

该数据集由 2015 年至 2018 年间从 Sentinel-2 卫星拍摄的 24 对多光谱图像组成。

SECOND - 语义变化检测

亚马逊雨林和大西洋森林数据集

用于使用 Sentinel 2 进行语义分割。

世界功能地图(fMoW)

  • https://github.com/fMoW/dataset
  • RGB与多光谱变体
  • 高分辨率、芯片分类数据集
  • 目的:基于卫星影像的时间序列及丰富的元数据特征,预测建筑物的功能用途和土地利用类型

HRSCD变化检测

MiniFrance-DFC22 - 半监督语义分割

FLAIR

由法国国家地理与森林信息研究所(IGN)提出的语义分割与领域适应挑战赛。该数据集包含超过7万张带有像素级标注的航空影像块,以及5万景Sentinel-2卫星影像。

ISPRS

语义分割数据集。38个6000×6000像素的影像块,每个块由从更大范围的正射影像拼接图中裁剪出的真实正射影像(TOP)和数字表面模型(DSM)组成。分辨率为5厘米。

SpaceNet

SpaceNet是一系列比赛的总称,提供数据集和相关工具。涵盖的挑战包括:(1 & 2) 建筑物分割,(3) 道路分割,(4) 斜视角建筑物,(5) 道路网络提取,(6) 多传感器测绘,(7) 多时相城市变化,(8) 基于多类别分割的洪水检测挑战。

WorldStrat数据集

近1万平方公里的免费高分辨率卫星影像,覆盖全球独特的地理位置,确保对各类土地利用类型的分层代表性:从农业到冰盖,从森林到不同密度的城市化区域。

Satlas Pretrain

SatlasPretrain是一个大规模的预训练数据集,用于涉及理解卫星影像的任务。通过Sentinel-2和NAIP等来源,地球大部分地区的定期更新卫星数据公开可用,可用于支持多种应用,从打击非法砍伐到监测海洋基础设施。

FLAIR 1 & 2 分割数据集

  • https://ignf.github.io/FLAIR/
  • FLAIR #1语义分割数据集包含77,412个高分辨率影像块(512×512,空间分辨率为0.2米),涵盖19种语义类别。
  • FLAIR #2则包含了扩展的Sentinel-2时间序列数据集,用于多模态语义分割。

五十亿像素分割数据集

  • https://x-ytong.github.io/project/Five-Billion-Pixels.html
  • 中国地区的4m分辨率高分二号影像
  • 24种地表覆盖类别
  • 论文和代码展示了如何将模型迁移到Sentinel-2和Planetscope影像上。
  • 扩展了GID15大规模语义分割数据集
  • GID -> 高分影像数据集是一个基于高分二号(GF-2)卫星影像的大规模地表覆盖数据集。
  • MM-5B数据集 -> 多模态五十亿像素数据集是一个大规模、多模态、层次化的地表覆盖与土地利用(LCLU)数据集,建立在五十亿像素数据集的基础上。

RF100目标检测基准

RF100由100个跨越多个领域的现实世界数据集组成。其目的是通过对该数据集的性能评估,能够更细致地指导模型在不同领域中的表现。包含1万张航空影像。

SATIN(SATellite ImageNet)

SATIN是一个多任务遥感分类元数据集,由27个数据集组成,分为6个任务。影像分辨率跨度达5个数量级,涵盖超过250个不同的类别标签,以及多种视场大小。SATIN整体基准及其27个子数据集均通过HuggingFace发布。同时提供公开排行榜,用于指导和跟踪视觉-语言模型在SATIN上的进展。

SODA-A旋转边界框

Satellogic 的 EarthView 数据集

微软的数据集

谷歌的数据集

Google Earth Engine (GEE)

由于 GEE 拥有一个庞大的社区,这里不再赘述,仅列出一些精选资源。可以从 https://developers.google.com/earth-engine/ 开始学习。

图像描述数据集

  • RSICD -> 包含10921张图片,每张图片配有五句描述。该数据集被用于使用遥感(卫星)图像和描述微调 CLIP 模型,相关模型可在这个仓库中找到。
  • RSICC -> 遥感图像变化描述数据集包含10077对不同时期的遥感图像,以及50385句描述图像之间差异的文字。使用 LEVIR-CD 影像。
  • ChatEarthNet -> 全球规模的图文数据集,用于赋能视觉-语言地理基础模型,采用 Sentinel-2 数据,并由 ChatGPT 生成描述文字。

天气数据集

云数据集

森林数据集

地理空间数据集

  • Resource Watch 提供广泛的地理空间数据集及可视化界面

时间序列与变化检测数据集

  • BreizhCrops -> 用于作物类型制图的时间序列数据集
  • SeCo 数据集包含来自 Sentinel-2 图幅的图像块,在每个地理位置的不同时间点采集。在此下载 SeCo
  • SYSU-CD -> 该数据集包含 20000 对 0.5 米分辨率的航拍图像,尺寸为 256×256,拍摄于 2007 年至 2014 年期间的香港地区

DEM(数字高程地图)

  • 航天飞机雷达地形测绘任务,可在 usgs.gov 在线查询
  • Copernicus 数字高程模型 (DEM) 存储在 S3 上,表示地球表面,包括建筑物、基础设施和植被。数据以云优化 GeoTIFF 格式提供。链接
  • Awesome-DEM

无人机数据集

其他数据集

目标检测与分类

  • RSOD-Dataset -> 用于目标检测的数据集,采用PASCAL VOC格式。包含飞机、游乐场、立交桥和油罐等类别。
  • VHR-10_dataset_coco -> 基于NWPU VHR-10数据集的目标检测与实例分割数据集。包含RGB和SAR两种模态。
  • MAR20 -> 军用飞机识别数据集。
  • RSAPS-ASD -> 遥感机场全景分割与飞机状态数据集,构建于“从单时相高分辨率遥感图像中进行飞机状态判别”研究中。
  • Sewage-Treatment-Plant-Dataset -> 目标检测数据集。
  • TGRS-HRRSD-Dataset -> 高分辨率遥感目标检测(HRRSD)数据集。
  • OGST -> 石油天然气储罐数据集。
  • SearchAndRescueNet -> 用于搜救任务的卫星影像数据集,并附有Faster R-CNN模型示例。
  • UBC-dataset -> 用于建筑物检测与分类的数据集,基于超高分辨率卫星影像,重点在于对单个建筑物的对象级解读。
  • Building_Dataset -> 高速铁路沿线建筑物展示数据集。
  • RID -> 用于基于计算机视觉的光伏潜力评估的屋顶信息数据集。相关论文:链接
  • APKLOT -> 用于航空影像中停车位分割的数据集。
  • SAR-ACD -> SAR-ACD包含4322段飞机视频片段,涵盖6类民用飞机和14类其他飞机。
  • SODA -> 大规模小目标检测数据集。SODA-A包含2510张高分辨率航拍图像,标注了9个类别的800,203个实例,使用定向矩形框标注。
  • urban-tree-detection-data -> 用于训练和评估城市环境中树木检测器的航拍影像数据集。
  • 包含船舶的卫星影像数据集 -> 列举了一系列用于船舶检测、分类、语义分割和实例分割任务的雷达及光学卫星数据集。
  • Roofline-Extraction -> 用于论文《基于知识的单张航拍图像三维建筑物重建(3DBR)及卷积神经网络(CNN)应用》的数据集。
  • Building-detection-and-roof-type-recognition -> 用于论文《基于CNN的单张航拍图像自动建筑物检测与屋顶类型识别方法》的数据集。
  • OnlyPlanes -> 用于Detectron2的合成数据集及预训练模型。
  • SV248S -> 单目标跟踪数据集,用于跟踪车辆、大型车辆、船舶和飞机。
  • NWPU-MOC -> 航空影像中细粒度多类别物体计数基准数据集。
  • 卫星遥感车辆感知 -> 用于卫星交通监测的大规模基准数据集。
  • SARDet-100K -> 大规模合成孔径雷达(SAR)目标检测数据集。
  • 城市车辆分割数据集(UV6K)
  • ShipRSImageNet -> 用于高分辨率光学遥感影像中船舶检测的大规模细粒度数据集。
  • VME:中东及其他地区车辆检测的卫星影像数据集与基准
  • VHRV:超高分辨率船舶检测基准数据集

土地利用与土地覆被

变化检测

SAR专用数据集

  • HRSID -> 用于船舶检测、语义分割和实例分割任务的高分辨率SAR影像数据集
  • LS-SSDD-v1.0-OPEN -> 大规模SAR船舶检测数据集
  • WHU-SEN-City -> 一个涵盖中国34个大城市的SAR与光学影像配对翻译数据集
  • SAR_vehicle_detection_dataset -> 104张用于车辆检测的SAR影像,来源于Sandia MiniSAR/FARAD SAR影像和MSTAR影像
  • AIR-PolSAR-Seg -> 一个具有挑战性的PolSAR地形分割数据集
  • QXS-SAROPT -> 来自论文的光学与SAR配对数据集:用于SAR-光学数据融合深度学习的QXS-SAROPT数据集
  • SynthWakeSAR -> 用于海上船舶深度学习分类的合成SAR数据集,附论文
  • SAR2Opt-Heterogeneous-Dataset -> 用于遥感影像变化检测和图像转换基准的SAR-光学影像
  • OpenSARWake -> 用于SAR船舶航迹旋转检测的基准数据集。

专用应用

  • MUSIC4HA -> 多波段卫星影像用于目标分类(MUSIC),以检测热点区域
  • MUSIC4GC -> 多波段卫星影像用于目标分类(MUSIC),以检测高尔夫球场
  • MUSIC4P3 -> 多波段卫星影像用于目标分类(MUSIC),以检测光伏电站(太阳能电池板)
  • ABCDdataset -> 损害检测数据集,用于识别建筑物是否被海啸冲毁
  • 火力发电厂数据集
  • SolarDK -> 一个高分辨率的城市太阳能电池板图像分类与定位数据集
  • 油气基础设施测绘(OGIM)数据库 -> 包含重要的甲烷排放源——各类油气基础设施的位置及设施属性
  • 架空风力涡轮机数据集 - NAIP
  • CloudTracks: 用于在云层卫星图像中定位船舶航迹的数据集 -> 该数据集包含1,780张MODIS卫星图像,人工标注了超过12,000条船舶航迹。
  • 数字台风数据集 -> 旨在为长期时空数据的机器学习模型提供基准测试
  • BirdSAT -> 跨视角 iNaturalist 鸟类 2021:该跨视角鸟类物种数据集由地面拍摄的鸟类图像和卫星图像配对组成,并附有与 iNaturalist-2021 数据集相关的元信息。
  • RSHaze+ -> PhDnet 中的遥感去雾数据集:一种针对遥感图像的新型物理感知去雾网络
  • GMSEUS -> 美国全面的地面安装式太阳能能源数据集,包含子阵列设计元数据
  • MultiviewRS -> 用于探索多视角学习的遥感(RS)多视角数据集列表
  • SatDepth -> 一个用于卫星图像匹配和深度估计的新颖数据集
  • OpenSatMap -> 用于大规模地图构建及自动驾驶等下游任务

农业与环境

高光谱与多模态

基准与基础模型

Kaggle - 从太空看亚马逊 - 分类挑战

Kaggle - DSTL 分割挑战

Kaggle - DeepSat 土地覆被分类

Kaggle - 空中客车船舶检测挑战赛

Kaggle - 谷歌地球中的船只

Kaggle - 使用 Planet 卫星影像对旧金山湾的船只进行分类

Kaggle - Planesnet 分类数据集

Kaggle - 带边界框的 CGI 卫星影像中的飞机

Kaggle - 使用卫星影像检测游泳池和汽车

Kaggle - Draper 挑战赛:按时间顺序排列图像

Kaggle - 迪拜语义分割

Kaggle - 马萨诸塞州道路与建筑数据集 - 分割

Kaggle - Deepsat分类挑战赛

这不是卫星影像,而是航空影像。每个样本图像为28x28像素,包含红、绿、蓝和近红外四个波段。训练和测试标签为1x6的独热编码向量。每张图像块都被归一化为28x28像素大小。数据以.mat格式存储,可能是JPEG格式?

  • Sat4 包含50万张图像块,覆盖四大类地表覆盖类型——荒地、树木、草地以及其他所有不属于前三种的地表覆盖类型
  • Sat6 包含40.5万张28x28像素大小的图像块,覆盖六种地表覆盖类型——荒地、树木、草地、道路、建筑物和水体

Kaggle - 高分辨率舰船数据集2016 (HRSC2016)

Kaggle - SWIM-船舶尾迹影像马萨诸塞州

Kaggle - 从卫星图像理解云层

在这个挑战赛中,你需要构建一个模型来对卫星图像中的云层组织模式进行分类。

Kaggle - 38-Cloud云分割

Kaggle - 空客飞机检测数据集

Kaggle - 空客石油储存检测数据集

Kaggle - 飓风灾害卫星影像

Kaggle - 奥斯汀分区卫星图像

Kaggle - Statoil/C-CORE 冰山分类挑战赛

将SAR图像中的目标分类为船只或冰山。该竞赛的数据集包含5000张从Sentinel-1卫星采集的多通道SAR数据中提取的图像。排名靠前的参赛者通过集成方法将预测准确率从约92%提升至97%。

Kaggle - DeepGlobe挑战赛的土地覆盖分类数据集 - 分割

Kaggle - 次日野火蔓延

一个基于遥感数据预测野火蔓延的数据集

Kaggle - 卫星次日野火蔓延

受上述数据集启发,使用了不同的数据源

Kaggle - Spacenet 7 多时相城市变化检测

Kaggle - 卫星图像用于预测非洲贫困

Kaggle - NOAA渔业斯特勒海狮种群计数

Kaggle - 北极海冰图像掩膜

Kaggle - Overhead-MNIST

Kaggle - 卫星图像分类

Kaggle - EuroSAT - Sentinel-2 数据集

Kaggle - 水体卫星图像

Kaggle - NOAA海狮计数

Kaggle - 杂项

竞赛

竞赛是获取干净、可直接使用的卫星数据集及模型基准测试的绝佳途径。

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|1周前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|1周前
插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|1周前
语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。

88.9k|★★★☆☆|1周前
开发框架图像Agent