Awesome-Remote-Sensing-Foundation-Models

GitHub
1.8k 161 简单 1 次阅读 昨天图像其他
AI 解读 由 AI 自动生成,仅供参考

Awesome-Remote-Sensing-Foundation-Models 是一个专为遥感领域打造的开源资源合集,旨在系统性地整理与大模型相关的前沿成果。面对遥感数据规模庞大、标注成本高以及传统模型泛化能力不足的痛点,它汇聚了海量的学术论文、预训练权重、代码实现、数据集及评测基准,帮助从业者快速定位并复用现有的先进技术方案。

该资源库特别适合遥感领域的研究人员、算法工程师及开发者使用。无论是希望探索自监督学习新范式,还是需要为特定任务寻找高质量的初始化模型,都能在此找到得力助手。其核心亮点在于分类详尽且更新及时,不仅涵盖了主流的遥感视觉基础模型(如 SatMAE、SeCo),还前瞻性地收录了视觉 - 语言、生成式、视 - 位融合乃至智能体等多模态方向的前沿进展。通过提供从理论论文到可运行代码的一站式指引,Awesome-Remote-Sensing-Foundation-Models 有效降低了技术门槛,加速了遥感大模型从学术研究到实际落地的进程。

使用场景

某省级自然资源监测中心急需利用卫星影像快速识别全省范围内的违规耕地占用情况,以应对季度巡查任务。

没有 Awesome-Remote-Sensing-Foundation-Models 时

  • 模型选型盲目:团队需在海量论文中手动筛选适合多光谱或 SAR 图像的预训练模型,耗时数周仍难以确定最优基线。
  • 数据标注成本高昂:由于缺乏强大的通用特征提取器,针对特定地块变化检测任务需要标注数万张样本才能训练出可用模型。
  • 跨传感器适配困难:面对光学与雷达混合数据,自行研发联合表征学习算法技术门槛极高,导致多源数据融合效果不佳。
  • 复现周期漫长:寻找分散的代码库和权重文件极其困难,环境配置和代码调试往往占据项目 80% 的时间。

使用 Awesome-Remote-Sensing-Foundation-Models 后

  • 精准锁定模型:直接查阅分类清晰的列表,迅速定位到如 SatMAE(多光谱)或 DINO-MM(SAR-光学联合)等成熟模型作为起点。
  • 小样本高效微调:利用列表中提供的强大预训练权重,仅需少量标注样本即可通过微调实现高精度的违规地块识别。
  • 多源数据无缝融合:直接调用已验证的视觉 - 语言或多模态基础模型代码,轻松实现光学与雷达数据的互补分析。
  • 即插即用加速落地:一键获取关联的代码仓库与权重文件,将原本数月的算法研发周期压缩至几天,快速投入业务运行。

Awesome-Remote-Sensing-Foundation-Models 通过一站式聚合前沿模型、数据与代码,将遥感 AI 开发从“重复造轮子”转变为“站在巨人肩膀上”的高效创新。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该仓库是一个遥感基础模型(RSFMs)的论文、数据集、基准测试、代码和预训练权重的集合列表(Awesome List),本身不是一个单一的独立软件工具。因此,README 中未提供统一的运行环境需求。具体的操作系统、GPU、内存、Python 版本及依赖库要求取决于用户选择运行的列表中某个特定模型(如 SatMAE, RingMo, SpectralGPT 等),需参考各模型对应的独立代码仓库链接获取详细安装说明。
python未说明
Awesome-Remote-Sensing-Foundation-Models hero image

快速开始

维护中 Awesome GitHub 监视者数 GitHub 星标数 GitHub 分支数

Awesome 遥感基础模型

:star2:遥感基础模型(RSFM)相关的论文、数据集、基准测试、代码及预训练权重的集合。

📢 最新动态

:fire::fire::fire: 最后更新于 2026.03.13 :fire::fire::fire:

目录

遥感视觉基础模型

Abbreviation Title Publication Paper Code & Weights
GeoKR Geographical Knowledge-Driven Representation Learning for Remote Sensing Images TGRS2021 GeoKR link
- Self-Supervised Learning of Remote Sensing Scene Representations Using Contrastive Multiview Coding CVPRW2021 Paper link
GASSL Geography-Aware Self-Supervised Learning ICCV2021 GASSL link
SeCo Seasonal Contrast: Unsupervised Pre-Training From Uncurated Remote Sensing Data ICCV2021 SeCo link
DINO-MM Self-Supervised Vision Transformers for Joint SAR-Optical Representation Learning IGARSS2022 DINO-MM link
SatMAE SatMAE: Pre-training Transformers for Temporal and Multi-Spectral Satellite Imagery NeurIPS2022 SatMAE link
RS-BYOL Self-Supervised Learning for Invariant Representations From Multi-Spectral and SAR Images JSTARS2022 RS-BYOL null
GeCo Geographical Supervision Correction for Remote Sensing Representation Learning TGRS2022 GeCo null
RingMo RingMo: A remote sensing foundation model with masked image modeling TGRS2022 RingMo Code
RVSA Advancing plain vision transformer toward remote sensing foundation model TGRS2022 RVSA link
RSP An Empirical Study of Remote Sensing Pretraining TGRS2022 RSP link
MATTER Self-Supervised Material and Texture Representation Learning for Remote Sensing Tasks CVPR2022 MATTER null
CSPT Consecutive Pre-Training: A Knowledge Transfer Learning Strategy with Relevant Unlabeled Data for Remote Sensing Domain RS2022 CSPT link
- Self-supervised Vision Transformers for Land-cover Segmentation and Classification CVPRW2022 Paper link
TOV TOV: The original vision model for optical remote sensing image understanding via self-supervised learning JSTARS2023 TOV link
CMID CMID: A Unified Self-Supervised Learning Framework for Remote Sensing Image Understanding TGRS2023 CMID link
RingMo-Sense RingMo-Sense: Remote Sensing Foundation Model for Spatiotemporal Prediction via Spatiotemporal Evolution Disentangling TGRS2023 RingMo-Sense null
AST AST: Adaptive Self-supervised Transformer for Optical Remote Sensing Representation ISPRS JPRS2023 AST null
IaI-SimCLR Multi-Modal Multi-Objective Contrastive Learning for Sentinel-1/2 Imagery CVPRW2023 IaI-SimCLR null
CACo Change-Aware Sampling and Contrastive Learning for Satellite Images CVPR2023 CACo link
SatLas SatlasPretrain: A Large-Scale Dataset for Remote Sensing Image Understanding ICCV2023 SatLas link
GFM Towards Geospatial Foundation Models via Continual Pretraining ICCV2023 GFM link
Scale-MAE Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning ICCV2023 Scale-MAE link
DINO-MC DINO-MC: Self-supervised Contrastive Learning for Remote Sensing Imagery with Multi-sized Local Crops Arxiv2023 DINO-MC link
CROMA CROMA: Remote Sensing Representations with Contrastive Radar-Optical Masked Autoencoders NeurIPS2023 CROMA link
Cross-Scale MAE Cross-Scale MAE: A Tale of Multiscale Exploitation in Remote Sensing NeurIPS2023 Cross-Scale MAE link
Presto Lightweight, Pre-trained Transformers for Remote Sensing Timeseries Arxiv2023 Presto link
Prithvi Foundation Models for Generalist Geospatial Artificial Intelligence Arxiv2023 Prithvi link
- A Self-Supervised Cross-Modal Remote Sensing Foundation Model with Multi-Domain Representation and Cross-Domain Fusion IGARSS2023 Paper null
EarthPT EarthPT: a time series foundation model for Earth Observation NeurIPS2023 CCAI workshop EarthPT link
USat USat: A Unified Self-Supervised Encoder for Multi-Sensor Satellite Imagery Arxiv2023 USat link
AIEarth Analytical Insight of Earth: A Cloud-Platform of Intelligent Computing for Geospatial Big Data Arxiv2023 AIEarth link
Clay Clay Foundation Model - null link
Hydro Hydro--A Foundation Model for Water in Satellite Imagery - null link
BFM A Billion-scale Foundation Model for Remote Sensing Images IEEE JSTARS2024 BFM null
U-BARN Self-Supervised Spatio-Temporal Representation Learning of Satellite Image Time Series JSTARS2024 Paper link
GeRSP Generic Knowledge Boosted Pretraining for Remote Sensing Images TGRS2024 GeRSP GeRSP
SwiMDiff SwiMDiff: Scene-Wide Matching Contrastive Learning With Diffusion Constraint for Remote Sensing Image TGRS2024 SwiMDiff null
OFA-Net One for All: Toward Unified Foundation Models for Earth Vision IGARSS2024 OFA-Net null
- Lightweight and Efficient: A Family of Multimodal Earth Observation Foundation Models IGARSS2024 Paper null
SMLFR Generative ConvNet Foundation Model With Sparse Modeling and Low-Frequency Reconstruction for Remote Sensing Image Interpretation TGRS2024 SMLFR link
SpectralGPT SpectralGPT: Spectral Remote Sensing Foundation Model TPAMI2024 SpectralGPT link
S2MAE S2MAE: A Spatial-Spectral Pretraining Foundation Model for Spectral Remote Sensing Data CVPR2024 S2MAE null
SatMAE++ Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery CVPR2024 SatMAE++ link
msGFM Bridging Remote Sensors with Multisensor Geospatial Foundation Models CVPR2024 msGFM link
SkySense SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery CVPR2024 SkySense link
MTP MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining IEEE JSTARS2024 MTP link
DOFA Neural Plasticity-Inspired Multimodal Foundation Model for Earth Observation Arxiv2024 DOFA link
DeCUR DeCUR: decoupling common & unique representations for multimodal self-supervision ECCV2024 DeCUR link
MMEarth MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning ECCV2024 MMEarth link
LeMeViT LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation IJCAI2024 LeMeViT link
SoftCon Multi-Label Guided Soft Contrastive Learning for Efficient Earth Observation Pretraining TGRS2024 SoftCon link
RS-DFM RS-DFM: A Remote Sensing Distributed Foundation Model for Diverse Downstream Tasks Arxiv2024 RS-DFM null
A2-MAE A2-MAE: A spatial-temporal-spectral unified remote sensing pre-training method based on anchor-aware masked autoencoder Arxiv2024 A2-MAE null
OmniSat OmniSat: Self-Supervised Modality Fusion for Earth Observation ECCV2024 OmniSat link
MM-VSF Towards Knowledge Guided Pretraining Approaches for Multimodal Foundation Models: Applications in Remote Sensing Arxiv2024 MM-VSF null
MA3E Masked Angle-Aware Autoencoder for Remote Sensing Images ECCV2024 MA3E link
SAR-JEPA Predicting Gradient is Better: Exploring Self-Supervised Learning for SAR ATR with a Joint-Embedding Predictive Architecture ISPRS JPRS2024 SAR-JEPA link
PIS Pretrain a Remote Sensing Foundation Model by Promoting Intra-instance Similarity TGRS2024 PIS link
FG-MAE Feature Guided Masked Autoencoder for Self-Supervised Learning in Remote Sensing IEEE JSTARS2024 FG-MAE link
RingMo-lite RingMo-Lite: A Remote Sensing Lightweight Network With CNN-Transformer Hybrid Framework IEEE TGRS2024 RingMo-lite null
- A Multimodal Unified Representation Learning Framework With Masked Image Modeling for Remote Sensing Images IEEE TGRS2024 Paper null
- Masked Feature Modeling for Generative Self-Supervised Representation Learning of High-Resolution Remote Sensing Images IEEE JSTARS2024 Paper null
OReole-FM OReole-FM: successes and challenges toward billion-parameter foundation models for high-resolution satellite imagery SIGSPATIAL2024 OReole-FM null
SatVision-TOA SatVision-TOA: A Geospatial Foundation Model for Coarse-Resolution All-Sky Remote Sensing Imagery Arxiv2024 SatVision-TOA link
Prithvi-EO-2.0 Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications Arxiv2024 Prithvi-EO-2.0 link
WildSAT WildSAT: Learning Satellite Image Representations from Wildlife Observations Arxiv2024 WildSAT link
SpectralEarth SpectralEarth: Training Hyperspectral Foundation Models at Scale IEEE JSTARS2025 SpectralEarth null
SenPa-MAE SenPa-MAE: Sensor Parameter Aware Masked Autoencoder for Multi-Satellite Self-Supervised Pretraining LNCS2025 SenPa-MAE link
RingMo-Aerial RingMo-Aerial: An Aerial Remote Sensing Foundation Model With Affine Transformation Contrastive Learning IEEE TPAMI2025 RingMo-Aerial null
PIEViT Pattern Integration and Enhancement Vision Transformer for Self-Supervised Learning in Remote Sensing IEEE TGRS2025 PIEViT null
SeaMo SeaMo: A Multi-Seasonal and Multimodal Remote Sensing Foundation Model Information Fusion2025 SeaMo null
HyperSIGMA HyperSIGMA: Hyperspectral Intelligence Comprehension Foundation Model IEEE TPAMI2025 HyperSIGMA link
FoMo FoMo: Multi-Modal, Multi-Scale and Multi-Task Remote Sensing Foundation Models for Forest Monitoring AAAI2025 FoMo link
RingMamba RingMamba: Remote Sensing Multisensor Pretraining With Visual State Space Model IEEE TGRS2025 RingMamba null
CrossEarth CrossEarth: Geospatial Vision Foundation Model for Domain Generalizable Remote Sensing Semantic Segmentation IEEE TPAMI2025 CrossEarth link
CtxMIM CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding ACM TOMM2025 CtxMIM null
SatMamba SatMamba: Development of Foundation Models for Remote Sensing Imagery Using State Space Models Arxiv2025 SatMamba link
Galileo Galileo: Learning Global & Local Features of Many Remote Sensing Modalities ICML2025 TerraBytes Workshop Galileo link
SatDiFuser Can Generative Geospatial Diffusion Models Excel as Discriminative Geospatial Foundation Models? Arxiv2025 SatDiFuser null
RoMA RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing Arxiv2025 RoMA link
Panopticon Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation CVPR2025 Panopticon link
HyperFree HyperFree: A Channel-adaptive and Tuning-free Foundation Model for Hyperspectral Remote Sensing Imagery CVPR2025 HyperFree link
AnySat AnySat: One Earth Observation Model for Many Resolutions, Scales, and Modalities CVPR2025 AnySat link
HyperSL HyperSL: A Spectral Foundation Model for Hyperspectral Image Interpretation IEEE TGRS2025 HyperSL link
DynamicVis DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding Arxiv2025 DynamicVis link
DeepAndes DeepAndes: A Self-Supervised Vision Foundation Model for Multispectral Remote Sensing Imagery of the Andes IEEE JSTARS2025 DeepAndes null
TiMo TiMo: Spatiotemporal Foundation Model for Satellite Image Time Series Arxiv2025 TiMo link
TerraFM TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation Arxiv2025 TerraFM link
TESSERA TESSERA: Temporal Embeddings of Surface Spectra for Earth Representation and Analysis Arxiv2025 TESSERA link
CGEarthEye CGEarthEye: A High-Resolution Remote Sensing Vision Foundation Model Based on the Jilin-1 Satellite Constellation Arxiv2025 CGEarthEye null
MoSAiC MoSAiC: Multi-Modal Multi-Label Supervision-Aware Contrastive Learning for Remote Sensing Arxiv2025 MoSAiC null
AlphaEarth AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data Arxiv2025 AlphaEarth null
MAESTRO MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data Arxiv2025 MAESTRO link
FedSense Towards Privacy-preserved Pre-training of Remote Sensing Foundation Models with Federated Mutual-guidance Learning ICCV2025 FedSense null
RS-vHeat RS-vHeat: Heat Conduction Guided Efficient Remote Sensing Foundation Model ICCV2025 RS-vHeat null
Copernicus-FM Towards a Unified Copernicus Foundation Model for Earth Vision ICCV2025 Copernicus-FM link
SelectiveMAE Scaling Efficient Masked Autoencoder Learning on Large Remote Sensing Dataset ICCV2025 SelectiveMAE link
SMARTIES SMARTIES: Spectrum-Aware Multi-Sensor Auto-Encoder for Remote Sensing Images ICCV2025 SMARTIES link
TerraMind TerraMind: Large-Scale Generative Multimodality for Earth Observation ICCV2025 TerraMind link
SkySense V2 SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing ICCV2025 SkySense V2 null
SkySense++ A semantic-enhanced multi-modal remote sensing foundation model for Earth observation Nature Machine Intelligence 2025 SkySense++ link
FlexiMo FlexiMo: A Flexible Remote Sensing Foundation Model IEEE TGRS2026 FlexiMo null
RingMoE RingMoE: Mixture-of-Modality-Experts Multi-Modal Foundation Models for Universal Remote Sensing Image Interpretation IEEE TPAMI2026 RingMoE null
- A Complex-Valued SAR Foundation Model Based on Physically Inspired Representation Learning IEEE TIP2026 Paper null
MAPEX MAPEX: Modality-Aware Pruning of Experts for Remote Sensing Foundation Models IEEE TGRS2026 MAPEX link
Alliance Alliance: All-in-One Spectral-Spatial-Frequency Awareness Foundation Model IEEE TPAMI2026 Alliance null

遥感 视觉-语言 基础模型

缩写 标题 发表刊物 论文 代码与权重
RSGPT RSGPT:一种遥感视觉语言模型及基准测试 Arxiv2023 RSGPT 链接
RemoteCLIP RemoteCLIP:面向遥感的视觉语言基础模型 IEEE TGRS2024 RemoteCLIP 链接
GeoRSCLIP RS5M:用于遥感视觉语言基础模型的大规模视觉-语言数据集 IEEE TGRS2024 GeoRSCLIP 链接
GRAFT 通过地面遥感对齐实现无需标注的遥感视觉语言基础模型 ICLR2024 GRAFT
- 开拓新领域:探索多模态大语言模型的地缘与地理空间能力 Arxiv2023 论文 链接
- 遥感版ChatGPT:利用ChatGPT和视觉模型解决遥感任务 Arxiv2024 论文 链接
EarthGPT EarthGPT:面向遥感领域多传感器图像理解的通用多模态大语言模型 IEEE TGRS2024 EarthGPT
SkyCLIP SkyScript:面向遥感的大规模且语义多样化的视觉-语言数据集 AAAI2024 SkyCLIP 链接
GeoChat GeoChat:面向遥感的接地型大型视觉-语言模型 CVPR2024 GeoChat 链接
LHRS-Bot LHRS-Bot:借助VGI增强的大型多模态语言模型赋能遥感 ECCV2024 LHRS-Bot 链接
RS-LLaVA RS-LLaVA:用于遥感影像联合字幕生成与问答的大型视觉语言模型 RS2024 RS-LLaVA 链接
SkySenseGPT SkySenseGPT:用于遥感视觉语言理解的细粒度指令微调数据集及模型 Arxiv2024 SkySenseGPT 链接
EarthMarker EarthMarker:用于区域级和点级遥感影像理解的视觉提示学习 IEEE TGRS2024 EarthMarker 链接
GeoText 迈向自然语言引导的无人机:包含空间关系匹配的GeoText-1652基准测试 ECCV2024 GeoText 链接
Aquila Aquila:一种分层对齐的视觉-语言模型,用于增强遥感图像理解 Arxiv2024 Aquila
LHRS-Bot-Nova LHRS-Bot-Nova:改进的多模态大语言模型,用于遥感视觉-语言解读 ISPRS JPRS2025 LHRS-Bot-Nova 链接
RSCLIP 在无人工标注的情况下推动遥感领域视觉-语言模型的极限 Arxiv2024 RSCLIP
GeoGround GeoGround:用于遥感视觉定位的统一大型视觉-语言模型 Arxiv2024 GeoGround 链接
RingMoGPT RingMoGPT:用于视觉、语言及接地任务的统一遥感基础模型 TGRS2024 RingMoGPT
RSUniVLM RSUniVLM:基于面向粒度的专家混合机制的遥感统一视觉语言模型 Arxiv2024 RSUniVLM 链接
UniRS UniRS:通过视觉语言模型统一多时相遥感任务 Arxiv2024 UniRS
REO-VLM REO-VLM:改造视觉语言模型以应对地球观测中的回归挑战 Arxiv2024 REO-VLM
SkyEyeGPT SkyEyeGPT:通过大型语言模型的指令微调统一遥感视觉-语言任务 ISPRS JPRS2025 SkyEyeGPT 链接
VHM VHM:用于遥感图像分析的多功能且诚实的视觉语言模型 AAAI2025 VHM 链接
TEOChat TEOChat:用于时间序列地球观测数据的大语言和视觉助手 ICLR2025 TEOChat 链接
EarthDial EarthDial:将多感官地球观测转化为交互式对话 CVPR2025 EarthDial 链接
SkySense-O SkySense-O:以视觉为中心的视觉-语言建模,迈向开放世界遥感解读 CVPR2025 SkySense-O 链接
XLRS-Bench XLRS-Bench:您的多模态大语言模型能否理解超大规模超高分辨率遥感影像? CVPR2025 XLRS-Bench 链接
GeoPix GeoPix:用于遥感中像素级图像理解的多模态大语言模型 IEEE GRSM2025 GeoPix 链接
GeoPixel GeoPixel:遥感中的像素接地型大型多模态模型 ICML2025 GeoPixel 链接
Co-LLaVA Co-LLaVA:通过模型协作实现高效的遥感视觉问答 RS2025 Co-LLaVA
GeoMag GeoMag:用于像素级精细遥感图像解析的视觉-语言模型 ACMMM2025 GeoMag
- 基于学习评分模型的质量驱动型遥感视觉-语言数据整理 Arxiv2025 论文
DOFA-CLIP DOFA-CLIP:用于地球观测的多模态视觉-语言基础模型 Arxiv2025 DOFA-CLIP 链接
DGTRS-CLIP DGTRSD & DGTRS-CLIP:用于对齐的双粒度遥感图像-文本数据集及视觉语言基础模型 Arxiv2025 DGTRS-CLIP 链接
Falcon Falcon:一种遥感视觉-语言基础模型 Arxiv2025 Falcon 链接
GeoRSMLLM GeoRSMLLM:用于地球科学和遥感领域视觉-语言任务的多模态大语言模型 Arxiv2025 GeoRSMLLM
LRS-VQA 当大型视觉-语言模型遇到大型遥感影像时:粗粒度到细粒度的文本引导标记剪枝 ICCV2025 LRS-VQA 链接
UrbanLLaVA UrbanLLaVA:具有空间推理与理解能力的城市智能多模态大语言模型 ICCV2025 UrbanLLaVA 链接
OmniGeo OmniGeo:迈向用于地理空间人工智能的多模态大语言模型 Arxiv2025 OmniGeo
EagleVision EagleVision:面向遥感的对象级属性多模态大语言模型 Arxiv2025 EagleVision 链接
SegEarth-R1 SegEarth-R1:通过大语言模型进行地理空间像素推理 Arxiv2025 SegEarth-R1 链接
RemoteSAM RemoteSAM:迈向地球观测的“任何东西都能分割” ACMMM2025 RemoteSAM 链接
DynamicVL DynamicVL:针对动态城市理解的多模态大语言模型基准测试 Arxiv2025 DynamicVL
LISAt LISAt:卫星影像的语言指令分割助手 Arxiv2025 LISAt 链接
EarthMind EarthMind:利用大型多模态模型迈向多粒度、多传感器的地球观测 Arxiv2025 EarthMind 链接
- 遥感大型视觉-语言模型:语义增强的多层级对齐与语义感知专家建模 Arxiv2025 论文
RLita RLita:用于遥感基础模型的区域级图像-文本对齐方法 RS2025 RLita
RingMo-Agent RingMo-Agent:用于多平台和多模态推理的统一遥感基础模型 Arxiv2025 RingMo-Agent
FUSE-RSVLM FUSE-RSVLM:用于遥感的特征融合视觉-语言模型 Arxiv2025 FUSE-RSVLM 链接
GeoReason GeoReason:通过逻辑一致性强化学习,在遥感视觉-语言模型中对思维与回答进行对齐 Arxiv2026 GeoReason 链接
RSCoVLM 用于遥感多任务学习的视觉-语言模型协同训练 RS2026 RSCoVLM 链接
GeoAlignCLIP GeoAlignCLIP:通过多粒度一致性学习提升遥感领域的细粒度视觉-语言对齐 Arxiv2026 GeoAlignCLIP

遥感生成式基础模型

缩写 标题 发表 论文 代码与权重
Seg2Sat Seg2Sat - 使用预训练扩散模型从分割图生成航拍视图 Github 链接
- 生成属于你的苏格兰:基于地图条件的卫星图像生成 NeurIPS 2023 论文 链接
GeoRSSD RS5M:用于遥感视觉-语言基础模型的大规模视觉-语言数据集 ArXiv 2023 论文 链接
DiffusionSat DiffusionSat:面向卫星影像的生成式基础模型 ICLR 2024 DiffusionSat 链接
CRS-Diff CRS-Diff:可控生成式遥感基础模型 ArXiv 2024 论文
MetaEarth MetaEarth:全球尺度遥感图像生成的生成式基础模型 ArXiv 2024 论文 链接
CRS-Diff CRS-Diff:可控生成式遥感基础模型 ArXiv 2024 论文 链接
HSIGene HSIGene:高光谱图像生成的基础模型 ArXiv 2024 论文 链接
Text2Earth Text2Earth:借助全球规模数据集和基础模型解锁文本驱动的遥感图像生成 ArXiv 2025 论文 链接

遥感视觉-位置基础模型

缩写 标题 发表 论文 代码与权重
CSP CSP:用于地理空间视觉表征的自监督对比度空间预训练 ICML 2023 CSP 链接
GeoCLIP GeoCLIP:受Clip启发的位置与图像对齐,实现高效的全球地理定位 NeurIPS 2023 GeoCLIP 链接
SatCLIP SatCLIP:利用卫星影像构建的全球通用位置嵌入 ArXiv 2023 SatCLIP 链接
RANGE RANGE:用于多分辨率地理嵌入的检索增强神经场 CVPR 2025 RANGE
GAIR GAIR:通过地理对齐的隐式表征改进多模态地理基础模型 ArXiv 2025 GAIR

遥感视觉-音频基础模型

缩写 标题 发表 论文 代码与权重
- 遥感数据的自监督视听表征学习 JAG 2022 论文 链接

遥感 任务特定 基础模型

缩写 标题 发表期刊 论文 代码与权重 任务
SS-MAE SS-MAE:用于多源遥感图像分类的空间-光谱掩码自编码器 TGRS 2023 论文 链接 图像分类
- 一种结合提示学习的解耦范式用于遥感图像变化描述 TGRS 2023 论文 链接 遥感图像变化描述
TTP 时光旅行像素:基于基础模型的双时相特征融合用于遥感图像变化检测 Arxiv 2023 论文 链接 变化检测
CSMAE 探索掩码自编码器在遥感中传感器无关图像检索中的应用 Arxiv 2024 论文 链接 图像检索
RSPrompter RSPrompter:基于视觉基础模型的遥感实例分割提示学习 TGRS 2024 论文 链接 实例分割
BAN 一种基于基础模型的遥感变化检测新学习范式 TGRS 2024 论文 链接 变化检测
- 通过 Segment Anything Model (SAM) 进行光学遥感影像与地图数据之间的变化检测 Arxiv 2024 论文 变化检测(光学与 OSM 数据)
AnyChange 分割任何变化 Arxiv 2024 论文 零样本变化检测
RS-CapRet 用于遥感图像描述和检索的大语言模型 Arxiv 2024 论文 图像描述与文本-图像检索
- 带有噪声标签的遥感图像分割任务特定预训练 Arxiv 2024 论文 图像分割(噪声标签)
RSBuilding RSBuilding:基于基础模型的通用遥感图像建筑物提取与变化检测 Arxiv 2024 论文 链接 建筑物提取与变化检测
SAM-Road 用于道路网络图提取的 Segment Anything Model Arxiv 2024 论文 链接 道路提取
CrossEarth CrossEarth:面向领域泛化的遥感语义分割地理空间视觉基础模型 Arxiv 2024 论文 链接 领域泛化遥感语义分割
GeoGround GeoGround:用于遥感视觉定位的统一大型视觉-语言模型 Arxiv 2024 论文 链接 遥感视觉定位
TPOV-Seg TPOV-Seg:用于开放词汇遥感语义分割的文本增强型视觉-语言模型提示调优 IEEE TGRS 2025 论文 开放词汇语义分割
SegEarth-OV SegEarth-OV:迈向无需训练的遥感图像开放词汇分割 CVPR 2025 论文 链接 开放词汇分割
RSRefSeg 2 RSRefSeg 2:利用基础模型解耦引用式遥感图像分割 IEEE TGRS 2026 论文 引用式图像分割
AgriFM AgriFM:用于农业制图的多源时序遥感基础模型 RSE 2026 论文 链接 作物制图 / 农业制图
SARATR-X SARATR-X:构建 SAR 目标识别的基础模型 IEEE TIP 2025 SARATR-X 链接 SAR 目标识别

遥感智能体

缩写 标题 发表会议/期刊 论文 代码与权重
GeoLLM-QA 遥感平台中工具增强型智能体的评估 ICLR 2024 ML4RS Workshop 论文
RS-Agent RS-Agent:通过智能体自动化遥感任务 Arxiv2024 论文
Change-Agent Change-Agent:迈向交互式、全面的遥感变化解读与分析 TGRS2024 论文 链接
GeoLLM-Engine GeoLLM-Engine:构建地理空间协作助手的真实环境 CVPRW2024 论文
PEACE PEACE:利用多模态大语言模型赋能地质图的整体理解 CVPR2025 论文 链接
- 面向地球观测的大语言模型智能体:UnivEARTH 数据集 Arxiv2025 论文
Geo-OLM Geo-OLM:借助低成本开源语言模型与状态驱动的工作流,推动可持续的地球观测研究 COMPASS'2025 论文 链接
ThinkGeo ThinkGeo:评估用于遥感任务的工具增强型智能体 Arxiv2025 论文 链接
AirSpatialBot AirSpatialBot:一种具备空间感知能力的空中智能体,用于细粒度车辆属性识别与检索 IEEE TGRS2025 论文 链接
OpenEarthAgent OpenEarthAgent:工具增强型地理空间智能体的统一框架 Arxiv2026 论文 链接
GeoEyes GeoEyes:针对超高分辨率遥感影像的长距离视觉-语言理解而设计的地理空间上下文缩放型智能体 Arxiv2026 论文 链接
Earth-Agent Earth-Agent:用智能体解锁地球观测的全貌 ICLR2026 论文 链接

RSFM 基准测试

缩写 标题 发表 论文 链接 下游任务
- 重新审视预训练遥感模型基准:调整大小和归一化很重要 Arxiv2023 论文 链接 分类
GEO-Bench GEO-Bench:迈向地球监测的基础模型 Arxiv2023 论文 链接 分类与分割
FoMo-Bench FoMo-Bench:用于遥感基础模型的多模态、多尺度和多任务森林监测基准 Arxiv2023 FoMo-Bench 即将发布 针对森林监测的分类、分割和检测
PhilEO PhilEO 基准:评估地理空间基础模型 Arxiv2024 论文 链接 分割与回归估计
SkySense SkySense:面向地球观测影像通用解读的多模态遥感基础模型 CVPR2024 SkySense 目标开源 分类、分割、检测、变化检测以及多模态分割:时间无关的土地覆盖制图、时间相关的作物制图和多模态场景分类
VLEO-Bench 擅长描述,不擅长计数:基于地球观测数据对 GPT-4V 的基准测试 Arxiv2024 VLEO-bench 链接 位置识别、描述、场景分类、计数、检测和变化检测
VRSBench VRSBench:用于遥感图像理解的多功能视觉-语言基准数据集 NeurIPS2024 VRSBench 链接 图像描述、对象指代和视觉问答
UrBench UrBench:在多视角城市场景中评估大型多模态模型的综合基准 AAAI2025 UrBench 链接 对象指代、视觉问答、计数、场景分类、位置识别和地理定位
PANGAEA PANGAEA:面向地理空间基础模型的全球性和包容性基准 Arxiv2024 PANGAEA 链接 分割、变化检测和回归
CHOICE CHOICE:评估和理解遥感领域视觉-语言模型的选择 NeurIPS2025 CHOICE 链接 感知与推理
GEO-Bench-VLM GEO-Bench-VLM:针对地理空间任务的视觉-语言模型基准测试 ICCV2025 GEO-Bench-VLM 链接 场景理解、计数、物体分类、事件检测和空间关系
Copernicus-Bench 迈向统一的哥白尼地球视觉基础模型 Arxiv2025 Copernicus-Bench 链接 分割、分类、变化检测和回归
REOBench REOBench:评估地球观测基础模型的鲁棒性 Arxiv2025 REOBench 链接 涵盖6项地球观测任务的鲁棒性
Plantation Bench Plantation Bench:用于分布偏移下种植园测绘的多尺度、多模态遥感基准 ICCVW2025 Plantation Bench 分布偏移下的种植园测绘
ChatEarthBench ChatEarthBench:针对地球观测的多模态大型语言模型基准测试 IEEE GRSM2026 ChatEarthBench EO多模态大型语言模型的基准测试
GeoReason-Bench GeoReason:通过逻辑一致性强化学习,在遥感视觉-语言模型中实现思维与回答的一致性 Arxiv2026 GeoReason-Bench 链接 逻辑一致性与多步推理
Earth-Bench Earth-Agent:借助智能体解锁地球观测的全貌 ICLR2026 Earth-Bench 链接 工具增强的 EO 推理、多步规划和定量时空分析
OmniEarth OmniEarth:评估视觉-语言模型在地理空间任务中表现的基准 Arxiv2026 OmniEarth 链接 感知、推理和在地理空间任务中的鲁棒性

(大规模)预训练数据集

缩写 标题 出版物 论文 属性 链接
fMoW 世界功能地图 CVPR2018 fMoW 视觉 link
SEN12MS SEN12MS -- 用于深度学习和数据融合的地理参考多光谱哨兵1/2影像精选数据集 - SEN12MS 视觉 link
BEN-MM BigEarthNet-MM:遥感图像分类与检索的大规模多模态多标签基准数据集 GRSM2021 BEN-MM 视觉 link
MillionAID 关于创建航空图像理解基准数据集:综述、指南及Million-AID JSTARS2021 MillionAID 视觉 link
SeCo 季节对比:来自未标注遥感数据的无监督预训练 ICCV2021 SeCo 视觉 link
fMoW-S2 SatMAE:用于时序和多光谱卫星影像的Transformer预训练 NeurIPS2022 fMoW-S2 视觉 link
TOV-RS-Balanced TOV:基于自监督学习的光学遥感图像理解原始视觉模型 JSTARS2023 TOV 视觉 link
SSL4EO-S12 SSL4EO-S12:地球观测中大规模多模态、多时相自监督学习数据集 GRSM2023 SSL4EO-S12 视觉 link
SSL4EO-L SSL4EO-L:用于Landsat影像的数据集和基础模型 Arxiv2023 SSL4EO-L 视觉 link
SatlasPretrain SatlasPretrain:用于遥感图像理解的大规模数据集 ICCV2023 SatlasPretrain 视觉(监督) link
CACo 面向卫星图像的变化感知采样与对比学习 CVPR2023 CACo 视觉 即将发布
SAMRS SAMRS:利用Segment Anything Model扩展遥感分割数据集 NeurIPS2023 SAMRS 视觉 link
RSVG RSVG:探索遥感数据上的视觉定位数据与模型 TGRS2023 RSVG 视觉-语言 link
RS5M RS5M:用于遥感视觉-语言基础模型的大规模视觉-语言数据集 Arxiv2023 RS5M 视觉-语言 link
GEO-Bench GEO-Bench:迈向地球监测的基础模型 Arxiv2023 GEO-Bench 视觉(评估) link
RSICap & RSIEval RSGPT:遥感视觉语言模型及基准测试 Arxiv2023 RSGPT 视觉-语言 即将发布
Clay Clay基础模型 - 视觉 link
SATIN SATIN:使用视觉-语言模型对卫星影像进行分类的多任务元数据集 ICCVW2023 SATIN 视觉-语言 link
SkyScript SkyScript:用于遥感的大规模且语义多样化的视觉-语言数据集 AAAI2024 SkyScript 视觉-语言 link
ChatEarthNet ChatEarthNet:赋能视觉-语言地理基础模型的全球规模图像-文本数据集 ESSD2025 ChatEarthNet 视觉-语言 link
LuoJiaHOG LuoJiaHOG:面向遥感图像-文本检索的层次化地理感知图像描述数据集 ISPRS JPRS2025 LuoJiaHOG 视觉-语言
MMEarth MMEarth:探索用于地理空间表征学习的多模态前置任务 Arxiv2024 MMEarth 视觉 link
SeeFar SeeFar:与卫星无关的多分辨率地理基础模型数据集 Arxiv2024 SeeFar 视觉 link
FIT-RS SkySenseGPT:用于遥感视觉-语言理解的细粒度指令微调数据集和模型 Arxiv2024 论文 视觉-语言 link
RS-GPT4V RS-GPT4V:用于遥感图像理解的统一多模态指令遵循数据集 Arxiv2024 论文 视觉-语言 link
RS-4M 在大型遥感数据集上高效扩展掩码自编码器学习 Arxiv2024 RS-4M 视觉 link
Major TOM Major TOM:可扩展的地球观测数据集 Arxiv2024 Major TOM 视觉 link
VRSBench VRSBench:用于遥感图像理解的多功能视觉-语言基准数据集 Arxiv2024 VRSBench 视觉-语言 link
MMM-RS MMM-RS:用于文本到图像生成的多模态、多GSD、多场景遥感数据集及基准测试 Arxiv2024 MMM-RS 视觉-语言 link
DDFAV DDFAV:遥感大型视觉语言模型数据集及评估基准 RS2025 DDFAV 视觉-语言 link
M3LEO 一种整合干涉合成孔径雷达与多光谱数据的多模态、多标签地球观测数据集 NeurIPS2024 M3LEO 视觉 link
Copernicus-Pretrain 迈向统一的哥白尼地球视觉基础模型 Arxiv2025 Copernicus-Pretrain 视觉 link
DGTRSD DGTRSD & DGTRS-CLIP:用于对齐的双粒度遥感图像-文本数据集及视觉语言基础模型 Arxiv2025 论文 视觉-语言 link
EarthDial-Instruct EarthDial:将多感官地球观测转化为互动对话 CVPR2025 论文 视觉-语言 link
GeoPixelD GeoPixel:在遥感中实现像素级定位的大型多模态模型 ICML2025 论文 视觉-语言 link
GeoPixInstruct GeoPix:用于遥感中像素级图像理解的多模态大型语言模型 IEEE GRSM2025 论文 视觉-语言 link
GeoLangBind-2M 重新思考遥感CLIP:利用多模态大型语言模型构建高质量视觉-语言数据集 ICONIP2024 论文 视觉-语言 link
Falcon_SFT Falcon:一种遥感视觉-语言基础模型 Arxiv2025 论文 视觉-语言 link
UnivEARTH 迈向地球观测的LLM智能体:UnivEARTH数据集 Arxiv2025 论文 视觉-语言与智能体
RemoteSAM-270K RemoteSAM:迈向地球观测的Segment Anything ACMMM2025 论文 视觉-语言 link
OpenEarthAgent Dataset OpenEarthAgent:工具增强型地理空间智能体的统一框架 Arxiv2026 论文 视觉-语言与智能体 link
UHR-CoZ GeoEyes:超高清遥感图像上长距离视觉-语言理解的地理上下文缩放智能体 Arxiv2026 论文 视觉-语言 link

嵌入数据

缩写 标题 出版物 论文 代码 数据集/产品
CLAY Embeddings Clay Model v0 嵌入 Source Cooperative2024 链接 链接
Major TOM Embeddings 地球的全局稠密嵌入:Major TOM 漂浮在潜在空间中 Arxiv2024 论文 链接 链接
Earth Genome Embeddings 面向所有人的嵌入 Medium2025 论文 链接
TESSERA TESSERA:用于地球表征与分析的预计算 FAIR 全球像素嵌入 Arxiv2025 论文 链接 链接
AlphaEarth AlphaEarth 基础:一种基于稀疏标签数据的准确高效全球制图嵌入场模型 Arxiv2025 论文 链接
ESD ** democratizing 行星尺度分析:一个超轻量级地球嵌入数据库,用于准确灵活的全球土地监测** Arxiv2026 论文 链接 链接

相关项目

标题 链接 简要介绍
RSFMs(遥感基础模型)游乐场 链接 一个开源平台,用于简化在各种数据集上对 RSFM 的评估和微调。
PANGAEA 链接 一个全球且包容性的地理空间基础模型基准测试。
GeoFM 链接 用于地球观测的基础模型评估。
rs-embed 链接 一行代码即可获取任何遥感基础模型(RSFM)在任何地点、任何时间的嵌入。

调查/评论论文

标题 发表刊物 论文链接 属性
自监督遥感特征学习:学习范式、挑战与未来工作 TGRS2023 论文 视觉与视觉-语言
Visual ChatGPT在遥感中的潜力 Arxiv2023 论文 视觉-语言
遥感大模型:进展与前瞻 武汉大学学报 (信息科学版) 2023 论文 视觉与视觉-语言
地理人工智能样本:模型、质量与服务 武汉大学学报 (信息科学版) 2023 论文 -
受大脑启发的遥感基础模型及开放问题:综合综述 JSTARS2023 论文 视觉与视觉-语言
重新审视预训练遥感模型基准:尺寸调整和归一化很重要 Arxiv2023 论文 视觉
面向地球观测的多模态基础模型议程 IGARSS2023 论文 视觉
环境遥感中的迁移学习 RSE2024 论文 迁移学习
遥感基础模型发展综述与未来设想 遥感学报2023 论文 -
关于多模态基础模型在地理、环境、农业和城市规划应用中的前景与挑战 Arxiv2023 论文 视觉-语言
遥感中的视觉-语言模型:当前进展与未来趋势 IEEE GRSM2024 论文 视觉-语言
地球与气候基础模型的基础 Arxiv2024 论文 视觉与视觉-语言
迈向视觉-语言地理基础模型:综述 Arxiv2024 论文 视觉-语言
遥感中的AI基础模型:综述 Arxiv2024 论文 视觉
通用遥感智能的基础模型:潜力与前景 Science Bulletin2024 论文 -
遥感领域视觉语言模型的进展:数据集、能力与增强技术 Arxiv2024 论文 视觉-语言
遥感与地球观测的基础模型:综述 IEEE GRSM2025 论文 视觉与视觉-语言
当遥感遇到基础模型:综述及更进一步 RS2025 论文 视觉、视觉-语言、生成模型与智能体
视觉-语言建模与遥感的结合:模型、数据集与视角 IEEE GRSM2025 论文 视觉-语言
面向地球观测下游任务的多模态遥感基础模型进展:综述 RS2025 论文 视觉与视觉-语言
遥感微调:综述 CVM2025 论文 视觉与视觉-语言
多模态遥感基础大模型:研究现状与未来展望 测绘学报2024 论文 视觉、视觉-语言、生成模型与视觉-位置
当地球科学遇到基础模型:迈向通用地球科学人工智能系统 IEEE GRSM2024 论文 视觉与视觉-语言
迈向下一代空间人工智能 JAG2025 论文 -
遥感领域的视觉基础模型:综述 IEEE GRSM2025 论文 视觉
MIMRS:遥感领域掩码图像建模综述 IGARSS2025 论文 视觉
遥感基础模型中的挑战与应用回顾 IGARSS2025 论文 视觉与视觉-语言
通过打通数据与计算孤岛释放遥感基础模型的潜力 The Innovation2025 论文 -
遥感基础模型综述:从视觉到多模态 Arxiv2025 论文 -
遥感领域基础模型的谱系 ACM TSAS2026 论文 视觉与视觉-语言
遥感基础模型的机载部署:架构、优化与硬件的全面回顾 RS2026 论文 视觉与视觉-语言
地球基础模型的基础 Communications Earth & Environment 2026 论文 视觉与视觉-语言

引用

如果您觉得本仓库有用,请考虑给个 star :star: 并引用:

@inproceedings{guo2024skysense,
  title={Skysense:面向地球观测影像通用解译的多模态遥感基础模型},
  author={郭欣、劳江伟、党博、张莹莹、于磊、茹立祥、钟利恒、黄子源、吴康、胡丁翔等},
  booktitle={IEEE/CVF计算机视觉与模式识别会议论文集},
  pages={27672--27683},
  year={2024}
}

@article{li2025unleashing,
  title={通过弥合数据与计算能力孤岛释放遥感基础模型潜力},
  author={李彦生、谭杰毅、党博、叶莽、巴塔列夫·谢尔盖·阿、申卡连科·斯坦尼斯拉夫、王琳琳、张莹莹、茹立祥、郭欣等},
  journal={The Innovation},
  year={2025},
  publisher={Elsevier}
}

@article{wu2025semantic,
  author = {吴康、张莹莹、茹立祥、党博、劳江伟、于磊、罗俊威、朱子凡、孙悦、张嘉豪、朱琪、王健、杨明、陈京东、张永军、李彦生},
  title= {用于地球观测的语义增强型多模态遥感基础模型},
  journal= {Nature Machine Intelligence},
  year= {2025},
  doi= {10.1038/s42256-025-01078-8},
  url= {https://doi.org/10.1038/s42256-025-01078-8}
}

@inproceedings{zhu2025skysense,
  title={Skysense-o:以视觉为中心的视觉-语言建模实现开放世界遥感解译},
  author={朱琪、劳江伟、季德义、罗俊威、吴康、张莹莹、茹立祥、王健、陈京东、杨明等},
  booktitle={计算机视觉与模式识别会议论文集},
  pages={14733--14744},
  year={2025}
}

@article{luo2024skysensegpt,
  title={Skysensegpt:用于遥感视觉-语言理解的细粒度指令调优数据集及模型},
  author={罗俊威、庞震、张永军、王廷柱、王琳琳、党博、劳江伟、王健、陈京东、谭义华等},
  journal={arXiv预印本 arXiv:2406.10100},
  year={2024}
}

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|2天前
Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。

74.9k|★★★☆☆|今天
语言模型图像开发框架

tesseract

Tesseract 是一款历史悠久且备受推崇的开源光学字符识别(OCR)引擎,最初由惠普实验室开发,后由 Google 维护,目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据,有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题,是数字化归档和信息自动化的重要基础工具。 在技术层面,Tesseract 展现了强大的适应能力。从版本 4 开始,它引入了基于长短期记忆网络(LSTM)的神经网络 OCR 引擎,显著提升了行识别的准确率;同时,为了兼顾旧有需求,它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码,开箱即用即可识别超过 100 种语言,并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面,它灵活支持纯文本、hOCR、PDF、TSV 等多种格式,方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库(libtesseract),不包含图形用户界面(GUI),因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中

73.3k|★★☆☆☆|3天前
开发框架图像