Awesome-Remote-Sensing-Foundation-Models
Awesome-Remote-Sensing-Foundation-Models 是一个专为遥感领域打造的开源资源合集,旨在系统性地整理与大模型相关的前沿成果。面对遥感数据规模庞大、标注成本高以及传统模型泛化能力不足的痛点,它汇聚了海量的学术论文、预训练权重、代码实现、数据集及评测基准,帮助从业者快速定位并复用现有的先进技术方案。
该资源库特别适合遥感领域的研究人员、算法工程师及开发者使用。无论是希望探索自监督学习新范式,还是需要为特定任务寻找高质量的初始化模型,都能在此找到得力助手。其核心亮点在于分类详尽且更新及时,不仅涵盖了主流的遥感视觉基础模型(如 SatMAE、SeCo),还前瞻性地收录了视觉 - 语言、生成式、视 - 位融合乃至智能体等多模态方向的前沿进展。通过提供从理论论文到可运行代码的一站式指引,Awesome-Remote-Sensing-Foundation-Models 有效降低了技术门槛,加速了遥感大模型从学术研究到实际落地的进程。
使用场景
某省级自然资源监测中心急需利用卫星影像快速识别全省范围内的违规耕地占用情况,以应对季度巡查任务。
没有 Awesome-Remote-Sensing-Foundation-Models 时
- 模型选型盲目:团队需在海量论文中手动筛选适合多光谱或 SAR 图像的预训练模型,耗时数周仍难以确定最优基线。
- 数据标注成本高昂:由于缺乏强大的通用特征提取器,针对特定地块变化检测任务需要标注数万张样本才能训练出可用模型。
- 跨传感器适配困难:面对光学与雷达混合数据,自行研发联合表征学习算法技术门槛极高,导致多源数据融合效果不佳。
- 复现周期漫长:寻找分散的代码库和权重文件极其困难,环境配置和代码调试往往占据项目 80% 的时间。
使用 Awesome-Remote-Sensing-Foundation-Models 后
- 精准锁定模型:直接查阅分类清晰的列表,迅速定位到如 SatMAE(多光谱)或 DINO-MM(SAR-光学联合)等成熟模型作为起点。
- 小样本高效微调:利用列表中提供的强大预训练权重,仅需少量标注样本即可通过微调实现高精度的违规地块识别。
- 多源数据无缝融合:直接调用已验证的视觉 - 语言或多模态基础模型代码,轻松实现光学与雷达数据的互补分析。
- 即插即用加速落地:一键获取关联的代码仓库与权重文件,将原本数月的算法研发周期压缩至几天,快速投入业务运行。
Awesome-Remote-Sensing-Foundation-Models 通过一站式聚合前沿模型、数据与代码,将遥感 AI 开发从“重复造轮子”转变为“站在巨人肩膀上”的高效创新。
运行环境要求
未说明
未说明

快速开始
Awesome 遥感基础模型
:star2:遥感基础模型(RSFM)相关的论文、数据集、基准测试、代码及预训练权重的集合。
📢 最新动态
:fire::fire::fire: 最后更新于 2026.03.13 :fire::fire::fire:
目录
- 模型
- 数据集与基准测试
- 其他
遥感视觉基础模型
| Abbreviation | Title | Publication | Paper | Code & Weights |
|---|---|---|---|---|
| GeoKR | Geographical Knowledge-Driven Representation Learning for Remote Sensing Images | TGRS2021 | GeoKR | link |
| - | Self-Supervised Learning of Remote Sensing Scene Representations Using Contrastive Multiview Coding | CVPRW2021 | Paper | link |
| GASSL | Geography-Aware Self-Supervised Learning | ICCV2021 | GASSL | link |
| SeCo | Seasonal Contrast: Unsupervised Pre-Training From Uncurated Remote Sensing Data | ICCV2021 | SeCo | link |
| DINO-MM | Self-Supervised Vision Transformers for Joint SAR-Optical Representation Learning | IGARSS2022 | DINO-MM | link |
| SatMAE | SatMAE: Pre-training Transformers for Temporal and Multi-Spectral Satellite Imagery | NeurIPS2022 | SatMAE | link |
| RS-BYOL | Self-Supervised Learning for Invariant Representations From Multi-Spectral and SAR Images | JSTARS2022 | RS-BYOL | null |
| GeCo | Geographical Supervision Correction for Remote Sensing Representation Learning | TGRS2022 | GeCo | null |
| RingMo | RingMo: A remote sensing foundation model with masked image modeling | TGRS2022 | RingMo | Code |
| RVSA | Advancing plain vision transformer toward remote sensing foundation model | TGRS2022 | RVSA | link |
| RSP | An Empirical Study of Remote Sensing Pretraining | TGRS2022 | RSP | link |
| MATTER | Self-Supervised Material and Texture Representation Learning for Remote Sensing Tasks | CVPR2022 | MATTER | null |
| CSPT | Consecutive Pre-Training: A Knowledge Transfer Learning Strategy with Relevant Unlabeled Data for Remote Sensing Domain | RS2022 | CSPT | link |
| - | Self-supervised Vision Transformers for Land-cover Segmentation and Classification | CVPRW2022 | Paper | link |
| TOV | TOV: The original vision model for optical remote sensing image understanding via self-supervised learning | JSTARS2023 | TOV | link |
| CMID | CMID: A Unified Self-Supervised Learning Framework for Remote Sensing Image Understanding | TGRS2023 | CMID | link |
| RingMo-Sense | RingMo-Sense: Remote Sensing Foundation Model for Spatiotemporal Prediction via Spatiotemporal Evolution Disentangling | TGRS2023 | RingMo-Sense | null |
| AST | AST: Adaptive Self-supervised Transformer for Optical Remote Sensing Representation | ISPRS JPRS2023 | AST | null |
| IaI-SimCLR | Multi-Modal Multi-Objective Contrastive Learning for Sentinel-1/2 Imagery | CVPRW2023 | IaI-SimCLR | null |
| CACo | Change-Aware Sampling and Contrastive Learning for Satellite Images | CVPR2023 | CACo | link |
| SatLas | SatlasPretrain: A Large-Scale Dataset for Remote Sensing Image Understanding | ICCV2023 | SatLas | link |
| GFM | Towards Geospatial Foundation Models via Continual Pretraining | ICCV2023 | GFM | link |
| Scale-MAE | Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning | ICCV2023 | Scale-MAE | link |
| DINO-MC | DINO-MC: Self-supervised Contrastive Learning for Remote Sensing Imagery with Multi-sized Local Crops | Arxiv2023 | DINO-MC | link |
| CROMA | CROMA: Remote Sensing Representations with Contrastive Radar-Optical Masked Autoencoders | NeurIPS2023 | CROMA | link |
| Cross-Scale MAE | Cross-Scale MAE: A Tale of Multiscale Exploitation in Remote Sensing | NeurIPS2023 | Cross-Scale MAE | link |
| Presto | Lightweight, Pre-trained Transformers for Remote Sensing Timeseries | Arxiv2023 | Presto | link |
| Prithvi | Foundation Models for Generalist Geospatial Artificial Intelligence | Arxiv2023 | Prithvi | link |
| - | A Self-Supervised Cross-Modal Remote Sensing Foundation Model with Multi-Domain Representation and Cross-Domain Fusion | IGARSS2023 | Paper | null |
| EarthPT | EarthPT: a time series foundation model for Earth Observation | NeurIPS2023 CCAI workshop | EarthPT | link |
| USat | USat: A Unified Self-Supervised Encoder for Multi-Sensor Satellite Imagery | Arxiv2023 | USat | link |
| AIEarth | Analytical Insight of Earth: A Cloud-Platform of Intelligent Computing for Geospatial Big Data | Arxiv2023 | AIEarth | link |
| Clay | Clay Foundation Model | - | null | link |
| Hydro | Hydro--A Foundation Model for Water in Satellite Imagery | - | null | link |
| BFM | A Billion-scale Foundation Model for Remote Sensing Images | IEEE JSTARS2024 | BFM | null |
| U-BARN | Self-Supervised Spatio-Temporal Representation Learning of Satellite Image Time Series | JSTARS2024 | Paper | link |
| GeRSP | Generic Knowledge Boosted Pretraining for Remote Sensing Images | TGRS2024 | GeRSP | GeRSP |
| SwiMDiff | SwiMDiff: Scene-Wide Matching Contrastive Learning With Diffusion Constraint for Remote Sensing Image | TGRS2024 | SwiMDiff | null |
| OFA-Net | One for All: Toward Unified Foundation Models for Earth Vision | IGARSS2024 | OFA-Net | null |
| - | Lightweight and Efficient: A Family of Multimodal Earth Observation Foundation Models | IGARSS2024 | Paper | null |
| SMLFR | Generative ConvNet Foundation Model With Sparse Modeling and Low-Frequency Reconstruction for Remote Sensing Image Interpretation | TGRS2024 | SMLFR | link |
| SpectralGPT | SpectralGPT: Spectral Remote Sensing Foundation Model | TPAMI2024 | SpectralGPT | link |
| S2MAE | S2MAE: A Spatial-Spectral Pretraining Foundation Model for Spectral Remote Sensing Data | CVPR2024 | S2MAE | null |
| SatMAE++ | Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery | CVPR2024 | SatMAE++ | link |
| msGFM | Bridging Remote Sensors with Multisensor Geospatial Foundation Models | CVPR2024 | msGFM | link |
| SkySense | SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery | CVPR2024 | SkySense | link |
| MTP | MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining | IEEE JSTARS2024 | MTP | link |
| DOFA | Neural Plasticity-Inspired Multimodal Foundation Model for Earth Observation | Arxiv2024 | DOFA | link |
| DeCUR | DeCUR: decoupling common & unique representations for multimodal self-supervision | ECCV2024 | DeCUR | link |
| MMEarth | MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning | ECCV2024 | MMEarth | link |
| LeMeViT | LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation | IJCAI2024 | LeMeViT | link |
| SoftCon | Multi-Label Guided Soft Contrastive Learning for Efficient Earth Observation Pretraining | TGRS2024 | SoftCon | link |
| RS-DFM | RS-DFM: A Remote Sensing Distributed Foundation Model for Diverse Downstream Tasks | Arxiv2024 | RS-DFM | null |
| A2-MAE | A2-MAE: A spatial-temporal-spectral unified remote sensing pre-training method based on anchor-aware masked autoencoder | Arxiv2024 | A2-MAE | null |
| OmniSat | OmniSat: Self-Supervised Modality Fusion for Earth Observation | ECCV2024 | OmniSat | link |
| MM-VSF | Towards Knowledge Guided Pretraining Approaches for Multimodal Foundation Models: Applications in Remote Sensing | Arxiv2024 | MM-VSF | null |
| MA3E | Masked Angle-Aware Autoencoder for Remote Sensing Images | ECCV2024 | MA3E | link |
| SAR-JEPA | Predicting Gradient is Better: Exploring Self-Supervised Learning for SAR ATR with a Joint-Embedding Predictive Architecture | ISPRS JPRS2024 | SAR-JEPA | link |
| PIS | Pretrain a Remote Sensing Foundation Model by Promoting Intra-instance Similarity | TGRS2024 | PIS | link |
| FG-MAE | Feature Guided Masked Autoencoder for Self-Supervised Learning in Remote Sensing | IEEE JSTARS2024 | FG-MAE | link |
| RingMo-lite | RingMo-Lite: A Remote Sensing Lightweight Network With CNN-Transformer Hybrid Framework | IEEE TGRS2024 | RingMo-lite | null |
| - | A Multimodal Unified Representation Learning Framework With Masked Image Modeling for Remote Sensing Images | IEEE TGRS2024 | Paper | null |
| - | Masked Feature Modeling for Generative Self-Supervised Representation Learning of High-Resolution Remote Sensing Images | IEEE JSTARS2024 | Paper | null |
| OReole-FM | OReole-FM: successes and challenges toward billion-parameter foundation models for high-resolution satellite imagery | SIGSPATIAL2024 | OReole-FM | null |
| SatVision-TOA | SatVision-TOA: A Geospatial Foundation Model for Coarse-Resolution All-Sky Remote Sensing Imagery | Arxiv2024 | SatVision-TOA | link |
| Prithvi-EO-2.0 | Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications | Arxiv2024 | Prithvi-EO-2.0 | link |
| WildSAT | WildSAT: Learning Satellite Image Representations from Wildlife Observations | Arxiv2024 | WildSAT | link |
| SpectralEarth | SpectralEarth: Training Hyperspectral Foundation Models at Scale | IEEE JSTARS2025 | SpectralEarth | null |
| SenPa-MAE | SenPa-MAE: Sensor Parameter Aware Masked Autoencoder for Multi-Satellite Self-Supervised Pretraining | LNCS2025 | SenPa-MAE | link |
| RingMo-Aerial | RingMo-Aerial: An Aerial Remote Sensing Foundation Model With Affine Transformation Contrastive Learning | IEEE TPAMI2025 | RingMo-Aerial | null |
| PIEViT | Pattern Integration and Enhancement Vision Transformer for Self-Supervised Learning in Remote Sensing | IEEE TGRS2025 | PIEViT | null |
| SeaMo | SeaMo: A Multi-Seasonal and Multimodal Remote Sensing Foundation Model | Information Fusion2025 | SeaMo | null |
| HyperSIGMA | HyperSIGMA: Hyperspectral Intelligence Comprehension Foundation Model | IEEE TPAMI2025 | HyperSIGMA | link |
| FoMo | FoMo: Multi-Modal, Multi-Scale and Multi-Task Remote Sensing Foundation Models for Forest Monitoring | AAAI2025 | FoMo | link |
| RingMamba | RingMamba: Remote Sensing Multisensor Pretraining With Visual State Space Model | IEEE TGRS2025 | RingMamba | null |
| CrossEarth | CrossEarth: Geospatial Vision Foundation Model for Domain Generalizable Remote Sensing Semantic Segmentation | IEEE TPAMI2025 | CrossEarth | link |
| CtxMIM | CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding | ACM TOMM2025 | CtxMIM | null |
| SatMamba | SatMamba: Development of Foundation Models for Remote Sensing Imagery Using State Space Models | Arxiv2025 | SatMamba | link |
| Galileo | Galileo: Learning Global & Local Features of Many Remote Sensing Modalities | ICML2025 TerraBytes Workshop | Galileo | link |
| SatDiFuser | Can Generative Geospatial Diffusion Models Excel as Discriminative Geospatial Foundation Models? | Arxiv2025 | SatDiFuser | null |
| RoMA | RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing | Arxiv2025 | RoMA | link |
| Panopticon | Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation | CVPR2025 | Panopticon | link |
| HyperFree | HyperFree: A Channel-adaptive and Tuning-free Foundation Model for Hyperspectral Remote Sensing Imagery | CVPR2025 | HyperFree | link |
| AnySat | AnySat: One Earth Observation Model for Many Resolutions, Scales, and Modalities | CVPR2025 | AnySat | link |
| HyperSL | HyperSL: A Spectral Foundation Model for Hyperspectral Image Interpretation | IEEE TGRS2025 | HyperSL | link |
| DynamicVis | DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding | Arxiv2025 | DynamicVis | link |
| DeepAndes | DeepAndes: A Self-Supervised Vision Foundation Model for Multispectral Remote Sensing Imagery of the Andes | IEEE JSTARS2025 | DeepAndes | null |
| TiMo | TiMo: Spatiotemporal Foundation Model for Satellite Image Time Series | Arxiv2025 | TiMo | link |
| TerraFM | TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation | Arxiv2025 | TerraFM | link |
| TESSERA | TESSERA: Temporal Embeddings of Surface Spectra for Earth Representation and Analysis | Arxiv2025 | TESSERA | link |
| CGEarthEye | CGEarthEye: A High-Resolution Remote Sensing Vision Foundation Model Based on the Jilin-1 Satellite Constellation | Arxiv2025 | CGEarthEye | null |
| MoSAiC | MoSAiC: Multi-Modal Multi-Label Supervision-Aware Contrastive Learning for Remote Sensing | Arxiv2025 | MoSAiC | null |
| AlphaEarth | AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data | Arxiv2025 | AlphaEarth | null |
| MAESTRO | MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data | Arxiv2025 | MAESTRO | link |
| FedSense | Towards Privacy-preserved Pre-training of Remote Sensing Foundation Models with Federated Mutual-guidance Learning | ICCV2025 | FedSense | null |
| RS-vHeat | RS-vHeat: Heat Conduction Guided Efficient Remote Sensing Foundation Model | ICCV2025 | RS-vHeat | null |
| Copernicus-FM | Towards a Unified Copernicus Foundation Model for Earth Vision | ICCV2025 | Copernicus-FM | link |
| SelectiveMAE | Scaling Efficient Masked Autoencoder Learning on Large Remote Sensing Dataset | ICCV2025 | SelectiveMAE | link |
| SMARTIES | SMARTIES: Spectrum-Aware Multi-Sensor Auto-Encoder for Remote Sensing Images | ICCV2025 | SMARTIES | link |
| TerraMind | TerraMind: Large-Scale Generative Multimodality for Earth Observation | ICCV2025 | TerraMind | link |
| SkySense V2 | SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing | ICCV2025 | SkySense V2 | null |
| SkySense++ | A semantic-enhanced multi-modal remote sensing foundation model for Earth observation | Nature Machine Intelligence 2025 | SkySense++ | link |
| FlexiMo | FlexiMo: A Flexible Remote Sensing Foundation Model | IEEE TGRS2026 | FlexiMo | null |
| RingMoE | RingMoE: Mixture-of-Modality-Experts Multi-Modal Foundation Models for Universal Remote Sensing Image Interpretation | IEEE TPAMI2026 | RingMoE | null |
| - | A Complex-Valued SAR Foundation Model Based on Physically Inspired Representation Learning | IEEE TIP2026 | Paper | null |
| MAPEX | MAPEX: Modality-Aware Pruning of Experts for Remote Sensing Foundation Models | IEEE TGRS2026 | MAPEX | link |
| Alliance | Alliance: All-in-One Spectral-Spatial-Frequency Awareness Foundation Model | IEEE TPAMI2026 | Alliance | null |
遥感 视觉-语言 基础模型
| 缩写 | 标题 | 发表刊物 | 论文 | 代码与权重 |
|---|---|---|---|---|
| RSGPT | RSGPT:一种遥感视觉语言模型及基准测试 | Arxiv2023 | RSGPT | 链接 |
| RemoteCLIP | RemoteCLIP:面向遥感的视觉语言基础模型 | IEEE TGRS2024 | RemoteCLIP | 链接 |
| GeoRSCLIP | RS5M:用于遥感视觉语言基础模型的大规模视觉-语言数据集 | IEEE TGRS2024 | GeoRSCLIP | 链接 |
| GRAFT | 通过地面遥感对齐实现无需标注的遥感视觉语言基础模型 | ICLR2024 | GRAFT | 无 |
| - | 开拓新领域:探索多模态大语言模型的地缘与地理空间能力 | Arxiv2023 | 论文 | 链接 |
| - | 遥感版ChatGPT:利用ChatGPT和视觉模型解决遥感任务 | Arxiv2024 | 论文 | 链接 |
| EarthGPT | EarthGPT:面向遥感领域多传感器图像理解的通用多模态大语言模型 | IEEE TGRS2024 | EarthGPT | 无 |
| SkyCLIP | SkyScript:面向遥感的大规模且语义多样化的视觉-语言数据集 | AAAI2024 | SkyCLIP | 链接 |
| GeoChat | GeoChat:面向遥感的接地型大型视觉-语言模型 | CVPR2024 | GeoChat | 链接 |
| LHRS-Bot | LHRS-Bot:借助VGI增强的大型多模态语言模型赋能遥感 | ECCV2024 | LHRS-Bot | 链接 |
| RS-LLaVA | RS-LLaVA:用于遥感影像联合字幕生成与问答的大型视觉语言模型 | RS2024 | RS-LLaVA | 链接 |
| SkySenseGPT | SkySenseGPT:用于遥感视觉语言理解的细粒度指令微调数据集及模型 | Arxiv2024 | SkySenseGPT | 链接 |
| EarthMarker | EarthMarker:用于区域级和点级遥感影像理解的视觉提示学习 | IEEE TGRS2024 | EarthMarker | 链接 |
| GeoText | 迈向自然语言引导的无人机:包含空间关系匹配的GeoText-1652基准测试 | ECCV2024 | GeoText | 链接 |
| Aquila | Aquila:一种分层对齐的视觉-语言模型,用于增强遥感图像理解 | Arxiv2024 | Aquila | 无 |
| LHRS-Bot-Nova | LHRS-Bot-Nova:改进的多模态大语言模型,用于遥感视觉-语言解读 | ISPRS JPRS2025 | LHRS-Bot-Nova | 链接 |
| RSCLIP | 在无人工标注的情况下推动遥感领域视觉-语言模型的极限 | Arxiv2024 | RSCLIP | 无 |
| GeoGround | GeoGround:用于遥感视觉定位的统一大型视觉-语言模型 | Arxiv2024 | GeoGround | 链接 |
| RingMoGPT | RingMoGPT:用于视觉、语言及接地任务的统一遥感基础模型 | TGRS2024 | RingMoGPT | 无 |
| RSUniVLM | RSUniVLM:基于面向粒度的专家混合机制的遥感统一视觉语言模型 | Arxiv2024 | RSUniVLM | 链接 |
| UniRS | UniRS:通过视觉语言模型统一多时相遥感任务 | Arxiv2024 | UniRS | 无 |
| REO-VLM | REO-VLM:改造视觉语言模型以应对地球观测中的回归挑战 | Arxiv2024 | REO-VLM | 无 |
| SkyEyeGPT | SkyEyeGPT:通过大型语言模型的指令微调统一遥感视觉-语言任务 | ISPRS JPRS2025 | SkyEyeGPT | 链接 |
| VHM | VHM:用于遥感图像分析的多功能且诚实的视觉语言模型 | AAAI2025 | VHM | 链接 |
| TEOChat | TEOChat:用于时间序列地球观测数据的大语言和视觉助手 | ICLR2025 | TEOChat | 链接 |
| EarthDial | EarthDial:将多感官地球观测转化为交互式对话 | CVPR2025 | EarthDial | 链接 |
| SkySense-O | SkySense-O:以视觉为中心的视觉-语言建模,迈向开放世界遥感解读 | CVPR2025 | SkySense-O | 链接 |
| XLRS-Bench | XLRS-Bench:您的多模态大语言模型能否理解超大规模超高分辨率遥感影像? | CVPR2025 | XLRS-Bench | 链接 |
| GeoPix | GeoPix:用于遥感中像素级图像理解的多模态大语言模型 | IEEE GRSM2025 | GeoPix | 链接 |
| GeoPixel | GeoPixel:遥感中的像素接地型大型多模态模型 | ICML2025 | GeoPixel | 链接 |
| Co-LLaVA | Co-LLaVA:通过模型协作实现高效的遥感视觉问答 | RS2025 | Co-LLaVA | 无 |
| GeoMag | GeoMag:用于像素级精细遥感图像解析的视觉-语言模型 | ACMMM2025 | GeoMag | 无 |
| - | 基于学习评分模型的质量驱动型遥感视觉-语言数据整理 | Arxiv2025 | 论文 | 无 |
| DOFA-CLIP | DOFA-CLIP:用于地球观测的多模态视觉-语言基础模型 | Arxiv2025 | DOFA-CLIP | 链接 |
| DGTRS-CLIP | DGTRSD & DGTRS-CLIP:用于对齐的双粒度遥感图像-文本数据集及视觉语言基础模型 | Arxiv2025 | DGTRS-CLIP | 链接 |
| Falcon | Falcon:一种遥感视觉-语言基础模型 | Arxiv2025 | Falcon | 链接 |
| GeoRSMLLM | GeoRSMLLM:用于地球科学和遥感领域视觉-语言任务的多模态大语言模型 | Arxiv2025 | GeoRSMLLM | 无 |
| LRS-VQA | 当大型视觉-语言模型遇到大型遥感影像时:粗粒度到细粒度的文本引导标记剪枝 | ICCV2025 | LRS-VQA | 链接 |
| UrbanLLaVA | UrbanLLaVA:具有空间推理与理解能力的城市智能多模态大语言模型 | ICCV2025 | UrbanLLaVA | 链接 |
| OmniGeo | OmniGeo:迈向用于地理空间人工智能的多模态大语言模型 | Arxiv2025 | OmniGeo | 无 |
| EagleVision | EagleVision:面向遥感的对象级属性多模态大语言模型 | Arxiv2025 | EagleVision | 链接 |
| SegEarth-R1 | SegEarth-R1:通过大语言模型进行地理空间像素推理 | Arxiv2025 | SegEarth-R1 | 链接 |
| RemoteSAM | RemoteSAM:迈向地球观测的“任何东西都能分割” | ACMMM2025 | RemoteSAM | 链接 |
| DynamicVL | DynamicVL:针对动态城市理解的多模态大语言模型基准测试 | Arxiv2025 | DynamicVL | 无 |
| LISAt | LISAt:卫星影像的语言指令分割助手 | Arxiv2025 | LISAt | 链接 |
| EarthMind | EarthMind:利用大型多模态模型迈向多粒度、多传感器的地球观测 | Arxiv2025 | EarthMind | 链接 |
| - | 遥感大型视觉-语言模型:语义增强的多层级对齐与语义感知专家建模 | Arxiv2025 | 论文 | 无 |
| RLita | RLita:用于遥感基础模型的区域级图像-文本对齐方法 | RS2025 | RLita | 无 |
| RingMo-Agent | RingMo-Agent:用于多平台和多模态推理的统一遥感基础模型 | Arxiv2025 | RingMo-Agent | 无 |
| FUSE-RSVLM | FUSE-RSVLM:用于遥感的特征融合视觉-语言模型 | Arxiv2025 | FUSE-RSVLM | 链接 |
| GeoReason | GeoReason:通过逻辑一致性强化学习,在遥感视觉-语言模型中对思维与回答进行对齐 | Arxiv2026 | GeoReason | 链接 |
| RSCoVLM | 用于遥感多任务学习的视觉-语言模型协同训练 | RS2026 | RSCoVLM | 链接 |
| GeoAlignCLIP | GeoAlignCLIP:通过多粒度一致性学习提升遥感领域的细粒度视觉-语言对齐 | Arxiv2026 | GeoAlignCLIP | 无 |
遥感生成式基础模型
| 缩写 | 标题 | 发表 | 论文 | 代码与权重 |
|---|---|---|---|---|
| Seg2Sat | Seg2Sat - 使用预训练扩散模型从分割图生成航拍视图 | Github | 无 | 链接 |
| - | 生成属于你的苏格兰:基于地图条件的卫星图像生成 | NeurIPS 2023 | 论文 | 链接 |
| GeoRSSD | RS5M:用于遥感视觉-语言基础模型的大规模视觉-语言数据集 | ArXiv 2023 | 论文 | 链接 |
| DiffusionSat | DiffusionSat:面向卫星影像的生成式基础模型 | ICLR 2024 | DiffusionSat | 链接 |
| CRS-Diff | CRS-Diff:可控生成式遥感基础模型 | ArXiv 2024 | 论文 | 无 |
| MetaEarth | MetaEarth:全球尺度遥感图像生成的生成式基础模型 | ArXiv 2024 | 论文 | 链接 |
| CRS-Diff | CRS-Diff:可控生成式遥感基础模型 | ArXiv 2024 | 论文 | 链接 |
| HSIGene | HSIGene:高光谱图像生成的基础模型 | ArXiv 2024 | 论文 | 链接 |
| Text2Earth | Text2Earth:借助全球规模数据集和基础模型解锁文本驱动的遥感图像生成 | ArXiv 2025 | 论文 | 链接 |
遥感视觉-位置基础模型
| 缩写 | 标题 | 发表 | 论文 | 代码与权重 |
|---|---|---|---|---|
| CSP | CSP:用于地理空间视觉表征的自监督对比度空间预训练 | ICML 2023 | CSP | 链接 |
| GeoCLIP | GeoCLIP:受Clip启发的位置与图像对齐,实现高效的全球地理定位 | NeurIPS 2023 | GeoCLIP | 链接 |
| SatCLIP | SatCLIP:利用卫星影像构建的全球通用位置嵌入 | ArXiv 2023 | SatCLIP | 链接 |
| RANGE | RANGE:用于多分辨率地理嵌入的检索增强神经场 | CVPR 2025 | RANGE | 无 |
| GAIR | GAIR:通过地理对齐的隐式表征改进多模态地理基础模型 | ArXiv 2025 | GAIR | 无 |
遥感视觉-音频基础模型
| 缩写 | 标题 | 发表 | 论文 | 代码与权重 |
|---|---|---|---|---|
| - | 遥感数据的自监督视听表征学习 | JAG 2022 | 论文 | 链接 |
遥感 任务特定 基础模型
| 缩写 | 标题 | 发表期刊 | 论文 | 代码与权重 | 任务 |
|---|---|---|---|---|---|
| SS-MAE | SS-MAE:用于多源遥感图像分类的空间-光谱掩码自编码器 | TGRS 2023 | 论文 | 链接 | 图像分类 |
| - | 一种结合提示学习的解耦范式用于遥感图像变化描述 | TGRS 2023 | 论文 | 链接 | 遥感图像变化描述 |
| TTP | 时光旅行像素:基于基础模型的双时相特征融合用于遥感图像变化检测 | Arxiv 2023 | 论文 | 链接 | 变化检测 |
| CSMAE | 探索掩码自编码器在遥感中传感器无关图像检索中的应用 | Arxiv 2024 | 论文 | 链接 | 图像检索 |
| RSPrompter | RSPrompter:基于视觉基础模型的遥感实例分割提示学习 | TGRS 2024 | 论文 | 链接 | 实例分割 |
| BAN | 一种基于基础模型的遥感变化检测新学习范式 | TGRS 2024 | 论文 | 链接 | 变化检测 |
| - | 通过 Segment Anything Model (SAM) 进行光学遥感影像与地图数据之间的变化检测 | Arxiv 2024 | 论文 | 无 | 变化检测(光学与 OSM 数据) |
| AnyChange | 分割任何变化 | Arxiv 2024 | 论文 | 无 | 零样本变化检测 |
| RS-CapRet | 用于遥感图像描述和检索的大语言模型 | Arxiv 2024 | 论文 | 无 | 图像描述与文本-图像检索 |
| - | 带有噪声标签的遥感图像分割任务特定预训练 | Arxiv 2024 | 论文 | 无 | 图像分割(噪声标签) |
| RSBuilding | RSBuilding:基于基础模型的通用遥感图像建筑物提取与变化检测 | Arxiv 2024 | 论文 | 链接 | 建筑物提取与变化检测 |
| SAM-Road | 用于道路网络图提取的 Segment Anything Model | Arxiv 2024 | 论文 | 链接 | 道路提取 |
| CrossEarth | CrossEarth:面向领域泛化的遥感语义分割地理空间视觉基础模型 | Arxiv 2024 | 论文 | 链接 | 领域泛化遥感语义分割 |
| GeoGround | GeoGround:用于遥感视觉定位的统一大型视觉-语言模型 | Arxiv 2024 | 论文 | 链接 | 遥感视觉定位 |
| TPOV-Seg | TPOV-Seg:用于开放词汇遥感语义分割的文本增强型视觉-语言模型提示调优 | IEEE TGRS 2025 | 论文 | 无 | 开放词汇语义分割 |
| SegEarth-OV | SegEarth-OV:迈向无需训练的遥感图像开放词汇分割 | CVPR 2025 | 论文 | 链接 | 开放词汇分割 |
| RSRefSeg 2 | RSRefSeg 2:利用基础模型解耦引用式遥感图像分割 | IEEE TGRS 2026 | 论文 | 无 | 引用式图像分割 |
| AgriFM | AgriFM:用于农业制图的多源时序遥感基础模型 | RSE 2026 | 论文 | 链接 | 作物制图 / 农业制图 |
| SARATR-X | SARATR-X:构建 SAR 目标识别的基础模型 | IEEE TIP 2025 | SARATR-X | 链接 | SAR 目标识别 |
遥感智能体
| 缩写 | 标题 | 发表会议/期刊 | 论文 | 代码与权重 |
|---|---|---|---|---|
| GeoLLM-QA | 遥感平台中工具增强型智能体的评估 | ICLR 2024 ML4RS Workshop | 论文 | 无 |
| RS-Agent | RS-Agent:通过智能体自动化遥感任务 | Arxiv2024 | 论文 | 无 |
| Change-Agent | Change-Agent:迈向交互式、全面的遥感变化解读与分析 | TGRS2024 | 论文 | 链接 |
| GeoLLM-Engine | GeoLLM-Engine:构建地理空间协作助手的真实环境 | CVPRW2024 | 论文 | 无 |
| PEACE | PEACE:利用多模态大语言模型赋能地质图的整体理解 | CVPR2025 | 论文 | 链接 |
| - | 面向地球观测的大语言模型智能体:UnivEARTH 数据集 | Arxiv2025 | 论文 | 无 |
| Geo-OLM | Geo-OLM:借助低成本开源语言模型与状态驱动的工作流,推动可持续的地球观测研究 | COMPASS'2025 | 论文 | 链接 |
| ThinkGeo | ThinkGeo:评估用于遥感任务的工具增强型智能体 | Arxiv2025 | 论文 | 链接 |
| AirSpatialBot | AirSpatialBot:一种具备空间感知能力的空中智能体,用于细粒度车辆属性识别与检索 | IEEE TGRS2025 | 论文 | 链接 |
| OpenEarthAgent | OpenEarthAgent:工具增强型地理空间智能体的统一框架 | Arxiv2026 | 论文 | 链接 |
| GeoEyes | GeoEyes:针对超高分辨率遥感影像的长距离视觉-语言理解而设计的地理空间上下文缩放型智能体 | Arxiv2026 | 论文 | 链接 |
| Earth-Agent | Earth-Agent:用智能体解锁地球观测的全貌 | ICLR2026 | 论文 | 链接 |
RSFM 基准测试
| 缩写 | 标题 | 发表 | 论文 | 链接 | 下游任务 |
|---|---|---|---|---|---|
| - | 重新审视预训练遥感模型基准:调整大小和归一化很重要 | Arxiv2023 | 论文 | 链接 | 分类 |
| GEO-Bench | GEO-Bench:迈向地球监测的基础模型 | Arxiv2023 | 论文 | 链接 | 分类与分割 |
| FoMo-Bench | FoMo-Bench:用于遥感基础模型的多模态、多尺度和多任务森林监测基准 | Arxiv2023 | FoMo-Bench | 即将发布 | 针对森林监测的分类、分割和检测 |
| PhilEO | PhilEO 基准:评估地理空间基础模型 | Arxiv2024 | 论文 | 链接 | 分割与回归估计 |
| SkySense | SkySense:面向地球观测影像通用解读的多模态遥感基础模型 | CVPR2024 | SkySense | 目标开源 | 分类、分割、检测、变化检测以及多模态分割:时间无关的土地覆盖制图、时间相关的作物制图和多模态场景分类 |
| VLEO-Bench | 擅长描述,不擅长计数:基于地球观测数据对 GPT-4V 的基准测试 | Arxiv2024 | VLEO-bench | 链接 | 位置识别、描述、场景分类、计数、检测和变化检测 |
| VRSBench | VRSBench:用于遥感图像理解的多功能视觉-语言基准数据集 | NeurIPS2024 | VRSBench | 链接 | 图像描述、对象指代和视觉问答 |
| UrBench | UrBench:在多视角城市场景中评估大型多模态模型的综合基准 | AAAI2025 | UrBench | 链接 | 对象指代、视觉问答、计数、场景分类、位置识别和地理定位 |
| PANGAEA | PANGAEA:面向地理空间基础模型的全球性和包容性基准 | Arxiv2024 | PANGAEA | 链接 | 分割、变化检测和回归 |
| CHOICE | CHOICE:评估和理解遥感领域视觉-语言模型的选择 | NeurIPS2025 | CHOICE | 链接 | 感知与推理 |
| GEO-Bench-VLM | GEO-Bench-VLM:针对地理空间任务的视觉-语言模型基准测试 | ICCV2025 | GEO-Bench-VLM | 链接 | 场景理解、计数、物体分类、事件检测和空间关系 |
| Copernicus-Bench | 迈向统一的哥白尼地球视觉基础模型 | Arxiv2025 | Copernicus-Bench | 链接 | 分割、分类、变化检测和回归 |
| REOBench | REOBench:评估地球观测基础模型的鲁棒性 | Arxiv2025 | REOBench | 链接 | 涵盖6项地球观测任务的鲁棒性 |
| Plantation Bench | Plantation Bench:用于分布偏移下种植园测绘的多尺度、多模态遥感基准 | ICCVW2025 | Plantation Bench | 无 | 分布偏移下的种植园测绘 |
| ChatEarthBench | ChatEarthBench:针对地球观测的多模态大型语言模型基准测试 | IEEE GRSM2026 | ChatEarthBench | 无 | EO多模态大型语言模型的基准测试 |
| GeoReason-Bench | GeoReason:通过逻辑一致性强化学习,在遥感视觉-语言模型中实现思维与回答的一致性 | Arxiv2026 | GeoReason-Bench | 链接 | 逻辑一致性与多步推理 |
| Earth-Bench | Earth-Agent:借助智能体解锁地球观测的全貌 | ICLR2026 | Earth-Bench | 链接 | 工具增强的 EO 推理、多步规划和定量时空分析 |
| OmniEarth | OmniEarth:评估视觉-语言模型在地理空间任务中表现的基准 | Arxiv2026 | OmniEarth | 链接 | 感知、推理和在地理空间任务中的鲁棒性 |
(大规模)预训练数据集
| 缩写 | 标题 | 出版物 | 论文 | 属性 | 链接 |
|---|---|---|---|---|---|
| fMoW | 世界功能地图 | CVPR2018 | fMoW | 视觉 | link |
| SEN12MS | SEN12MS -- 用于深度学习和数据融合的地理参考多光谱哨兵1/2影像精选数据集 | - | SEN12MS | 视觉 | link |
| BEN-MM | BigEarthNet-MM:遥感图像分类与检索的大规模多模态多标签基准数据集 | GRSM2021 | BEN-MM | 视觉 | link |
| MillionAID | 关于创建航空图像理解基准数据集:综述、指南及Million-AID | JSTARS2021 | MillionAID | 视觉 | link |
| SeCo | 季节对比:来自未标注遥感数据的无监督预训练 | ICCV2021 | SeCo | 视觉 | link |
| fMoW-S2 | SatMAE:用于时序和多光谱卫星影像的Transformer预训练 | NeurIPS2022 | fMoW-S2 | 视觉 | link |
| TOV-RS-Balanced | TOV:基于自监督学习的光学遥感图像理解原始视觉模型 | JSTARS2023 | TOV | 视觉 | link |
| SSL4EO-S12 | SSL4EO-S12:地球观测中大规模多模态、多时相自监督学习数据集 | GRSM2023 | SSL4EO-S12 | 视觉 | link |
| SSL4EO-L | SSL4EO-L:用于Landsat影像的数据集和基础模型 | Arxiv2023 | SSL4EO-L | 视觉 | link |
| SatlasPretrain | SatlasPretrain:用于遥感图像理解的大规模数据集 | ICCV2023 | SatlasPretrain | 视觉(监督) | link |
| CACo | 面向卫星图像的变化感知采样与对比学习 | CVPR2023 | CACo | 视觉 | 即将发布 |
| SAMRS | SAMRS:利用Segment Anything Model扩展遥感分割数据集 | NeurIPS2023 | SAMRS | 视觉 | link |
| RSVG | RSVG:探索遥感数据上的视觉定位数据与模型 | TGRS2023 | RSVG | 视觉-语言 | link |
| RS5M | RS5M:用于遥感视觉-语言基础模型的大规模视觉-语言数据集 | Arxiv2023 | RS5M | 视觉-语言 | link |
| GEO-Bench | GEO-Bench:迈向地球监测的基础模型 | Arxiv2023 | GEO-Bench | 视觉(评估) | link |
| RSICap & RSIEval | RSGPT:遥感视觉语言模型及基准测试 | Arxiv2023 | RSGPT | 视觉-语言 | 即将发布 |
| Clay | Clay基础模型 | - | 无 | 视觉 | link |
| SATIN | SATIN:使用视觉-语言模型对卫星影像进行分类的多任务元数据集 | ICCVW2023 | SATIN | 视觉-语言 | link |
| SkyScript | SkyScript:用于遥感的大规模且语义多样化的视觉-语言数据集 | AAAI2024 | SkyScript | 视觉-语言 | link |
| ChatEarthNet | ChatEarthNet:赋能视觉-语言地理基础模型的全球规模图像-文本数据集 | ESSD2025 | ChatEarthNet | 视觉-语言 | link |
| LuoJiaHOG | LuoJiaHOG:面向遥感图像-文本检索的层次化地理感知图像描述数据集 | ISPRS JPRS2025 | LuoJiaHOG | 视觉-语言 | 无 |
| MMEarth | MMEarth:探索用于地理空间表征学习的多模态前置任务 | Arxiv2024 | MMEarth | 视觉 | link |
| SeeFar | SeeFar:与卫星无关的多分辨率地理基础模型数据集 | Arxiv2024 | SeeFar | 视觉 | link |
| FIT-RS | SkySenseGPT:用于遥感视觉-语言理解的细粒度指令微调数据集和模型 | Arxiv2024 | 论文 | 视觉-语言 | link |
| RS-GPT4V | RS-GPT4V:用于遥感图像理解的统一多模态指令遵循数据集 | Arxiv2024 | 论文 | 视觉-语言 | link |
| RS-4M | 在大型遥感数据集上高效扩展掩码自编码器学习 | Arxiv2024 | RS-4M | 视觉 | link |
| Major TOM | Major TOM:可扩展的地球观测数据集 | Arxiv2024 | Major TOM | 视觉 | link |
| VRSBench | VRSBench:用于遥感图像理解的多功能视觉-语言基准数据集 | Arxiv2024 | VRSBench | 视觉-语言 | link |
| MMM-RS | MMM-RS:用于文本到图像生成的多模态、多GSD、多场景遥感数据集及基准测试 | Arxiv2024 | MMM-RS | 视觉-语言 | link |
| DDFAV | DDFAV:遥感大型视觉语言模型数据集及评估基准 | RS2025 | DDFAV | 视觉-语言 | link |
| M3LEO | 一种整合干涉合成孔径雷达与多光谱数据的多模态、多标签地球观测数据集 | NeurIPS2024 | M3LEO | 视觉 | link |
| Copernicus-Pretrain | 迈向统一的哥白尼地球视觉基础模型 | Arxiv2025 | Copernicus-Pretrain | 视觉 | link |
| DGTRSD | DGTRSD & DGTRS-CLIP:用于对齐的双粒度遥感图像-文本数据集及视觉语言基础模型 | Arxiv2025 | 论文 | 视觉-语言 | link |
| EarthDial-Instruct | EarthDial:将多感官地球观测转化为互动对话 | CVPR2025 | 论文 | 视觉-语言 | link |
| GeoPixelD | GeoPixel:在遥感中实现像素级定位的大型多模态模型 | ICML2025 | 论文 | 视觉-语言 | link |
| GeoPixInstruct | GeoPix:用于遥感中像素级图像理解的多模态大型语言模型 | IEEE GRSM2025 | 论文 | 视觉-语言 | link |
| GeoLangBind-2M | 重新思考遥感CLIP:利用多模态大型语言模型构建高质量视觉-语言数据集 | ICONIP2024 | 论文 | 视觉-语言 | link |
| Falcon_SFT | Falcon:一种遥感视觉-语言基础模型 | Arxiv2025 | 论文 | 视觉-语言 | link |
| UnivEARTH | 迈向地球观测的LLM智能体:UnivEARTH数据集 | Arxiv2025 | 论文 | 视觉-语言与智能体 | 无 |
| RemoteSAM-270K | RemoteSAM:迈向地球观测的Segment Anything | ACMMM2025 | 论文 | 视觉-语言 | link |
| OpenEarthAgent Dataset | OpenEarthAgent:工具增强型地理空间智能体的统一框架 | Arxiv2026 | 论文 | 视觉-语言与智能体 | link |
| UHR-CoZ | GeoEyes:超高清遥感图像上长距离视觉-语言理解的地理上下文缩放智能体 | Arxiv2026 | 论文 | 视觉-语言 | link |
嵌入数据
| 缩写 | 标题 | 出版物 | 论文 | 代码 | 数据集/产品 |
|---|---|---|---|---|---|
| CLAY Embeddings | Clay Model v0 嵌入 | Source Cooperative2024 | 无 | 链接 | 链接 |
| Major TOM Embeddings | 地球的全局稠密嵌入:Major TOM 漂浮在潜在空间中 | Arxiv2024 | 论文 | 链接 | 链接 |
| Earth Genome Embeddings | 面向所有人的嵌入 | Medium2025 | 论文 | 无 | 链接 |
| TESSERA | TESSERA:用于地球表征与分析的预计算 FAIR 全球像素嵌入 | Arxiv2025 | 论文 | 链接 | 链接 |
| AlphaEarth | AlphaEarth 基础:一种基于稀疏标签数据的准确高效全球制图嵌入场模型 | Arxiv2025 | 论文 | 无 | 链接 |
| ESD | ** democratizing 行星尺度分析:一个超轻量级地球嵌入数据库,用于准确灵活的全球土地监测** | Arxiv2026 | 论文 | 链接 | 链接 |
相关项目
| 标题 | 链接 | 简要介绍 |
|---|---|---|
| RSFMs(遥感基础模型)游乐场 | 链接 | 一个开源平台,用于简化在各种数据集上对 RSFM 的评估和微调。 |
| PANGAEA | 链接 | 一个全球且包容性的地理空间基础模型基准测试。 |
| GeoFM | 链接 | 用于地球观测的基础模型评估。 |
| rs-embed | 链接 | 一行代码即可获取任何遥感基础模型(RSFM)在任何地点、任何时间的嵌入。 |
调查/评论论文
| 标题 | 发表刊物 | 论文链接 | 属性 |
|---|---|---|---|
| 自监督遥感特征学习:学习范式、挑战与未来工作 | TGRS2023 | 论文 | 视觉与视觉-语言 |
| Visual ChatGPT在遥感中的潜力 | Arxiv2023 | 论文 | 视觉-语言 |
| 遥感大模型:进展与前瞻 | 武汉大学学报 (信息科学版) 2023 | 论文 | 视觉与视觉-语言 |
| 地理人工智能样本:模型、质量与服务 | 武汉大学学报 (信息科学版) 2023 | 论文 | - |
| 受大脑启发的遥感基础模型及开放问题:综合综述 | JSTARS2023 | 论文 | 视觉与视觉-语言 |
| 重新审视预训练遥感模型基准:尺寸调整和归一化很重要 | Arxiv2023 | 论文 | 视觉 |
| 面向地球观测的多模态基础模型议程 | IGARSS2023 | 论文 | 视觉 |
| 环境遥感中的迁移学习 | RSE2024 | 论文 | 迁移学习 |
| 遥感基础模型发展综述与未来设想 | 遥感学报2023 | 论文 | - |
| 关于多模态基础模型在地理、环境、农业和城市规划应用中的前景与挑战 | Arxiv2023 | 论文 | 视觉-语言 |
| 遥感中的视觉-语言模型:当前进展与未来趋势 | IEEE GRSM2024 | 论文 | 视觉-语言 |
| 地球与气候基础模型的基础 | Arxiv2024 | 论文 | 视觉与视觉-语言 |
| 迈向视觉-语言地理基础模型:综述 | Arxiv2024 | 论文 | 视觉-语言 |
| 遥感中的AI基础模型:综述 | Arxiv2024 | 论文 | 视觉 |
| 通用遥感智能的基础模型:潜力与前景 | Science Bulletin2024 | 论文 | - |
| 遥感领域视觉语言模型的进展:数据集、能力与增强技术 | Arxiv2024 | 论文 | 视觉-语言 |
| 遥感与地球观测的基础模型:综述 | IEEE GRSM2025 | 论文 | 视觉与视觉-语言 |
| 当遥感遇到基础模型:综述及更进一步 | RS2025 | 论文 | 视觉、视觉-语言、生成模型与智能体 |
| 视觉-语言建模与遥感的结合:模型、数据集与视角 | IEEE GRSM2025 | 论文 | 视觉-语言 |
| 面向地球观测下游任务的多模态遥感基础模型进展:综述 | RS2025 | 论文 | 视觉与视觉-语言 |
| 遥感微调:综述 | CVM2025 | 论文 | 视觉与视觉-语言 |
| 多模态遥感基础大模型:研究现状与未来展望 | 测绘学报2024 | 论文 | 视觉、视觉-语言、生成模型与视觉-位置 |
| 当地球科学遇到基础模型:迈向通用地球科学人工智能系统 | IEEE GRSM2024 | 论文 | 视觉与视觉-语言 |
| 迈向下一代空间人工智能 | JAG2025 | 论文 | - |
| 遥感领域的视觉基础模型:综述 | IEEE GRSM2025 | 论文 | 视觉 |
| MIMRS:遥感领域掩码图像建模综述 | IGARSS2025 | 论文 | 视觉 |
| 遥感基础模型中的挑战与应用回顾 | IGARSS2025 | 论文 | 视觉与视觉-语言 |
| 通过打通数据与计算孤岛释放遥感基础模型的潜力 | The Innovation2025 | 论文 | - |
| 遥感基础模型综述:从视觉到多模态 | Arxiv2025 | 论文 | - |
| 遥感领域基础模型的谱系 | ACM TSAS2026 | 论文 | 视觉与视觉-语言 |
| 遥感基础模型的机载部署:架构、优化与硬件的全面回顾 | RS2026 | 论文 | 视觉与视觉-语言 |
| 地球基础模型的基础 | Communications Earth & Environment 2026 | 论文 | 视觉与视觉-语言 |
引用
如果您觉得本仓库有用,请考虑给个 star :star: 并引用:
@inproceedings{guo2024skysense,
title={Skysense:面向地球观测影像通用解译的多模态遥感基础模型},
author={郭欣、劳江伟、党博、张莹莹、于磊、茹立祥、钟利恒、黄子源、吴康、胡丁翔等},
booktitle={IEEE/CVF计算机视觉与模式识别会议论文集},
pages={27672--27683},
year={2024}
}
@article{li2025unleashing,
title={通过弥合数据与计算能力孤岛释放遥感基础模型潜力},
author={李彦生、谭杰毅、党博、叶莽、巴塔列夫·谢尔盖·阿、申卡连科·斯坦尼斯拉夫、王琳琳、张莹莹、茹立祥、郭欣等},
journal={The Innovation},
year={2025},
publisher={Elsevier}
}
@article{wu2025semantic,
author = {吴康、张莹莹、茹立祥、党博、劳江伟、于磊、罗俊威、朱子凡、孙悦、张嘉豪、朱琪、王健、杨明、陈京东、张永军、李彦生},
title= {用于地球观测的语义增强型多模态遥感基础模型},
journal= {Nature Machine Intelligence},
year= {2025},
doi= {10.1038/s42256-025-01078-8},
url= {https://doi.org/10.1038/s42256-025-01078-8}
}
@inproceedings{zhu2025skysense,
title={Skysense-o:以视觉为中心的视觉-语言建模实现开放世界遥感解译},
author={朱琪、劳江伟、季德义、罗俊威、吴康、张莹莹、茹立祥、王健、陈京东、杨明等},
booktitle={计算机视觉与模式识别会议论文集},
pages={14733--14744},
year={2025}
}
@article{luo2024skysensegpt,
title={Skysensegpt:用于遥感视觉-语言理解的细粒度指令调优数据集及模型},
author={罗俊威、庞震、张永军、王廷柱、王琳琳、党博、劳江伟、王健、陈京东、谭义华等},
journal={arXiv预印本 arXiv:2406.10100},
year={2024}
}
常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。
PaddleOCR
PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。
tesseract
Tesseract 是一款历史悠久且备受推崇的开源光学字符识别(OCR)引擎,最初由惠普实验室开发,后由 Google 维护,目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据,有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题,是数字化归档和信息自动化的重要基础工具。 在技术层面,Tesseract 展现了强大的适应能力。从版本 4 开始,它引入了基于长短期记忆网络(LSTM)的神经网络 OCR 引擎,显著提升了行识别的准确率;同时,为了兼顾旧有需求,它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码,开箱即用即可识别超过 100 种语言,并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面,它灵活支持纯文本、hOCR、PDF、TSV 等多种格式,方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库(libtesseract),不包含图形用户界面(GUI),因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中