Awesome-Remote-Sensing-Foundation-Models

1.8k 161 简单 1 次阅读昨天图像其他

AI 解读由 AI 自动生成，仅供参考

Awesome-Remote-Sensing-Foundation-Models 是一个专为遥感领域打造的开源资源合集，旨在系统性地整理与大模型相关的前沿成果。面对遥感数据规模庞大、标注成本高以及传统模型泛化能力不足的痛点，它汇聚了海量的学术论文、预训练权重、代码实现、数据集及评测基准，帮助从业者快速定位并复用现有的先进技术方案。

该资源库特别适合遥感领域的研究人员、算法工程师及开发者使用。无论是希望探索自监督学习新范式，还是需要为特定任务寻找高质量的初始化模型，都能在此找到得力助手。其核心亮点在于分类详尽且更新及时，不仅涵盖了主流的遥感视觉基础模型（如 SatMAE、SeCo），还前瞻性地收录了视觉 - 语言、生成式、视 - 位融合乃至智能体等多模态方向的前沿进展。通过提供从理论论文到可运行代码的一站式指引，Awesome-Remote-Sensing-Foundation-Models 有效降低了技术门槛，加速了遥感大模型从学术研究到实际落地的进程。

使用场景

某省级自然资源监测中心急需利用卫星影像快速识别全省范围内的违规耕地占用情况，以应对季度巡查任务。

没有 Awesome-Remote-Sensing-Foundation-Models 时

模型选型盲目：团队需在海量论文中手动筛选适合多光谱或 SAR 图像的预训练模型，耗时数周仍难以确定最优基线。
数据标注成本高昂：由于缺乏强大的通用特征提取器，针对特定地块变化检测任务需要标注数万张样本才能训练出可用模型。
跨传感器适配困难：面对光学与雷达混合数据，自行研发联合表征学习算法技术门槛极高，导致多源数据融合效果不佳。
复现周期漫长：寻找分散的代码库和权重文件极其困难，环境配置和代码调试往往占据项目 80% 的时间。

使用 Awesome-Remote-Sensing-Foundation-Models 后

精准锁定模型：直接查阅分类清晰的列表，迅速定位到如 SatMAE（多光谱）或 DINO-MM（SAR-光学联合）等成熟模型作为起点。
小样本高效微调：利用列表中提供的强大预训练权重，仅需少量标注样本即可通过微调实现高精度的违规地块识别。
多源数据无缝融合：直接调用已验证的视觉 - 语言或多模态基础模型代码，轻松实现光学与雷达数据的互补分析。
即插即用加速落地：一键获取关联的代码仓库与权重文件，将原本数月的算法研发周期压缩至几天，快速投入业务运行。

Awesome-Remote-Sensing-Foundation-Models 通过一站式聚合前沿模型、数据与代码，将遥感 AI 开发从“重复造轮子”转变为“站在巨人肩膀上”的高效创新。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库是一个遥感基础模型（RSFMs）的论文、数据集、基准测试、代码和预训练权重的集合列表（Awesome List），本身不是一个单一的独立软件工具。因此，README 中未提供统一的运行环境需求。具体的操作系统、GPU、内存、Python 版本及依赖库要求取决于用户选择运行的列表中某个特定模型（如 SatMAE, RingMo, SpectralGPT 等），需参考各模型对应的独立代码仓库链接获取详细安装说明。

python未说明

Awesome-Remote-Sensing-Foundation-Models hero image

快速开始

`Awesome 遥感基础模型`

:star2:遥感基础模型（RSFM）相关的论文、数据集、基准测试、代码及预训练权重的集合。

📢 最新动态

:fire::fire::fire: 最后更新于 2026.03.13 :fire::fire::fire:

遥感视觉基础模型

Abbreviation	Title	Publication	Paper	Code & Weights
GeoKR	Geographical Knowledge-Driven Representation Learning for Remote Sensing Images	TGRS2021	GeoKR	link
-	Self-Supervised Learning of Remote Sensing Scene Representations Using Contrastive Multiview Coding	CVPRW2021	Paper	link
GASSL	Geography-Aware Self-Supervised Learning	ICCV2021	GASSL	link
SeCo	Seasonal Contrast: Unsupervised Pre-Training From Uncurated Remote Sensing Data	ICCV2021	SeCo	link
DINO-MM	Self-Supervised Vision Transformers for Joint SAR-Optical Representation Learning	IGARSS2022	DINO-MM	link
SatMAE	SatMAE: Pre-training Transformers for Temporal and Multi-Spectral Satellite Imagery	NeurIPS2022	SatMAE	link
RS-BYOL	Self-Supervised Learning for Invariant Representations From Multi-Spectral and SAR Images	JSTARS2022	RS-BYOL	null
GeCo	Geographical Supervision Correction for Remote Sensing Representation Learning	TGRS2022	GeCo	null
RingMo	RingMo: A remote sensing foundation model with masked image modeling	TGRS2022	RingMo	Code
RVSA	Advancing plain vision transformer toward remote sensing foundation model	TGRS2022	RVSA	link
RSP	An Empirical Study of Remote Sensing Pretraining	TGRS2022	RSP	link
MATTER	Self-Supervised Material and Texture Representation Learning for Remote Sensing Tasks	CVPR2022	MATTER	null
CSPT	Consecutive Pre-Training: A Knowledge Transfer Learning Strategy with Relevant Unlabeled Data for Remote Sensing Domain	RS2022	CSPT	link
-	Self-supervised Vision Transformers for Land-cover Segmentation and Classification	CVPRW2022	Paper	link
TOV	TOV: The original vision model for optical remote sensing image understanding via self-supervised learning	JSTARS2023	TOV	link
CMID	CMID: A Unified Self-Supervised Learning Framework for Remote Sensing Image Understanding	TGRS2023	CMID	link
RingMo-Sense	RingMo-Sense: Remote Sensing Foundation Model for Spatiotemporal Prediction via Spatiotemporal Evolution Disentangling	TGRS2023	RingMo-Sense	null
AST	AST: Adaptive Self-supervised Transformer for Optical Remote Sensing Representation	ISPRS JPRS2023	AST	null
IaI-SimCLR	Multi-Modal Multi-Objective Contrastive Learning for Sentinel-1/2 Imagery	CVPRW2023	IaI-SimCLR	null
CACo	Change-Aware Sampling and Contrastive Learning for Satellite Images	CVPR2023	CACo	link
SatLas	SatlasPretrain: A Large-Scale Dataset for Remote Sensing Image Understanding	ICCV2023	SatLas	link
GFM	Towards Geospatial Foundation Models via Continual Pretraining	ICCV2023	GFM	link
Scale-MAE	Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning	ICCV2023	Scale-MAE	link
DINO-MC	DINO-MC: Self-supervised Contrastive Learning for Remote Sensing Imagery with Multi-sized Local Crops	Arxiv2023	DINO-MC	link
CROMA	CROMA: Remote Sensing Representations with Contrastive Radar-Optical Masked Autoencoders	NeurIPS2023	CROMA	link
Cross-Scale MAE	Cross-Scale MAE: A Tale of Multiscale Exploitation in Remote Sensing	NeurIPS2023	Cross-Scale MAE	link
Presto	Lightweight, Pre-trained Transformers for Remote Sensing Timeseries	Arxiv2023	Presto	link
Prithvi	Foundation Models for Generalist Geospatial Artificial Intelligence	Arxiv2023	Prithvi	link
-	A Self-Supervised Cross-Modal Remote Sensing Foundation Model with Multi-Domain Representation and Cross-Domain Fusion	IGARSS2023	Paper	null
EarthPT	EarthPT: a time series foundation model for Earth Observation	NeurIPS2023 CCAI workshop	EarthPT	link
USat	USat: A Unified Self-Supervised Encoder for Multi-Sensor Satellite Imagery	Arxiv2023	USat	link
AIEarth	Analytical Insight of Earth: A Cloud-Platform of Intelligent Computing for Geospatial Big Data	Arxiv2023	AIEarth	link
Clay	Clay Foundation Model	-	null	link
Hydro	Hydro--A Foundation Model for Water in Satellite Imagery	-	null	link
BFM	A Billion-scale Foundation Model for Remote Sensing Images	IEEE JSTARS2024	BFM	null
U-BARN	Self-Supervised Spatio-Temporal Representation Learning of Satellite Image Time Series	JSTARS2024	Paper	link
GeRSP	Generic Knowledge Boosted Pretraining for Remote Sensing Images	TGRS2024	GeRSP	GeRSP
SwiMDiff	SwiMDiff: Scene-Wide Matching Contrastive Learning With Diffusion Constraint for Remote Sensing Image	TGRS2024	SwiMDiff	null
OFA-Net	One for All: Toward Unified Foundation Models for Earth Vision	IGARSS2024	OFA-Net	null
-	Lightweight and Efficient: A Family of Multimodal Earth Observation Foundation Models	IGARSS2024	Paper	null
SMLFR	Generative ConvNet Foundation Model With Sparse Modeling and Low-Frequency Reconstruction for Remote Sensing Image Interpretation	TGRS2024	SMLFR	link
SpectralGPT	SpectralGPT: Spectral Remote Sensing Foundation Model	TPAMI2024	SpectralGPT	link
S2MAE	S2MAE: A Spatial-Spectral Pretraining Foundation Model for Spectral Remote Sensing Data	CVPR2024	S2MAE	null
SatMAE++	Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery	CVPR2024	SatMAE++	link
msGFM	Bridging Remote Sensors with Multisensor Geospatial Foundation Models	CVPR2024	msGFM	link
SkySense	SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery	CVPR2024	SkySense	link
MTP	MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining	IEEE JSTARS2024	MTP	link
DOFA	Neural Plasticity-Inspired Multimodal Foundation Model for Earth Observation	Arxiv2024	DOFA	link
DeCUR	DeCUR: decoupling common & unique representations for multimodal self-supervision	ECCV2024	DeCUR	link
MMEarth	MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning	ECCV2024	MMEarth	link
LeMeViT	LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation	IJCAI2024	LeMeViT	link
SoftCon	Multi-Label Guided Soft Contrastive Learning for Efficient Earth Observation Pretraining	TGRS2024	SoftCon	link
RS-DFM	RS-DFM: A Remote Sensing Distributed Foundation Model for Diverse Downstream Tasks	Arxiv2024	RS-DFM	null
A2-MAE	A2-MAE: A spatial-temporal-spectral unified remote sensing pre-training method based on anchor-aware masked autoencoder	Arxiv2024	A2-MAE	null
OmniSat	OmniSat: Self-Supervised Modality Fusion for Earth Observation	ECCV2024	OmniSat	link
MM-VSF	Towards Knowledge Guided Pretraining Approaches for Multimodal Foundation Models: Applications in Remote Sensing	Arxiv2024	MM-VSF	null
MA3E	Masked Angle-Aware Autoencoder for Remote Sensing Images	ECCV2024	MA3E	link
SAR-JEPA	Predicting Gradient is Better: Exploring Self-Supervised Learning for SAR ATR with a Joint-Embedding Predictive Architecture	ISPRS JPRS2024	SAR-JEPA	link
PIS	Pretrain a Remote Sensing Foundation Model by Promoting Intra-instance Similarity	TGRS2024	PIS	link
FG-MAE	Feature Guided Masked Autoencoder for Self-Supervised Learning in Remote Sensing	IEEE JSTARS2024	FG-MAE	link
RingMo-lite	RingMo-Lite: A Remote Sensing Lightweight Network With CNN-Transformer Hybrid Framework	IEEE TGRS2024	RingMo-lite	null
-	A Multimodal Unified Representation Learning Framework With Masked Image Modeling for Remote Sensing Images	IEEE TGRS2024	Paper	null
-	Masked Feature Modeling for Generative Self-Supervised Representation Learning of High-Resolution Remote Sensing Images	IEEE JSTARS2024	Paper	null
OReole-FM	OReole-FM: successes and challenges toward billion-parameter foundation models for high-resolution satellite imagery	SIGSPATIAL2024	OReole-FM	null
SatVision-TOA	SatVision-TOA: A Geospatial Foundation Model for Coarse-Resolution All-Sky Remote Sensing Imagery	Arxiv2024	SatVision-TOA	link
Prithvi-EO-2.0	Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications	Arxiv2024	Prithvi-EO-2.0	link
WildSAT	WildSAT: Learning Satellite Image Representations from Wildlife Observations	Arxiv2024	WildSAT	link
SpectralEarth	SpectralEarth: Training Hyperspectral Foundation Models at Scale	IEEE JSTARS2025	SpectralEarth	null
SenPa-MAE	SenPa-MAE: Sensor Parameter Aware Masked Autoencoder for Multi-Satellite Self-Supervised Pretraining	LNCS2025	SenPa-MAE	link
RingMo-Aerial	RingMo-Aerial: An Aerial Remote Sensing Foundation Model With Affine Transformation Contrastive Learning	IEEE TPAMI2025	RingMo-Aerial	null
PIEViT	Pattern Integration and Enhancement Vision Transformer for Self-Supervised Learning in Remote Sensing	IEEE TGRS2025	PIEViT	null
SeaMo	SeaMo: A Multi-Seasonal and Multimodal Remote Sensing Foundation Model	Information Fusion2025	SeaMo	null
HyperSIGMA	HyperSIGMA: Hyperspectral Intelligence Comprehension Foundation Model	IEEE TPAMI2025	HyperSIGMA	link
FoMo	FoMo: Multi-Modal, Multi-Scale and Multi-Task Remote Sensing Foundation Models for Forest Monitoring	AAAI2025	FoMo	link
RingMamba	RingMamba: Remote Sensing Multisensor Pretraining With Visual State Space Model	IEEE TGRS2025	RingMamba	null
CrossEarth	CrossEarth: Geospatial Vision Foundation Model for Domain Generalizable Remote Sensing Semantic Segmentation	IEEE TPAMI2025	CrossEarth	link
CtxMIM	CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding	ACM TOMM2025	CtxMIM	null
SatMamba	SatMamba: Development of Foundation Models for Remote Sensing Imagery Using State Space Models	Arxiv2025	SatMamba	link
Galileo	Galileo: Learning Global & Local Features of Many Remote Sensing Modalities	ICML2025 TerraBytes Workshop	Galileo	link
SatDiFuser	Can Generative Geospatial Diffusion Models Excel as Discriminative Geospatial Foundation Models?	Arxiv2025	SatDiFuser	null
RoMA	RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing	Arxiv2025	RoMA	link
Panopticon	Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation	CVPR2025	Panopticon	link
HyperFree	HyperFree: A Channel-adaptive and Tuning-free Foundation Model for Hyperspectral Remote Sensing Imagery	CVPR2025	HyperFree	link
AnySat	AnySat: One Earth Observation Model for Many Resolutions, Scales, and Modalities	CVPR2025	AnySat	link
HyperSL	HyperSL: A Spectral Foundation Model for Hyperspectral Image Interpretation	IEEE TGRS2025	HyperSL	link
DynamicVis	DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding	Arxiv2025	DynamicVis	link
DeepAndes	DeepAndes: A Self-Supervised Vision Foundation Model for Multispectral Remote Sensing Imagery of the Andes	IEEE JSTARS2025	DeepAndes	null
TiMo	TiMo: Spatiotemporal Foundation Model for Satellite Image Time Series	Arxiv2025	TiMo	link
TerraFM	TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation	Arxiv2025	TerraFM	link
TESSERA	TESSERA: Temporal Embeddings of Surface Spectra for Earth Representation and Analysis	Arxiv2025	TESSERA	link
CGEarthEye	CGEarthEye: A High-Resolution Remote Sensing Vision Foundation Model Based on the Jilin-1 Satellite Constellation	Arxiv2025	CGEarthEye	null
MoSAiC	MoSAiC: Multi-Modal Multi-Label Supervision-Aware Contrastive Learning for Remote Sensing	Arxiv2025	MoSAiC	null
AlphaEarth	AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data	Arxiv2025	AlphaEarth	null
MAESTRO	MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data	Arxiv2025	MAESTRO	link
FedSense	Towards Privacy-preserved Pre-training of Remote Sensing Foundation Models with Federated Mutual-guidance Learning	ICCV2025	FedSense	null
RS-vHeat	RS-vHeat: Heat Conduction Guided Efficient Remote Sensing Foundation Model	ICCV2025	RS-vHeat	null
Copernicus-FM	Towards a Unified Copernicus Foundation Model for Earth Vision	ICCV2025	Copernicus-FM	link
SelectiveMAE	Scaling Efficient Masked Autoencoder Learning on Large Remote Sensing Dataset	ICCV2025	SelectiveMAE	link
SMARTIES	SMARTIES: Spectrum-Aware Multi-Sensor Auto-Encoder for Remote Sensing Images	ICCV2025	SMARTIES	link
TerraMind	TerraMind: Large-Scale Generative Multimodality for Earth Observation	ICCV2025	TerraMind	link
SkySense V2	SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing	ICCV2025	SkySense V2	null
SkySense++	A semantic-enhanced multi-modal remote sensing foundation model for Earth observation	Nature Machine Intelligence 2025	SkySense++	link
FlexiMo	FlexiMo: A Flexible Remote Sensing Foundation Model	IEEE TGRS2026	FlexiMo	null
RingMoE	RingMoE: Mixture-of-Modality-Experts Multi-Modal Foundation Models for Universal Remote Sensing Image Interpretation	IEEE TPAMI2026	RingMoE	null
-	A Complex-Valued SAR Foundation Model Based on Physically Inspired Representation Learning	IEEE TIP2026	Paper	null
MAPEX	MAPEX: Modality-Aware Pruning of Experts for Remote Sensing Foundation Models	IEEE TGRS2026	MAPEX	link
Alliance	Alliance: All-in-One Spectral-Spatial-Frequency Awareness Foundation Model	IEEE TPAMI2026	Alliance	null

遥感视觉-语言基础模型

缩写	标题	发表刊物	论文	代码与权重
RSGPT	RSGPT：一种遥感视觉语言模型及基准测试	Arxiv2023	RSGPT	链接
RemoteCLIP	RemoteCLIP：面向遥感的视觉语言基础模型	IEEE TGRS2024	RemoteCLIP	链接
GeoRSCLIP	RS5M：用于遥感视觉语言基础模型的大规模视觉-语言数据集	IEEE TGRS2024	GeoRSCLIP	链接
GRAFT	通过地面遥感对齐实现无需标注的遥感视觉语言基础模型	ICLR2024	GRAFT	无
-	开拓新领域：探索多模态大语言模型的地缘与地理空间能力	Arxiv2023	论文	链接
-	遥感版ChatGPT：利用ChatGPT和视觉模型解决遥感任务	Arxiv2024	论文	链接
EarthGPT	EarthGPT：面向遥感领域多传感器图像理解的通用多模态大语言模型	IEEE TGRS2024	EarthGPT	无
SkyCLIP	SkyScript：面向遥感的大规模且语义多样化的视觉-语言数据集	AAAI2024	SkyCLIP	链接
GeoChat	GeoChat：面向遥感的接地型大型视觉-语言模型	CVPR2024	GeoChat	链接
LHRS-Bot	LHRS-Bot：借助VGI增强的大型多模态语言模型赋能遥感	ECCV2024	LHRS-Bot	链接
RS-LLaVA	RS-LLaVA：用于遥感影像联合字幕生成与问答的大型视觉语言模型	RS2024	RS-LLaVA	链接
SkySenseGPT	SkySenseGPT：用于遥感视觉语言理解的细粒度指令微调数据集及模型	Arxiv2024	SkySenseGPT	链接
EarthMarker	EarthMarker：用于区域级和点级遥感影像理解的视觉提示学习	IEEE TGRS2024	EarthMarker	链接
GeoText	迈向自然语言引导的无人机：包含空间关系匹配的GeoText-1652基准测试	ECCV2024	GeoText	链接
Aquila	Aquila：一种分层对齐的视觉-语言模型，用于增强遥感图像理解	Arxiv2024	Aquila	无
LHRS-Bot-Nova	LHRS-Bot-Nova：改进的多模态大语言模型，用于遥感视觉-语言解读	ISPRS JPRS2025	LHRS-Bot-Nova	链接
RSCLIP	在无人工标注的情况下推动遥感领域视觉-语言模型的极限	Arxiv2024	RSCLIP	无
GeoGround	GeoGround：用于遥感视觉定位的统一大型视觉-语言模型	Arxiv2024	GeoGround	链接
RingMoGPT	RingMoGPT：用于视觉、语言及接地任务的统一遥感基础模型	TGRS2024	RingMoGPT	无
RSUniVLM	RSUniVLM：基于面向粒度的专家混合机制的遥感统一视觉语言模型	Arxiv2024	RSUniVLM	链接
UniRS	UniRS：通过视觉语言模型统一多时相遥感任务	Arxiv2024	UniRS	无
REO-VLM	REO-VLM：改造视觉语言模型以应对地球观测中的回归挑战	Arxiv2024	REO-VLM	无
SkyEyeGPT	SkyEyeGPT：通过大型语言模型的指令微调统一遥感视觉-语言任务	ISPRS JPRS2025	SkyEyeGPT	链接
VHM	VHM：用于遥感图像分析的多功能且诚实的视觉语言模型	AAAI2025	VHM	链接
TEOChat	TEOChat：用于时间序列地球观测数据的大语言和视觉助手	ICLR2025	TEOChat	链接
EarthDial	EarthDial：将多感官地球观测转化为交互式对话	CVPR2025	EarthDial	链接
SkySense-O	SkySense-O：以视觉为中心的视觉-语言建模，迈向开放世界遥感解读	CVPR2025	SkySense-O	链接
XLRS-Bench	XLRS-Bench：您的多模态大语言模型能否理解超大规模超高分辨率遥感影像？	CVPR2025	XLRS-Bench	链接
GeoPix	GeoPix：用于遥感中像素级图像理解的多模态大语言模型	IEEE GRSM2025	GeoPix	链接
GeoPixel	GeoPixel：遥感中的像素接地型大型多模态模型	ICML2025	GeoPixel	链接
Co-LLaVA	Co-LLaVA：通过模型协作实现高效的遥感视觉问答	RS2025	Co-LLaVA	无
GeoMag	GeoMag：用于像素级精细遥感图像解析的视觉-语言模型	ACMMM2025	GeoMag	无
-	基于学习评分模型的质量驱动型遥感视觉-语言数据整理	Arxiv2025	论文	无
DOFA-CLIP	DOFA-CLIP：用于地球观测的多模态视觉-语言基础模型	Arxiv2025	DOFA-CLIP	链接
DGTRS-CLIP	DGTRSD & DGTRS-CLIP：用于对齐的双粒度遥感图像-文本数据集及视觉语言基础模型	Arxiv2025	DGTRS-CLIP	链接
Falcon	Falcon：一种遥感视觉-语言基础模型	Arxiv2025	Falcon	链接
GeoRSMLLM	GeoRSMLLM：用于地球科学和遥感领域视觉-语言任务的多模态大语言模型	Arxiv2025	GeoRSMLLM	无
LRS-VQA	当大型视觉-语言模型遇到大型遥感影像时：粗粒度到细粒度的文本引导标记剪枝	ICCV2025	LRS-VQA	链接
UrbanLLaVA	UrbanLLaVA：具有空间推理与理解能力的城市智能多模态大语言模型	ICCV2025	UrbanLLaVA	链接
OmniGeo	OmniGeo：迈向用于地理空间人工智能的多模态大语言模型	Arxiv2025	OmniGeo	无
EagleVision	EagleVision：面向遥感的对象级属性多模态大语言模型	Arxiv2025	EagleVision	链接
SegEarth-R1	SegEarth-R1：通过大语言模型进行地理空间像素推理	Arxiv2025	SegEarth-R1	链接
RemoteSAM	RemoteSAM：迈向地球观测的“任何东西都能分割”	ACMMM2025	RemoteSAM	链接
DynamicVL	DynamicVL：针对动态城市理解的多模态大语言模型基准测试	Arxiv2025	DynamicVL	无
LISAt	LISAt：卫星影像的语言指令分割助手	Arxiv2025	LISAt	链接
EarthMind	EarthMind：利用大型多模态模型迈向多粒度、多传感器的地球观测	Arxiv2025	EarthMind	链接
-	遥感大型视觉-语言模型：语义增强的多层级对齐与语义感知专家建模	Arxiv2025	论文	无
RLita	RLita：用于遥感基础模型的区域级图像-文本对齐方法	RS2025	RLita	无
RingMo-Agent	RingMo-Agent：用于多平台和多模态推理的统一遥感基础模型	Arxiv2025	RingMo-Agent	无
FUSE-RSVLM	FUSE-RSVLM：用于遥感的特征融合视觉-语言模型	Arxiv2025	FUSE-RSVLM	链接
GeoReason	GeoReason：通过逻辑一致性强化学习，在遥感视觉-语言模型中对思维与回答进行对齐	Arxiv2026	GeoReason	链接
RSCoVLM	用于遥感多任务学习的视觉-语言模型协同训练	RS2026	RSCoVLM	链接
GeoAlignCLIP	GeoAlignCLIP：通过多粒度一致性学习提升遥感领域的细粒度视觉-语言对齐	Arxiv2026	GeoAlignCLIP	无

遥感生成式基础模型

缩写	标题	发表	论文	代码与权重
Seg2Sat	Seg2Sat - 使用预训练扩散模型从分割图生成航拍视图	Github	无	链接
-	生成属于你的苏格兰：基于地图条件的卫星图像生成	NeurIPS 2023	论文	链接
GeoRSSD	RS5M：用于遥感视觉-语言基础模型的大规模视觉-语言数据集	ArXiv 2023	论文	链接
DiffusionSat	DiffusionSat：面向卫星影像的生成式基础模型	ICLR 2024	DiffusionSat	链接
CRS-Diff	CRS-Diff：可控生成式遥感基础模型	ArXiv 2024	论文	无
MetaEarth	MetaEarth：全球尺度遥感图像生成的生成式基础模型	ArXiv 2024	论文	链接
CRS-Diff	CRS-Diff：可控生成式遥感基础模型	ArXiv 2024	论文	链接
HSIGene	HSIGene：高光谱图像生成的基础模型	ArXiv 2024	论文	链接
Text2Earth	Text2Earth：借助全球规模数据集和基础模型解锁文本驱动的遥感图像生成	ArXiv 2025	论文	链接

遥感视觉-位置基础模型

缩写	标题	发表	论文	代码与权重
CSP	CSP：用于地理空间视觉表征的自监督对比度空间预训练	ICML 2023	CSP	链接
GeoCLIP	GeoCLIP：受Clip启发的位置与图像对齐，实现高效的全球地理定位	NeurIPS 2023	GeoCLIP	链接
SatCLIP	SatCLIP：利用卫星影像构建的全球通用位置嵌入	ArXiv 2023	SatCLIP	链接
RANGE	RANGE：用于多分辨率地理嵌入的检索增强神经场	CVPR 2025	RANGE	无
GAIR	GAIR：通过地理对齐的隐式表征改进多模态地理基础模型	ArXiv 2025	GAIR	无

遥感视觉-音频基础模型

缩写	标题	发表	论文	代码与权重
-	遥感数据的自监督视听表征学习	JAG 2022	论文	链接

遥感任务特定基础模型

缩写	标题	发表期刊	论文	代码与权重	任务
SS-MAE	SS-MAE：用于多源遥感图像分类的空间-光谱掩码自编码器	TGRS 2023	论文	链接	图像分类
-	一种结合提示学习的解耦范式用于遥感图像变化描述	TGRS 2023	论文	链接	遥感图像变化描述
TTP	时光旅行像素：基于基础模型的双时相特征融合用于遥感图像变化检测	Arxiv 2023	论文	链接	变化检测
CSMAE	探索掩码自编码器在遥感中传感器无关图像检索中的应用	Arxiv 2024	论文	链接	图像检索
RSPrompter	RSPrompter：基于视觉基础模型的遥感实例分割提示学习	TGRS 2024	论文	链接	实例分割
BAN	一种基于基础模型的遥感变化检测新学习范式	TGRS 2024	论文	链接	变化检测
-	通过 Segment Anything Model (SAM) 进行光学遥感影像与地图数据之间的变化检测	Arxiv 2024	论文	无	变化检测（光学与 OSM 数据）
AnyChange	分割任何变化	Arxiv 2024	论文	无	零样本变化检测
RS-CapRet	用于遥感图像描述和检索的大语言模型	Arxiv 2024	论文	无	图像描述与文本-图像检索
-	带有噪声标签的遥感图像分割任务特定预训练	Arxiv 2024	论文	无	图像分割（噪声标签）
RSBuilding	RSBuilding：基于基础模型的通用遥感图像建筑物提取与变化检测	Arxiv 2024	论文	链接	建筑物提取与变化检测
SAM-Road	用于道路网络图提取的 Segment Anything Model	Arxiv 2024	论文	链接	道路提取
CrossEarth	CrossEarth：面向领域泛化的遥感语义分割地理空间视觉基础模型	Arxiv 2024	论文	链接	领域泛化遥感语义分割
GeoGround	GeoGround：用于遥感视觉定位的统一大型视觉-语言模型	Arxiv 2024	论文	链接	遥感视觉定位
TPOV-Seg	TPOV-Seg：用于开放词汇遥感语义分割的文本增强型视觉-语言模型提示调优	IEEE TGRS 2025	论文	无	开放词汇语义分割
SegEarth-OV	SegEarth-OV：迈向无需训练的遥感图像开放词汇分割	CVPR 2025	论文	链接	开放词汇分割
RSRefSeg 2	RSRefSeg 2：利用基础模型解耦引用式遥感图像分割	IEEE TGRS 2026	论文	无	引用式图像分割
AgriFM	AgriFM：用于农业制图的多源时序遥感基础模型	RSE 2026	论文	链接	作物制图 / 农业制图
SARATR-X	SARATR-X：构建 SAR 目标识别的基础模型	IEEE TIP 2025	SARATR-X	链接	SAR 目标识别

遥感智能体

缩写	标题	发表会议/期刊	论文	代码与权重
GeoLLM-QA	遥感平台中工具增强型智能体的评估	ICLR 2024 ML4RS Workshop	论文	无
RS-Agent	RS-Agent：通过智能体自动化遥感任务	Arxiv2024	论文	无
Change-Agent	Change-Agent：迈向交互式、全面的遥感变化解读与分析	TGRS2024	论文	链接
GeoLLM-Engine	GeoLLM-Engine：构建地理空间协作助手的真实环境	CVPRW2024	论文	无
PEACE	PEACE：利用多模态大语言模型赋能地质图的整体理解	CVPR2025	论文	链接
-	面向地球观测的大语言模型智能体：UnivEARTH 数据集	Arxiv2025	论文	无
Geo-OLM	Geo-OLM：借助低成本开源语言模型与状态驱动的工作流，推动可持续的地球观测研究	COMPASS'2025	论文	链接
ThinkGeo	ThinkGeo：评估用于遥感任务的工具增强型智能体	Arxiv2025	论文	链接
AirSpatialBot	AirSpatialBot：一种具备空间感知能力的空中智能体，用于细粒度车辆属性识别与检索	IEEE TGRS2025	论文	链接
OpenEarthAgent	OpenEarthAgent：工具增强型地理空间智能体的统一框架	Arxiv2026	论文	链接
GeoEyes	GeoEyes：针对超高分辨率遥感影像的长距离视觉-语言理解而设计的地理空间上下文缩放型智能体	Arxiv2026	论文	链接
Earth-Agent	Earth-Agent：用智能体解锁地球观测的全貌	ICLR2026	论文	链接

RSFM 基准测试

缩写	标题	发表	论文	链接	下游任务
-	重新审视预训练遥感模型基准：调整大小和归一化很重要	Arxiv2023	论文	链接	分类
GEO-Bench	GEO-Bench：迈向地球监测的基础模型	Arxiv2023	论文	链接	分类与分割
FoMo-Bench	FoMo-Bench：用于遥感基础模型的多模态、多尺度和多任务森林监测基准	Arxiv2023	FoMo-Bench	即将发布	针对森林监测的分类、分割和检测
PhilEO	PhilEO 基准：评估地理空间基础模型	Arxiv2024	论文	链接	分割与回归估计
SkySense	SkySense：面向地球观测影像通用解读的多模态遥感基础模型	CVPR2024	SkySense	目标开源	分类、分割、检测、变化检测以及多模态分割：时间无关的土地覆盖制图、时间相关的作物制图和多模态场景分类
VLEO-Bench	擅长描述，不擅长计数：基于地球观测数据对 GPT-4V 的基准测试	Arxiv2024	VLEO-bench	链接	位置识别、描述、场景分类、计数、检测和变化检测
VRSBench	VRSBench：用于遥感图像理解的多功能视觉-语言基准数据集	NeurIPS2024	VRSBench	链接	图像描述、对象指代和视觉问答
UrBench	UrBench：在多视角城市场景中评估大型多模态模型的综合基准	AAAI2025	UrBench	链接	对象指代、视觉问答、计数、场景分类、位置识别和地理定位
PANGAEA	PANGAEA：面向地理空间基础模型的全球性和包容性基准	Arxiv2024	PANGAEA	链接	分割、变化检测和回归
CHOICE	CHOICE：评估和理解遥感领域视觉-语言模型的选择	NeurIPS2025	CHOICE	链接	感知与推理
GEO-Bench-VLM	GEO-Bench-VLM：针对地理空间任务的视觉-语言模型基准测试	ICCV2025	GEO-Bench-VLM	链接	场景理解、计数、物体分类、事件检测和空间关系
Copernicus-Bench	迈向统一的哥白尼地球视觉基础模型	Arxiv2025	Copernicus-Bench	链接	分割、分类、变化检测和回归
REOBench	REOBench：评估地球观测基础模型的鲁棒性	Arxiv2025	REOBench	链接	涵盖6项地球观测任务的鲁棒性
Plantation Bench	Plantation Bench：用于分布偏移下种植园测绘的多尺度、多模态遥感基准	ICCVW2025	Plantation Bench	无	分布偏移下的种植园测绘
ChatEarthBench	ChatEarthBench：针对地球观测的多模态大型语言模型基准测试	IEEE GRSM2026	ChatEarthBench	无	EO多模态大型语言模型的基准测试
GeoReason-Bench	GeoReason：通过逻辑一致性强化学习，在遥感视觉-语言模型中实现思维与回答的一致性	Arxiv2026	GeoReason-Bench	链接	逻辑一致性与多步推理
Earth-Bench	Earth-Agent：借助智能体解锁地球观测的全貌	ICLR2026	Earth-Bench	链接	工具增强的 EO 推理、多步规划和定量时空分析
OmniEarth	OmniEarth：评估视觉-语言模型在地理空间任务中表现的基准	Arxiv2026	OmniEarth	链接	感知、推理和在地理空间任务中的鲁棒性

（大规模）预训练数据集

缩写	标题	出版物	论文	属性	链接
fMoW	世界功能地图	CVPR2018	fMoW	视觉	link
SEN12MS	SEN12MS -- 用于深度学习和数据融合的地理参考多光谱哨兵1/2影像精选数据集	-	SEN12MS	视觉	link
BEN-MM	BigEarthNet-MM：遥感图像分类与检索的大规模多模态多标签基准数据集	GRSM2021	BEN-MM	视觉	link
MillionAID	关于创建航空图像理解基准数据集：综述、指南及Million-AID	JSTARS2021	MillionAID	视觉	link
SeCo	季节对比：来自未标注遥感数据的无监督预训练	ICCV2021	SeCo	视觉	link
fMoW-S2	SatMAE：用于时序和多光谱卫星影像的Transformer预训练	NeurIPS2022	fMoW-S2	视觉	link
TOV-RS-Balanced	TOV：基于自监督学习的光学遥感图像理解原始视觉模型	JSTARS2023	TOV	视觉	link
SSL4EO-S12	SSL4EO-S12：地球观测中大规模多模态、多时相自监督学习数据集	GRSM2023	SSL4EO-S12	视觉	link
SSL4EO-L	SSL4EO-L：用于Landsat影像的数据集和基础模型	Arxiv2023	SSL4EO-L	视觉	link
SatlasPretrain	SatlasPretrain：用于遥感图像理解的大规模数据集	ICCV2023	SatlasPretrain	视觉（监督）	link
CACo	面向卫星图像的变化感知采样与对比学习	CVPR2023	CACo	视觉	即将发布
SAMRS	SAMRS：利用Segment Anything Model扩展遥感分割数据集	NeurIPS2023	SAMRS	视觉	link
RSVG	RSVG：探索遥感数据上的视觉定位数据与模型	TGRS2023	RSVG	视觉-语言	link
RS5M	RS5M：用于遥感视觉-语言基础模型的大规模视觉-语言数据集	Arxiv2023	RS5M	视觉-语言	link
GEO-Bench	GEO-Bench：迈向地球监测的基础模型	Arxiv2023	GEO-Bench	视觉（评估）	link
RSICap & RSIEval	RSGPT：遥感视觉语言模型及基准测试	Arxiv2023	RSGPT	视觉-语言	即将发布
Clay	Clay基础模型	-	无	视觉	link
SATIN	SATIN：使用视觉-语言模型对卫星影像进行分类的多任务元数据集	ICCVW2023	SATIN	视觉-语言	link
SkyScript	SkyScript：用于遥感的大规模且语义多样化的视觉-语言数据集	AAAI2024	SkyScript	视觉-语言	link
ChatEarthNet	ChatEarthNet：赋能视觉-语言地理基础模型的全球规模图像-文本数据集	ESSD2025	ChatEarthNet	视觉-语言	link
LuoJiaHOG	LuoJiaHOG：面向遥感图像-文本检索的层次化地理感知图像描述数据集	ISPRS JPRS2025	LuoJiaHOG	视觉-语言	无
MMEarth	MMEarth：探索用于地理空间表征学习的多模态前置任务	Arxiv2024	MMEarth	视觉	link
SeeFar	SeeFar：与卫星无关的多分辨率地理基础模型数据集	Arxiv2024	SeeFar	视觉	link
FIT-RS	SkySenseGPT：用于遥感视觉-语言理解的细粒度指令微调数据集和模型	Arxiv2024	论文	视觉-语言	link
RS-GPT4V	RS-GPT4V：用于遥感图像理解的统一多模态指令遵循数据集	Arxiv2024	论文	视觉-语言	link
RS-4M	在大型遥感数据集上高效扩展掩码自编码器学习	Arxiv2024	RS-4M	视觉	link
Major TOM	Major TOM：可扩展的地球观测数据集	Arxiv2024	Major TOM	视觉	link
VRSBench	VRSBench：用于遥感图像理解的多功能视觉-语言基准数据集	Arxiv2024	VRSBench	视觉-语言	link
MMM-RS	MMM-RS：用于文本到图像生成的多模态、多GSD、多场景遥感数据集及基准测试	Arxiv2024	MMM-RS	视觉-语言	link
DDFAV	DDFAV：遥感大型视觉语言模型数据集及评估基准	RS2025	DDFAV	视觉-语言	link
M3LEO	一种整合干涉合成孔径雷达与多光谱数据的多模态、多标签地球观测数据集	NeurIPS2024	M3LEO	视觉	link
Copernicus-Pretrain	迈向统一的哥白尼地球视觉基础模型	Arxiv2025	Copernicus-Pretrain	视觉	link
DGTRSD	DGTRSD & DGTRS-CLIP：用于对齐的双粒度遥感图像-文本数据集及视觉语言基础模型	Arxiv2025	论文	视觉-语言	link
EarthDial-Instruct	EarthDial：将多感官地球观测转化为互动对话	CVPR2025	论文	视觉-语言	link
GeoPixelD	GeoPixel：在遥感中实现像素级定位的大型多模态模型	ICML2025	论文	视觉-语言	link
GeoPixInstruct	GeoPix：用于遥感中像素级图像理解的多模态大型语言模型	IEEE GRSM2025	论文	视觉-语言	link
GeoLangBind-2M	重新思考遥感CLIP：利用多模态大型语言模型构建高质量视觉-语言数据集	ICONIP2024	论文	视觉-语言	link
Falcon_SFT	Falcon：一种遥感视觉-语言基础模型	Arxiv2025	论文	视觉-语言	link
UnivEARTH	迈向地球观测的LLM智能体：UnivEARTH数据集	Arxiv2025	论文	视觉-语言与智能体	无
RemoteSAM-270K	RemoteSAM：迈向地球观测的Segment Anything	ACMMM2025	论文	视觉-语言	link
OpenEarthAgent Dataset	OpenEarthAgent：工具增强型地理空间智能体的统一框架	Arxiv2026	论文	视觉-语言与智能体	link
UHR-CoZ	GeoEyes：超高清遥感图像上长距离视觉-语言理解的地理上下文缩放智能体	Arxiv2026	论文	视觉-语言	link

嵌入数据

缩写	标题	出版物	论文	代码	数据集/产品
CLAY Embeddings	Clay Model v0 嵌入	Source Cooperative2024	无	链接	链接
Major TOM Embeddings	地球的全局稠密嵌入：Major TOM 漂浮在潜在空间中	Arxiv2024	论文	链接	链接
Earth Genome Embeddings	面向所有人的嵌入	Medium2025	论文	无	链接
TESSERA	TESSERA：用于地球表征与分析的预计算 FAIR 全球像素嵌入	Arxiv2025	论文	链接	链接
AlphaEarth	AlphaEarth 基础：一种基于稀疏标签数据的准确高效全球制图嵌入场模型	Arxiv2025	论文	无	链接
ESD	democratizing 行星尺度分析：一个超轻量级地球嵌入数据库，用于准确灵活的全球土地监测	Arxiv2026	论文	链接	链接

标题	链接	简要介绍
RSFMs（遥感基础模型）游乐场	链接	一个开源平台，用于简化在各种数据集上对 RSFM 的评估和微调。
PANGAEA	链接	一个全球且包容性的地理空间基础模型基准测试。
GeoFM	链接	用于地球观测的基础模型评估。
rs-embed	链接	一行代码即可获取任何遥感基础模型（RSFM）在任何地点、任何时间的嵌入。

调查/评论论文

标题	发表刊物	论文链接	属性
自监督遥感特征学习：学习范式、挑战与未来工作	TGRS2023	论文	视觉与视觉-语言
Visual ChatGPT在遥感中的潜力	Arxiv2023	论文	视觉-语言
遥感大模型：进展与前瞻	武汉大学学报 (信息科学版) 2023	论文	视觉与视觉-语言
地理人工智能样本：模型、质量与服务	武汉大学学报 (信息科学版) 2023	论文	-
受大脑启发的遥感基础模型及开放问题：综合综述	JSTARS2023	论文	视觉与视觉-语言
重新审视预训练遥感模型基准：尺寸调整和归一化很重要	Arxiv2023	论文	视觉
面向地球观测的多模态基础模型议程	IGARSS2023	论文	视觉
环境遥感中的迁移学习	RSE2024	论文	迁移学习
遥感基础模型发展综述与未来设想	遥感学报2023	论文	-
关于多模态基础模型在地理、环境、农业和城市规划应用中的前景与挑战	Arxiv2023	论文	视觉-语言
遥感中的视觉-语言模型：当前进展与未来趋势	IEEE GRSM2024	论文	视觉-语言
地球与气候基础模型的基础	Arxiv2024	论文	视觉与视觉-语言
迈向视觉-语言地理基础模型：综述	Arxiv2024	论文	视觉-语言
遥感中的AI基础模型：综述	Arxiv2024	论文	视觉
通用遥感智能的基础模型：潜力与前景	Science Bulletin2024	论文	-
遥感领域视觉语言模型的进展：数据集、能力与增强技术	Arxiv2024	论文	视觉-语言
遥感与地球观测的基础模型：综述	IEEE GRSM2025	论文	视觉与视觉-语言
当遥感遇到基础模型：综述及更进一步	RS2025	论文	视觉、视觉-语言、生成模型与智能体
视觉-语言建模与遥感的结合：模型、数据集与视角	IEEE GRSM2025	论文	视觉-语言
面向地球观测下游任务的多模态遥感基础模型进展：综述	RS2025	论文	视觉与视觉-语言
遥感微调：综述	CVM2025	论文	视觉与视觉-语言
多模态遥感基础大模型：研究现状与未来展望	测绘学报2024	论文	视觉、视觉-语言、生成模型与视觉-位置
当地球科学遇到基础模型：迈向通用地球科学人工智能系统	IEEE GRSM2024	论文	视觉与视觉-语言
迈向下一代空间人工智能	JAG2025	论文	-
遥感领域的视觉基础模型：综述	IEEE GRSM2025	论文	视觉
MIMRS：遥感领域掩码图像建模综述	IGARSS2025	论文	视觉
遥感基础模型中的挑战与应用回顾	IGARSS2025	论文	视觉与视觉-语言
通过打通数据与计算孤岛释放遥感基础模型的潜力	The Innovation2025	论文	-
遥感基础模型综述：从视觉到多模态	Arxiv2025	论文	-
遥感领域基础模型的谱系	ACM TSAS2026	论文	视觉与视觉-语言
遥感基础模型的机载部署：架构、优化与硬件的全面回顾	RS2026	论文	视觉与视觉-语言
地球基础模型的基础	Communications Earth & Environment 2026	论文	视觉与视觉-语言

引用

如果您觉得本仓库有用，请考虑给个 star :star: 并引用：

@inproceedings{guo2024skysense,
  title={Skysense：面向地球观测影像通用解译的多模态遥感基础模型},
  author={郭欣、劳江伟、党博、张莹莹、于磊、茹立祥、钟利恒、黄子源、吴康、胡丁翔等},
  booktitle={IEEE/CVF计算机视觉与模式识别会议论文集},
  pages={27672--27683},
  year={2024}
}

@article{li2025unleashing,
  title={通过弥合数据与计算能力孤岛释放遥感基础模型潜力},
  author={李彦生、谭杰毅、党博、叶莽、巴塔列夫·谢尔盖·阿、申卡连科·斯坦尼斯拉夫、王琳琳、张莹莹、茹立祥、郭欣等},
  journal={The Innovation},
  year={2025},
  publisher={Elsevier}
}

@article{wu2025semantic,
  author = {吴康、张莹莹、茹立祥、党博、劳江伟、于磊、罗俊威、朱子凡、孙悦、张嘉豪、朱琪、王健、杨明、陈京东、张永军、李彦生},
  title= {用于地球观测的语义增强型多模态遥感基础模型},
  journal= {Nature Machine Intelligence},
  year= {2025},
  doi= {10.1038/s42256-025-01078-8},
  url= {https://doi.org/10.1038/s42256-025-01078-8}
}

@inproceedings{zhu2025skysense,
  title={Skysense-o：以视觉为中心的视觉-语言建模实现开放世界遥感解译},
  author={朱琪、劳江伟、季德义、罗俊威、吴康、张莹莹、茹立祥、王健、陈京东、杨明等},
  booktitle={计算机视觉与模式识别会议论文集},
  pages={14733--14744},
  year={2025}
}

@article{luo2024skysensegpt,
  title={Skysensegpt：用于遥感视觉-语言理解的细粒度指令调优数据集及模型},
  author={罗俊威、庞震、张永军、王廷柱、王琳琳、党博、劳江伟、王健、陈京东、谭义华等},
  journal={arXiv预印本 arXiv:2406.10100},
  year={2024}
}

Awesome-Remote-Sensing-Foundation-Models 快速上手指南

Awesome-Remote-Sensing-Foundation-Models 是一个汇集了遥感基础模型（RSFMs）相关论文、数据集、基准测试、代码及预训练权重的精选列表。本指南将帮助您快速搭建环境并尝试使用列表中推荐的模型。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu 20.04+) 或 macOS。Windows 用户建议使用 WSL2。
Python 版本: 3.8 或更高版本。
GPU: 推荐使用 NVIDIA GPU (显存建议 16GB 以上以运行大型基础模型)，并安装对应的 CUDA 驱动。
前置依赖:
- git: 用于克隆仓库。
- conda 或 venv: 用于管理虚拟环境。
- PyTorch: 大多数模型基于 PyTorch 构建。

国内加速建议：

推荐使用 清华大学开源软件镜像站 或 阿里云镜像站 加速 pip 和 conda 包的下载。

若访问 GitHub 缓慢，可使用国内镜像站（如 ghproxy.com）克隆仓库。

安装步骤

由于该仓库是模型集合而非单一软件包，您需要先克隆仓库，然后根据具体想使用的模型（如 SatMAE, RingMo, SpectralGPT 等）进入对应子目录进行安装。以下是通用流程：

1. 克隆仓库

# 使用国内加速代理克隆（可选）
git clone https://ghproxy.com/https://github.com/Jack-bo1220/Awesome-Remote-Sensing-Foundation-Models.git
cd Awesome-Remote-Sensing-Foundation-Models

2. 创建虚拟环境

conda create -n rsfm python=3.9 -y
conda activate rsfm

3. 安装基础依赖

大多数模型需要 PyTorch 和 torchvision。建议根据官方文档安装匹配您 CUDA 版本的 PyTorch。

# 示例：安装 PyTorch (CUDA 11.8 版本)，使用清华源加速
pip install torch torchvision torchaudio --index-url https://pypi.tuna.tsinghua.edu.cn/simple

4. 安装特定模型依赖

请在仓库的 Models 部分选择您感兴趣的模型（例如 SatMAE），进入其代码链接指向的子项目目录安装。

以 SatMAE 为例：

# 假设已克隆 SatMAE 代码到本地 satmae 目录
cd satmae
pip install -r requirements.txt
# 或使用国内源
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

注意：不同模型（如 RingMo, SpectralGPT, Clay）的依赖项可能不同，请务必查阅具体模型仓库中的 README.md 或 requirements.txt。

基本使用

以下以 SatMAE（用于多光谱卫星图像预训练的 Transformer 模型）为例，展示如何加载预训练权重并进行简单的推理。其他模型的使用逻辑类似，请参考各自仓库的具体文档。

1. 下载预训练权重

从对应模型的发布页面或 Hugging Face 下载 .pth 或 .ckpt 权重文件，放置在项目目录下（例如 pretrained/satmae.pth）。

2. 编写推理脚本

创建一个名为 inference.py 的文件：

import torch
from torchvision import transforms
from PIL import Image
# 导入具体模型的架构定义 (需根据实际模型调整导入路径)
from models.satmae import vit_large_patch16 

# 配置设备
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 初始化模型
model = vit_large_patch16()
checkpoint = torch.load('pretrained/satmae.pth', map_location=device)
model.load_state_dict(checkpoint['model'], strict=False)
model.to(device)
model.eval()

# 数据预处理 (根据模型要求调整)
transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])

# 加载遥感图像
image_path = "example_satellite_image.tif" # 替换为您的图片路径
image = Image.open(image_path).convert("RGB")
input_tensor = transform(image).unsqueeze(0).to(device)

# 前向传播
with torch.no_grad():
    features = model(input_tensor)
    
print(f"特征提取完成，输出形状：{features.shape}")

3. 运行脚本

python inference.py

提示：本仓库涵盖了视觉、视觉 - 语言、生成式等多种类型的遥感基础模型。对于 SpectralGPT（高光谱）或 Prithvi（时间序列）等专用模型，请确保输入数据的维度（如波段数、时间步长）与模型要求一致。

常见问题

SkySense 的代码什么时候发布？

如何联系项目维护者进行合作或咨询？

RSP 项目的正确代码仓库地址是什么？

有哪些推荐的遥感图像 - 文本检索数据集或模型？

是否有基于 Mamba 架构的遥感基础模型推荐？

有没有关于遥感视觉 - 语言基础模型或智能体（Agents）的相关工作推荐？

是否有适合遥感基础模型评测的基准（Benchmark）推荐？

有哪些大规模地球观测（EO）数据集可用？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

tesseract

Tesseract 是一款历史悠久且备受推崇的开源光学字符识别（OCR）引擎，最初由惠普实验室开发，后由 Google 维护，目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据，有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题，是数字化归档和信息自动化的重要基础工具。在技术层面，Tesseract 展现了强大的适应能力。从版本 4 开始，它引入了基于长短期记忆网络（LSTM）的神经网络 OCR 引擎，显著提升了行识别的准确率；同时，为了兼顾旧有需求，它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码，开箱即用即可识别超过 100 种语言，并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面，它灵活支持纯文本、hOCR、PDF、TSV 等多种格式，方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库（libtesseract），不包含图形用户界面（GUI），因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中

★ 73.3k|★★☆☆☆|3天前

开发框架图像