UNI

GitHub
712 84 简单 1 次阅读 2天前NOASSERTION开发框架
AI 解读 由 AI 自动生成,仅供参考

UNI 是一款专为计算病理学打造的通用基础模型,由 Mahmood 实验室研发并发表于《自然·医学》。它旨在解决传统病理图像分析中依赖大量标注数据、模型泛化能力弱以及难以跨病种应用的痛点。通过自监督学习技术,UNI 能够从海量的苏木精 - 伊红(H&E)及免疫组化(IHC)全切片图像中提取高价值的特征表示,无需繁琐的人工标注即可适应多种下游任务,如癌症亚型分类、预后预测和空间转录组分析等。

该工具特别适合生物医学研究人员、AI 开发者以及数字病理领域的专业人士使用。无论是希望快速构建高精度诊断模型的算法工程师,还是致力于探索组织微环境与基因表达关联的科学家,都能利用 UNI 预提取的特征嵌入或微调模型权重,显著降低研发门槛并提升实验效率。

UNI 的核心亮点在于其强大的规模化训练与泛化能力。最新发布的 UNI 2 版本基于超过 2 亿张病理图像训练而成,覆盖 35 万多种多样化的全切片样本,采用了先进的 ViT-h/14 架构。它不仅支持多模态学习,还能有效捕捉组织局部的细微结构与全局空间关系,已成为当前病理 AI 研究中广泛引用的基准模型,推动了从基础研究到临床肿瘤学的多项创新应用。

使用场景

某三甲医院病理科与 AI 实验室合作,试图利用历史存档的数十万张 H&E 染色全切片图像(WSI),构建一个能预测癌症患者生存期的通用预后模型。

没有 UNI 时

  • 标注成本高昂:训练传统深度学习模型需要病理专家对每张切片中的肿瘤区域进行像素级手工标注,耗时数月且难以规模化。
  • 泛化能力薄弱:针对不同癌种或不同扫描仪来源的数据,必须重新采集数据并从头训练专用模型,无法复用已有成果。
  • 特征提取局限:传统方法依赖人工设计的形态学特征或浅层神经网络,难以捕捉组织微环境中复杂的细胞空间分布规律。
  • 冷启动困难:面对罕见癌症或小型数据集,因样本量不足导致模型无法收敛,研究往往被迫中止。

使用 UNI 后

  • 实现零样本迁移:直接调用 UNI 预训练权重提取高维特征向量,无需任何手工标注即可在下游任务中微调,将数据准备周期从数月缩短至数天。
  • 跨域通用性强:UNI 在超过 200 亿张多样化病理图像上预训练,单一模型即可适配多种癌症类型及不同机构的扫描设备,显著降低维护成本。
  • 深层语义理解:借助 ViT 架构,UNI 能精准编码细胞核形态、间质反应及免疫浸润等微观结构,捕捉到与生存期强相关的隐性生物标志物。
  • 小样本高效学习:即使在仅有几十例患者的罕见病队列中,基于 UNI 特征的分类器也能快速收敛并取得具有统计学意义的预测效果。

UNI 将病理 AI 研发从“劳动密集型的定制作坊”转变为“数据驱动的标准化工厂”,让临床医生能专注于挖掘生物学洞见而非陷入数据标注的泥潭。

运行环境要求

操作系统
  • 未说明
GPU

需要 NVIDIA GPU(基于 ViT 架构及大规模病理图像推理需求),具体显存大小和 CUDA 版本未在提供的文本中明确说明

内存

未说明(处理全切片图像 WSI 通常建议 32GB+)

依赖
notes该工具为计算病理学基础模型(UNI 及 UNI2),主要用于从全切片图像(WSI)中提取特征嵌入。README 主要提供了模型权重下载链接(Hugging Face)和相关研究论文,未在当前片段中包含具体的安装命令或环境配置文件(如 requirements.txt)。由于处理对象为吉像素(Giga-Pixel)级别的病理图像,实际运行通常需要配合 OpenSlide 库来读取图像,并需要高性能 GPU 进行推理。建议访问提供的 Hugging Face 链接查看具体的模型卡片以获取最新的依赖版本和环境配置详情。
python未说明
torch
transformers
timm
huggingface_hub
openslide-python
Pillow
numpy
pandas
UNI hero image

快速开始

UNI

朝着计算病理学的通用基础模型迈进

《自然医学》

期刊链接 | 开放获取阅读链接 | 下载模型 | 下载预提取的嵌入 | 引用

更新

  • 2025年3月20日:我们团队撰写的UNI与CONCH的一年回顾,其中包含更新的研究应用表格。
  • 2025年3月6日:Meta AI发表的博客文章,介绍了我们使用DINOv2开发UNI的过程。
  • 2025年1月14日:发布UNI 2,该模型在来自35万张以上多样化全切片图像中抽取的超过2亿张病理H&E和IHC图像上进行训练。UNI 2模型权重、基准测试结果以及来自TCGA、CPTAC和PANDA的2.5万+个预提取WSI嵌入均已公开。
  • 2024年12月17日:《自然医学》刊登了关于UNI与CONCH在临床肿瘤学中应用的研究亮点
  • 2024年3月19日:UNI正式发表!模型权重及初步基准测试结果随之公开。

不熟悉UNI?请参阅原始README文件(此处)以获取更多详细信息,或参考配套的《自然医学》研究论文(此处)。

模型权重

模型名称 发布日期 模型架构 下载链接
UNI2-h 2025年1月 ViT-h/14-reg8 HF链接
UNI 2024年3月 ViT-l/16 HF链接

使用UNI与CONCH的研究应用

最后更新于2025年3月20日
论文名称 年份 出版物
用于学习全切片图像表示的自监督框架 2024 arXiv:2402.06188
Honeybee:一种基于基础嵌入模型创建多模态肿瘤学数据集的可扩展模块化框架 2024 arXiv:2405.07460
结合图神经网络与Mamba以捕捉全切片图像中的局部和全局组织空间关系 2024 arXiv:2406.04377
STimage-1K4M:用于空间转录组学的组织病理学图像-基因表达数据集 2024 arXiv:2406.06393
基于嵌入的泛鳞状细胞癌多模态学习以改善生存预后 2024 arXiv:2406.08521
公开自监督病理学基础模型的临床基准测试 2024 arXiv:2407.06508v1
Path-SAM2:将SAM2迁移用于数字病理语义分割 2024 arXiv:2408.03651
作为弱监督计算病理学特征提取器的基础模型基准测试 2024 arXiv:2408.15823
利用数字组织病理学和深度学习对儿童脑肿瘤进行分类:在瑞典多中心队列上评估最先进方法 2024 arXiv:2409.01330
评估预训练卷积神经网络和基础模型作为基于内容的医学图像检索的特征提取器 2024 arXiv:2409.09430
评估深度回归模型用于基于WSI的基因表达预测 2024 arXiv:2410.00945
脐带胎儿炎症反应诊断的深度学习 2024 arXiv:2411.09767
病理全切片图像分层分类中的诊断文本引导表示学习 2024 arXiv:2411.10709
无需重新训练即可利用计算病理AI进行无创光学成像分析 2024 arXiv:2411.11613
FOCUS:面向少样本全切片图像分类的知识增强自适应视觉压缩 2024 arXiv:2411.14743
RankByGene:通过跨模态排序一致性实现基因指导的组织病理学表示学习 2024 arXiv:2411.15076
ST-Align:用于空间转录组学中图像-基因对齐的多模态基础模型 2024 arXiv:2411.16793
用于精准肿瘤学的全切片图像与组学数据的多模态外算块双融合 2024 arXiv:2411.17418
用于病理学的多模态全切片基础模型 2024 arXiv:2411.19666
GCUNet:基于GNN的上下文学习网络,用于全切片图像中三级淋巴结构的语义分割 2024 arXiv:2412.06129
用于透明细胞肾细胞癌治疗效果预测的多模态集成方法 2024 arXiv:2412.07136
从组织病理学图像到细胞云:利用分层细胞Transformer学习切片表示 2024 arXiv:2412.16715
视觉-语言模型不理解否定 2025 arXiv:2501.09425
将先验知识注入从全切片图像预测基因表达的深度学习模型 2025 arXiv:2501.14056
面向肿瘤病理学的分子驱动基础模型 2025 arXiv:2501.16652
用于骨转移癌分析的动态超图表示 2025 arXiv:2501.16787
皮肤黑色素细胞病变的病理报告生成与多模态表示学习 2025 arXiv:2502.19293
DELST:用于空间转录组学中双蕴涵学习的双曲型图像-基因预训练 2025 arXiv:2503.00804
通过细胞图与图像融合实现恶性淋巴瘤亚型分类的可解释分类器 2025 arXiv:2503.00925
CrossFusion:用于癌症生存预测的多尺度交叉注意力卷积融合模型 2025 arXiv:2503.02064
用于多模态癌症生存分析的适应性原型学习 2025 arXiv:2503.04643
ecPath能从组织病理学图像中检测肿瘤中的ecDNA 2024 bioRxiv:2024.11.13.623494v1
组学指导的全切片视觉嵌入表示对比学习 2025 bioRxiv:2025.01.12.632280
空间转录组学与组织病理学影像的多模态解纠缠 2025 bioRxiv:2025.02.19.638201v1
通过组织学锚定整合实现高参数空间多组学 2025 bioRxiv:2025.02.23.639721v1
弱监督深度学习模型可实现基于H&E染色切片的HER2低表达预测 2024 Breast Cancer Research
2DMamba:高效状态空间模型,用于图像表示并在千兆像素级全切片图像上有应用 2025 计算机视觉与模式识别(CVPR)
计算病理学中转录组学指导的切片表示学习 2024 计算机视觉与模式识别(CVPR)
计算病理学中无监督切片表示学习的形态学原型设计 2024 计算机视觉与模式识别(CVPR)
新型基于深度学习的癌症组织病理学图像模型的开发与验证 2024 博士论文(卡罗林斯卡学院)
病理学中切片表示学习的多染色预训练 2024 欧洲计算机视觉大会(ICCV)
具有序数归纳偏置的可解释视觉-语言生存分析,用于计算病理学 2025 国际表征学习会议(ICLR)
用于癌症生存预测的多模态原型设计 2024 国际机器学习会议(ICML)
利用histosge从组织学图像进行高分辨率空间转录组学 2024 国际生物信息学与生物医学会议(BIBM)
用于卵巢癌亚型分类的多分辨率组织病理学补丁图 2024 国际生物医学图像分析中图论研讨会
通过基础模型和离散扩散模型在骨肉瘤评估中弥合分类与分割 2025 国际生物医学成像研讨会(ISBI)
1250个基于H&E的细胞预测多分类模型,用于捕捉CD8+ T细胞中形态学上不同的亚群 2024 癌症免疫疗法杂志
使用弱监督学习对儿童和青少年三色组织学切片进行肝纤维化分级 2025 病理信息学杂志
2024年结核病检测竞赛获奖者 2024 LinkedIn帖子
基于模型清理QUILT-1M病理学数据集,用于文本条件图像生成 2024 医学影像与深度学习
利用HistoGPT从千兆像素级全切片图像生成高度准确的病理报告 2024 medRxiv:2024.03.15.24304211v2
HIBRID:基于组织学和ct-DNA的深度学习风险分层 2024 medRxiv:2024.07.23.24310822
"SurvivMIL:用于神经母细胞瘤患者生存结局的多模态多实例学习管道" 2024 MICCAI关于多模态数据计算病理学研讨会(COMPAYL)
儿科脑肿瘤分类中H&E与IHC组织学图像的早期融合 2024 MICCAI关于多模态数据计算病理学研讨会(COMPAYL)
Fluoroformer:通过基于注意力的通道融合将多实例学习扩展到多重染色图像 2024 ML4H研讨会
利用替代性末端连接的转录调控来预测癌症治疗 2025 NAR Cancer
人类病理学的多模态生成式AI副驾驶 2024 Nature
利用线性化注意力从组织学图像进行基因表达的数字化剖析 2024 Nature Communications
计算病理学模型误诊中的人口统计学偏差 2024 Nature Medicine
Hest-1k:用于空间转录组学和组织学图像分析的数据集 2024 神经信息处理系统进展
重新思考Transformer以用于长上下文组织病理学全切片图像分析 2024 神经信息处理系统进展
利用肿瘤异质性:在全切片图像中进行癌症生存预测的异质图表示学习 2024 神经信息处理系统进展
超越H&E和肿瘤学:组织病理学基础模型在多染色IHC和免疫学方面表现如何? 2024 NeurIPS关于医学基础模型进展的研讨会
组织病理学与蛋白质组学协同作用,可用于预测高级别浆液性卵巢癌对铂类药物的反应 2025 npj Precision Oncology
深度学习用于从宫颈组织学图像预测宫颈癌的预后共识分子亚型 2025 npj Precision Oncology
膀胱癌预后预测的综合多中心深度学习系统 2024 npj Precision Oncology
从数字组织病理学图像预测非小细胞肺癌的肿瘤微环境组成及免疫治疗反应 2024 npj Precision Oncology
基于人工智能的数字组织病理学对神经母细胞瘤进行形态学分类和分子特征描述 2024 npj Precision Oncology
深度学习支持的组织学与转录组学整合,用于组织空间特征分析 2025 spj Research
通过全切片图像检索验证组织病理学基础模型 2025 Scientific Reports
用于分类全切片多重免疫荧光图像并预测黑色素瘤患者免疫治疗反应的深度学习框架 2024 TechRxiv:10.36227/techrxiv.173496563.35713571
基于深度学习的淋巴结转移状态可预测肌肉浸润性膀胱癌组织病理学的预后 2025 世界泌尿外科杂志

预提取的嵌入

为了便于下游任务,我们为 TCGA、CPTAC 和 PANDA 数据集提供了 UNI 2 模型(UNI2-h)的预提取嵌入,可从这里下载。

UNI 2 的基准测试

ROI 基准测试

模型名称 预训练 模型规模 HEST(回归,公开) CRC-100K-Raw(9 类,公开) TCGA 统一肿瘤(32 类,公开) C17-WILDS(2 类,公开) Kather MSI(2 类,公开)
UNI 视觉 ViT-l/16 0.386 0.925 0.595 0.972 0.679
UNI2-h 视觉 ViT-h/14 0.414 0.957 0.675 0.977 0.722
Virchow 2 视觉 ViT-h/14 0.398 0.952 0.620 0.975 0.713
Virchow 视觉 ViT-h/14 0.398 0.919 0.544 0.977 0.670
UNI2-g-preview 视觉 ViT-g/14 0.416 0.949 0.690 0.985 0.725
h-optimus 视觉 ViT-g/14 0.415 0.930 0.647 0.970 0.707
Prov-GigaPath 视觉 ViT-g/14 0.385 0.929 0.593 0.961 0.693
CONCH 视觉-语言 ViT-b/16 0.371 0.941 0.556 0.967 0.685
MUSK 视觉-语言 ViT-l/16 0.346 0.913 0.464 0.954 0.666

幻灯片基准测试

模型名称 预训练 模型规模 EBRAINS(30 类,公开) PANDA(5 类,公开) IHC ER / PR 评估(6 类,内部)
UNI 视觉 ViT-l/16 0.682 0.944 0.776
UNI2-h 视觉 ViT-h/14 0.711 0.946 0.794
Virchow 2 视觉 ViT-h/14 0.691 0.931 0.808
Virchow 视觉 ViT-h/14 0.681 0.946 0.756
UNI2-g-preview 视觉 ViT-g/14 0.746 0.953 0.795
h-optimus 视觉 ViT-g/14 0.726 0.953 0.761
Prov-GigaPath 视觉 ViT-g/14 0.687 0.944 0.775
CONCH 视觉-语言 ViT-b/16 0.689 0.934 0.794
MUSK 视觉-语言 ViT-l/16 0.660 0.923 0.764

在每个任务中,对于每种模型,我们都会尝试三种学习率(1e-5、5e-5、1e-4),并报告在验证集上表现最佳的模型对应的测试性能。

对于所有评估,所有模型均使用全局表示(例如 CLS token)进行评估,且未采用测试时增强技术。

安装

首先克隆仓库并进入目录:

git clone https://github.com/mahmoodlab/UNI.git
cd UNI

然后创建一个 conda 环境并安装依赖项:

conda create -n UNI python=3.10 -y
conda activate UNI
pip install -e .

1. 获取访问权限

通过【模型权重】部分提供的链接,向 HuggingFace 模型页面申请模型权重的访问权限。您需要登录 HuggingFace 才能下载模型权重。

2. 下载权重 + 创建模型

在完成身份验证后(使用 huggingface_hub),可以使用 timm 库直接加载 UNI 的预训练检查点和图像变换。此方法会自动将模型权重下载到您主目录下的 huggingface_hub 缓存,当您使用以下命令时,timm 将会自动找到这些权重:

import timm
import torch
from timm.data import resolve_data_config
from timm.data.transforms_factory import create_transform
from huggingface_hub import login

login()  # 使用您的用户访问令牌登录,该令牌可在 https://huggingface.co/settings/tokens 上找到

# pretrained=True 是加载 UNI 权重所必需的(也是首次下载权重的方式)

# 以 UNI2-h 为例
timm_kwargs = {
   'img_size': 224, 
   'patch_size': 14, 
   'depth': 24,
   'num_heads': 24,
   'init_values': 1e-5, 
   'embed_dim': 1536,
   'mlp_ratio': 2.66667*2,
   'num_classes': 0, 
   'no_embed_class': True,
   'mlp_layer': timm.layers.SwiGLUPacked, 
   'act_layer': torch.nn.SiLU, 
   'reg_tokens': 8, 
   'dynamic_img_size': True
  }
model = timm.create_model("hf-hub:MahmoodLab/UNI2-h", pretrained=True, **timm_kwargs)
transform = create_transform(**resolve_data_config(model.pretrained_cfg, model=model))
model.eval()

你也可以将模型权重下载到本地目录中的指定检查点位置。仍然使用 timm 库来定义模型架构(例如自定义的 ViT-H/14)。UNI 的预训练权重和图像变换需要手动加载和定义。

import os
import torch
from torchvision import transforms
import timm
from huggingface_hub import login, hf_hub_download

login()  # 使用你的用户访问令牌登录,该令牌可在 https://huggingface.co/settings/tokens 上找到

local_dir = "../assets/ckpts/uni2-h/"
os.makedirs(local_dir, exist_ok=True)  # 如果目录不存在,则创建
hf_hub_download("MahmoodLab/UNI2-h", filename="pytorch_model.bin", local_dir=local_dir, force_download=True)
timm_kwargs = {
   'model_name': 'vit_giant_patch14_224',
   'img_size': 224, 
   'patch_size': 14, 
   'depth': 24,
   'num_heads': 24,
   'init_values': 1e-5, 
   'embed_dim': 1536,
   'mlp_ratio': 2.66667*2,
   'num_classes': 0, 
   'no_embed_class': True,
   'mlp_layer': timm.layers.SwiGLUPacked, 
   'act_layer': torch.nn.SiLU, 
   'reg_tokens': 8, 
   'dynamic_img_size': True
  }
model = timm.create_model(**timm_kwargs)
model.load_state_dict(torch.load(os.path.join(local_dir, "pytorch_model.bin"), map_location="cpu"), strict=True)
transform = transforms.Compose(
 [
  transforms.Resize(224),
  transforms.CenterCrop(224),
  transforms.ToTensor(),
  transforms.Normalize(mean=(0.485, 0.456, 0.406), std=(0.229, 0.224, 0.225)),
 ]
)
model.eval()

函数 get_encoder 执行上述命令,在本 GitHub 仓库的 ./assets/ckpts/ 相对路径中下载检查点。

from uni import get_encoder
model, transform = get_encoder(enc_name='uni2-h', device=device)

3. 运行推理

你可以使用 UNI 预训练编码器从组织病理学 ROI 中提取特征,如下所示:

from PIL import Image
image = Image.open("uni.jpg")
image = transform(image).unsqueeze(dim=0) # 经过图像调整大小和归一化处理后,图像张量形状为 [1, 3, 224, 224] (ImageNet 参数)
with torch.inference_mode():
 feature_emb = model(image) # 提取的特征张量形状为 [1, 1536]

这些预先提取的特征随后可用于 ROI 分类(通过线性探测)、幻灯片分类(通过多实例学习)以及其他机器学习场景。

具体用法概述

我们提供了用于加载模型和进行推理的高级函数。对于模型加载,函数 get_encoder 执行第 2 步中的上述命令,在本 GitHub 仓库的 ./assets/ckpts/ 相对路径中下载检查点。

from uni import get_encoder
model, transform = get_encoder(enc_name='uni2-h', device=device)

对于推理:

from uni.downstream.extract_patch_features import extract_patch_features_from_dataloader
from uni.downstream.eval_patch_features.linear_probe import eval_linear_probe
from uni.downstream.eval_patch_features.fewshot import eval_knn, eval_fewshot
from uni.downstream.eval_patch_features.protonet import ProtoNet, prototype_topk_vote

有关详细示例,请参阅以下笔记本。

加载/使用模型的更详细入门代码:

请参阅 ./notebooks/uni_walkthrough.ipynb,了解如何开始加载和使用模型来创建嵌入,并查看提取 ROI 特征以及执行 ROI 分类/检索的示例代码。

许可证与使用条款

ⓒ Mahmood Lab。这些模型及其相关代码根据 CC-BY-NC-ND 4.0 许可证发布,仅可用于非商业性的学术研究目的,并需适当注明出处。任何商业用途、销售或其他利用 UNI 模型及其衍生品(包括基于 UNI 模型输出或由 UNI 模型创建的数据集训练的模型)的行为均被禁止,且需事先获得批准。下载该模型需要在 Hugging Face 上提前注册并同意使用条款。下载模型即表示您同意不传播、发布或复制该模型。如果贵单位内有其他用户希望使用 UNI 模型,他们必须以个人身份注册并同意遵守使用条款。用户不得尝试重新识别用于开发底层模型的去标识化数据。如果您是商业实体,请联系通讯作者或麻省总医院创新办公室。

致谢

该项目建立在许多优秀的开源库之上,如 ViTDINOv2LGSSLTimm(ViT 模型实现)。我们感谢这些项目的作者和开发者所做的贡献。

参考文献

如果您在研究中发现我们的工作有所帮助,或使用了本代码的部分内容,请考虑引用我们的论文:

Chen, R.J., Ding, T., Lu, M.Y., Williamson, D.F.K., 等. 向通用计算病理基础模型迈进。Nat Med (2024). https://doi.org/10.1038/s41591-024-02857-3

@article{chen2024uni,
  title={Towards a General-Purpose Foundation Model for Computational Pathology},
  author={Chen, Richard J and Ding, Tong and Lu, Ming Y and Williamson, Drew FK and Jaume, Guillaume and Chen, Bowen and Zhang, Andrew and Shao, Daniel and Song, Andrew H and Shaban, Muhammad and others},
  journal={Nature Medicine},
  publisher={Nature Publishing Group},
  year={2024}
}

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

158.1k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|6天前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|1周前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|1周前
插件开发框架