[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-mahmoodlab--UNI":3,"tool-mahmoodlab--UNI":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",158594,2,"2026-04-16T23:34:05",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":77,"owner_email":78,"owner_twitter":79,"owner_website":80,"owner_url":81,"languages":82,"stars":91,"forks":92,"last_commit_at":93,"license":94,"difficulty_score":32,"env_os":95,"env_gpu":96,"env_ram":97,"env_deps":98,"category_tags":109,"github_topics":110,"view_count":32,"oss_zip_url":77,"oss_zip_packed_at":77,"status":17,"created_at":127,"updated_at":128,"faqs":129,"releases":163},8198,"mahmoodlab\u002FUNI","UNI","Pathology Foundation Model - Nature Medicine","UNI 是一款专为计算病理学打造的通用基础模型，由 Mahmood 实验室研发并发表于《自然·医学》。它旨在解决传统病理图像分析中依赖大量标注数据、模型泛化能力弱以及难以跨病种应用的痛点。通过自监督学习技术，UNI 能够从海量的苏木精 - 伊红（H&E）及免疫组化（IHC）全切片图像中提取高价值的特征表示，无需繁琐的人工标注即可适应多种下游任务，如癌症亚型分类、预后预测和空间转录组分析等。\n\n该工具特别适合生物医学研究人员、AI 开发者以及数字病理领域的专业人士使用。无论是希望快速构建高精度诊断模型的算法工程师，还是致力于探索组织微环境与基因表达关联的科学家，都能利用 UNI 预提取的特征嵌入或微调模型权重，显著降低研发门槛并提升实验效率。\n\nUNI 的核心亮点在于其强大的规模化训练与泛化能力。最新发布的 UNI 2 版本基于超过 2 亿张病理图像训练而成，覆盖 35 万多种多样化的全切片样本，采用了先进的 ViT-h\u002F14 架构。它不仅支持多模态学习，还能有效捕捉组织局部的细微结构与全局空间关系，已成为当前病理 AI 研究中广泛引用的基准模型，推动了从基础研究到临床肿瘤学的多项创新应","UNI 是一款专为计算病理学打造的通用基础模型，由 Mahmood 实验室研发并发表于《自然·医学》。它旨在解决传统病理图像分析中依赖大量标注数据、模型泛化能力弱以及难以跨病种应用的痛点。通过自监督学习技术，UNI 能够从海量的苏木精 - 伊红（H&E）及免疫组化（IHC）全切片图像中提取高价值的特征表示，无需繁琐的人工标注即可适应多种下游任务，如癌症亚型分类、预后预测和空间转录组分析等。\n\n该工具特别适合生物医学研究人员、AI 开发者以及数字病理领域的专业人士使用。无论是希望快速构建高精度诊断模型的算法工程师，还是致力于探索组织微环境与基因表达关联的科学家，都能利用 UNI 预提取的特征嵌入或微调模型权重，显著降低研发门槛并提升实验效率。\n\nUNI 的核心亮点在于其强大的规模化训练与泛化能力。最新发布的 UNI 2 版本基于超过 2 亿张病理图像训练而成，覆盖 35 万多种多样化的全切片样本，采用了先进的 ViT-h\u002F14 架构。它不仅支持多模态学习，还能有效捕捉组织局部的细微结构与全局空间关系，已成为当前病理 AI 研究中广泛引用的基准模型，推动了从基础研究到临床肿瘤学的多项创新应用。","# UNI \n\n## Towards a General-Purpose Foundation Model for Computational Pathology\n*Nature Medicine* \u003Cimg src=\".github\u002Funi.jpg\" width=\"300px\" align=\"right\" \u002F>\n\n[Journal Link](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41591-024-02857-3) | [Open Access Read Link](https:\u002F\u002Frdcu.be\u002FdBMgh) | [Download Models](#model-weights) | [Download Pre-extracted Embeddings](#pre-extracted-embeddings) | [Cite](#reference) \n\n### Updates\n- 3\u002F20\u002F2025: [One year overview of UNI & CONCH](https:\u002F\u002Fwww.linkedin.com\u002Fposts\u002Ffaisalmmd_its-been-one-year-since-we-release-uni-and-activity-7308523636250820608-NedR?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAtTgDUBogopLVJVJOF9wEPZNmx4mbyt4OI) written by our team with updated table of research applications.\n- 3\u002F6\u002F2025: [Blog Post from Meta AI](https:\u002F\u002Fai.meta.com\u002Fblog\u002Fmahmood-lab-human-pathology-dinov2\u002F) on our development of UNI using DINOv2.\n- **01\u002F14\u002F2025: Release of UNI 2 trained on over 200 million pathology H&E and IHC images sampled from 350+ thousand diverse whole slide images. [UNI 2 model weights](https:\u002F\u002Fhuggingface.co\u002FMahmoodLab\u002FUNI2-h), benchmark results and [25k+ pre-extracted WSI embeddings from TCGA,CPTAC, and PANDA](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FMahmoodLab\u002FUNI2-h-features) are released.**\n- 12\u002F17\u002F2024: [Research Highlight from Nature Medicine](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs43018-024-00837-7) on UNI & CONCH for clinical oncology\n- 03\u002F19\u002F2024: UNI is published! Model weights and initial benchmark results are released.\n\nUnfamiliar with UNI? Please refer to the original README ([here](.\u002FREADME_old.md)) for more details or refer to the accompanying Nature Medicine study ([here](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41591-024-02857-3)).\n\n\n## Model weights\n| Model Name    | Release Date | Model Architecture | Download Link            |\n|---------------------|--------------|---------------------|-------------------------------------------------------------|\n| UNI2-h      |   01\u002F2025        | ViT-h\u002F14-reg8               | [HF Link](https:\u002F\u002Fhuggingface.co\u002FMahmoodLab\u002FUNI2-h) |\n| UNI          |   03\u002F2024        | ViT-l\u002F16                 | [HF Link](https:\u002F\u002Fhuggingface.co\u002FMahmoodLab\u002Funi)  |\n\n## Research Applications using UNI & CONCH\n\u003Cdetails>\n  \u003Csummary>\n    \u003Cb>Last Updated 3\u002F20\u002F2025\u003C\u002Fb>\n  \u003C\u002Fsummary>\n\n| Paper Name   | Year | Publication  |\n|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------|------|------|\n| [A self-supervised framework for learning whole slide representations](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.06188)                                             | 2024 | arXiv:2402.06188                                                   |\n| [Honeybee: a scalable modular framework for creating multimodal oncology datasets with foundational embedding models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.07460) | 2024 | arXiv:2405.07460                                                   |\n| [Combining graph neural network and mamba to capture local and global tissue spatial relationships in whole slide images](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.04377) | 2024 | arXiv:2406.04377                                                   |\n| [STimage-1K4M: A histopathology image-gene expression dataset for spatial transcriptomics](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.06393)                         | 2024 | arXiv:2406.06393                                                   |\n| [Embedding-based multimodal learning on pan-squamous cell carcinomas for improved survival outcomes](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.08521)               | 2024 | arXiv:2406.08521                                                   |\n| [A clinical benchmark of public self-supervised pathology foundation models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.06508v1)                                     | 2024 | arXiv:2407.06508v1                                                |\n| [Path-SAM2: Transfer SAM2 for digital pathology semantic segmentation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.03651)                                             | 2024 | arXiv:2408.03651                                                   |\n| [Benchmarking foundation models as feature extractors for weakly-supervised computational pathology](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.15823)               | 2024 | arXiv:2408.15823                                                   |\n| [Pediatric brain tumor classification using digital histopathology and deep learning: evaluation of SOTA methods on a multi-center Swedish cohort](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.01330) | 2024 | arXiv:2409.01330                                                   |\n| [Evaluating Pre-trained Convolutional Neural Networks and Foundation Models as Feature Extractors for Content-based Medical Image Retrieval](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.09430) | 2024 | arXiv:2409.09430                                                   |\n| [Evaluating Deep Regression Models for WSI-Based Gene-Expression Prediction](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.00945)                                       | 2024 | arXiv:2410.00945                                                   |\n| [Deep Learning for Fetal Inflammatory Response Diagnosis in the Umbilical Cord](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.09767)                                    | 2024 | arXiv:2411.09767                                                   |\n| [Diagnostic Text-guided Representation Learning in Hierarchical Classification for Pathological Whole Slide Image](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.10709) | 2024 | arXiv:2411.10709                                                   |\n| [Leveraging Computational Pathology AI for Noninvasive Optical Imaging Analysis Without Retraining](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.11613)                | 2024 | arXiv:2411.11613                                                   |\n| [FOCUS: Knowledge-enhanced Adaptive Visual Compression for Few-shot Whole Slide Image Classification](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.14743)             | 2024 | arXiv:2411.14743                                                   |\n| [RankByGene: Gene-Guided Histopathology Representation Learning Through Cross-Modal Ranking Consistency](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.15076)           | 2024 | arXiv:2411.15076                                                   |\n| [ST-Align: A Multimodal Foundation Model for Image-Gene Alignment in Spatial Transcriptomics](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.16793)                     | 2024 | arXiv:2411.16793                                                   |\n| [Multimodal Outer Arithmetic Block Dual Fusion of Whole Slide Images and Omics Data for Precision Oncology](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.17418)        | 2024 | arXiv:2411.17418                                                   |\n| [Multimodal whole slide foundation model for pathology](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.19666)                                                            | 2024 | arXiv:2411.19666                                                   |\n| [GCUNet: A GNN-Based Contextual Learning Network for Tertiary Lymphoid Structure Semantic Segmentation in Whole Slide Image](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.06129) | 2024 | arXiv:2412.06129                                                   |\n| [A multimodal ensemble approach for clear cell renal cell carcinoma treatment outcome prediction](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.07136)                 | 2024 | arXiv:2412.07136                                                   |\n| [From Histopathology Images to Cell Clouds: Learning Slide Representations with Hierarchical Cell Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.16715)     | 2024 | arXiv:2412.16715                                                   |\n| [Vision-language models do not understand negation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.09425)                                                                | 2025 | arXiv:2501.09425                                                   |\n| [Prior Knowledge Injection into Deep Learning Models Predicting Gene Expression from Whole Slide Images](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.14056)          | 2025 | arXiv:2501.14056                                                   |\n| [Molecular-driven Foundation Model for Oncologic Pathology](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.16652)                                                        | 2025 | arXiv:2501.16652                                                   |\n| [Dynamic Hypergraph Representation for Bone Metastasis Cancer Analysis](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.16787)                                            | 2025 | arXiv:2501.16787                                                   |\n| [Pathology Report Generation and Multimodal Representation Learning for Cutaneous Melanocytic Lesions](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.19293)             | 2025 | arXiv:2502.19293                                                   |\n| [DELST: Dual Entailment Learning for Hyperbolic Image-Gene Pretraining in Spatial Transcriptomics](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.00804)                 | 2025 | arXiv:2503.00804                                                   |\n| [Explainable Classifier for Malignant Lymphoma Subtyping via Cell Graph and Image Fusion](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.00925)                          | 2025 | arXiv:2503.00925                                                   |\n| [CrossFusion: A Multi-Scale Cross-Attention Convolutional Fusion Model for Cancer Survival Prediction](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.02064)             | 2025 | arXiv:2503.02064                                                   |\n| [Adaptive Prototype Learning for Multimodal Cancer Survival Analysis](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.04643)                                              | 2025 | arXiv:2503.04643                                                   |\n| [ecPath detects ecDNA in tumors from histopathology images](https:\u002F\u002Fwww.biorxiv.org\u002Fcontent\u002F10.1101\u002F2024.11.13.623494v1.abstract)                    | 2024 | bioRxiv:2024.11.13.623494v1                                        |\n| [Contrastive Learning for Omics-guided Whole-slide Visual Embedding Representation](https:\u002F\u002Fwww.biorxiv.org\u002Fcontent\u002F10.1101\u002F2025.01.12.632280.abstract) | 2025 | bioRxiv:2025.01.12.632280                                          |\n| [Multi-modal Disentanglement of Spatial Transcriptomics and Histopathology Imaging](https:\u002F\u002Fwww.biorxiv.org\u002Fcontent\u002F10.1101\u002F2025.02.19.638201v1)     | 2025 | bioRxiv:2025.02.19.638201v1                                       |\n| [High-Parameter Spatial Multi-Omics through Histology-Anchored Integration](https:\u002F\u002Fwww.biorxiv.org\u002Fcontent\u002F10.1101\u002F2025.02.23.639721v1)             | 2025 | bioRxiv:2025.02.23.639721v1                                       |\n| [Weakly-supervised deep learning models enable HER2-low prediction from H&E stained slides](https:\u002F\u002Fbreast-cancer-research.biomedcentral.com\u002Farticles\u002F10.1186\u002Fs13058-024-01863-0) | 2024 | Breast Cancer Research                                            |\n| [2DMamba: Efficient State Space Model for Image Representation with Applications on Giga-Pixel Whole Slide Image](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.00678)  | 2025 | Computer Vision & Pattern Recognition (CVPR)                       |\n| [Transcriptomics-guided slide representation learning in computational pathology](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2024\u002Fhtml\u002FJaume_Transcriptomics-guided_Slide_Representation_Learning_in_Computational_Pathology_CVPR_2024_paper.html) | 2024 | Computer Vision & Pattern Recognition (CVPR)                       |\n| [Morphological prototyping for unsupervised slide representation learning in computational pathology](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2024\u002Fhtml\u002FSong_Morphological_Prototyping_for_Unsupervised_Slide_Representation_Learning_in_Computational_Pathology_CVPR_2024_paper.html) | 2024 | Computer Vision & Pattern Recognition (CVPR)                       |\n| [Development and validation of novel deep learning-based models for cancer histopathology image](https:\u002F\u002Fopenarchive.ki.se\u002Farticles\u002Fthesis\u002FDevelopment_and_validation_of_novel_deep_learning-_based_models_for_cancer_histopathology_image\u002F27291567) | 2024 | Doctoral dissertation (Karolinska Institutet)                      |\n| [Multistain pretraining for slide representation learning in pathology](https:\u002F\u002Feccv.ecva.net\u002Fvirtual\u002F2024\u002Fposter\u002F429)                               | 2024 | European Conference on Computer Vision (ICCV)                      |\n| [Interpretable Vision-Language Survival Analysis with Ordinal Inductive Bias for Computational Pathology](https:\u002F\u002Fopenreview.net\u002Fforum?id=trj2Jq8riA) | 2025 | International Conference on Learning Representations (ICLR)        |\n| [Multimodal prototyping for cancer survival prediction](https:\u002F\u002Fproceedings.mlr.press\u002Fv235\u002Fsong24b.html)                                            | 2024 | International Conference on Machine Learning (ICML)                |\n| [High-resolution spatial transcriptomics from histology images using histosge](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.20518)                                     | 2024 | International Conference on Bioinformatics and Biomedicine (BIBM)  |\n| [Multi-resolution histopathology patch graphs for ovarian cancer subtyping](https:\u002F\u002Flink.springer.com\u002Fchapter\u002F10.1007\u002F978-3-031-83243-7_7)           | 2024 | International Workshop on Graphs in Biomedical Image Analysis      |\n| [Bridging Classification and Segmentation in Osteosarcoma Assessment via Foundation and Discrete Diffusion Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.01932) | 2025 | International Symposium on Biomedical Imaging (ISBI)               |\n| [1250 H&E-based cell prediction multi-classification models to capture morphologically distinct subpopulations of CD8+ T cells](https:\u002F\u002Fjitc.bmj.com\u002Fcontent\u002F12\u002FSuppl_2\u002FA1399) | 2024 | Journal for ImmunoTherapy of Cancer                                |\n| [Liver fibrosis classification on trichrome histology slides using weakly supervised learning in children and young adults](https:\u002F\u002Fwww.sciencedirect.com\u002Fscience\u002Farticle\u002Fpii\u002FS2153353924000555) | 2025 | Journal of Pathology Informatics                                   |\n| [Winners of the 2024 Tuberculosis Detection Competition](https:\u002F\u002Fwww.linkedin.com\u002Fposts\u002Fzsoltbedohazi_winners-of-the-2024-tuberculosis-detection-activity-7186281385572065280-zpOq) | 2024 | LinkedIn post                                                      |\n| [Model-based cleaning of the QUILT-1M pathology dataset for text-conditional image synthesis](https:\u002F\u002Fopenreview.net\u002Fforum?id=m7wYKrUjzV)             | 2024 | Medical Imaging with Deep Learning                                 |\n| [Generating highly accurate pathology reports from gigapixel whole slide images with HistoGPT](https:\u002F\u002Fwww.medrxiv.org\u002Fcontent\u002F10.1101\u002F2024.03.15.24304211v2) | 2024 | medRxiv:2024.03.15.24304211v2                                     |\n| [HIBRID: Histology and ct-DNA based Risk-stratification with Deep Learning](https:\u002F\u002Fwww.medrxiv.org\u002Fcontent\u002F10.1101\u002F2024.07.23.24310822.abstract)      | 2024 | medRxiv:2024.07.23.24310822                                       |\n| [\"SurvivMIL: A Multimodal, Multiple Instance Learning Pipeline for Survival Outcome of Neuroblastoma Patients\"](https:\u002F\u002Fproceedings.mlr.press\u002Fv254\u002Fnaidoo24a.html) | 2024 | MICCAI Workshop on Computational Pathology with Multimodal Data (COMPAYL) |\n| [Early Fusion of H&E and IHC Histology Images for Pediatric Brain Tumor Classification](https:\u002F\u002Fopenreview.net\u002Fforum?id=PHtzsqDi0n)                  | 2024 | MICCAI Workshop on Computational Pathology with Multimodal Data (COMPAYL) |\n| [Fluoroformer: Scaling multiple instance learning to multiplexed images via attention-based channel fusion](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.08975)        | 2024 | ML4H symposium                                                     |\n| [Harnessing transcriptional regulation of alternative end-joining to predict cancer treatment](https:\u002F\u002Facademic.oup.com\u002Fnarcancer\u002Farticle\u002F7\u002F1\u002Fzcaf007\u002F8063268) | 2025 | NAR Cancer                                                         |\n| [A multimodal generative AI copilot for human pathology](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41586-024-07618-3)                                          | 2024 | Nature                                                             |\n| [Digital profiling of gene expression from histology images with linearized attention](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41467-024-54182-5)           | 2024 | Nature Communications                                             |\n| [Demographic bias in misdiagnosis by computational pathology models](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41591-024-02885-z)                             | 2024 | Nature Medicine                                                    |\n| [Hest-1k: A dataset for spatial transcriptomics and histology image analysis](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2024\u002Fhash\u002F60a899cc31f763be0bde781a75e04458-Abstract-Datasets_and_Benchmarks_Track.html) | 2024 | Advanced in Neural Information Processing Systems                  |\n| [Rethinking Transformer for Long Contextual Histopathology Whole Slide Image Analysis](https:\u002F\u002Fopenreview.net\u002Fforum?id=f3oHNyqd83)                   | 2024 | Advanced in Neural Information Processing Systems                  |\n| [Leveraging tumor heterogeneity: Heterogeneous graph representation learning for cancer survival prediction in whole slide images](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2024\u002Fhash\u002F760341adc5632de3f1cf2e8d22215a93-Abstract-Conference.html) | 2024 | Advanced in Neural Information Processing Systems                  |\n| [Going Beyond H&E and Oncology: How Do Histopathology Foundation Models Perform for Multi-stain IHC and Immunology?](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.21560) | 2024 | NeurIPS Workshop on Advancements In Medical Foundation Models      |\n| [Histopathology and proteomics are synergistic for high-grade serous ovarian cancer platinum response prediction](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41698-025-00808-w) | 2025 | npj Precision Oncology                                             |\n| [Deep learning for predicting prognostic consensus molecular subtypes in cervical cancer from histology images](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41698-024-00778-5) | 2025 | npj Precision Oncology                                             |\n| [Integrated multicenter deep learning system for prognostic prediction in bladder cancer](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41698-024-00731-6)        | 2024 | npj Precision Oncology                                             |\n| [Predicting the tumor microenvironment composition and immunotherapy response in non-small cell lung cancer from digital histopathology images](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41698-024-00765-w) | 2024 | npj Precision Oncology                                             |\n| [Artificial intelligence-based morphologic classification and molecular characterization of neuroblastic tumors from digital histopathology](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41698-024-00745-0) | 2024 | npj Precision Oncology                                             |\n| [Deep Learning-Enabled Integration of Histology and Transcriptomics for Tissue Spatial Profile Analysis](https:\u002F\u002Fspj.science.org\u002Fdoi\u002F10.34133\u002Fresearch.0568) | 2025 | spj Research                                                       |\n| [Validation of histopathology foundation models through whole slide image retrieval](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41598-025-88545-9)             | 2025 | Scientific Reports                                                 |\n| [Deep Learning Framework for Classifying Whole-slide Multiplex Immunofluorescence Images to Predict Immunotherapy Response in Melanoma Patients](https:\u002F\u002Fwww.techrxiv.org\u002Fdoi\u002Ffull\u002F10.36227\u002Ftechrxiv.173496563.35713571) | 2024 | TechRxiv:10.36227\u002Ftechrxiv.173496563.35713571                      |\n| [Deep learning-based lymph node metastasis status predicts prognosis from muscle-invasive bladder cancer histopathology](https:\u002F\u002Flink.springer.com\u002Farticle\u002F10.1007\u002Fs00345-025-05440-8) | 2025 | World Journal of Urology                                           |\n\u003C\u002Fdetails>\n\n## Pre-extracted Embeddings\nTo facilitate downstream tasks, we provide pre-extracted embeddings for the UNI 2 model (UNI2-h) for TCGA, CPTAC and PANDA, which can be downloaded [here](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FMahmoodLab\u002FUNI2-h-features).\n\n## Benchmarking UNI 2\n\n### ROI Benchmarks\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth>Model name\u003C\u002Fth>\n      \u003Cth>Pretraining\u003C\u002Fth>\n      \u003Cth>Model size\u003C\u002Fth>\n      \u003Cth>HEST (Regression, Public)\u003C\u002Fth>\n      \u003Cth>CRC-100K-Raw (9 classes, Public)\u003C\u002Fth>\n      \u003Cth>TCGA Uniform Tumor (32 classes, Public)\u003C\u002Fth>\n      \u003Cth>C17-WILDS (2 classes, Public)\u003C\u002Fth>\n      \u003Cth>Kather MSI （2 classes, Public)\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd>UNI\u003C\u002Ftd>\n      \u003Ctd>Vision\u003C\u002Ftd>\n      \u003Ctd>ViT-l\u002F16\u003C\u002Ftd>\n      \u003Ctd>0.386\u003C\u002Ftd>\n      \u003Ctd>0.925\u003C\u002Ftd>\n      \u003Ctd>0.595\u003C\u002Ftd>\n      \u003Ctd>0.972\u003C\u002Ftd>\n      \u003Ctd>0.679\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd colspan=\"8\">\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Cstrong>UNI2-h\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>Vision\u003C\u002Ftd>\n      \u003Ctd>ViT-h\u002F14\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.414\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.957\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.675\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.977\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.722\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Virchow 2\u003C\u002Ftd>\n      \u003Ctd>Vision\u003C\u002Ftd>\n      \u003Ctd>ViT-h\u002F14\u003C\u002Ftd>\n      \u003Ctd>0.398\u003C\u002Ftd>\n      \u003Ctd>0.952\u003C\u002Ftd>\n      \u003Ctd>0.620\u003C\u002Ftd>\n      \u003Ctd>0.975\u003C\u002Ftd>\n      \u003Ctd>0.713\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Virchow\u003C\u002Ftd>\n      \u003Ctd>Vision\u003C\u002Ftd>\n      \u003Ctd>ViT-h\u002F14\u003C\u002Ftd>\n      \u003Ctd>0.398\u003C\u002Ftd>\n      \u003Ctd>0.919\u003C\u002Ftd>\n      \u003Ctd>0.544\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.977\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>0.670\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd colspan=\"8\">\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Cstrong>UNI2-g-preview\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>Vision\u003C\u002Ftd>\n      \u003Ctd>ViT-g\u002F14\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.416\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.949\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.690\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.985\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.725\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>h-optimus\u003C\u002Ftd>\n      \u003Ctd>Vision\u003C\u002Ftd>\n      \u003Ctd>ViT-g\u002F14\u003C\u002Ftd>\n      \u003Ctd>0.415\u003C\u002Ftd>\n      \u003Ctd>0.930\u003C\u002Ftd>\n      \u003Ctd>0.647\u003C\u002Ftd>\n      \u003Ctd>0.970\u003C\u002Ftd>\n      \u003Ctd>0.707\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Prov-GigaPath\u003C\u002Ftd>\n      \u003Ctd>Vision\u003C\u002Ftd>\n      \u003Ctd>ViT-g\u002F14\u003C\u002Ftd>\n      \u003Ctd>0.385\u003C\u002Ftd>\n      \u003Ctd>0.929\u003C\u002Ftd>\n      \u003Ctd>0.593\u003C\u002Ftd>\n      \u003Ctd>0.961\u003C\u002Ftd>\n      \u003Ctd>0.693\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd colspan=\"8\">\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>CONCH\u003C\u002Ftd>\n      \u003Ctd>Vision-language\u003C\u002Ftd>\n      \u003Ctd>ViT-b\u002F16\u003C\u002Ftd>\n      \u003Ctd>0.371\u003C\u002Ftd>\n      \u003Ctd>0.941\u003C\u002Ftd>\n      \u003Ctd>0.556\u003C\u002Ftd>\n      \u003Ctd>0.967\u003C\u002Ftd>\n      \u003Ctd>0.685\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>MUSK\u003C\u002Ftd>\n      \u003Ctd>Vision-language\u003C\u002Ftd>\n      \u003Ctd>ViT-l\u002F16\u003C\u002Ftd>\n      \u003Ctd>0.346\u003C\u002Ftd>\n      \u003Ctd>0.913\u003C\u002Ftd>\n      \u003Ctd>0.464\u003C\u002Ftd>\n      \u003Ctd>0.954\u003C\u002Ftd>\n      \u003Ctd>0.666\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n### Slide Benchmarks\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth>Model name\u003C\u002Fth>\n      \u003Cth>Pretraining\u003C\u002Fth>\n      \u003Cth>Model size\u003C\u002Fth>\n      \u003Cth>EBRAINS (30 classes, Public)\u003C\u002Fth>\n      \u003Cth>PANDA (5 classes, Public)\u003C\u002Fth>\n      \u003Cth>IHC ER \u002F PR Assess. (6 classes, Internal)\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd>UNI\u003C\u002Ftd>\n      \u003Ctd>Vision\u003C\u002Ftd>\n      \u003Ctd>ViT-l\u002F16\u003C\u002Ftd>\n      \u003Ctd>0.682\u003C\u002Ftd>\n      \u003Ctd>0.944\u003C\u002Ftd>\n      \u003Ctd>0.776\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd colspan=\"6\">\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Cstrong>UNI2-h\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>Vision\u003C\u002Ftd>\n      \u003Ctd>ViT-h\u002F14\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.711\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.946\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>0.794\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Virchow 2\u003C\u002Ftd>\n      \u003Ctd>Vision\u003C\u002Ftd>\n      \u003Ctd>ViT-h\u002F14\u003C\u002Ftd>\n      \u003Ctd>0.691\u003C\u002Ftd>\n      \u003Ctd>0.931\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.808\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Virchow\u003C\u002Ftd>\n      \u003Ctd>Vision\u003C\u002Ftd>\n      \u003Ctd>ViT-h\u002F14\u003C\u002Ftd>\n      \u003Ctd>0.681\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.946\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>0.756\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd colspan=\"6\">\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Cstrong>UNI2-g-preview\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>Vision\u003C\u002Ftd>\n      \u003Ctd>ViT-g\u002F14\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.746\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.953\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.795\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>h-optimus\u003C\u002Ftd>\n      \u003Ctd>Vision\u003C\u002Ftd>\n      \u003Ctd>ViT-g\u002F14\u003C\u002Ftd>\n      \u003Ctd>0.726\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.953\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>0.761\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Prov-GigaPath\u003C\u002Ftd>\n      \u003Ctd>Vision\u003C\u002Ftd>\n      \u003Ctd>ViT-g\u002F14\u003C\u002Ftd>\n      \u003Ctd>0.687\u003C\u002Ftd>\n      \u003Ctd>0.944\u003C\u002Ftd>\n      \u003Ctd>0.775\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd colspan=\"6\">\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>CONCH\u003C\u002Ftd>\n      \u003Ctd>Vision-language\u003C\u002Ftd>\n      \u003Ctd>ViT-b\u002F16\u003C\u002Ftd>\n      \u003Ctd>0.689\u003C\u002Ftd>\n      \u003Ctd>0.934\u003C\u002Ftd>\n      \u003Ctd>0.794\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>MUSK\u003C\u002Ftd>\n      \u003Ctd>Vision-language\u003C\u002Ftd>\n      \u003Ctd>ViT-l\u002F16\u003C\u002Ftd>\n      \u003Ctd>0.660\u003C\u002Ftd>\n      \u003Ctd>0.923\u003C\u002Ftd>\n      \u003Ctd>0.764\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\nIn each task, for each model, we sweep over 3 learning rates (1e-5, 5e-5, 1e-4) and report the test performance corresponding to the best performing model on the validation set.\n\nFor all assessments, all models are evaluated using the global representation (e.g. CLS token) without test time augmentation.\n\n## Installation\nFirst clone the repo and cd into the directory:\n```shell\ngit clone https:\u002F\u002Fgithub.com\u002Fmahmoodlab\u002FUNI.git\ncd UNI\n```\nThen create a conda env and install the dependencies:\n```shell\nconda create -n UNI python=3.10 -y\nconda activate UNI\npip install -e .\n```\n\n\n### 1. Getting access\nRequest access to the model weights from the Huggingface model page using links provided in the [Model Weights](#model-weights) section. You will need to login to Huggingface to download the model weights. \n\n\n### 2. Downloading weights + Creating model\nFollowing authentication (using ```huggingface_hub```), the pretrained checkpoints and image transforms for UNI can be directly loaded using the [timm](https:\u002F\u002Fhuggingface.co\u002F\u002Fgithub\u002Fhub\u002Fen\u002Ftimm) library. This method automatically downloads the model weights to the [huggingface_hub cache](https:\u002F\u002Fhuggingface.co\u002F\u002Fgithub\u002Fhuggingface_hub\u002Fen\u002Fguides\u002Fmanage-cache) in your home directory, which ```timm``` will automatically find when using the commands below:\n\n```python\nimport timm\nimport torch\nfrom timm.data import resolve_data_config\nfrom timm.data.transforms_factory import create_transform\nfrom huggingface_hub import login\n\nlogin()  # login with your User Access Token, found at https:\u002F\u002Fhuggingface.co\u002Fsettings\u002Ftokens\n\n# pretrained=True needed to load UNI weights (and download weights for the first time)\n# using UNI2-h as example\ntimm_kwargs = {\n   'img_size': 224, \n   'patch_size': 14, \n   'depth': 24,\n   'num_heads': 24,\n   'init_values': 1e-5, \n   'embed_dim': 1536,\n   'mlp_ratio': 2.66667*2,\n   'num_classes': 0, \n   'no_embed_class': True,\n   'mlp_layer': timm.layers.SwiGLUPacked, \n   'act_layer': torch.nn.SiLU, \n   'reg_tokens': 8, \n   'dynamic_img_size': True\n  }\nmodel = timm.create_model(\"hf-hub:MahmoodLab\u002FUNI2-h\", pretrained=True, **timm_kwargs)\ntransform = create_transform(**resolve_data_config(model.pretrained_cfg, model=model))\nmodel.eval()\n```\n\nYou can also download the model weights to a specified checkpoint location in your local directory. The ```timm``` library is still used for defining the model architecture (e.g. custom ViT-H\u002F14). Pretrained weights and image transforms for UNI need to be manually loaded and defined.\n```python\nimport os\nimport torch\nfrom torchvision import transforms\nimport timm\nfrom huggingface_hub import login, hf_hub_download\n\nlogin()  # login with your User Access Token, found at https:\u002F\u002Fhuggingface.co\u002Fsettings\u002Ftokens\n\nlocal_dir = \"..\u002Fassets\u002Fckpts\u002Funi2-h\u002F\"\nos.makedirs(local_dir, exist_ok=True)  # create directory if it does not exist\nhf_hub_download(\"MahmoodLab\u002FUNI2-h\", filename=\"pytorch_model.bin\", local_dir=local_dir, force_download=True)\ntimm_kwargs = {\n   'model_name': 'vit_giant_patch14_224',\n   'img_size': 224, \n   'patch_size': 14, \n   'depth': 24,\n   'num_heads': 24,\n   'init_values': 1e-5, \n   'embed_dim': 1536,\n   'mlp_ratio': 2.66667*2,\n   'num_classes': 0, \n   'no_embed_class': True,\n   'mlp_layer': timm.layers.SwiGLUPacked, \n   'act_layer': torch.nn.SiLU, \n   'reg_tokens': 8, \n   'dynamic_img_size': True\n  }\nmodel = timm.create_model(**timm_kwargs)\nmodel.load_state_dict(torch.load(os.path.join(local_dir, \"pytorch_model.bin\"), map_location=\"cpu\"), strict=True)\ntransform = transforms.Compose(\n [\n  transforms.Resize(224),\n  transforms.CenterCrop(224),\n  transforms.ToTensor(),\n  transforms.Normalize(mean=(0.485, 0.456, 0.406), std=(0.229, 0.224, 0.225)),\n ]\n)\nmodel.eval()\n```\n\nThe function `get_encoder` performs the commands above, downloading in the checkpoint in the `.\u002Fassets\u002Fckpts\u002F` relative path of this GitHub repository.\n```python\nfrom uni import get_encoder\nmodel, transform = get_encoder(enc_name='uni2-h', device=device)\n```\n\n### 3. Running Inference\n\nYou can use the UNI pretrained encoder to extract features from histopathology ROIs, as follows:\n\n```python\nfrom PIL import Image\nimage = Image.open(\"uni.jpg\")\nimage = transform(image).unsqueeze(dim=0) # Image (torch.Tensor) with shape [1, 3, 224, 224] following image resizing and normalization (ImageNet parameters)\nwith torch.inference_mode():\n feature_emb = model(image) # Extracted features (torch.Tensor) with shape [1, 1536]\n```\n\nThese pre-extracted features can then be used ROI classification (via linear probing), slide classification (via multiple instance learning), and other machine learning settings.\n\n\n## Overview of specific usages\nWe provide high-level functions for loading the model and using it for inference. For model loading, the function `get_encoder` performs the commands above in Step 2, downloading in the checkpoint in the `.\u002Fassets\u002Fckpts\u002F` relative path of this GitHub repository.\n```python\nfrom uni import get_encoder\nmodel, transform = get_encoder(enc_name='uni2-h', device=device)\n```\n\nFor inference:\n```python\nfrom uni.downstream.extract_patch_features import extract_patch_features_from_dataloader\nfrom uni.downstream.eval_patch_features.linear_probe import eval_linear_probe\nfrom uni.downstream.eval_patch_features.fewshot import eval_knn, eval_fewshot\nfrom uni.downstream.eval_patch_features.protonet import ProtoNet, prototype_topk_vote\n```\nRefer to the notebooks below for detailed examples.\n\n### More detailed starter code for loading \u002F using the model:\nSee [**.\u002Fnotebooks\u002Funi_walkthrough.ipynb**](notebooks\u002Funi_walkthrough.ipynb) to get started with loading and using the model to create embeddings, and example code for extracting ROI features and performing ROI classification \u002F retrieval.\n\n## License and Terms of Tuse\n\nⓒ Mahmood Lab. The models and associated code are released under the [CC-BY-NC-ND 4.0]((https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-nd\u002F4.0\u002Fdeed.en)) license and may only be used for non-commercial, academic research purposes with proper attribution. Any commercial use, sale, or other monetization of the UNI models and their derivatives, which include models trained on outputs from the UNI models or datasets created from the UNI models, is prohibited and requires prior approval. Downloading the model requires prior registration on Hugging Face and agreeing to the terms of use. By downloading the models, you agree not to distribute, publish or reproduce a copy of the models. If another user within your organization wishes to use the UNI models, they must register as an individual user and agree to comply with the terms of use. Users may not attempt to re-identify the deidentified data used to develop the underlying models. If you are a commercial entity, please contact the corresponding author or Mass General Brigham Innovation Office.\n\n\n## Acknowledgements\nThe project was built on top of amazing repositories such as [ViT](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fbig_vision), [DINOv2](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdinov2), [LGSSL](https:\u002F\u002Fgithub.com\u002Fmbanani\u002Flgssl),  and [Timm](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fpytorch-image-models\u002F) (ViT model implementation). We thank the authors and developers for their contribution. \n\n\n## Reference\nIf you find our work useful in your research or if you use parts of this code please consider citing our [paper](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41591-024-02857-3):\n\nChen, R.J., Ding, T., Lu, M.Y., Williamson, D.F.K., et al. Towards a general-purpose foundation model for computational pathology. Nat Med (2024). https:\u002F\u002Fdoi.org\u002F10.1038\u002Fs41591-024-02857-3\n\n```\n@article{chen2024uni,\n  title={Towards a General-Purpose Foundation Model for Computational Pathology},\n  author={Chen, Richard J and Ding, Tong and Lu, Ming Y and Williamson, Drew FK and Jaume, Guillaume and Chen, Bowen and Zhang, Andrew and Shao, Daniel and Song, Andrew H and Shaban, Muhammad and others},\n  journal={Nature Medicine},\n  publisher={Nature Publishing Group},\n  year={2024}\n}\n```\n\n\u003Cimg src=.github\u002Fjoint_logo.jpg> \n","# UNI \n\n## 朝着计算病理学的通用基础模型迈进\n《自然医学》 \u003Cimg src=\".github\u002Funi.jpg\" width=\"300px\" align=\"right\" \u002F>\n\n[期刊链接](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41591-024-02857-3) | [开放获取阅读链接](https:\u002F\u002Frdcu.be\u002FdBMgh) | [下载模型](#model-weights) | [下载预提取的嵌入](#pre-extracted-embeddings) | [引用](#reference) \n\n### 更新\n- 2025年3月20日：我们团队撰写的[UNI与CONCH的一年回顾](https:\u002F\u002Fwww.linkedin.com\u002Fposts\u002Ffaisalmmd_its-been-one-year-since-we-release-uni-and-activity-7308523636250820608-NedR?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAtTgDUBogopLVJVJOF9wEPZNmx4mbyt4OI)，其中包含更新的研究应用表格。\n- 2025年3月6日：Meta AI发表的[博客文章](https:\u002F\u002Fai.meta.com\u002Fblog\u002Fmahmood-lab-human-pathology-dinov2\u002F)，介绍了我们使用DINOv2开发UNI的过程。\n- **2025年1月14日：发布UNI 2，该模型在来自35万张以上多样化全切片图像中抽取的超过2亿张病理H&E和IHC图像上进行训练。[UNI 2模型权重](https:\u002F\u002Fhuggingface.co\u002FMahmoodLab\u002FUNI2-h)、基准测试结果以及[来自TCGA、CPTAC和PANDA的2.5万+个预提取WSI嵌入](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FMahmoodLab\u002FUNI2-h-features)均已公开。**\n- 2024年12月17日：《自然医学》刊登了关于UNI与CONCH在临床肿瘤学中应用的[研究亮点](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs43018-024-00837-7)。\n- 2024年3月19日：UNI正式发表！模型权重及初步基准测试结果随之公开。\n\n不熟悉UNI？请参阅原始README文件（[此处](.\u002FREADME_old.md)）以获取更多详细信息，或参考配套的《自然医学》研究论文（[此处](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41591-024-02857-3)）。\n\n\n## 模型权重\n| 模型名称    | 发布日期 | 模型架构 | 下载链接            |\n|---------------------|--------------|---------------------|-------------------------------------------------------------|\n| UNI2-h      |   2025年1月        | ViT-h\u002F14-reg8               | [HF链接](https:\u002F\u002Fhuggingface.co\u002FMahmoodLab\u002FUNI2-h) |\n| UNI          |   2024年3月        | ViT-l\u002F16                 | [HF链接](https:\u002F\u002Fhuggingface.co\u002FMahmoodLab\u002Funi)  |\n\n## 使用UNI与CONCH的研究应用\n\u003Cdetails>\n  \u003Csummary>\n    \u003Cb>最后更新于2025年3月20日\u003C\u002Fb>\n  \u003C\u002Fsummary>\n\n| 论文名称                                                   | 年份 | 出版物                     |\n|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------|------|------|\n| [用于学习全切片图像表示的自监督框架](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.06188)                                             | 2024 | arXiv:2402.06188                                                   |\n| [Honeybee：一种基于基础嵌入模型创建多模态肿瘤学数据集的可扩展模块化框架](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.07460) | 2024 | arXiv:2405.07460                                                   |\n| [结合图神经网络与Mamba以捕捉全切片图像中的局部和全局组织空间关系](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.04377) | 2024 | arXiv:2406.04377                                                   |\n| [STimage-1K4M：用于空间转录组学的组织病理学图像-基因表达数据集](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.06393)                         | 2024 | arXiv:2406.06393                                                   |\n| [基于嵌入的泛鳞状细胞癌多模态学习以改善生存预后](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.08521)               | 2024 | arXiv:2406.08521                                                   |\n| [公开自监督病理学基础模型的临床基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.06508v1)                                     | 2024 | arXiv:2407.06508v1                                                |\n| [Path-SAM2：将SAM2迁移用于数字病理语义分割](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.03651)                                             | 2024 | arXiv:2408.03651                                                   |\n| [作为弱监督计算病理学特征提取器的基础模型基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.15823)               | 2024 | arXiv:2408.15823                                                   |\n| [利用数字组织病理学和深度学习对儿童脑肿瘤进行分类：在瑞典多中心队列上评估最先进方法](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.01330) | 2024 | arXiv:2409.01330                                                   |\n| [评估预训练卷积神经网络和基础模型作为基于内容的医学图像检索的特征提取器](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.09430) | 2024 | arXiv:2409.09430                                                   |\n| [评估深度回归模型用于基于WSI的基因表达预测](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.00945)                                       | 2024 | arXiv:2410.00945                                                   |\n| [脐带胎儿炎症反应诊断的深度学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.09767)                                    | 2024 | arXiv:2411.09767                                                   |\n| [病理全切片图像分层分类中的诊断文本引导表示学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.10709) | 2024 | arXiv:2411.10709                                                   |\n| [无需重新训练即可利用计算病理AI进行无创光学成像分析](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.11613)                | 2024 | arXiv:2411.11613                                                   |\n| [FOCUS：面向少样本全切片图像分类的知识增强自适应视觉压缩](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.14743)             | 2024 | arXiv:2411.14743                                                   |\n| [RankByGene：通过跨模态排序一致性实现基因指导的组织病理学表示学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.15076)           | 2024 | arXiv:2411.15076                                                   |\n| [ST-Align：用于空间转录组学中图像-基因对齐的多模态基础模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.16793)                     | 2024 | arXiv:2411.16793                                                   |\n| [用于精准肿瘤学的全切片图像与组学数据的多模态外算块双融合](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.17418)        | 2024 | arXiv:2411.17418                                                   |\n| [用于病理学的多模态全切片基础模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.19666)                                                            | 2024 | arXiv:2411.19666                                                   |\n| [GCUNet：基于GNN的上下文学习网络，用于全切片图像中三级淋巴结构的语义分割](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.06129) | 2024 | arXiv:2412.06129                                                   |\n| [用于透明细胞肾细胞癌治疗效果预测的多模态集成方法](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.07136)                 | 2024 | arXiv:2412.07136                                                   |\n| [从组织病理学图像到细胞云：利用分层细胞Transformer学习切片表示](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.16715)     | 2024 | arXiv:2412.16715                                                   |\n| [视觉-语言模型不理解否定](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.09425)                                                                | 2025 | arXiv:2501.09425                                                   |\n| [将先验知识注入从全切片图像预测基因表达的深度学习模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.14056)          | 2025 | arXiv:2501.14056                                                   |\n| [面向肿瘤病理学的分子驱动基础模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.16652)                                                        | 2025 | arXiv:2501.16652                                                   |\n| [用于骨转移癌分析的动态超图表示](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.16787)                                            | 2025 | arXiv:2501.16787                                                   |\n| [皮肤黑色素细胞病变的病理报告生成与多模态表示学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.19293)             | 2025 | arXiv:2502.19293                                                   |\n| [DELST：用于空间转录组学中双蕴涵学习的双曲型图像-基因预训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.00804)                 | 2025 | arXiv:2503.00804                                                   |\n| [通过细胞图与图像融合实现恶性淋巴瘤亚型分类的可解释分类器](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.00925)                          | 2025 | arXiv:2503.00925                                                   |\n| [CrossFusion：用于癌症生存预测的多尺度交叉注意力卷积融合模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.02064)             | 2025 | arXiv:2503.02064                                                   |\n| [用于多模态癌症生存分析的适应性原型学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.04643)                                              | 2025 | arXiv:2503.04643                                                   |\n| [ecPath能从组织病理学图像中检测肿瘤中的ecDNA](https:\u002F\u002Fwww.biorxiv.org\u002Fcontent\u002F10.1101\u002F2024.11.13.623494v1.abstract)                    | 2024 | bioRxiv:2024.11.13.623494v1                                        |\n| [组学指导的全切片视觉嵌入表示对比学习](https:\u002F\u002Fwww.biorxiv.org\u002Fcontent\u002F10.1101\u002F2025.01.12.632280.abstract) | 2025 | bioRxiv:2025.01.12.632280                                          |\n| [空间转录组学与组织病理学影像的多模态解纠缠](https:\u002F\u002Fwww.biorxiv.org\u002Fcontent\u002F10.1101\u002F2025.02.19.638201v1)     | 2025 | bioRxiv:2025.02.19.638201v1                                       |\n| [通过组织学锚定整合实现高参数空间多组学](https:\u002F\u002Fwww.biorxiv.org\u002Fcontent\u002F10.1101\u002F2025.02.23.639721v1)             | 2025 | bioRxiv:2025.02.23.639721v1                                       |\n| [弱监督深度学习模型可实现基于H&E染色切片的HER2低表达预测](https:\u002F\u002Fbreast-cancer-research.biomedcentral.com\u002Farticles\u002F10.1186\u002Fs13058-024-01863-0) | 2024 | Breast Cancer Research                                            |\n| [2DMamba：高效状态空间模型，用于图像表示并在千兆像素级全切片图像上有应用](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.00678)  | 2025 | 计算机视觉与模式识别（CVPR）                       |\n| [计算病理学中转录组学指导的切片表示学习](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2024\u002Fhtml\u002FJaume_Transcriptomics-guided_Slide_Representation_Learning_in_Computational_Pathology_CVPR_2024_paper.html) | 2024 | 计算机视觉与模式识别（CVPR）                       |\n| [计算病理学中无监督切片表示学习的形态学原型设计](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2024\u002Fhtml\u002FSong_Morphological_Prototyping_for_Unsupervised_Slide_Representation_Learning_in_Computational_Pathology_CVPR_2024_paper.html) | 2024 | 计算机视觉与模式识别（CVPR）                       |\n| [新型基于深度学习的癌症组织病理学图像模型的开发与验证](https:\u002F\u002Fopenarchive.ki.se\u002Farticles\u002Fthesis\u002FDevelopment_and_validation_of_novel_deep_learning-_based_models_for_cancer_histopathology_image\u002F27291567) | 2024 | 博士论文（卡罗林斯卡学院）                      |\n| [病理学中切片表示学习的多染色预训练](https:\u002F\u002Feccv.ecva.net\u002Fvirtual\u002F2024\u002Fposter\u002F429)                               | 2024 | 欧洲计算机视觉大会（ICCV）                      |\n| [具有序数归纳偏置的可解释视觉-语言生存分析，用于计算病理学](https:\u002F\u002Fopenreview.net\u002Fforum?id=trj2Jq8riA) | 2025 | 国际表征学习会议（ICLR）        |\n| [用于癌症生存预测的多模态原型设计](https:\u002F\u002Fproceedings.mlr.press\u002Fv235\u002Fsong24b.html)                                            | 2024 | 国际机器学习会议（ICML）                |\n| [利用histosge从组织学图像进行高分辨率空间转录组学](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.20518)                                     | 2024 | 国际生物信息学与生物医学会议（BIBM）  |\n| [用于卵巢癌亚型分类的多分辨率组织病理学补丁图](https:\u002F\u002Flink.springer.com\u002Fchapter\u002F10.1007\u002F978-3-031-83243-7_7)           | 2024 | 国际生物医学图像分析中图论研讨会      |\n| [通过基础模型和离散扩散模型在骨肉瘤评估中弥合分类与分割](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.01932) | 2025 | 国际生物医学成像研讨会（ISBI）               |\n| [1250个基于H&E的细胞预测多分类模型，用于捕捉CD8+ T细胞中形态学上不同的亚群](https:\u002F\u002Fjitc.bmj.com\u002Fcontent\u002F12\u002FSuppl_2\u002FA1399) | 2024 | 癌症免疫疗法杂志                                |\n| [使用弱监督学习对儿童和青少年三色组织学切片进行肝纤维化分级](https:\u002F\u002Fwww.sciencedirect.com\u002Fscience\u002Farticle\u002Fpii\u002FS2153353924000555) | 2025 | 病理信息学杂志                                   |\n| [2024年结核病检测竞赛获奖者](https:\u002F\u002Fwww.linkedin.com\u002Fposts\u002Fzsoltbedohazi_winners-of-the-2024-tuberculosis-detection-activity-7186281385572065280-zpOq) | 2024 | LinkedIn帖子                                                      |\n| [基于模型清理QUILT-1M病理学数据集，用于文本条件图像生成](https:\u002F\u002Fopenreview.net\u002Fforum?id=m7wYKrUjzV)             | 2024 | 医学影像与深度学习                                 |\n| [利用HistoGPT从千兆像素级全切片图像生成高度准确的病理报告](https:\u002F\u002Fwww.medrxiv.org\u002Fcontent\u002F10.1101\u002F2024.03.15.24304211v2) | 2024 | medRxiv:2024.03.15.24304211v2                                     |\n| [HIBRID：基于组织学和ct-DNA的深度学习风险分层](https:\u002F\u002Fwww.medrxiv.org\u002Fcontent\u002F10.1101\u002F2024.07.23.24310822.abstract)      | 2024 | medRxiv:2024.07.23.24310822                                       |\n| [\"SurvivMIL：用于神经母细胞瘤患者生存结局的多模态多实例学习管道\"](https:\u002F\u002Fproceedings.mlr.press\u002Fv254\u002Fnaidoo24a.html) | 2024 | MICCAI关于多模态数据计算病理学研讨会（COMPAYL） |\n| [儿科脑肿瘤分类中H&E与IHC组织学图像的早期融合](https:\u002F\u002Fopenreview.net\u002Fforum?id=PHtzsqDi0n)                  | 2024 | MICCAI关于多模态数据计算病理学研讨会（COMPAYL） |\n| [Fluoroformer：通过基于注意力的通道融合将多实例学习扩展到多重染色图像](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.08975)        | 2024 | ML4H研讨会                                                     |\n| [利用替代性末端连接的转录调控来预测癌症治疗](https:\u002F\u002Facademic.oup.com\u002Fnarcancer\u002Farticle\u002F7\u002F1\u002Fzcaf007\u002F8063268) | 2025 | NAR Cancer                                                         |\n| [人类病理学的多模态生成式AI副驾驶](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41586-024-07618-3)                                          | 2024 | Nature                                                             |\n| [利用线性化注意力从组织学图像进行基因表达的数字化剖析](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41467-024-54182-5)           | 2024 | Nature Communications                                             |\n| [计算病理学模型误诊中的人口统计学偏差](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41591-024-02885-z)                             | 2024 | Nature Medicine                                                    |\n| [Hest-1k：用于空间转录组学和组织学图像分析的数据集](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2024\u002Fhash\u002F60a899cc31f763be0bde781a75e04458-Abstract-Datasets_and_Benchmarks_Track.html) | 2024 | 神经信息处理系统进展                  |\n| [重新思考Transformer以用于长上下文组织病理学全切片图像分析](https:\u002F\u002Fopenreview.net\u002Fforum?id=f3oHNyqd83)                   | 2024 | 神经信息处理系统进展                  |\n| [利用肿瘤异质性：在全切片图像中进行癌症生存预测的异质图表示学习](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2024\u002Fhash\u002F760341adc5632de3f1cf2e8d22215a93-Abstract-Conference.html) | 2024 | 神经信息处理系统进展                  |\n| [超越H&E和肿瘤学：组织病理学基础模型在多染色IHC和免疫学方面表现如何？](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.21560) | 2024 | NeurIPS关于医学基础模型进展的研讨会      |\n| [组织病理学与蛋白质组学协同作用，可用于预测高级别浆液性卵巢癌对铂类药物的反应](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41698-025-00808-w) | 2025 | npj Precision Oncology                                             |\n| [深度学习用于从宫颈组织学图像预测宫颈癌的预后共识分子亚型](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41698-024-00778-5) | 2025 | npj Precision Oncology                                             |\n| [膀胱癌预后预测的综合多中心深度学习系统](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41698-024-00731-6)        | 2024 | npj Precision Oncology                                             |\n| [从数字组织病理学图像预测非小细胞肺癌的肿瘤微环境组成及免疫治疗反应](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41698-024-00765-w) | 2024 | npj Precision Oncology                                             |\n| [基于人工智能的数字组织病理学对神经母细胞瘤进行形态学分类和分子特征描述](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41698-024-00745-0) | 2024 | npj Precision Oncology                                             |\n| [深度学习支持的组织学与转录组学整合，用于组织空间特征分析](https:\u002F\u002Fspj.science.org\u002Fdoi\u002F10.34133\u002Fresearch.0568) | 2025 | spj Research                                                       |\n| [通过全切片图像检索验证组织病理学基础模型](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41598-025-88545-9)             | 2025 | Scientific Reports                                                 |\n| [用于分类全切片多重免疫荧光图像并预测黑色素瘤患者免疫治疗反应的深度学习框架](https:\u002F\u002Fwww.techrxiv.org\u002Fdoi\u002Ffull\u002F10.36227\u002Ftechrxiv.173496563.35713571) | 2024 | TechRxiv:10.36227\u002Ftechrxiv.173496563.35713571                      |\n| [基于深度学习的淋巴结转移状态可预测肌肉浸润性膀胱癌组织病理学的预后](https:\u002F\u002Flink.springer.com\u002Farticle\u002F10.1007\u002Fs00345-025-05440-8) | 2025 | 世界泌尿外科杂志                                           |\n\u003C\u002Fdetails>\n\n## 预提取的嵌入\n为了便于下游任务，我们为 TCGA、CPTAC 和 PANDA 数据集提供了 UNI 2 模型（UNI2-h）的预提取嵌入，可从[这里](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FMahmoodLab\u002FUNI2-h-features)下载。\n\n## UNI 2 的基准测试\n\n### ROI 基准测试\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth>模型名称\u003C\u002Fth>\n      \u003Cth>预训练\u003C\u002Fth>\n      \u003Cth>模型规模\u003C\u002Fth>\n      \u003Cth>HEST（回归，公开）\u003C\u002Fth>\n      \u003Cth>CRC-100K-Raw（9 类，公开）\u003C\u002Fth>\n      \u003Cth>TCGA 统一肿瘤（32 类，公开）\u003C\u002Fth>\n      \u003Cth>C17-WILDS（2 类，公开）\u003C\u002Fth>\n      \u003Cth>Kather MSI（2 类，公开）\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd>UNI\u003C\u002Ftd>\n      \u003Ctd>视觉\u003C\u002Ftd>\n      \u003Ctd>ViT-l\u002F16\u003C\u002Ftd>\n      \u003Ctd>0.386\u003C\u002Ftd>\n      \u003Ctd>0.925\u003C\u002Ftd>\n      \u003Ctd>0.595\u003C\u002Ftd>\n      \u003Ctd>0.972\u003C\u002Ftd>\n      \u003Ctd>0.679\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd colspan=\"8\">\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Cstrong>UNI2-h\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>视觉\u003C\u002Ftd>\n      \u003Ctd>ViT-h\u002F14\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.414\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.957\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.675\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.977\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.722\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Virchow 2\u003C\u002Ftd>\n      \u003Ctd>视觉\u003C\u002Ftd>\n      \u003Ctd>ViT-h\u002F14\u003C\u002Ftd>\n      \u003Ctd>0.398\u003C\u002Ftd>\n      \u003Ctd>0.952\u003C\u002Ftd>\n      \u003Ctd>0.620\u003C\u002Ftd>\n      \u003Ctd>0.975\u003C\u002Ftd>\n      \u003Ctd>0.713\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Virchow\u003C\u002Ftd>\n      \u003Ctd>视觉\u003C\u002Ftd>\n      \u003Ctd>ViT-h\u002F14\u003C\u002Ftd>\n      \u003Ctd>0.398\u003C\u002Ftd>\n      \u003Ctd>0.919\u003C\u002Ftd>\n      \u003Ctd>0.544\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.977\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>0.670\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd colspan=\"8\">\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Cstrong>UNI2-g-preview\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>视觉\u003C\u002Ftd>\n      \u003Ctd>ViT-g\u002F14\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.416\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.949\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.690\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.985\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.725\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>h-optimus\u003C\u002Ftd>\n      \u003Ctd>视觉\u003C\u002Ftd>\n      \u003Ctd>ViT-g\u002F14\u003C\u002Ftd>\n      \u003Ctd>0.415\u003C\u002Ftd>\n      \u003Ctd>0.930\u003C\u002Ftd>\n      \u003Ctd>0.647\u003C\u002Ftd>\n      \u003Ctd>0.970\u003C\u002Ftd>\n      \u003Ctd>0.707\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Prov-GigaPath\u003C\u002Ftd>\n      \u003Ctd>视觉\u003C\u002Ftd>\n      \u003Ctd>ViT-g\u002F14\u003C\u002Ftd>\n      \u003Ctd>0.385\u003C\u002Ftd>\n      \u003Ctd>0.929\u003C\u002Ftd>\n      \u003Ctd>0.593\u003C\u002Ftd>\n      \u003Ctd>0.961\u003C\u002Ftd>\n      \u003Ctd>0.693\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd colspan=\"8\">\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>CONCH\u003C\u002Ftd>\n      \u003Ctd>视觉-语言\u003C\u002Ftd>\n      \u003Ctd>ViT-b\u002F16\u003C\u002Ftd>\n      \u003Ctd>0.371\u003C\u002Ftd>\n      \u003Ctd>0.941\u003C\u002Ftd>\n      \u003Ctd>0.556\u003C\u002Ftd>\n      \u003Ctd>0.967\u003C\u002Ftd>\n      \u003Ctd>0.685\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>MUSK\u003C\u002Ftd>\n      \u003Ctd>视觉-语言\u003C\u002Ftd>\n      \u003Ctd>ViT-l\u002F16\u003C\u002Ftd>\n      \u003Ctd>0.346\u003C\u002Ftd>\n      \u003Ctd>0.913\u003C\u002Ftd>\n      \u003Ctd>0.464\u003C\u002Ftd>\n      \u003Ctd>0.954\u003C\u002Ftd>\n      \u003Ctd>0.666\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n### 幻灯片基准测试\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth>模型名称\u003C\u002Fth>\n      \u003Cth>预训练\u003C\u002Fth>\n      \u003Cth>模型规模\u003C\u002Fth>\n      \u003Cth>EBRAINS（30 类，公开）\u003C\u002Fth>\n      \u003Cth>PANDA（5 类，公开）\u003C\u002Fth>\n      \u003Cth>IHC ER \u002F PR 评估（6 类，内部）\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd>UNI\u003C\u002Ftd>\n      \u003Ctd>视觉\u003C\u002Ftd>\n      \u003Ctd>ViT-l\u002F16\u003C\u002Ftd>\n      \u003Ctd>0.682\u003C\u002Ftd>\n      \u003Ctd>0.944\u003C\u002Ftd>\n      \u003Ctd>0.776\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd colspan=\"6\">\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Cstrong>UNI2-h\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>视觉\u003C\u002Ftd>\n      \u003Ctd>ViT-h\u002F14\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.711\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.946\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>0.794\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Virchow 2\u003C\u002Ftd>\n      \u003Ctd>视觉\u003C\u002Ftd>\n      \u003Ctd>ViT-h\u002F14\u003C\u002Ftd>\n      \u003Ctd>0.691\u003C\u002Ftd>\n      \u003Ctd>0.931\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.808\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Virchow\u003C\u002Ftd>\n      \u003Ctd>视觉\u003C\u002Ftd>\n      \u003Ctd>ViT-h\u002F14\u003C\u002Ftd>\n      \u003Ctd>0.681\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.946\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>0.756\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd colspan=\"6\">\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Cstrong>UNI2-g-preview\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>视觉\u003C\u002Ftd>\n      \u003Ctd>ViT-g\u002F14\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.746\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.953\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.795\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>h-optimus\u003C\u002Ftd>\n      \u003Ctd>视觉\u003C\u002Ftd>\n      \u003Ctd>ViT-g\u002F14\u003C\u002Ftd>\n      \u003Ctd>0.726\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.953\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>0.761\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Prov-GigaPath\u003C\u002Ftd>\n      \u003Ctd>视觉\u003C\u002Ftd>\n      \u003Ctd>ViT-g\u002F14\u003C\u002Ftd>\n      \u003Ctd>0.687\u003C\u002Ftd>\n      \u003Ctd>0.944\u003C\u002Ftd>\n      \u003Ctd>0.775\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd colspan=\"6\">\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>CONCH\u003C\u002Ftd>\n      \u003Ctd>视觉-语言\u003C\u002Ftd>\n      \u003Ctd>ViT-b\u002F16\u003C\u002Ftd>\n      \u003Ctd>0.689\u003C\u002Ftd>\n      \u003Ctd>0.934\u003C\u002Ftd>\n      \u003Ctd>0.794\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>MUSK\u003C\u002Ftd>\n      \u003Ctd>视觉-语言\u003C\u002Ftd>\n      \u003Ctd>ViT-l\u002F16\u003C\u002Ftd>\n      \u003Ctd>0.660\u003C\u002Ftd>\n      \u003Ctd>0.923\u003C\u002Ftd>\n      \u003Ctd>0.764\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n在每个任务中，对于每种模型，我们都会尝试三种学习率（1e-5、5e-5、1e-4），并报告在验证集上表现最佳的模型对应的测试性能。\n\n对于所有评估，所有模型均使用全局表示（例如 CLS token）进行评估，且未采用测试时增强技术。\n\n## 安装\n首先克隆仓库并进入目录：\n```shell\ngit clone https:\u002F\u002Fgithub.com\u002Fmahmoodlab\u002FUNI.git\ncd UNI\n```\n然后创建一个 conda 环境并安装依赖项：\n```shell\nconda create -n UNI python=3.10 -y\nconda activate UNI\npip install -e .\n```\n\n\n### 1. 获取访问权限\n通过【模型权重】部分提供的链接，向 HuggingFace 模型页面申请模型权重的访问权限。您需要登录 HuggingFace 才能下载模型权重。\n\n\n### 2. 下载权重 + 创建模型\n在完成身份验证后（使用 ```huggingface_hub```），可以使用 [timm](https:\u002F\u002Fhuggingface.co\u002F\u002Fgithub\u002Fhub\u002Fen\u002Ftimm) 库直接加载 UNI 的预训练检查点和图像变换。此方法会自动将模型权重下载到您主目录下的 [huggingface_hub 缓存](https:\u002F\u002Fhuggingface.co\u002F\u002Fgithub\u002Fhuggingface_hub\u002Fen\u002Fguides\u002Fmanage-cache)，当您使用以下命令时，```timm``` 将会自动找到这些权重：\n\n```python\nimport timm\nimport torch\nfrom timm.data import resolve_data_config\nfrom timm.data.transforms_factory import create_transform\nfrom huggingface_hub import login\n\nlogin()  # 使用您的用户访问令牌登录，该令牌可在 https:\u002F\u002Fhuggingface.co\u002Fsettings\u002Ftokens 上找到\n\n# pretrained=True 是加载 UNI 权重所必需的（也是首次下载权重的方式）\n\n# 以 UNI2-h 为例\ntimm_kwargs = {\n   'img_size': 224, \n   'patch_size': 14, \n   'depth': 24,\n   'num_heads': 24,\n   'init_values': 1e-5, \n   'embed_dim': 1536,\n   'mlp_ratio': 2.66667*2,\n   'num_classes': 0, \n   'no_embed_class': True,\n   'mlp_layer': timm.layers.SwiGLUPacked, \n   'act_layer': torch.nn.SiLU, \n   'reg_tokens': 8, \n   'dynamic_img_size': True\n  }\nmodel = timm.create_model(\"hf-hub:MahmoodLab\u002FUNI2-h\", pretrained=True, **timm_kwargs)\ntransform = create_transform(**resolve_data_config(model.pretrained_cfg, model=model))\nmodel.eval()\n```\n\n你也可以将模型权重下载到本地目录中的指定检查点位置。仍然使用 ```timm``` 库来定义模型架构（例如自定义的 ViT-H\u002F14）。UNI 的预训练权重和图像变换需要手动加载和定义。\n```python\nimport os\nimport torch\nfrom torchvision import transforms\nimport timm\nfrom huggingface_hub import login, hf_hub_download\n\nlogin()  # 使用你的用户访问令牌登录，该令牌可在 https:\u002F\u002Fhuggingface.co\u002Fsettings\u002Ftokens 上找到\n\nlocal_dir = \"..\u002Fassets\u002Fckpts\u002Funi2-h\u002F\"\nos.makedirs(local_dir, exist_ok=True)  # 如果目录不存在，则创建\nhf_hub_download(\"MahmoodLab\u002FUNI2-h\", filename=\"pytorch_model.bin\", local_dir=local_dir, force_download=True)\ntimm_kwargs = {\n   'model_name': 'vit_giant_patch14_224',\n   'img_size': 224, \n   'patch_size': 14, \n   'depth': 24,\n   'num_heads': 24,\n   'init_values': 1e-5, \n   'embed_dim': 1536,\n   'mlp_ratio': 2.66667*2,\n   'num_classes': 0, \n   'no_embed_class': True,\n   'mlp_layer': timm.layers.SwiGLUPacked, \n   'act_layer': torch.nn.SiLU, \n   'reg_tokens': 8, \n   'dynamic_img_size': True\n  }\nmodel = timm.create_model(**timm_kwargs)\nmodel.load_state_dict(torch.load(os.path.join(local_dir, \"pytorch_model.bin\"), map_location=\"cpu\"), strict=True)\ntransform = transforms.Compose(\n [\n  transforms.Resize(224),\n  transforms.CenterCrop(224),\n  transforms.ToTensor(),\n  transforms.Normalize(mean=(0.485, 0.456, 0.406), std=(0.229, 0.224, 0.225)),\n ]\n)\nmodel.eval()\n```\n\n函数 `get_encoder` 执行上述命令，在本 GitHub 仓库的 `.\u002Fassets\u002Fckpts\u002F` 相对路径中下载检查点。\n```python\nfrom uni import get_encoder\nmodel, transform = get_encoder(enc_name='uni2-h', device=device)\n```\n\n### 3. 运行推理\n\n你可以使用 UNI 预训练编码器从组织病理学 ROI 中提取特征，如下所示：\n\n```python\nfrom PIL import Image\nimage = Image.open(\"uni.jpg\")\nimage = transform(image).unsqueeze(dim=0) # 经过图像调整大小和归一化处理后，图像张量形状为 [1, 3, 224, 224] (ImageNet 参数)\nwith torch.inference_mode():\n feature_emb = model(image) # 提取的特征张量形状为 [1, 1536]\n```\n\n这些预先提取的特征随后可用于 ROI 分类（通过线性探测）、幻灯片分类（通过多实例学习）以及其他机器学习场景。\n\n\n## 具体用法概述\n我们提供了用于加载模型和进行推理的高级函数。对于模型加载，函数 `get_encoder` 执行第 2 步中的上述命令，在本 GitHub 仓库的 `.\u002Fassets\u002Fckpts\u002F` 相对路径中下载检查点。\n```python\nfrom uni import get_encoder\nmodel, transform = get_encoder(enc_name='uni2-h', device=device)\n```\n\n对于推理：\n```python\nfrom uni.downstream.extract_patch_features import extract_patch_features_from_dataloader\nfrom uni.downstream.eval_patch_features.linear_probe import eval_linear_probe\nfrom uni.downstream.eval_patch_features.fewshot import eval_knn, eval_fewshot\nfrom uni.downstream.eval_patch_features.protonet import ProtoNet, prototype_topk_vote\n```\n有关详细示例，请参阅以下笔记本。\n\n### 加载\u002F使用模型的更详细入门代码：\n请参阅 [**.\u002Fnotebooks\u002Funi_walkthrough.ipynb**](notebooks\u002Funi_walkthrough.ipynb)，了解如何开始加载和使用模型来创建嵌入，并查看提取 ROI 特征以及执行 ROI 分类\u002F检索的示例代码。\n\n## 许可证与使用条款\n\nⓒ Mahmood Lab。这些模型及其相关代码根据 [CC-BY-NC-ND 4.0]((https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-nd\u002F4.0\u002Fdeed.en)) 许可证发布，仅可用于非商业性的学术研究目的，并需适当注明出处。任何商业用途、销售或其他利用 UNI 模型及其衍生品（包括基于 UNI 模型输出或由 UNI 模型创建的数据集训练的模型）的行为均被禁止，且需事先获得批准。下载该模型需要在 Hugging Face 上提前注册并同意使用条款。下载模型即表示您同意不传播、发布或复制该模型。如果贵单位内有其他用户希望使用 UNI 模型，他们必须以个人身份注册并同意遵守使用条款。用户不得尝试重新识别用于开发底层模型的去标识化数据。如果您是商业实体，请联系通讯作者或麻省总医院创新办公室。\n\n\n## 致谢\n该项目建立在许多优秀的开源库之上，如 [ViT](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fbig_vision)、[DINOv2](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdinov2)、[LGSSL](https:\u002F\u002Fgithub.com\u002Fmbanani\u002Flgssl) 和 [Timm](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fpytorch-image-models\u002F)（ViT 模型实现）。我们感谢这些项目的作者和开发者所做的贡献。\n\n\n## 参考文献\n如果您在研究中发现我们的工作有所帮助，或使用了本代码的部分内容，请考虑引用我们的论文：\n\nChen, R.J., Ding, T., Lu, M.Y., Williamson, D.F.K., 等. 向通用计算病理基础模型迈进。Nat Med (2024). https:\u002F\u002Fdoi.org\u002F10.1038\u002Fs41591-024-02857-3\n\n```\n@article{chen2024uni,\n  title={Towards a General-Purpose Foundation Model for Computational Pathology},\n  author={Chen, Richard J and Ding, Tong and Lu, Ming Y and Williamson, Drew FK and Jaume, Guillaume and Chen, Bowen and Zhang, Andrew and Shao, Daniel and Song, Andrew H and Shaban, Muhammad and others},\n  journal={Nature Medicine},\n  publisher={Nature Publishing Group},\n  year={2024}\n}\n```\n\n\u003Cimg src=.github\u002Fjoint_logo.jpg>","# UNI 快速上手指南\n\nUNI 是一个面向计算病理学的通用基础模型，旨在从全切片图像（WSI）中提取高质量特征。本指南将帮助您快速部署并使用 UNI 模型。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04+) 或 macOS\n*   **Python**: 3.8 或更高版本\n*   **GPU**: 推荐使用 NVIDIA GPU (支持 CUDA)，显存建议 16GB 以上以处理高分辨率病理图像\n*   **前置依赖**:\n    *   `torch` (PyTorch)\n    *   `torchvision`\n    *   `timm` (PyTorch Image Models)\n    *   `huggingface_hub` (用于下载模型权重)\n\n> **提示**：如果您在国内网络环境下，建议使用国内镜像源加速 Python 包的安装（如清华源或阿里源）。\n\n## 安装步骤\n\n### 1. 创建虚拟环境（推荐）\n\n```bash\npython -m venv uni_env\nsource uni_env\u002Fbin\u002Factivate  # Windows 用户请使用: uni_env\\Scripts\\activate\n```\n\n### 2. 安装 PyTorch 及相关依赖\n\n请访问 [PyTorch 官网](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F) 获取适合您 CUDA 版本的安装命令。以下为通用示例（使用清华镜像加速）：\n\n```bash\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n### 3. 安装其他必要库\n\n```bash\npip install timm huggingface_hub openslide-python pillow --index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n> **注意**：处理全切片图像通常还需要系统级安装 `OpenSlide` 工具库。\n> *   Ubuntu\u002FDebian: `sudo apt-get install openslide-tools`\n> *   CentOS: `sudo yum install openslide-tools`\n> *   macOS (Homebrew): `brew install openslide`\n\n## 基本使用\n\n以下是最简单的代码示例，展示如何加载预训练的 UNI 模型并提取图像特征。\n\n### 示例：加载模型并提取特征\n\n此示例演示如何从 Hugging Face 加载最新的 **UNI2-h** 模型，并对一张病理图像切片进行推理。\n\n```python\nimport torch\nfrom PIL import Image\nfrom transformers import AutoModel, AutoImageProcessor\n# 或者直接使用 timm 加载，取决于具体实现偏好，此处以通用 HF 流程为例\n# 注意：UNI 主要基于 timm 构建，也可直接通过 timm 加载\n\n# 1. 加载模型和处理器\n# 模型名称：MahmoodLab\u002FUNI2-h (最新) 或 MahmoodLab\u002Funi (初代)\nmodel_name = \"MahmoodLab\u002FUNI2-h\"\n\nprint(f\"Loading model: {model_name}...\")\n# 使用 timm 加载推荐方式 (UNI 基于 ViT 架构)\nimport timm\n\nmodel = timm.create_model('vit_huge_patch14_reg4_dinov2', pretrained=False, num_classes=0)\n# 加载权重\nfrom huggingface_hub import hf_hub_download\nweight_path = hf_hub_download(repo_id=\"MahmoodLab\u002FUNI2-h\", filename=\"pytorch_model.bin\")\nstate_dict = torch.load(weight_path, map_location=\"cpu\")\nmodel.load_state_dict(state_dict)\nmodel.eval()\n\n# 移动到 GPU (如果可用)\ndevice = torch.device(\"cuda\" if torch.cuda.is_available() else \"cpu\")\nmodel.to(device)\n\n# 定义图像预处理 (根据 DINOv2\u002FUNI 的标准配置)\ndata_config = timm.data.resolve_model_data_config(model)\ntransform = timm.data.create_transform(**data_config, is_training=False)\n\n# 2. 准备输入图像\n# 替换为您的病理图像路径 (支持 .png, .jpg, .tiff 等)\nimage_path = \"pathology_slide_patch.jpg\" \nimage = Image.open(image_path).convert(\"RGB\")\n\n# 3. 预处理并推理\ninput_tensor = transform(image).unsqueeze(0).to(device)\n\nwith torch.no_grad():\n    features = model(input_tensor)\n\n# 4. 输出结果\nprint(f\"Feature shape: {features.shape}\")\n# 特征向量可用于下游任务（分类、聚类、生存分析等）\nfeature_vector = features.cpu().numpy()\n```\n\n### 关键点说明\n*   **模型选择**：目前推荐使用 `UNI2-h` (ViT-h\u002F14-reg8)，它在超过 2 亿张病理图像上进行了训练，性能优于初代 UNI。\n*   **输入数据**：UNI 通常作用于从全切片图像（WSI）中裁剪出的图块（Patches），标准输入分辨率通常为 224x224 或模型特定的分辨率。\n*   **特征用途**：输出的 `features` 是高维嵌入向量，可直接用于构建多实例学习（MIL）模型、聚类分析或作为其他下游任务的初始化特征。","某三甲医院病理科与 AI 实验室合作，试图利用历史存档的数十万张 H&E 染色全切片图像（WSI），构建一个能预测癌症患者生存期的通用预后模型。\n\n### 没有 UNI 时\n- **标注成本高昂**：训练传统深度学习模型需要病理专家对每张切片中的肿瘤区域进行像素级手工标注，耗时数月且难以规模化。\n- **泛化能力薄弱**：针对不同癌种或不同扫描仪来源的数据，必须重新采集数据并从头训练专用模型，无法复用已有成果。\n- **特征提取局限**：传统方法依赖人工设计的形态学特征或浅层神经网络，难以捕捉组织微环境中复杂的细胞空间分布规律。\n- **冷启动困难**：面对罕见癌症或小型数据集，因样本量不足导致模型无法收敛，研究往往被迫中止。\n\n### 使用 UNI 后\n- **实现零样本迁移**：直接调用 UNI 预训练权重提取高维特征向量，无需任何手工标注即可在下游任务中微调，将数据准备周期从数月缩短至数天。\n- **跨域通用性强**：UNI 在超过 200 亿张多样化病理图像上预训练，单一模型即可适配多种癌症类型及不同机构的扫描设备，显著降低维护成本。\n- **深层语义理解**：借助 ViT 架构，UNI 能精准编码细胞核形态、间质反应及免疫浸润等微观结构，捕捉到与生存期强相关的隐性生物标志物。\n- **小样本高效学习**：即使在仅有几十例患者的罕见病队列中，基于 UNI 特征的分类器也能快速收敛并取得具有统计学意义的预测效果。\n\nUNI 将病理 AI 研发从“劳动密集型的定制作坊”转变为“数据驱动的标准化工厂”，让临床医生能专注于挖掘生物学洞见而非陷入数据标注的泥潭。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmahmoodlab_UNI_041e19c4.jpg","mahmoodlab","Mahmood Lab @ Harvard\u002FMGB","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmahmoodlab_ca9d31b7.png","AI for Pathology Image Analysis Lab @ HMS \u002F BWH",null,"fmahmood@fas.harvard.edu","AI4Pathology","www.mahmoodlab.org","https:\u002F\u002Fgithub.com\u002Fmahmoodlab",[83,87],{"name":84,"color":85,"percentage":86},"Jupyter Notebook","#DA5B0B",96.8,{"name":88,"color":89,"percentage":90},"Python","#3572A5",3.2,712,84,"2026-04-14T21:14:38","NOASSERTION","未说明","需要 NVIDIA GPU（基于 ViT 架构及大规模病理图像推理需求），具体显存大小和 CUDA 版本未在提供的文本中明确说明","未说明（处理全切片图像 WSI 通常建议 32GB+）",{"notes":99,"python":95,"dependencies":100},"该工具为计算病理学基础模型（UNI 及 UNI2），主要用于从全切片图像（WSI）中提取特征嵌入。README 主要提供了模型权重下载链接（Hugging Face）和相关研究论文，未在当前片段中包含具体的安装命令或环境配置文件（如 requirements.txt）。由于处理对象为吉像素（Giga-Pixel）级别的病理图像，实际运行通常需要配合 OpenSlide 库来读取图像，并需要高性能 GPU 进行推理。建议访问提供的 Hugging Face 链接查看具体的模型卡片以获取最新的依赖版本和环境配置详情。",[101,102,103,104,105,106,107,108],"torch","transformers","timm","huggingface_hub","openslide-python","Pillow","numpy","pandas",[14],[111,112,113,73,114,115,116,117,118,119,120,121,122,123,124,125,126],"foundation","foundation-model","histopathology","pathology","uni","pathology-foundation-model","nature-medicine","mass-100k","pathology-dinov2","pathology-fm","pathology-foundation","pathology-self-supervised","uni-foundation-model","computational-pathology","digital-pathology","quantitative-pathology","2026-03-27T02:49:30.150509","2026-04-17T09:54:10.409507",[130,135,140,145,150,155,159],{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},36666,"预训练使用的是 256x256 和 512x512 的图像，为什么推理时建议使用 224x224？模型是否支持其他尺寸？","在 UNI 训练期间，虽然使用了 256×256 的图像进行采样，但模型架构（基于 DINOv2）原生支持 224×224 的输入。通常的做法是在预处理阶段将 256×256 的图像调整大小（resize）为 224×224。关于是否支持其他尺寸，维护者指出可以通过插值调整 patch embeddings 和 Conv2D 投影层来适应不同尺寸，但这方面的性能影响尚无定论，目前官方推荐仍为 224×224。","https:\u002F\u002Fgithub.com\u002Fmahmoodlab\u002FUNI\u002Fissues\u002F6",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},36667,"如何使用 UNI 模型进行分割任务（Segmentation）？","UNI 可作为骨干网络（backbone）用于分割任务。根据论文描述，对于 ROI 级别的细胞类型分割，通常结合 Mask2Former 头使用。由于 ViT 架构是非分层的，建议同时使用 ViT-Adapter 框架（https:\u002F\u002Fgithub.com\u002Fczczup\u002FViT-Adapter）来引入分层特征，再连接 Mask2Former 头进行训练和评估。目前官方未提供直接的分割代码库，用户需自行将 UNI 权重加载到 ViT-Adapter 和 Mask2Former 架构中。","https:\u002F\u002Fgithub.com\u002Fmahmoodlab\u002FUNI\u002Fissues\u002F12",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},36668,"20x 放大倍数是否对应 0.5 微米\u002F像素（mupp）的分辨率？不同扫描仪的差异会有影响吗？","通常情况下，20x 放大倍数对应 0.5 微米\u002F像素（0.5 um\u002Fpx）。虽然不同扫描仪之间确实存在分辨率差异（例如从 0.23 到 0.55 mupp），但由于 UNI 是在多样化的数据集上训练的，这些细微的分辨率变化对下游任务的影响应该不大。如果需要精确控制，可以使用 CLAM 的补丁提取脚本或 tiatoolbox 指定分辨率参数来提取补丁。","https:\u002F\u002Fgithub.com\u002Fmahmoodlab\u002FUNI\u002Fissues\u002F5",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},36669,"如何获取 Hugging Face 上的 UNI 预训练权重权限？","访问预训练权重需要申请权限。用户需在 Hugging Face 上提交申请表格。维护者表示，所有成功填写申请表的用户都应已获批。如果收到拒绝信息，可能是因为填写的电子邮件地址有误，建议检查并重新提交申请或联系维护者撤销旧请求。","https:\u002F\u002Fgithub.com\u002Fmahmoodlab\u002FUNI\u002Fissues\u002F4",{"id":151,"question_zh":152,"answer_zh":153,"source_url":154},36670,"为什么在幻灯片级别的任务评估中使用简单的 MIL 基线（如 ABMIL）而不是更复杂的模型？均值池化（Mean Pooling）表现如何？","在幻灯片级别评估中，由于这些编码器最常用于在 MIL（多实例学习）设置中预先提取 ROI 特征，因此官方协议是将 ROI 编码器插入到一个非常简单的 MIL 基线（如 ABMIL）中，这是解决幻灯片级别任务的标准惯例。关于均值池化，维护者确认之前尝试过，它确实可以表现得很强（参考 HIPT 论文的表 1），但在 UNI 的评估协议中，为了标准化比较，主要关注的是作为特征提取器在标准 MIL 流程中的表现。","https:\u002F\u002Fgithub.com\u002Fmahmoodlab\u002FUNI\u002Fissues\u002F41",{"id":156,"question_zh":157,"answer_zh":158,"source_url":154},36671,"UNI 方法到底使用了哪些技术？是否包含 iBOT 的隐藏技巧还是仅使用 DINOv2？","许多疑问可以通过阅读发表在《Nature Medicine》上的最终版论文（camera-ready version）来解决。该方法主要基于 DINOv2。论文中关于 iBOT 的段落可能引起误解，建议仔细阅读最新版本的论文以及 GitHub README 底部的更新比较部分，以获取关于模型架构和训练细节的准确解释，消除关于“隐藏技巧”的疑虑。",{"id":160,"question_zh":161,"answer_zh":162,"source_url":154},36672,"在哪里可以找到 ABMIL 基线的代码以及如何复现 EBRAIN 上的结果？","关于 ABMIL 基线代码缺失的问题，建议查阅最新发布的论文版本，其中可能包含了更多细节。对于复现 EBRAIN 上的结果，维护者指出许多问题的答案已在《Nature Medicine》发表的最终版论文和 GitHub README 的更新部分中提供。标准的评估协议是将预提取的 ROI 特征输入到简单的 MIL 基线中，具体实现可参考常见的 MIL 库或论文补充材料。",[]]