[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Beckschen--TransUNet":3,"tool-Beckschen--TransUNet":64},[4,17,26,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,2,"2026-04-03T11:11:01",[13,14,15],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":23,"last_commit_at":32,"category_tags":33,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,34,35,36,15,37,38,13,39],"数据工具","视频","插件","其他","语言模型","音频",{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":10,"last_commit_at":46,"category_tags":47,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,38,37],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":10,"last_commit_at":54,"category_tags":55,"status":16},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",74913,"2026-04-05T10:44:17",[38,14,13,37],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":23,"last_commit_at":62,"category_tags":63,"status":16},2471,"tesseract","tesseract-ocr\u002Ftesseract","Tesseract 是一款历史悠久且备受推崇的开源光学字符识别（OCR）引擎，最初由惠普实验室开发，后由 Google 维护，目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据，有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题，是数字化归档和信息自动化的重要基础工具。\n\n在技术层面，Tesseract 展现了强大的适应能力。从版本 4 开始，它引入了基于长短期记忆网络（LSTM）的神经网络 OCR 引擎，显著提升了行识别的准确率；同时，为了兼顾旧有需求，它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码，开箱即用即可识别超过 100 种语言，并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面，它灵活支持纯文本、hOCR、PDF、TSV 等多种格式，方便后续数据处理。\n\nTesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库（libtesseract），不包含图形用户界面（GUI），因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中",73286,"2026-04-03T01:56:45",[13,14],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":80,"owner_email":81,"owner_twitter":82,"owner_website":83,"owner_url":84,"languages":85,"stars":90,"forks":91,"last_commit_at":92,"license":93,"difficulty_score":10,"env_os":94,"env_gpu":95,"env_ram":96,"env_deps":97,"category_tags":104,"github_topics":80,"view_count":23,"oss_zip_url":80,"oss_zip_packed_at":80,"status":16,"created_at":105,"updated_at":106,"faqs":107,"releases":138},3117,"Beckschen\u002FTransUNet","TransUNet","This repository includes the official project of TransUNet, presented in our paper: TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation.","TransUNet 是一款专为医学图像分割设计的开源深度学习框架。它巧妙地将 Transformer 架构强大的全局特征提取能力与经典 U-Net 模型的精细定位优势相结合，旨在解决传统卷积神经网络在处理复杂解剖结构时难以捕捉长距离依赖关系的痛点，从而显著提升分割精度。\n\n该工具特别适合医学影像领域的研究人员、算法工程师及开发者使用。无论是处理 2D 切片还是 3D 体积数据（如 CT 或 MRI 扫描），TransUNet 都能提供卓越的性能表现。其独特的技术亮点在于采用了混合编码器设计：利用预训练的 Vision Transformer (ViT) 作为主干网络提取深层语义信息，再通过 U-Net 的跳跃连接恢复空间细节。最新进展显示，其 3D 版本在 BTCV 数据集上的 Dice 系数高达 88.11%，甚至超越了业界标杆 nn-UNet，并在 BraTS 挑战赛中名列前茅。项目提供了完整的训练与测试脚本，支持多种预训练模型加载，帮助用户高效复现前沿研究成果或构建自己的医疗辅助诊断系统。","# TransUNet\nThis repo holds code for [TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2102.04306.pdf)\n\n## 📰 News\n- [7\u002F26\u002F2024] TransUNet, which supports both 2D and 3D data and incorporates a Transformer encoder and decoder, has been featured in the journal Medical Image Analysis ([link](https:\u002F\u002Fwww.sciencedirect.com\u002Fscience\u002Farticle\u002Fpii\u002FS1361841524002056)).\n```bibtex\n@article{chen2024transunet,\n  title={TransUNet: Rethinking the U-Net architecture design for medical image segmentation through the lens of transformers},\n  author={Chen, Jieneng and Mei, Jieru and Li, Xianhang and Lu, Yongyi and Yu, Qihang and Wei, Qingyue and Luo, Xiangde and Xie, Yutong and Adeli, Ehsan and Wang, Yan and others},\n  journal={Medical Image Analysis},\n  pages={103280},\n  year={2024},\n  publisher={Elsevier}\n}\n```\n\n- [10\u002F15\u002F2023] 🔥 3D version of TransUNet is out! Our 3D TransUNet surpasses nn-UNet with 88.11% Dice score on the BTCV dataset and outperforms the top-1 solution in the BraTs 2021 challenge and secure the second place in BraTs 2023 challenge. Please take a look at the [code](https:\u002F\u002Fgithub.com\u002FBeckschen\u002F3D-TransUNet\u002Ftree\u002Fmain) and [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.07781).\n\n\n## Usage\n\n### 1. Download Google pre-trained ViT models\n* [Get models in this link](https:\u002F\u002Fconsole.cloud.google.com\u002Fstorage\u002Fvit_models\u002F): R50-ViT-B_16, ViT-B_16, ViT-L_16...\n```bash\nwget https:\u002F\u002Fstorage.googleapis.com\u002Fvit_models\u002Fimagenet21k\u002F{MODEL_NAME}.npz &&\nmkdir ..\u002Fmodel\u002Fvit_checkpoint\u002Fimagenet21k &&\nmv {MODEL_NAME}.npz ..\u002Fmodel\u002Fvit_checkpoint\u002Fimagenet21k\u002F{MODEL_NAME}.npz\n```\n\n[Update 2026\u002F02] The official ViT weights appear to have expired. \nYou can still download a copy from the [project folder](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1ACJEoTp-uqfFJ73qS3eUObQh52nGuzCd?usp=sharing) (same to BTCV preprocessed data). After extraction, find the file at:\n`..\u002Fmodel\u002Fvit_checkpoint\u002Fimagenet21k\u002FR50+ViT-B_16.npz`\n\n### 2. Prepare data (All data are available!)\n\nAll data are available so no need to send emails for data. Please use the [BTCV preprocessed data](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1ACJEoTp-uqfFJ73qS3eUObQh52nGuzCd?usp=sharing) and [ACDC data](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1KQcrci7aKsYZi1hQoZ3T3QUtcy7b--n4?usp=drive_link).\n\n### 3. Environment\n\nPlease prepare an environment with python=3.7, and then use the command \"pip install -r requirements.txt\" for the dependencies.\n\n### 4. Train\u002FTest\n\n- Run the train script on synapse dataset. The batch size can be reduced to 12 or 6 to save memory (please also decrease the base_lr linearly), and both can reach similar performance.\n\n```bash\nCUDA_VISIBLE_DEVICES=0 python train.py --dataset Synapse --vit_name R50-ViT-B_16\n```\n\n- Run the test script on synapse dataset. It supports testing for both 2D images and 3D volumes.\n\n```bash\npython test.py --dataset Synapse --vit_name R50-ViT-B_16\n```\n\n## Reference\n* [Google ViT](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fvision_transformer)\n* [ViT-pytorch](https:\u002F\u002Fgithub.com\u002Fjeonsworld\u002FViT-pytorch)\n* [segmentation_models.pytorch](https:\u002F\u002Fgithub.com\u002Fqubvel\u002Fsegmentation_models.pytorch)\n\n## Citations\n\n\n```bibtex\n@article{chen2021transunet,\n  title={TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation},\n  author={Chen, Jieneng and Lu, Yongyi and Yu, Qihang and Luo, Xiangde and Adeli, Ehsan and Wang, Yan and Lu, Le and Yuille, Alan L., and Zhou, Yuyin},\n  journal={arXiv preprint arXiv:2102.04306},\n  year={2021}\n}\n```\n","# TransUNet\n本仓库包含论文 [TransUNet: Transformers 使编码器在医学图像分割中更强大](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2102.04306.pdf) 的代码。\n\n## 📰 最新消息\n- [2024年7月26日] 支持2D和3D数据、融合Transformer编码器与解码器的TransUNet已被《Medical Image Analysis》期刊收录（[链接](https:\u002F\u002Fwww.sciencedirect.com\u002Fscience\u002Farticle\u002Fpii\u002FS1361841524002056)）。\n```bibtex\n@article{chen2024transunet,\n  title={TransUNet: 通过Transformer视角重新思考医学图像分割的U-Net架构设计},\n  author={Chen, Jieneng and Mei, Jieru and Li, Xianhang and Lu, Yongyi and Yu, Qihang and Wei, Qingyue and Luo, Xiangde and Xie, Yutong and Adeli, Ehsan and Wang, Yan and others},\n  journal={Medical Image Analysis},\n  pages={103280},\n  year={2024},\n  publisher={Elsevier}\n}\n```\n\n- [2023年10月15日] 🔥 TransUNet的3D版本发布！我们的3D TransUNet在BTCV数据集上以88.11%的Dice分数超越nn-UNet，并在BraTs 2021挑战赛中表现优于第一名方案，同时在BraTs 2023挑战赛中获得第二名。请查看[代码](https:\u002F\u002Fgithub.com\u002FBeckschen\u002F3D-TransUNet\u002Ftree\u002Fmain)和[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.07781)。\n\n\n## 使用方法\n\n### 1. 下载Google预训练的ViT模型\n* [在此链接获取模型](https:\u002F\u002Fconsole.cloud.google.com\u002Fstorage\u002Fvit_models\u002F)：R50-ViT-B_16、ViT-B_16、ViT-L_16…\n```bash\nwget https:\u002F\u002Fstorage.googleapis.com\u002Fvit_models\u002Fimagenet21k\u002F{MODEL_NAME}.npz &&\nmkdir ..\u002Fmodel\u002Fvit_checkpoint\u002Fimagenet21k &&\nmv {MODEL_NAME}.npz ..\u002Fmodel\u002Fvit_checkpoint\u002Fimagenet21k\u002F{MODEL_NAME}.npz\n```\n\n[更新：2026年2月] 官方ViT权重似乎已过期。\n您仍可从[项目文件夹](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1ACJEoTp-uqfFJ73qS3eUObQh52nGuzCd?usp=sharing)下载副本（与BTCV预处理数据相同）。解压后，文件位于：\n`..\u002Fmodel\u002Fvit_checkpoint\u002Fimagenet21k\u002FR50+ViT-B_16.npz`\n\n### 2. 准备数据（所有数据均已公开！）\n\n所有数据均已公开，无需发送邮件申请。请使用[BTCV预处理数据](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1ACJEoTp-uqfFJ73qS3eUObQh52nGuzCd?usp=sharing)和[ACDC数据](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1KQcrci7aKsYZi1hQoZ3T3QUtcy7b--n4?usp=drive_link)。\n\n### 3. 环境配置\n\n请准备一个Python版本为3.7的环境，然后运行命令“pip install -r requirements.txt”安装依赖项。\n\n### 4. 训练与测试\n\n- 在Synapse数据集上运行训练脚本。为节省显存，可将批量大小降低至12或6（同时需线性调整base_lr），两者性能相近。\n```bash\nCUDA_VISIBLE_DEVICES=0 python train.py --dataset Synapse --vit_name R50-ViT-B_16\n```\n\n- 在Synapse数据集上运行测试脚本。支持对2D图像和3D体积进行测试。\n```bash\npython test.py --dataset Synapse --vit_name R50-ViT-B_16\n```\n\n## 参考文献\n* [Google ViT](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fvision_transformer)\n* [ViT-pytorch](https:\u002F\u002Fgithub.com\u002Fjeonsworld\u002FViT-pytorch)\n* [segmentation_models.pytorch](https:\u002F\u002Fgithub.com\u002Fqubvel\u002Fsegmentation_models.pytorch)\n\n## 引用\n\n```bibtex\n@article{chen2021transunet,\n  title={TransUNet: Transformers 使编码器在医学图像分割中更强大},\n  author={Chen, Jieneng and Lu, Yongyi and Yu, Qihang and Luo, Xiangde and Adeli, Ehsan and Wang, Yan and Lu, Le and Yuille, Alan L., and Zhou, Yuyin},\n  journal={arXiv预印本 arXiv:2102.04306},\n  year={2021}\n}\n```","# TransUNet 快速上手指南\n\nTransUNet 是将 Transformer 作为强编码器引入医学图像分割的经典模型，支持 2D 和 3D 数据。本指南基于官方仓库整理，帮助开发者快速运行项目。\n\n## 环境准备\n\n*   **操作系统**: Linux (推荐) 或 macOS\n*   **Python 版本**: 3.7 (严格依赖)\n*   **硬件要求**: NVIDIA GPU (需安装对应的 CUDA 驱动)\n*   **前置依赖**: 确保已安装 `pip` 和 `git`\n\n## 安装步骤\n\n### 1. 克隆代码库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FBeckschen\u002FTransUNet.git\ncd TransUNet\n```\n\n### 2. 创建虚拟环境并安装依赖\n建议使用 `conda` 创建隔离环境：\n```bash\nconda create -n transunet python=3.7\nconda activate transunet\npip install -r requirements.txt\n```\n> **提示**：若下载依赖较慢，可添加国内镜像源加速（如清华源）：\n> `pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n\n### 3. 下载预训练 ViT 模型\n官方 Google Cloud 链接可能已失效，请从项目提供的备用网盘下载。\n\n**手动下载方式**：\n1. 访问 [Google Drive 链接](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1ACJEoTp-uqfFJ73qS3eUObQh52nGuzCd?usp=sharing) 下载模型文件（例如 `R50+ViT-B_16.npz`）。\n2. 在 project 根目录下创建文件夹并移动文件：\n```bash\nmkdir -p ..\u002Fmodel\u002Fvit_checkpoint\u002Fimagenet21k\n# 将下载的 .npz 文件移动到上述目录\nmv \u002Fpath\u002Fto\u002Fdownloaded\u002FR50+ViT-B_16.npz ..\u002Fmodel\u002Fvit_checkpoint\u002Fimagenet21k\u002F\n```\n\n### 4. 准备数据集\n无需邮件申请，直接下载预处理好的数据：\n*   **Synapse (BTCV)**: [下载链接](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1ACJEoTp-uqfFJ73qS3eUObQh52nGuzCd?usp=sharing)\n*   **ACDC**: [下载链接](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1KQcrci7aKsYZi1hQoZ3T3QUtcy7b--n4?usp=drive_link)\n\n下载后请根据 `train.py` 或 `test.py` 中的路径参数配置数据目录。\n\n## 基本使用\n\n以下以 **Synapse** 数据集为例，演示训练与测试流程。\n\n### 1. 开始训练\n使用单卡运行训练脚本。若显存不足，可将 `batch_size` 调整为 12 或 6，并线性降低 `base_lr`。\n\n```bash\nCUDA_VISIBLE_DEVICES=0 python train.py --dataset Synapse --vit_name R50-ViT-B_16\n```\n\n### 2. 执行测试\n训练完成后，使用测试脚本评估模型（支持 2D 图像和 3D 体积数据）。\n\n```bash\npython test.py --dataset Synapse --vit_name R50-ViT-B_16\n```\n\n> **注意**：如需使用 3D 版本或更多高级功能，请参考 [3D-TransUNet 仓库](https:\u002F\u002Fgithub.com\u002FBeckschen\u002F3D-TransUNet)。","某三甲医院影像科团队正致力于开发一套自动化的腹部多器官分割系统，旨在辅助医生从 CT 扫描中快速提取肝脏、肾脏等关键病灶区域。\n\n### 没有 TransUNet 时\n- **全局特征捕捉不足**：传统 CNN 架构（如基础 U-Net）受限于局部感受野，难以理解器官之间的长距离空间依赖关系，导致在器官边界模糊或形态变异时分割断裂。\n- **小目标识别困难**：对于胰腺等体积较小且形状不规则的器官，模型极易漏检或将背景误判为组织，Dice 系数长期停滞在 80% 以下。\n- **调优成本高昂**：为了提升精度，团队需花费数周时间手动设计复杂的注意力模块或堆叠网络层数，不仅训练收敛慢，还容易过拟合。\n\n### 使用 TransUNet 后\n- **全局上下文建模增强**：借助 Transformer 强大的编码器，TransUNet 能有效捕捉全图范围内的语义信息，即使在对比度低的区域也能精准勾勒出连续的器官轮廓。\n- **细粒度分割显著提升**：在 BTCV 数据集验证中，针对胰腺等难点器官的分割精度大幅提高，整体 Dice 分数突破 88%，远超传统方案。\n- **开发效率大幅优化**：直接加载预训练的 ViT 权重即可启动训练，无需从零设计复杂结构，团队将原本数周的算法迭代周期缩短至几天，快速实现了临床部署。\n\nTransUNet 通过将 Transformer 的全局感知能力融入医学影像分割，成功解决了传统方法“只见树木不见森林”的痛点，成为高精度辅助诊断的强力引擎。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FBeckschen_TransUNet_994beff3.png","Beckschen","Jieneng Chen","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FBeckschen_d7585f53.jpg","Dedicated to open-source communities.","Johns Hopkins University",null,"jienengchen01@gmail.com","jieneng_chen","beckschen.github.io","https:\u002F\u002Fgithub.com\u002FBeckschen",[86],{"name":87,"color":88,"percentage":89},"Python","#3572A5",100,3142,580,"2026-04-03T13:26:19","Apache-2.0","Linux","需要 NVIDIA GPU (通过 CUDA_VISIBLE_DEVICES 指定)，显存需求取决于批次大小 (Batch Size)，原文建议将批次大小减至 12 或 6 以节省显存","未说明 (原文仅提及可通过减小批次大小来节省内存)",{"notes":98,"python":99,"dependencies":100},"1. 需手动下载 Google 预训练的 ViT 模型文件 (.npz) 并放置于指定目录，官方链接可能已失效，需从项目提供的 Google Drive 备份下载。2. 需准备 BTCV 或 ACDC 预处理数据集。3. 训练 Synapse 数据集时，若显存不足，可将批次大小 (batch size) 降至 12 或 6，并线性降低基础学习率 (base_lr)。4. 支持 2D 图像和 3D 体积数据的测试。","3.7",[101,102,103],"torch (隐含)","numpy (隐含，用于加载.npz 模型)","requirements.txt 中列出的其他依赖",[14,37],"2026-03-27T02:49:30.150509","2026-04-06T05:16:45.054873",[108,113,118,123,128,133],{"id":109,"question_zh":110,"answer_zh":111,"source_url":112},14368,"运行测试时遇到 'AttributeError: skip_channels' 错误怎么办？","该错误通常是因为配置文件中缺少 'skip_channels' 字段。临时解决方法是修改代码 vit_seg_modeling.py 第 343 行，将 `skip_channels = self.config.skip_channels` 硬编码为 `skip_channels = [512, 256, 64, 16]`。如果修改后出现状态字典加载错误（Unexpected key(s) in state_dict），建议检查预训练权重文件是否与当前模型架构完全匹配，或者按照社区建议重写数据集类以自行读取和处理数据。","https:\u002F\u002Fgithub.com\u002FBeckschen\u002FTransUNet\u002Fissues\u002F21",{"id":114,"question_zh":115,"answer_zh":116,"source_url":117},14369,"如何获取 Synapse 数据集的预处理版本或相关代码？","作者未直接提供预处理好的数据集文件。用户可以尝试以下途径：1. 查看项目 datasets 目录下的 README.md 文件，其中可能包含作者邮箱或 Google Drive 链接；2. 在 Grand Challenge 平台注册并下载原始数据（如 CHAOS, FLARE2021\u002F2022 等）；3. 自行进行预处理，标准步骤包括：HU 值截断（调整窗宽窗位）、归一化、数据增强，如果是 3D 网络还需进行重采样（resample）。","https:\u002F\u002Fgithub.com\u002FBeckschen\u002FTransUNet\u002Fissues\u002F73",{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},14370,"是否有处理 3D 医学图像并提取 2D 切片保存为 .npz 文件的预处理代码？","官方未直接共享独立的预处理脚本，但用户可以通过修改 `dataset_synapse.py` 实现在线预处理。具体做法是将 3D 图像读取后，在代码中直接进行归一化处理，并从 3D 数组中提取 2D 切片，随后保存为 .npz 格式用于训练。许多用户通过这种方式成功适配了自己的 3D 数据集。","https:\u002F\u002Fgithub.com\u002FBeckschen\u002FTransUNet\u002Fissues\u002F10",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},14371,"为什么我在 Synapse 数据集上的测试结果（Dice 系数）远低于论文报告的值？","这是一个普遍存在的问题。即使使用了论文推荐的参数（如 R50-ViT-B_16, base_lr=0.01, batch_size=24, n_skip=3, img_size=224, max_epochs=300），许多用户仍报告 Dice 系数极低（约 0.13）且 HD95 很高。这可能与类别数量设置（num_classes=14 包含背景）、随机种子、特定的数据预处理细节或未公开的训练技巧有关。目前社区尚未找到统一的解决方案，建议仔细核对数据加载逻辑和标签映射是否正确。","https:\u002F\u002Fgithub.com\u002FBeckschen\u002FTransUNet\u002Fissues\u002F97",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},14372,"TransUNet 与 SETR 或其他 Transformer 分割模型有何区别及引用规范？","虽然 TransUNet 与 SETR 等模型在架构思想上有相似之处（均使用 Transformer 进行分割），但 TransUNet 强调了 U 型跳跃连接（skip connections）的重要性，并通过实验证明了无跳跃连接时性能下降。关于引用，社区建议应尊重并引用早期的相关工作（如 ViT-pytorch 代码库和 SETR 论文），承认思想的演进过程。不同工作各有优劣，共同推动了“Transformer 用于分割”这一范式的发展。","https:\u002F\u002Fgithub.com\u002FBeckschen\u002FTransUNet\u002Fissues\u002F1",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},14373,"无法复现论文中的基线性能，缺乏 3D 数据预处理导致效果不佳怎么办？","由于缺乏官方的 3D 数据预处理流程，导致基线性能难以复现。建议参考医学图像处理的通用流程：首先对 CT 数据进行 HU 值裁剪（例如 [-125, 275]），然后进行归一化到 [0, 1] 或标准化处理。对于 3D 数据，可能需要根据网络输入要求进行调整大小或重采样。如果可能，尝试联系作者获取更详细的预处理参数，或参考其他开源医学分割项目（如 nnU-Net）的预处理策略。","https:\u002F\u002Fgithub.com\u002FBeckschen\u002FTransUNet\u002Fissues\u002F80",[]]