[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-wasidennis--AdaptSegNet":3,"tool-wasidennis--AdaptSegNet":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",153609,2,"2026-04-13T11:34:59",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":75,"owner_location":75,"owner_email":75,"owner_twitter":75,"owner_website":76,"owner_url":77,"languages":78,"stars":83,"forks":84,"last_commit_at":85,"license":75,"difficulty_score":86,"env_os":87,"env_gpu":88,"env_ram":87,"env_deps":89,"category_tags":95,"github_topics":96,"view_count":32,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":104,"updated_at":105,"faqs":106,"releases":142},7212,"wasidennis\u002FAdaptSegNet","AdaptSegNet","Learning to Adapt Structured Output Space for Semantic Segmentation, CVPR 2018 (spotlight)","AdaptSegNet 是一款专注于语义分割任务的深度学习工具，旨在解决模型从合成数据（如游戏画面）迁移到真实世界场景时性能下降的难题。在自动驾驶等领域，获取大量带标注的真实图像成本高昂，而合成数据虽易得却存在“域差异”。AdaptSegNet 通过自适应学习技术，能够自动调整模型输出空间，使其无需目标域标注数据，即可将基于合成数据训练的知识有效迁移至真实场景，显著提升分割精度。\n\n该工具特别适合计算机视觉领域的研究人员和开发者使用，尤其是那些从事域适应（Domain Adaptation）、语义分割算法研究或需要利用合成数据优化真实场景应用的技术团队。其核心亮点在于提出了“结构化输出空间自适应”方法，并支持多级对抗训练策略；后续更新还引入了 LS-GAN 目标函数以进一步增强性能。作为 CVPR 2018 的亮点论文成果，AdaptSegNet 曾在 VisDA 挑战赛中取得第三名的优异成绩，提供了基于 PyTorch 的完整实现及预训练模型，方便用户快速复现结果或在此基础上进行二次开发。","# Learning to Adapt Structured Output Space for Semantic Segmentation\n\nPytorch implementation of our method for adapting semantic segmentation from the synthetic dataset (source domain) to the real dataset (target domain). Based on this implementation, our result is ranked 3rd in the [VisDA Challenge](http:\u002F\u002Fai.bu.edu\u002Fvisda-2017\u002F).\n\nContact: Yi-Hsuan Tsai (wasidennis at gmail dot com) and Wei-Chih Hung (whung8 at ucmerced dot edu)\n\n## Paper\n[Learning to Adapt Structured Output Space for Semantic Segmentation](https:\u002F\u002Farxiv.org\u002Fabs\u002F1802.10349) \u003Cbr \u002F>\n[Yi-Hsuan Tsai](https:\u002F\u002Fsites.google.com\u002Fsite\u002Fyihsuantsai\u002Fhome)\\*, [Wei-Chih Hung](https:\u002F\u002Fhfslyc.github.io\u002F)\\*, [Samuel Schulter](https:\u002F\u002Fsamschulter.github.io\u002F), [Kihyuk Sohn](https:\u002F\u002Fsites.google.com\u002Fsite\u002Fkihyuksml\u002F), [Ming-Hsuan Yang](http:\u002F\u002Ffaculty.ucmerced.edu\u002Fmhyang\u002Findex.html) and [Manmohan Chandraker](http:\u002F\u002Fcseweb.ucsd.edu\u002F~mkchandraker\u002F) \u003Cbr \u002F>\nIEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018 (**spotlight**) (\\* indicates equal contribution).\n\nPlease cite our paper if you find it useful for your research.\n\n```\n@inproceedings{Tsai_adaptseg_2018,\n  author = {Y.-H. Tsai and W.-C. Hung and S. Schulter and K. Sohn and M.-H. Yang and M. Chandraker},\n  booktitle = {IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},\n  title = {Learning to Adapt Structured Output Space for Semantic Segmentation},\n  year = {2018}\n}\n```\n\n## Example Results\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwasidennis_AdaptSegNet_readme_e13a1a3e0f3b.png)\n\n## Quantitative Reuslts\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwasidennis_AdaptSegNet_readme_bd8f23ea62b4.png)\n\n## Installation\n* Install PyTorch from http:\u002F\u002Fpytorch.org with Python 2 and CUDA 8.0\n\n* **NEW** Add the LS-GAN objective to improve the performance\n  - Usage: add `--gan LS` option during training (see below for more details)\n\n* PyTorch 0.4 with Python 3 and CUDA 8.0\n  - Usage: replace the training and evaluation codes with the ones in the `pytorch_0.4` folder\n  - Update: tensorboard is provided by adding `--tensorboard` in the command\n  - Note: the single-level model works as expected, while the multi-level model requires smaller weights, e.g., `--lambda-adv-target1 0.00005 --lambda-adv-target2 0.0005`. We will investigate this issue soon.\n\n* Clone this repo\n```\ngit clone https:\u002F\u002Fgithub.com\u002Fwasidennis\u002FAdaptSegNet\ncd AdaptSegNet\n```\n## Dataset\n* Download the [GTA5 Dataset](https:\u002F\u002Fdownload.visinf.tu-darmstadt.de\u002Fdata\u002Ffrom_games\u002F) as the source domain, and put it in the `data\u002FGTA5` folder\n\n* Download the [Cityscapes Dataset](https:\u002F\u002Fwww.cityscapes-dataset.com\u002F) as the target domain, and put it in the `data\u002FCityscapes` folder\n\n## Pre-trained Models\n* Please find our-pretrained models using ResNet-101 on three benchmark settings [here](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fgpzm15ipyt01mis\u002FDA_Seg_models.zip?dl=0)\n\n* They include baselines (without adaptation and with feature adaptation) and our models (single-level and multi-level)\n\n## Testing\n* **NEW** Update results using LS-GAN and using [Synscapes](https:\u002F\u002F7dlabs.com\u002Fsynscapes-overview) as the source domain\n  - Performance: check the appendix of the updated [arXiv paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1802.10349) (updated on 10\u002F17\u002F2019)\n  - [Pre-trained models](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fsif9cd6ad4s9y5d\u002FAdaptSegNet_LSGAN_models.zip?dl=0)\n\n* Download the pre-trained multi-level [GTA5-to-Cityscapes model](http:\u002F\u002Fvllab.ucmerced.edu\u002Fytsai\u002FCVPR18\u002FGTA2Cityscapes_multi-ed35151c.pth) and put it in the `model` folder\n\n* Test the model and results will be saved in the `result` folder\n\n```\npython evaluate_cityscapes.py --restore-from .\u002Fmodel\u002FGTA2Cityscapes_multi-ed35151c.pth\n```\n\n* Or, test the VGG-16 based model [Model Link](http:\u002F\u002Fvllab.ucmerced.edu\u002Fytsai\u002FCVPR18\u002FGTA2Cityscapes_vgg-ac4ac9f6.pth)\n\n```\npython evaluate_cityscapes.py --model DeeplabVGG --restore-from .\u002Fmodel\u002FGTA2Cityscapes_vgg-ac4ac9f6.pth\n```\n\n* Compute the IoU on Cityscapes (thanks to the code from [VisDA Challenge](http:\u002F\u002Fai.bu.edu\u002Fvisda-2017\u002F))\n```\npython compute_iou.py .\u002Fdata\u002FCityscapes\u002Fdata\u002FgtFine\u002Fval result\u002Fcityscapes\n```\n\n## Training Examples\n* **NEW** Train the GTA5-to-Cityscapes model (single-level with LS-GAN)\n\n```\npython train_gta2cityscapes_multi.py --snapshot-dir .\u002Fsnapshots\u002FGTA2Cityscapes_single_lsgan \\\n                                     --lambda-seg 0.0 \\\n                                     --lambda-adv-target1 0.0 --lambda-adv-target2 0.01 \\\n                                     --gan LS\n```\n\n* Train the GTA5-to-Cityscapes model (multi-level)\n\n```\npython train_gta2cityscapes_multi.py --snapshot-dir .\u002Fsnapshots\u002FGTA2Cityscapes_multi \\\n                                     --lambda-seg 0.1 \\\n                                     --lambda-adv-target1 0.0002 --lambda-adv-target2 0.001\n```\n\n* Train the GTA5-to-Cityscapes model (single-level)\n\n```\npython train_gta2cityscapes_multi.py --snapshot-dir .\u002Fsnapshots\u002FGTA2Cityscapes_single \\\n                                     --lambda-seg 0.0 \\\n                                     --lambda-adv-target1 0.0 --lambda-adv-target2 0.001\n```\n\n## Related Implementation and Dataset\n* Y.-H. Tsai, K. Sohn, S. Schulter, and M. Chandraker. Domain Adaptation for Structured Output via Discriminative Patch Representations. In ICCV, 2019. (Oral) [[paper]](https:\u002F\u002Farxiv.org\u002Fabs\u002F1901.05427v3) [[project]](http:\u002F\u002Fwww.nec-labs.com\u002F~mas\u002Fadapt-seg\u002Fadapt-seg.html) [[Implementation Guidance]](https:\u002F\u002Fdocs.google.com\u002Fdocument\u002Fd\u002F1w235D1vonIl6ER7AEfOOp8T0OFUiLwXCDFUdAra62RU\u002Fedit?usp=sharing)\n* W.-C. Hung, Y.-H Tsai, Y.-T. Liou, Y.-Y. Lin, and M.-H. Yang. Adversarial Learning for Semi-supervised Semantic Segmentation. In BMVC, 2018. [[paper]](https:\u002F\u002Farxiv.org\u002Fabs\u002F1802.07934) [[code]](https:\u002F\u002Fgithub.com\u002Fhfslyc\u002FAdvSemiSeg)\n* Y.-H. Chen, W.-Y. Chen, Y.-T. Chen, B.-C. Tsai, Y.-C. Frank Wang, and M. Sun. No More Discrimination: Cross City Adaptation of Road Scene Segmenters. In ICCV 2017. [[paper]](https:\u002F\u002Farxiv.org\u002Fabs\u002F1704.08509) [[project]](https:\u002F\u002Fyihsinchen.github.io\u002Fsegmentation_adaptation\u002F)\n\n## Acknowledgment\nThis code is heavily borrowed from [Pytorch-Deeplab](https:\u002F\u002Fgithub.com\u002Fspeedinghzl\u002FPytorch-Deeplab).\n## Note\nThe model and code are available for non-commercial research purposes only.\n* 10\u002F2019: update performance and training\u002Fevaluation codes for using LS-GAN and Synscapes (especially thanks to [Yan-Ting Liu](https:\u002F\u002Fgithub.com\u002Fwheatdog) for helping experiments)\n* 01\u002F2019: upate the training code for PyTorch 0.4\n* 07\u002F23\u002F2018: update evaluation code for PyTorch 0.4\n* 06\u002F04\u002F2018: update pretrained VGG-16 model \n* 02\u002F2018: code released\n\n\n\n\n","# 学习适应结构化输出空间以进行语义分割\n\n我们方法的 PyTorch 实现，用于将语义分割从合成数据集（源域）迁移到真实数据集（目标域）。基于该实现，我们的结果在 [VisDA 挑战赛](http:\u002F\u002Fai.bu.edu\u002Fvisda-2017\u002F) 中排名第三。\n\n联系人：蔡宜轩 (wasidennis at gmail dot com) 和洪伟志 (whung8 at ucmerced dot edu)\n\n## 论文\n[学习适应结构化输出空间以进行语义分割](https:\u002F\u002Farxiv.org\u002Fabs\u002F1802.10349) \u003Cbr \u002F>\n[蔡宜轩](https:\u002F\u002Fsites.google.com\u002Fsite\u002Fyihsuantsai\u002Fhome)\\*, [洪伟志](https:\u002F\u002Fhfslyc.github.io\u002F)\\*, [塞缪尔·舒尔特](https:\u002F\u002Fsamschulter.github.io\u002F)、[苏基赫](https:\u002F\u002Fsites.google.com\u002Fsite\u002Fkihyuksml\u002F)、[杨明轩](http:\u002F\u002Ffaculty.ucmerced.edu\u002Fmhyang\u002Findex.html) 和 [钱德拉克](http:\u002F\u002Fcseweb.ucsd.edu\u002F~mkchandraker\u002F) \u003Cbr \u002F>\nIEEE 计算机视觉与模式识别会议 (CVPR)，2018 年 (**亮点**) (\\* 表示共同第一作者)。\n\n如果您认为我们的论文对您的研究有帮助，请引用它。\n\n```\n@inproceedings{Tsai_adaptseg_2018,\n  author = {Y.-H. Tsai and W.-C. Hung and S. Schulter and K. Sohn and M.-H. Yang and M. Chandraker},\n  booktitle = {IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},\n  title = {Learning to Adapt Structured Output Space for Semantic Segmentation},\n  year = {2018}\n}\n```\n\n## 示例结果\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwasidennis_AdaptSegNet_readme_e13a1a3e0f3b.png)\n\n## 定量结果\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwasidennis_AdaptSegNet_readme_bd8f23ea62b4.png)\n\n## 安装\n* 从 http:\u002F\u002Fpytorch.org 安装 PyTorch，使用 Python 2 和 CUDA 8.0\n\n* **新增** 添加 LS-GAN 目标以提升性能\n  - 使用方法：训练时添加 `--gan LS` 选项（详情见下文）\n\n* PyTorch 0.4，使用 Python 3 和 CUDA 8.0\n  - 使用方法：将训练和评估代码替换为 `pytorch_0.4` 文件夹中的代码\n  - 更新：通过在命令中添加 `--tensorboard` 提供 TensorBoard 支持\n  - 注意：单层级模型运行正常，而多层级模型需要较小的权重，例如 `--lambda-adv-target1 0.00005 --lambda-adv-target2 0.0005`。我们将尽快调查此问题。\n\n* 克隆本仓库\n```\ngit clone https:\u002F\u002Fgithub.com\u002Fwasidennis\u002FAdaptSegNet\ncd AdaptSegNet\n```\n\n## 数据集\n* 下载 [GTA5 数据集](https:\u002F\u002Fdownload.visinf.tu-darmstadt.de\u002Fdata\u002Ffrom_games\u002F) 作为源域，并将其放入 `data\u002FGTA5` 文件夹\n\n* 下载 [Cityscapes 数据集](https:\u002F\u002Fwww.cityscapes-dataset.com\u002F) 作为目标域，并将其放入 `data\u002FCityscapes` 文件夹\n\n## 预训练模型\n* 请在此处找到我们使用 ResNet-101 在三个基准设置上的预训练模型 [链接](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fgpzm15ipyt01mis\u002FDA_Seg_models.zip?dl=0)\n\n* 它们包括基线模型（无适应和特征适应）以及我们的模型（单层级和多层级）\n\n## 测试\n* **新增** 使用 LS-GAN 以及 [Synscapes](https:\u002F\u002F7dlabs.com\u002Fsynscapes-overview) 作为源域的更新结果\n  - 性能：参见更新后的 [arXiv 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1802.10349) 的附录（2019 年 10 月 17 日更新）\n  - [预训练模型](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fsif9cd6ad4s9y5d\u002FAdaptSegNet_LSGAN_models.zip?dl=0)\n\n* 下载预训练的多层级 [GTA5 到 Cityscapes 模型](http:\u002F\u002Fvllab.ucmerced.edu\u002Fytsai\u002FCVPR18\u002FGTA2Cityscapes_multi-ed35151c.pth) 并将其放入 `model` 文件夹\n\n* 测试模型，结果将保存在 `result` 文件夹中\n\n```\npython evaluate_cityscapes.py --restore-from .\u002Fmodel\u002FGTA2Cityscapes_multi-ed35151c.pth\n```\n\n* 或者，测试基于 VGG-16 的模型 [模型链接](http:\u002F\u002Fvllab.ucmerced.edu\u002Fytsai\u002FCVPR18\u002FGTA2Cityscapes_vgg-ac4ac9f6.pth)\n\n```\npython evaluate_cityscapes.py --model DeeplabVGG --restore-from .\u002Fmodel\u002FGTA2Cityscapes_vgg-ac4ac9f6.pth\n```\n\n* 在 Cityscapes 上计算 IoU（感谢来自 [VisDA 挑战赛](http:\u002F\u002Fai.bu.edu\u002Fvisda-2017\u002F) 的代码）\n```\npython compute_iou.py .\u002Fdata\u002FCityscapes\u002Fdata\u002FgtFine\u002Fval result\u002Fcityscapes\n```\n\n## 训练示例\n* **新增** 训练 GTA5 到 Cityscapes 模型（单层级，使用 LS-GAN）\n\n```\npython train_gta2cityscapes_multi.py --snapshot-dir .\u002Fsnapshots\u002FGTA2Cityscapes_single_lsgan \\\n                                     --lambda-seg 0.0 \\\n                                     --lambda-adv-target1 0.0 --lambda-adv-target2 0.01 \\\n                                     --gan LS\n```\n\n* 训练 GTA5 到 Cityscapes 模型（多层级）\n\n```\npython train_gta2cityscapes_multi.py --snapshot-dir .\u002Fsnapshots\u002FGTA2Cityscapes_multi \\\n                                     --lambda-seg 0.1 \\\n                                     --lambda-adv-target1 0.0002 --lambda-adv-target2 0.001\n```\n\n* 训练 GTA5 到 Cityscapes 模型（单层级）\n\n```\npython train_gta2cityscapes_multi.py --snapshot-dir .\u002Fsnapshots\u002FGTA2Cityscapes_single \\\n                                     --lambda-seg 0.0 \\\n                                     --lambda-adv-target1 0.0 --lambda-adv-target2 0.001\n```\n\n## 相关实现和数据集\n* Y.-H. Tsai, K. Sohn, S. Schulter 和 M. Chandraker. 基于判别式补丁表示的结构化输出领域适应。ICCV，2019 年。（口头报告）[[论文]](https:\u002F\u002Farxiv.org\u002Fabs\u002F1901.05427v3) [[项目]](http:\u002F\u002Fwww.nec-labs.com\u002F~mas\u002Fadapt-seg\u002Fadapt-seg.html) [[实施指南]](https:\u002F\u002Fdocs.google.com\u002Fdocument\u002Fd\u002F1w235D1vonIl6ER7AEfOOp8T0OFUiLwXCDFUdAra62RU\u002Fedit?usp=sharing)\n* W.-C. Hung, Y.-H Tsai, Y.-T. Liou, Y.-Y. Lin 和 M.-H. Yang. 用于半监督语义分割的对抗学习。BMVC，2018 年。[[论文]](https:\u002F\u002Farxiv.org\u002Fabs\u002F1802.07934) [[代码]](https:\u002F\u002Fgithub.com\u002Fhfslyc\u002FAdvSemiSeg)\n* Y.-H. Chen, W.-Y. Chen, Y.-T. Chen, B.-C. Tsai, Y.-C. Frank Wang 和 M. Sun. 不再歧视：跨城市道路场景分割器的适应性迁移。ICCV 2017。[[论文]](https:\u002F\u002Farxiv.org\u002Fabs\u002F1704.08509) [[项目]](https:\u002F\u002Fyihsinchen.github.io\u002Fsegmentation_adaptation\u002F)\n\n## 致谢\n本代码大量借鉴自 [Pytorch-Deeplab](https:\u002F\u002Fgithub.com\u002Fspeedinghzl\u002FPytorch-Deeplab)。\n## 注意事项\n该模型和代码仅可用于非商业性研究目的。\n* 2019 年 10 月：更新了使用 LS-GAN 和 Synscapes 的性能及训练\u002F评估代码（特别感谢 [刘彦婷](https:\u002F\u002Fgithub.com\u002Fwheatdog) 在实验方面的帮助）\n* 2019 年 1 月：更新了适用于 PyTorch 0.4 的训练代码\n* 2018 年 7 月 23 日：更新了适用于 PyTorch 0.4 的评估代码\n* 2018 年 6 月 4 日：更新了预训练的 VGG-16 模型\n* 2018 年 2 月：代码发布","# AdaptSegNet 快速上手指南\n\nAdaptSegNet 是一个基于 PyTorch 的语义分割域自适应工具，旨在将模型从合成数据集（源域，如 GTA5）迁移到真实数据集（目标域，如 Cityscapes）。该项目曾获得 VisDA Challenge 第三名。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**: Linux (推荐)\n*   **Python**: Python 2.7 或 Python 3.6+\n    *   若使用 Python 2，需搭配 CUDA 8.0。\n    *   若使用 Python 3，建议使用 PyTorch 0.4 版本并搭配 CUDA 8.0。\n*   **深度学习框架**: PyTorch\n    *   官方安装地址：[http:\u002F\u002Fpytorch.org](http:\u002F\u002Fpytorch.org)\n    *   **国内加速建议**：推荐使用清华或中科大镜像源安装 PyTorch 及相关依赖。\n        ```bash\n        pip install torch torchvision -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n        ```\n*   **其他依赖**: 代码依赖 `tensorboard` (PyTorch 0.4 版本支持)，可通过 pip 安装。\n\n## 安装步骤\n\n1.  **克隆仓库**\n    从 GitHub 克隆项目代码到本地：\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fwasidennis\u002FAdaptSegNet\n    cd AdaptSegNet\n    ```\n\n2.  **配置 PyTorch 0.4 版本（推荐 Python 3 用户）**\n    如果您使用的是 Python 3 和 PyTorch 0.4，需要将训练和评估代码替换为兼容版本：\n    ```bash\n    # 将 pytorch_0.4 文件夹下的文件覆盖根目录下的对应文件\n    cp pytorch_0.4\u002F*.py .\n    ```\n\n3.  **准备数据集**\n    您需要下载源域和目标域数据集并放置在指定目录：\n    *   **源域**: 下载 [GTA5 Dataset](https:\u002F\u002Fdownload.visinf.tu-darmstadt.de\u002Fdata\u002Ffrom_games\u002F) 并放入 `data\u002FGTA5` 文件夹。\n    *   **目标域**: 下载 [Cityscapes Dataset](https:\u002F\u002Fwww.cityscapes-dataset.com\u002F) 并放入 `data\u002FCityscapes` 文件夹。\n    *   *注：国内用户若下载困难，可尝试寻找国内高校镜像站或开源社区提供的数据集备份。*\n\n4.  **下载预训练模型**\n    下载多层级 GTA5-to-Cityscapes 预训练模型并放入 `model` 文件夹：\n    ```bash\n    mkdir -p model\n    wget http:\u002F\u002Fvllab.ucmerced.edu\u002Fytsai\u002FCVPR18\u002FGTA2Cityscapes_multi-ed35151c.pth -P .\u002Fmodel\u002F\n    ```\n    *(如果 wget 下载速度慢，建议手动下载后上传至服务器)*\n\n## 基本使用\n\n以下是最简单的测试示例，用于评估预训练模型在 Cityscapes 验证集上的表现。\n\n1.  **运行评估脚本**\n    执行以下命令加载模型并生成预测结果（结果将保存在 `result` 文件夹）：\n    ```bash\n    python evaluate_cityscapes.py --restore-from .\u002Fmodel\u002FGTA2Cityscapes_multi-ed35151c.pth\n    ```\n\n    *如需测试基于 VGG-16 的模型，可使用：*\n    ```bash\n    python evaluate_cityscapes.py --model DeeplabVGG --restore-from .\u002Fmodel\u002FGTA2Cityscapes_vgg-ac4ac9f6.pth\n    ```\n\n2.  **计算 IoU 指标**\n    使用官方脚本计算平均交并比（IoU）：\n    ```bash\n    python compute_iou.py .\u002Fdata\u002FCityscapes\u002Fdata\u002FgtFine\u002Fval result\u002Fcityscapes\n    ```\n\n### 进阶：简单训练示例\n若您希望从头训练一个单层级模型（启用 LS-GAN 以提升性能），可使用以下命令：\n```bash\npython train_gta2cityscapes_multi.py --snapshot-dir .\u002Fsnapshots\u002FGTA2Cityscapes_single_lsgan \\\n                                     --lambda-seg 0.0 \\\n                                     --lambda-adv-target1 0.0 --lambda-adv-target2 0.01 \\\n                                     --gan LS\n```","某自动驾驶初创团队正致力于将基于游戏引擎（如 GTA5）合成数据训练的感知模型，部署到真实城市道路（如 Cityscapes 场景）的测试车辆上。\n\n### 没有 AdaptSegNet 时\n- **标注成本高昂**：为了适配真实路况，团队不得不花费数周时间人工标注成千上万张真实街道图像，严重拖慢迭代速度。\n- **域偏移导致失效**：直接在合成数据上训练的模型在真实场景中表现糟糕，无法准确识别雨天路面或特定植被，分割准确率极低。\n- **特征对齐困难**：尝试传统的特征对齐方法效果有限，模型难以克服合成图像与真实照片在光照、纹理上的巨大差异。\n- **输出空间不一致**：模型输出的语义类别边界模糊，经常将人行道误判为车道，存在严重的安全隐患。\n\n### 使用 AdaptSegNet 后\n- **实现无监督迁移**：利用 AdaptSegNet 的域自适应能力，团队无需任何真实数据标签，直接将 GTA5 模型成功迁移至 Cityscapes 域。\n- **结构化输出适配**：通过适应结构化输出空间，模型显著提升了在真实场景中的语义分割精度，mIoU 指标大幅提升。\n- **对抗训练优化**：引入 LS-GAN 目标函数后，生成的分割图更加平滑自然，有效消除了合成数据带来的伪影和噪声。\n- **快速落地验证**：仅需少量计算资源进行微调，模型即可在真实路测中准确区分复杂路况，将部署周期从数周缩短至数天。\n\nAdaptSegNet 通过消除合成与真实数据间的域鸿沟，让自动驾驶感知模型得以在零标注成本下实现高精度的真实场景落地。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwasidennis_AdaptSegNet_e13a1a3e.png","wasidennis","Yi-Hsuan Tsai","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fwasidennis_a3822783.png",null,"https:\u002F\u002Fsites.google.com\u002Fsite\u002Fyihsuantsai\u002Fhome","https:\u002F\u002Fgithub.com\u002Fwasidennis",[79],{"name":80,"color":81,"percentage":82},"Python","#3572A5",100,860,208,"2026-03-16T03:20:47",4,"未说明","需要 NVIDIA GPU，CUDA 8.0",{"notes":90,"python":91,"dependencies":92},"该工具基于较旧的 PyTorch 0.4 和 CUDA 8.0 环境。若使用 Python 3 和 PyTorch 0.4，需替换为代码库中 `pytorch_0.4` 文件夹下的训练和评估脚本。多级别模型在 PyTorch 0.4 环境下可能需要调整权重参数（如 --lambda-adv-target1 设为 0.00005）。数据集需单独下载 GTA5 和 Cityscapes。代码仅限非商业研究用途。","2.x 或 3.x (PyTorch 0.4 版本对应 Python 3)",[93,94],"torch==0.4","tensorboard (可选)",[15,14],[97,98,99,100,101,102,103],"deep-learning","computer-vision","domain-adaptation","semantic-segmentation","generative-adversarial-network","adversarial-learning","pytorch","2026-03-27T02:49:30.150509","2026-04-14T03:16:30.754667",[107,112,117,122,127,132,137],{"id":108,"question_zh":109,"answer_zh":110,"source_url":111},32383,"为什么无法复现论文中报告的 mIoU 结果，或者训练结果不稳定？","这是一个已知现象。当前代码库中存在一个未修复的 Bug（位于 model\u002Fdeeplab_multi.py 第 118 行附近），目前的超参数是基于这个有 Bug 的版本调整的。如果手动修复该 Bug，反而会导致结果变差（约 38%），除非重新调整一套新的超参数。此外，结果对训练迭代次数非常敏感，可能需要在特定迭代次数（如 105,000 次）才能观察到接近论文的结果。建议使用 PyTorch 0.4.0 并注意监控不同迭代阶段的性能。","https:\u002F\u002Fgithub.com\u002Fwasidennis\u002FAdaptSegNet\u002Fissues\u002F19",{"id":113,"question_zh":114,"answer_zh":115,"source_url":116},32384,"在 AWS 或其他云实例上训练时间过长（每次迭代需数秒）怎么办？","训练速度慢通常是因为使用了较旧的 GPU（如 K80）。建议升级到带有 Tesla V100 的实例（如 p3.2xlarge），并将环境更新为 PyTorch 1.0 和 CUDA 9.0，这可将每次迭代时间从约 5.7 秒降低到 0.8 秒（快 7 倍）。另外，请检查数据加载部分是否成为瓶颈，确保使用了 PyTorch 的并行数据加载器。如果条件允许，也可以修改代码以支持多 GPU 训练来进一步缩短时间。","https:\u002F\u002Fgithub.com\u002Fwasidennis\u002FAdaptSegNet\u002Fissues\u002F76",{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},32385,"训练时遇到 'CUDA out of memory' 错误如何解决？","这通常是因为源图像和目标图像的输入尺寸较大（如 1280x720 和 1024x512）导致显存不足。解决方案包括：1. 使用显存更大的 GPU；2. 确保 PyTorch 版本与 CUDA 版本兼容（例如 PyTorch 0.2.0 可能与 CUDA 9.0 存在兼容性问题）；3. 尝试缩小输入图像尺寸（例如缩小到原来的 0.875 倍），但这可能会导致 mAP 下降约 10%。","https:\u002F\u002Fgithub.com\u002Fwasidennis\u002FAdaptSegNet\u002Fissues\u002F18",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},32386,"如何确定多级对抗学习（multi-level adversarial learning）中的权重值？","为了简化训练方案，通常在整個训练过程中使用固定的权重值（例如 PyTorch 0.4 版本中分别为 0.0005 和 0.00005）。判断权重是否合理的依据是观察损失函数的变化趋势：理想的状况是判别器损失（discriminator loss）逐渐下降，对抗损失（adv loss）逐渐上升，最终两者在一定范围内波动并达到平衡。如果判别器损失过快降至接近零，说明对抗学习未生效（源域和目标域太容易区分），此时可能需要调整权重。","https:\u002F\u002Fgithub.com\u002Fwasidennis\u002FAdaptSegNet\u002Fissues\u002F69",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},32387,"使用 VGG-16 模型进行仅源域训练（source only）时报错 'not enough values to unpack' 怎么办？","这是因为 VGG 模型只使用了单级版本（single-level），而代码默认尝试解包两个输出。解决方法是：1. 移除代码中所有与 'D1' 和 'loss_adv_target1' 相关的行；2. 将模型调用改为 `pred2 = model(images)`（只获取一个输出）；3. 如果是加载预训练权重，在定义 VGG 模型并加载权重后，可以移除 `if args.restore_from[:4] == 'http' :` 下方的相关代码行。训练参数（学习率、权重衰减等）可与 ResNet-101 实验保持一致。","https:\u002F\u002Fgithub.com\u002Fwasidennis\u002FAdaptSegNet\u002Fissues\u002F45",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},32388,"基线模型（ResNet-101 DeepLabV2）在 Cityscapes 上的评估结果远低于预期（如只有 29%-31%）是什么原因？","这是一个常见问题，许多用户都报告了类似的低基线结果。可能的原因包括超参数设置差异（如初始学习率、参数调度器、优化器选择等）。维护者指出模型本身可能存在不稳定性，建议尝试更频繁地进行评估（例如每 2000 次迭代评估一次）以捕捉最佳模型状态，或者检查是否严格遵循了官方提供的训练脚本和配置。目前社区中尚未有统一的定论，建议对比官方日志检查自己的初始化设置。","https:\u002F\u002Fgithub.com\u002Fwasidennis\u002FAdaptSegNet\u002Fissues\u002F16",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},32389,"DeepLab 分类器模块代码中，'return out' 语句位于 for 循环内是否是 Bug？","是的，从逻辑上看，金字塔层的求和操作应该在循环结束后返回，因此 'return out' 缩进在循环内会导致只执行一次加法就返回。虽然这看起来像是一个 Bug，但维护者表示暂时不要修复它，因为当前的超参数是基于这个包含 Bug 的版本调试出来的。如果修复了这个缩进问题，需要重新调整超参数才能获得合理的结果。","https:\u002F\u002Fgithub.com\u002Fwasidennis\u002FAdaptSegNet\u002Fissues\u002F4",[]]