[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-DepthAnything--Depth-Anything-V2":3,"tool-DepthAnything--Depth-Anything-V2":64},[4,18,26,35,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,2,"2026-04-06T11:32:50",[14,15,13],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":10,"last_commit_at":41,"category_tags":42,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[43,15,13,14],"语言模型",{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,52],"视频",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85013,"2026-04-06T11:09:19",[15,16,52,61,13,62,43,14,63],"插件","其他","音频",{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":75,"owner_avatar_url":76,"owner_bio":77,"owner_company":77,"owner_location":77,"owner_email":77,"owner_twitter":77,"owner_website":77,"owner_url":78,"languages":79,"stars":88,"forks":89,"last_commit_at":90,"license":91,"difficulty_score":32,"env_os":92,"env_gpu":93,"env_ram":94,"env_deps":95,"category_tags":101,"github_topics":102,"view_count":32,"oss_zip_url":77,"oss_zip_packed_at":77,"status":17,"created_at":104,"updated_at":105,"faqs":106,"releases":136},4477,"DepthAnything\u002FDepth-Anything-V2","Depth-Anything-V2","[NeurIPS 2024] Depth Anything V2. A More Capable Foundation Model for Monocular Depth Estimation","Depth Anything V2 是一款专为单目深度估计打造的先进基础模型，能够仅凭一张普通照片精准推算出场景的深度信息。相比前代版本，它在细节还原和鲁棒性上实现了显著突破，不仅能更清晰地识别物体边缘与纹理，还能在复杂光照或多样场景下保持稳定输出。\n\n该工具主要解决了传统深度估计模型在精细度不足、推理速度慢以及参数量过大等方面的痛点。与基于稳定扩散（SD）的模型相比，Depth Anything V2 拥有更快的推理速度、更少的参数占用以及更高的深度预测精度，同时支持从轻量级到超大规模的多种模型配置，满足不同算力需求。\n\n无论是计算机视觉开发者、学术研究人员，还是需要快速集成深度感知功能的产品工程师，都能从中受益。其独特的技术亮点包括对细粒度特征的卓越捕捉能力，以及已无缝集成至 Hugging Face Transformers 和苹果 Core ML 生态，便于跨平台部署。此外，项目还持续拓展视频深度一致性及高分辨率度量深度估计等前沿应用，为三维重建、自动驾驶及增强现实等领域提供了强有力的技术支撑。","\u003Cdiv align=\"center\">\n\u003Ch1>Depth Anything V2\u003C\u002Fh1>\n\n[**Lihe Yang**](https:\u002F\u002Fliheyoung.github.io\u002F)\u003Csup>1\u003C\u002Fsup> · [**Bingyi Kang**](https:\u002F\u002Fbingykang.github.io\u002F)\u003Csup>2&dagger;\u003C\u002Fsup> · [**Zilong Huang**](http:\u002F\u002Fspeedinghzl.github.io\u002F)\u003Csup>2\u003C\u002Fsup>\n\u003Cbr>\n[**Zhen Zhao**](http:\u002F\u002Fzhaozhen.me\u002F) · [**Xiaogang Xu**](https:\u002F\u002Fxiaogang00.github.io\u002F) · [**Jiashi Feng**](https:\u002F\u002Fsites.google.com\u002Fsite\u002Fjshfeng\u002F)\u003Csup>2\u003C\u002Fsup> · [**Hengshuang Zhao**](https:\u002F\u002Fhszhao.github.io\u002F)\u003Csup>1*\u003C\u002Fsup>\n\n\u003Csup>1\u003C\u002Fsup>HKU&emsp;&emsp;&emsp;\u003Csup>2\u003C\u002Fsup>TikTok\n\u003Cbr>\n&dagger;project lead&emsp;*corresponding author\n\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.09414\">\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Depth Anything V2-red' alt='Paper PDF'>\u003C\u002Fa>\n\u003Ca href='https:\u002F\u002Fdepth-anything-v2.github.io'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject_Page-Depth Anything V2-green' alt='Project Page'>\u003C\u002Fa>\n\u003Ca href='https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fdepth-anything\u002FDepth-Anything-V2'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-Demo-blue'>\u003C\u002Fa>\n\u003Ca href='https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fdepth-anything\u002FDA-2K'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FBenchmark-DA--2K-yellow' alt='Benchmark'>\u003C\u002Fa>\n\u003C\u002Fdiv>\n\nThis work presents Depth Anything V2. It significantly outperforms [V1](https:\u002F\u002Fgithub.com\u002FLiheYoung\u002FDepth-Anything) in fine-grained details and robustness. Compared with SD-based models, it enjoys faster inference speed, fewer parameters, and higher depth accuracy.\n\n![teaser](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FDepthAnything_Depth-Anything-V2_readme_c578b928753d.png)\n\n\n## News\n- **2025-01-22:** [Video Depth Anything](https:\u002F\u002Fvideodepthanything.github.io) has been released. It generates consistent depth maps for super-long videos (e.g., over 5 minutes).\n- **2024-12-22:** [Prompt Depth Anything](https:\u002F\u002Fpromptda.github.io\u002F) has been released. It supports 4K resolution metric depth estimation when low-res LiDAR is used to prompt the DA models.\n- **2024-07-06:** Depth Anything V2 is supported in [Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers\u002F). See the [instructions](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fmain\u002Fen\u002Fmodel_doc\u002Fdepth_anything_v2) for convenient usage.\n- **2024-06-25:** Depth Anything is integrated into [Apple Core ML Models](https:\u002F\u002Fdeveloper.apple.com\u002Fmachine-learning\u002Fmodels\u002F). See the instructions ([V1](https:\u002F\u002Fhuggingface.co\u002Fapple\u002Fcoreml-depth-anything-small), [V2](https:\u002F\u002Fhuggingface.co\u002Fapple\u002Fcoreml-depth-anything-v2-small)) for usage.\n- **2024-06-22:** We release [smaller metric depth models](https:\u002F\u002Fgithub.com\u002FDepthAnything\u002FDepth-Anything-V2\u002Ftree\u002Fmain\u002Fmetric_depth#pre-trained-models) based on Depth-Anything-V2-Small and Base.\n- **2024-06-20:** Our repository and project page are flagged by GitHub and removed from the public for 6 days. Sorry for the inconvenience.\n- **2024-06-14:** Paper, project page, code, models, demo, and benchmark are all released.\n\n\n## Pre-trained Models\n\nWe provide **four models** of varying scales for robust relative depth estimation:\n\n| Model | Params | Checkpoint |\n|:-|-:|:-:|\n| Depth-Anything-V2-Small | 24.8M | [Download](https:\u002F\u002Fhuggingface.co\u002Fdepth-anything\u002FDepth-Anything-V2-Small\u002Fresolve\u002Fmain\u002Fdepth_anything_v2_vits.pth?download=true) |\n| Depth-Anything-V2-Base | 97.5M | [Download](https:\u002F\u002Fhuggingface.co\u002Fdepth-anything\u002FDepth-Anything-V2-Base\u002Fresolve\u002Fmain\u002Fdepth_anything_v2_vitb.pth?download=true) |\n| Depth-Anything-V2-Large | 335.3M | [Download](https:\u002F\u002Fhuggingface.co\u002Fdepth-anything\u002FDepth-Anything-V2-Large\u002Fresolve\u002Fmain\u002Fdepth_anything_v2_vitl.pth?download=true) |\n| Depth-Anything-V2-Giant | 1.3B | Coming soon |\n\n\n## Usage\n\n### Prepraration\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FDepthAnything\u002FDepth-Anything-V2\ncd Depth-Anything-V2\npip install -r requirements.txt\n```\n\nDownload the checkpoints listed [here](#pre-trained-models) and put them under the `checkpoints` directory.\n\n### Use our models\n```python\nimport cv2\nimport torch\n\nfrom depth_anything_v2.dpt import DepthAnythingV2\n\nDEVICE = 'cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu'\n\nmodel_configs = {\n    'vits': {'encoder': 'vits', 'features': 64, 'out_channels': [48, 96, 192, 384]},\n    'vitb': {'encoder': 'vitb', 'features': 128, 'out_channels': [96, 192, 384, 768]},\n    'vitl': {'encoder': 'vitl', 'features': 256, 'out_channels': [256, 512, 1024, 1024]},\n    'vitg': {'encoder': 'vitg', 'features': 384, 'out_channels': [1536, 1536, 1536, 1536]}\n}\n\nencoder = 'vitl' # or 'vits', 'vitb', 'vitg'\n\nmodel = DepthAnythingV2(**model_configs[encoder])\nmodel.load_state_dict(torch.load(f'checkpoints\u002Fdepth_anything_v2_{encoder}.pth', map_location='cpu'))\nmodel = model.to(DEVICE).eval()\n\nraw_img = cv2.imread('your\u002Fimage\u002Fpath')\ndepth = model.infer_image(raw_img) # HxW raw depth map in numpy\n```\n\nIf you do not want to clone this repository, you can also load our models through [Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers\u002F). Below is a simple code snippet. Please refer to the [official page](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fmain\u002Fen\u002Fmodel_doc\u002Fdepth_anything_v2) for more details.\n\n- Note 1: Make sure you can connect to Hugging Face and have installed the latest Transformers.\n- Note 2: Due to the [upsampling difference](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers\u002Fpull\u002F31522#issuecomment-2184123463) between OpenCV (we used) and Pillow (HF used), predictions may differ slightly. So you are more recommended to use our models through the way introduced above.\n```python\nfrom transformers import pipeline\nfrom PIL import Image\n\npipe = pipeline(task=\"depth-estimation\", model=\"depth-anything\u002FDepth-Anything-V2-Small-hf\")\nimage = Image.open('your\u002Fimage\u002Fpath')\ndepth = pipe(image)[\"depth\"]\n```\n\n### Running script on *images*\n\n```bash\npython run.py \\\n  --encoder \u003Cvits | vitb | vitl | vitg> \\\n  --img-path \u003Cpath> --outdir \u003Coutdir> \\\n  [--input-size \u003Csize>] [--pred-only] [--grayscale]\n```\nOptions:\n- `--img-path`: You can either 1) point it to an image directory storing all interested images, 2) point it to a single image, or 3) point it to a text file storing all image paths.\n- `--input-size` (optional): By default, we use input size `518` for model inference. ***You can increase the size for even more fine-grained results.***\n- `--pred-only` (optional): Only save the predicted depth map, without raw image.\n- `--grayscale` (optional): Save the grayscale depth map, without applying color palette.\n\nFor example:\n```bash\npython run.py --encoder vitl --img-path assets\u002Fexamples --outdir depth_vis\n```\n\n### Running script on *videos*\n\n```bash\npython run_video.py \\\n  --encoder \u003Cvits | vitb | vitl | vitg> \\\n  --video-path assets\u002Fexamples_video --outdir video_depth_vis \\\n  [--input-size \u003Csize>] [--pred-only] [--grayscale]\n```\n\n***Our larger model has better temporal consistency on videos.***\n\n### Gradio demo\n\nTo use our gradio demo locally:\n\n```bash\npython app.py\n```\n\nYou can also try our [online demo](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FDepth-Anything\u002FDepth-Anything-V2).\n\n***Note: Compared to V1, we have made a minor modification to the DINOv2-DPT architecture (originating from this [issue](https:\u002F\u002Fgithub.com\u002FLiheYoung\u002FDepth-Anything\u002Fissues\u002F81)).*** In V1, we *unintentionally* used features from the last four layers of DINOv2 for decoding. In V2, we use [intermediate features](https:\u002F\u002Fgithub.com\u002FDepthAnything\u002FDepth-Anything-V2\u002Fblob\u002F2cbc36a8ce2cec41d38ee51153f112e87c8e42d8\u002Fdepth_anything_v2\u002Fdpt.py#L164-L169) instead. Although this modification did not improve details or accuracy, we decided to follow this common practice.\n\n\n## Fine-tuned to Metric Depth Estimation\n\nPlease refer to [metric depth estimation](.\u002Fmetric_depth).\n\n\n## DA-2K Evaluation Benchmark\n\nPlease refer to [DA-2K benchmark](.\u002FDA-2K.md).\n\n\n## Community Support\n\n**We sincerely appreciate all the community support for our Depth Anything series. Thank you a lot!**\n\n- Apple Core ML:\n    - https:\u002F\u002Fdeveloper.apple.com\u002Fmachine-learning\u002Fmodels\n    - https:\u002F\u002Fhuggingface.co\u002Fapple\u002Fcoreml-depth-anything-v2-small\n    - https:\u002F\u002Fhuggingface.co\u002Fapple\u002Fcoreml-depth-anything-small\n- Transformers:\n    - https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fmain\u002Fen\u002Fmodel_doc\u002Fdepth_anything_v2\n    - https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fmain\u002Fen\u002Fmodel_doc\u002Fdepth_anything\n- TensorRT:\n    - https:\u002F\u002Fgithub.com\u002Fspacewalk01\u002Fdepth-anything-tensorrt\n    - https:\u002F\u002Fgithub.com\u002Fzhujiajian98\u002FDepth-Anythingv2-TensorRT-python\n- ONNX: https:\u002F\u002Fgithub.com\u002Ffabio-sim\u002FDepth-Anything-ONNX\n- ComfyUI: https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-DepthAnythingV2\n- Transformers.js (real-time depth in web): https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FXenova\u002Fwebgpu-realtime-depth-estimation\n- Android:\n  - https:\u002F\u002Fgithub.com\u002Fshubham0204\u002FDepth-Anything-Android\n  - https:\u002F\u002Fgithub.com\u002FFeiGeChuanShu\u002Fncnn-android-depth_anything\n\n\n## Acknowledgement\n\nWe are sincerely grateful to the awesome Hugging Face team ([@Pedro Cuenca](https:\u002F\u002Fhuggingface.co\u002Fpcuenq), [@Niels Rogge](https:\u002F\u002Fhuggingface.co\u002Fnielsr), [@Merve Noyan](https:\u002F\u002Fhuggingface.co\u002Fmerve), [@Amy Roberts](https:\u002F\u002Fhuggingface.co\u002Famyeroberts), et al.) for their huge efforts in supporting our models in Transformers and Apple Core ML.\n\nWe also thank the [DINOv2](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdinov2) team for contributing such impressive models to our community.\n\n\n## LICENSE\n\nDepth-Anything-V2-Small model is under the Apache-2.0 license. Depth-Anything-V2-Base\u002FLarge\u002FGiant models are under the CC-BY-NC-4.0 license.\n\n\n## Citation\n\nIf you find this project useful, please consider citing:\n\n```bibtex\n@article{depth_anything_v2,\n  title={Depth Anything V2},\n  author={Yang, Lihe and Kang, Bingyi and Huang, Zilong and Zhao, Zhen and Xu, Xiaogang and Feng, Jiashi and Zhao, Hengshuang},\n  journal={arXiv:2406.09414},\n  year={2024}\n}\n\n@inproceedings{depth_anything_v1,\n  title={Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data}, \n  author={Yang, Lihe and Kang, Bingyi and Huang, Zilong and Xu, Xiaogang and Feng, Jiashi and Zhao, Hengshuang},\n  booktitle={CVPR},\n  year={2024}\n}\n```\n","\u003Cdiv align=\"center\">\n\u003Ch1>Depth Anything V2\u003C\u002Fh1>\n\n[**李赫杨**](https:\u002F\u002Fliheyoung.github.io\u002F)\u003Csup>1\u003C\u002Fsup> · [**康炳毅**](https:\u002F\u002Fbingykang.github.io\u002F)\u003Csup>2&dagger;\u003C\u002Fsup> · [**黄子龙**](http:\u002F\u002Fspeedinghzl.github.io\u002F)\u003Csup>2\u003C\u002Fsup>\n\u003Cbr>\n[**赵震**](http:\u002F\u002Fzhaozhen.me\u002F) · [**徐晓刚**](https:\u002F\u002Fxiaogang00.github.io\u002F) · [**冯嘉世**](https:\u002F\u002Fsites.google.com\u002Fsite\u002Fjshfeng\u002F)\u003Csup>2\u003C\u002Fsup> · [**赵恒爽**](https:\u002F\u002Fhszhao.github.io\u002F)\u003Csup>1*\u003C\u002Fsup>\n\n\u003Csup>1\u003C\u002Fsup>香港大学&emsp;&emsp;&emsp;\u003Csup>2\u003C\u002Fsup>TikTok\n\u003Cbr>\n&dagger;项目负责人&emsp;*通讯作者\n\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.09414\">\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Depth Anything V2-red' alt='论文PDF'>\u003C\u002Fa>\n\u003Ca href='https:\u002F\u002Fdepth-anything-v2.github.io'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F项目页面-Depth Anything V2-green' alt='项目页面'>\u003C\u002Fa>\n\u003Ca href='https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fdepth-anything\u002FDepth-Anything-V2'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-演示-blue'>\u003C\u002Fa>\n\u003Ca href='https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fdepth-anything\u002FDA-2K'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F基准测试-DA--2K-yellow' alt='基准测试'>\u003C\u002Fa>\n\u003C\u002Fdiv>\n\n本工作提出了Depth Anything V2。它在细节表现和鲁棒性方面显著优于[V1](https:\u002F\u002Fgithub.com\u002FLiheYoung\u002FDepth-Anything)。与基于SD的模型相比，它具有更快的推理速度、更少的参数以及更高的深度精度。\n\n![teaser](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FDepthAnything_Depth-Anything-V2_readme_c578b928753d.png)\n\n\n## 新闻\n- **2025-01-22:** [Video Depth Anything](https:\u002F\u002Fvideodepthanything.github.io) 已发布。它可以为超长视频（例如超过5分钟）生成一致的深度图。\n- **2024-12-22:** [Prompt Depth Anything](https:\u002F\u002Fpromptda.github.io\u002F) 已发布。当使用低分辨率激光雷达作为提示时，该模型支持4K分辨率的度量深度估计。\n- **2024-07-06:** Depth Anything V2 已被集成到 [Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers\u002F) 中。请参阅[使用说明](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fmain\u002Fen\u002Fmodel_doc\u002Fdepth_anything_v2)以方便使用。\n- **2024-06-25:** Depth Anything 已被整合到 [Apple Core ML Models](https:\u002F\u002Fdeveloper.apple.com\u002Fmachine-learning\u002Fmodels\u002F) 中。请参阅使用说明（[V1](https:\u002F\u002Fhuggingface.co\u002Fapple\u002Fcoreml-depth-anything-small)，[V2](https:\u002F\u002Fhuggingface.co\u002Fapple\u002Fcoreml-depth-anything-v2-small))。\n- **2024-06-22:** 我们发布了基于Depth-Anything-V2-Small 和 Base 的[更小的度量深度模型](https:\u002F\u002Fgithub.com\u002FDepthAnything\u002FDepth-Anything-V2\u002Ftree\u002Fmain\u002Fmetric_depth#pre-trained-models)。\n- **2024-06-20:** 我们的仓库和项目页面被 GitHub 标记并从公开列表中移除，为期6天。对此造成的不便，我们深表歉意。\n- **2024-06-14:** 论文、项目页面、代码、模型、演示和基准测试均已发布。\n\n\n## 预训练模型\n\n我们提供了**四种不同规模**的模型，用于鲁棒的相对深度估计：\n\n| 模型 | 参数量 | 检查点 |\n|:-|-:|:-:|\n| Depth-Anything-V2-Small | 24.8M | [下载](https:\u002F\u002Fhuggingface.co\u002Fdepth-anything\u002FDepth-Anything-V2-Small\u002Fresolve\u002Fmain\u002Fdepth_anything_v2_vits.pth?download=true) |\n| Depth-Anything-V2-Base | 97.5M | [下载](https:\u002F\u002Fhuggingface.co\u002Fdepth-anything\u002FDepth-Anything-V2-Base\u002Fresolve\u002Fmain\u002Fdepth_anything_v2_vitb.pth?download=true) |\n| Depth-Anything-V2-Large | 335.3M | [下载](https:\u002F\u002Fhuggingface.co\u002Fdepth-anything\u002FDepth-Anything-V2-Large\u002Fresolve\u002Fmain\u002Fdepth_anything_v2_vitl.pth?download=true) |\n| Depth-Anything-V2-Giant | 1.3B | 即将发布 |\n\n\n## 使用方法\n\n### 准备工作\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FDepthAnything\u002FDepth-Anything-V2\ncd Depth-Anything-V2\npip install -r requirements.txt\n```\n\n下载此处列出的[预训练模型](#pre-trained-models)，并将它们放入 `checkpoints` 目录下。\n\n### 使用我们的模型\n```python\nimport cv2\nimport torch\n\nfrom depth_anything_v2.dpt import DepthAnythingV2\n\nDEVICE = 'cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu'\n\nmodel_configs = {\n    'vits': {'encoder': 'vits', 'features': 64, 'out_channels': [48, 96, 192, 384]},\n    'vitb': {'encoder': 'vitb', 'features': 128, 'out_channels': [96, 192, 384, 768]},\n    'vitl': {'encoder': 'vitl', 'features': 256, 'out_channels': [256, 512, 1024, 1024]},\n    'vitg': {'encoder': 'vitg', 'features': 384, 'out_channels': [1536, 1536, 1536, 1536]}\n}\n\nencoder = 'vitl' # 或 'vits', 'vitb', 'vitg'\n\nmodel = DepthAnythingV2(**model_configs[encoder])\nmodel.load_state_dict(torch.load(f'checkpoints\u002Fdepth_anything_v2_{encoder}.pth', map_location='cpu'))\nmodel = model.to(DEVICE).eval()\n\nraw_img = cv2.imread('your\u002Fimage\u002Fpath')\ndepth = model.infer_image(raw_img) # HxW 的原始深度图，格式为 numpy\n```\n\n如果您不想克隆此仓库，也可以通过 [Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers\u002F) 加载我们的模型。以下是一个简单的代码片段。更多详细信息请参考[官方页面](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fmain\u002Fen\u002Fmodel_doc\u002Fdepth_anything_v2)。\n\n- 注意1：请确保您能够连接到 Hugging Face，并已安装最新版本的 Transformers。\n- 注意2：由于 OpenCV（我们使用的库）与 Pillow（HF使用的库）之间的[上采样差异](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers\u002Fpull\u002F31522#issuecomment-2184123463)，预测结果可能会略有不同。因此，我们建议您按照上述方式使用我们的模型。\n```python\nfrom transformers import pipeline\nfrom PIL import Image\n\npipe = pipeline(task=\"depth-estimation\", model=\"depth-anything\u002FDepth-Anything-V2-Small-hf\")\nimage = Image.open('your\u002Fimage\u002Fpath')\ndepth = pipe(image)[\"depth\"]\n```\n\n### 在图像上运行脚本\n\n```bash\npython run.py \\\n  --encoder \u003Cvits | vitb | vitl | vitg> \\\n  --img-path \u003Cpath> --outdir \u003Coutdir> \\\n  [--input-size \u003Csize>] [--pred-only] [--grayscale]\n```\n选项：\n- `--img-path`: 您可以将其指向一个存储所有感兴趣图像的目录，也可以指向单张图像，或指向一个包含所有图像路径的文本文件。\n- `--input-size`（可选）：默认情况下，我们使用输入尺寸 `518` 进行模型推理。***您可以增大尺寸以获得更精细的结果。***\n- `--pred-only`（可选）：仅保存预测的深度图，不保存原始图像。\n- `--grayscale`（可选）：保存灰度深度图，不应用颜色映射。\n\n例如：\n```bash\npython run.py --encoder vitl --img-path assets\u002Fexamples --outdir depth_vis\n```\n\n### 在视频上运行脚本\n\n```bash\npython run_video.py \\\n  --encoder \u003Cvits | vitb | vitl | vitg> \\\n  --video-path assets\u002Fexamples_video --outdir video_depth_vis \\\n  [--input-size \u003Csize>] [--pred-only] [--grayscale]\n```\n\n***我们的大型模型在视频处理上具有更好的时间一致性。***\n\n### Gradio 示例\n\n要在本地使用我们的 Gradio 示例：\n\n```bash\npython app.py\n```\n\n你也可以尝试我们的[在线示例](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FDepth-Anything\u002FDepth-Anything-V2)。\n\n***注意：与 V1 相比，我们对 DINOv2-DPT 架构做了一处小修改（源自此[问题](https:\u002F\u002Fgithub.com\u002FLiheYoung\u002FDepth-Anything\u002Fissues\u002F81))。*** 在 V1 中，我们*无意间*使用了 DINOv2 最后四层的特征进行解码。而在 V2 中，我们改用[中间特征](https:\u002F\u002Fgithub.com\u002FDepthAnything\u002FDepth-Anything-V2\u002Fblob\u002F2cbc36a8ce2cec41d38ee51153f112e87c8e42d8\u002Fdepth_anything_v2\u002Fdpt.py#L164-L169)。尽管这一改动并未提升细节或精度，但我们仍决定遵循这一常见做法。\n\n\n## 针对度量深度估计的微调\n\n请参阅[度量深度估计](.\u002Fmetric_depth)。\n\n\n## DA-2K 评估基准\n\n请参阅[DA-2K 基准](.\u002FDA-2K.md)。\n\n\n## 社区支持\n\n**我们衷心感谢社区对我们 Depth Anything 系列的所有支持！非常感谢！**\n\n- Apple Core ML：\n    - https:\u002F\u002Fdeveloper.apple.com\u002Fmachine-learning\u002Fmodels\n    - https:\u002F\u002Fhuggingface.co\u002Fapple\u002Fcoreml-depth-anything-v2-small\n    - https:\u002F\u002Fhuggingface.co\u002Fapple\u002Fcoreml-depth-anything-small\n- Transformers：\n    - https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fmain\u002Fen\u002Fmodel_doc\u002Fdepth_anything_v2\n    - https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fmain\u002Fen\u002Fmodel_doc\u002Fdepth_anything\n- TensorRT：\n    - https:\u002F\u002Fgithub.com\u002Fspacewalk01\u002Fdepth-anything-tensorrt\n    - https:\u002F\u002Fgithub.com\u002Fzhujiajian98\u002FDepth-Anythingv2-TensorRT-python\n- ONNX：https:\u002F\u002Fgithub.com\u002Ffabio-sim\u002FDepth-Anything-ONNX\n- ComfyUI：https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-DepthAnythingV2\n- Transformers.js（网页端实时深度）：https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FXenova\u002Fwebgpu-realtime-depth-estimation\n- Android：\n  - https:\u002F\u002Fgithub.com\u002Fshubham0204\u002FDepth-Anything-Android\n  - https:\u002F\u002Fgithub.com\u002FFeiGeChuanShu\u002Fncnn-android-depth_anything\n\n\n## 致谢\n\n我们由衷地感谢优秀的 Hugging Face 团队（[@Pedro Cuenca](https:\u002F\u002Fhuggingface.co\u002Fpcuenq)、[@Niels Rogge](https:\u002F\u002Fhuggingface.co\u002Fnielsr)、[@Merve Noyan](https:\u002F\u002Fhuggingface.co\u002Fmerve)、[@Amy Roberts](https:\u002F\u002Fhuggingface.co\u002Famyeroberts) 等），他们在 Transformers 和 Apple Core ML 中为我们模型的支持付出了巨大努力。\n\n同时，我们也感谢[DINOv2](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdinov2)团队，为我们的社区贡献了如此令人印象深刻的模型。\n\n\n## 许可证\n\nDepth-Anything-V2-Small 模型采用 Apache-2.0 许可证。Depth-Anything-V2-Base\u002FLarge\u002FGiant 模型则采用 CC-BY-NC-4.0 许可证。\n\n\n## 引用\n\n如果你觉得本项目对你有帮助，请考虑引用以下内容：\n\n```bibtex\n@article{depth_anything_v2,\n  title={Depth Anything V2},\n  author={Yang, Lihe and Kang, Bingyi and Huang, Zilong and Zhao, Zhen and Xu, Xiaogang and Feng, Jiashi and Zhao, Hengshuang},\n  journal={arXiv:2406.09414},\n  year={2024}\n}\n\n@inproceedings{depth_anything_v1,\n  title={Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data}, \n  author={Yang, Lihe and Kang, Bingyi and Huang, Zilong and Xu, Xiaogang and Feng, Jiashi and Zhao, Hengshuang},\n  booktitle={CVPR},\n  year={2024}\n}\n```","# Depth Anything V2 快速上手指南\n\nDepth Anything V2 是一款强大的单目深度估计开源模型，相比 V1 版本在细节保留和鲁棒性上显著提升，且推理速度更快、参数量更优。本指南将帮助您快速在本地部署并使用该工具。\n\n## 环境准备\n\n*   **操作系统**: Linux, macOS, Windows\n*   **Python**: 3.8+\n*   **深度学习框架**: PyTorch (推荐 1.10+)\n*   **硬件要求**:\n    *   推荐使用 NVIDIA GPU (CUDA) 以获得最佳推理速度。\n    *   支持 Apple Silicon (MPS) 或纯 CPU 运行（速度较慢）。\n*   **前置依赖**: `opencv-python`, `torch`, `torchvision` 等（将通过 requirements.txt 自动安装）。\n\n> **国内加速建议**：\n> 在安装依赖时，建议使用清华或阿里镜像源加速下载：\n> ```bash\n> pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n## 安装步骤\n\n### 1. 克隆项目代码\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FDepthAnything\u002FDepth-Anything-V2\ncd Depth-Anything-V2\n```\n\n### 2. 安装依赖\n```bash\npip install -r requirements.txt\n```\n*(如需国内加速，请参照上方“环境准备”中的镜像源命令)*\n\n### 3. 下载预训练模型\n根据需求选择模型规模，下载对应的 `.pth` 文件并放入项目根目录下的 `checkpoints` 文件夹中（需手动创建该文件夹）。\n\n| 模型型号 | 参数量 | 下载链接 | 适用场景 |\n| :--- | :--- | :--- | :--- |\n| **Small** | 24.8M | [下载](https:\u002F\u002Fhuggingface.co\u002Fdepth-anything\u002FDepth-Anything-V2-Small\u002Fresolve\u002Fmain\u002Fdepth_anything_v2_vits.pth?download=true) | 轻量级\u002F实时应用 |\n| **Base** | 97.5M | [下载](https:\u002F\u002Fhuggingface.co\u002Fdepth-anything\u002FDepth-Anything-V2-Base\u002Fresolve\u002Fmain\u002Fdepth_anything_v2_vitb.pth?download=true) | 平衡性能与速度 |\n| **Large** | 335.3M | [下载](https:\u002F\u002Fhuggingface.co\u002Fdepth-anything\u002FDepth-Anything-V2-Large\u002Fresolve\u002Fmain\u002Fdepth_anything_v2_vitl.pth?download=true) | 高精度\u002F视频处理 |\n| **Giant** | 1.3B | 即将发布 | 极致精度 |\n\n**操作示例**：\n```bash\nmkdir checkpoints\n# 以下载 Large 模型为例，将下载后的文件重命名为 depth_anything_v2_vitl.pth 并放入 checkpoints 目录\n```\n\n## 基本使用\n\n### 方法一：Python 代码调用（推荐）\n\n这是最灵活的使用方式，可直接集成到您的项目中。\n\n```python\nimport cv2\nimport torch\nfrom depth_anything_v2.dpt import DepthAnythingV2\n\n# 自动选择设备：CUDA > MPS (Mac) > CPU\nDEVICE = 'cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu'\n\n# 配置模型参数 (可选: vits, vitb, vitl, vitg)\nencoder = 'vitl' \nmodel_configs = {\n    'vits': {'encoder': 'vits', 'features': 64, 'out_channels': [48, 96, 192, 384]},\n    'vitb': {'encoder': 'vitb', 'features': 128, 'out_channels': [96, 192, 384, 768]},\n    'vitl': {'encoder': 'vitl', 'features': 256, 'out_channels': [256, 512, 1024, 1024]},\n    'vitg': {'encoder': 'vitg', 'features': 384, 'out_channels': [1536, 1536, 1536, 1536]}\n}\n\n# 加载模型\nmodel = DepthAnythingV2(**model_configs[encoder])\nmodel.load_state_dict(torch.load(f'checkpoints\u002Fdepth_anything_v2_{encoder}.pth', map_location='cpu'))\nmodel = model.to(DEVICE).eval()\n\n# 推理\nraw_img = cv2.imread('your\u002Fimage\u002Fpath') # 替换为您的图片路径\ndepth = model.infer_image(raw_img)      # 输出为 HxW 的 numpy 深度图\n\n# 后续可对 depth 进行可视化或保存\n```\n\n### 方法二：使用 Hugging Face Transformers（免克隆仓库）\n\n如果您已安装最新版 `transformers` 且网络通畅，可直接通过 HF 接口调用（注意：由于插值算法差异，结果可能与官方实现略有不同）。\n\n```python\nfrom transformers import pipeline\nfrom PIL import Image\n\n# 加载管道 (首次运行会自动下载模型)\npipe = pipeline(task=\"depth-estimation\", model=\"depth-anything\u002FDepth-Anything-V2-Small-hf\")\n\n# 推理\nimage = Image.open('your\u002Fimage\u002Fpath')\ndepth = pipe(image)[\"depth\"]\ndepth.save(\"depth_output.png\")\n```\n\n### 方法三：命令行批量处理\n\n项目提供了脚本用于批量处理图片或视频。\n\n**处理图片：**\n```bash\npython run.py \\\n  --encoder vitl \\\n  --img-path assets\u002Fexamples \\\n  --outdir depth_vis \\\n  --input-size 518\n```\n*   `--img-path`: 支持单个图片路径、图片文件夹或包含路径的文本文件。\n*   `--input-size`: 默认为 518，增大此值可获得更精细的深度图（显存占用会增加）。\n\n**处理视频：**\n```bash\npython run_video.py \\\n  --encoder vitl \\\n  --video-path assets\u002Fexamples_video \\\n  --outdir video_depth_vis\n```\n*   **提示**：较大的模型（如 Large）在视频处理上具有更好的时间一致性。\n\n### 方法四：本地 Gradio 演示\n\n启动本地 Web UI 进行交互式测试：\n```bash\npython app.py\n```\n启动后在浏览器访问显示的本地地址即可。","一家专注于自动驾驶仿真测试的团队，需要利用单目行车记录仪视频快速重建高保真的 3D 城市道路场景。\n\n### 没有 Depth-Anything-V2 时\n- **细节丢失严重**：传统深度估计模型难以识别远处的交通标志、纤细的护栏或复杂的路面纹理，导致重建的 3D 模型出现“平滑化”失真，缺乏真实感。\n- **极端环境失效**：在夜间低光照、强逆光或雨天等恶劣天气下，旧模型生成的深度图充满噪点甚至完全错误，迫使团队必须人工剔除大量无效数据。\n- **推理效率低下**：为了追求一定的精度，往往需要部署参数量巨大的基于扩散模型（SD-based）的方案，导致处理长视频时显存占用过高且推理速度极慢，严重拖慢迭代周期。\n\n### 使用 Depth-Anything-V2 后\n- **细粒度还原**：Depth-Anything-V2 凭借更强的基础模型能力，精准捕捉到电线杆、路面裂缝等微小结构的深度信息，使仿真场景的几何细节达到电影级质感。\n- **鲁棒性显著提升**：即使在深夜隧道出口或暴雨场景中，Depth-Anything-V2 依然能输出连贯、准确的深度图，大幅减少了数据清洗和人工修正的工作量。\n- **速度与精度兼得**：相比同类高精度模型，Depth-Anything-V2 在参数量更小的情况下实现了更快的推理速度，让团队能在消费级显卡上实时处理超长时间的视频流。\n\nDepth-Anything-V2 通过突破性的细粒度感知与鲁棒性，将单目深度估计从“可用”提升至“生产级”，极大降低了高保真 3D 场景重建的门槛与成本。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FDepthAnything_Depth-Anything-V2_f4177296.png","DepthAnything","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FDepthAnything_717b6da6.png",null,"https:\u002F\u002Fgithub.com\u002FDepthAnything",[80,84],{"name":81,"color":82,"percentage":83},"Python","#3572A5",99.5,{"name":85,"color":86,"percentage":87},"Shell","#89e051",0.5,7857,800,"2026-04-06T07:23:03","Apache-2.0","Linux, macOS, Windows","非必需。支持 NVIDIA GPU (CUDA)、Apple Silicon (MPS) 或 CPU 运行。具体显存需求未说明，但模型参数量最大达 1.3B，建议大模型使用高显存显卡。","未说明",{"notes":96,"python":94,"dependencies":97},"1. 代码自动检测硬件：优先使用 CUDA，若无则尝试 MPS (macOS)，最后回退到 CPU。\n2. 提供四种规模模型 (Small\u002FBase\u002FLarge\u002FGiant)，参数量从 24.8M 到 1.3B 不等，需根据硬件选择。\n3. 可通过 pip install -r requirements.txt 安装依赖，具体版本需查看该文件。\n4. 支持通过 Hugging Face Transformers 库直接加载模型，无需克隆仓库。\n5. Small 模型采用 Apache-2.0 协议，Base\u002FLarge\u002FGiant 模型采用 CC-BY-NC-4.0 协议。",[98,99,100],"torch","opencv-python (cv2)","transformers (可选)",[15,62],[103],"monocular-depth-estimation","2026-03-27T02:49:30.150509","2026-04-06T23:56:12.701292",[107,112,117,122,127,132],{"id":108,"question_zh":109,"answer_zh":110,"source_url":111},20354,"如何将预测的深度图与真实深度图（Ground Truth）进行对齐？如果没有真实深度数据该怎么办？","如果你有真实深度数据（GT），可以使用最小二乘法拟合缩放和平移参数来对齐。代码示例如下：\n```python\nY = Y.view(-1, 1)\nX = X.view(-1, 1)\nones = torch.ones_like(X)\nA_B = torch.cat([ones, Y], dim=1)\n\nA_B = A_B.cpu()\nX = X.cpu()\nsolution = torch.linalg.lstsq(A_B, 1.0 \u002F X).solution\nsolution = solution.to(trg_depth.device)\nA, B = solution[:2].squeeze()\n\noutput = 1.0 \u002F (A + B * ref_depth)\n```\n如果你没有真实深度数据（GT），则只能获得相对深度估计。这种对齐操作仅适用于计算评估指标或与真实值进行比较，在没有 GT 的情况下无法进行绝对尺度的对齐。","https:\u002F\u002Fgithub.com\u002FDepthAnything\u002FDepth-Anything-V2\u002Fissues\u002F157",{"id":113,"question_zh":114,"answer_zh":115,"source_url":116},20355,"是否有模型可以接受焦距（focal length）或相机内参作为输入，以修正点云投影时的尺度错误？","目前 Depth Anything V2 本身不支持直接输入焦距或内参。已知支持视场角（FOV）输入的公开模型有 UniDepth 和 depth_any_camera，但它们存在明显局限性：\n1. UniDepth：经常产生较大的随机误差（例如将天空误判为距离相机 30 厘米）。\n2. depth_any_camera：训练数据中缺乏近距离人脸样本，导致处理人脸时效果不佳。\n因此，如果需要对焦距敏感的精确度量深度，目前尚无完美的替代方案，建议关注后续模型更新是否支持该功能。","https:\u002F\u002Fgithub.com\u002FDepthAnything\u002FDepth-Anything-V2\u002Fissues\u002F152",{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},20356,"运行代码时出现 'RuntimeError: Input type (torch.cuda.FloatTensor) and weight type (torch.FloatTensor) should be the same' 错误，如何解决？","该错误表明输入张量位于 GPU 上（CUDA），而模型权重位于 CPU 上，或者反之，导致设备不匹配。解决方法是确保模型和图片输入在同一设备上。通常在加载模型后，需要显式地将模型移动到 CUDA 设备：\n```python\nmodel = model.to('cuda') # 或者 model.cuda()\n```\n同时确保输入图像在送入模型前也转换到了相同的设备和数据类型。","https:\u002F\u002Fgithub.com\u002FDepthAnything\u002FDepth-Anything-V2\u002Fissues\u002F45",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},20357,"如何在自定义数据集上训练相对深度模型？min_depth 和 max_depth 参数应该如何设置？","对于 8 位相对深度图的自定义数据集，默认参数（min_depth=0.001, max_depth=20）通常可以作为起点。但需注意，如果使用相对深度图训练后预测结果出现尺度错误（scaled incorrectly），可能需要根据具体数据集的分布调整这些范围，或者检查数据预处理步骤是否正确归一化。目前社区反馈显示，直接使用默认值在某些自定义相对深度数据集上可能导致预测偏差。","https:\u002F\u002Fgithub.com\u002FDepthAnything\u002FDepth-Anything-V2\u002Fissues\u002F69",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},20358,"如何输出特定格式（如 PGM\u002FPFM）的深度帧以便用于 3D 视频转换工具（如 DepthViewer）？","目前官方脚本可能未直接内置输出 ZIP 缓存格式的功能。用户建议修改 `run_video.py` 脚本，添加选项将每一帧深度图保存为编号的 PGM 或 PFM 文件，并打包成 ZIP。PGM\u002FPFM 是存储原始深度数据的标准格式。你可以参考 DepthViewer 的缓存格式（包含原始帧和元数据的 ZIP），手动编写脚本实现：遍历视频帧 -> 生成深度图 -> 保存为 PGM\u002FPFM -> 打包。这可以实现预缓存深度图以用于后续的 2D 转 3D 视频处理。","https:\u002F\u002Fgithub.com\u002FDepthAnything\u002FDepth-Anything-V2\u002Fissues\u002F70",{"id":133,"question_zh":134,"answer_zh":135,"source_url":111},20359,"应该使用默认模型（相对深度估计）还是 metric_depth 模型来提升低分辨率深度图？","这取决于你的应用场景：\n1. 如果你需要将深度图与真实世界的物理尺寸对应（例如有真实深度参考），应使用 `metric_depth` 模型。\n2. 如果你只关心物体间的远近关系（相对顺序），或者没有真实深度数据进行对齐，使用默认的相对深度估计模型即可。\n预测的深度图通常是真实深度图像的缩放和平移版本。若需精确对齐到真实深度，必须使用 metric 模型并配合对齐算法（见相关问题 1）。",[]]