[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-ialhashim--DenseDepth":3,"tool-ialhashim--DenseDepth":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",153609,2,"2026-04-13T11:34:59",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":78,"owner_twitter":79,"owner_website":80,"owner_url":81,"languages":82,"stars":91,"forks":92,"last_commit_at":93,"license":94,"difficulty_score":10,"env_os":95,"env_gpu":96,"env_ram":97,"env_deps":98,"category_tags":112,"github_topics":113,"view_count":32,"oss_zip_url":78,"oss_zip_packed_at":78,"status":17,"created_at":122,"updated_at":123,"faqs":124,"releases":159},7201,"ialhashim\u002FDenseDepth","DenseDepth","High Quality Monocular Depth Estimation via Transfer Learning","DenseDepth 是一款基于深度学习的高质量单目深度估计工具，能够从普通的单张 RGB 图片中精准推算出场景的深度信息。它主要解决了传统方法在缺乏立体视觉或激光雷达数据时，难以获取精确三维空间结构的难题，让单一摄像头也能“看”懂距离。\n\n该工具的核心亮点在于巧妙运用了迁移学习技术，通过在大规模数据集上的预训练，显著提升了模型在不同场景下的泛化能力和输出质量。项目不仅提供了基于 Keras\u002FTensorFlow 的官方实现，还社区贡献了 PyTorch 版本，并支持通过简单的脚本快速调用预训练模型，甚至能结合摄像头实时生成 3D 点云演示。\n\nDenseDepth 非常适合计算机视觉领域的研究人员、AI 开发者以及需要处理三维重建任务的技术团队使用。对于希望探索从二维图像恢复三维结构的研究者，或是正在开发自动驾驶、机器人导航、AR\u002FVR 应用且受限于硬件成本的工程师来说，这是一个极具参考价值的开源基线。虽然普通用户也可通过提供的 Colab 笔记本体验其效果，但其主要价值仍体现在算法研究与二次开发中。","## [High Quality Monocular Depth Estimation via Transfer Learning (arXiv 2018)](https:\u002F\u002Farxiv.org\u002Fabs\u002F1812.11941)\n[Ibraheem Alhashim](https:\u002F\u002Fialhashim.github.io\u002F) and Peter Wonka\n\n**[Update] Our latest method with better performance can be found here [AdaBins](https:\u002F\u002Fgithub.com\u002Fshariqfarooq123\u002FAdaBins).**\n\nOffical Keras (TensorFlow) implementaiton. If you have any questions or need more help with the code, contact the **first author**.\n\n**[Update]** Added a [Colab notebook](https:\u002F\u002Fgithub.com\u002Fialhashim\u002FDenseDepth\u002Fblob\u002Fmaster\u002FDenseDepth.ipynb) to try the method on the fly.\n\n**[Update]** Experimental TensorFlow 2.0 implementation added.\n\n**[Update]** Experimental PyTorch code added.\n\n## Results\n\n* KITTI\n\u003Cp align=\"center\">\u003Cimg style=\"max-width:500px\" src=\"https:\u002F\u002Fs3-eu-west-1.amazonaws.com\u002Fdensedepth\u002Fdensedepth_results_01.jpg\" alt=\"KITTI\">\u003C\u002Fp>\n\n* NYU Depth V2\n\u003Cp align=\"center\">\n  \u003Cimg style=\"max-width:500px\" src=\"https:\u002F\u002Fs3-eu-west-1.amazonaws.com\u002Fdensedepth\u002Fdensedepth_results_02.jpg\" alt=\"NYU Depth v2\">\n  \u003Cimg style=\"max-width:500px\" src=\"https:\u002F\u002Fs3-eu-west-1.amazonaws.com\u002Fdensedepth\u002Fdensedepth_results_03.jpg\" alt=\"NYU Depth v2 table\">\n\u003C\u002Fp>\n\n## Requirements\n* This code is tested with Keras 2.2.4, Tensorflow 1.13, CUDA 10.0, on a machine with an NVIDIA Titan V and 16GB+ RAM running on Windows 10 or Ubuntu 16.\n* Other packages needed `keras pillow matplotlib scikit-learn scikit-image opencv-python pydot` and `GraphViz` for the model graph visualization and `PyGLM PySide2 pyopengl` for the GUI demo.\n* Minimum hardware tested on for inference NVIDIA GeForce 940MX (laptop) \u002F NVIDIA GeForce GTX 950 (desktop).\n* Training takes about 24 hours on a single NVIDIA TITAN RTX with batch size 8.\n\n## Pre-trained Models\n* [NYU Depth V2](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F19dfvGvDfCRYaqxVKypp1fRHwK7XtSjVu\u002Fview?usp=sharing) (165 MB)\n* [KITTI](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F19flUnbJ_6q2xtjuUQvjt1Y1cJRwOr-XY\u002Fview?usp=sharing) (165 MB)\n\n## Demos\n* After downloading the pre-trained model (nyu.h5), run `python test.py`. You should see a montage of images with their estimated depth maps.\n* **[Update]** A Qt demo showing 3D point clouds from the webcam or an image. Simply run `python demo.py`. It requires the packages `PyGLM PySide2 pyopengl`. \n\u003Cp align=\"center\">\n  \u003Cimg style=\"max-width:500px\" src=\"https:\u002F\u002Fs3-eu-west-1.amazonaws.com\u002Fdensedepth\u002Fdensedepth_results_04.jpg\" alt=\"RGBD Demo\">\n\u003C\u002Fp>\n\n## Data\n* [NYU Depth V2 (50K)](https:\u002F\u002Ftinyurl.com\u002Fnyu-data-zip) (4.1 GB): You don't need to extract the dataset since the code loads the entire zip file into memory when training.\n* [KITTI](http:\u002F\u002Fwww.cvlibs.net\u002Fdatasets\u002Fkitti\u002F): copy the raw data to a folder with the path '..\u002Fkitti'. Our method expects dense input depth maps, therefore, you need to run a depth [inpainting method](https:\u002F\u002Fcs.nyu.edu\u002F~silberman\u002Fdatasets\u002Fnyu_depth_v2.html) on the Lidar data. For our experiments, we used our [Python re-implmentaiton](https:\u002F\u002Fgist.github.com\u002Fialhashim\u002Fbe6235489a9c43c6d240e8331836586a) of the Matlab code provided with NYU Depth V2 toolbox. The entire 80K images took 2 hours on an 80 nodes cluster for inpainting. For our training, we used the subset defined [here](https:\u002F\u002Fs3-eu-west-1.amazonaws.com\u002Fdensedepth\u002Fkitti_train.csv).\n* [Unreal-1k](https:\u002F\u002Fgithub.com\u002Fialhashim\u002FDenseDepth): coming soon.\n\n## Training\n* Run `python train.py --data nyu --gpus 4 --bs 8`.\n\n## Evaluation\n* Download, but don't extract, the ground truth test data from [here](https:\u002F\u002Fs3-eu-west-1.amazonaws.com\u002Fdensedepth\u002Fnyu_test.zip) (1.4 GB). Then simply run `python evaluate.py`.\n\n## Reference\nCorresponding paper to cite:\n```\n@article{Alhashim2018,\n  author    = {Ibraheem Alhashim and Peter Wonka},\n  title     = {High Quality Monocular Depth Estimation via Transfer Learning},\n  journal   = {arXiv e-prints},\n  volume    = {abs\u002F1812.11941},\n  year      = {2018},\n  url       = {https:\u002F\u002Farxiv.org\u002Fabs\u002F1812.11941},\n  eid       = {arXiv:1812.11941},\n  eprint    = {1812.11941}\n}\n```\n","## [基于迁移学习的高质量单目深度估计（arXiv 2018）](https:\u002F\u002Farxiv.org\u002Fabs\u002F1812.11941)\n[Ibraheem Alhashim](https:\u002F\u002Fialhashim.github.io\u002F) 和 Peter Wonka\n\n**[更新] 我们的最新方法性能更优，可在此处找到：[AdaBins](https:\u002F\u002Fgithub.com\u002Fshariqfarooq123\u002FAdaBins)。**\n\n官方 Keras (TensorFlow) 实现。如有任何问题或需要更多代码方面的帮助，请联系**第一作者**。\n\n**[更新]** 添加了一个 [Colab 笔记本](https:\u002F\u002Fgithub.com\u002Fialhashim\u002FDenseDepth\u002Fblob\u002Fmaster\u002FDenseDepth.ipynb)，以便即时试用该方法。\n\n**[更新]** 增加了 TensorFlow 2.0 的实验性实现。\n\n**[更新]** 增加了 PyTorch 的实验性代码。\n\n## 结果\n\n* KITTI\n\u003Cp align=\"center\">\u003Cimg style=\"max-width:500px\" src=\"https:\u002F\u002Fs3-eu-west-1.amazonaws.com\u002Fdensedepth\u002Fdensedepth_results_01.jpg\" alt=\"KITTI\">\u003C\u002Fp>\n\n* NYU Depth V2\n\u003Cp align=\"center\">\n  \u003Cimg style=\"max-width:500px\" src=\"https:\u002F\u002Fs3-eu-west-1.amazonaws.com\u002Fdensedepth\u002Fdensedepth_results_02.jpg\" alt=\"NYU Depth v2\">\n  \u003Cimg style=\"max-width:500px\" src=\"https:\u002F\u002Fs3-eu-west-1.amazonaws.com\u002Fdensedepth\u002Fdensedepth_results_03.jpg\" alt=\"NYU Depth v2 表格\">\n\u003C\u002Fp>\n\n## 要求\n* 该代码已在配备 NVIDIA Titan V 显卡和 16GB 以上内存、运行 Windows 10 或 Ubuntu 16 的机器上，使用 Keras 2.2.4、Tensorflow 1.13 和 CUDA 10.0 进行测试。\n* 其他所需包包括 `keras pillow matplotlib scikit-learn scikit-image opencv-python pydot`，以及用于模型图可视化所需的 `GraphViz`，还有用于 GUI 演示的 `PyGLM PySide2 pyopengl`。\n* 经测试可用于推理的最低硬件配置为：NVIDIA GeForce 940MX（笔记本）\u002F NVIDIA GeForce GTX 950（台式机）。\n* 使用单块 NVIDIA TITAN RTX 显卡、批大小为 8 时，训练大约需要 24 小时。\n\n## 预训练模型\n* [NYU Depth V2](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F19dfvGvDfCRYaqxVKypp1fRHwK7XtSjVu\u002Fview?usp=sharing)（165 MB）\n* [KITTI](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F19flUnbJ_6q2xtjuUQvjt1Y1cJRwOr-XY\u002Fview?usp=sharing)（165 MB）\n\n## 演示\n* 下载预训练模型（nyu.h5）后，运行 `python test.py`。您将看到包含估计深度图的图像拼贴。\n* **[更新]** 一个 Qt 演示程序，可从网络摄像头或图像中显示 3D 点云。只需运行 `python demo.py` 即可。此演示需要安装 `PyGLM PySide2 pyopengl` 包。\n\u003Cp align=\"center\">\n  \u003Cimg style=\"max-width:500px\" src=\"https:\u002F\u002Fs3-eu-west-1.amazonaws.com\u002Fdensedepth\u002Fdensedepth_results_04.jpg\" alt=\"RGBD 演示\">\n\u003C\u002Fp>\n\n## 数据\n* [NYU Depth V2（5万张）](https:\u002F\u002Ftinyurl.com\u002Fnyu-data-zip)（4.1 GB）：无需解压数据集，因为代码在训练时会将整个 ZIP 文件加载到内存中。\n* [KITTI](http:\u002F\u002Fwww.cvlibs.net\u002Fdatasets\u002Fkitti\u002F)：将原始数据复制到路径为 `..\u002Fkitti` 的文件夹中。我们的方法需要密集的输入深度图，因此您需要对 LiDAR 数据运行一种深度[修复方法](https:\u002F\u002Fcs.nyu.edu\u002F~silberman\u002Fdatasets\u002Fnyu_depth_v2.html)。在我们的实验中，我们使用了自己对 NYU Depth V2 工具箱附带 MATLAB 代码的 [Python 重实现](https:\u002F\u002Fgist.github.com\u002Fialhashim\u002Fbe6235489a9c43c6d240e8331836586a)。对全部 8 万张图像进行修复耗时 2 小时，使用的是由 80 个节点组成的集群。用于训练的数据子集定义在[此处](https:\u002F\u002Fs3-eu-west-1.amazonaws.com\u002Fdensedepth\u002Fkitti_train.csv)。\n* [Unreal-1k](https:\u002F\u002Fgithub.com\u002Fialhashim\u002FDenseDepth)：即将发布。\n\n## 训练\n* 运行 `python train.py --data nyu --gpus 4 --bs 8`。\n\n## 评估\n* 从[这里](https:\u002F\u002Fs3-eu-west-1.amazonaws.com\u002Fdensedepth\u002Fnyu_test.zip)下载但不要解压真值测试数据（1.4 GB）。然后直接运行 `python evaluate.py` 即可。\n\n## 参考文献\n需要引用的相关论文：\n```\n@article{Alhashim2018,\n  author    = {Ibraheem Alhashim and Peter Wonka},\n  title     = {High Quality Monocular Depth Estimation via Transfer Learning},\n  journal   = {arXiv e-prints},\n  volume    = {abs\u002F1812.11941},\n  year      = {2018},\n  url       = {https:\u002F\u002Farxiv.org\u002Fabs\u002F1812.11941},\n  eid       = {arXiv:1812.11941},\n  eprint    = {1812.11941}\n}\n```","# DenseDepth 快速上手指南\n\nDenseDepth 是一个基于迁移学习的高质量单目深度估计工具，支持从单张 RGB 图像生成深度图。本项目提供 Keras (TensorFlow)、PyTorch 等多种实现版本。\n\n## 环境准备\n\n### 系统要求\n*   **操作系统**: Windows 10 或 Ubuntu 16+\n*   **GPU**: 推荐 NVIDIA 显卡（测试机型包括 Titan V, RTX 系列）。\n    *   最低推理配置：NVIDIA GeForce 940MX (笔记本) 或 GTX 950 (台式机)。\n*   **内存**: 16GB+ RAM。\n\n### 前置依赖\n确保已安装以下基础环境：\n*   Python 3.x\n*   CUDA 10.0\n*   cuDNN (与 CUDA 10.0 匹配)\n\n### 安装依赖包\n使用 pip 安装所需 Python 库。国内用户建议使用清华源或阿里源加速下载：\n\n```bash\npip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple keras==2.2.4 tensorflow==1.13 pillow matplotlib scikit-learn scikit-image opencv-python pydot graphviz\n```\n\n> **注意**: 若需运行 3D 点云演示 (`demo.py`)，还需额外安装：\n> ```bash\n> pip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple PyGLM PySide2 pyopengl\n> ```\n> *注：`graphviz` 系统工具也需单独安装并配置环境变量，用于模型可视化。*\n\n## 安装步骤\n\n1.  **克隆仓库**\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fialhashim\u002FDenseDepth.git\n    cd DenseDepth\n    ```\n\n2.  **下载预训练模型**\n    根据需求下载对应的 `.h5` 权重文件，并放入项目根目录：\n    *   **NYU Depth V2 模型** (室内场景): [下载链接](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F19dfvGvDfCRYaqxVKypp1fRHwK7XtSjVu\u002Fview?usp=sharing) (重命名为 `nyu.h5`)\n    *   **KITTI 模型** (室外驾驶场景): [下载链接](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F19flUnbJ_6q2xtjuUQvjt1Y1cJRwOr-XY\u002Fview?usp=sharing) (重命名为 `kitti.h5`)\n\n    *(国内用户若无法访问 Google Drive，可尝试寻找国内网盘搬运资源)*\n\n## 基本使用\n\n### 1. 静态图片深度估计\n下载好预训练模型（例如 `nyu.h5`）后，运行测试脚本即可生成深度图蒙太奇：\n\n```bash\npython test.py\n```\n程序将读取默认测试图片，并输出包含原图与估计深度图的合成结果。\n\n### 2. 实时 3D 点云演示 (可选)\n若已安装 `PyGLM`, `PySide2`, `pyopengl`，可启动 Qt 界面，通过摄像头或加载图片实时查看 3D 点云效果：\n\n```bash\npython demo.py\n```\n\n### 3. 在线体验 (无需本地环境)\n如果暂时不想配置本地环境，可以直接在浏览器中运行官方提供的 Colab 笔记本进行体验：\n*   [DenseDepth Colab Notebook](https:\u002F\u002Fgithub.com\u002Fialhashim\u002FDenseDepth\u002Fblob\u002Fmaster\u002FDenseDepth.ipynb)","一家专注于室内装修设计的初创公司，希望利用用户手机拍摄的普通房间照片快速生成可交互的 3D 空间预览图，以降低上门测量成本。\n\n### 没有 DenseDepth 时\n- **硬件门槛极高**：团队必须依赖昂贵的激光雷达（LiDAR）扫描仪或深度相机才能获取准确的房间纵深数据，无法直接使用用户普通的 RGB 照片。\n- **开发周期漫长**：若要训练自有的深度估计模型，需要收集数万张带真值标注的深度图，仅数据清洗和标注就需耗费数月时间。\n- **场景泛化能力差**：现有的轻量级算法在纹理单一（如白墙）或光照复杂的室内环境中，生成的深度图噪点极多，导致 3D 重建模型扭曲变形。\n- **部署成本高昂**：为了运行复杂的传统立体视觉算法，后端需要配置高性能 GPU 集群，难以在移动端或边缘设备上实时推理。\n\n### 使用 DenseDepth 后\n- **单目即可成像**：直接利用 DenseDepth 的迁移学习模型，仅需一张普通的手机照片（单目图像）就能输出高质量的稠密深度图，彻底摆脱专用硬件束缚。\n- **开箱即用效率高**：加载官方预训练的 NYU Depth V2 模型即可立即投入室内场景测试，无需从零开始收集数据和训练，将原型验证时间从数月缩短至几天。\n- **细节还原精准**：得益于其在室内数据集上的优异表现，DenseDepth 能准确识别家具边缘、地面起伏和墙面距离，生成的 3D 点云结构完整且平滑。\n- **灵活部署落地**：支持 TensorFlow 2.0 及 PyTorch 版本，且对硬件要求友好（如 GTX 950 即可推理），轻松集成到现有的云端服务或本地演示 Demo 中。\n\nDenseDepth 通过高精度的单目深度估计技术，将昂贵的 3D 感知能力转化为低成本的软件方案，让普通照片瞬间具备空间理解力。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fialhashim_DenseDepth_1df28a05.png","ialhashim","Ibraheem Alhashim","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fialhashim_b1b7b3ab.jpg","Senior Research Scientist","HUMAIN","Saudi Arabia",null,"ialhashims","http:\u002F\u002Fialhashim.github.io\u002F","https:\u002F\u002Fgithub.com\u002Fialhashim",[83,87],{"name":84,"color":85,"percentage":86},"Jupyter Notebook","#DA5B0B",84.1,{"name":88,"color":89,"percentage":90},"Python","#3572A5",15.9,1608,350,"2026-04-01T02:35:10","GPL-3.0","Windows, Linux","必需 NVIDIA GPU。训练推荐 NVIDIA TITAN RTX；推理最低支持 NVIDIA GeForce 940MX (笔记本) 或 GTX 950 (桌面)。官方测试环境为 NVIDIA Titan V，需 CUDA 10.0。","16GB+",{"notes":99,"python":100,"dependencies":101},"官方代码基于 Keras (TensorFlow 后端)，但也提供了实验性的 TensorFlow 2.0 和 PyTorch 实现。运行 GUI 演示（demo.py）需要额外安装 PySide2 和 pyopengl。训练在单张 TITAN RTX 上约需 24 小时。NYU Depth V2 数据集可直接加载 zip 文件无需解压，但 KITTI 数据集需要对 Lidar 数据进行深度修复（inpainting）预处理。","未说明",[102,103,104,105,106,107,108,109,110,111],"keras==2.2.4","tensorflow==1.13","pillow","matplotlib","scikit-learn","scikit-image","opencv-python","pydot","graphviz","PyGLM",[14],[114,115,116,117,118,119,120,121],"deep-learning","deep-neural-networks","python","keras-tensorflow","depth-estimation","encoder-decoder-model","transfer-learning","pytorch","2026-03-27T02:49:30.150509","2026-04-14T03:16:30.439671",[125,130,135,140,145,150,155],{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},32323,"如何使用自己的数据集进行训练？数据范围应该如何设置？","训练模型仅期望输入图像范围在 [0,1] 之间。如果您想基于预训练模型继续训练，只需提供范围在 [0,1] 的 RGB 图像批次，以及深度图范围在 `1.0 \u002F depth` (即 max_depth\u002Fdepth) 的数据。对于 NYU 数据集，深度范围通常映射到 [1.0, 80.0]。如果您使用自己的数据（例如最大深度为 100 米的 LiDAR），您可以决定训练的范围，可以使用任何线性缩放，只要在查看数据或计算深度时使用一致的范围即可。关键在于确保深度图的归一化方式与训练时一致（例如：maxDepth \u002F depth）。","https:\u002F\u002Fgithub.com\u002Fialhashim\u002FDenseDepth\u002Fissues\u002F11",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},32324,"输出的深度值单位是什么？如何获取以米为单位的浮点数深度？","输出值的单位取决于训练数据的设置。对于 NYU 数据集，原始数据通常在 10cm 到 1000cm (即 0.1 米到 10 米) 之间，但在经过 `DepthNorm` 处理后会有所变化。如果您发现输出包含负值或异常值（如 170 或 -3），可能是因为未正确进行裁剪或归一化。要获得实际的物理深度（米），建议先观察测试样本的输出是否合理（例如小房间的深度应在 1 到 4 米之间）。如果模型是在特定范围（如 10-1000 cm）训练的，您可能需要根据该比例转换输出值。","https:\u002F\u002Fgithub.com\u002Fialhashim\u002FDenseDepth\u002Fissues\u002F32",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},32325,"如何保存单张图像的预测深度图（彩色或二进制格式）？","您可以修改 `test.py` 代码来保存输出。若要保存彩色映射图（colormapped output），可使用以下代码：\n```python\nimport numpy as np\nimport matplotlib.pyplot as plt\nfrom PIL import Image\n\ncolorMapped = plt.get_cmap('plasma')(outputs[0,:,:,0])[:,:,:3]\nImage.fromarray(np.clip(colorMapped*255, 0, 255).astype('uint8')).save('output.png')\n```\n若要保存二进制数值表示（便于后续处理），可使用：\n```python\nimport numpy as np\nnp.save('output.npy', outputs[0,:,:,0])\n```\n其中 `outputs` 是模型预测的直接输出结果。","https:\u002F\u002Fgithub.com\u002Fialhashim\u002FDenseDepth\u002Fissues\u002F8",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},32326,"为什么在评估函数中要将预测值乘以 10.0？","乘以 10.0 的原因是因为测试数据的保存范围与训练数据不同。训练数据通常在 10 到 1000 (厘米) 的范围内（在进行 `DepthNorm` 之前）。而部分在线获取的测试数据是以不同的单位或范围保存的，因此需要除以 10（或在评估时乘以 10）来对齐单位。这不是为了调整对比度，而是为了统一量纲。如果您使用自己的数据，请确保训练加载器和测试加载器中的深度图范围定义是一致的。","https:\u002F\u002Fgithub.com\u002Fialhashim\u002FDenseDepth\u002Fissues\u002F7",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},32327,"如何使用 DenseDepth 的输出计算真实世界的深度值？公式是什么？","根据论文和代码逻辑，`predict` 函数返回的是归一化到 [0,1] 范围内的值。具体流程是：模型预测值经过 `DepthNorm` (即 maxDepth \u002F prediction)，然后被裁剪并除以 maxDepth。因此，若要从最终输出还原真实世界深度（米），应将预测结果乘以 `maxDepth`。例如，对于 KITTI 数据集（最大深度 80 米）：\n```python\npred_arr = predict(model, data, 0, 80) # 返回范围 [0,1]\nreal_depth = pred_arr[0, :, :, 0] * 80 # 还原为米\n```\n注意：不要再次执行 `m\u002Fy` 的反转操作，因为 `predict` 函数内部已经处理了归一化逻辑，直接乘以最大深度即可得到线性深度值。","https:\u002F\u002Fgithub.com\u002Fialhashim\u002FDenseDepth\u002Fissues\u002F129",{"id":151,"question_zh":152,"answer_zh":153,"source_url":154},32328,"PyTorch 版本的功能状态如何？是否有预训练权重？性能与 Keras 版本相比如何？","目前的 PyTorch 移植版本 unfortunately 无法产生与 Keras 版本相同的性能。主要差异可能源于损失函数的实现，特别是 PyTorch 没有提供标准的 SSIM（结构相似性）函数实现，而自定义实现的差异可能导致训练效果不同。此外，官方主要维护和提供的预训练权重是基于 Keras\u002FTensorFlow 格式的，PyTorch 格式可能缺乏同等质量的预训练模型或官方支持。建议在需要最佳效果时优先使用 Keras 版本。","https:\u002F\u002Fgithub.com\u002Fialhashim\u002FDenseDepth\u002Fissues\u002F19",{"id":156,"question_zh":157,"answer_zh":158,"source_url":139},32329,"如何将预测的深度图转换为点云（Point Cloud）并保存？","DenseDepth 的 demo 脚本通常只计算当前视角的深度图，不直接生成完整点云。您可以导出灰度配色方案（colorscheme `gray`）的深度图，然后结合原始图像，使用 Open3D 库来创建点云。具体步骤参考 Open3D 文档中关于 RGBD 图像的处理教程。生成点云后，可以使用 Open3D 将其保存为 `.ply` 等格式，以便在 Potree 或其他可视化工具中使用。",[]]