[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-RobotLocomotion--pytorch-dense-correspondence":3,"tool-RobotLocomotion--pytorch-dense-correspondence":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",150037,2,"2026-04-10T23:33:47",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":75,"owner_location":75,"owner_email":75,"owner_twitter":75,"owner_website":75,"owner_url":76,"languages":77,"stars":94,"forks":95,"last_commit_at":96,"license":97,"difficulty_score":10,"env_os":98,"env_gpu":99,"env_ram":100,"env_deps":101,"category_tags":107,"github_topics":109,"view_count":32,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":119,"updated_at":120,"faqs":121,"releases":154},4946,"RobotLocomotion\u002Fpytorch-dense-correspondence","pytorch-dense-correspondence","Code for \"Dense Object Nets:  Learning Dense Visual Object Descriptors By and For Robotic Manipulation\"","pytorch-dense-correspondence 是一个基于 PyTorch 的开源项目，旨在实现“密集对象网络”（Dense Object Nets）。它的核心功能是让机器人通过视觉学习，为物体表面的每一个像素点生成独特的描述符，从而建立精细的视觉对应关系。\n\n传统机器人视觉往往难以兼顾通用性与特异性：要么无法处理未见过的物体，要么难以适应可变形物体（如衣物、软体玩具），且通常依赖大量人工标注数据。pytorch-dense-correspondence 通过自监督学习机制解决了这一难题。它无需人工标记，仅需约 20 分钟即可针对全新物体完成训练，生成的描述符既适用于刚性物体，也能有效应对非刚性形变。这使得机器人能够精准抓取物体上的特定点位，甚至将抓取策略迁移到同类不同个体上。\n\n该项目特别适合机器人学研究人员、计算机视觉开发者以及从事机械臂操控算法工程的团队使用。其技术亮点在于构建了任务无关的通用物体表示，支持跨类别泛化与单实例区分两种模式，并提供了完整的 Docker 部署方案、数据处理流程及预训练模型库，极大降低了从理论验证到实际落地的门槛。无论是探索新型视觉表征，还是","pytorch-dense-correspondence 是一个基于 PyTorch 的开源项目，旨在实现“密集对象网络”（Dense Object Nets）。它的核心功能是让机器人通过视觉学习，为物体表面的每一个像素点生成独特的描述符，从而建立精细的视觉对应关系。\n\n传统机器人视觉往往难以兼顾通用性与特异性：要么无法处理未见过的物体，要么难以适应可变形物体（如衣物、软体玩具），且通常依赖大量人工标注数据。pytorch-dense-correspondence 通过自监督学习机制解决了这一难题。它无需人工标记，仅需约 20 分钟即可针对全新物体完成训练，生成的描述符既适用于刚性物体，也能有效应对非刚性形变。这使得机器人能够精准抓取物体上的特定点位，甚至将抓取策略迁移到同类不同个体上。\n\n该项目特别适合机器人学研究人员、计算机视觉开发者以及从事机械臂操控算法工程的团队使用。其技术亮点在于构建了任务无关的通用物体表示，支持跨类别泛化与单实例区分两种模式，并提供了完整的 Docker 部署方案、数据处理流程及预训练模型库，极大降低了从理论验证到实际落地的门槛。无论是探索新型视觉表征，还是开发灵活的抓取系统，它都是一个极具参考价值的基准实现。","### Updates \n\n- September 4, 2018: Tutorial and data now available!  [We have a tutorial now available here](.\u002Fdoc\u002Ftutorial_getting_started.md), which walks through step-by-step of getting this repo running.\n- June 26, 2019: We have updated the repo to pytorch 1.1 and CUDA 10. For code used for the experiments in the paper see [here](https:\u002F\u002Fgithub.com\u002FRobotLocomotion\u002Fpytorch-dense-correspondence\u002Freleases\u002Ftag\u002Fpytorch-0.3).\n\n\n## Dense Correspondence Learning in PyTorch\n\nIn this project we learn Dense Object Nets, i.e. dense descriptor networks for previously unseen, potentially deformable objects, and potentially classes of objects:\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRobotLocomotion_pytorch-dense-correspondence_readme_d614c692a03a.gif)  |  ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRobotLocomotion_pytorch-dense-correspondence_readme_9b1012a65d23.gif) | ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRobotLocomotion_pytorch-dense-correspondence_readme_9ede1573a758.gif)\n:-------------------------:|:-------------------------:|:-------------------------:\n\nWe also demonstrate using Dense Object Nets for robotic manipulation tasks:\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRobotLocomotion_pytorch-dense-correspondence_readme_edca7304bdf3.gif)  |  ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRobotLocomotion_pytorch-dense-correspondence_readme_7c4871d6807e.gif)\n:-------------------------:|:-------------------------:\n\n### Dense Object Nets: Learning Dense Visual Descriptors by and for Robotic Manipulation\n\nThis is the reference implementation for our paper:\n\n[PDF](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1806.08756.pdf) | [Video](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=L5UW1VapKNE)\n\n[Pete Florence*](http:\u002F\u002Fwww.peteflorence.com\u002F), [Lucas Manuelli*](http:\u002F\u002Flucasmanuelli.com\u002F), [Russ Tedrake](https:\u002F\u002Fgroups.csail.mit.edu\u002Flocomotion\u002Frusst.html)\n\n\u003Cem>\u003Cb>Abstract:\u003C\u002Fb>\u003C\u002Fem> What is the right object representation for manipulation? We would like robots to visually perceive scenes and learn an understanding of the objects in them that (i) is task-agnostic and can be used as a building block for a variety of manipulation tasks, (ii) is generally applicable to both rigid and non-rigid objects, (iii) takes advantage of the strong priors provided by 3D vision, and (iv) is entirely learned from self-supervision.  This is hard to achieve with previous methods: much recent work in grasping does not extend to grasping specific objects or other tasks, whereas task-specific learning may require many trials to generalize well across object configurations or other tasks.  In this paper we present Dense Object Nets, which build on recent developments in self-supervised dense descriptor learning, as a consistent object representation for visual understanding and manipulation. We demonstrate they can be trained quickly (approximately 20 minutes) for a wide variety of previously unseen and potentially non-rigid objects.  We additionally present novel contributions to enable multi-object descriptor learning, and show that by modifying our training procedure, we can either acquire descriptors which generalize across classes of objects, or descriptors that are distinct for each object instance. Finally, we demonstrate the novel application of learned dense descriptors to robotic manipulation. We demonstrate grasping of specific points on an object across potentially deformed object configurations, and demonstrate using class general descriptors to transfer specific grasps across objects in a class. \n\n#### Citing\n\nIf you find this code useful in your work, please consider citing:\n\n```\n@article{florencemanuelli2018dense,\n  title={Dense Object Nets: Learning Dense Visual Object Descriptors By and For Robotic Manipulation},\n  author={Florence, Peter and Manuelli, Lucas and Tedrake, Russ},\n  journal={Conference on Robot Learning},\n  year={2018}\n}\n```\n\n### Tutorial\n\n- [getting started with pytorch-dense-correspondence](.\u002Fdoc\u002Ftutorial_getting_started.md)\n\n### Code Setup\n\n- [setting up docker image](doc\u002Fdocker_build_instructions.md)\n- [recommended docker workflow ](doc\u002Frecommended_workflow.md)\n\n### Dataset\n\n- [data organization](doc\u002Fdata_organization.md)\n- [data pre-processing for a single scene](doc\u002Fdata_processing_single_scene.md)\n\n### Training and Evaluation\n- [training a network](doc\u002Ftraining.md)\n- [evaluating a trained network](doc\u002Fdcn_evaluation.md)\n- [pre-trained models](doc\u002Fmodel_zoo.md)\n\n### Miscellaneous\n- [coordinate conventions](doc\u002Fcoordinate_conventions.md)\n- [testing](doc\u002Ftesting.md)\n\n### Git management\n\nTo prevent the repo from growing in size, recommend always \"restart and clear outputs\" before committing any Jupyter notebooks.  If you'd like to save what your notebook looks like, you can always \"download as .html\", which is a great way to snapshot the state of that notebook and share.\n","### 更新\n\n- 2018年9月4日：教程和数据现已可用！[我们在此处提供了教程](.\u002Fdoc\u002Ftutorial_getting_started.md)，它将逐步指导您如何运行此仓库。\n- 2019年6月26日：我们已将仓库更新至 PyTorch 1.1 和 CUDA 10。有关论文中实验所用代码，请参阅[此处](https:\u002F\u002Fgithub.com\u002FRobotLocomotion\u002Fpytorch-dense-correspondence\u002Freleases\u002Ftag\u002Fpytorch-0.3)。\n\n\n## 在 PyTorch 中进行密集对应学习\n\n在该项目中，我们学习密集对象网络，即针对此前未见过的、可能具有形变的对象以及潜在的对象类别，构建密集描述符网络：\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRobotLocomotion_pytorch-dense-correspondence_readme_d614c692a03a.gif)  |  ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRobotLocomotion_pytorch-dense-correspondence_readme_9b1012a65d23.gif) | ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRobotLocomotion_pytorch-dense-correspondence_readme_9ede1573a758.gif)\n:-------------------------:|:-------------------------:|:-------------------------:\n\n我们还展示了如何将密集对象网络用于机器人操作任务：\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRobotLocomotion_pytorch-dense-correspondence_readme_edca7304bdf3.gif)  |  ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRobotLocomotion_pytorch-dense-correspondence_readme_7c4871d6807e.gif)\n:-------------------------:|:-------------------------:\n\n### 密集对象网络：为机器人操作而学习的密集视觉描述符\n\n这是我们论文的参考实现：\n\n[PDF](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1806.08756.pdf) | [视频](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=L5UW1VapKNE)\n\n[Pete Florence*](http:\u002F\u002Fwww.peteflorence.com\u002F)、[Lucas Manuelli*](http:\u002F\u002Flucasmanuelli.com\u002F)、[Russ Tedrake](https:\u002F\u002Fgroups.csail.mit.edu\u002Flocomotion\u002Frusst.html)\n\n\u003Cem>\u003Cb>摘要：\u003C\u002Fb>\u003C\u002Fem> 对于操作任务而言，合适的目标表征是什么？我们希望机器人能够视觉感知场景，并学习对其中物体的理解，这种理解应具备以下特性：(i) 不依赖于具体任务，可作为多种操作任务的构建模块；(ii) 既适用于刚性物体，也适用于非刚性物体；(iii) 充分利用三维视觉提供的强大先验信息；(iv) 完全通过自监督学习获得。然而，以往的方法难以实现这些目标：近期许多抓取相关的工作无法推广到特定物体或其他任务上，而针对特定任务的学习则可能需要大量尝试才能在不同物体构型或任务间良好泛化。在本文中，我们提出了密集对象网络，该方法基于近期自监督密集描述符学习的进展，作为一种一致的对象表征，用于视觉理解和操作任务。我们证明，对于各种此前未见且可能具有形变的物体，只需约20分钟即可快速训练出相应的描述符。此外，我们还提出了支持多物体描述符学习的新方法，并表明通过调整训练流程，我们可以分别获取跨类别的通用描述符，或为每个物体实例生成独特的描述符。最后，我们展示了将学习到的密集描述符应用于机器人操作的新方式：我们实现了在可能发生形变的物体构型下对特定点的抓取，并利用类别通用描述符在同类物体之间迁移特定抓取策略。\n\n#### 引用\n\n如果您在工作中使用了本代码，请考虑引用：\n\n```\n@article{florencemanuelli2018dense,\n  title={Dense Object Nets: Learning Dense Visual Object Descriptors By and For Robotic Manipulation},\n  author={Florence, Peter and Manuelli, Lucas and Tedrake, Russ},\n  journal={Conference on Robot Learning},\n  year={2018}\n}\n```\n\n### 教程\n\n- [PyTorch 密集对应入门](.\u002Fdoc\u002Ftutorial_getting_started.md)\n\n### 代码设置\n\n- [搭建 Docker 镜像](doc\u002Fdocker_build_instructions.md)\n- [推荐的 Docker 工作流](doc\u002Frecommended_workflow.md)\n\n### 数据集\n\n- [数据组织](doc\u002Fdata_organization.md)\n- [单场景数据预处理](doc\u002Fdata_processing_single_scene.md)\n\n### 训练与评估\n\n- [训练网络](doc\u002Ftraining.md)\n- [评估训练好的网络](doc\u002Fdcn_evaluation.md)\n- [预训练模型](doc\u002Fmodel_zoo.md)\n\n### 其他\n\n- [坐标系约定](doc\u002Fcoordinate_conventions.md)\n- [测试](doc\u002Ftesting.md)\n\n### Git 管理\n\n为防止仓库体积不断增大，建议在提交任何 Jupyter 笔记本之前，始终执行“重启并清除输出”操作。如果您希望保存笔记本当前的状态，可以将其“导出为 .html”，这是一种很好的方式来记录笔记本的当前状态并分享。","# pytorch-dense-correspondence 快速上手指南\n\n本指南帮助中国开发者快速部署并使用 **pytorch-dense-correspondence**，用于学习密集对象网络（Dense Object Nets），实现对未见过的刚性或非刚性物体的视觉描述符学习及机器人抓取任务。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 16.04\u002F18.04)\n*   **GPU**: 支持 CUDA 的 NVIDIA 显卡\n*   **核心依赖**:\n    *   Docker (官方推荐使用 Docker 容器化部署，避免环境冲突)\n    *   NVIDIA Docker Toolkit (nvidia-docker2)\n*   **软件版本**:\n    *   PyTorch 1.1+\n    *   CUDA 10+\n    *   *注：若需复现论文原始实验代码，请使用 PyTorch 0.3 版本分支。*\n\n> **提示**：国内用户建议在安装 Docker 时配置阿里云或中科大镜像加速器，以加快镜像拉取速度。\n\n## 安装步骤\n\n本项目强烈建议使用 Docker 进行部署，以确保依赖一致性。\n\n### 1. 克隆仓库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FRobotLocomotion\u002Fpytorch-dense-correspondence.git\ncd pytorch-dense-correspondence\n```\n\n### 2. 构建 Docker 镜像\n进入项目根目录，执行以下命令构建包含所有依赖的 Docker 镜像：\n```bash\ndocker build -t pdc-env .\n```\n*如果构建过程中下载缓慢，请检查是否已配置 Docker 国内镜像源。*\n\n### 3. 启动容器\n使用以下命令启动容器并挂载当前代码目录：\n```bash\ndocker run --gpus all -it --rm -v $(pwd):\u002Fworkspace pdc-env bash\n```\n\n### 4. 数据准备（可选）\n若在容器外预处理数据，请参考 `doc\u002Fdata_organization.md` 组织数据结构。对于单场景数据预处理，可参考：\n```bash\n# 在容器内运行示例（具体参数需根据实际数据调整）\npython scripts\u002Fpreprocess_single_scene.py --scene_path \u002Fpath\u002Fto\u002Fscene\n```\n\n## 基本使用\n\n以下是训练和评估网络的最简流程。\n\n### 1. 训练网络\n使用默认配置训练一个密集描述符网络。确保数据路径已在配置文件或命令行参数中正确指定：\n```bash\npython train.py --config_name default_config\n```\n*训练时间：对于单个新物体，通常仅需约 20 分钟即可完成训练。*\n\n### 2. 评估模型\n训练完成后，使用以下命令评估模型性能：\n```bash\npython eval.py --config_name default_config --checkpoint_path \u002Fpath\u002Fto\u002Fcheckpoint.pth\n```\n\n### 3. 使用预训练模型\n如果您不想从头训练，可以直接下载官方提供的预训练模型（Model Zoo）：\n*   访问 `doc\u002Fmodel_zoo.md` 获取模型下载链接。\n*   将下载的 `.pth` 文件放入指定目录，并通过 `--checkpoint_path` 参数加载即可进行推理或微调。\n\n### 4. 可视化与调试\n项目包含 Jupyter Notebook 用于可视化结果。在提交代码前，请务必执行 **\"Restart and Clear Outputs\"** 以防止仓库体积过大。如需保存运行结果，建议导出为 HTML：\n```bash\n# 在 Jupyter 界面中选择 File -> Download as -> HTML (.html)\n```\n\n---\n*更多详细教程（包括数据组织规范、坐标约定及高级训练技巧）请参阅项目 `doc\u002F` 目录下的完整文档。*","某智能仓储团队正致力于让机械臂在杂乱环境中精准抓取特定类型的柔性商品（如不同款式的鞋子或毛绒玩具），以完成自动分拣任务。\n\n### 没有 pytorch-dense-correspondence 时\n- **泛化能力差**：针对每一款新上架的鞋子都需要重新采集大量数据并训练专用模型，无法将“抓鞋舌”的策略迁移到其他款式的鞋子上。\n- **抗形变能力弱**：传统基于刚体假设的算法在面对被挤压变形的毛绒玩具时，无法准确识别预设抓取点，导致抓取失败率高。\n- **开发周期长**：为每个新物体类别标注关键点并调试任务特定策略耗时数周，严重拖慢了新品的上线速度。\n- **依赖人工规则**：需要工程师手动编写复杂的几何规则来定义抓取位姿，难以应对物体姿态的随机变化。\n\n### 使用 pytorch-dense-correspondence 后\n- **跨实例策略迁移**：利用其学习到的稠密描述符，机械臂只需在一个样本上学会“抓鞋舌”，即可自动将该技能泛化到从未见过的同类鞋子上。\n- **鲁棒处理形变**：算法专为非刚性物体设计，即使毛绒玩具被随意堆叠挤压，仍能通过语义一致性精准定位目标抓取点。\n- **快速自监督训练**：无需繁琐的人工关键点标注，仅需约 20 分钟即可利用自监督学习完成新物体类别的模型训练。\n- **任务无关表征**：生成的视觉描述符是通用的底层特征，可直接作为构建抓取、放置等多种操作任务的基础模块，无需重复造轮子。\n\npytorch-dense-correspondence 通过将视觉感知与操作任务深度解耦，实现了机器人对未知及柔性物体的“举一反三”，极大降低了自动化部署的门槛与成本。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRobotLocomotion_pytorch-dense-correspondence_d614c692.gif","RobotLocomotion","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FRobotLocomotion_b757b468.jpg",null,"https:\u002F\u002Fgithub.com\u002FRobotLocomotion",[78,82,86,90],{"name":79,"color":80,"percentage":81},"Python","#3572A5",69.1,{"name":83,"color":84,"percentage":85},"Jupyter Notebook","#DA5B0B",30.2,{"name":87,"color":88,"percentage":89},"Shell","#89e051",0.5,{"name":91,"color":92,"percentage":93},"Dockerfile","#384d54",0.3,575,134,"2026-03-17T16:22:36","NOASSERTION","Linux","需要 NVIDIA GPU，具体型号和显存未说明，需支持 CUDA 10","未说明",{"notes":102,"python":103,"dependencies":104},"官方推荐使用 Docker 容器进行部署（提供了构建指令和工作流文档）。代码库已更新至 PyTorch 1.1 和 CUDA 10，若需复现论文原始实验代码，需使用 PyTorch 0.3 版本。项目包含 Jupyter Notebook 教程，建议在提交前清除输出以保持仓库轻量。","未说明 (基于 PyTorch 1.1 环境)",[105,106],"pytorch==1.1","docker",[108,14,15],"其他",[110,111,112,113,114,115,116,117,118],"pytorch","robotics","manipulation","computer-vision","deep-learning","3d","vision","artificial-intelligence","self-supervised-learning","2026-03-27T02:49:30.150509","2026-04-11T16:58:01.298114",[122,127,131,136,141,145,150],{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},22457,"入门教程无法运行，出现模块导入错误或依赖问题怎么办？","确保在每个 Notebook 的开头运行 `add_dense_correspondence_to_python_path()` 函数。这是为了解决模块缺少 \"modules.x\" 前缀导致导入失败的问题。该函数会将 dense_correspondence 添加到 Python 路径中。如果仍然报错，请检查是否已正确下载数据，例如运行命令：`python config\u002Fdownload_pdc_data.py config\u002Fdense_correspondence\u002Fdataset\u002Fcomposite\u002Fcaterpillar_only.yaml`。","https:\u002F\u002Fgithub.com\u002FRobotLocomotion\u002Fpytorch-dense-correspondence\u002Fissues\u002F192",{"id":128,"question_zh":129,"answer_zh":130,"source_url":126},22458,"训练或评估时提示找不到场景名称（scene_name doesn't exist）或模型文件（.pth 文件不存在）？","这通常是因为默认配置中的迭代次数与实际生成的模型文件不匹配。例如，错误提示找不到 `003500.pth`，但目录下只有 `000201.pth`。解决方法是确认代码或 Notebook 中硬编码的迭代次数（如 3500），并确保实际训练达到了该迭代次数，或者修改代码以加载实际存在的模型文件（如第 201 次迭代的文件）。此外，请确保已运行数据下载脚本获取完整的数据集。",{"id":132,"question_zh":133,"answer_zh":134,"source_url":135},22459,"运行时出现 TensorFlow 错误：'The TensorFlow library was compiled to use AVX instructions, but these aren't available on your machine' 导致内核崩溃？","这是一个 CPU 兼容性问题。错误表明安装的 TensorFlow 库编译时启用了 AVX 指令集，但您的 CPU 不支持该指令集（例如较旧的 Intel Core i5-760）。虽然该项目主要基于 PyTorch，但 Docker 镜像中可能预装了 TensorFlow 作为其他依赖项。解决方法包括：1. 更换支持 AVX 指令集的较新 CPU；2. 尝试从源码编译适配您 CPU 的 TensorFlow 版本；3. 如果不需要 TensorFlow 功能，尝试修改环境配置移除相关依赖（需自行验证是否影响其他功能）。","https:\u002F\u002Fgithub.com\u002FRobotLocomotion\u002Fpytorch-dense-correspondence\u002Fissues\u002F186",{"id":137,"question_zh":138,"answer_zh":139,"source_url":140},22460,"项目没有人工标注，训练时的匹配（matches）和非匹配（non-matches）数据是如何生成的？","匹配和非匹配数据是通过算法自动生成的，无需人工标注。具体原理和实现细节请参考论文附录的 C 章节（Section C of the Appendix in the paper）。该方法利用渲染引擎和物体网格模型，通过计算像素级的对应关系来自动生成训练所需的正负样本对。","https:\u002F\u002Fgithub.com\u002FRobotLocomotion\u002Fpytorch-dense-correspondence\u002Fissues\u002F201",{"id":142,"question_zh":143,"answer_zh":144,"source_url":140},22461,"Dense Object Nets 如何确定机器人抓取物体的方向（orientation）？仅靠描述符距离能找到点，但如何知道夹爪的角度？","Dense Object Nets 主要用于建立像素级的语义对应关系（即找到物体上相同的点），它本身不直接输出抓取姿态（如旋转角度）。抓取方向的确定通常需要结合额外的几何信息或后处理算法。例如，在找到对应点后，可以利用物体的 3D 网格模型（Mesh）、表面法线信息，或者结合传统的抓取检测算法来计算合适的夹爪朝向（如保持与桌面平行）。论文和代码库中关于抓取的具体实现部分提供了更多上下文。",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},22462,"构建 Docker 镜像时下载 director 二进制文件失败（403 Forbidden）怎么办？","此前由于 bintray 服务器暂时不可用导致下载失败（HTTP 403 错误）。目前该服务器已恢复正常运行。如果再次遇到此问题，请检查网络连接，或查看项目仓库的最新提交，确认下载链接是否有更新。该二进制文件主要用于背景减法（background subtraction）等功能模块。","https:\u002F\u002Fgithub.com\u002FRobotLocomotion\u002Fpytorch-dense-correspondence\u002Fissues\u002F171",{"id":151,"question_zh":152,"answer_zh":153,"source_url":126},22463,"如何理解描述符图像（descriptor images）和跨物体损失（cross-object loss）的概念？","描述符图像是将输入图像的每个像素映射到一个高维向量空间的结果，空间中距离越近的点表示语义越相似（即属于物体的同一部位）。跨物体损失（cross-object loss）是一种训练策略，旨在让网络学习到的描述符在不同实例甚至不同类别的物体之间具有泛化性，而不仅仅是记忆特定物体的外观。通过这种损失函数，网络能够识别出不同物体上功能相同的部位（如不同杯子的把手）。建议阅读相关论文的实验部分以获取更直观的可视化解释。",[155],{"id":156,"version":157,"summary_zh":158,"released_at":159},136179,"pytorch-0.3","论文中用于生成结果的代码版本\n\n```\r\n@article{florencemanuelli2018dense,\r\n  title={密集物体网络：为机器人操作而学习的密集视觉物体描述符},\r\n  author={弗洛伦斯，彼得；马努埃利，卢卡斯；泰德拉克，拉塞尔},\r\n  journal={机器人学习会议},\r\n  year={2018}\r\n}\r\n```","2019-06-06T14:58:53"]