[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-w86763777--pytorch-ddpm":3,"tool-w86763777--pytorch-ddpm":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",144730,2,"2026-04-07T23:26:32",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":78,"owner_twitter":79,"owner_website":79,"owner_url":80,"languages":81,"stars":86,"forks":87,"last_commit_at":88,"license":89,"difficulty_score":10,"env_os":90,"env_gpu":91,"env_ram":90,"env_deps":92,"category_tags":99,"github_topics":100,"view_count":32,"oss_zip_url":79,"oss_zip_packed_at":79,"status":17,"created_at":104,"updated_at":105,"faqs":106,"releases":147},5272,"w86763777\u002Fpytorch-ddpm","pytorch-ddpm","Unofficial PyTorch implementation of Denoising Diffusion Probabilistic Models","pytorch-ddpm 是去噪扩散概率模型（DDPM）的非官方 PyTorch 实现，旨在帮助开发者更轻松地理解和复现这一前沿生成式 AI 技术。它基于原始的 TensorFlow 版本进行移植，严格遵循论文细节，同时采用地道的 PyTorch 代码风格，让熟悉 PyTorch 的用户能直观掌握每一步实现逻辑。\n\n该工具主要解决了研究人员和工程师在尝试复现 DDPM 时面临的框架转换困难与代码理解门槛问题。通过提供清晰的训练与评估流程，它支持从零开始在 CIFAR-10 等数据集上训练模型，并已成功复现出高质量的实验结果（FID 低至 3.249）。此外，它还内置了多 GPU 训练与评估功能，显著提升了大规模实验的效率。\n\npytorch-ddpm 特别适合 AI 研究人员、深度学习开发者以及希望深入探索扩散模型原理的学生使用。对于想要快速上手扩散模型项目或将其作为基准进行改进的团队，这是一个极具参考价值的开源起点。虽然目前对数据集的支持主要集中在 CIFAR-10，但其模块化设计为后续扩展留下了充足空间。","# Denoising Diffusion Probabilistic Models\n\nUnofficial PyTorch implementation of Denoising Diffusion Probabilistic Models [1].\n\nThis implementation follows the most of details in official TensorFlow\nimplementation [2]. I use PyTorch coding style to port [2] to PyTorch and hope\nthat anyone who is familiar with PyTorch can easily understand every\nimplementation details.\n\n## TODO\n- Datasets\n    - [x] Support CIFAR10\n    - [ ] Support LSUN\n    - [ ] Support CelebA-HQ\n- Featurex\n    - [ ] Gradient accumulation\n    - [x] Multi-GPU training\n- Reproducing Experiment\n    - [x] CIFAR10\n\n## Requirements\n- Python 3.6\n- Packages\n    Upgrade pip for installing latest tensorboard\n    ```\n    pip install -U pip setuptools\n    pip install -r requirements.txt\n    ```\n- Download precalculated statistic for dataset:\n\n    [cifar10.train.npz](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1UBdzl6GtNMwNQ5U-4ESlIer43tNjiGJC?usp=sharing)\n\n    Create folder `stats` for `cifar10.train.npz`.\n    ```\n    stats\n    └── cifar10.train.npz\n    ```\n\n## Train From Scratch\n- Take CIFAR10 for example:\n    ```\n    python main.py --train \\\n        --flagfile .\u002Fconfig\u002FCIFAR10.txt\n    ```\n- [Optional] Overwrite arguments\n    ```\n    python main.py --train \\\n        --flagfile .\u002Fconfig\u002FCIFAR10.txt \\\n        --batch_size 64 \\\n        --logdir .\u002Fpath\u002Fto\u002Flogdir\n    ```\n- [Optional] Select GPU IDs\n    ```\n    CUDA_VISIBLE_DEVICES=1 python main.py --train \\\n        --flagfile .\u002Fconfig\u002FCIFAR10.txt\n    ```\n- [Optional] Multi-GPU training\n    ```\n    CUDA_VISIBLE_DEVICES=0,1,2,3 python main.py --train \\\n        --flagfile .\u002Fconfig\u002FCIFAR10.txt \\\n        --parallel\n    ```\n\n## Evaluate\n- A `flagfile.txt` is autosaved to your log directory. The default logdir for `config\u002FCIFAR10.txt` is `.\u002Flogs\u002FDDPM_CIFAR10_EPS`\n- Start evaluation\n    ```\n    python main.py \\\n        --flagfile .\u002Flogs\u002FDDPM_CIFAR10_EPS\u002Fflagfile.txt \\\n        --notrain \\\n        --eval\n    ```\n- [Optional] Multi-GPU evaluation\n    ```\n    CUDA_VISIBLE_DEVICES=0,1,2,3 python main.py \\\n        --flagfile .\u002Flogs\u002FDDPM_CIFAR10_EPS\u002Fflagfile.txt \\\n        --notrain \\\n        --eval \\\n        --parallel\n    ```\n\n\n## Reproducing Experiment\n\n### CIFAR10\n- FID: 3.249, Inception Score: 9.475(0.174)\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fw86763777_pytorch-ddpm_readme_485dbae3535f.png)\n\nThe checkpoint can be downloaded from my [drive](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1IhdFcdNZJRosi3XRT7-qNmiPGTuyuEXr\u002Fview?usp=sharing).\n\n## Reference\n\n[1] [Denoising Diffusion Probabilistic Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2006.11239)\n\n[2] [Official TensorFlow implementation](https:\u002F\u002Fgithub.com\u002Fhojonathanho\u002Fdiffusion)\n","# 去噪扩散概率模型\n\n去噪扩散概率模型的非官方 PyTorch 实现 [1]。\n\n该实现尽可能地遵循了官方 TensorFlow 实现 [2] 的细节。我采用了 PyTorch 风格的代码编写方式，将 [2] 移植到 PyTorch 中，希望熟悉 PyTorch 的开发者能够轻松理解每个实现细节。\n\n## 待办事项\n- 数据集\n  - [x] 支持 CIFAR10\n  - [ ] 支持 LSUN\n  - [ ] 支持 CelebA-HQ\n- 功能扩展\n  - [ ] 梯度累积\n  - [x] 多 GPU 训练\n- 实验复现\n  - [x] CIFAR10\n\n## 环境要求\n- Python 3.6\n- 安装依赖包\n  为了安装最新版本的 TensorBoard，请先升级 pip：\n  ```\n  pip install -U pip setuptools\n  pip install -r requirements.txt\n  ```\n- 下载数据集的预计算统计信息：\n\n  [cifar10.train.npz](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1UBdzl6GtNMwNQ5U-4ESlIer43tNjiGJC?usp=sharing)\n\n  在项目目录下创建 `stats` 文件夹，并将 `cifar10.train.npz` 放入其中：\n  ```\n  stats\n  └── cifar10.train.npz\n  ```\n\n## 从头开始训练\n- 以 CIFAR10 为例：\n  ```\n  python main.py --train \\\n      --flagfile .\u002Fconfig\u002FCIFAR10.txt\n  ```\n- [可选] 覆盖默认参数：\n  ```\n  python main.py --train \\\n      --flagfile .\u002Fconfig\u002FCIFAR10.txt \\\n      --batch_size 64 \\\n      --logdir .\u002Fpath\u002Fto\u002Flogdir\n  ```\n- [可选] 选择 GPU ID：\n  ```\n  CUDA_VISIBLE_DEVICES=1 python main.py --train \\\n      --flagfile .\u002Fconfig\u002FCIFAR10.txt\n  ```\n- [可选] 多 GPU 训练：\n  ```\n  CUDA_VISIBLE_DEVICES=0,1,2,3 python main.py --train \\\n      --flagfile .\u002Fconfig\u002FCIFAR10.txt \\\n      --parallel\n  ```\n\n## 评估\n- 一个 `flagfile.txt` 文件会自动保存到你的日志目录中。对于 `config\u002FCIFAR10.txt`，默认的日志目录是 `.\u002Flogs\u002FDDPM_CIFAR10_EPS`。\n- 开始评估：\n  ```\n  python main.py \\\n      --flagfile .\u002Flogs\u002FDDPM_CIFAR10_EPS\u002Fflagfile.txt \\\n      --notrain \\\n      --eval\n  ```\n- [可选] 多 GPU 评估：\n  ```\n  CUDA_VISIBLE_DEVICES=0,1,2,3 python main.py \\\n      --flagfile .\u002Flogs\u002FDDPM_CIFAR10_EPS\u002Fflagfile.txt \\\n      --notrain \\\n      --eval \\\n      --parallel\n  ```\n\n## 实验复现\n\n### CIFAR10\n- FID: 3.249，Inception Score: 9.475(0.174)\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fw86763777_pytorch-ddpm_readme_485dbae3535f.png)\n\n检查点可以从我的 [Google Drive](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1IhdFcdNZJRosi3XRT7-qNmiPGTuyuEXr\u002Fview?usp=sharing) 下载。\n\n## 参考文献\n\n[1] [Denoising Diffusion Probabilistic Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2006.11239)\n\n[2] [官方 TensorFlow 实现](https:\u002F\u002Fgithub.com\u002Fhojonathanho\u002Fdiffusion)","# pytorch-ddpm 快速上手指南\n\n本指南基于非官方的 PyTorch 实现，帮助开发者快速复现去噪扩散概率模型（DDPM）。\n\n## 环境准备\n\n- **操作系统**：Linux \u002F macOS \u002F Windows\n- **Python 版本**：3.6 及以上\n- **硬件要求**：支持 CUDA 的 NVIDIA GPU（推荐用于训练和多卡加速）\n- **前置依赖**：\n  - `pip` 和 `setuptools`（需更新至最新版以支持最新 TensorBoard）\n  - 项目依赖包（见 `requirements.txt`）\n\n## 安装步骤\n\n1. **更新 pip 并安装依赖**\n   ```bash\n   pip install -U pip setuptools\n   pip install -r requirements.txt\n   ```\n   > 💡 **国内加速建议**：如遇下载缓慢，可添加清华或阿里镜像源：\n   > ```bash\n   > pip install -U pip setuptools -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n   > pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n   > ```\n\n2. **准备数据集统计文件**\n   - 下载预计算的统计文件：[cifar10.train.npz](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1UBdzl6GtNMwNQ5U-4ESlIer43tNjiGJC?usp=sharing)\n   - 在项目根目录创建 `stats` 文件夹，并将文件放入其中：\n     ```text\n     stats\n     └── cifar10.train.npz\n     ```\n   > 💡 **注意**：若无法访问 Google Drive，请自行寻找国内网盘搬运资源或通过科研协作渠道获取。\n\n## 基本使用\n\n以下以 CIFAR10 数据集为例，展示最基础的训练与评估流程。\n\n### 1. 从头开始训练\n\n使用默认配置启动训练：\n```bash\npython main.py --train \\\n    --flagfile .\u002Fconfig\u002FCIFAR10.txt\n```\n\n**可选参数示例**：\n- 自定义批次大小和日志路径：\n  ```bash\n  python main.py --train \\\n      --flagfile .\u002Fconfig\u002FCIFAR10.txt \\\n      --batch_size 64 \\\n      --logdir .\u002Fpath\u002Fto\u002Flogdir\n  ```\n- 指定单张 GPU：\n  ```bash\n  CUDA_VISIBLE_DEVICES=1 python main.py --train \\\n      --flagfile .\u002Fconfig\u002FCIFAR10.txt\n  ```\n- 多卡并行训练：\n  ```bash\n  CUDA_VISIBLE_DEVICES=0,1,2,3 python main.py --train \\\n      --flagfile .\u002Fconfig\u002FCIFAR10.txt \\\n      --parallel\n  ```\n\n### 2. 模型评估\n\n训练完成后，系统会自动在日志目录（默认为 `.\u002Flogs\u002FDDPM_CIFAR10_EPS`）保存 `flagfile.txt`。\n\n启动评估：\n```bash\npython main.py \\\n    --flagfile .\u002Flogs\u002FDDPM_CIFAR10_EPS\u002Fflagfile.txt \\\n    --notrain \\\n    --eval\n```\n\n**多卡评估**：\n```bash\nCUDA_VISIBLE_DEVICES=0,1,2,3 python main.py \\\n    --flagfile .\u002Flogs\u002FDDPM_CIFAR10_EPS\u002Fflagfile.txt \\\n    --notrain \\\n    --eval \\\n    --parallel\n```\n\n> 📌 **预训练模型**：如需直接测试效果，可下载作者提供的 [CIFAR10 检查点](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1IhdFcdNZJRosi3XRT7-qNmiPGTuyuEXr\u002Fview?usp=sharing) 放入对应日志目录后进行评估。","某计算机视觉初创团队正致力于开发一款基于生成式 AI 的素材扩充工具，旨在为游戏项目自动合成高质量的纹理贴图，但受限于昂贵的算力资源和复杂的模型复现难度。\n\n### 没有 pytorch-ddpm 时\n- **框架迁移成本高**：团队熟悉 PyTorch 生态，但扩散模型的官方参考实现基于 TensorFlow，跨框架重写底层去噪逻辑耗时且易出错。\n- **多卡训练门槛高**：缺乏现成的多 GPU 并行训练支持，导致在有限硬件上训练 CIFAR10 级别的数据集效率极低，迭代周期长达数周。\n- **实验复现困难**：缺少预计算的统计文件和标准化的配置文件，难以快速验证算法效果，无法确定是代码问题还是超参数设置不当。\n- **评估流程繁琐**：手动搭建 FID（Fréchet Inception Distance）和 Inception Score 评估管线复杂，难以量化生成图像的真实质量。\n\n### 使用 pytorch-ddpm 后\n- **原生 PyTorch 体验**：直接利用符合 PyTorch 编码风格的实现，团队成员无需学习 TensorFlow 即可深入理解并修改去噪概率模型细节。\n- **高效并行加速**：通过简单的 `--parallel` 参数即可启动多 GPU 训练，显著缩短模型收敛时间，将原本数周的实验周期压缩至数天。\n- **一键复现基准**：直接下载预计算的统计文件并使用提供的 config 配置，迅速复现出 FID 3.249 的 SOTA 结果，确立了可靠的性能基线。\n- **标准化评估体系**：内置完整的评估脚本，仅需一行命令即可输出专业的质量指标，帮助团队快速筛选出最优模型版本。\n\npytorch-ddpm 通过提供原生、高效且可复现的 PyTorch 实现，让研发团队得以跳过繁琐的基础设施搭建，专注于扩散模型在垂直领域的创新应用。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fw86763777_pytorch-ddpm_485dbae3.png","w86763777","Yi-Lun Wu","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fw86763777_24b3afb0.jpg","EE Ph.D. student @ NYCU","NYCU","Hsinchu, Taiwan","yilun.ee08@nycu.edu.tw",null,"https:\u002F\u002Fgithub.com\u002Fw86763777",[82],{"name":83,"color":84,"percentage":85},"Python","#3572A5",100,642,76,"2026-04-01T08:22:42","WTFPL","未说明","训练和评估支持多 GPU (Multi-GPU)，需通过 CUDA_VISIBLE_DEVICES 指定。具体显卡型号、显存大小及 CUDA 版本未在文档中明确说明，但隐含需要支持 CUDA 的 NVIDIA GPU。",{"notes":93,"python":94,"dependencies":95},"1. 安装前需升级 pip 和 setuptools 以获取最新版 tensorboard。\n2. 必须手动下载 CIFAR10 数据集的预计算统计文件 (cifar10.train.npz) 并放入 stats 文件夹。\n3. 支持使用 --parallel 参数进行多 GPU 训练和评估。\n4. 该实现基于官方 TensorFlow 版本移植，旨在保持 PyTorch 代码风格以便理解。","3.6",[96,97,98],"torch (PyTorch)","tensorboard","其他依赖见 requirements.txt",[14],[101,102,103],"pytorch","ddpm","reproducible","2026-03-27T02:49:30.150509","2026-04-08T07:44:44.273236",[107,112,117,122,127,132,137,142],{"id":108,"question_zh":109,"answer_zh":110,"source_url":111},23899,"为什么评估 FID 分数时结果很差（例如 70）或出现 NaN？","这通常是因为采样图片数量不足或计算后端设置问题。首先，评估需要足够的样本量（如 50k），减少到 500 会导致分数显著变差。其次，如果在代码中设置了 `fid_use_torch` 为 `True`，由于矩阵平方根实现的不稳定性，可能会导致计算出 \"nan\" 值。建议将 `fid_use_torch` 设置为 `False` 以避免此问题，同时不会显著影响计算速度。","https:\u002F\u002Fgithub.com\u002Fw86763777\u002Fpytorch-ddpm\u002Fissues\u002F17",{"id":113,"question_zh":114,"answer_zh":115,"source_url":116},23900,"如何复现论文中的低 FID 分数（如 3.17），为什么我的结果略高？","获得更低的 FID 分数（如从 3.21 降至 3.17）通常需要多次运行评估取最佳结果。此外，官方实现中使用了一个未在原论文中明确提及的常见技巧：指数移动平均（EMA）。应用 EMA 操作有助于提升生成图像的质量并降低 FID 分数。你可以参考官方 DDPM 实现中的 EMA 代码逻辑来应用此技巧。","https:\u002F\u002Fgithub.com\u002Fw86763777\u002Fpytorch-ddpm\u002Fissues\u002F22",{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},23901,"在 CPU 上计算 FID 分数非常慢，有加速方法吗？","FID 计算在 CPU 上确实非常耗时，尤其是当样本量大时。虽然项目维护者已转向其他模型（如 DDIM），但对于当前项目，如果拥有多核 CPU 的高性能计算环境（HPC），可以利用并行处理能力。另外，确保在生成图像阶段使用 GPU 加速，仅在最后统计阶段使用 CPU。如果可能，检查是否可以将部分计算后端切换以避免纯 CPU 瓶颈，或者接受较长的等待时间。","https:\u002F\u002Fgithub.com\u002Fw86763777\u002Fpytorch-ddpm\u002Fissues\u002F15",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},23902,"训练损失收敛过快（如在 0.04 左右）是否正常？","这是正常现象。维护者确认在使用默认超参数和不同随机种子进行实验时，都会观察到类似的快速收敛结果。为了验证模型效果，可以参考不同训练步数（如 10k, 50k, 100k）生成的示例图像，而不是单纯依赖损失数值。","https:\u002F\u002Fgithub.com\u002Fw86763777\u002Fpytorch-ddpm\u002Fissues\u002F1",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},23903,"训练初期生成的图像质量很差或看起来不对，是配置错误吗？","这通常不是配置错误，而是训练迭代次数不足导致的。默认配置下，仅训练 15k 步可能无法生成高质量图像。建议继续增加训练迭代次数，随着训练步数的增加，生成结果会逐渐恢复正常并变得清晰。","https:\u002F\u002Fgithub.com\u002Fw86763777\u002Fpytorch-ddpm\u002Fissues\u002F4",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},23904,"在单张显卡上评估 FID 需要花费很长时间（如 17 小时），这正常吗？","是的，这是正常的。对于原始的 DDPM 模型，在单张 GPU（如 2080TI）上采样 50,000 张图像用于 CIFAR10 数据集的 FID 评估，确实需要耗费约 17 小时甚至更久。这是模型本身的特性决定的，并非代码错误。","https:\u002F\u002Fgithub.com\u002Fw86763777\u002Fpytorch-ddpm\u002Fissues\u002F19",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},23905,"README 中展示的样本图片是生成的还是直接从数据集中复制的？","README 中展示的所有样本图片均由训练好的 DDPM 模型生成，并非直接从 CIFAR10 数据集中复制或重现的。","https:\u002F\u002Fgithub.com\u002Fw86763777\u002Fpytorch-ddpm\u002Fissues\u002F11",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},23906,"如何使用自定义数据集进行训练？需要修改哪些代码？","你需要编写一个自定义的 PyTorch Dataset 类来加载你的数据。然后，修改 `main.py` 文件中第 97 行左右的代码，将默认数据集替换为你自定义的 Dataset。此外，如果你的图像尺寸不是 32x32，还需要修改 `model.py` 文件以适配新的输入尺寸。","https:\u002F\u002Fgithub.com\u002Fw86763777\u002Fpytorch-ddpm\u002Fissues\u002F10",[]]