[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-NVIDIA--CUDALibrarySamples":3,"tool-NVIDIA--CUDALibrarySamples":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",141543,2,"2026-04-06T11:32:54",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":77,"owner_email":77,"owner_twitter":77,"owner_website":78,"owner_url":79,"languages":80,"stars":120,"forks":121,"last_commit_at":122,"license":123,"difficulty_score":124,"env_os":125,"env_gpu":126,"env_ram":125,"env_deps":127,"category_tags":140,"github_topics":142,"view_count":32,"oss_zip_url":77,"oss_zip_packed_at":77,"status":17,"created_at":158,"updated_at":159,"faqs":160,"releases":190},4642,"NVIDIA\u002FCUDALibrarySamples","CUDALibrarySamples","CUDA Library Samples","CUDALibrarySamples 是 NVIDIA 官方提供的一套开源示例集合，旨在帮助开发者快速上手各类 GPU 加速库。它通过提供大量可直接运行的代码案例，展示了如何利用 CUDA 生态中的高性能库来解决数学运算、图像处理、信号分析、线性代数及数据压缩等领域的计算难题。\n\n对于需要提升程序运行效率的软件开发者和科研人员来说，这套资源极具价值。它有效降低了学习门槛，让用户无需从零开始摸索复杂的底层 API，而是能直接参考最佳实践，将成熟的加速技术集成到自己的项目中。无论是处理大规模矩阵运算、快速傅里叶变换，还是进行图像编解码与随机数生成，这里都能找到对应的实现思路。\n\n其核心亮点在于覆盖范围极广且分类细致，不仅包含经典的 cuBLAS、cuFFT、cuSPARSE 等基础库，还涵盖了面向张量计算的 cuTENSOR、多进程加速版本（如 cuBLASMp）以及设备端扩展（如 cuFFTDx）等前沿特性。每个示例都紧扣实际应用场景，直观展现了 GPU 并行计算的强大灵活性。如果你正在从事高性能计算相关的工作，CUDALibrarySamples 将是你探索和优化 GPU 应用不可或缺","CUDALibrarySamples 是 NVIDIA 官方提供的一套开源示例集合，旨在帮助开发者快速上手各类 GPU 加速库。它通过提供大量可直接运行的代码案例，展示了如何利用 CUDA 生态中的高性能库来解决数学运算、图像处理、信号分析、线性代数及数据压缩等领域的计算难题。\n\n对于需要提升程序运行效率的软件开发者和科研人员来说，这套资源极具价值。它有效降低了学习门槛，让用户无需从零开始摸索复杂的底层 API，而是能直接参考最佳实践，将成熟的加速技术集成到自己的项目中。无论是处理大规模矩阵运算、快速傅里叶变换，还是进行图像编解码与随机数生成，这里都能找到对应的实现思路。\n\n其核心亮点在于覆盖范围极广且分类细致，不仅包含经典的 cuBLAS、cuFFT、cuSPARSE 等基础库，还涵盖了面向张量计算的 cuTENSOR、多进程加速版本（如 cuBLASMp）以及设备端扩展（如 cuFFTDx）等前沿特性。每个示例都紧扣实际应用场景，直观展现了 GPU 并行计算的强大灵活性。如果你正在从事高性能计算相关的工作，CUDALibrarySamples 将是你探索和优化 GPU 应用不可或缺的实用指南。","[![License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache_2.0-yellowgreen.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FApache-2.0)\n\n# CUDA Library Samples\n\nThe **CUDA Library Samples** repository contains various examples that demonstrate the use of GPU-accelerated libraries in CUDA. These libraries enable high-performance computing in a wide range of applications, including math operations, image processing, signal processing, linear algebra, and compression. The samples included cover:\n\n- **Math and Image Processing Libraries**\n- **cuBLAS** (Basic Linear Algebra Subprograms)\n- **cuTENSOR** (Tensor Linear Algebra)\n- **cuSPARSE** (Sparse Matrix Operations)\n- **cuSOLVER** (Dense and Sparse Solvers)\n- **cuFFT** (Fast Fourier Transform)\n- **cuRAND** (Random Number Generation)\n- **NPP** (Image and Video Processing)\n- **nvJPEG** (JPEG Encode\u002FDecode)\n- **nvCOMP** (Data Compression)\n- **and more...**\n\n## About\n\nThe CUDA Library Samples are provided by NVIDIA Corporation as Open Source software, released under the Apache 2.0 License. These examples showcase how to leverage GPU-accelerated libraries for efficient computation across various fields.\n\nFor more information on the available libraries and their uses, visit [GPU Accelerated Libraries](https:\u002F\u002Fdeveloper.nvidia.com\u002Fgpu-accelerated-libraries).\n\n## Library Examples\n\nExplore the examples of each CUDA library included in this repository:\n\n- [cuBLAS - GPU-accelerated basic linear algebra (BLAS) library](cuBLAS\u002F)\n- [cuBLASLt - Lightweight BLAS library](cuBLASLt\u002F)\n- [cuBLASMp - Multi-process BLAS library](cuBLASMp\u002F)\n- [cuBLASDx - Device-side BLAS extensions](MathDx\u002FcuBLASDx\u002F)\n- [cuDSS - GPU-accelerated linear solvers](cuDSS\u002F)\n- [cuEST - GPU-accelerated quantum chemistry](cuEST\u002F)\n- [cuFFT - Fast Fourier Transforms](cuFFT\u002F)\n- [cuFFTMp - Multi-process FFT](cuFFTMp\u002F)\n- [cuFFTDx - Device-side FFT extensions](MathDx\u002FcuFFTDx\u002F)\n- [cuPQC - Post-Quantum Cryptography device library](cuPQC\u002F)\n- [cuRAND - Random number generation](cuRAND\u002F)\n- [cuSOLVER - Dense and sparse direct solvers](cuSOLVER\u002F)\n- [cuSOLVERMp - Multi-process solvers](cuSOLVERMp\u002F)\n- [cuSOLVERSp2cuDSS - Transition example from cuSOLVERSp\u002FRf to cuDSS](cuSOLVERSp2cuDSS\u002F)\n- [cuSPARSE - BLAS for sparse matrices](cuSPARSE\u002F)\n- [cuSPARSELt - Lightweight BLAS for sparse matrices](cuSPARSELt\u002F)\n- [cuTENSOR - Tensor linear algebra library](cuTENSOR\u002F)\n- [cuTENSORMg - Multi-GPU tensor linear algebra](cuTENSORMg\u002F)\n- [NPP - GPU-accelerated image, video, and signal processing functions](NPP\u002F)\n- [NPP+ - C++ extensions for NPP](NPP+\u002F)\n- [nvJPEG - High-performance JPEG encode\u002Fdecode](nvJPEG\u002F)\n- [nvJPEG2000 - JPEG2000 encoding\u002Fdecoding](nvJPEG2000\u002F)\n- [nvTIFF - TIFF encoding\u002Fdecoding](nvTIFF\u002F)\n- [nvCOMP - Data compression and decompression](nvCOMP\u002F)\n\nEach sample provides a practical use case for how to apply these libraries in real-world scenarios, showcasing the power and flexibility of CUDA for a wide variety of computational needs.\n\n## Additional Resources\n\nFor more information and documentation on CUDA libraries, please visit:\n\n- [CUDA Toolkit Documentation](https:\u002F\u002Fdocs.nvidia.com\u002Fcuda\u002F)\n- [NVIDIA Developer Zone](https:\u002F\u002Fdeveloper.nvidia.com\u002F)\n- [CUDA Samples](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Fcuda-samples)\n\n## Contributing\n\nWe welcome contributions to **CUDA Library Samples**. To contribute to **CUDA Library Samples** and make pull requests,\nfollow the guidelines outlined in the [Contributing](.\u002FCONTRIBUTING.md) document.\n\n## License\n\nThe CUDA Library Samples are distributed under the Apache 2.0 License. For more details, refer to the LICENSE.md file.\n\nThe old code that was originally distributed under the 3-clause \"New\" BSD license is available at bsd3_main branch and is no longer maintained.\n","[![许可证](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache_2.0-yellowgreen.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FApache-2.0)\n\n# CUDA 库示例\n\n**CUDA 库示例** 仓库包含多个示例，展示了如何在 CUDA 中使用 GPU 加速库。这些库能够在数学运算、图像处理、信号处理、线性代数和压缩等广泛的应用中实现高性能计算。所包含的示例涵盖以下内容：\n\n- **数学与图像处理库**\n- **cuBLAS**（基础线性代数子程序）\n- **cuTENSOR**（张量线性代数）\n- **cuSPARSE**（稀疏矩阵运算）\n- **cuSOLVER**（稠密与稀疏求解器）\n- **cuFFT**（快速傅里叶变换）\n- **cuRAND**（随机数生成）\n- **NPP**（图像与视频处理）\n- **nvJPEG**（JPEG 编码\u002F解码）\n- **nvCOMP**（数据压缩）\n- **等等...**\n\n## 关于\n\nCUDA 库示例由 NVIDIA 公司以开源软件的形式提供，并根据 Apache 2.0 许可证发布。这些示例展示了如何利用 GPU 加速库在各个领域实现高效计算。\n\n如需了解更多关于可用库及其用途的信息，请访问 [GPU 加速库](https:\u002F\u002Fdeveloper.nvidia.com\u002Fgpu-accelerated-libraries)。\n\n## 库示例\n\n探索本仓库中包含的每个 CUDA 库的示例：\n\n- [cuBLAS - GPU 加速的基础线性代数（BLAS）库](cuBLAS\u002F)\n- [cuBLASLt - 轻量级 BLAS 库](cuBLASLt\u002F)\n- [cuBLASMp - 多进程 BLAS 库](cuBLASMp\u002F)\n- [cuBLASDx - 设备端 BLAS 扩展](MathDx\u002FcuBLASDx\u002F)\n- [cuDSS - GPU 加速的线性求解器](cuDSS\u002F)\n- [cuEST - GPU 加速的量子化学计算](cuEST\u002F)\n- [cuFFT - 快速傅里叶变换](cuFFT\u002F)\n- [cuFFTMp - 多进程 FFT](cuFFTMp\u002F)\n- [cuFFTDx - 设备端 FFT 扩展](MathDx\u002FcuFFTDx\u002F)\n- [cuPQC - 后量子密码学设备库](cuPQC\u002F)\n- [cuRAND - 随机数生成](cuRAND\u002F)\n- [cuSOLVER - 稠密与稀疏直接求解器](cuSOLVER\u002F)\n- [cuSOLVERMp - 多进程求解器](cuSOLVERMp\u002F)\n- [cuSOLVERSp2cuDSS - 从 cuSOLVERSp\u002FRf 到 cuDSS 的迁移示例](cuSOLVERSp2cuDSS\u002F)\n- [cuSPARSE - 稀疏矩阵的 BLAS](cuSPARSE\u002F)\n- [cuSPARSELt - 稀疏矩阵的轻量级 BLAS](cuSPARSELt\u002F)\n- [cuTENSOR - 张量线性代数库](cuTENSOR\u002F)\n- [cuTENSORMg - 多 GPU 张量线性代数](cuTENSORMg\u002F)\n- [NPP - GPU 加速的图像、视频和信号处理函数](NPP\u002F)\n- [NPP+ - NPP 的 C++ 扩展](NPP+\u002F)\n- [nvJPEG - 高性能 JPEG 编码\u002F解码](nvJPEG\u002F)\n- [nvJPEG2000 - JPEG2000 编码\u002F解码](nvJPEG2000\u002F)\n- [nvTIFF - TIFF 编码\u002F解码](nvTIFF\u002F)\n- [nvCOMP - 数据压缩与解压缩](nvCOMP\u002F)\n\n每个示例都提供了在实际场景中应用这些库的实用案例，展示了 CUDA 在各种计算需求中的强大功能和灵活性。\n\n## 更多资源\n\n有关 CUDA 库的更多信息和文档，请访问：\n\n- [CUDA 工具包文档](https:\u002F\u002Fdocs.nvidia.com\u002Fcuda\u002F)\n- [NVIDIA 开发者专区](https:\u002F\u002Fdeveloper.nvidia.com\u002F)\n- [CUDA 示例](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Fcuda-samples)\n\n## 贡献\n\n我们欢迎对 **CUDA 库示例** 的贡献。要为 **CUDA 库示例** 做出贡献并提交拉取请求，请遵循 [贡献指南](.\u002FCONTRIBUTING.md) 中的说明。\n\n## 许可证\n\nCUDA 库示例根据 Apache 2.0 许可证进行分发。更多详细信息请参阅 LICENSE.md 文件。\n\n最初以三条款“新”BSD 许可证发布的旧代码可在 bsd3_main 分支中找到，但该分支已不再维护。","# CUDA Library Samples 快速上手指南\n\n本指南帮助中国开发者快速配置并运行 NVIDIA 提供的 **CUDA Library Samples**，涵盖线性代数、图像处理、信号处理及压缩等 GPU 加速库的示例代码。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：Linux (x86_64, aarch64) 或 Windows (WSL2 支持良好)。\n*   **GPU 硬件**：支持 CUDA 的 NVIDIA GPU。\n*   **软件依赖**：\n    *   **NVIDIA Driver**：已安装且版本较新。\n    *   **CUDA Toolkit**：建议安装与样本兼容的最新稳定版（通常需 11.x 或更高）。\n    *   **CMake**：版本 3.18 或更高。\n    *   **编译器**：GCC\u002FG++ (Linux) 或 MSVC (Windows)，需与 CUDA Toolkit 版本匹配。\n    *   **Git**：用于克隆仓库。\n\n> **提示**：国内开发者若下载 CUDA Toolkit 较慢，可访问 [清华大学开源软件镜像站](https:\u002F\u002Fmirrors.tuna.tsinghua.edu.cn\u002Fnvidia\u002F) 或 [阿里云开源镜像站](https:\u002F\u002Fdeveloper.aliyun.com\u002Fmirror\u002Fnvidia) 获取加速下载链接。\n\n## 安装步骤\n\n### 1. 克隆仓库\n使用 Git 克隆项目源码：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FcudaLibrariesSamples.git\ncd cudaLibrariesSamples\n```\n\n### 2. 创建构建目录\n推荐使用 CMake 进行外部构建，以保持源码整洁：\n\n```bash\nmkdir build\ncd build\n```\n\n### 3. 配置构建\n运行 CMake 配置项目。默认情况下，它会查找系统安装的 CUDA Toolkit。\n\n```bash\ncmake ..\n```\n\n*如果需要指定 CUDA 路径（例如非标准安装位置）：*\n```bash\ncmake .. -DCUDA_TOOLKIT_ROOT_DIR=\u002Fusr\u002Flocal\u002Fcuda\n```\n\n### 4. 编译项目\n执行编译命令。建议使用 `-j` 参数并行加速编译过程（例如 `-j$(nproc)`）：\n\n```bash\nmake -j$(nproc)\n```\n\n编译完成后，可执行文件将生成在 `build` 目录下的对应子文件夹中（如 `cuBLAS\u002F`, `cuFFT\u002F` 等）。\n\n## 基本使用\n\n每个库的示例都位于独立的子目录中。以下以 **cuBLAS**（基础线性代数子程序）为例，展示如何运行最简单的矩阵乘法示例。\n\n### 运行 cuBLAS 示例\n\n进入 cuBLAS 示例目录并执行生成的二进制文件：\n\n```bash\ncd ..\u002FcuBLAS\n.\u002FsimpleCUBLAS\n```\n\n**预期输出：**\n程序将初始化矩阵数据，调用 GPU 进行计算，并验证结果。若成功，终端将显示类似以下信息：\n```text\nsimpleCUBLAS test passed.\n```\n\n### 探索其他库\n您可以按照相同的方式运行其他库的示例。例如：\n\n*   **快速傅里叶变换 (cuFFT)**:\n    ```bash\n    cd ..\u002FcuFFT\n    .\u002FsimpleCUFFT\n    ```\n*   **随机数生成 (cuRAND)**:\n    ```bash\n    cd ..\u002FcuRAND\n    .\u002FsimpleCURAND\n    ```\n*   **图像压缩 (nvCOMP)**:\n    ```bash\n    cd ..\u002FnvCOMP\n    .\u002Fnvcomp_example\n    ```\n\n> **注意**：部分高级示例（如多进程或多 GPU 示例 `cuBLASMp`, `cuTENSORMg`）可能需要特定的硬件配置或 MPI 环境，请先阅读对应目录下的 `README.md` 获取详细参数说明。","某医疗影像初创团队正在开发一套基于深度学习的肺部 CT 扫描实时分析系统，需要在毫秒级内完成海量图像的重建、去噪与特征提取。\n\n### 没有 CUDALibrarySamples 时\n- **算法落地困难**：开发人员需从零摸索如何调用底层 CUDA API 实现快速傅里叶变换（cuFFT）或稀疏矩阵运算（cuSPARSE），极易因内存管理不当导致程序崩溃。\n- **性能调优耗时**：缺乏官方参考基准，团队花费数周手动优化图像预处理（NPP）和 JPEG 解码（nvJPEG）流程，却仍无法达到临床所需的实时帧率。\n- **数值精度风险**：在构建线性代数求解器（cuSOLVER）时，由于缺乏标准示例对照，难以确保 GPU 加速后的计算结果与 CPU 版本严格一致，存在医疗误诊隐患。\n- **压缩效率低下**：自研的数据压缩方案未能有效利用 nvCOMP 库特性，导致传输带宽占用过高，远程会诊延迟严重。\n\n### 使用 CUDALibrarySamples 后\n- **快速集成验证**：直接复用仓库中成熟的 cuFFT 和 cuSPARSE 示例代码，将核心算法的原型验证时间从数周缩短至两天，迅速打通数据流水线。\n- **性能即刻达标**：参照 NPP 和 nvJPEG 的最佳实践重构图像处理模块，成功将单张 CT 片的处理延迟降低 80%，满足手术室实时监控需求。\n- **精度可靠可控**：基于 cuSOLVER 和 cuBLAS 的标准样例进行开发，确保了复杂矩阵运算的数值稳定性，顺利通过医疗器械软件的精度验收。\n- **带宽成本骤降**：引入 nvCOMP 示例中的压缩策略，在保证图像质量的前提下将数据传输量减少 60%，显著降低了云端存储与传输成本。\n\nCUDALibrarySamples 通过提供经过验证的高性能代码范本，帮助开发者跨越了从理论算法到工程落地的巨大鸿沟，让 GPU 加速真正转化为业务价值。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVIDIA_CUDALibrarySamples_8b91b27d.png","NVIDIA","NVIDIA Corporation","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FNVIDIA_7dcf6000.png","",null,"https:\u002F\u002Fnvidia.com","https:\u002F\u002Fgithub.com\u002FNVIDIA",[81,85,89,93,97,101,105,108,112,116],{"name":82,"color":83,"percentage":84},"C++","#f34b7d",31.7,{"name":86,"color":87,"percentage":88},"Cuda","#3A4E3A",31.1,{"name":90,"color":91,"percentage":92},"C","#555555",13.1,{"name":94,"color":95,"percentage":96},"CMake","#DA3434",10.3,{"name":98,"color":99,"percentage":100},"Python","#3572A5",9.4,{"name":102,"color":103,"percentage":104},"Makefile","#427819",1.3,{"name":106,"color":107,"percentage":104},"AMPL","#E6EFBB",{"name":109,"color":110,"percentage":111},"Fortran","#4d41b1",1.2,{"name":113,"color":114,"percentage":115},"Jupyter Notebook","#DA5B0B",0.5,{"name":117,"color":118,"percentage":119},"Shell","#89e051",0.1,2370,456,"2026-04-06T12:43:55","Apache-2.0",4,"未说明","必需 NVIDIA GPU（支持 CUDA），具体型号、显存大小及 CUDA 版本未在文中明确，需参考 CUDA Toolkit 文档",{"notes":128,"python":125,"dependencies":129},"该项目为 NVIDIA 提供的 CUDA 加速库示例集合，涵盖数学运算、图像处理、线性代数等领域。具体编译和运行环境要求（如操作系统、CUDA 版本、编译器版本）需查阅官方 CUDA Toolkit 文档。旧版 BSD 许可证代码已不再维护。",[130,131,132,133,134,135,136,137,138,139],"CUDA Toolkit","cuBLAS","cuTENSOR","cuSPARSE","cuSOLVER","cuFFT","cuRAND","NPP","nvJPEG","nvCOMP",[14,141],"其他",[143,144,145,146,147,148,149,150,151,152,153,154,155,156,157],"cufft","curand","cusolver","cusparse","nvjpeg","cudss","cutenros","mathdx","nppcublas","nvcomp","nvjpeg2000","nvtiff","cuda","gpu","linear-algebra","2026-03-27T02:49:30.150509","2026-04-07T06:13:14.953016",[161,166,171,176,181,186],{"id":162,"question_zh":163,"answer_zh":164,"source_url":165},21104,"使用 cuSPARSE SpGEMM 进行稀疏矩阵乘法时遇到内存不足（insufficient resources）错误，原因是什么？","这不是一个 Bug。在 CUDA 11.x 版本中，SpGEMM 算法确实需要大量的内存来进行计算。为了解决这个限制，从 CUDA 12 开始，NVIDIA 引入了两种新的 SpGEMM 算法，它们的内存消耗要少得多。建议升级到 CUDA 12 或更高版本并使用新算法。","https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FCUDALibrarySamples\u002Fissues\u002F38",{"id":167,"question_zh":168,"answer_zh":169,"source_url":170},21105,"运行 cuSolverMp 示例程序时，在 cal_comm_create 函数处发生挂起（Hang），特别是在使用 3 个或更多 GPU 进程时，如何解决？","这是因为示例代码默认硬编码为仅支持 2 个进程运行。如果要使用更多进程（例如 3 个或 4 个），必须修改源代码并重新编译。具体来说，需要调整代码中的 `p` 和 `q` 变量（分别代表行和列的设备数量），确保 `p * q` 等于实际的 MPI 秩（进程）数量。参考源码位置：`cuSOLVERMp\u002Fmp_potrf_potrs.c` 的第 145 行和第 173 行附近。","https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FCUDALibrarySamples\u002Fissues\u002F183",{"id":172,"question_zh":173,"answer_zh":174,"source_url":175},21106,"cuSPARSE SpMM (CSR\u002FCOO) 在处理越界索引（out-of-bound indices）时的默认行为是什么？","行为取决于使用的算法：只有 `CUSPARSE_SPMM_CSR_ALG3` 会将 `csr_row_offsets` 的上限视为条目数量；而 `CUSPARSE_SPMM_CSR_ALG1` 和 `ALG2` 仍然依赖稀疏矩阵定义的 `nnz`（非零元素个数）。如果遇到动态 nnz 导致的越界问题，建议在调用 SpMV 之前增加一次遍历缓冲区的操作，将超出动态 nnz 的值清零，或者考虑将输入重塑后使用 SpMM 代替 SpMV。","https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FCUDALibrarySamples\u002Fissues\u002F106",{"id":177,"question_zh":178,"answer_zh":179,"source_url":180},21107,"在 cuSPARSELt 的示例代码中，为什么在计算 batch stride 时要额外加上 128（例如 `m * k + 128`）？","添加 `128` 并没有特定的性能或算法原因，这只是为了演示该库支持非连续批次（non-continuous batches）的功能。在实际使用中，如果数据是连续存储的，可以直接使用 `m * k` 作为步长。","https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FCUDALibrarySamples\u002Fissues\u002F115",{"id":182,"question_zh":183,"answer_zh":184,"source_url":185},21108,"cuSPARSELt 是否支持矩阵 A 和矩阵 B 同时为稀疏矩阵（例如都使用 2:4 结构化稀疏）？","虽然 API 允许这种配置，但在官方文档和示例中，通常只将矩阵 A 设置为 2:4 稀疏矩阵。关于两个矩阵是否都能有效利用稀疏性加速，需参考具体硬件架构（如 Ampere 架构）对双稀疏矩阵乘法的支持情况。目前主要优化场景集中在其中一个矩阵为结构化稀疏的情况。","https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FCUDALibrarySamples\u002Fissues\u002F17",{"id":187,"question_zh":188,"answer_zh":189,"source_url":185},21109,"在使用 cuSPARSELt 初始化 `cusparseLtMatmulDescriptorInit` 时，报错提示 computeType 参数非法（UNKNOWN=2），可能是什么原因？","这通常是因为传入的 `compute_type` 枚举值在当前上下文或驱动版本中不被识别。请检查是否正确链接了与运行时环境匹配的 cuSPARSELt 库版本，并确保 `compute_type` 使用的是有效的 `cusparseComputeType` 枚举值（如 `CUSPARSE_COMPUTE_16F` 等），避免使用已废弃或未定义的常量。",[]]