[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Lextal--pspnet-pytorch":3,"tool-Lextal--pspnet-pytorch":64},[4,17,26,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,2,"2026-04-03T11:11:01",[13,14,15],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":23,"last_commit_at":32,"category_tags":33,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,34,35,36,15,37,38,13,39],"数据工具","视频","插件","其他","语言模型","音频",{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":10,"last_commit_at":46,"category_tags":47,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,38,37],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":10,"last_commit_at":54,"category_tags":55,"status":16},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",74913,"2026-04-05T10:44:17",[38,14,13,37],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":23,"last_commit_at":62,"category_tags":63,"status":16},2471,"tesseract","tesseract-ocr\u002Ftesseract","Tesseract 是一款历史悠久且备受推崇的开源光学字符识别（OCR）引擎，最初由惠普实验室开发，后由 Google 维护，目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据，有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题，是数字化归档和信息自动化的重要基础工具。\n\n在技术层面，Tesseract 展现了强大的适应能力。从版本 4 开始，它引入了基于长短期记忆网络（LSTM）的神经网络 OCR 引擎，显著提升了行识别的准确率；同时，为了兼顾旧有需求，它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码，开箱即用即可识别超过 100 种语言，并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面，它灵活支持纯文本、hOCR、PDF、TSV 等多种格式，方便后续数据处理。\n\nTesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库（libtesseract），不包含图形用户界面（GUI），因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中",73286,"2026-04-03T01:56:45",[13,14],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":80,"owner_email":81,"owner_twitter":78,"owner_website":78,"owner_url":82,"languages":83,"stars":88,"forks":89,"last_commit_at":90,"license":78,"difficulty_score":10,"env_os":91,"env_gpu":92,"env_ram":92,"env_deps":93,"category_tags":97,"github_topics":78,"view_count":23,"oss_zip_url":78,"oss_zip_packed_at":78,"status":16,"created_at":98,"updated_at":99,"faqs":100,"releases":128},3484,"Lextal\u002Fpspnet-pytorch","pspnet-pytorch","PyTorch implementation of PSPNet segmentation network","pspnet-pytorch 是基于 PyTorch 框架实现的金字塔场景解析网络（PSPNet），专为高精度的图像语义分割任务打造。它旨在解决传统分割模型难以兼顾局部细节与全局上下文信息的痛点，通过独特的金字塔池化模块，让 AI 能够更准确地理解复杂场景中的物体类别与边界，广泛应用于自动驾驶、遥感分析及医疗影像处理等领域。\n\n这款工具特别适合计算机视觉领域的研究人员与开发者使用。如果你需要快速复现经典论文算法，或希望在自定义数据集上训练高效的分割模型，pspnet-pytorch 提供了极佳的起点。其技术亮点在于对原始架构进行了稳定性优化：将末端直接的 8 倍上采样改为三次连续上采样，有效提升了训练过程的收敛稳定性。此外，项目内置了丰富的预训练特征提取器支持，涵盖从轻量级的 SqueezeNet 到深层的 ResNet-152 等多种主流骨干网络，显著改善了模型的初始化质量与最终精度。配合清晰的数据加载规范，用户可以灵活地接入自己的图像数据，高效开展实验与开发工作。","# pspnet-pytorch\nPyTorch implementation of PSPNet segmentation network\n\n\n### Original paper\n\n [Pyramid Scene Parsing Network](https:\u002F\u002Farxiv.org\u002Fabs\u002F1612.01105)\n \n### Details\n\nThis is a slightly different version - instead of direct 8x upsampling at the end I use three consequitive upsamplings for stability. \n\n### Feature extraction\n\nUsing pretrained weights for extractors - improved quality and convergence dramatically.\n\nCurrently supported:\n\n* SqueezeNet\n* DenseNet-121\n* ResNet-18\n* ResNet-34\n* ResNet-50\n* ResNet-101\n* ResNet-152\n\nPlanned:\n\n* DenseNet-169\n* DenseNet-201\n\n### Usage \n\nTo follow the training routine in train.py you need a DataLoader that yields the tuples of the following format:\n\n(Bx3xHxW FloatTensor x, BxHxW LongTensor y, BxN LongTensor y\\_cls) where\n\nx - batch of input images,\n\ny - batch of groung truth seg maps,\n\ny\\_cls - batch of 1D tensors of dimensionality N: N total number of classes, \n\ny\\_cls[i, T] = 1 if class T is present in image i, 0 otherwise\n","# pspnet-pytorch\nPSPNet 分割网络的 PyTorch 实现\n\n\n### 原始论文\n\n[金字塔场景解析网络](https:\u002F\u002Farxiv.org\u002Fabs\u002F1612.01105)\n \n### 详情\n\n这是一个略有不同的版本——在最后没有直接进行 8 倍上采样，而是使用了三次连续的上采样以提高稳定性。\n\n### 特征提取\n\n使用预训练权重作为特征提取器，显著提升了模型质量和收敛速度。\n\n目前支持：\n\n* SqueezeNet\n* DenseNet-121\n* ResNet-18\n* ResNet-34\n* ResNet-50\n* ResNet-101\n* ResNet-152\n\n计划支持：\n\n* DenseNet-169\n* DenseNet-201\n\n### 使用方法 \n\n要按照 train.py 中的训练流程进行训练，你需要一个 DataLoader，它会生成如下格式的元组：\n\n(B×3×H×W FloatTensor x, B×H×W LongTensor y, B×N LongTensor y_cls)，其中\n\nx —— 输入图像批次，\n\ny —— 真实标签分割图批次，\n\ny_cls —— 尺寸为 B×N 的 1D 张量批次：N 表示总类别数，\n\ny_cls[i, T] = 1 如果第 i 张图像中存在类别 T，否则为 0。","# PSPNet-PyTorch 快速上手指南\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：Linux (推荐) 或 macOS\u002FWindows\n*   **Python 版本**：Python 3.6+\n*   **核心框架**：PyTorch (建议安装最新稳定版)\n*   **其他依赖**：`torchvision`, `numpy`, `Pillow`\n\n**国内加速建议**：\n推荐使用清华或阿里镜像源安装 PyTorch 及相关依赖，以提升下载速度。\n```bash\npip install torch torchvision -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n## 安装步骤\n\n1.  **克隆仓库**\n    将项目代码下载到本地：\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002FLextal\u002Fpspnet-pytorch.git\n    cd pspnet-pytorch\n    ```\n\n2.  **安装依赖**\n    如果项目包含 `requirements.txt`，请直接安装；若无，请确保已安装上述核心框架。\n    ```bash\n    pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n    ```\n    *(注：若目录下无 requirements.txt，请手动安装 `numpy` 和 `Pillow`)*\n\n## 基本使用\n\n本实现支持多种预训练骨干网络（如 ResNet, DenseNet, SqueezeNet），能显著提升分割质量和收敛速度。\n\n### 1. 数据加载器要求\n运行 `train.py` 前，您需要自定义一个 `DataLoader`，其输出的每个 batch 必须包含以下三个张量元组：`(x, y, y_cls)`。\n\n*   `x`: 输入图像批次 (`Bx3xHxW` FloatTensor)\n*   `y`: 真实分割掩码批次 (`BxHxW` LongTensor)\n*   `y_cls`: 图像级标签存在性向量 (`BxN` LongTensor)，其中 `N` 为类别总数。若第 `i` 张图中存在类别 `T`，则 `y_cls[i, T] = 1`，否则为 `0`。\n\n### 2. 模型初始化示例\n以下是加载预训练模型并进行前向推理的最小化代码示例：\n\n```python\nimport torch\nfrom pspnet import PSPNet\n\n# 选择骨干网络，例如 ResNet-50\n# 支持的骨干网：SqueezeNet, DenseNet-121, ResNet-18\u002F34\u002F50\u002F101\u002F152\nmodel = PSPNet(n_classes=21, backbone='resnet50', pretrained=True)\n\n# 切换至评估模式\nmodel.eval()\n\n# 准备输入数据 (Batch size=1, 3 channels, Height, Width)\n# 实际使用时请替换为您的真实图像 Tensor\ndummy_input = torch.randn(1, 3, 473, 473)\n\n# 前向传播\nwith torch.no_grad():\n    output = model(dummy_input)\n\n# output 形状通常为 (B, n_classes, H, W)\nprint(output.shape)\n```\n\n### 3. 开始训练\n准备好符合格式要求的 `DataLoader` 后，即可调用训练脚本：\n\n```bash\npython train.py\n```\n\n*注意：该版本在末端上采样阶段采用了三次连续上采样（而非直接的 8 倍上采样）以增强稳定性。*","某智慧城市团队正在开发一套基于无人机航拍的道路破损自动检测系统，需要精准识别路面裂缝、坑洼及修补痕迹。\n\n### 没有 pspnet-pytorch 时\n- **场景理解能力弱**：传统分割模型难以区分外观相似但语义不同的物体（如将阴影误判为裂缝），导致误报率极高。\n- **多尺度目标漏检**：面对航拍图中大小不一的破损区域，单一感受野模型无法同时兼顾微小裂缝与大面积坑洼。\n- **训练收敛缓慢**：从头搭建网络缺乏成熟的预训练权重支持，模型在有限标注数据下难以收敛，调试周期长达数周。\n- **架构稳定性差**：自行实现上采样逻辑时，直接放大倍数过大导致输出边缘锯齿严重，后处理成本高昂。\n\n### 使用 pspnet-pytorch 后\n- **全局上下文感知**：借助金字塔池化模块，模型能结合周围环境判断，有效消除阴影和污渍带来的干扰，大幅提升分类准确度。\n- **多尺度特征融合**：通过多层级特征提取，无论是细微裂纹还是大型塌陷都能被精准捕捉，实现了全尺寸目标的无缝覆盖。\n- **快速落地验证**：直接调用 ResNet 或 DenseNet 等预训练骨干网络，显著提升了特征提取质量，将模型训练收敛时间缩短至几天内。\n- **输出平滑稳定**：利用其改进的三次连续上采样策略，生成的分割掩码边缘自然平滑，无需复杂的后处理即可直接用于工程部署。\n\npspnet-pytorch 通过引入金字塔场景解析机制，从根本上解决了复杂航拍场景下的多尺度分割难题，让道路巡检从“人工肉眼排查”升级为“高精度自动化作业”。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLextal_pspnet-pytorch_ed1c615e.png","Lextal","Roman Trusov","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FLextal_55546bd3.jpg",null,"Cribl","United States","r.v.trusov@gmail.com","https:\u002F\u002Fgithub.com\u002FLextal",[84],{"name":85,"color":86,"percentage":87},"Python","#3572A5",100,590,119,"2026-03-05T20:46:49","","未说明",{"notes":94,"python":92,"dependencies":95},"该项目是 PSPNet 分割网络的 PyTorch 实现。支持多种预训练特征提取器（如 SqueezeNet, DenseNet-121, ResNet 系列等）。训练时需要自定义 DataLoader，输入数据格式为：(Bx3xHxW 图像张量，BxHxW 真值分割图，BxN 类别存在性张量)。README 中未明确列出具体的操作系统、GPU 型号、内存大小、Python 版本及其他依赖库的详细版本要求。",[96],"torch",[14],"2026-03-27T02:49:30.150509","2026-04-06T07:13:19.958495",[101,106,110,115,119,124],{"id":102,"question_zh":103,"answer_zh":104,"source_url":105},15975,"PSPNet 模型的初始输入图像尺寸应该是多少？","虽然原问题未直接给出具体数值，但讨论中确认模型支持 ResNet50 作为骨干网络。通常 PSPNet 的输入尺寸需根据骨干网络和训练配置调整（常见为 473x473 或 713x713），建议参考官方 README 或训练脚本中的默认设置。若遇到加载问题，请确保使用正确的 ResNet 版本（如 ResNet50）。","https:\u002F\u002Fgithub.com\u002FLextal\u002Fpspnet-pytorch\u002Fissues\u002F4",{"id":107,"question_zh":108,"answer_zh":109,"source_url":105},15976,"训练时损失值（loss）完全不变化怎么办？","该问题通常由提取器（extractors）初始化不正确导致。维护者已修复此问题，请拉取最新代码。如果问题依旧，请检查是否正确使用 ResNet50 作为骨干网络，并确认数据加载器和损失函数的配置是否与模型匹配。",{"id":111,"question_zh":112,"answer_zh":113,"source_url":114},15977,"训练代码中的 y 和 y_cls 有什么区别？","y 是分割掩码（Segmentation mask），用于像素级分类；y_cls 是一个形状为 BxN 的 LongTensor，其中 B 是批次大小，N 是数据集中的类别总数，用于图像级分类任务。您需要修改数据加载器（loader），使其返回 (x, y, y_cls) 三元组。维护者已将此说明添加到 README 中供参考。","https:\u002F\u002Fgithub.com\u002FLextal\u002Fpspnet-pytorch\u002Fissues\u002F2",{"id":116,"question_zh":117,"answer_zh":118,"source_url":114},15978,"如何构建 y_cls 标签以训练模型？","y_cls 应表示图像中包含的类别标签。如果您使用的是类似 CocoDetection 的加载器，需要自定义 collate_fn 或数据集类，将每个图像的类别标签转换为一个长度为总类别数 N 的向量（或多热编码），最终形成 BxN 的 LongTensor。确保在训练循环中正确解包 x, y, y_cls。",{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},15979,"运行代码时报错 'TypeError: int object is not iterable' 发生在 PSPModule 中怎么办？","该错误通常是由于用户配置错误导致的，特别是在定义 PSPModule 的 stages 时，传入的 sizes 参数可能不是可迭代对象（如列表或元组），而是一个整数。请检查代码中 `_make_stage` 的调用，确保 `sizes` 是一个列表（例如 `[1, 2, 3, 6]`），而不是单个整数。","https:\u002F\u002Fgithub.com\u002FLextal\u002Fpspnet-pytorch\u002Fissues\u002F18",{"id":125,"question_zh":126,"answer_zh":127,"source_url":105},15980,"使用 ResNet50 作为骨干网络是否正常？","是的，社区用户确认使用 ResNet50 是完全可行的（\"Useing resnet50 is ok\"）。如果在加载或训练过程中遇到问题，请确保您的代码已更新到最新版本，以修复已知的初始化 bug。",[]]