[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-ufoym--imbalanced-dataset-sampler":3,"tool-ufoym--imbalanced-dataset-sampler":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":81,"owner_email":82,"owner_twitter":81,"owner_website":83,"owner_url":84,"languages":85,"stars":90,"forks":91,"last_commit_at":92,"license":93,"difficulty_score":94,"env_os":95,"env_gpu":96,"env_ram":96,"env_deps":97,"category_tags":102,"github_topics":103,"view_count":23,"oss_zip_url":81,"oss_zip_packed_at":81,"status":16,"created_at":108,"updated_at":109,"faqs":110,"releases":141},3497,"ufoym\u002Fimbalanced-dataset-sampler","imbalanced-dataset-sampler","A (PyTorch) imbalanced dataset sampler for oversampling low frequent classes and undersampling high frequent ones.","imbalanced-dataset-sampler 是一款专为 PyTorch 设计的开源数据采样器，旨在解决机器学习中常见的“类别不平衡”难题。在许多实际应用场景中（如罕见病诊断或欺诈检测），某些类别的样本数量远少于其他类别，这容易导致训练出的模型偏向多数类，从而忽略少数类的关键特征。\n\n传统的解决方法通常涉及直接复制少数类样本（过采样）或删除多数类样本（欠采样），但这些方法分别存在引发过拟合或丢失重要信息的风险。imbalanced-dataset-sampler 提供了一种更优雅的替代方案：它无需生成新的平衡数据集，而是在数据加载过程中动态调整采样权重。该工具能自动估算各类别的出现概率，并据此对少数类样本赋予更高的采样权重，对多数类则相应降低权重，从而在每次迭代中实现类别分布的自然平衡。此外，结合数据增强技术使用时，它还能有效缓解过拟合问题。\n\n这款工具特别适合从事深度学习开发的工程师、算法研究人员以及需要处理非均衡数据的学生用户。其使用非常便捷，只需几行代码即可集成到现有的 PyTorch DataLoader 中，帮助开发者轻松提升模型在少数类上的识别准确率，同时保持整体性","imbalanced-dataset-sampler 是一款专为 PyTorch 设计的开源数据采样器，旨在解决机器学习中常见的“类别不平衡”难题。在许多实际应用场景中（如罕见病诊断或欺诈检测），某些类别的样本数量远少于其他类别，这容易导致训练出的模型偏向多数类，从而忽略少数类的关键特征。\n\n传统的解决方法通常涉及直接复制少数类样本（过采样）或删除多数类样本（欠采样），但这些方法分别存在引发过拟合或丢失重要信息的风险。imbalanced-dataset-sampler 提供了一种更优雅的替代方案：它无需生成新的平衡数据集，而是在数据加载过程中动态调整采样权重。该工具能自动估算各类别的出现概率，并据此对少数类样本赋予更高的采样权重，对多数类则相应降低权重，从而在每次迭代中实现类别分布的自然平衡。此外，结合数据增强技术使用时，它还能有效缓解过拟合问题。\n\n这款工具特别适合从事深度学习开发的工程师、算法研究人员以及需要处理非均衡数据的学生用户。其使用非常便捷，只需几行代码即可集成到现有的 PyTorch DataLoader 中，帮助开发者轻松提升模型在少数类上的识别准确率，同时保持整体性能的稳定。","# Imbalanced Dataset Sampler\n\n![license](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fufoym\u002Fimbalanced-dataset-sampler.svg)\n\n\u003Ca name=\"Introduction\"\u002F>\n\n## Introduction\n\nIn many machine learning applications, we often come across datasets where some types of data may be seen more than other types. Take identification of rare diseases for example, there are probably more normal samples than disease ones. In these cases, we need to make sure that the trained model is not biased towards the class that has more data. As an example, consider a dataset where there are 5 disease images and 20 normal images. If the model predicts all images to be normal, its accuracy is 80%, and F1-score of such a model is 0.88. Therefore, the model has high tendency to be biased toward the ‘normal’ class.\n\nTo solve this problem, a widely adopted technique is called resampling. It consists of removing samples from the majority class (under-sampling) and \u002F or adding more examples from the minority class (over-sampling). Despite the advantage of balancing classes, these techniques also have their weaknesses (there is no free lunch). The simplest implementation of over-sampling is to duplicate random records from the minority class, which can cause overfitting. In under-sampling, the simplest technique involves removing random records from the majority class, which can cause loss of information.\n\n![resampling](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fufoym_imbalanced-dataset-sampler_readme_c94d79a26e1d.png)\n\nIn this repo, we implement an easy-to-use PyTorch sampler `ImbalancedDatasetSampler` that is able to\n- rebalance the class distributions when sampling from the imbalanced dataset\n- estimate the sampling weights automatically\n- avoid creating a new balanced dataset\n- mitigate overfitting when it is used in conjunction with data augmentation techniques\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fufoym_imbalanced-dataset-sampler_readme_23acd84377df.png\">\n\u003C\u002Fp>\n\n## Usage\n\nFor a simple start install the package via one of following ways:\n\n```bash\npip install torchsampler\n```\n\n\nSimply pass an `ImbalancedDatasetSampler` for the parameter `sampler` when creating a `DataLoader`.\nFor example:\n\n```python\nfrom torchsampler import ImbalancedDatasetSampler\n\ntrain_loader = torch.utils.data.DataLoader(\n    train_dataset,\n    sampler=ImbalancedDatasetSampler(train_dataset),\n    batch_size=args.batch_size,\n    **kwargs\n)\n```\n\nThen in each epoch, the loader will sample the entire dataset and weigh your samples inversely to your class appearing probability.\n\n## Example: Imbalanced MNIST Dataset\n\nDistribution of classes in the imbalanced dataset:\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fufoym_imbalanced-dataset-sampler_readme_670c118bd441.png\">\n\u003C\u002Fp>\n\nWith Imbalanced Dataset Sampler:\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fufoym_imbalanced-dataset-sampler_readme_bb47ae1313d8.png\">\n  (left: test acc in each epoch; right: confusion matrix)\n\u003C\u002Fp>\n\nWithout Imbalanced Dataset Sampler:\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fufoym_imbalanced-dataset-sampler_readme_f9c15aa75079.png\">\n  (left: test acc in each epoch; right: confusion matrix)\n\u003C\u002Fp>\n\nNote that there are significant improvements for minor classes such as `2` `6` `9`, while the accuracy of the other classes is preserved.\n\n## Contributing\n\nWe appreciate all contributions. If you are planning to contribute back bug-fixes, please do so without any further discussion. If you plan to contribute new features, utility functions or extensions, please first open an issue and discuss the feature with us.\n\n## Licensing\n\n[MIT licensed](https:\u002F\u002Fgithub.com\u002Fufoym\u002Fimbalanced-dataset-sampler\u002Fblob\u002Fmaster\u002FLICENSE).\n","# 不平衡数据集采样器\n\n![license](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fufoym\u002Fimbalanced-dataset-sampler.svg)\n\n\u003Ca name=\"Introduction\"\u002F>\n\n## 简介\n\n在许多机器学习应用中，我们经常会遇到一些数据集中，某些类别的样本数量远多于其他类别。以罕见病检测为例，正常样本的数量通常会远远超过患病样本。在这种情况下，我们需要确保训练出的模型不会偏向于样本数量较多的类别。例如，假设一个数据集中有5张患病图像和20张正常图像。如果模型将所有图像都预测为正常，那么它的准确率将达到80%，F1分数也会达到0.88。然而，这样的模型显然存在严重的偏差，倾向于将所有样本分类为“正常”。\n\n为了解决这一问题，一种广泛采用的技术称为重采样。它包括从多数类中移除样本（欠采样）和\u002F或从少数类中添加更多样本（过采样）。尽管这些技术能够有效平衡各类别之间的分布，但它们也各有其局限性（天下没有免费的午餐）。最简单的过采样方法是随机复制少数类中的样本，但这可能导致过拟合。而最简单的欠采样方法则是随机删除多数类中的样本，这可能会导致信息丢失。\n\n![resampling](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fufoym_imbalanced-dataset-sampler_readme_c94d79a26e1d.png)\n\n在这个仓库中，我们实现了一个易于使用的 PyTorch 采样器 `ImbalancedDatasetSampler`，它能够：\n- 在从不平衡数据集中采样时重新平衡各类别分布\n- 自动估计采样权重\n- 避免创建一个新的平衡数据集\n- 结合数据增强技术使用时，可以有效缓解过拟合问题\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fufoym_imbalanced-dataset-sampler_readme_23acd84377df.png\">\n\u003C\u002Fp>\n\n## 使用方法\n\n要快速开始使用，可以通过以下方式安装该包：\n\n```bash\npip install torchsampler\n```\n\n在创建 `DataLoader` 时，只需将 `ImbalancedDatasetSampler` 作为 `sampler` 参数传入即可。例如：\n\n```python\nfrom torchsampler import ImbalancedDatasetSampler\n\ntrain_loader = torch.utils.data.DataLoader(\n    train_dataset,\n    sampler=ImbalancedDatasetSampler(train_dataset),\n    batch_size=args.batch_size,\n    **kwargs\n)\n```\n\n这样，在每个 epoch 中，数据加载器都会对整个数据集进行采样，并根据每个类别的出现概率反向调整样本权重。\n\n## 示例：不平衡 MNIST 数据集\n\n不平衡数据集中各类别的分布情况如下：\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fufoym_imbalanced-dataset-sampler_readme_670c118bd441.png\">\n\u003C\u002Fp>\n\n使用不平衡数据集采样器后：\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fufoym_imbalanced-dataset-sampler_readme_bb47ae1313d8.png\">\n  （左：每个 epoch 的测试准确率；右：混淆矩阵）\n\u003C\u002Fp>\n\n未使用不平衡数据集采样器时：\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fufoym_imbalanced-dataset-sampler_readme_f9c15aa75079.png\">\n  （左：每个 epoch 的测试准确率；右：混淆矩阵）\n\u003C\u002Fp>\n\n可以看到，对于 `2`、`6` 和 `9` 等小类别的分类性能有了显著提升，而其他类别的准确率则保持不变。\n\n## 贡献\n\n我们非常欢迎各种形式的贡献。如果您计划提交 bug 修复，请直接提交，无需额外讨论。如果您打算贡献新功能、实用工具函数或扩展，请先打开一个 issue，与我们讨论该功能的具体实现。\n\n## 许可证\n\n[MIT 许可](https:\u002F\u002Fgithub.com\u002Fufoym\u002Fimbalanced-dataset-sampler\u002Fblob\u002Fmaster\u002FLICENSE)。","# imbalanced-dataset-sampler 快速上手指南\n\n## 环境准备\n\n- **系统要求**：支持 Linux、macOS 或 Windows。\n- **前置依赖**：\n  - Python 3.6+\n  - PyTorch (`torch` 和 `torchvision`)\n  - 确保已安装基础的深度学习开发环境。\n\n## 安装步骤\n\n推荐使用 pip 直接安装官方发布版本：\n\n```bash\npip install torchsampler\n```\n\n> **提示**：如果下载速度较慢，可以使用国内镜像源加速安装，例如使用清华源：\n> ```bash\n> pip install torchsampler -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n## 基本使用\n\n该工具的核心是 `ImbalancedDatasetSampler`，只需在创建 PyTorch 的 `DataLoader` 时将其传入 `sampler` 参数即可自动处理类别不平衡问题。\n\n**最简单的使用示例：**\n\n```python\nfrom torchsampler import ImbalancedDatasetSampler\nimport torch.utils.data\n\n# 假设 train_dataset 是你的不平衡数据集对象\ntrain_loader = torch.utils.data.DataLoader(\n    train_dataset,\n    sampler=ImbalancedDatasetSampler(train_dataset),\n    batch_size=args.batch_size,\n    # 其他参数如 num_workers 等\n    **kwargs\n)\n```\n\n**工作原理简述：**\n- 在每个 epoch 中，采样器会自动计算各类别的出现概率。\n- 根据概率反比为每个样本分配权重，使得少数类被采样的概率增加，多数类被采样的概率降低。\n- 无需手动创建新的平衡数据集，也避免了简单复制导致的过拟合风险。","某医疗 AI 团队正在开发基于深度学习的罕见皮肤病变识别系统，训练数据中正常皮肤样本数量是病变样本的二十倍。\n\n### 没有 imbalanced-dataset-sampler 时\n- 模型严重偏向多数类，倾向于将所有图像预测为“正常”，导致病变漏诊率极高。\n- 若手动复制少数类样本来平衡数据，模型容易死记硬背这些重复图片，引发过拟合。\n- 若随机删除大量正常样本以凑齐比例，会丢失宝贵的特征信息，降低整体泛化能力。\n- 需要编写复杂的自定义代码来动态计算采样权重，增加了工程维护成本。\n\n### 使用 imbalanced-dataset-sampler 后\n- 自动根据类别出现概率逆序分配采样权重，让模型在训练中平等关注罕见病变与正常样本。\n- 无需物理复制或丢弃数据，直接在 DataLoader 层面实现动态重采样，完整保留原始数据集信息。\n- 结合数据增强技术使用时，有效缓解了因简单复制少数类样本而导致的过拟合问题。\n- 仅需一行代码即可集成到现有 PyTorch 流程中，显著提升了少数类（如恶性病变）的召回率。\n\nimbalanced-dataset-sampler 通过智能的动态采样机制，在不破坏数据完整性的前提下，彻底解决了类别不平衡导致的模型偏见难题。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fufoym_imbalanced-dataset-sampler_cf147707.png","ufoym","Ming","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fufoym_2ee9d1af.jpg","PhD@SYSU -> Researcher@CVTE","CVTE Research",null,"a@ufoym.com","https:\u002F\u002Fufoym.com","https:\u002F\u002Fgithub.com\u002Fufoym",[86],{"name":87,"color":88,"percentage":89},"Python","#3572A5",100,2324,267,"2026-03-23T20:36:19","MIT",1,"","未说明",{"notes":98,"python":96,"dependencies":99},"该工具是一个 PyTorch 采样器，用于解决数据集类别不平衡问题。安装方式为 `pip install torchsampler`。使用时需将其传递给 PyTorch DataLoader 的 sampler 参数。README 中未明确指定操作系统、Python 版本、GPU 或内存的具体需求，通常取决于用户自身的 PyTorch 运行环境及所加载模型的大小。",[100,101],"torch","torchsampler",[14,13,51],[104,105,106,107],"pytorch","imbalanced-data","image-classification","data-sampling","2026-03-27T02:49:30.150509","2026-04-06T05:38:02.923687",[111,116,121,126,131,136],{"id":112,"question_zh":113,"answer_zh":114,"source_url":115},16044,"使用 ImbalancedDatasetSampler 时遇到 NotImplementedError 错误怎么办？","这通常是因为自定义数据集没有提供获取标签的方法。你需要定义一个回调函数 callback_get_label 并传递给 Sampler。示例代码如下：\n\ndef callback_get_label(dataset, idx):\n    # 用于不平衡数据集加载器的回调函数\n    i, target = dataset[idx]\n    return int(target)\n\n然后在初始化 DataLoader 时使用：\ntrain_loader = DataLoader(dataset, ImbalancedDatasetSampler(dataset, callback_get_label=callback_get_label), batch_size=batch_size)","https:\u002F\u002Fgithub.com\u002Fufoym\u002Fimbalanced-dataset-sampler\u002Fissues\u002F18",{"id":117,"question_zh":118,"answer_zh":119,"source_url":120},16045,"使用自定义 Dataset 类时报错 'MyDataset' object has no attribute 'get_labels' 如何解决？","ImbalancedDatasetSampler 默认尝试调用数据集的 get_labels() 方法。对于自定义数据集，你有两种解决方案：\n1. 在自定义 Dataset 类中添加 get_labels 方法返回标签列表。\n2. （推荐）使用 callback_get_label 参数传递一个函数来提取标签，这样无需修改数据集类。示例：\n\ndef callback_get_label(dataset, idx):\n    _, target = dataset[idx]\n    return target\n\nsampler = ImbalancedDatasetSampler(dataset, callback_get_label=callback_get_label)","https:\u002F\u002Fgithub.com\u002Fufoym\u002Fimbalanced-dataset-sampler\u002Fissues\u002F34",{"id":122,"question_zh":123,"answer_zh":124,"source_url":125},16046,"如何通过 pip 正确安装该库以避免 FileNotFoundError？","不要手动 clone 后运行 setup.py，可以直接通过 GitHub 地址安装最新代码，命令如下：\npip install git+https:\u002F\u002Fgithub.com\u002Fufoym\u002Fimbalanced-dataset-sampler.git\n\n如果遇到权限问题，也可以尝试：\nsudo pip install .","https:\u002F\u002Fgithub.com\u002Fufoym\u002Fimbalanced-dataset-sampler\u002Fissues\u002F12",{"id":127,"question_zh":128,"answer_zh":129,"source_url":130},16047,"使用 ImageFolder 数据集时无法正确获取标签（latest commit 问题）是什么原因？","这是一个已知的代码逻辑问题。ImageFolder 的 imgs 属性返回的是包含 (路径，标签) 元组的列表。如果使用 dataset.imgs[:][1] 这种切片方式，只能获取列表第二个元素的标签，而不是所有样本的标签。\n正确的获取方式应该是列表推导式：[x[1] for x in dataset.imgs]。如果遇到问题，建议检查代码是否已修复此逻辑，或手动通过 callback_get_label 指定提取逻辑。","https:\u002F\u002Fgithub.com\u002Fufoym\u002Fimbalanced-dataset-sampler\u002Fissues\u002F32",{"id":132,"question_zh":133,"answer_zh":134,"source_url":135},16048,"该采样器是否支持图像分割任务（使用 Mask 而非单一标签）？","该采样器设计初衷是针对分类任务的单一标签。对于分割任务（每个像素都有标签），不能直接使用。但你可以通过修改数据集的 __getitem__ 方法或编写特定的 callback_get_label 函数，从 Mask 中提取一个代表性标签（例如图像中出现频率最高的类别或主要类别）来适配该采样器。具体实现参考自定义回调函数的用法。","https:\u002F\u002Fgithub.com\u002Fufoym\u002Fimbalanced-dataset-sampler\u002Fissues\u002F55",{"id":137,"question_zh":138,"answer_zh":139,"source_url":140},16049,"使用采样器后训练速度显著变慢（Too much time cost）如何优化？","性能瓶颈通常出现在生成索引的迭代器中。原代码可能使用了低效的生成器表达式。可以尝试修改 __iter__ 方法的返回语句，直接使用 multinomial 生成列表并转换为迭代器，去掉多余的 for 循环包装。优化后的代码示例：\n\nreturn iter(torch.multinomial(self.weights, self.num_samples, replacement=True).tolist())","https:\u002F\u002Fgithub.com\u002Fufoym\u002Fimbalanced-dataset-sampler\u002Fissues\u002F21",[142,146],{"id":143,"version":144,"summary_zh":81,"released_at":145},90700,"v0.1.2","2022-05-23T13:55:10",{"id":147,"version":148,"summary_zh":81,"released_at":149},90701,"v0.1.0","2022-05-18T08:12:48"]