[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-megvii-research--BBN":3,"tool-megvii-research--BBN":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",147882,2,"2026-04-09T11:32:47",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108111,"2026-04-08T11:23:26",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":77,"owner_url":78,"languages":79,"stars":84,"forks":85,"last_commit_at":86,"license":87,"difficulty_score":88,"env_os":89,"env_gpu":90,"env_ram":91,"env_deps":92,"category_tags":99,"github_topics":76,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":100,"updated_at":101,"faqs":102,"releases":137},5922,"megvii-research\u002FBBN","BBN","The official PyTorch implementation of paper BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition","BBN 是一个基于 PyTorch 开发的开源深度学习项目，源自 CVPR 2020 的口头报告论文。它专为解决计算机视觉中的“长尾分布”难题而设计。在现实世界的图像数据中，各类别的样本数量往往极度不平衡（即少数类样本极少，多数类样本极多），这导致传统模型难以准确识别稀有类别。BBN 通过其核心的“双边分支网络”架构配合“累积学习”策略，有效平衡了特征学习与分类器优化的过程，显著提升了模型在不平衡数据集上的识别精度。\n\n该项目主要面向人工智能研究人员、算法工程师及计算机视觉领域的开发者。如果你正在处理如 iNaturalist 或 CIFAR 等存在严重类别不平衡的数据集，并希望复现前沿学术成果或优化现有模型，BBN 提供了完整的训练代码、预训练模型及详细的数据格式转换工具。其技术亮点在于独特的双分支结构，能够分别处理通用特征提取与针对长尾分布的分类校准，是探索不平衡学习领域极具参考价值的基准实现。用户只需具备基础的 Python 和 PyTorch 环境，即可根据配置文件灵活调整实验参数，快速开展相关研究。","## BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition\nBoyan Zhou, Quan Cui, Xiu-Shen Wei*, Zhao-Min Chen\n\nThis repository is the official PyTorch implementation of paper [BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition](https:\u002F\u002Farxiv.org\u002Fabs\u002F1912.02413). (The work has been accepted by [CVPR2020](http:\u002F\u002Fcvpr2020.thecvf.com\u002F), **Oral Presentation**)\n\n## Main requirements\n\n  * **torch == 1.0.1**\n  * **torchvision == 0.2.2_post3**\n  * **tensorboardX == 1.8**\n  * **Python 3**\n\n## Environmental settings\nThis repository is developed using python **3.5.2\u002F3.6.7** on Ubuntu **16.04.5 LTS**. The CUDA nad CUDNN version is **9.0** and **7.1.3** respectively. For Cifar experiments, we use **one NVIDIA 1080ti GPU card** for training and testing. (**four cards for iNaturalist ones**). Other platforms or GPU cards are not fully tested.\n\n## Pretrain models for iNaturalist\n\nWe provide the BBN pretrain models of both 1x scheduler and 2x scheduler for iNaturalist 2018 and iNaturalist 2017.\n\niNaturalist 2018: [Baidu Cloud](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1olDppTptZ5HYWsgQsMCPLQ), [Google Drive](https:\u002F\u002Fdrive.google.com\u002Fopen?id=1B9ZEfMHqE-KQRKX6nQLQRm8ErFrnHaoE)\n\niNaturalist 2017: [Baidu Cloud](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1soxsHKKblhapew_wuEdKPQ), [Google Drive](https:\u002F\u002Fdrive.google.com\u002Fopen?id=1yHme1iFQy-Lz_11yZJPlNd9bO_YPKlEU)\n\n## Usage\n```bash\n# To train long-tailed CIFAR-10 with imbalanced ratio of 50:\npython main\u002Ftrain.py  --cfg configs\u002Fcifar10.yaml     \n\n# To validate with the best model:\npython main\u002Fvalid.py  --cfg configs\u002Fcifar10.yaml\n\n# To debug with CPU mode:\npython main\u002Ftrain.py  --cfg configs\u002Fcifar10.yaml   CPU_MODE True\n```\n\nYou can change the experimental setting by simply modifying the parameter in the yaml file.\n\n## Data format\n\nThe annotation of a dataset is a dict consisting of two field: `annotations` and `num_classes`.\nThe field `annotations` is a list of dict with\n`image_id`, `fpath`, `im_height`, `im_width` and `category_id`.\n\nHere is an example.\n```\n{\n    'annotations': [\n                    {\n                        'image_id': 1,\n                        'fpath': '\u002Fhome\u002FBBN\u002FiNat18\u002Fimages\u002Ftrain_val2018\u002FPlantae\u002F7477\u002F3b60c9486db1d2ee875f11a669fbde4a.jpg',\n                        'im_height': 600,\n                        'im_width': 800,\n                        'category_id': 7477\n                    },\n                    ...\n                   ]\n    'num_classes': 8142\n}\n```\nYou can use the following code to convert from the original format of iNaturalist. \nThe images and annotations can be downloaded at [iNaturalist 2018](https:\u002F\u002Fgithub.com\u002Fvisipedia\u002Finat_comp\u002Fblob\u002Fmaster\u002F2018\u002FREADME.md) and [iNaturalist 2017](https:\u002F\u002Fgithub.com\u002Fvisipedia\u002Finat_comp\u002Fblob\u002Fmaster\u002F2017\u002FREADME.md)\n\n```bash\n# Convert from the original format of iNaturalist\npython tools\u002Fconvert_from_iNat.py --file train2018.json --root \u002Fhome\u002FiNat18\u002Fimages --sp \u002Fhome\u002FBBN\u002Fjsons\n```\n\n\n## Citing this repository\nIf you find this code useful in your research, please consider citing us:\n```\n@article{zhou2020BBN,\n\ttitle={{BBN}: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition},\n\tauthor={Boyan Zhou and Quan Cui and Xiu-Shen Wei and Zhao-Min Chen},\n\tbooktitle={CVPR},\n\tpages={1--8},\n\tyear={2020}\n}\n```\n\n## Contacts\nIf you have any questions about our work, please do not hesitate to contact us by emails.\n\nXiu-Shen Wei: weixs.gm@gmail.com\n\nBoyan Zhou: zhouboyan94@gmail.com\n\nQuan Cui: cui-quan@toki.waseda.jp\n","## BBN：用于长尾视觉识别的累积学习双边分支网络\n周博彦、崔权、魏秀申*、陈兆民\n\n本仓库是论文《BBN：用于长尾视觉识别的累积学习双边分支网络》（https:\u002F\u002Farxiv.org\u002Fabs\u002F1912.02413）的官方 PyTorch 实现。（该工作已被 [CVPR2020](http:\u002F\u002Fcvpr2020.thecvf.com\u002F) 接受，**口头报告**）\n\n## 主要依赖\n\n  * **torch == 1.0.1**\n  * **torchvision == 0.2.2_post3**\n  * **tensorboardX == 1.8**\n  * **Python 3**\n\n## 环境配置\n本仓库是在 Ubuntu **16.04.5 LTS** 上使用 Python **3.5.2\u002F3.6.7** 开发的。CUDA 和 cuDNN 的版本分别为 **9.0** 和 **7.1.3**。对于 CIFAR 数据集的实验，我们使用 **一块 NVIDIA 1080ti 显卡** 进行训练和测试。（iNaturalist 数据集则使用 **四块显卡**）。其他平台或显卡尚未经过全面测试。\n\n## iNaturalist 数据集的预训练模型\n我们提供了 iNaturalist 2018 和 iNaturalist 2017 数据集的 BBN 预训练模型，分别对应 1x 和 2x 学习率调度器。\n\niNaturalist 2018：[百度网盘](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1olDppTptZ5HYWsgQsMCPLQ)、[Google Drive](https:\u002F\u002Fdrive.google.com\u002Fopen?id=1B9ZEfMHqE-KQRKX6nQLQRm8ErFrnHaoE)\n\niNaturalist 2017：[百度网盘](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1soxsHKKblhapew_wuEdKPQ)、[Google Drive](https:\u002F\u002Fdrive.google.com\u002Fopen?id=1yHme1iFQy-Lz_11yZJPlNd9bO_YPKlEU)\n\n## 使用方法\n```bash\n# 使用不平衡比为 50 的长尾 CIFAR-10 数据集进行训练：\npython main\u002Ftrain.py  --cfg configs\u002Fcifar10.yaml     \n\n# 使用最佳模型进行验证：\npython main\u002Fvalid.py  --cfg configs\u002Fcifar10.yaml\n\n# 在 CPU 模式下调试：\npython main\u002Ftrain.py  --cfg configs\u002Fcifar10.yaml   CPU_MODE True\n```\n\n您可以通过修改 YAML 配置文件中的参数来调整实验设置。\n\n## 数据格式\n\n数据集的标注是一个字典，包含两个字段：`annotations` 和 `num_classes`。\n其中，`annotations` 是一个列表，每个元素是一个字典，包含 `image_id`、`fpath`、`im_height`、`im_width` 和 `category_id`。\n\n以下是一个示例：\n```\n{\n    'annotations': [\n                    {\n                        'image_id': 1,\n                        'fpath': '\u002Fhome\u002FBBN\u002FiNat18\u002Fimages\u002Ftrain_val2018\u002FPlantae\u002F7477\u002F3b60c9486db1d2ee875f11a669fbde4a.jpg',\n                        'im_height': 600,\n                        'im_width': 800,\n                        'category_id': 7477\n                    },\n                    ...\n                   ]\n    'num_classes': 8142\n}\n```\n\n您可以使用以下代码将 iNaturalist 的原始格式转换为所需格式。图像和标注可从 [iNaturalist 2018](https:\u002F\u002Fgithub.com\u002Fvisipedia\u002Finat_comp\u002Fblob\u002Fmaster\u002F2018\u002FREADME.md) 和 [iNaturalist 2017](https:\u002F\u002Fgithub.com\u002Fvisipedia\u002Finat_comp\u002Fblob\u002Fmaster\u002F2017\u002FREADME.md) 下载。\n\n```bash\n# 从 iNaturalist 原始格式转换\npython tools\u002Fconvert_from_iNat.py --file train2018.json --root \u002Fhome\u002FiNat18\u002Fimages --sp \u002Fhome\u002FBBN\u002Fjsons\n```\n\n\n## 引用本仓库\n如果您在研究中使用了本代码，请考虑引用我们：\n```\n@article{zhou2020BBN,\n\ttitle={{BBN}: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition},\n\tauthor={Boyan Zhou and Quan Cui and Xiu-Shen Wei and Zhao-Min Chen},\n\tbooktitle={CVPR},\n\tpages={1--8},\n\tyear={2020}\n}\n```\n\n## 联系方式\n如对我们的工作有任何疑问，请随时通过电子邮件与我们联系。\n\n魏秀申：weixs.gm@gmail.com\n\n周博彦：zhouboyan94@gmail.com\n\n崔权：cui-quan@toki.waseda.jp","# BBN 快速上手指南\n\nBBN (Bilateral-Branch Network) 是一个用于长尾视觉识别的双分支网络，支持累积学习。本项目基于 PyTorch 实现，曾发表于 CVPR 2020 (Oral)。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求。本项目主要在 Ubuntu 16.04 LTS + Python 3.5\u002F3.6 环境下开发测试。\n\n*   **操作系统**: Ubuntu 16.04.5 LTS (推荐)\n*   **Python 版本**: 3.5.2 或 3.6.7\n*   **GPU 驱动**: CUDA 9.0, cuDNN 7.1.3\n*   **硬件建议**:\n    *   CIFAR 实验：1 张 NVIDIA 1080ti\n    *   iNaturalist 实验：4 张 NVIDIA 1080ti\n\n### 核心依赖库\n请安装以下特定版本的依赖，以保证复现效果：\n*   `torch == 1.0.1`\n*   `torchvision == 0.2.2_post3`\n*   `tensorboardX == 1.8`\n\n> **提示**：国内用户建议使用清华源或阿里源加速安装。例如：\n> `pip install torch==1.0.1 torchvision==0.2.2_post3 tensorboardX==1.8 -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n\n## 安装步骤\n\n1.  **克隆代码仓库**\n    ```bash\n    git clone \u003Crepository_url>\n    cd BBN\n    ```\n\n2.  **安装依赖**\n    确保已安装对应版本的 PyTorch 后，安装其他必要包：\n    ```bash\n    pip install tensorboardX==1.8\n    ```\n\n3.  **数据准备 (可选)**\n    若使用 iNaturalist 数据集，需先将原始标注格式转换为 BBN 所需格式。\n    下载图片与标注文件后，运行以下命令转换：\n    ```bash\n    python tools\u002Fconvert_from_iNat.py --file train2018.json --root \u002Fhome\u002FiNat18\u002Fimages --sp \u002Fhome\u002FBBN\u002Fjsons\n    ```\n    *注：如需预训练模型，可从提供的百度网盘或 Google Drive 链接下载。*\n\n## 基本使用\n\n配置文件位于 `configs\u002F` 目录下，修改 YAML 文件即可调整实验参数。\n\n### 1. 训练模型\n以不平衡比为 50 的长尾 CIFAR-10 数据集为例：\n```bash\npython main\u002Ftrain.py  --cfg configs\u002Fcifar10.yaml\n```\n\n### 2. 验证模型\n使用训练得到的最佳模型进行验证：\n```bash\npython main\u002Fvalid.py  --cfg configs\u002Fcifar10.yaml\n```\n\n### 3. CPU 调试模式\n若无 GPU 环境，可开启 CPU 模式进行调试：\n```bash\npython main\u002Ftrain.py  --cfg configs\u002Fcifar10.yaml   CPU_MODE True\n```\n\n### 数据格式说明\n自定义数据集的标注文件需为字典格式，包含 `annotations` (列表) 和 `num_classes` (整数)。\n`annotations` 列表中每个元素需包含：`image_id`, `fpath`, `im_height`, `im_width`, `category_id`。","某生物科技公司正在构建一个基于 iNaturalist 数据的珍稀植物自动识别系统，但面临训练数据中常见物种图片成千上万，而稀有物种图片仅有几十张的极端“长尾”分布难题。\n\n### 没有 BBN 时\n- **模型严重偏科**：传统卷积神经网络被海量常见物种数据主导，导致对稀有植物的识别准确率极低，几乎无法区分相似品种。\n- **特征学习失衡**：网络难以从少量样本中提取有效特征，往往直接将所有稀有类别预测为高频类别以“骗取”整体准确率。\n- **调优成本高昂**：团队尝试过重采样和损失函数加权等多种策略，但始终无法在保持常见类精度的同时提升尾部类别的表现，项目陷入停滞。\n\n### 使用 BBN 后\n- **双分支协同训练**：利用 BBN 独特的双侧分支结构，一边专注于学习通用特征，另一边专门针对长尾分布进行累积学习，显著提升了稀有植物的识别能力。\n- **动态平衡精度**：通过累积学习策略，模型在不牺牲常见物种高准确率的前提下，将稀有类别的平均召回率提升了 15% 以上。\n- **开箱即用高效**：直接加载官方提供的 iNaturalist 预训练模型并微调配置文件，无需从头设计复杂的平衡算法，一周内即可完成模型迭代并部署测试。\n\nBBN 通过创新的双支路累积学习机制，彻底解决了长尾视觉识别中“顾头不顾尾”的痛点，让稀缺数据也能发挥巨大价值。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmegvii-research_BBN_6426f45e.png","megvii-research","MEGVII Research","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmegvii-research_9dd88987.png","Power Human with AI. 持续创新拓展认知边界 非凡科技成就产品价值",null,"https:\u002F\u002Fwww.megvii.com\u002F","https:\u002F\u002Fgithub.com\u002Fmegvii-research",[80],{"name":81,"color":82,"percentage":83},"Python","#3572A5",100,670,104,"2026-03-27T08:56:48","MIT",4,"Linux","需要 NVIDIA GPU，开发环境使用 CUDA 9.0 和 cuDNN 7.1.3。CIFAR 实验需 1 张 NVIDIA 1080ti，iNaturalist 实验需 4 张 NVIDIA 1080ti。","未说明",{"notes":93,"python":94,"dependencies":95},"该工具主要在 Ubuntu 16.04.5 LTS 上开发，其他平台或显卡型号未经过充分测试。支持通过修改 YAML 配置文件调整实验参数。提供针对 iNaturalist 2017\u002F2018 数据集的预训练模型下载链接。数据标注需转换为特定的字典格式（包含 annotations 和 num_classes 字段）。","3.5.2 或 3.6.7",[96,97,98],"torch==1.0.1","torchvision==0.2.2_post3","tensorboardX==1.8",[15,14],"2026-03-27T02:49:30.150509","2026-04-09T23:50:26.201531",[103,108,113,118,123,128,133],{"id":104,"question_zh":105,"answer_zh":106,"source_url":107},26870,"百度网盘的预训练模型链接失效或无法访问怎么办？","由于地区限制（如台湾地区）或链接过期，百度网盘链接可能无法使用。维护者已更新 README，提供了 Google Drive 的下载链接作为替代方案，请尝试使用新的 Google Drive 链接下载权重文件。此外，论文主要使用 iNaturalist 2017 和 2018 作为基准数据集，可能没有提供 2019 版本的预训练权重。","https:\u002F\u002Fgithub.com\u002Fmegvii-research\u002FBBN\u002Fissues\u002F1",{"id":109,"question_zh":110,"answer_zh":111,"source_url":112},26871,"代码中的特征融合方式（拼接 concat）与论文描述（逐元素相加 addition）不一致，原因是什么？","文章和代码在逻辑上是一致的。代码中将两个分支的特征通过拼接（concatenate）后输入到一个分类器中，这等效于论文中描述的两个分类器的组合。具体来说，代码实现是将两个分类器合并为一个，通过拼接特征来模拟双分支的输出。公式 `mixed_feature = 2 * torch.cat((l * feature_a, (1 - l) * feature_b), dim=1)` 中的系数 2 是为了确保梯度与默认的组合器保持一致（例如当两个采样器采样相同图片且 l=0.5 时）。","https:\u002F\u002Fgithub.com\u002Fmegvii-research\u002FBBN\u002Fissues\u002F2",{"id":114,"question_zh":115,"answer_zh":116,"source_url":117},26872,"在 iNaturalist'18 数据集上的训练硬件配置和单 epoch 耗时是多少？如何加速训练？","实验使用的是 4 张 NVIDIA 1080ti GPU，CUDA 版本 9.0，CUDNN 版本 7.1.3。由于使用了双采样器每次采样两个批次的数据，训练时间比基线实验长（约 26 分钟 vs 15 分钟）。加速训练的技巧包括：1) 早停（early stop），因为 BBN 的最佳 epoch 通常不是最后一个；2) 将两个批次的数据拼接后输入共享网络，然后再拆分处理。","https:\u002F\u002Fgithub.com\u002Fmegvii-research\u002FBBN\u002Fissues\u002F8",{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},26873,"无法复现论文中的 CIFAR-10 结果，以及 `imb_type` 参数的含义是什么？","要复现结果，请确保环境设置与论文一致（推荐：torch==1.0.1, torchvision==0.2.2_post3, tensorboardX==1.8, Python 3）。关于 `imb_type` 参数：代码使用了 LDAM 的代码来生成不平衡的 CIFAR 数据集以保证公平性，`imb_type` 代表生成不平衡数据集的不同方式（如 'exp', 'step'）。实际上在复现时可以忽略该参数的具体设置，保持默认即可。如果仍有问题，建议检查日志并与作者联系。","https:\u002F\u002Fgithub.com\u002Fmegvii-research\u002FBBN\u002Fissues\u002F4",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},26874,"训练过程中 Loss 曲线出现异常波动（如先升高后降低）的原因是什么？","这是正常现象。BBN 的两个分支分别关注头部类别（head class）和尾部类别（tail class）。常规分支倾向于将图片分类为头部类，而重平衡分支倾向于尾部类。随着累积学习策略（cumulative learning strategy）的进行，学习焦点逐渐从常规分支转移到重平衡分支，导致两个分支在中间阶段（如 60-80 epoch）产生冲突，从而使 Loss 暂时升高。随着优化继续，冲突会逐渐消失，Loss 会下降。建议将合并的全连接层（fc）拆分为两部分，分别观察两个分支的准确率或 Loss 以验证此现象。","https:\u002F\u002Fgithub.com\u002Fmegvii-research\u002FBBN\u002Fissues\u002F3",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},26875,"运行代码时遇到 `shutil.Error: [Errno 13] Permission denied` 错误如何解决？","该错误通常是由于权限不足导致的，特别是在尝试将代码文件复制到输出目录时（例如 `.\u002Foutput\u002F...\u002Fcodes\u002Frequirements.txt`）。这与 CUDA 版本无关。解决方法是检查输出目录的写入权限，确保当前用户有权限在该目录下创建文件和文件夹。可以尝试以管理员身份运行终端，或者手动更改输出目录的权限（chmod）。","https:\u002F\u002Fgithub.com\u002Fmegvii-research\u002FBBN\u002Fissues\u002F40",{"id":134,"question_zh":135,"answer_zh":136,"source_url":117},26876,"在使用其他数据集时，如何确定总的训练 epoch 数和 `LR_STEP` 参数？","虽然官方回复未直接给出通用公式，但根据 iNaturalist 的经验，最佳 epoch 通常不是最后一个，建议使用早停策略。对于 `LR_STEP`（学习率调整步长），通常需要根据数据集大小和总 epoch 数按比例调整。参考基线实验的设置，如果数据集规模变化不大，可沿用原有比例；若规模差异大，建议参考类似长尾分布论文的设定或通过小规模实验搜索最佳学习率调度策略。",[]]