[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-rmunro--pytorch_active_learning":3,"tool-rmunro--pytorch_active_learning":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",155373,2,"2026-04-14T11:34:08",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":78,"owner_email":79,"owner_twitter":80,"owner_website":81,"owner_url":82,"languages":83,"stars":88,"forks":89,"last_commit_at":90,"license":91,"difficulty_score":32,"env_os":92,"env_gpu":93,"env_ram":94,"env_deps":95,"category_tags":101,"github_topics":102,"view_count":32,"oss_zip_url":102,"oss_zip_packed_at":102,"status":17,"created_at":103,"updated_at":104,"faqs":105,"releases":126},7538,"rmunro\u002Fpytorch_active_learning","pytorch_active_learning","PyTorch Library for Active Learning to accompany Human-in-the-Loop Machine Learning book","pytorch_active_learning 是一个基于 PyTorch 构建的开源库，专为“人机协同机器学习”场景设计，旨在帮助开发者高效实施主动学习（Active Learning）策略。在机器学习中，标注数据往往成本高昂且耗时，该工具通过智能算法自动筛选出对模型提升最有价值的数据样本（如模型最不确定的样本、异常值或最具代表性的样本），从而让用户只需标注少量关键数据即可训练出高性能模型，显著降低数据标注成本并避免样本偏差。\n\n这款工具非常适合人工智能开发者、数据科学家以及研究人员使用，尤其是那些正在处理计算机视觉或自然语言处理任务，并希望优化数据标注流程的团队。其核心亮点在于内置了丰富的采样算法，包括最低置信度采样、熵采样、基于聚类的采样以及自适应代表采样（ATLAS）等，既支持独立使用，也能灵活组合以适应不同业务需求。此外，代码库配套了完整的实战示例，用户可以直接运行脚本体验从随机标注到主动学习介入的全过程，直观观察模型准确率随迭代提升的效果。作为《人机协同机器学习》一书的官方配套代码，pytorch_active_learning 提供了 Stand-alone 的模块化设计","pytorch_active_learning 是一个基于 PyTorch 构建的开源库，专为“人机协同机器学习”场景设计，旨在帮助开发者高效实施主动学习（Active Learning）策略。在机器学习中，标注数据往往成本高昂且耗时，该工具通过智能算法自动筛选出对模型提升最有价值的数据样本（如模型最不确定的样本、异常值或最具代表性的样本），从而让用户只需标注少量关键数据即可训练出高性能模型，显著降低数据标注成本并避免样本偏差。\n\n这款工具非常适合人工智能开发者、数据科学家以及研究人员使用，尤其是那些正在处理计算机视觉或自然语言处理任务，并希望优化数据标注流程的团队。其核心亮点在于内置了丰富的采样算法，包括最低置信度采样、熵采样、基于聚类的采样以及自适应代表采样（ATLAS）等，既支持独立使用，也能灵活组合以适应不同业务需求。此外，代码库配套了完整的实战示例，用户可以直接运行脚本体验从随机标注到主动学习介入的全过程，直观观察模型准确率随迭代提升的效果。作为《人机协同机器学习》一书的官方配套代码，pytorch_active_learning 提供了 Stand-alone 的模块化设计，便于集成到现有的 PyTorch 工作流中，是探索高效数据标注策略的理想起点。","# PyTorch Active Learning\n\nLibrary for common Active Learning methods to accompany:  \nHuman-in-the-Loop Machine Learning  \nRobert Monarch  \nManning Publications\nhttps:\u002F\u002Fwww.manning.com\u002Fbooks\u002Fhuman-in-the-loop-machine-learning  \n\nThe code is stand-alone and can be used with the book.\n\n# Active Learning methods in the library\n\nThe code currently contains methods for:\n\n*Least Confidence sampling* \n\n*Margin of Confidence sampling*\n\n*Ratio of Confidence sampling*\n\n*Entropy (classification entropy)*\n\n*Model-based outlier sampling*\n\n*Cluster-based sampling*\n\n*Representative sampling* \n\n*Adaptive Representative sampling*\n\n*Active Transfer Learning for Uncertainty Sampling*\n\n*Active Transfer Learning for Representative Sampling*\n\n*Active Transfer Learning for Adaptive Sampling (ATLAS)*\n\n\nThe book covers how to apply them indepedently, in combination, and for different use cases in Computer Vision and Natural Language Processing. It also covers strategies for sampling for real-world diversity to avoid bias.\n\n## Installation: \n\nIf you clone this repo and already have PyTorch installed, you should be able to get going immediately:\n\n`git clone https:\u002F\u002Fgithub.com\u002Frmunro\u002Fpytorch_active_learning`\n\n`cd pytorch_active_learning`  \n\n### Running Chapter 2, Getting Started with Human-in-the-Loop Machine Learning\n\n`python active_learning_basics.py`\n\nWhen you run the software, you will be prompted to classify news headlines as being disaster-related or not. The prompt will also tell you give you the option to see a precise definitions for what constitutes \"disaster-related\". You can also read those definitions in the code in the `detailed_instructions` variable: https:\u002F\u002Fgithub.com\u002Frmunro\u002Fpytorch_active_learning\u002Fblob\u002Fmaster\u002Factive_learning_basics.py\n\nAfter you have classified (annotated) enough data for evaluation and to begin training, you will see that machine learning models now train after each iteration of annotation, reporting the accuracy on your held-out evaluation data as F-Scores and AUC. \n\nAfter the initial iteration of training, which will just be on randomly-chosen data, you will start to see Active Learning kick-in to find unlabeled items that the model is confused about or are outliers with novel features. The Active Learning will be evident in the annotations, too, as the disaster-related headlines will be very rare initially, but should become around 40% of the data that you are annotating after a few iterations.\n\n\n### Running Chapter 4, Diversity Sampling\n\n`python diversity_sampling.py`\n\nThis builds on the earlier dataset. See the chapter for the details of the feature flags that allow you to sample using different types of Diversity Sampling, like Model-based Outliers, Clustering, and Representative Sampling.\n\n\n## Requirements: \nThe code assumes that you are using python3.6 or later. \n\nIf you really need to get this working on python2.\\*, please let me know: the PyTorch and Active Learning algorithms _should_ all be 2.\\* compliant and it is only python's methods for getting command-line inputs that will need to be changed (python2.\\* expects integrer inputs only). If enough people request it, then I'll try to update the code to be compatible for earlier versions of python! \n\n## Installing PyTorch:\n\n### AWS\nI recommend using the Deep Learning AMI on AWS, because PyTorch is already installed and can be activated with:  \n`source activate pytorch_p36`  \nThat should be all you need to run the program immediately.\n\nFor more details on using PyTorch on AWS, see:  \nhttps:\u002F\u002Fdocs.aws.amazon.com\u002Fdlami\u002Flatest\u002Fdevguide\u002Ftutorial-pytorch.html\n\n### Google Cloud\nI recommend using a PyTorch image for a Deep Learning virtual machine on Google Cloud, because PyTorch is already installed. Both the CPU and GPU should work:\n`pytorch-latest-cpu`\n\n`pytorch-latest-gpu`\n\nFor more details on using PyTorch on Google Cloud, see:  \nhttps:\u002F\u002Fcloud.google.com\u002Fdeep-learning-vm\u002Fdocs\u002Fimages\n\n### Microsoft Azure\nI recommend using a Data Science pre-configured virtual machine on Microsoft Azure:  \nhttps:\u002F\u002Fazure.microsoft.com\u002Fen-us\u002Fdevelop\u002Fpytorch\u002F\nThe Azure Notebook option might also be a good option, but I haven't tested it out: please let me know if you do! \n\n### Linux \u002F Mac \u002F Windows\nIf you're installing locally or on a cloud server without PyTorch pre-installed, you can use these options:  \n\nMac:  \n`conda install pytorch torchvision -c pytorch`\n\nLinux\u002FWindows:  \n `conda install pytorch torchvision cudatoolkit=9.0 -c pytorch`\n \nThese local instructions are current as of June 2019. PyTorch are great about maintaining quickstart instructions, so I recommend going there if these commands don't work for you for some reason. See \"QUICK START LOCALLY\" at:  \nhttps:\u002F\u002Fpytorch.org\u002F\n\nMac users should also make sure they are using python3.6 or later, as Mac's still ship with python2.7 by default. See above re support for 2.7 if you really require it.\n\nFor pip users, it is possible that you can install pytorch with the following commands:\n `pip3 install torch`\nor\n `pip3 install torch`\nHowever, this sometimes works and sometimes doesn't depending on the versions of various libraries and your exact operating system. That's why `conda` is recommended over `pip` on the pytorch website.\n\n\n\n## Data Sources\n\nCurrently, the data used is from the \"Million News Headlines\" dataset posted on Kaggle:  \n https:\u002F\u002Fwww.kaggle.com\u002Ftherohk\u002Fmillion-headlines\nThe data is taken from headlines from Australia's \"ABC\" news organization. They are in Austalian English, which will be closer to UK English than US English, but a complete lexical subset of UK & US English, differing only in that some words in Australian English have meanings that do not occur in UK or US English.\n \nHowever, I intend to replace it soonish. The headlines are all lower-case and stripped of all characters other than a-z and 0-9: no punctuation, accented characters, etc. Many of the headlines seem to be truncated for some reason, too. So, I will update it with a dataset that is closer to true headlines. \n\nThis dataset is perfectly fine for everything that you need to learn in this code - it is just that the resulting annotations\u002Fmodels will be less useful in real-world situations.\n\n","# PyTorch 主动学习\n\n用于常见主动学习方法的库，配套书籍：  \n《人机协作机器学习》  \n罗伯特·蒙纳克 著  \nManning 出版社  \nhttps:\u002F\u002Fwww.manning.com\u002Fbooks\u002Fhuman-in-the-loop-machine-learning  \n\n该代码为独立运行版本，可与本书配合使用。\n\n# 库中包含的主动学习方法\n\n目前代码包含以下方法：\n\n* 最小置信度采样  \n* 置信度间隔采样  \n* 置信度比值采样  \n* 熵（分类熵）  \n* 基于模型的异常点采样  \n* 基于聚类的采样  \n* 代表性采样  \n* 自适应代表性采样  \n* 面向不确定性采样的主动迁移学习  \n* 面向代表性采样的主动迁移学习  \n* 面向自适应采样的主动迁移学习（ATLAS）  \n\n书中详细介绍了如何单独使用这些方法、组合使用它们，以及在计算机视觉和自然语言处理领域中的不同应用场景。此外，还探讨了如何通过采样策略实现真实世界的多样性，从而避免偏差。\n\n## 安装：\n\n如果您克隆此仓库并已安装 PyTorch，则应能立即开始使用：\n\n`git clone https:\u002F\u002Fgithub.com\u002Frmunro\u002Fpytorch_active_learning`\n\n`cd pytorch_active_learning`  \n\n### 运行第2章：人机协作机器学习入门\n\n`python active_learning_basics.py`\n\n运行程序时，系统会提示您将新闻标题分类为与灾害相关或不相关。同时，系统还会提供“与灾害相关”的精确定义供您参考。您也可以在代码中的 `detailed_instructions` 变量中查看这些定义：https:\u002F\u002Fgithub.com\u002Frmunro\u002Fpytorch_active_learning\u002Fblob\u002Fmaster\u002Factive_learning_basics.py\n\n在完成足够多的数据标注以进行评估并开始训练后，您会发现机器学习模型会在每次标注迭代后进行训练，并以 F1 分数和 AUC 值报告在保留验证集上的准确率。  \n\n初始训练阶段仅基于随机选择的数据，随后主动学习机制将开始发挥作用，寻找模型难以区分或具有新颖特征的未标注样本。这一过程也会体现在标注过程中：最初与灾害相关的标题非常稀少，但经过几次迭代后，其占比应逐渐上升至约 40%。\n\n### 运行第4章：多样性采样\n\n`python diversity_sampling.py`\n\n本示例基于前面的数据集。请参阅相应章节，了解可用于执行不同类型多样性采样的功能标志，例如基于模型的异常点采样、聚类采样和代表性采样。\n\n## 系统要求：\n代码假设您使用的是 Python 3.6 或更高版本。  \n\n如果您确实需要在 Python 2.* 上运行，请告知我：PyTorch 和主动学习算法本身 _应该_ 兼容 2.* 版本，只需修改 Python 获取命令行输入的方式即可（Python 2.* 仅接受整数输入）。如果需求足够多，我会尝试更新代码以兼容更早版本的 Python！\n\n## 安装 PyTorch：\n\n### AWS\n建议使用 AWS 的深度学习 AMI，因为其中已预装 PyTorch，可通过以下命令激活：  \n`source activate pytorch_p36`  \n这样您就可以立即运行程序了。\n\n有关在 AWS 上使用 PyTorch 的更多信息，请参阅：  \nhttps:\u002F\u002Fdocs.aws.amazon.com\u002Fdlami\u002Flatest\u002Fdevguide\u002Ftutorial-pytorch.html\n\n### Google Cloud\n建议使用 Google Cloud 上的 PyTorch 镜像作为深度学习虚拟机，因为其中已预装 PyTorch。CPU 和 GPU 均可正常工作：\n`pytorch-latest-cpu`\n\n`pytorch-latest-gpu`\n\n有关在 Google Cloud 上使用 PyTorch 的更多信息，请参阅：  \nhttps:\u002F\u002Fcloud.google.com\u002Fdeep-learning-vm\u002Fdocs\u002Fimages\n\n### Microsoft Azure\n建议使用 Microsoft Azure 上的预配置数据科学虚拟机：  \nhttps:\u002F\u002Fazure.microsoft.com\u002Fen-us\u002Fdevelop\u002Fpytorch\u002F\nAzure Notebook 选项也可能是一个不错的选择，但我尚未测试过；如果您试用过，请告知我！\n\n### Linux \u002F Mac \u002F Windows\n如果您是在本地或云服务器上安装，且未预装 PyTorch，可以使用以下方法：\n\nMac：  \n`conda install pytorch torchvision -c pytorch`\n\nLinux\u002FWindows：  \n`conda install pytorch torchvision cudatoolkit=9.0 -c pytorch`\n\n以上本地安装说明截至 2019 年 6 月。PyTorch 经常更新快速入门指南，因此如果这些命令因某种原因无法正常工作，建议直接访问官方文档。请参阅：  \nhttps:\u002F\u002Fpytorch.org\u002F\n\nMac 用户还应确保使用 Python 3.6 或更高版本，因为 Mac 默认仍搭载 Python 2.7。如确需支持 Python 2.7，请参阅上述相关内容。\n\n对于使用 pip 的用户，也可以尝试通过以下命令安装 PyTorch：\n`pip3 install torch`\n或\n`pip3 install torch`\n不过，具体能否成功取决于各类库的版本以及您的操作系统，因此 PyTorch 官网推荐优先使用 conda 而不是 pip。\n\n\n## 数据来源\n\n目前使用的数据来自 Kaggle 上发布的“百万新闻标题”数据集：  \nhttps:\u002F\u002Fwww.kaggle.com\u002Ftherohk\u002Fmillion-headlines  \n该数据来源于澳大利亚 ABC 新闻机构的新闻标题。这些标题采用澳式英语，与英式英语更为接近，而与美式英语则存在细微差异；总体而言，澳式英语词汇是英式和美式英语的子集，仅在少数单词的含义上有所不同，这些含义在英美两国并不常见。\n\n不过，我计划尽快更换数据集。当前数据集中的标题均为小写，且仅保留 a-z 和 0-9 字符，去除了标点符号、带重音的字符等。此外，许多标题似乎也被截断了。因此，我将用更贴近真实新闻标题的数据集来替换现有数据。  \n\n尽管如此，该数据集完全足以满足本代码的学习需求——只是由此生成的标注和模型在实际应用中的实用性会相对较低。","# PyTorch Active Learning 快速上手指南\n\n本工具库提供了多种主动学习（Active Learning）算法的实现，配套书籍《Human-in-the-Loop Machine Learning》使用。它支持不确定性采样、多样性采样及主动迁移学习等策略，适用于计算机视觉和自然语言处理场景。\n\n## 环境准备\n\n*   **操作系统**：Linux, macOS, Windows\n*   **Python 版本**：Python 3.6 或更高版本（macOS 用户请注意系统默认通常为 Python 2.7，需手动指定 python3）。\n*   **核心依赖**：PyTorch, torchvision\n*   **数据来源**：示例默认使用 Kaggle 的 \"Million News Headlines\" 数据集（代码运行时可能需自行下载或按提示操作）。\n\n> **国内加速建议**：\n> 推荐使用清华或中科大镜像源安装 Conda 包，以提升下载速度。\n> *   清华镜像配置：`conda config --add channels https:\u002F\u002Fmirrors.tuna.tsinghua.edu.cn\u002Fanaconda\u002Fpkgs\u002Fmain\u002F`\n\n## 安装步骤\n\n### 1. 克隆项目代码\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Frmunro\u002Fpytorch_active_learning\ncd pytorch_active_learning\n```\n\n### 2. 安装 PyTorch 依赖\n如果您尚未安装 PyTorch，请根据系统选择以下命令（推荐优先使用 `conda`）：\n\n**macOS:**\n```bash\nconda install pytorch torchvision -c pytorch\n```\n\n**Linux \u002F Windows (CPU 版本):**\n```bash\nconda install pytorch torchvision cpuonly -c pytorch\n```\n\n**Linux \u002F Windows (GPU 版本，需根据实际 CUDA 版本调整):**\n```bash\nconda install pytorch torchvision cudatoolkit=11.8 -c pytorch -c nvidia\n```\n*(注：原 README 中的 cudatoolkit=9.0 已过时，建议使用上述较新版本或访问 pytorch.org 获取最新指令)*\n\n若必须使用 `pip` 安装：\n```bash\npip3 install torch torchvision\n```\n\n## 基本使用\n\n### 示例：入门主动学习（第 2 章）\n运行基础脚本，系统将引导您对新闻标题进行灾难相关性分类标注。模型会在每次标注迭代后重新训练，并展示 F-Score 和 AUC 指标。初始阶段为随机采样，随后自动切换为主动学习策略（如选取模型最不确定的样本）。\n\n```bash\npython active_learning_basics.py\n```\n*运行后跟随终端提示进行操作即可。*\n\n### 示例：多样性采样（第 4 章）\n基于已有数据集，演示基于模型异常值、聚类及代表性采样等多样性策略。\n\n```bash\npython diversity_sampling.py\n```\n\n### 支持的算法列表\n本库内置了以下主动学习方法，可通过代码参数调用：\n*   最低置信度采样 (Least Confidence)\n*   置信度边界采样 (Margin of Confidence)\n*   置信度比率采样 (Ratio of Confidence)\n*   熵采样 (Entropy)\n*   基于模型的异常值采样 (Model-based outlier)\n*   基于聚类的采样 (Cluster-based)\n*   代表性采样 (Representative)\n*   自适应代表性采样 (Adaptive Representative)\n*   主动迁移学习系列 (Active Transfer Learning for Uncertainty\u002FRepresentative\u002FAdaptive Sampling)","某初创医疗科技公司正致力于构建一个罕见皮肤病变图像分类系统，但面临专业医生标注时间昂贵且初期正样本极少的困境。\n\n### 没有 pytorch_active_learning 时\n- **标注资源浪费严重**：团队采用随机采样策略，导致医生花费大量时间标注大量模型早已能准确判断的常见良性病变，效率极低。\n- **关键样本遗漏**：由于罕见病变在数据集中占比不足 1%，随机抽样很难覆盖到这些对模型训练至关重要的“边缘案例”，导致模型长期无法识别重症。\n- **迭代周期漫长**：每次重新训练都需要等待大批量人工标注完成，无法根据模型当前的困惑点动态调整标注优先级，项目上线被迫推迟数月。\n- **数据分布偏差**：缺乏多样性采样机制，收集到的数据集中在某些特定拍摄角度或肤色类型，导致模型在实际复杂场景中泛化能力差。\n\n### 使用 pytorch_active_learning 后\n- **智能聚焦疑难样本**：利用熵采样（Entropy）和置信度边界（Margin of Confidence）策略，系统自动筛选出模型最“犹豫”的图像优先送审，医生标注效率提升 3 倍。\n- **主动挖掘稀有病例**：通过基于模型的异常值采样（Model-based outlier sampling），主动从海量未标注数据中揪出罕见的恶性病变特征，显著加速了模型对重症的学习。\n- **人机闭环快速迭代**：每完成一小批标注，模型即刻重训并更新下一轮采样策略，实现了“标注 - 训练 - 优化”的分钟级闭环，大幅缩短研发周期。\n- **保障数据多样性**：结合聚类采样（Cluster-based sampling）和代表性采样，确保入选标注的数据覆盖不同光照、角度和人群，有效消除了模型偏见。\n\npytorch_active_learning 通过将“被动等待标注”转变为“主动引导标注”，用最少的人工成本解决了数据稀缺与分布不均的核心难题。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Frmunro_pytorch_active_learning_b06b2a9d.png","rmunro","Robert (Munro) Monarch","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Frmunro_3f6b34cd.png","Machine Learning Executive. Past & Future: Coder ⇨ Bicycle Traveler ⇨ Disaster Response Leader ⇨ Stanford PhD ⇨ AI Exec ⇨ Sentient Bot","Apple","San Francisco","robert.munro@gmail.com","wwrob","www.robertmonarch.com","https:\u002F\u002Fgithub.com\u002Frmunro",[84],{"name":85,"color":86,"percentage":87},"Python","#3572A5",100,985,182,"2026-04-13T05:29:30","MIT","Linux, macOS, Windows","非必需（支持 CPU 和 GPU），若使用 GPU 需配合 CUDA 9.0（基于文中提供的 conda 安装命令推断）","未说明",{"notes":96,"python":97,"dependencies":98},"建议使用 conda 而非 pip 安装 PyTorch 以确保兼容性。在 macOS 上需确认默认 Python 版本为 3.6 或更高（系统默认为 2.7）。代码目前基于 2019 年 6 月的指令，若安装失败请参考 PyTorch 官网最新指南。数据集来自 Kaggle 的'Million News Headlines'，主要为澳大利亚英语新闻标题。","3.6+",[99,100],"torch","torchvision",[14,16],null,"2026-03-27T02:49:30.150509","2026-04-15T06:56:43.481249",[106,111,116,121],{"id":107,"question_zh":108,"answer_zh":109,"source_url":110},33799,"我可以为这个仓库贡献什么内容？","欢迎贡献任何您感兴趣的内容！目前仓库中尚未包含使用蒙特卡洛采样（贝叶斯深度学习）的流行方法，这是一个有趣的补充方向。虽然只需增加几十行代码来包含 Dropout 并处理结果，但要确保其完全正确运行可能具有一定挑战性。","https:\u002F\u002Fgithub.com\u002Frmunro\u002Fpytorch_active_learning\u002Fissues\u002F4",{"id":112,"question_zh":113,"answer_zh":114,"source_url":115},33800,"有没有推荐的用户界面（UI）工具可以加速主动学习的标注过程？","有用户推荐使用 trunklucator 库来优化标注体验。您可以通过命令 `pip install trunklucator` 进行安装。该库已被项目维护者在最新章节中参考采用，用于改进用户交互界面。","https:\u002F\u002Fgithub.com\u002Frmunro\u002Fpytorch_active_learning\u002Fissues\u002F2",{"id":117,"question_zh":118,"answer_zh":119,"source_url":120},33801,"书中关于 high_uncertainty_cluster 的代码是否存在错误？","是的，存在错误。在《Human-in-the-Loop-Machine-learning》第 151 页的代码中，累加不确定性时应使用 `total_uncertainty += score` 而不是 `total_uncertainty += 1.0`。原写法会导致平均不确定性恒定为 1.0。该错误已在书籍和代码库中确认并修正。","https:\u002F\u002Fgithub.com\u002Frmunro\u002Fpytorch_active_learning\u002Fissues\u002F7",{"id":122,"question_zh":123,"answer_zh":124,"source_url":125},33802,"这个项目的开源许可证是什么？","该项目现已添加 MIT 许可证，正式成为开源项目。用户可以自由使用、修改和分发代码。","https:\u002F\u002Fgithub.com\u002Frmunro\u002Fpytorch_active_learning\u002Fissues\u002F3",[]]