[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-alex000kim--nsfw_data_scraper":3,"tool-alex000kim--nsfw_data_scraper":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":80,"owner_email":81,"owner_twitter":79,"owner_website":82,"owner_url":83,"languages":84,"stars":97,"forks":98,"last_commit_at":99,"license":100,"difficulty_score":23,"env_os":101,"env_gpu":102,"env_ram":102,"env_deps":103,"category_tags":107,"github_topics":108,"view_count":23,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":115,"updated_at":116,"faqs":117,"releases":148},1349,"alex000kim\u002Fnsfw_data_scraper","nsfw_data_scraper","Collection of scripts to aggregate image data for the purposes of training an NSFW Image Classifier","nsfw_data_scraper 是一套自动化脚本，帮你一次性收集数万张图片，用于训练“ 识别色情、性感、中性、漫画等五类内容的图像分类器。它解决了“想做内容审核或家长控制，却苦于没有大规模、带标签数据集”的痛点：脚本会自动去 Reddit、Danbooru、Caltech256 等站点抓取并清洗图片，最后按训练 \u002F 测试集分好目录，省去人工下载、筛选、重命名的麻烦。\n\n主要面向机器学习工程师、研究者或需要自建内容过滤服务的产品团队。只需装好 Docker，一条命令即可跑通宵完成数据准备；随后用附带的 fastai 示例 notebook，就能在几小时内训练出 90% 以上准确率的 CNN 模型。亮点在于：脚本已预先跑好 URL 列表，开箱即用；支持增量更新；训练\u002F测试划分、坏图清洗全部自动化，真正做到“一键拿数据，直接开训”。","# NSFW Data Scraper\n\n## Note: use with caution - the dataset is noisy\n\n## Description\n\nThis is a set of scripts that allows for an automatic collection of _tens of thousands_ of images for the following (loosely defined) categories to be later used for training an image classifier:\n- `porn` - pornography images\n- `hentai` - hentai images, but also includes pornographic drawings\n- `sexy` - sexually explicit images, but not pornography. Think nude photos, playboy, bikini, etc.\n- `neutral` - safe for work neutral images of everyday things and people\n- `drawings` - safe for work drawings (including anime)\n\nHere is what each script (located under `scripts` directory) does:\n- `1_get_urls_.sh` - iterates through text files under `scripts\u002Fsource_urls` downloading URLs of images for each of the 5 categories above. The `ripme` application performs all the heavy lifting. The source URLs are mostly links to various subreddits, but could be any website that Ripme supports.\n*Note*: I already ran this script for you, and its outputs are located in `raw_data` directory. No need to rerun unless you edit files under `scripts\u002Fsource_urls`.\n- `2_download_from_urls_.sh` - downloads actual images for urls found in text files in `raw_data` directory.\n- `3_optional_download_drawings_.sh` - (optional) script that downloads SFW anime images from the [Danbooru2018](https:\u002F\u002Fwww.gwern.net\u002FDanbooru2018) database.\n- `4_optional_download_neutral_.sh` - (optional) script that downloads SFW neutral images from the [Caltech256](http:\u002F\u002Fwww.vision.caltech.edu\u002FImage_Datasets\u002FCaltech256\u002F) dataset\n- `5_create_train_.sh` - creates `data\u002Ftrain` directory and copy all `*.jpg` and `*.jpeg` files into it from `raw_data`. Also removes corrupted images.\n- `6_create_test_.sh` - creates `data\u002Ftest` directory and moves `N=2000` random files for each class from `data\u002Ftrain` to `data\u002Ftest` (change this number inside the script if you need a different train\u002Ftest split). Alternatively, you can run it multiple times, each time it will move `N` images for each class from `data\u002Ftrain` to `data\u002Ftest`.\n\n## Prerequisites\n\n- Docker\n\n## How to collect data\n\n```bash\n$ docker build . -t docker_nsfw_data_scraper\nSending build context to Docker daemon  426.3MB\nStep 1\u002F3 : FROM ubuntu:18.04\n ---> 775349758637\nStep 2\u002F3 : RUN apt update  && apt upgrade -y  && apt install wget rsync imagemagick default-jre -y\n ---> Using cache\n ---> b2129908e7e2\nStep 3\u002F3 : ENTRYPOINT [\"\u002Fbin\u002Fbash\"]\n ---> Using cache\n ---> d32c5ae5235b\nSuccessfully built d32c5ae5235b\nSuccessfully tagged docker_nsfw_data_scraper:latest\n$ # Next command might run for several hours. It is recommended to leave it overnight\n$ docker run -v $(pwd):\u002Froot\u002Fnsfw_data_scraper docker_nsfw_data_scraper scripts\u002Frunall.sh\nGetting images for class: neutral\n...\n...\n$ ls data\ntest  train\n$ ls data\u002Ftrain\u002F\ndrawings  hentai  neutral  porn  sexy\n$ ls data\u002Ftest\u002F\ndrawings  hentai  neutral  porn  sexy\n```\n\n## How to train a CNN model\n- Install [fastai](https:\u002F\u002Fgithub.com\u002Ffastai\u002Ffastai): `conda install -c pytorch -c fastai fastai`\n- Run `train_model.ipynb` top to bottom\n\n## Results\n\nI was able to train a CNN classifier to 91% accuracy with the following confusion matrix:\n\n![alt text](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Falex000kim_nsfw_data_scraper_readme_bea9d6bc896a.png)\n\nAs expected,  `drawings` and `hentai` are confused with each other more frequently than with other classes.\n\nSame with `porn` and `sexy` categories.\n\n","# 非成人内容数据抓取器\n\n## 注意：请谨慎使用——该数据集存在大量噪声\n\n## 描述\n\n这是一套脚本，可用于自动收集数以万计的图像，涵盖以下（较为宽泛定义的）类别，以便后续用于训练图像分类器：\n- `porn` —— 色情图片\n- `hentai` —— 二次元色情图片，但也包括色情插画\n- `sexy` —— 性暗示明显的图片，但不属于色情。例如裸体照、花花公子杂志、比基尼等\n- `neutral` —— 适合工作场所的中性图片，内容多为日常生活中的事物与人物\n- `drawings` —— 适合工作场所的插画（包括动漫）\n\n以下是每个脚本（位于 `scripts` 目录下）的功能：\n- `1_get_urls_.sh` —— 遍历 `scripts\u002Fsource_urls` 目录下的文本文件，下载上述5个类别的图片URL。所有繁重的工作由 `ripme` 应用程序完成。这些源URL大多指向各类子Reddit，但也可能是 Ripme 支持的任何网站。\n*注*：我已经为您运行过此脚本，其输出位于 `raw_data` 目录下。除非您编辑了 `scripts\u002Fsource_urls` 下的文件，否则无需再次运行。\n- `2_download_from_urls_.sh` —— 下载 `raw_data` 目录中文本文件所列URL对应的实际图片。\n- `3_optional_download_drawings_.sh` —— （可选）从 [Danbooru2018](https:\u002F\u002Fwww.gwern.net\u002FDanbooru2018) 数据库下载适合工作场所的二次元图片。\n- `4_optional_download_neutral_.sh` —— （可选）从 [Caltech256](http:\u002F\u002Fwww.vision.caltech.edu\u002FImage_Datasets\u002FCaltech256\u002F) 数据集下载适合工作场所的中性图片。\n- `5_create_train_.sh` —— 创建 `data\u002Ftrain` 目录，并将 `raw_data` 中的所有 `*.jpg` 和 `*.jpeg` 文件复制到该目录。同时删除损坏的图片。\n- `6_create_test_.sh` —— 创建 `data\u002Ftest` 目录，并从 `data\u002Ftrain` 中随机抽取每类各 `N=2000` 张图片移动到 `data\u002Ftest`（如需不同的训练\u002F测试划分比例，可在脚本内修改此数值）。或者，您也可以多次运行此脚本，每次都会从 `data\u002Ftrain` 中抽取每类各 `N` 张图片移动到 `data\u002Ftest`。\n\n## 先决条件\n\n- Docker\n\n## 如何收集数据\n\n```bash\n$ docker build . -t docker_nsfw_data_scraper\n正在向 Docker 守护进程发送构建上下文  426.3MB\n步骤 1\u002F3 : FROM ubuntu:18.04\n ---> 775349758637\n步骤 2\u002F3 : RUN apt update  && apt upgrade -y  && apt install wget rsync imagemagick default-jre -y\n ---> 使用缓存\n ---> b2129908e7e2\n步骤 3\u002F3 : ENTRYPOINT [\"\u002Fbin\u002Fbash\"]\n ---> 使用缓存\n ---> d32c5ae5235b\n成功构建 d32c5ae5235b\n成功标记 docker_nsfw_data_scraper:latest\n$ # 下一条命令可能需要运行数小时。建议留 overnight\n$ docker run -v $(pwd):\u002Froot\u002Fnsfw_data_scraper docker_nsfw_data_scraper scripts\u002Frunall.sh\n正在获取类别：neutral 的图片\n...\n...\n$ ls data\ntest  train\n$ ls data\u002Ftrain\u002F\ndrawings  hentai  neutral  porn  sexy\n$ ls data\u002Ftest\u002F\ndrawings  hentai  neutral  porn  sexy\n```\n\n## 如何训练 CNN 模型\n- 安装 [fastai](https:\u002F\u002Fgithub.com\u002Ffastai\u002Ffastai)：`conda install -c pytorch -c fastai fastai`\n- 从头到尾运行 `train_model.ipynb`\n\n## 结果\n\n我使用以下混淆矩阵，成功将 CNN 分类器的准确率训练至 91%：\n\n![alt text](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Falex000kim_nsfw_data_scraper_readme_bea9d6bc896a.png)\n\n正如预期，`drawings` 和 `hentai` 之间的混淆频率高于与其他类别的混淆。\n\n同样地，`porn` 和 `sexy` 类别之间也存在较多混淆。","# nsfw_data_scraper 快速上手指南\n\n## 环境准备\n- 操作系统：Linux \u002F macOS \u002F Windows（需支持 Docker）\n- 依赖：Docker（推荐 19.03+）\n\n## 安装步骤\n1. 克隆仓库  \n   ```bash\n   git clone https:\u002F\u002Fgithub.com\u002Falexkimxyz\u002Fnsfw_data_scraper.git\n   cd nsfw_data_scraper\n   ```\n\n2. 构建镜像  \n   ```bash\n   docker build . -t docker_nsfw_data_scraper\n   ```\n\n## 基本使用\n1. **一键采集数据**（耗时较长，建议夜间运行）  \n   ```bash\n   docker run -v $(pwd):\u002Froot\u002Fnsfw_data_scraper docker_nsfw_data_scraper scripts\u002Frunall.sh\n   ```\n   完成后目录结构：  \n   ```\n   data\u002F\n   ├── train\u002F\n   │   ├── drawings  hentai  neutral  porn  sexy\n   └── test\u002F\n       ├── drawings  hentai  neutral  porn  sexy\n   ```\n\n2. **训练 CNN 模型**  \n   ```bash\n   # 安装 fastai（国内可用清华源）\n   conda install -c pytorch -c fastai fastai\n   # 运行 Jupyter Notebook\n   jupyter notebook train_model.ipynb\n   ```\n   按 Notebook 顺序执行即可，示例结果：91% 准确率。","一家做儿童学习平板 App 的初创公司「童伴科技」正准备上线“拍照搜题”功能，需要把用户上传的图片先过滤掉色情、暴力等不适内容，再进入 OCR 识别环节。\n\n### 没有 nsfw_data_scraper 时\n- 团队只能让运营同学手动去各大论坛、贴吧“搬运”图片，三天才攒到 800 张，类别还严重失衡，训练出来的模型把穿泳衣的动漫角色误判为色情，误杀率 23%。  \n- 为了补足数据，他们尝试购买第三方数据集，报价 2 万元仅 5 万张，且授权条款限制商业用途，法务审核来回两周，项目排期被直接推迟一个版本。  \n- 数据清洗全靠肉眼，发现大量重复、损坏、缩略图，清洗脚本写了 200 行还是漏删，训练时 GPU 被无效图片占满，一次 epoch 要多跑 40 分钟。  \n- 测试集划分随意，按文件夹顺序前 80% 当训练、后 20% 当测试，结果模型在“性感”类别上过拟合，上线第一天就误封了 300 多张正常自拍，客服电话被打爆。\n\n### 使用 nsfw_data_scraper 后\n- 一条 `docker run` 命令过夜就拉回 12 万张已按 porn\u002Fhentai\u002Fsexy\u002Fneutral\u002Fdrawings 分好类的图片，数量与类别分布直接满足训练需求，零人工搬运。  \n- 开源数据无需额外授权，法务 10 分钟确认 MIT 许可即可商用，省下 2 万元预算直接拨给市场推广，项目排期提前两周。  \n- 脚本自动剔除损坏和重复图片，训练集干净到 99.2%，GPU 利用率从 65% 提升到 93%，单 epoch 时间缩短一半，两天就收敛。  \n- 内置的 `6_create_test_.sh` 随机抽 2000 张\u002F类做测试，避免时序泄漏，最终模型在内部验证集上准确率 91%，上线后误封率降到 1.1%，客服工单下降 85%。\n\nnsfw_data_scraper 让童伴科技在一周内拥有了合规、均衡、干净的数据，直接把“拍照搜题”功能从风险点变成了家长放心的卖点。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Falex000kim_nsfw_data_scraper_bea9d6bc.png","alex000kim","Alex Kim","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Falex000kim_78c5a0fd.png","Dad👧🏻👦🏻 | ML Engineer | Technical Instructor | Consultant | Community Builder",null,"Montreal, QC","alex000kim@gmail.com","https:\u002F\u002Falex000kim.com\u002Fabout\u002F","https:\u002F\u002Fgithub.com\u002Falex000kim",[85,89,93],{"name":86,"color":87,"percentage":88},"Shell","#89e051",60,{"name":90,"color":91,"percentage":92},"Jupyter Notebook","#DA5B0B",36.6,{"name":94,"color":95,"percentage":96},"Dockerfile","#384d54",3.4,12557,2861,"2026-04-05T09:33:48","MIT","Linux","未说明",{"notes":104,"python":102,"dependencies":105},"必须使用 Docker 运行，镜像基于 Ubuntu 18.04；需安装 wget、rsync、imagemagick、default-jre；数据下载阶段可能耗时数小时，建议夜间运行；训练阶段需安装 fastai（conda install -c pytorch -c fastai fastai）",[106],"fastai",[13],[109,110,111,112,113,114],"nsfw-classifier","nsfw","deep-learning","content-moderation","pornography","machine-learning","2026-03-27T02:49:30.150509","2026-04-06T07:13:33.712077",[118,123,128,133,138,143],{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},6165,"无法访问 Reddit，如何直接下载已整理好的图片？","已有社区用户制作了 2019 年 3 月的打包种子文件，可直接下载：\n1. 下载种子压缩包 [NSFW_March_2019.7z.torrent.zip](https:\u002F\u002Fgithub.com\u002Falexkimxyz\u002Fnsfw_data_scraper\u002Ffiles\u002F2931824\u002FNSFW_March_2019.7z.torrent.zip)\n2. 解压后用任意 BT 客户端打开即可高速下载。\n若种子无速度，可换用 Internet Archive 上的 NudeNet 数据集：https:\u002F\u002Farchive.org\u002Fdetails\u002FNudeNet_classifier_dataset_v1","https:\u002F\u002Fgithub.com\u002Falex000kim\u002Fnsfw_data_scraper\u002Fissues\u002F12",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},6166,"我不想跑 Docker\u002F脚本，只想拿现成的图片，有办法吗？","可以：\n- 使用上面提到的 [NSFW_March_2019.7z.torrent.zip](https:\u002F\u002Fgithub.com\u002Falexkimxyz\u002Fnsfw_data_scraper\u002Ffiles\u002F2931824\u002FNSFW_March_2019.7z.torrent.zip) 种子下载完整数据集。\n- 或者直接用 Internet Archive 上的 NudeNet 数据集（无需脚本）：https:\u002F\u002Farchive.org\u002Fdetails\u002FNudeNet_classifier_dataset_v1","https:\u002F\u002Fgithub.com\u002Falex000kim\u002Fnsfw_data_scraper\u002Fissues\u002F51",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},6167,"运行脚本时出现 “java.net.SocketException: Connection reset” 怎么办？","这是网络被重置导致，常见解决步骤：\n1. 降低请求频率：在 rip.properties 中调大 `page.sleep` 或 `download.sleep`。\n2. 使用代理：\n   ```bash\n   proxychains bash .\u002F1_get_urls.sh\n   ```\n3. 换一台能直连 Reddit 的服务器再跑脚本。\n4. 若仍失败，可直接使用社区提供的种子或 Internet Archive 数据集，无需再爬取。","https:\u002F\u002Fgithub.com\u002Falex000kim\u002Fnsfw_data_scraper\u002Fissues\u002F11",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},6168,"数据集存在“色情图片中女性占比过高”的偏差，如何缓解？","维护者建议：\n- 向 `scripts\u002Fsource_urls\u002F` 下的各类别 txt 文件补充更多男性、中性或女性非色情图片的链接，以平衡分布。\n- 可自行删减\u002F替换现有 URL 列表后再运行脚本。\n- 注意：任何网络爬取的数据都会带有一定偏差，只能尽量减轻。","https:\u002F\u002Fgithub.com\u002Falex000kim\u002Fnsfw_data_scraper\u002Fissues\u002F30",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},6169,"能否提供已经训练好的模型？","社区已有预训练模型可用：\n- GantMan 提供的 MobileNetV2 模型（MIT 许可证）：https:\u002F\u002Fgithub.com\u002FGantMan\u002Fnsfw_model\u002Freleases\n- 下载后可直接用于推理或继续微调自己的数据。","https:\u002F\u002Fgithub.com\u002Falex000kim\u002Fnsfw_data_scraper\u002Fissues\u002F46",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},6170,"数据来源、标注方式等细节在哪里查看？","简要说明：\n- 图片来源：任何能被 ripme 工具解析的相册\u002F合集 URL（Reddit、Imgur 等）。\n- 与 NPDI 视频数据集无关联；本数据集仅包含静态图片。\n- 标注：先通过子版块（subreddit）名称自动粗标，再人工简单清洗。\n- 如需更详细流程，可阅读 `scripts\u002F` 目录下的脚本及 `source_urls\u002F` 中的 URL 列表。","https:\u002F\u002Fgithub.com\u002Falex000kim\u002Fnsfw_data_scraper\u002Fissues\u002F23",[]]