[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tool-rgeirhos--Stylized-ImageNet":3,"similar-rgeirhos--Stylized-ImageNet":96},{"id":4,"github_repo":5,"name":6,"description_en":7,"description_zh":8,"ai_summary_zh":9,"readme_en":10,"readme_zh":11,"quickstart_zh":12,"use_case_zh":13,"hero_image_url":14,"owner_login":15,"owner_name":16,"owner_avatar_url":17,"owner_bio":18,"owner_company":19,"owner_location":20,"owner_email":21,"owner_twitter":21,"owner_website":22,"owner_url":23,"languages":24,"stars":33,"forks":34,"last_commit_at":35,"license":36,"difficulty_score":37,"env_os":38,"env_gpu":39,"env_ram":40,"env_deps":41,"category_tags":47,"github_topics":50,"view_count":57,"oss_zip_url":21,"oss_zip_packed_at":21,"status":58,"created_at":59,"updated_at":60,"faqs":61,"releases":95},5103,"rgeirhos\u002FStylized-ImageNet","Stylized-ImageNet","Code to create Stylized-ImageNet, a stylized version of standard ImageNet (ICLR 2019 Oral)","Stylized-ImageNet 是一个基于经典 ImageNet 数据集构建的风格化版本，旨在帮助研究人员深入探索卷积神经网络（CNN）的视觉学习机制。传统 AI 模型在识别图像时往往过度依赖局部纹理特征，而忽视物体的整体形状，这导致其在面对风格变化或对抗样本时鲁棒性不足。该工具通过艺术风格迁移技术，将大量绘画作品的纹理“移植”到 ImageNet 图片上，在大幅扭曲局部纹理的同时完整保留物体的全局形状结构。\n\n利用 Stylized-ImageNet 训练模型，可以有效引导网络从“看纹理”转向“看形状”，从而显著提升模型的准确率、泛化能力及抗干扰能力。这一方法源自 ICLR 2019 的口头报告论文，揭示了纹理与形状偏好的关键差异。\n\n该项目主要适合人工智能领域的研究人员和开发者使用，特别是那些致力于提升模型鲁棒性、研究可解释性或探索生物视觉机制的团队。虽然项目提供了详细的代码脚本和 Docker 镜像以简化环境配置，但由于涉及大规模数据处理和 GPU 计算资源，普通用户或非技术背景的设计师可能较难直接上手。对于希望验证模型在分布外数据上表现的研究者，这是一个极具价值的基准数据集","Stylized-ImageNet 是一个基于经典 ImageNet 数据集构建的风格化版本，旨在帮助研究人员深入探索卷积神经网络（CNN）的视觉学习机制。传统 AI 模型在识别图像时往往过度依赖局部纹理特征，而忽视物体的整体形状，这导致其在面对风格变化或对抗样本时鲁棒性不足。该工具通过艺术风格迁移技术，将大量绘画作品的纹理“移植”到 ImageNet 图片上，在大幅扭曲局部纹理的同时完整保留物体的全局形状结构。\n\n利用 Stylized-ImageNet 训练模型，可以有效引导网络从“看纹理”转向“看形状”，从而显著提升模型的准确率、泛化能力及抗干扰能力。这一方法源自 ICLR 2019 的口头报告论文，揭示了纹理与形状偏好的关键差异。\n\n该项目主要适合人工智能领域的研究人员和开发者使用，特别是那些致力于提升模型鲁棒性、研究可解释性或探索生物视觉机制的团队。虽然项目提供了详细的代码脚本和 Docker 镜像以简化环境配置，但由于涉及大规模数据处理和 GPU 计算资源，普通用户或非技术背景的设计师可能较难直接上手。对于希望验证模型在分布外数据上表现的研究者，这是一个极具价值的基准数据集。","### :tada: Update (Aug 2021):\nInterested to see how well your model copes with challenging stylized images? Check out the comprehensive toolbox at [bethgelab:model-vs-human](https:\u002F\u002Fgithub.com\u002Fbethgelab\u002Fmodel-vs-human), which supports stylized data (complete with human comparison data) and comes with code to evaluate arbitrary PyTorch \u002F TensorFlow models. Simply load your favourite model(s), hit run and get a full PDF report on out-of-distribution generalisation behaviour including ready-to-use figures!\n\n\n# Stylized-ImageNet\n\nThis repository contains information and code on how to create Stylized-ImageNet, a stylized version of ImageNet that can be used to induce a shape bias in CNNs as reported in our paper [ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness](https:\u002F\u002Fopenreview.net\u002Fforum?id=Bygh9j09KX) by Robert Geirhos, Patricia Rubisch, Claudio Michaelis, Matthias Bethge, Felix A. Wichmann, and Wieland Brendel. We hope that you may find this repository a useful resource for your own research. Note that all code, data and materials concerning this paper are available in a separate repository, namely [rgeirhos:texture-vs-shape](https:\u002F\u002Fgithub.com\u002Frgeirhos\u002Ftexture-vs-shape).\n\nPlease don't hesitate to contact me at robert.geirhos@bethgelab.org or open an issue in case there is any question!\n\n## Example images\nHere are a few examples of how different stylizations of the same ImageNet image can look like:\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Frgeirhos_Stylized-ImageNet_readme_0e01a7f3e91f.png) \nAs you can see, local textures are heavily distorted, while global object shapes remain (more or less) intact during stylization. This makes Stylized-ImageNet an effective dataset to nudge CNNs towards learning more about shapes, and less about local textures.\n\n## Usage\n1. Get style images (paintings). Download ``train.zip`` from [Kaggle's painter-by-numbers dataset](https:\u002F\u002Fwww.kaggle.com\u002Fc\u002Fpainter-by-numbers\u002Fdata); extract the content (paintings) into this new directory: ``code\u002Fpaintings_raw\u002F`` (about 38G).\n2. Get ImageNet images & set path. If you already have the ImageNet images, set the ``IMAGENET_PATH`` variable in ``code\u002Fgeneral.py`` accordingly. If not, obtain the ImageNet images from the [ImageNet website](http:\u002F\u002Fimage-net.org\u002Fdownload-images) and store them somewhere locally, then set the variable. Note that the ImageNet images need to be split in two subdirectories, ``train\u002F`` and ``val\u002F`` (for training and validation images, respectively). In any case, also set the ``STYLIZED_IMAGENET_PATH`` variable (also in ``code\u002Fgeneral.py``). This variable indicates the path where you would like to store the final dataset. Make sure you have enough disk space: In our setting, Stylized-ImageNet needs 134G of disk space (which is a bit less than standard ImageNet with 181G).\n3. go to ``code\u002F`` and execute ``create_stylized_imagenet.sh`` (assuming access to a GPU). The easiest way for doing this is to the docker image that we provide (see Section below). This creates Stylized-ImageNet in the directory that you specified in step 2.\n4. Optionally, delete ``paintings_raw\u002F``, ``paintings_excluded\u002F`` and ``paintings_preprocessed\u002F`` which are no longer needed.\n\nNote: in case of issues, consider using https:\u002F\u002Fgithub.com\u002Fbethgelab\u002Fstylize-datasets instead which provides a similar functionality but is more general.\n\n## Docker image\nWe provide a docker image so that you don't have to install all of the libraries yourself here: [https:\u002F\u002Fhub.docker.com\u002Fr\u002Fbethgelab\u002Fdeeplearning\u002F](https:\u002F\u002Fhub.docker.com\u002Fr\u002Fbethgelab\u002Fdeeplearning\u002F). The repo is tested with ``bethgelab\u002Fdeeplearning:cuda9.0-cudnn7``.\n\n## CNNs pre-trained on Stylized-ImageNet\nWe provide CNNs that are trained on Stylized-ImageNet at [rgeirhos:texture-vs-shape](https:\u002F\u002Fgithub.com\u002Frgeirhos\u002Ftexture-vs-shape).\n\n## Training details\n\nImageNet images are typically normalized using the standard ImageNet mean and std parameters when training a model. Stylized-ImageNet can be used as a drop-in replacement for ImageNet during training, i.e. the results in our paper are based on identical normalization as for ImageNet images. More specifically, we use ImageNet mean and std for both datasets when training; with mean and std parameters taken from the [PyTorch ImageNet example training script](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Fexamples\u002Ftree\u002Fmaster\u002Fimagenet).\n\n## Stylize arbitrary datasets\nThis repository is tailored to creating a stylized version of ImageNet. Should you be interested in stylizing a different dataset, I recommend using this code: [https:\u002F\u002Fgithub.com\u002Fbethgelab\u002Fstylize-datasets](https:\u002F\u002Fgithub.com\u002Fbethgelab\u002Fstylize-datasets) which stylizes arbitrary image datasets.\n\n## FAQ: Can you share the dataset directly (e.g. via a download link)?\nUnfortunately not, but you can either stylize the dataset yourself (see above), find someone at your institution that has already done this, or use the 16-class version ``stylized`` from [bethgelab:model-vs-human](https:\u002F\u002Fgithub.com\u002Fbethgelab\u002Fmodel-vs-human) as a proxy where the dataset can be downloaded via the toolbox or directly from [here](https:\u002F\u002Fgithub.com\u002Fbethgelab\u002Fmodel-vs-human\u002Freleases\u002Ftag\u002Fv0.1).\n\n## Credit\nThe code itself heavily relies on the [pytorch-AdaIN github repository](https:\u002F\u002Fgithub.com\u002Fnaoto0804\u002Fpytorch-AdaIN) by Naoto Inoue (naoto0804), which is a PyTorch implementation of the AdaIN style transfer approach by X. Huang and S. Belongie, \"Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization\", published at ICCV 2017. In fact, the entire AdaIN implementation is taken from this repository; in order to enable anyone to create Stylized-ImageNet with as little additional effort as possible we here make everything available in one repository (preprocessing, style transfer, etc.).\n\nIf you find Stylized-ImageNet useful for your work, please consider citing it:\n```\n@inproceedings{geirhos2019,\n  title={ImageNet-trained {CNN}s are biased towards texture; increasing shape bias improves accuracy and robustness.},\n  author={Robert Geirhos and Patricia Rubisch and Claudio Michaelis and Matthias Bethge and Felix A Wichmann and Wieland Brendel},\n  booktitle={International Conference on Learning Representations},\n  year={2019},\n  url={https:\u002F\u002Fopenreview.net\u002Fforum?id=Bygh9j09KX},\n}\n```\n\n","### :tada: 更新（2021年8月）：\n您是否想了解您的模型在处理具有挑战性的风格化图像时的表现如何？请查看 [bethgelab\u002Fmodel-vs-human](https:\u002F\u002Fgithub.com\u002Fbethgelab\u002Fmodel-vs-human) 提供的全面工具箱，它支持风格化数据（附有人类对比数据），并配有用于评估任意 PyTorch 或 TensorFlow 模型的代码。只需加载您喜欢的模型，点击运行，即可获得一份关于分布外泛化行为的完整 PDF 报告，其中包含可以直接使用的图表！\n\n\n# Stylized-ImageNet\n\n本仓库包含创建 Stylized-ImageNet 的相关信息和代码。Stylized-ImageNet 是 ImageNet 的风格化版本，可用于在 CNN 中引入形状偏好，如我们在论文《ImageNet 上训练的 CNN 倾向于纹理；增强形状偏好可提高准确性和鲁棒性》（作者：Robert Geirhos、Patricia Rubisch、Claudio Michaelis、Matthias Bethge、Felix A. Wichmann 和 Wieland Brendel）中所述。我们希望本仓库能为您的研究提供有用的资源。请注意，与该论文相关的所有代码、数据和材料均已在另一个仓库中提供，即 [rgeirhos:texture-vs-shape](https:\u002F\u002Fgithub.com\u002Frgeirhos\u002Ftexture-vs-shape)。\n\n如有任何问题，请随时通过 robert.geirhos@bethgelab.org 与我联系，或在 Issues 中提出！ \n\n## 示例图像\n以下是同一张 ImageNet 图像经过不同风格化处理后的示例：\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Frgeirhos_Stylized-ImageNet_readme_0e01a7f3e91f.png)  \n如您所见，在风格化过程中，局部纹理被严重扭曲，而物体的整体形状则基本保持不变。这使得 Stylized-ImageNet 成为一种有效的数据集，能够引导 CNN 更加关注形状信息，而非局部纹理。\n\n## 使用方法\n1. 获取风格化图像（绘画作品）。从 Kaggle 的 “painter-by-numbers” 数据集下载 ``train.zip``；将其中的绘画作品解压到新目录 ``code\u002Fpaintings_raw\u002F`` 中（约 38GB）。\n2. 获取 ImageNet 图像并设置路径。如果您已有 ImageNet 图像，请在 ``code\u002Fgeneral.py`` 中相应地设置 ``IMAGENET_PATH`` 变量。如果没有，请从 ImageNet 官网 ([image-net.org](http:\u002F\u002Fimage-net.org)) 下载 ImageNet 图像并存储在本地，然后设置该变量。请注意，ImageNet 图像需要分为两个子目录：“train\u002F” 和 “val\u002F”，分别用于训练和验证数据。此外，还需设置 ``STYLIZED_IMAGENET_PATH`` 变量（同样在 ``code\u002Fgeneral.py`` 中）。该变量指定了您希望存储最终数据集的路径。请确保磁盘空间充足：在我们的设置中，Stylized-ImageNet 需要 134GB 的存储空间，略低于标准 ImageNet 的 181GB。\n3. 进入 ``code\u002F`` 目录，执行 ``create_stylized_imagenet.sh`` 脚本（假设您有 GPU）。最简便的方式是使用我们提供的 Docker 镜像（详见下文）。此脚本将在您在第 2 步中指定的目录中生成 Stylized-ImageNet。\n4. 您可以选择删除不再需要的 ``paintings_raw\u002F``、``paintings_excluded\u002F`` 和 ``paintings_preprocessed\u002F`` 目录。\n\n注意：如果遇到问题，您可以考虑使用 [bethgelab\u002Fstylize-datasets](https:\u002F\u002Fgithub.com\u002Fbethgelab\u002Fstylize-datasets)，它提供了类似的功能，但适用范围更广。\n\n## Docker 镜像\n为了方便您无需手动安装所有依赖库，我们提供了 Docker 镜像：[https:\u002F\u002Fhub.docker.com\u002Fr\u002Fbethgelab\u002Fdeeplearning\u002F](https:\u002F\u002Fhub.docker.com\u002Fr\u002Fbethgelab\u002Fdeeplearning\u002F)。该镜像已在 ``bethgelab\u002Fdeeplearning:cuda9.0-cudnn7`` 上测试通过。\n\n## 在 Stylized-ImageNet 上预训练的 CNN\n我们在 [rgeirhos:texture-vs-shape](https:\u002F\u002Fgithub.com\u002Frgeirhos\u002Ftexture-vs-shape) 中提供了在 Stylized-ImageNet 上训练好的 CNN 模型。\n\n## 训练细节\n通常，在训练模型时，ImageNet 图像会使用标准的 ImageNet 均值和标准差进行归一化。Stylized-ImageNet 可以作为 ImageNet 的直接替代品用于训练，也就是说，我们论文中的结果正是基于与 ImageNet 图像相同的归一化方式得出的。具体而言，在训练过程中，我们对两种数据集都使用了来自 PyTorch ImageNet 示例训练脚本（[GitHub 地址](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Fexamples\u002Ftree\u002Fmaster\u002Fimagenet)）的均值和标准差参数。\n\n## 对任意数据集进行风格化\n本仓库专为创建 ImageNet 的风格化版本而设计。如果您有兴趣对其他数据集进行风格化，建议使用以下代码：[https:\u002F\u002Fgithub.com\u002Fbethgelab\u002Fstylize-datasets](https:\u002F\u002Fgithub.com\u002Fbethgelab\u002Fstylize-datasets)，它可以对任意图像数据集进行风格化处理。\n\n## 常见问题解答：能否直接分享数据集（例如通过下载链接）？\n很遗憾，我们无法直接提供数据集下载。不过，您可以自行对数据集进行风格化处理（参见上文），也可以寻找您所在机构中已经完成此工作的人员，或者使用 [bethgelab\u002Fmodel-vs-human](https:\u002F\u002Fgithub.com\u002Fbethgelab\u002Fmodel-vs-human) 提供的 16 类“stylized”版本作为替代方案。该版本可通过工具箱下载，或直接从 [这里](https:\u002F\u002Fgithub.com\u002Fbethgelab\u002Fmodel-vs-human\u002Freleases\u002Ftag\u002Fv0.1) 获取。\n\n## 致谢\n本代码大量借鉴了 Naoto Inoue（naoto0804）的 [pytorch-AdaIN GitHub 仓库](https:\u002F\u002Fgithub.com\u002Fnaoto0804\u002Fpytorch-AdaIN)，该仓库实现了 X. Huang 和 S. Belongie 在 ICCV 2017 上发表的 AdaIN 风格迁移方法——“实时自适应实例归一化实现任意风格迁移”。事实上，整个 AdaIN 实现均源自该仓库。为了使任何人都能以尽可能少的努力创建 Stylized-ImageNet，我们将预处理、风格迁移等步骤整合到一个统一的仓库中。\n\n如果您认为 Stylized-ImageNet 对您的工作有所帮助，请考虑引用以下文献：\n```\n@inproceedings{geirhos2019,\n  title={ImageNet-trained {CNN}s are biased towards texture; increasing shape bias improves accuracy and robustness.},\n  author={Robert Geirhos and Patricia Rubisch and Claudio Michaelis and Matthias Bethge and Felix A Wichmann and Wieland Brendel},\n  booktitle={International Conference on Learning Representations},\n  year={2019},\n  url={https:\u002F\u002Fopenreview.net\u002Fforum?id=Bygh9j09KX},\n}\n```","# Stylized-ImageNet 快速上手指南\n\nStylized-ImageNet 是 ImageNet 的风格化版本，旨在通过破坏局部纹理而保留全局形状，引导卷积神经网络（CNN）学习形状偏差而非纹理偏差，从而提升模型的准确性和鲁棒性。\n\n## 环境准备\n\n*   **操作系统**: Linux (推荐)\n*   **硬件要求**: \n    *   **GPU**: 必须拥有支持 CUDA 的 NVIDIA GPU（用于加速风格迁移过程）。\n    *   **存储空间**: 至少需要 **150GB** 可用空间（原始 ImageNet 约 181GB，生成的 Stylized-ImageNet 约 134GB，加上临时文件）。\n*   **前置依赖**:\n    *   **Docker** (强烈推荐): 为避免复杂的环境配置，官方提供了预装所有依赖的 Docker 镜像。\n    *   **数据集**: \n        1. 已下载的 **ImageNet** 数据集（需包含 `train\u002F` 和 `val\u002F` 子目录）。\n        2. **Painter-by-Numbers** 风格图像数据集（来自 Kaggle）。\n\n## 安装步骤\n\n### 1. 获取风格图像 (Paintings)\n从 Kaggle 下载 `train.zip` 并解压到项目指定目录：\n```bash\n# 假设已下载 train.zip 到当前目录\nmkdir -p code\u002Fpaintings_raw\nunzip train.zip -d code\u002Fpaintings_raw\u002F\n# 注意：解压后内容约为 38GB\n```\n\n### 2. 配置路径\n编辑 `code\u002Fgeneral.py` 文件，设置以下变量：\n*   `IMAGENET_PATH`: 指向你本地已有的 ImageNet 数据集根目录。\n*   `STYLIZED_IMAGENET_PATH`: 指向你希望存储生成的 Stylized-ImageNet 数据集的目标目录。\n\n### 3. 使用 Docker 运行 (推荐)\n拉取官方提供的深度学习镜像并运行生成脚本。该镜像基于 `bethgelab\u002Fdeeplearning:cuda9.0-cudnn7` 测试通过。\n\n```bash\n# 拉取镜像\ndocker pull bethgelab\u002Fdeeplearning:cuda9.0-cudnn7\n\n# 运行容器并挂载当前目录\n# 请将 \u003CYOUR_LOCAL_PATH> 替换为你当前仓库的绝对路径\ndocker run --gpus all -it --rm \\\n  -v \u003CYOUR_LOCAL_PATH>:\u002Fworkspace\u002Fstylized-imagenet \\\n  -w \u002Fworkspace\u002Fstylized-imagenet\u002Fcode \\\n  bethgelab\u002Fdeeplearning:cuda9.0-cudnn7 \\\n  bash create_stylized_imagenet.sh\n```\n*执行上述命令后，脚本将自动开始处理图像并生成风格化数据集。*\n\n### 4. 清理临时文件 (可选)\n生成完成后，可删除不再需要的中间文件以释放空间：\n```bash\nrm -rf paintings_raw\u002F paintings_excluded\u002F paintings_preprocessed\u002F\n```\n\n## 基本使用\n\n生成完成后，`STYLIZED_IMAGENET_PATH` 目录下即为可用的 Stylized-ImageNet 数据集。其目录结构与标准 ImageNet 完全一致，可直接作为训练数据加载。\n\n**PyTorch 训练示例片段：**\n\n在训练代码中，只需将数据加载路径指向新生成的数据集，并保持与标准 ImageNet 相同的归一化参数（Mean 和 Std）：\n\n```python\nimport torchvision.transforms as transforms\nimport torchvision.datasets as datasets\n\n# 定义归一化参数 (与标准 ImageNet 一致)\nnormalize = transforms.Normalize(mean=[0.485, 0.456, 0.406],\n                                 std=[0.229, 0.224, 0.225])\n\n# 加载 Stylized-ImageNet 数据集\nstylized_dataset = datasets.ImageFolder(\n    root='\u002Fpath\u002Fto\u002Fyour\u002FSTYLIZED_IMAGENET_PATH\u002Ftrain', # 替换为你的实际路径\n    transform=transforms.Compose([\n        transforms.Resize(256),\n        transforms.CenterCrop(224),\n        transforms.ToTensor(),\n        normalize,\n    ])\n)\n\n# 后续即可像使用普通 ImageNet 一样构建 DataLoader 进行训练\n```\n\n> **提示**: 如果你需要风格化其他非 ImageNet 数据集，建议使用更通用的工具库 [bethgelab\u002Fstylize-datasets](https:\u002F\u002Fgithub.com\u002Fbethgelab\u002Fstylize-datasets)。","某自动驾驶团队在训练车辆识别系统时，发现模型在雨雪天气或艺术化渲染的模拟环境中，经常因路面纹理变化而误判障碍物形状。\n\n### 没有 Stylized-ImageNet 时\n- 模型过度依赖局部纹理特征（如沥青路面的颗粒感），一旦遇到积雪覆盖或风格化路面，识别准确率断崖式下跌。\n- 难以区分“形状”与“纹理”的贡献，导致模型在面对对抗性攻击或分布外数据时极其脆弱，缺乏泛化能力。\n- 需要人工收集海量极端天气下的真实道路数据进行微调，成本高昂且长尾场景覆盖不足。\n- 调试过程盲目，无法定量评估模型究竟是学到了物体结构，还是仅仅记住了背景纹理。\n\n### 使用 Stylized-ImageNet 后\n- 利用其保留物体全局形状但打乱局部纹理的特性，强制模型学习基于形状的判别特征，显著提升对陌生纹理的鲁棒性。\n- 模型在未见过的风格化图像（如水彩画风格的交通标志）中仍能准确识别物体轮廓，泛化性能大幅增强。\n- 无需额外采集真实极端数据，仅通过混合训练即可让 CNN 获得类似人类的“形状偏见”，以低成本解决长尾问题。\n- 结合官方提供的评估工具箱，可生成详细的 PDF 报告，直观对比模型与人类在分布外数据上的表现差异，指导算法迭代。\n\nStylized-ImageNet 通过重构训练数据的视觉特征，从根本上纠正了深度神经网络“重纹理、轻形状”的认知偏差，打造出更稳健的视觉系统。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Frgeirhos_Stylized-ImageNet_0e01a7f3.png","rgeirhos","Robert Geirhos","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Frgeirhos_3ca4a650.jpg","Research Scientist, Google DeepMind","Google","Toronto",null,"robertgeirhos.com","https:\u002F\u002Fgithub.com\u002Frgeirhos",[25,29],{"name":26,"color":27,"percentage":28},"Python","#3572A5",97.9,{"name":30,"color":31,"percentage":32},"Shell","#89e051",2.1,524,65,"2026-03-03T01:16:51","MIT",3,"Linux","必需 (NVIDIA GPU)，官方测试环境为 CUDA 9.0 + cuDNN 7，具体显存需求未说明","未说明 (需预留至少 134GB 磁盘空间用于存储数据集)",{"notes":42,"python":43,"dependencies":44},"1. 强烈建议使用官方提供的 Docker 镜像 (bethgelab\u002Fdeeplearning:cuda9.0-cudnn7) 以避免环境配置问题。\n2. 需要自行下载 Painter-by-Numbers 风格图数据集 (约 38GB) 和 ImageNet 数据集。\n3. 生成 Stylized-ImageNet 数据集最终需要约 134GB 的磁盘空间。\n4. 核心算法依赖于 pytorch-AdaIN 进行风格迁移。","未说明 (依赖提供的 Docker 镜像)",[45,46],"PyTorch (基于 pytorch-AdaIN)","Docker (推荐运行方式)",[48,49],"图像","开发框架",[51,52,53,54,55,56],"deep-learning","style-transfer","computer-vision","human-vision","shape-bias","texture-bias",2,"ready","2026-03-27T02:49:30.150509","2026-04-08T01:08:47.599474",[62,67,72,77,81,86,91],{"id":63,"question_zh":64,"answer_zh":65,"source_url":66},23193,"遇到 'torch.legacy' 或 'load_lua' 被移除的错误怎么办？","这是因为 PyTorch 0.4+ 版本移除了 torch.legacy 模块，且 0.5+ 移除了 load_lua。维护者已更新 requirements.txt 以解决依赖冲突。如果遇到此问题，请确保拉取最新代码并重新安装依赖：\n1. 更新 requirements.txt（参考 commit 0e9a244）。\n2. 如果仍有 tqdm 版本冲突（例如 torchvision 需要 4.19.9 但安装了 4.32.2），可以尝试删除 requirements.txt 中指定的 tqdm 版本限制，让 pip 自动解析兼容版本。","https:\u002F\u002Fgithub.com\u002Frgeirhos\u002FStylized-ImageNet\u002Fissues\u002F5",{"id":68,"question_zh":69,"answer_zh":70,"source_url":71},23194,"预训练的 VGG 模型或 AdaIN 模型链接失效（AllAccessDisabled）如何获取？","部分指向 Amazon S3 的旧链接（如 decoder.t7）可能已失效。解决方案如下：\n1. 对于 Stylized-ImageNet 训练的 VGG 模型，可从该项目的关联仓库获取：https:\u002F\u002Fgithub.com\u002Frgeirhos\u002Ftexture-vs-shape\u002Fblob\u002Fmaster\u002Fmodels\u002Fload_pretrained_models.py。\n2. 对于 AdaIN 风格的基础模型（vgg_normalised.pth, decoder.pth），可以使用由社区转换好的 PyTorch 版本，下载地址为：\n   - https:\u002F\u002Fwww.hal.t.u-tokyo.ac.jp\u002F~inoue\u002Fprojects\u002Ftmp\u002Fvgg_normalised.pth\n   - https:\u002F\u002Fwww.hal.t.u-tokyo.ac.jp\u002F~inoue\u002Fprojects\u002Ftmp\u002Fdecoder.pth\n   这些文件源自 https:\u002F\u002Fgithub.com\u002Fnaoto0804\u002Fpytorch-AdaIN 项目。","https:\u002F\u002Fgithub.com\u002Frgeirhos\u002FStylized-ImageNet\u002Fissues\u002F26",{"id":73,"question_zh":74,"answer_zh":75,"source_url":76},23195,"Docker 运行时提示 'Running as root is not recommended' 错误如何解决？","在运行 Docker 容器启动 Jupyter Notebook 时，需要在命令末尾添加 `--allow-root` 参数。具体操作是在 docker run 命令中指定执行脚本时带上该参数，例如修改启动命令为：\ndocker run ... [其他参数] ... \u003Cimage_name> jupyter notebook --allow-root\n或者如果在 docker-compose 或自定义脚本中，确保 CMD 指令包含 `--allow-root`。","https:\u002F\u002Fgithub.com\u002Frgeirhos\u002FStylized-ImageNet\u002Fissues\u002F20",{"id":78,"question_zh":79,"answer_zh":80,"source_url":76},23196,"Python 和 PyTorch\u002FNumpy 版本存在冲突（如 PyTorch 0.4.1 仅支持 Python 3.7，而 Numpy 1.22 需要 Python 3.8）怎么办？","这是一个环境依赖冲突问题。建议采取以下措施：\n1. 使用较旧的 Numpy 版本以匹配旧版 PyTorch 和 Python 环境（虽然可能导致导入错误，需仔细平衡）。\n2. 更推荐的方法是直接使用项目提供的 Docker 镜像（如 bethgelab\u002Fdeeplearning:cuda10.0-cudnn7-12_2019），其中已预配置好兼容的版本。\n3. 如果使用 Conda，尝试创建一个严格匹配项目要求的旧环境（Python 3.7 + 对应版本的 torch 和 numpy），避免混用新版包。",{"id":82,"question_zh":83,"answer_zh":84,"source_url":85},23197,"无法找到或下载 Kaggle 的 'painter-by-numbers' 数据集？","数据集链接本身有效（https:\u002F\u002Fwww.kaggle.com\u002Fc\u002Fpainter-by-numbers\u002Fdata），下载失败通常是因为未登录。请按以下步骤操作：\n1. 登录 Kaggle 账户（如果没有需先注册）。\n2. 进入数据集页面，向下滚动到 \"Data (64GB)\" 部分。\n3. 将鼠标悬停在文件（如 train.zip）上，会出现下载图标。\n注意：如果在远程服务器使用 `wget` 直接下载链接可能无效，因为需要 Cookie 认证。建议在本地浏览器登录后下载，再上传至服务器，或使用 Kaggle API 进行下载。","https:\u002F\u002Fgithub.com\u002Frgeirhos\u002FStylized-ImageNet\u002Fissues\u002F9",{"id":87,"question_zh":88,"answer_zh":89,"source_url":90},23198,"如何创建自定义数据集的风格化版本（例如风格化的 VOC 数据集）？","是可以创建的。维护者已经发布了相关成果和代码，可以用于风格化任意图像数据集（包括 VOC）。\n请参考以下资源：\n1. 论文结果：https:\u002F\u002Farxiv.org\u002Fabs\u002F1907.07484\n2. 对应的代码库和基准测试工具：https:\u002F\u002Fgithub.com\u002Fbethgelab\u002Frobust-detection-benchmark\n该项目提供了将风格迁移应用于其他数据集的具体实现方法。","https:\u002F\u002Fgithub.com\u002Frgeirhos\u002FStylized-ImageNet\u002Fissues\u002F8",{"id":92,"question_zh":93,"answer_zh":94,"source_url":66},23199,"遇到 'nn.UpsamplingNearest2d is deprecated' 警告导致图像尺寸固定为 224*224 怎么办？","这是因为 AdaIN 风格迁移模型使用了旧的上采样算法。PyTorch 新版本建议使用 `nn.functional.interpolate` 替代 `nn.UpsamplingNearest2d`。\n虽然目前不修复该警告也能生成 224*224 的图像（对验证集没问题），但在训练集上可能会造成麻烦。解决方法是修改源代码，将弃用的上采样层替换为 `nn.functional.interpolate`，或者等待维护者更新模型定义以适配新版 PyTorch。",[],[97,107,115,124,132,141],{"id":98,"name":99,"github_repo":100,"description_zh":101,"stars":102,"difficulty_score":37,"last_commit_at":103,"category_tags":104,"status":58},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,"2026-04-06T06:32:30",[105,49,48,106],"Agent","数据工具",{"id":108,"name":109,"github_repo":110,"description_zh":111,"stars":112,"difficulty_score":37,"last_commit_at":113,"category_tags":114,"status":58},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[49,48,105],{"id":116,"name":117,"github_repo":118,"description_zh":119,"stars":120,"difficulty_score":57,"last_commit_at":121,"category_tags":122,"status":58},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",143909,"2026-04-07T11:33:18",[49,105,123],"语言模型",{"id":125,"name":126,"github_repo":127,"description_zh":128,"stars":129,"difficulty_score":57,"last_commit_at":130,"category_tags":131,"status":58},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[49,48,105],{"id":133,"name":134,"github_repo":135,"description_zh":136,"stars":137,"difficulty_score":57,"last_commit_at":138,"category_tags":139,"status":58},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[140,49],"插件",{"id":142,"name":143,"github_repo":144,"description_zh":145,"stars":146,"difficulty_score":37,"last_commit_at":147,"category_tags":148,"status":58},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[123,48,105,49]]