[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-titu1994--neural-image-assessment":3,"tool-titu1994--neural-image-assessment":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",159636,2,"2026-04-17T23:33:34",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":78,"owner_twitter":79,"owner_website":80,"owner_url":81,"languages":82,"stars":87,"forks":88,"last_commit_at":89,"license":90,"difficulty_score":10,"env_os":91,"env_gpu":92,"env_ram":93,"env_deps":94,"category_tags":102,"github_topics":103,"view_count":32,"oss_zip_url":79,"oss_zip_packed_at":79,"status":17,"created_at":107,"updated_at":108,"faqs":109,"releases":139},8764,"titu1994\u002Fneural-image-assessment","neural-image-assessment","Implementation of NIMA: Neural Image Assessment in Keras","neural-image-assessment 是一个基于 Keras 和 TensorFlow 实现的开源项目，复现了著名的 NIMA（神经图像评估）算法。它核心解决了如何量化评估图片美学质量的问题，能够为任意输入图像自动计算出一个包含“平均分”和“标准差”的评分，模拟人类对照片好坏的主观判断。\n\n这一能力使其成为双重利器：既可作为自动化脚本批量筛选海量图库中的高质量素材，也能作为损失函数嵌入生成式模型训练中，引导 AI 生成更具美感的图像。项目预置了在 AVA 数据集上训练好的权重，支持 NASNet Mobile、Inception ResNet v2 及 MobileNet 等多种主流架构，并提供了详细的评估与训练脚本。\n\n该工具特别适合计算机视觉开发者、AI 研究人员以及需要处理大规模图像数据的产品团队使用。对于设计师而言，它也可辅助建立自动化的图片初筛流程。其技术亮点在于灵活的训练策略：针对显存受限的场景，创新性地提供了“特征提取 + 轻量级网络预训练 + 微调”的分步训练方案，让用户无需顶级硬件也能复用大型模型的能力，轻松上手图像美学评估任务。","# NIMA: Neural Image Assessment\nImplementation of [NIMA: Neural Image Assessment](https:\u002F\u002Farxiv.org\u002Fabs\u002F1709.05424) in Keras + Tensorflow with weights for MobileNet model trained on AVA dataset.\n\nNIMA assigns a Mean + Standard Deviation score to images, and can be used as a tool to automatically inspect quality of images or as a loss function to further improve the quality of generated images.\n\nContains weights trained on the AVA dataset for the following models:\n- NASNet Mobile (0.067 EMD on valset thanks to [@tfriedel](https:\u002F\u002Fgithub.com\u002Ftfriedel) !, 0.0848 EMD with just pre-training)\n- Inception ResNet v2 (~ 0.07 EMD on valset, thanks to [@tfriedel](https:\u002F\u002Fgithub.com\u002Ftfriedel) !)\n- MobileNet (0.0804 EMD on valset)\n\n# Usage\n## Evaluation\nThere are `evaluate_*.py` scripts which can be used to evaluate an image using a specific model. The weights for the specific model must be downloaded from the [Releases Tab](https:\u002F\u002Fgithub.com\u002Ftitu1994\u002Fneural-image-assessment\u002Freleases) and placed in the weights directory.\n\nSupports either passing a directory using `-dir` or a set of full paths of specific images using `-img` (seperate multiple image paths using spaces between them)\n\nSupports passing an argument `-resize \"true\u002Ffalse\"` to resize each image to (224x224) or not before passing for NIMA scoring. \n**Note** : NASNet models do not support this argument, all images **must be resized prior to scoring !**\n\n### Arguments: \n```\n-dir    : Pass the relative\u002Ffull path of a directory containing a set of images. Only png, jpg and jpeg images will be scored.\n-img    : Pass one or more relative\u002Ffull paths of images to score them. Can support all image types supported by PIL.\n-resize : Pass \"true\" or \"false\" as values. Resize an image prior to scoring it. Not supported on NASNet models.\n```\n\n## Training\nThe AVA dataset is required for training these models. I used 250,000 images to train and the last 5000 images to evaluate (this is not the same format as in the paper).\n\nFirst, ensure that the dataset is clean - no currupted JPG files etc by using the `check_dataset.py` script in the utils folder. If such currupted images exist, it will drastically slow down training since the Tensorflow Dataset buffers will constantly flush and reload on each occurance of a currupted image.\n\nThen, there are two ways of training these models.\n### Direct-Training\nIn direct training, you have to ensure that the model can be loaded, trained, evaluated and then saved all on a single GPU. If this cannot be done (because the model is too large), refer to the Pretraining section.\n\nUse the `train_*.py` scripts for direct training. Note, if you want to train other models, copy-paste a train script and only edit the `base_model` creation part, everythin else should likely be the same.\n\n### Pre-Training\nIf the model is too large to train directly, training can still be done in a roundabout way (as long as you are able to do inference with a batch of images with the model).\n\n**Note** : One obvious drawback of such a method is that it wont have the performance of the full model without further finetuning. \n\nThis is a 3 step process:\n\n1)  **Extract features from the model**: Use the `extract_*_features.py` script to extract the features from the large model. In this step, you can change the batch_size to be small enough to not overload your GPU memory, and save all the features to 2 TFRecord objects.\n\n2) **Pre-Train the model**: Once the features have been extracted, you can simply train a small feed forward network on those features directly. Since the feed forward network will likely easily fit onto memory, you can use large batch sizes to quickly train the network.\n\n3) **Fine-Tune the model**: This step is optional, only for those who have sufficient memory to load both the large model and the feed forward classifier at the same time. Use the `train_nasnet_mobile.py` as reference as to how to load both the large model and the weights of the feed forward network into this large model and then train fully for several epochs at a lower learning rate.\n\n# Example\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftitu1994_neural-image-assessment_readme_491ad68d4acb.jpg\" height=100% width=100%>\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftitu1994_neural-image-assessment_readme_9d530c9c0de2.jpg\" height=100% width=100%>\n\n# Requirements\n- Keras\n- Tensorflow (CPU to evaluate, GPU to train)\n- Numpy\n- Path.py\n- PIL\n","# NIMA：神经图像评估\n在 Keras + TensorFlow 中实现了 [NIMA：神经图像评估](https:\u002F\u002Farxiv.org\u002Fabs\u002F1709.05424)，并提供了基于 AVA 数据集训练的 MobileNet 模型权重。\n\nNIMA 为图像分配一个均值加标准差的评分，可用作自动检测图像质量的工具，也可作为损失函数来进一步提升生成图像的质量。\n\n包含以下模型在 AVA 数据集上训练得到的权重：\n- NASNet Mobile（在验证集上的 EMD 为 0.067，感谢 [@tfriedel](https:\u002F\u002Fgithub.com\u002Ftfriedel)！仅使用预训练权重时的 EMD 为 0.0848）\n- Inception ResNet v2（在验证集上的 EMD 约为 0.07，感谢 [@tfriedel](https:\u002F\u002Fgithub.com\u002Ftfriedel)！）\n- MobileNet（在验证集上的 EMD 为 0.0804）\n\n# 使用方法\n## 评估\n提供了 `evaluate_*.py` 脚本，可用于使用特定模型对图像进行评估。必须从 [Releases Tab](https:\u002F\u002Fgithub.com\u002Ftitu1994\u002Fneural-image-assessment\u002Freleases) 下载相应模型的权重，并将其放置在 weights 目录中。\n\n支持通过 `-dir` 参数传递目录，或通过 `-img` 参数传递一组具体图像的完整路径（多个路径之间用空格分隔）。\n\n还支持传递 `-resize \"true\u002Ffalse\"` 参数，以决定是否在送入 NIMA 进行评分前将每张图像调整为 (224x224) 大小。\n**注意**：NASNet 模型不支持此参数，所有图像 **必须在评分前先进行调整大小**！\n\n### 参数说明：\n```\n-dir    : 传入包含一组图像的目录的相对或绝对路径。仅会对 png、jpg 和 jpeg 格式的图像进行评分。\n-img    : 传入一个或多个要评分的图像的相对或绝对路径。支持 PIL 所有类型的图像。\n-resize : 传入 \"true\" 或 \"false\"。在评分前调整图像大小。NASNet 模型不支持此参数。\n```\n\n## 训练\n训练这些模型需要 AVA 数据集。我使用了 250,000 张图像进行训练，并用最后 5,000 张图像进行评估（这与论文中的格式不同）。\n\n首先，请确保数据集干净——没有损坏的 JPG 文件等，可使用 utils 文件夹中的 `check_dataset.py` 脚本进行检查。如果存在损坏的图像，将会极大地拖慢训练速度，因为 TensorFlow 的数据集缓冲区会在每次遇到损坏图像时不断刷新和重新加载。\n\n然后，有两种方式可以训练这些模型。\n### 直接训练\n在直接训练中，必须确保能够在单个 GPU 上完成模型的加载、训练、评估和保存。如果无法做到（例如由于模型过大），请参考预训练部分。\n\n使用 `train_*.py` 脚本进行直接训练。请注意，若想训练其他模型，只需复制粘贴一个训练脚本，并仅修改 `base_model` 的创建部分，其余部分通常保持不变。\n\n### 预训练\n如果模型过大而无法直接训练，则仍可通过迂回的方式进行训练（只要能够使用该模型对一批图像进行推理即可）。\n\n**注意**：这种方法的一个明显缺点是，在未进行进一步微调之前，其性能将不如完整的模型。\n\n这是一个三步流程：\n\n1) **从模型中提取特征**：使用 `extract_*_features.py` 脚本从大型模型中提取特征。在此步骤中，可以将 batch_size 设置得足够小，以避免 GPU 内存过载，并将所有特征保存到两个 TFRecord 文件中。\n\n2) **预训练模型**：特征提取完成后，可以直接在这些特征上训练一个小型的前馈神经网络。由于前馈网络通常很容易适应内存，因此可以使用较大的 batch size 来快速训练网络。\n\n3) **微调模型**：此步骤为可选，仅适用于那些有足够的内存同时加载大型模型和前馈分类器的人。可以参考 `train_nasnet_mobile.py`，了解如何将大型模型及其权重与前馈网络的权重一同加载到大型模型中，然后以较低的学习率再训练几个 epoch。\n\n# 示例\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftitu1994_neural-image-assessment_readme_491ad68d4acb.jpg\" height=100% width=100%>\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftitu1994_neural-image-assessment_readme_9d530c9c0de2.jpg\" height=100% width=100%>\n\n# 需求\n- Keras\n- TensorFlow（CPU 用于评估，GPU 用于训练）\n- NumPy\n- Path.py\n- PIL","# NIMA (Neural Image Assessment) 快速上手指南\n\nNIMA 是一个基于深度学习的图像质量评估工具，能够为图片输出“平均分 + 标准差”评分。它可用于自动筛选高质量图片，或作为损失函数优化生成图像的质量。本项目提供了在 AVA 数据集上预训练的 MobileNet、NASNet Mobile 和 Inception ResNet v2 模型权重。\n\n## 环境准备\n\n### 系统要求\n- **操作系统**：Linux \u002F macOS \u002F Windows\n- **硬件建议**：\n  - **推理（评估）**：CPU 即可运行。\n  - **训练**：需要 GPU 支持。\n\n### 前置依赖\n请确保已安装 Python 环境，并安装以下核心库：\n- Keras\n- Tensorflow\n- Numpy\n- Path.py\n- PIL (Pillow)\n\n> **国内加速建议**：安装依赖时推荐使用清华或阿里镜像源以提升下载速度。\n> ```bash\n> pip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple keras tensorflow numpy path.py pillow\n> ```\n\n## 安装步骤\n\n1. **克隆项目代码**\n   ```bash\n   git clone https:\u002F\u002Fgithub.com\u002Ftitu1994\u002Fneural-image-assessment.git\n   cd neural-image-assessment\n   ```\n\n2. **下载预训练权重**\n   访问项目的 [Releases 页面](https:\u002F\u002Fgithub.com\u002Ftitu1994\u002Fneural-image-assessment\u002Freleases)，下载你所需模型的权重文件（例如 `mobilenet.h5` 或 `nasnet_mobile.h5`）。\n   \n   将下载的权重文件放入项目根目录下的 `weights` 文件夹中（若不存在请新建）：\n   ```bash\n   mkdir -p weights\n   # 假设你下载了 mobilenet 权重\n   mv \u003C下载的文件路径> weights\u002F\n   ```\n\n## 基本使用\n\n本项目提供了专门的脚本用于评估单张图片或整个文件夹的图片质量。\n\n### 评估单张或多张图片\n使用 `evaluate_*.py` 脚本（根据你下载的模型选择对应的脚本，如 `evaluate_mobilenet.py`）。\n\n**命令格式：**\n```bash\npython evaluate_\u003Cmodel_name>.py -img \u003C图片路径 1> \u003C图片路径 2> ... [-resize true\u002Ffalse]\n```\n\n**示例：**\n评估当前目录下的两张图片，并在评分前自动调整大小为 224x224（注意：NASNet 模型不支持 `-resize` 参数，必须预先手动调整图片大小）：\n```bash\npython evaluate_mobilenet.py -img image1.jpg image2.png -resize \"true\"\n```\n\n### 评估整个文件夹\n扫描指定目录下所有 `.png`, `.jpg`, `.jpeg` 格式的图片进行评分。\n\n**命令格式：**\n```bash\npython evaluate_\u003Cmodel_name>.py -dir \u003C文件夹相对或绝对路径> [-resize true\u002Ffalse]\n```\n\n**示例：**\n评估 `.\u002Ftest_images` 文件夹中的所有图片：\n```bash\npython evaluate_mobilenet.py -dir .\u002Ftest_images -resize \"true\"\n```\n\n### 输出说明\n运行后，程序将为每张图片输出一个 **Mean (平均分)** 和 **Standard Deviation (标准差)**。分数越高代表图像美学质量越好。","某电商平台的算法团队正在构建自动化的商品图审核流水线，需要从每日上传的数万张用户生成内容（UGC）中筛选出高质量图片用于首页推荐。\n\n### 没有 neural-image-assessment 时\n- 依赖人工运营团队逐张肉眼筛选，耗时费力且无法应对海量并发数据，导致优质内容上线延迟。\n- 仅使用简单的分辨率或文件大小规则进行过滤，无法识别模糊、构图混乱或美学价值低的“高清废片”。\n- 缺乏统一的量化评分标准，不同审核人员对图片质量的判断主观差异大，导致推荐结果风格不一致。\n- 在训练生成式模型优化图片质量时，缺乏有效的自动化损失函数（Loss Function），难以引导模型生成符合人类审美的图像。\n\n### 使用 neural-image-assessment 后\n- 利用 NIMA 对图片进行批量自动打分（均值 + 标准差），秒级处理万级图片，快速拦截低分图并优先展示高分图。\n- 基于深度学习模型精准捕捉美学特征，有效剔除虽然清晰但构图糟糕的图片，显著提升展示内容的视觉吸引力。\n- 建立客观的数字化质量基准，确保全平台图片筛选标准统一，使推荐系统的点击率和用户停留时长明显提升。\n- 将 NIMA 评分直接作为损失函数融入生成模型训练，自动迭代优化输出效果，大幅减少后期人工修图成本。\n\nneural-image-assessment 通过将主观的人类审美转化为可计算的数学指标，实现了图像质量评估从“人工经验判断”到“自动化智能决策”的跨越。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftitu1994_neural-image-assessment_491ad68d.jpg","titu1994","Somshubra Majumdar","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Ftitu1994_8b4ca043.jpg","Interested in Machine Learning, Deep Learning and Data Science in general","NVIDIA","San Jose, CA","titu1994@gmail.com",null,"http:\u002F\u002Ftitu1994.github.io\u002F","https:\u002F\u002Fgithub.com\u002Ftitu1994",[83],{"name":84,"color":85,"percentage":86},"Python","#3572A5",100,822,219,"2026-03-26T08:32:09","MIT","未说明","评估可使用 CPU，训练必需 GPU。具体型号、显存大小及 CUDA 版本未说明（需支持 TensorFlow GPU 版本）。若模型过大无法单卡训练，需采用特征提取的分步训练法以降低显存需求。","未说明（直接训练大模型需足够显存容纳整个模型；分步训练可降低内存压力）",{"notes":95,"python":91,"dependencies":96},"1. 训练需准备 AVA 数据集，建议先使用脚本清理损坏的 JPG 文件以防训练中断。2. NASNet 模型在评分前必须将图像调整为 224x224，不支持通过参数自动调整。3. 预训练权重需从 Releases 页面单独下载并放入 weights 目录。4. 对于显存不足的情况，支持通过‘提取特征 -> 预训练小网络 -> 微调’的三步法进行训练。",[97,98,99,100,101],"Keras","Tensorflow","Numpy","Path.py","PIL",[15,16,14],[104,105,106,64],"keras","tensorflow","ava-dataset","2026-03-27T02:49:30.150509","2026-04-18T09:20:56.503502",[110,115,120,125,129,134],{"id":111,"question_zh":112,"answer_zh":113,"source_url":114},39308,"Earth Mover Distance (EMD) 损失函数的实现是否正确？","原始实现中缺少累积分布函数（CDF）的计算。正确的 EMD 损失应基于真实值和预测值的累积和之差。修正后的 Keras 后端代码应为：`K.sqrt(K.mean(K.square(K.abs(K.cumsum(y_true, axis=-1) - K.cumsum(y_pred, axis=-1)))))`。请确保在训练前更新损失函数计算逻辑，否则会导致评估结果不准确。","https:\u002F\u002Fgithub.com\u002Ftitu1994\u002Fneural-image-assessment\u002Fissues\u002F2",{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},39309,"为什么失真图像（低质量）的 NIMA 评分仍然很高？","NIMA 模型输出的是分数的均值和标准差。如果仅看均值可能会产生误导。此外，有用户指出原始论文中提到的“最大熵优化”步骤在某些实现中被省略。理论上，给定均值和标准差，正态分布是具有最大熵的分布。如果复现时未包含该优化步骤或数据集标签处理不当，可能导致对失真图像的评分异常偏高。建议检查是否完整复现了包括最大熵优化在内的所有步骤。","https:\u002F\u002Fgithub.com\u002Ftitu1994\u002Fneural-image-assessment\u002Fissues\u002F14",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},39310,"如何在训练中进行随机裁剪（Random Cropping）和数据增强？","如果不使用 TensorFlow 原生的 Dataset API，可以自定义数据生成器。维护者建议使用 `tf.random_crop` 进行随机裁剪，或者修改 `ImageDataGenerator` 结合 `torchvision` 的变换 API 作为预处理步骤。另一种方案是使用基于 `BcolzArrayIterator` 的自定义生成器以节省内存，并在其中集成随机裁剪和翻转功能。关键是要确保在数据流入模型前正确应用了这些增强操作。","https:\u002F\u002Fgithub.com\u002Ftitu1994\u002Fneural-image-assessment\u002Fissues\u002F3",{"id":126,"question_zh":127,"answer_zh":128,"source_url":124},39311,"图像预处理方式（填充 Padding vs 直接缩放 Resizing）对模型性能有多大影响？","根据实验对比，使用 NasNet Mobile 在 TID2013 子集上的测试结果显示：保持宽高比并填充（Padding）后裁剪至 224x224 的 Spearman 相关系数（Rho）为 0.6573，而直接缩放（Resizing）后裁剪的 Rho 为 0.6442。结论是填充方式略优于直接缩放，但两者差异不大。推荐优先尝试保持宽高比并填充黑边的预处理方式。",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},39312,"在 TID2013 数据集上训练时遇到 'Can't instantiate abstract class Dataset' 错误怎么办？","该错误通常源于 TensorFlow 版本不兼容或数据加载器实现问题。多个用户报告在运行 `train_mobilenet_tid.py` 或 `train_mobilenet.py` 时出现此 `TypeError`。这往往是因为代码试图实例化一个未完全实现抽象方法的 `Dataset` 类。解决方案包括：检查 TensorFlow 和 Keras 版本是否与代码库要求一致，或者改用传统的 Python 生成器（generator）代替 tf.data.Dataset API 来加载数据，以避免抽象类实例化问题。","https:\u002F\u002Fgithub.com\u002Ftitu1994\u002Fneural-image-assessment\u002Fissues\u002F48",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},39313,"训练最后一个 Epoch 时出现 'IndexError: list index out of range' 错误如何解决？","此错误常发生在 `keras.fit_generator` 结束时的上下文清理阶段，特别是在自定义数据生成器中。这通常是由于生成器在迭代结束时未能正确处理停止信号，导致 TensorFlow 会话栈操作越界。解决方法是检查自定义 `train_generator` 的代码，确保在数据耗尽时正确抛出 `StopIteration` 异常，或者调整 `steps_per_epoch` 参数使其精确匹配数据批次数量，避免生成器被过度调用。","https:\u002F\u002Fgithub.com\u002Ftitu1994\u002Fneural-image-assessment\u002Fissues\u002F9",[140,145,150,155,160],{"id":141,"version":142,"summary_zh":143,"released_at":144},315247,"v0.5","由 @tfriedel 提供，这是在 AVA 数据集上微调过的 Inception ResNet v2 的权重。\n\n验证集上的最终得分约为 0.07（由 @tfriedel 报告）。","2018-01-10T04:21:59",{"id":146,"version":147,"summary_zh":148,"released_at":149},315248,"v0.4","来自 NASNet Mobile 模型的权重，该模型已在 AVA 数据集上进行了预训练。\n\n**注意**：共有两个文件。\n- `nasnet_weights.h5` 是完整训练得到的权重，得分为 0.067。\n- `nasnet_weights_0_0848.h5` 是预训练版本的权重，得分为 0.0848。\n\n显著的限制：\n- 在评估时，输入图像必须且只能是 224×224 像素大小；而 MobileNet 则可以接受任意尺寸的图像。","2018-01-07T06:10:35",{"id":151,"version":152,"summary_zh":153,"released_at":154},315249,"v0.3","权重基于v0.2版本的模型进行微调，使用#3中指定的损失函数。","2018-01-06T04:52:39",{"id":156,"version":157,"summary_zh":158,"released_at":159},315250,"v0.2","在 https:\u002F\u002Fgithub.com\u002Ftitu1994\u002Fneural-image-assessment\u002Fissues\u002F2 提出的修复基础上训练的权重。","2018-01-05T11:18:43",{"id":161,"version":162,"summary_zh":163,"released_at":164},315251,"v0.1","MobileNet 224 的权重，在 AVA 数据集上训练了 15 个 epoch。\n\n**注意**：该模型使用错误的损失函数进行训练，导致结果不准确。请使用上方标签 v0.2 或 v0.2.1 中的版本，它们采用正确的损失函数进行训练，能够得到准确的评估指标。","2018-01-02T15:16:20"]