[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-huggingface--dataset-viewer":3,"tool-huggingface--dataset-viewer":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":80,"owner_twitter":76,"owner_website":81,"owner_url":82,"languages":83,"stars":108,"forks":109,"last_commit_at":110,"license":111,"difficulty_score":112,"env_os":113,"env_gpu":114,"env_ram":114,"env_deps":115,"category_tags":118,"github_topics":119,"view_count":23,"oss_zip_url":80,"oss_zip_packed_at":80,"status":16,"created_at":125,"updated_at":126,"faqs":127,"releases":157},3200,"huggingface\u002Fdataset-viewer","dataset-viewer","Backend that powers the dataset viewer on Hugging Face dataset pages through a public API.","dataset-viewer 是驱动 Hugging Face 数据集页面预览功能的核心后端服务。当你浏览 Hugging Face 上的数据集时，看到的分页表格、搜索过滤栏以及基础统计图表，均由它通过公共 API 实时提供支撑。\n\n在海量数据面前，直接下载或加载整个数据集往往效率低下且占用资源。dataset-viewer 解决了这一痛点，它预先处理并索引数据，让用户无需下载即可在浏览器中快速浏览前 100 行样本、翻页查看后续内容、执行关键词搜索或筛选特定字段。这种“先预览后决策”的机制，极大提升了查找和验证数据的效率。\n\n这套系统主要服务于 AI 研究人员、数据科学家以及机器学习开发者。对于需要快速评估数据集质量、检查数据格式或寻找特定样本的专业人士来说，它是不可或缺的效率工具。虽然普通用户也能受益于更友好的数据展示，但其核心价值在于赋能专业工作流。\n\n技术层面，dataset-viewer 的独特之处在于其高效的预计算架构。它将繁重的数据处理任务前置，通过 API 按需交付轻量级结果，从而实现了毫秒级的响应速度。值得注意的是，目前开源的仅为后端逻辑，前端展示组件仍属于 Hugg","dataset-viewer 是驱动 Hugging Face 数据集页面预览功能的核心后端服务。当你浏览 Hugging Face 上的数据集时，看到的分页表格、搜索过滤栏以及基础统计图表，均由它通过公共 API 实时提供支撑。\n\n在海量数据面前，直接下载或加载整个数据集往往效率低下且占用资源。dataset-viewer 解决了这一痛点，它预先处理并索引数据，让用户无需下载即可在浏览器中快速浏览前 100 行样本、翻页查看后续内容、执行关键词搜索或筛选特定字段。这种“先预览后决策”的机制，极大提升了查找和验证数据的效率。\n\n这套系统主要服务于 AI 研究人员、数据科学家以及机器学习开发者。对于需要快速评估数据集质量、检查数据格式或寻找特定样本的专业人士来说，它是不可或缺的效率工具。虽然普通用户也能受益于更友好的数据展示，但其核心价值在于赋能专业工作流。\n\n技术层面，dataset-viewer 的独特之处在于其高效的预计算架构。它将繁重的数据处理任务前置，通过 API 按需交付轻量级结果，从而实现了毫秒级的响应速度。值得注意的是，目前开源的仅为后端逻辑，前端展示组件仍属于 Hugging Face 平台专有部分。如果你在使用中遇到错误或希望贡献代码，社区非常欢迎通过 GitHub Issue 或论坛参与协作。","# Dataset viewer\n\nThe dataset page includes a table with the dataset's contents, arranged by pages of 100 rows. You can navigate between pages using the buttons at the bottom of the table, filter, search, look at basic statistics, and more.\n\n\u003Cimg width=\"1015\" alt=\"screenshot of the dataset viewer, for the dataset 'AI-MO\u002FNuminaMath-CoT' hosted on Hugging Face\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fhuggingface_dataset-viewer_readme_a75637bcbbe1.png\">\n\nThis repository is the backend that provides the dataset viewer with pre-computed data through an API, for all the datasets on the Hub. The frontend viewer component is not part of this repository and is not open-source, as the rest of the Hub.\n\nDocumentation:\n- dataset viewer: https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Fhub\u002Fdatasets-viewer\n- configuration of the datasets: https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Fhub\u002Fdatasets-data-files-configuration\n- backend's API: https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Fdataset-viewer\n\n## You saw a bug 🪲 or want a new feature 🎁\n\nIf the dataset viewer is showing an error on your dataset page, please [open a discussion](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Fhub\u002Frepositories-pull-requests-discussions) there, it's the most efficient way to fix it. Tag [`@lhoestq`](https:\u002F\u002Fhuggingface.co\u002Flhoestq), [`@asoria`](https:\u002F\u002Fhuggingface.co\u002Fasoria) or [`@albertvillanova`](https:\u002F\u002Fhuggingface.co\u002Falbertvillanova) in the discussion to reach the team directly.\n\nIf you identify a bigger error and think the dataset viewer has a bug, or if you want to ask for a new feature, please [open a new issue](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdataset-viewer\u002Fissues\u002Fnew) here.\n\n## Contribute 🤝\n\nYou can help by giving ideas, answering questions, reporting bugs, proposing enhancements, improving the documentation, and fixing bugs. See [CONTRIBUTING.md](.\u002FCONTRIBUTING.md) for more details.\n\nTo install this backend and start contributing to the code, see [DEVELOPER_GUIDE.md](.\u002FDEVELOPER_GUIDE.md)\n\n## Community 🤗\n\nYou can star and watch this [GitHub repository](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdataset-viewer) to follow the updates.\n\nYou can ask for help or answer questions on the [Forum](https:\u002F\u002Fdiscuss.huggingface.co\u002Fc\u002Fdatasets\u002F10) and [Discord](https:\u002F\u002Fdiscord.com\u002Fchannels\u002F879548962464493619\u002F1019883044724822016).\n\nYou can also report bugs and propose enhancements on the code, or the documentation, in the [GitHub issues](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdataset-viewer\u002Fissues).\n","# 数据集查看器\n\n数据集页面包含一个表格，展示了数据集的内容，每页显示100行。您可以通过表格底部的按钮在不同页面之间切换，还可以进行筛选、搜索、查看基本统计信息等操作。\n\n\u003Cimg width=\"1015\" alt=\"数据集查看器截图，适用于 Hugging Face 上托管的 'AI-MO\u002FNuminaMath-CoT' 数据集\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fhuggingface_dataset-viewer_readme_a75637bcbbe1.png\">\n\n该仓库是后端服务，通过 API 为 Hub 上的所有数据集提供预计算的数据，从而支持数据集查看器的功能。而前端的查看器组件并不属于此仓库，且与 Hub 的其他部分一样，并未开源。\n\n文档：\n- 数据集查看器：https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Fhub\u002Fdatasets-viewer\n- 数据集配置：https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Fhub\u002Fdatasets-data-files-configuration\n- 后端 API：https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Fdataset-viewer\n\n## 您发现了 bug 🪲 或希望新增功能 🎁\n\n如果数据集查看器在您的数据集页面上显示错误，请在该页面上 [开启讨论](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Fhub\u002Frepositories-pull-requests-discussions)，这是解决问题的最高效方式。请在讨论中标记 [`@lhoestq`](https:\u002F\u002Fhuggingface.co\u002Flhoestq)、[`@asoria`](https:\u002F\u002Fhuggingface.co\u002Fasoria) 或 [`@albertvillanova`](https:\u002F\u002Fhuggingface.co\u002Falbertvillanova)，以便直接联系相关团队。\n\n如果您发现较为严重的错误，认为数据集查看器存在 bug，或者希望请求新增功能，请在此处 [提交新 issue](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdataset-viewer\u002Fissues\u002Fnew)。\n\n## 贡献 🤝\n\n您可以通过提出想法、解答问题、报告 bug、建议改进、完善文档以及修复 bug 等方式来帮助我们。更多详情请参阅 [CONTRIBUTING.md](.\u002FCONTRIBUTING.md)。\n\n如需安装此后端并开始参与代码贡献，请参阅 [DEVELOPER_GUIDE.md](.\u002FDEVELOPER_GUIDE.md)。\n\n## 社区 🤗\n\n您可以给这个 [GitHub 仓库](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdataset-viewer) 加星标并关注，以及时获取更新信息。\n\n您也可以在 [论坛](https:\u002F\u002Fdiscuss.huggingface.co\u002Fc\u002Fdatasets\u002F10) 和 [Discord](https:\u002F\u002Fdiscord.com\u002Fchannels\u002F879548962464493619\u002F1019883044724822016) 上寻求帮助或解答疑问。\n\n此外，您还可以在 [GitHub issues](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdataset-viewer\u002Fissues) 中报告 bug 或对代码及文档提出改进建议。","# Dataset Viewer 快速上手指南\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：Linux (推荐 Ubuntu 20.04+) 或 macOS。Windows 用户建议使用 WSL2。\n*   **Python**：版本 3.9 或更高。\n*   **包管理器**：推荐使用 `pip` 或 `conda`。\n*   **依赖项**：需要安装 Hugging Face `datasets` 库及相关数据处理依赖。\n\n> **注意**：本项目主要作为 Hugging Face Hub 的后端服务运行。普通用户通常直接使用 Hub 网页版查看器；本指南面向希望本地部署后端或贡献代码的开发者。\n\n## 安装步骤\n\n### 1. 克隆仓库\n首先从 GitHub 克隆项目源码：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdataset-viewer.git\ncd dataset-viewer\n```\n\n### 2. 创建虚拟环境\n建议创建独立的 Python 虚拟环境以避免依赖冲突：\n\n```bash\npython -m venv venv\nsource venv\u002Fbin\u002Factivate  # Windows 用户使用: venv\\Scripts\\activate\n```\n\n### 3. 安装依赖\n根据官方开发者指南，安装必要的开发依赖。若需加速下载，可临时指定国内镜像源（如清华源）：\n\n```bash\n# 使用国内镜像源加速安装 (可选)\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n\n# 或者安装为可编辑模式以便开发\npip install -e . -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n*注：具体的依赖文件列表请参考仓库根目录下的 `requirements.txt` 或遵循 `DEVELOPER_GUIDE.md` 中的详细指令。*\n\n## 基本使用\n\nDataset Viewer 的核心功能是通过 API 提供预计算的数据集内容。以下是启动本地后端服务的最简示例：\n\n### 启动后端服务\n在项目根目录下，使用以下命令启动 API 服务（默认端口通常为 8000 或配置文件中指定的端口）：\n\n```bash\nuvicorn app.main:app --reload --host 0.0.0.0 --port 8000\n```\n\n### 验证服务\n服务启动后，您可以通过浏览器或 curl 访问本地接口来测试数据集查看功能。例如，获取某个数据集的行数据：\n\n```bash\ncurl \"http:\u002F\u002Flocalhost:8000\u002Frows?dataset=AI-MO\u002FNuminaMath-CoT&config=default&split=train&offset=0&length=100\"\n```\n\n### 配置数据集\n若要自定义数据集的文件配置，请参考 Hugging Face 官方文档进行 `data_files` 配置：\nhttps:\u002F\u002Fhuggingface.co\u002Fdocs\u002Fhub\u002Fdatasets-data-files-configuration\n\n---\n*更多详细的开发贡献指南请参阅项目中的 `DEVELOPER_GUIDE.md` 文件。*","某数据科学家正在为训练数学推理模型筛选高质量的 Hugging Face 数据集，需要快速评估\"AI-MO\u002FNuminaMath-CoT\"中样本的解题步骤质量与格式规范性。\n\n### 没有 dataset-viewer 时\n- 必须编写并运行本地 Python 脚本下载整个数据集，耗时耗力且占用大量磁盘空间才能预览内容。\n- 无法在不加载全量数据的情况下进行关键词搜索或过滤，难以快速定位特定的解题模式或错误样本。\n- 缺乏直观的分页浏览和基础统计信息，导致对数据分布、字段完整性及潜在偏差的判断完全依赖盲猜。\n- 发现数据异常（如格式错乱）时，无法直接通过网页反馈，沟通修复成本极高。\n\n### 使用 dataset-viewer 后\n- 直接在 Hugging Face 网页端通过 API 预计算的数据流式查看前 100 行样本，无需下载即可即时评估数据质量。\n- 利用内置的搜索和过滤功能，毫秒级定位包含特定数学符号或逻辑结构的行，大幅提升筛选效率。\n- 通过可视化表格分页导航及自动生成的统计数据，清晰掌握数据规模、字段类型及分布特征。\n- 遇到显示错误或数据问题时，可直接在页面发起讨论并标记维护团队，实现问题的快速响应与修复。\n\ndataset-viewer 将原本繁琐的“下载 - 加载 - 检查”流程转化为秒级的在线交互体验，极大降低了数据探索的门槛与时间成本。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fhuggingface_dataset-viewer_12256905.png","huggingface","Hugging Face","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fhuggingface_90da21a4.png","The AI community building the future.",null,"https:\u002F\u002Fhuggingface.co\u002F","https:\u002F\u002Fgithub.com\u002Fhuggingface",[84,88,92,96,100,104],{"name":85,"color":86,"percentage":87},"Python","#3572A5",96.7,{"name":89,"color":90,"percentage":91},"Go Template","#00ADD8",1.7,{"name":93,"color":94,"percentage":95},"Rust","#dea584",0.8,{"name":97,"color":98,"percentage":99},"Makefile","#427819",0.7,{"name":101,"color":102,"percentage":103},"Dockerfile","#384d54",0.2,{"name":105,"color":106,"percentage":107},"HTML","#e34c26",0,855,110,"2026-04-03T23:29:40","Apache-2.0",4,"","未说明",{"notes":116,"python":114,"dependencies":117},"README 中未直接列出运行环境需求。该工具是 Hugging Face Hub 数据集查看器的后端服务，通过 API 提供预计算数据。具体的安装步骤、依赖库及系统要求需参考项目中的 DEVELOPER_GUIDE.md 文件。前端组件不开源。",[],[13,14,26,51,53],[120,121,122,123,76,124],"datasets","machine-learning","api-rest","data","nlp","2026-03-27T02:49:30.150509","2026-04-06T06:46:08.043760",[128,133,138,143,148,153],{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},14763,"如何启用和查看私有数据集（Private Datasets）？","私有数据集现已在 datasets-server 中受支持，启用了数据集页面查看器和 parquet 转换功能。请注意，这是一项付费功能，仅对 Pro 用户和企业组织开放。","https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdataset-viewer\u002Fissues\u002F39",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},14764,"遇到 Opus 音频解码错误（CouldntDecodeError: Unknown input format: 'opus'）该如何解决？","该错误通常由 `pydub` 调用 `ffmpeg` 时无法识别 opus 格式引起，而非 `libsndfile1`。维护者已刷新数据库中受影响的约 500 个数据集以修复此问题。如果遇到类似错误，可以尝试重新触发数据集处理或等待服务器端修复。根本原因涉及 ffmpeg 对 opus 输入格式的支持配置。","https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdataset-viewer\u002Fissues\u002F2584",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},14765,"系统如何处理因内存溢出（OutOfMemory）导致的“僵尸”任务（Zombie Jobs）？","系统现在每 10 分钟会检测并清理一次僵尸任务。如果某个任务的最后心跳时间超过 5 分钟（心跳每分钟一次），该任务将被终止。随后，系统会在缓存数据库中记录相应的错误响应，以防止阻塞同一数据集或用户的其他任务。","https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdataset-viewer\u002Fissues\u002F741",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},14766,"共享缓存目录导致权限错误（PermissionError: [Errno 13] Permission denied: '\u002F.cache'）怎么办？","这是由于 Kubernetes 基础设施中的多个 Worker 共享同一个只读\u002F写缓存目录导致的冲突。该问题已通过相关 PR 修复，主要措施是解决了并发访问时的权限问题。如果遇到此类错误，通常意味着需要重新触发受影响数据集的处理任务（维护者曾一次性修复了约 55 个数据集和 4000 个分片）。","https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdataset-viewer\u002Fissues\u002F248",{"id":149,"question_zh":150,"answer_zh":151,"source_url":152},14767,"数据库中存在状态不一致的任务（有结束时间但状态仍为 started\u002Fwaiting）如何处理？","这种情况属于数据不一致，可以通过查询数据库找出异常任务。例如使用 MongoDB 聚合查询：`db.jobsBlue.count({\"finished_at\": {\"$exists\": true}, \"status\": {\"$nin\": [\"success\", \"error\", \"cancelled\"]}})`。维护者通常会手动修复这些状态，将其更新为正确的错误状态并写入缓存，以便队列逻辑能正常重试或终止。","https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdataset-viewer\u002Fissues\u002F1467",{"id":154,"question_zh":155,"answer_zh":156,"source_url":132},14768,"Parquet 转换失败但不知道具体原因，如何获取更详细的错误信息？","目前文档对于预览功能的详细要求有限。如果运行 list parquet files 查询发现失败但原因不明，可以检查是否是因为数据集结构复杂或缺少必要的元数据。对于包含简单图像文件夹的数据集，如果转换失败，可能需要检查文件路径配置或等待系统对特定格式支持的更新。建议关注官方文档更新以获取更清晰的预览要求。",[158,163,168,173,178,183,188,193,198,203,208,213,218,223,228,233,238,243,248,253],{"id":159,"version":160,"summary_zh":161,"released_at":162},81633,"0.21.0","## 变更内容\n* 由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F210 中将代码拆分并迁移到单仓库模式\n* 由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F214 中引入 Docker\n* 由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F218 中将 Docker 镜像推送至 ECR\n* 由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F221 中更名为 datasets server\n* 由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F227 中使用 Kubernetes\n* 由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F236 中将 datasets-server-worker 添加到 Kube 集群\n* 由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F245 中添加 Nginx 代理\n* 功能：🎸 将 datasets 升级至 2.2.0，由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F246 中完成\n* 功能：🎸 将 Docker 镜像升级以使用 datasets 2.2.0，由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F247 中完成\n* 功能：🎸 将 datasets 升级至 2.2.1，由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F253 中完成\n* 功能：🎸 使用搭载 datasets 2.2.1 的镜像，由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F254 中完成\n* 由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F258 中添加指标\n* 功能：🎸 升级镜像以获取 \u002Fprometheus 端点，由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F262 中完成\n* 修复：🐛 使用 dnspython 为 mongodb+srv:\u002F\u002F URL 添加支持，由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F263 中完成\n* 生产环境，由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F266 中部署\n* 功能：🎸 升级镜像，由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F267 中完成\n* 修复：🐛 修复循环问题，由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F268 中完成\n* 功能：🎸 升级镜像，由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F269 中完成\n* 修复：🐛 修复用于获取队列中作业列表的查询，由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F271 中完成\n* 由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F272 中升级 worker\n* 由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F260 中添加服务监控器\n* 修复：🐛 修复 NFS 挂载问题，由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F274 中完成\n* 功能：🎸 添加管理员服务（用于运行管理脚本），由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F275 中完成\n* 功能：🎸 在生产环境中启用监控，由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F276 中完成\n* 修复：🐛 黑名单必须是逗号分隔的列表，由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F278 中完成\n* 修复生产环境中的内存问题，由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F280 中完成\n* 功能：🎸 升级镜像，由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F281 中完成\n* 修复：🐛 禁用关于缓存和队列的指标，由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-server\u002Fpull\u002F282 中完成\n* 功能：🎸 升级镜像，由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002F","2023-02-14T10:49:12",{"id":164,"version":165,"summary_zh":166,"released_at":167},81634,"0.20.2","## 变更内容\n* 由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F209 中将数据集升级至 2.1.0\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fcompare\u002F0.20.1...0.20.2","2022-04-14T13:24:04",{"id":169,"version":170,"summary_zh":171,"released_at":172},81635,"0.20.1","## 变更内容\n* 修复：🐛 允许在 `get_rows` 中使用 `streaming=False`，由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F207 中实现。\n\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fcompare\u002F0.20.0...0.20.1","2022-04-12T11:45:24",{"id":174,"version":175,"summary_zh":176,"released_at":177},81636,"0.20.0","## 变更内容\n* 功能新增：🎸 安装 libsndfile 1.0.30，并支持 Opus 文件，由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F195 中实现。\n* 修复：检测待处理任务的问题，由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F198 中修复。\n* [破坏性变更] 修复：🐛 快速修复以避免在处理大行时出现 MongoDB 错误，由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F201 中完成。\n* 简化缓存：通过删除两个集合来简化缓存结构，由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F202 中实现。\n\n迁移说明：缓存数据库结构已修改。请运行 20220408_cache_remove_dbrow_dbcolumn.py 脚本来迁移数据库。\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fcompare\u002F0.19.1...0.20.0","2022-04-12T08:17:53",{"id":179,"version":180,"summary_zh":181,"released_at":182},81637,"0.19.1","## 变更内容\n* 测试：💍 由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F192 中重新启用之前临时禁用的数据集测试\n* 当数据集或拆分缓存正在刷新时，在错误中给出原因，由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F193 中实现\n\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fcompare\u002F0.19.0...0.19.1","2022-04-04T16:27:22",{"id":184,"version":185,"summary_zh":186,"released_at":187},81638,"0.19.0","## 变更内容\n* 由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F189 中移除了“解锁受控数据集”的逻辑。请注意，这是一项破坏性变更，需要使用 moon-landing 中的新“应用令牌”。\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fcompare\u002F0.18.3...0.19.0","2022-04-04T09:28:36",{"id":189,"version":190,"summary_zh":191,"released_at":192},81639,"0.18.3","## 变更内容\n* 由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F187 中更新了被屏蔽的数据集\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fcompare\u002F0.18.2...0.18.3","2022-03-25T13:57:44",{"id":194,"version":195,"summary_zh":196,"released_at":197},81640,"0.18.2","## 变更内容\n* 功能：🎸 由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F182 中升级至 datasets 2.0.0\n\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fcompare\u002F0.18.1...0.18.2","2022-03-16T11:11:21",{"id":199,"version":200,"summary_zh":201,"released_at":202},81641,"0.18.1","## 变更内容\n* 功能：🎸 恢复行数的双重限制（撤销 #162）由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F179 中实现\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fcompare\u002F0.18.0...0.18.1","2022-03-14T14:33:29",{"id":204,"version":205,"summary_zh":206,"released_at":207},81642,"0.18.0","## 变更内容\n* 功能新增：🎸 使用截断单元格内容的方式替代删除行，由 @severo 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F178 中实现。\n\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fcompare\u002F0.17.8...0.18.0","2022-03-14T14:14:35",{"id":209,"version":210,"summary_zh":211,"released_at":212},81643,"0.17.8","## What's Changed\r\n* feat: 🎸 upgrade datasets to 1.18.4 by @severo in https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F174\r\n* Fix ci by @severo in https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F175\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fcompare\u002F0.17.7...0.17.8","2022-03-07T20:17:44",{"id":214,"version":215,"summary_zh":216,"released_at":217},81644,"0.17.7","## What's Changed\r\n* feat: 🎸 hide expected errors from the worker logs by @severo in https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F170\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fcompare\u002F0.17.6...0.17.7","2022-02-25T15:59:16",{"id":219,"version":220,"summary_zh":221,"released_at":222},81645,"0.17.6","## What's Changed\r\n* fix: 🐛 force job finishing in any case by @severo in https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F169\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fcompare\u002F0.17.5...0.17.6","2022-02-25T15:43:08",{"id":224,"version":225,"summary_zh":226,"released_at":227},81646,"0.17.5","## What's Changed\r\n* fix: 🐛 add random jitter to the duration the workers sleep by @severo in https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F166\r\n* fix: 🐛 fix CI by @severo in https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F167\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fcompare\u002F0.17.4...0.17.5","2022-02-25T15:42:55",{"id":229,"version":230,"summary_zh":231,"released_at":232},81647,"0.17.4","## What's Changed\r\n* fix: 🐛 fix incoherencies due to concurrency in the queue by @severo in https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F165\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fcompare\u002F0.17.3...0.17.4","2022-02-25T10:05:21",{"id":234,"version":235,"summary_zh":236,"released_at":237},81648,"0.17.3","## What's Changed\r\n* fix: 🐛 fix concurrency between workers by @severo in https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F164\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fcompare\u002F0.17.2...0.17.3","2022-02-25T09:30:42",{"id":239,"version":240,"summary_zh":241,"released_at":242},81649,"0.17.2","## What's Changed\r\n* feat: 🎸 add MAX_JOBS_PER_DATASET to improve queue availability by @severo in https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F163\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fcompare\u002F0.17.1...0.17.2","2022-02-25T09:04:04",{"id":244,"version":245,"summary_zh":246,"released_at":247},81650,"0.17.1","## What's Changed\r\n* Double limit on size by @severo in https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F162\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fcompare\u002F0.17.0...0.17.1","2022-02-24T16:50:58",{"id":249,"version":250,"summary_zh":251,"released_at":252},81651,"0.17.0","## What's Changed\r\n* Add max size by @severo in https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F161\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fcompare\u002F0.16.23...0.17.0","2022-02-24T12:48:57",{"id":254,"version":255,"summary_zh":256,"released_at":257},81652,"0.16.23","## What's Changed\r\n* refactor: 💡 use datasets' get_dataset_config_info() function by @severo in https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F153\r\n* feat: 🎸 remove direct dependency to pandas by @severo in https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F155\r\n* feat: 🎸 upgrade py7zr and update the safety checks by @severo in https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F156\r\n* refactor: 💡 Use datasets' DownloadMode enum by @severo in https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F158\r\n* feat: 🎸 remove lvwerra\u002Fgithub-code from the blocklist by @severo in https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fpull\u002F159\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets-preview-backend\u002Fcompare\u002F0.16.22...0.16.23","2022-02-23T10:37:35"]