[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Jakobovski--free-spoken-digit-dataset":3,"tool-Jakobovski--free-spoken-digit-dataset":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":80,"owner_email":79,"owner_twitter":79,"owner_website":81,"owner_url":82,"languages":83,"stars":88,"forks":89,"last_commit_at":90,"license":79,"difficulty_score":91,"env_os":92,"env_gpu":92,"env_ram":92,"env_deps":93,"category_tags":100,"github_topics":101,"view_count":109,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":110,"updated_at":111,"faqs":112,"releases":143},644,"Jakobovski\u002Ffree-spoken-digit-dataset","free-spoken-digit-dataset","A free audio dataset of spoken digits. An audio version of MNIST.","free-spoken-digit-dataset 是一个免费的开源音频数据集，专注于英语数字的语音录音，常被视作“音频版的 MNIST\"。它为机器学习项目提供了标准化、易用的训练数据。\n\n在开发语音识别或音频分类模型时，收集高质量且标注清晰的语音数据往往耗时费力。free-spoken-digit-dataset 解决了初学者和研究者缺乏现成数据源的问题，让大家能专注于算法优化而非数据清洗。\n\n它非常适合人工智能开发者、机器学习研究人员以及高校学生使用。无论是想快速搭建数字语音识别 Demo，还是进行学术实验，都能从中受益。\n\n数据集包含 6 位说话人的 3000 条录音，采样率为 8kHz，并经过静音修剪处理以提升质量。其独特亮点在于提供了丰富的实用工具，如生成声谱图的脚本，并支持与 Activeloop Hub、PyTorch 和 TensorFlow 直接集成。此外，数据版本通过 Zenodo DOI 管理，确保了研究的可复现性。目前采用 CC BY-SA 4.0 协议开放，欢迎社区贡献更多录音以持续丰富内容。","# Free Spoken Digit Dataset (FSDD)\n[![DOI](https:\u002F\u002Fzenodo.org\u002Fbadge\u002F61622039.svg)](https:\u002F\u002Fzenodo.org\u002Fbadge\u002Flatestdoi\u002F61622039)\n\nA simple audio\u002Fspeech dataset consisting of recordings of spoken digits in `wav` files at 8kHz. The recordings are trimmed so that they have near minimal silence at the beginnings and ends.\n\nFSDD is an open dataset, which means it will grow over time as data is contributed.  In order to enable reproducibility and accurate citation the dataset is versioned using Zenodo DOI as well as `git tags`.\n\n### Current status\n- 6 speakers\n- 3,000 recordings (50 of each digit per speaker)\n- English pronunciations\n\n### Organization\nFiles are named in the following format:\n`{digitLabel}_{speakerName}_{index}.wav`\nExample: `7_jackson_32.wav`\n\n\n### How to use with Hub\nA simple way of using this dataset is with [Activeloop](https:\u002F\u002Factiveloop.ai)'s python package [Hub](https:\u002F\u002Fgithub.com\u002Factiveloopai\u002FHub)!\n\nFirst, run `pip install hub` (or `pip3 install hub`). \n\n```python\nimport hub\nds = hub.load(\"hub:\u002F\u002Factiveloop\u002Fspoken_mnist\")\n\n# check out the first spectrogram, it's label, and who spoke it!\nimport matplotlib.pyplot as plt\nplt.imshow(ds.spectrograms[0].numpy())\nplt.title(f\"{ds.speakers[0].data()} spoke {ds.labels[0].numpy()}\")\nplt.show()\n\n# train a model in pytorch\nfor sample in ds.pytorch():\n    # ... model code here ...\n\n# train a model in tensorflow\nfor sample in ds.tensorflow():\n    # ... model code here ...\n```\n\navailable tensors can be shown by printing dataset:\n\n```python\nprint(ds)\n# prints: Dataset(path='hub:\u002F\u002Factiveloop\u002Fspoken_mnist', tensors=['spectrograms', 'labels', 'audio', 'speakers'])\n```\n\nFor more information, check out the [hub documentation](https:\u002F\u002Fdocs.activeloop.ai\u002F).\n\n### Contributions\nPlease contribute your homemade recordings. All recordings should be mono 8kHz `wav` files and be trimmed to have minimal silence. Don't forget to update `metadata.py` with the speaker meta-data.\n\nTo add your data, follow the recording instructions in `acquire_data\u002Fsay_numbers_prompt.py`\nand then run `split_and_label_numbers.py` to make your files.\n\n### Metadata\n`metadata.py` contains meta-data regarding the speakers gender and accents.\n\n### Included utilities\n`trimmer.py`\nTrims silences at beginning and end of an audio file. Splits an audio file into multiple audio files by periods of silence.\n\n`fsdd.py`\nA simple class that provides an easy to use API to access the data.\n\n`spectogramer.py`\nUsed for creating spectrograms of the audio data. Spectrograms are often a useful pre-processing step.\n\n### Usage\nThe test set officially consists of the first 10% of the recordings. Recordings numbered `0-4` (inclusive) are in the test and `5-49` are in the training set.\n\n### Made with FSDD\nDid you use FSDD in a paper, project or app? Add it here!\n* [More than 50+ scholarly articles](https:\u002F\u002Fscholar.google.com\u002Fcitations?hl=en&user=OAJpVUkAAAAJ)\n* https:\u002F\u002Fgithub.com\u002FJakobovski\u002Fdecoupled-multimodal-learning\u002F\n* https:\u002F\u002Fadhishthite.github.io\u002Fsound-mnist\u002F by [Adhish Thite](https:\u002F\u002Fadhishthite.github.io\u002F)\n* https:\u002F\u002Fgithub.com\u002Feonu\u002Ftorch-fsdd\u002F - A simple PyTorch data loader for the dataset by [Edwin Onuonga](https:\u002F\u002Fgithub.com\u002Feonu)\n* https:\u002F\u002Fproglearn.neurodata.io\u002F by [NeuroData](https:\u002F\u002Fgithub.com\u002Fneurodata)\n* https:\u002F\u002Fneurodata.io\u002Fdf_dn\u002F by [NeuroData](https:\u002F\u002Fgithub.com\u002Fneurodata)\n\n### External tools\n- **Tensorflow** https:\u002F\u002Fwww.tensorflow.org\u002Fdatasets\u002Fcatalog\u002Fspoken_digit\n- **C#\u002F.NET.** The FSDD dataset can be used in .NET applications using the [FreeSpokenDigitsDataset class](http:\u002F\u002Faccord-framework.net\u002Fdocs\u002Fhtml\u002FT_Accord_DataSets_FreeSpokenDigitsDataset.htm) included withing the Accord.NET Framework. A basic example on how to perform spoken digits classification using audio MFCC features can be found [here](http:\u002F\u002Faccord-framework.net\u002Fdocs\u002Fhtml\u002FT_Accord_Audition_BagOfAudioWords.htm).\n\n### License\n[Creative Commons Attribution-ShareAlike 4.0 International](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-sa\u002F4.0\u002F)\n","# 免费口语数字数据集 (FSDD)\n[![DOI](https:\u002F\u002Fzenodo.org\u002Fbadge\u002F61622039.svg)](https:\u002F\u002Fzenodo.org\u002Fbadge\u002Flatestdoi\u002F61622039)\n\n这是一个简单的音频\u002F语音数据集，包含以 8kHz 采样率的 `wav` 文件形式的口语数字录音。录音经过修剪，使得开头和结尾的静音部分几乎最小化。\n\nFSDD 是一个开放数据集，这意味着随着数据的贡献，它将不断增长。为了实现可复现性和准确的引用，该数据集使用 Zenodo DOI（数字对象标识符）以及 `git tags`（Git 标签）进行版本控制。\n\n### 当前状态\n- 6 位说话人\n- 3,000 条录音（每位说话人每种数字 50 条）\n- 英语发音\n\n### 文件结构\n文件命名格式如下：\n`{digitLabel}_{speakerName}_{index}.wav`\n示例：`7_jackson_32.wav`\n\n\n### 如何使用 Hub\n使用此数据集的一个简单方法是配合 [Activeloop](https:\u002F\u002Factiveloop.ai) 的 Python 包 [Hub](https:\u002F\u002Fgithub.com\u002Factiveloopai\u002FHub)！\n\n首先，运行 `pip install hub`（或 `pip3 install hub`）。 \n\n```python\nimport hub\nds = hub.load(\"hub:\u002F\u002Factiveloop\u002Fspoken_mnist\")\n\n# check out the first spectrogram, it's label, and who spoke it!\nimport matplotlib.pyplot as plt\nplt.imshow(ds.spectrograms[0].numpy())\nplt.title(f\"{ds.speakers[0].data()} spoke {ds.labels[0].numpy()}\")\nplt.show()\n\n# train a model in pytorch\nfor sample in ds.pytorch():\n    # ... model code here ...\n\n# train a model in tensorflow\nfor sample in ds.tensorflow():\n    # ... model code here ...\n```\n\n可以通过打印数据集来查看可用的张量：\n\n```python\nprint(ds)\n# prints: Dataset(path='hub:\u002F\u002Factiveloop\u002Fspoken_mnist', tensors=['spectrograms', 'labels', 'audio', 'speakers'])\n```\n\n更多信息，请查看 [Hub 文档](https:\u002F\u002Fdocs.activeloop.ai\u002F)。\n\n### 贡献\n请贡献您自己录制的录音。所有录音应为单声道 8kHz `wav` 文件，并修剪至静音最少。别忘了用说话人的元数据更新 `metadata.py`。\n\n要添加您的数据，请遵循 `acquire_data\u002Fsay_numbers_prompt.py` 中的录制说明，然后运行 `split_and_label_numbers.py` 来生成您的文件。\n\n### 元数据\n`metadata.py` 包含关于说话人性别和口音的元数据。\n\n### 包含的工具\n`trimmer.py`\n修剪音频文件开头和结尾的静音。根据静音时段将音频文件分割为多个音频文件。\n\n`fsdd.py`\n一个简单的类，提供易于使用的 API（应用程序接口）来访问数据。\n\n`spectogramer.py`\n用于创建音频数据的频谱图。频谱图通常是一个有用的预处理步骤。\n\n### 用法\n测试集官方由前 10% 的录音组成。编号为 `0-4`（含）的录音在测试集中，`5-49` 在训练集中。\n\n### 使用 FSDD 构建的项目\n您在论文、项目或应用中使用了 FSDD 吗？在此添加！\n* [超过 50 篇学术文章](https:\u002F\u002Fscholar.google.com\u002Fcitations?hl=en&user=OAJpVUkAAAAJ)\n* https:\u002F\u002Fgithub.com\u002FJakobovski\u002Fdecoupled-multimodal-learning\u002F\n* https:\u002F\u002Fadhishthite.github.io\u002Fsound-mnist\u002F 由 [Adhish Thite](https:\u002F\u002Fadhishthite.github.io\u002F) 制作\n* https:\u002F\u002Fgithub.com\u002Feonu\u002Ftorch-fsdd\u002F - 由 [Edwin Onuonga](https:\u002F\u002Fgithub.com\u002Feonu) 提供的用于该数据集的简单 PyTorch 数据加载器\n* https:\u002F\u002Fproglearn.neurodata.io\u002F 由 [NeuroData](https:\u002F\u002Fgithub.com\u002Fneurodata) 制作\n* https:\u002F\u002Fneurodata.io\u002Fdf_dn\u002F 由 [NeuroData](https:\u002F\u002Fgithub.com\u002Fneurodata) 制作\n\n### 外部工具\n- **TensorFlow** https:\u002F\u002Fwww.tensorflow.org\u002Fdatasets\u002Fcatalog\u002Fspoken_digit\n- **C#\u002F.NET。** FSDD 数据集可以在 .NET 应用程序中使用 Accord.NET Framework 中包含的 [FreeSpokenDigitsDataset 类](http:\u002F\u002Faccord-framework.net\u002Fdocs\u002Fhtml\u002FT_Accord_DataSets_FreeSpokenDigitsDataset.htm)。关于如何使用音频 MFCC（梅尔频率倒谱系数）特征执行口语数字分类的基本示例可在 [此处](http:\u002F\u002Faccord-framework.net\u002Fdocs\u002Fhtml\u002FT_Accord_Audition_BagOfAudioWords.htm) 找到。\n\n### 许可证\n[知识共享署名 - 相同方式共享 4.0 国际许可协议](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-sa\u002F4.0\u002F)","# Free Spoken Digit Dataset (FSDD) 快速上手指南\n\nFree Spoken Digit Dataset (FSDD) 是一个开源音频数据集，包含 6 位说话人朗读数字的录音（8kHz wav 格式）。该数据集常用于语音识别、声纹验证等机器学习任务。\n\n## 环境准备\n\n*   **操作系统**：Linux \u002F macOS \u002F Windows\n*   **编程语言**：Python 3.x\n*   **网络要求**：需访问 GitHub 或 Activeloop 服务（国内用户建议使用代理或镜像）\n*   **前置依赖**：\n    *   `pip` 包管理工具\n    *   （可选）PyTorch 或 TensorFlow（用于模型训练示例）\n    *   （可选）Matplotlib（用于可视化频谱图）\n\n## 安装步骤\n\n### 方式一：通过 Activeloop Hub 加载（推荐）\n此方式无需手动下载数据文件，直接通过 Python SDK 调用。\n\n```bash\npip install hub\n```\n\n> 💡 **提示**：若 `pip` 下载速度较慢，可尝试使用国内镜像源，例如：\n> ```bash\n> pip install hub -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n### 方式二：本地克隆仓库（用于使用内置工具）\n如需使用 `trimmer.py`、`fsdd.py` 等本地脚本工具，请克隆源码库。\n\n```bash\ngit clone \u003Crepository_url>\ncd \u003Crepository_directory>\n```\n\n## 基本使用\n\n### 1. 加载数据集与可视化\n使用 Hub 可以轻松加载数据集并查看音频频谱图及标签信息。\n\n```python\nimport hub\nds = hub.load(\"hub:\u002F\u002Factiveloop\u002Fspoken_mnist\")\n\n# 检查第一个频谱图、标签和说话人\nimport matplotlib.pyplot as plt\nplt.imshow(ds.spectrograms[0].numpy())\nplt.title(f\"{ds.speakers[0].data()} spoke {ds.labels[0].numpy()}\")\nplt.show()\n```\n\n### 2. 模型训练集成\n支持直接转换为 PyTorch 或 TensorFlow 的数据加载器进行训练。\n\n```python\n# PyTorch 训练示例\nfor sample in ds.pytorch():\n    # ... model code here ...\n\n# TensorFlow 训练示例\nfor sample in ds.tensorflow():\n    # ... model code here ...\n```\n\n### 3. 查看可用张量\n打印数据集对象可查看当前可用的数据字段（如音频、标签、频谱图等）。\n\n```python\nprint(ds)\n# prints: Dataset(path='hub:\u002F\u002Factiveloop\u002Fspoken_mnist', tensors=['spectrograms', 'labels', 'audio', 'speakers'])\n```\n\n### 4. 数据集划分说明\n官方测试集由前 10% 的录音组成：\n*   **测试集 (Test)**：索引 `0-4`\n*   **训练集 (Train)**：索引 `5-49`","某智能家居初创团队正在开发语音控制功能，急需训练一个能准确识别单数字指令（如调节音量、输入房间号）的模型。\n\n### 没有 free-spoken-digit-dataset 时\n- 自行录制音频耗时耗力，需要协调多人发音并搭建专业录音环境以保证质量。\n- 原始数据通常包含大量背景噪音和开头结尾的无效静音，人工清洗工作极其繁琐。\n- 缺乏现成的数据加载器，需手动编写代码将音频文件转换为模型可输入的张量格式。\n- 网上找到的免费数据集往往版权不明或质量参差不齐，存在法律风险且影响模型效果。\n\n### 使用 free-spoken-digit-dataset 后\n- free-spoken-digit-dataset 提供 3000 条已标注的高质量英文数字录音，直接下载即可开始实验。\n- 数据经过专业预处理，去除了首尾多余静音，无需额外清洗步骤即可投入训练。\n- 支持通过 Activeloop Hub 直接加载，无缝对接 PyTorch 和 TensorFlow 训练流程，节省编码时间。\n- 采用 CC BY-SA 协议开源，明确授权范围，项目发布无后顾之忧，社区贡献还能持续丰富数据。\n\nfree-spoken-digit-dataset 让开发者能跳过数据收集与清洗阶段，专注于算法优化，大幅缩短语音识别模型的上线周期。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FJakobovski_free-spoken-digit-dataset_ab17b2f1.png","Jakobovski","Zohar Jackson","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FJakobovski_9b07f7e4.jpg","Author @ CodeIsForHumans.com",null,"NYC","zoharjackson.com","https:\u002F\u002Fgithub.com\u002FJakobovski",[84],{"name":85,"color":86,"percentage":87},"Python","#3572A5",100,670,249,"2026-03-28T20:38:45",1,"未说明",{"notes":94,"python":92,"dependencies":95},"本工具为开源音频数据集而非独立软件，包含 3000 条单声道 8kHz WAV 文件。推荐使用 Activeloop Hub 进行加载，也支持 TensorFlow Datasets 和 Accord.NET 框架。无特定硬件强制要求，具体取决于用户后续训练的模型配置。数据采用 CC BY-SA 4.0 协议开源。",[96,97,98,99],"hub","matplotlib","torch","tensorflow",[13,51,55],[102,103,104,105,106,107,108],"dataset","spoken-language","mnist","machine-learning","speech-recognition","audio","spoken-digits",4,"2026-03-27T02:49:30.150509","2026-04-06T08:46:44.165735",[113,118,123,128,133,138],{"id":114,"question_zh":115,"answer_zh":116,"source_url":117},2656,"如何在论文中正确引用该数据集？","项目包含一个 DOI，可用于学术引用。请访问 https:\u002F\u002Fzenodo.org\u002Frecord\u002F1342401 查看引用页面，那里有输入框可选择不同的引用样式（如 BibTeX）。具体的引用格式取决于你所在的出版平台要求。","https:\u002F\u002Fgithub.com\u002FJakobovski\u002Ffree-spoken-digit-dataset\u002Fissues\u002F25",{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},2657,"如果不使用 git clone，如何批量下载 .wav 文件？","社区成员提供了一个 Python 脚本方案。可以通过访问 raw.githubusercontent.com 上的 recordings 目录直接下载。脚本逻辑是遍历数字（0-9）、说话人列表（jackson, nicolas, theo, yweweler）和索引（0-49），拼接文件名后使用 wget 命令下载。","https:\u002F\u002Fgithub.com\u002FJakobovski\u002Ffree-spoken-digit-dataset\u002Fissues\u002F8",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},2658,"音频文件的比特深度是否统一（8bit 还是 16bit）？","之前确实存在部分文件为 8bit（如 1_nicolas_36.wav）而部分为 16bit（如 9_theo_22.wav）的情况。维护者已在 Issue #16 中确认该问题已修复（fixed），仓库中的文件现已统一为 16bit。","https:\u002F\u002Fgithub.com\u002FJakobovski\u002Ffree-spoken-digit-dataset\u002Fissues\u002F16",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},2659,"录音是单声道还是立体声？通道数是否一致？","早期数据中存在 Jackson 的录音为单声道（1 通道），Nicolas 的录音为立体声（2 通道）的情况。维护者表示会考虑规范化通道数。此外，Accord.NET 框架已将该数据集集成到其库中，支持在 C# 中进行处理和分类。","https:\u002F\u002Fgithub.com\u002FJakobovski\u002Ffree-spoken-digit-dataset\u002Fissues\u002F10",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},2660,"为什么有些录音文件开头似乎被截断了？","部分新上传的样本（特别是来自 Jason 的录音）被发现开头严重截断。维护者 Jakobovski 已确认这些有问题的录音已被从仓库中移除，以确保数据集的质量。如果遇到问题文件，通常是因为它们已被清理。","https:\u002F\u002Fgithub.com\u002FJakobovski\u002Ffree-spoken-digit-dataset\u002Fissues\u002F15",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},2661,"能否添加更多数字组合（如 20, 30, 100 等）？","可以。维护者表示愿意添加更多数字录音以支持更广泛的应用场景（如识别 3.45, 578 等）。如果你希望贡献，可以录制自己的声音来添加所需数字的录音，或者通过提交 PR 改进代码。","https:\u002F\u002Fgithub.com\u002FJakobovski\u002Ffree-spoken-digit-dataset\u002Fissues\u002F21",[144,149,153,157,161,165,169,173,177],{"id":145,"version":146,"summary_zh":147,"released_at":148},111824,"v1.0.10","Add new speaker","2020-08-12T11:11:14",{"id":150,"version":151,"summary_zh":79,"released_at":152},111825,"v1.0.9","2020-07-02T08:31:01",{"id":154,"version":155,"summary_zh":79,"released_at":156},111826,"v1.0.8","2018-08-09T09:40:28",{"id":158,"version":159,"summary_zh":79,"released_at":160},111827,"v1.0.7","2018-01-06T15:29:26",{"id":162,"version":163,"summary_zh":79,"released_at":164},111828,"v1.0.6","2017-10-31T18:28:52",{"id":166,"version":167,"summary_zh":79,"released_at":168},111829,"v1.0.5","2017-10-15T08:15:32",{"id":170,"version":171,"summary_zh":79,"released_at":172},111830,"v1.0.4","2017-10-02T11:55:47",{"id":174,"version":175,"summary_zh":79,"released_at":176},111831,"v1.0.3","2017-09-28T14:18:21",{"id":178,"version":179,"summary_zh":79,"released_at":180},111832,"v1.0.2","2017-06-22T19:35:21"]