[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tool-coqui-ai--STT":3,"similar-coqui-ai--STT":205},{"id":4,"github_repo":5,"name":6,"description_en":7,"description_zh":8,"ai_summary_zh":8,"readme_en":9,"readme_zh":10,"quickstart_zh":11,"use_case_zh":12,"hero_image_url":13,"owner_login":14,"owner_name":15,"owner_avatar_url":16,"owner_bio":17,"owner_company":18,"owner_location":18,"owner_email":18,"owner_twitter":18,"owner_website":18,"owner_url":19,"languages":20,"stars":60,"forks":61,"last_commit_at":62,"license":63,"difficulty_score":64,"env_os":65,"env_gpu":66,"env_ram":65,"env_deps":67,"category_tags":70,"github_topics":74,"view_count":85,"oss_zip_url":18,"oss_zip_packed_at":18,"status":86,"created_at":87,"updated_at":88,"faqs":89,"releases":118},9801,"coqui-ai\u002FSTT","STT","🐸STT - The deep learning toolkit for Speech-to-Text. Training and deploying STT models has never been so easy.","Coqui STT（🐸STT）是一款基于深度学习的开源语音转文字工具包，旨在帮助开发者轻松训练和部署高精度的语音识别模型。它支持多平台运行，能够高效地将人类语音实时转换为文本，解决了传统语音识别方案中训练流程复杂、部署门槛高以及难以在资源受限设备上运行的痛点。\n\n这款工具特别适合软件开发者和人工智能研究人员使用。对于需要构建语音交互应用、字幕生成系统或进行语音技术探索的团队，Coqui STT 提供了一套经过生产环境验证的成熟解决方案。其核心亮点包括支持多 GPU 加速的高效训练管道、低延迟的流式推理能力，以及占用资源极小的声学模型，使其能在边缘设备上流畅运行。此外，它还支持多种编程语言绑定，并允许输出带有置信度分数的多个转录结果，为后续处理提供更多灵活性。\n\n需要注意的是，该项目目前已停止主动维护，官方重心已转向更新的模型（如 Whisper）及语音合成领域，但现有的预训练模型和代码库依然可用，适合希望基于稳定旧版架构进行二次开发或学习的用户。",".. note::\n   **This project is no longer actively maintained**, and we have stopped hosting the online Model Zoo. We've seen focus shift towards newer STT models such as [Whisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper), and have ourselves focused on [Coqui TTS](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FTTS) and [Coqui Studio](https:\u002F\u002Fcoqui.ai\u002F).\n   \n   The models will remain available in [the releases of the coqui-ai\u002FSTT-models repo](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT-models\u002Freleases).\n\n.. image:: images\u002Fcoqui-STT-logo-green.png\n   :alt: Coqui STT logo\n\n\n.. |doc-img| image:: https:\u002F\u002Freadthedocs.org\u002Fprojects\u002Fstt\u002Fbadge\u002F?version=latest\n   :target: https:\u002F\u002Fstt.readthedocs.io\u002F?badge=latest\n   :alt: Documentation\n\n.. |covenant-img| image:: https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FContributor%20Covenant-2.0-4baaaa.svg\n   :target: CODE_OF_CONDUCT.md\n   :alt: Contributor Covenant\n\n.. |gitter-img| image:: https:\u002F\u002Fbadges.gitter.im\u002Fcoqui-ai\u002FSTT.svg\n   :target: https:\u002F\u002Fgitter.im\u002Fcoqui-ai\u002FSTT?utm_source=badge&utm_medium=badge&utm_campaign=pr-badge\n   :alt: Gitter Room\n\n.. |doi| image:: https:\u002F\u002Fzenodo.org\u002Fbadge\u002F344354127.svg\n   :target: https:\u002F\u002Fzenodo.org\u002Fbadge\u002Flatestdoi\u002F344354127\n\n|doc-img| |covenant-img| |gitter-img| |doi|\n\n`👉 Subscribe to 🐸Coqui's Newsletter \u003Chttps:\u002F\u002Fcoqui.ai\u002F?subscription=true>`_\n\n**Coqui STT** (🐸STT) is a fast, open-source, multi-platform, deep-learning toolkit for training and deploying speech-to-text models. 🐸STT is battle tested in both production and research 🚀\n\n🐸STT features\n---------------\n\n* High-quality pre-trained STT model.\n* Efficient training pipeline with Multi-GPU support.\n* Streaming inference.\n* Multiple possible transcripts, each with an associated confidence score.\n* Real-time inference.\n* Small-footprint acoustic model.\n* Bindings for various programming languages.\n\n`Quickstart \u003Chttps:\u002F\u002Fstt.readthedocs.io\u002Fen\u002Flatest\u002F#quickstart>`_\n================================================================\n\nWhere to Ask Questions\n----------------------\n\n.. list-table::\n   :widths: 25 25\n   :header-rows: 1\n\n   * - Type\n     - Link\n   * - 🚨 **Bug Reports**\n     - `Github Issue Tracker \u003Chttps:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Fissues\u002F>`_\n   * - 🎁 **Feature Requests & Ideas**\n     - `Github Issue Tracker \u003Chttps:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Fissues\u002F>`_\n   * - ❔ **Questions**\n     - `Github Discussions \u003Chttps:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002Fstt\u002Fdiscussions\u002F>`_\n   * - 💬 **General Discussion**\n     - `Github Discussions \u003Chttps:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002Fstt\u002Fdiscussions\u002F>`_ or `Gitter Room \u003Chttps:\u002F\u002Fgitter.im\u002Fcoqui-ai\u002FSTT?utm_source=share-link&utm_medium=link&utm_campaign=share-link>`_\n\n\nLinks & Resources\n-----------------\n.. list-table::\n   :widths: 25 25\n   :header-rows: 1\n\n   * - Type\n     - Link\n   * - 📰 **Documentation**\n     - `stt.readthedocs.io \u003Chttps:\u002F\u002Fstt.readthedocs.io\u002F>`_\n   * - 🚀 **Latest release with pre-trained models**\n     - `see the latest release on GitHub \u003Chttps:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Freleases\u002Flatest>`_\n   * - 🤝 **Contribution Guidelines**\n     - `CONTRIBUTING.rst \u003CCONTRIBUTING.rst>`_\n",".. note::\n   **该项目已不再积极维护**，我们已停止托管在线模型库。我们注意到大家的注意力已转向更先进的语音转文本模型，例如[Whisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper)，而我们自身则将重心放在[Coqui TTS](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FTTS)和[Coqui Studio](https:\u002F\u002Fcoqui.ai\u002F)上。\n\n   这些模型仍可在[coqui-ai\u002FSTT-models仓库的发布页面](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT-models\u002Freleases)中找到。\n\n.. image:: images\u002Fcoqui-STT-logo-green.png\n   :alt: Coqui STT标志\n\n\n.. |doc-img| image:: https:\u002F\u002Freadthedocs.org\u002Fprojects\u002Fstt\u002Fbadge\u002F?version=latest\n   :target: https:\u002F\u002Fstt.readthedocs.io\u002F?badge=latest\n   :alt: 文档\n\n.. |covenant-img| image:: https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FContributor%20Covenant-2.0-4baaaa.svg\n   :target: CODE_OF_CONDUCT.md\n   :alt: 贡献者公约\n\n.. |gitter-img| image:: https:\u002F\u002Fbadges.gitter.im\u002Fcoqui-ai\u002FSTT.svg\n   :target: https:\u002F\u002Fgitter.im\u002Fcoqui-ai\u002FSTT?utm_source=badge&utm_medium=badge&utm_campaign=pr-badge\n   :alt: Gitter聊天室\n\n.. |doi| image:: https:\u002F\u002Fzenodo.org\u002Fbadge\u002F344354127.svg\n   :target: https:\u002F\u002Fzenodo.org\u002Fbadge\u002Flatestdoi\u002F344354127\n\n|doc-img| |covenant-img| |gitter-img| |doi|\n\n`👉 订阅🐸Coqui新闻通讯 \u003Chttps:\u002F\u002Fcoqui.ai\u002F?subscription=true>`_\n\n**Coqui STT**（🐸STT）是一个快速、开源、跨平台的深度学习工具包，用于训练和部署语音转文本模型。🐸STT已在生产和研究场景中经过严格测试🚀\n\n🐸STT特性\n---------------\n\n* 高质量的预训练语音转文本模型。\n* 支持多GPU的高效训练流程。\n* 流式推理。\n* 提供多个可能的转录结果，每个结果都附带置信度分数。\n* 实时推理。\n* 占用资源少的声学模型。\n* 多种编程语言的绑定接口。\n\n`快速入门 \u003Chttps:\u002F\u002Fstt.readthedocs.io\u002Fen\u002Flatest\u002F#quickstart>`_\n================================================================\n\n提问渠道\n----------------------\n\n.. list-table::\n   :widths: 25 25\n   :header-rows: 1\n\n   * - 类型\n     - 链接\n   * - 🚨 **Bug报告**\n     - `Github问题追踪器 \u003Chttps:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Fissues\u002F>`_\n   * - 🎁 **功能请求与建议**\n     - `Github问题追踪器 \u003Chttps:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Fissues\u002F>`_\n   * - ❔ **问题咨询**\n     - `Github讨论区 \u003Chttps:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002Fstt\u002Fdiscussions\u002F>`_\n   * - 💬 **一般讨论**\n     - `Github讨论区 \u003Chttps:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002Fstt\u002Fdiscussions\u002F>`_ 或 `Gitter聊天室 \u003Chttps:\u002F\u002Fgitter.im\u002Fcoqui-ai\u002FSTT?utm_source=share-link&utm_medium=link&utm_campaign=share-link>`_\n\n\n链接与资源\n-----------------\n.. list-table::\n   :widths: 25 25\n   :header-rows: 1\n\n   * - 类型\n     - 链接\n   * - 📰 **文档**\n     - `stt.readthedocs.io \u003Chttps:\u002F\u002Fstt.readthedocs.io\u002F>`_\n   * - 🚀 **最新版本及预训练模型**\n     - `查看GitHub上的最新发布 \u003Chttps:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Freleases\u002Flatest>`_\n   * - 🤝 **贡献指南**\n     - `CONTRIBUTING.rst \u003CCONTRIBUTING.rst>`_","# Coqui STT 快速上手指南\n\n> **⚠️ 重要提示**：本项目目前已不再积极维护。官方建议将注意力转向更新的模型（如 [Whisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper)），或关注其继任项目 [Coqui TTS](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FTTS)。预训练模型仍可在 [STT-models releases](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT-models\u002Freleases) 中下载。本指南仅适用于需要沿用现有 STT 模型的开发者。\n\n## 1. 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**：Linux (推荐 Ubuntu 18.04+), macOS, 或 Windows (需额外配置)。\n*   **Python 版本**：Python 3.7 - 3.9 (推荐 3.8)。\n*   **硬件加速**：如需高性能训练或推理，建议配备 NVIDIA GPU 并安装对应的 CUDA 驱动。\n*   **前置依赖**：\n    *   `pip` (Python 包管理工具)\n    *   `sox` (音频处理工具，用于数据预处理)\n    *   `ffmpeg` (可选，用于音频格式转换)\n\n**安装系统级依赖 (以 Ubuntu 为例):**\n```bash\nsudo apt-get update\nsudo apt-get install -y sox libsox-fmt-all ffmpeg\n```\n\n## 2. 安装步骤\n\n推荐使用 `pip` 进行安装。由于原项目停止维护，PyPI 上的版本可能较旧，建议直接从 GitHub 安装最新可用代码或直接使用预编译包。\n\n### 方式 A：通过 pip 安装 (基础版)\n```bash\npip install stt\n```\n\n### 方式 B：从源码安装 (获取最新修复)\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT.git\ncd STT\npip install .\n```\n\n### 下载预训练模型\n由于官方 Model Zoo 已下线，您需要手动从 GitHub Releases 下载模型文件。\n\n1.  访问 [coqui-ai\u002FSTT-models Releases](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT-models\u002Freleases)。\n2.  下载所需的模型文件（通常包含 `.pbmm` 模型文件和 `.scorer` 评分器文件）。\n3.  假设下载后文件位于当前目录：\n    *   模型文件：`model.pbmm`\n    *   评分器文件：`scorer.scorer`\n\n## 3. 基本使用\n\n以下是最简单的 Python 脚本示例，演示如何加载模型并将音频文件转换为文本。\n\n**准备测试音频**\n确保你有一个 WAV 格式的音频文件（例如 `audio.wav`），采样率需与模型匹配（通常为 16kHz 单声道）。\n\n**Python 代码示例**\n\n```python\nfrom stt import Model\nimport wave\nimport numpy as np\n\n# 1. 初始化模型\n# 替换为你实际下载的模型路径\nmodel_path = \"model.pbmm\"\nscorer_path = \"scorer.scorer\"\n\nmodel = Model(model_path)\n\n# 如果有外部评分器文件，建议加载以提高准确率\ntry:\n    model.enableExternalScorer(scorer_path)\nexcept Exception as e:\n    print(f\"未加载外部评分器: {e}\")\n\n# 2. 读取音频文件\naudio_file = \"audio.wav\"\n\nwith wave.open(audio_file, 'rb') as wav_file:\n    # 验证音频格式 (STT 通常需要 16kHz, 1 channel, 16-bit)\n    if wav_file.getframerate() != 16000:\n        raise ValueError(\"音频采样率必须为 16000 Hz\")\n    if wav_file.getnchannels() != 1:\n        raise ValueError(\"音频必须为单声道\")\n    \n    # 读取二进制数据并转换为 numpy 数组\n    audio_data = np.frombuffer(wav_file.readframes(wav_file.getnframes()), dtype=np.int16)\n\n# 3. 执行语音转文字\ntext = model.stt(audio_data)\n\nprint(\"识别结果:\", text)\n```\n\n**命令行快速测试**\n如果安装了命令行工具，也可以直接运行：\n\n```bash\nstt --model model.pbmm --scorer scorer.scorer --audio audio.wav\n```","一家初创医疗科技公司正在开发一款面向医生的语音电子病历系统，需要将门诊问诊时的实时对话快速转化为结构化文本记录。\n\n### 没有 STT 时\n- 医生必须在问诊结束后手动录入或花费大量时间整理录音，导致每日加班严重，诊疗效率低下。\n- 若采购商业闭源语音 API，不仅按调用次数计费成本高昂，且患者敏感的语音数据需上传至第三方服务器，存在合规风险。\n- 通用语音识别引擎对医学术语（如药品名、病理缩写）识别率极低，后期人工校对修正的工作量甚至超过重新打字。\n- 系统无法在低配置的本地的服务器上运行，必须依赖昂贵的云端 GPU 集群来维持基本的转写服务。\n\n### 使用 STT 后\n- 利用 STT 的流式推理（Streaming inference）功能，医生边说边生成文字，问诊结束即完成病历草稿，释放了双倍工作时间。\n- 借助其开源特性，团队将模型私有化部署在医院内网，确保患者语音数据不出域，完美满足医疗数据隐私合规要求。\n- 通过高效训练管道在多 GPU 环境下微调预训练模型，显著提升了专业医学词汇的识别准确率，大幅减少人工校对环节。\n- 凭借小 footprint 声学模型优势，系统成功运行在科室普通的边缘计算设备上，降低了硬件投入与维护成本。\n\nSTT 让医疗团队以低成本实现了数据可控、术语精准且实时的本地化语音转写，彻底重构了电子病历的录入流程。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcoqui-ai_STT_bd8511b9.png","coqui-ai","coqui","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fcoqui-ai_1a73797a.png","Coqui, a startup providing open speech tech for everyone 🐸",null,"https:\u002F\u002Fgithub.com\u002Fcoqui-ai",[21,25,29,33,37,41,45,49,53,57],{"name":22,"color":23,"percentage":24},"C++","#f34b7d",37,{"name":26,"color":27,"percentage":28},"Python","#3572A5",20.2,{"name":30,"color":31,"percentage":32},"Jupyter Notebook","#DA5B0B",19.9,{"name":34,"color":35,"percentage":36},"C","#555555",8,{"name":38,"color":39,"percentage":40},"Shell","#89e051",7.6,{"name":42,"color":43,"percentage":44},"C#","#178600",2.1,{"name":46,"color":47,"percentage":48},"Swift","#F05138",1.2,{"name":50,"color":51,"percentage":52},"Java","#b07219",0.9,{"name":54,"color":55,"percentage":56},"CMake","#DA3434",0.7,{"name":58,"color":59,"percentage":56},"Makefile","#427819",2581,301,"2026-04-13T07:56:46","MPL-2.0",4,"未说明","训练支持多 GPU，具体型号、显存及 CUDA 版本未在 README 中说明",{"notes":68,"python":65,"dependencies":69},"该项目已不再积极维护，官方已停止托管在线模型库（Model Zoo），建议关注更新的模型如 Whisper。预训练模型仍可在 coqui-ai\u002FSTT-models 仓库的发布页面获取。该工具支持流式推理和实时推理，并提供多种编程语言的绑定。",[],[71,72,73],"开发框架","插件","音频",[75,76,77,78,79,80,81,82,83,84],"stt","speech-to-text","tensorflow","deep-learning","automatic-speech-recognition","asr","voice-recognition","speech-recognition","speech-recognizer","speech-recognition-api",2,"ready","2026-03-27T02:49:30.150509","2026-04-20T07:17:58.008259",[90,95,100,105,110,114],{"id":91,"question_zh":92,"answer_zh":93,"source_url":94},44016,"如何在 Raspberry Pi 4 (ARM64 架构) 上成功安装 STT？","在 Raspberry Pi 上直接使用 pip 安装可能会遇到依赖冲突错误。解决方法是手动下载对应 Python 版本和架构的 wheel 文件进行安装。例如，对于 Python 3.9 和 ARM64 架构，可以执行以下命令：\n1. 下载 wheel 文件：wget https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Freleases\u002Fdownload\u002Fv1.4.0\u002Fstt-1.4.0-cp39-cp39-linux_aarch64.whl\n2. 安装 wheel 文件：pip install stt-1.4.0-cp39-cp39-linux_aarch64.whl","https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Fissues\u002F2028",{"id":96,"question_zh":97,"answer_zh":98,"source_url":99},44017,"在 iOS 设备上进行长音频转录时应用崩溃（EXC_BAD_ACCESS），如何解决？","该崩溃通常是由竞态条件（race condition）引起的，特别是当音频馈送（feeding）和解码（decoding）操作在不同的线程中运行时。解决方案是将这两个操作移动到同一个线程中执行。虽然在 Android 上可以使用互斥锁（Mutex）来解决，但在 iOS 上建议直接合并线程逻辑以避免内存访问冲突。","https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Fissues\u002F1995",{"id":101,"question_zh":102,"answer_zh":103,"source_url":104},44018,"使用小数据集训练时出现 'ValueError: Cannot feed value of shape...' 形状不匹配错误怎么办？","当使用包含特殊字符的小数据集时，如果强制使用完整的字母表配置文件（alphabet.txt），可能会导致模型层形状不匹配。解决方法是让 Coqui STT 根据实际数据集自动生成 alphabet.txt 文件，而不是使用预定义的完整字母表。这样可以确保模型只包含数据集中实际出现的字符，从而避免维度冲突。","https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Fissues\u002F2254",{"id":106,"question_zh":107,"answer_zh":108,"source_url":109},44019,"运行 lm_optimizer.py 时提示 'lm_opt is not defined' 或脚本已弃用，该如何正确调用？","直接使用顶层的 lm_optimizer.py 脚本已被弃用。正确的调用方式是将其作为模块运行。请使用以下命令格式替换原有的直接执行方式：\npython -m coqui_stt_training.util.lm_optimize [参数...]","https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Fissues\u002F2202",{"id":111,"question_zh":112,"answer_zh":113,"source_url":99},44020,"在 iOS 上集成 Coqui STT 时，关于 KenLM 的静态链接与许可证（LGPL）有什么需要注意的？","如果对 KenLM 进行静态链接，Coqui STT 将需要遵循 LGPL 许可证条款。如果希望避免此限制，可以使用动态链接。实现动态链接通常需要移除构建目标中的直接依赖，并确保在加载时库文件位于加载路径中。不过，iOS 上的动态库加载行为较为特殊，需要额外测试验证。",{"id":115,"question_zh":116,"answer_zh":117,"source_url":104},44021,"在小数据集上训练模型时，--n_hidden 参数与检查点（checkpoint）不一致导致警告或错误，如何处理？","如果设置的 --n_hidden 值与预训练检查点中的值（例如 2048）不同，会收到警告并可能导致形状错误。在小数据集上从头训练或微调时，建议保持 --n_hidden 参数与原始检查点一致，或者让系统基于新数据集重新初始化相关层。如果必须更改，需确保不使用不兼容的预训练权重，或者接受较高的初始词错率（WER）并进行充分训练。",[119,124,128,132,136,140,144,148,152,157,161,165,169,173,177,182,187,191,195,200],{"id":120,"version":121,"summary_zh":122,"released_at":123},351472,"v1.4.0","# 概述\n\n这是 Coqui STT 的 1.4.0 版本，Coqui STT 是一款用于语音转文本的深度学习工具包。根据 [语义版本控制](https:\u002F\u002Fsemver.org\u002F) 规范，此版本与之前的 1.x 版本向后兼容。我们的语义版本控制兼容性保证涵盖了部署 API：C API 以及所有官方语言绑定：Python、Node.JS\u002FElectronJS 和 Java\u002FAndroid。您可以通过遵循我们 [文档](https:\u002F\u002Fstt.readthedocs.io\u002F) 中的步骤来开始使用 Coqui STT 1.4.0。\n\n兼容的预训练模型可在 [Coqui 模型库](https:\u002F\u002Fcoqui.ai\u002Fmodels) 中找到。\n\n我们还提供了示例音频文件：\n\n[audio-1.4.0.tar.gz](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Freleases\u002Fdownload\u002Fv1.4.0\u002Faudio-1.4.0.tar.gz)\n\n可用于测试引擎；此外，还提供了英语模型的检查点文件（与 1.0.0 版本的检查点完全相同，此处仅为方便起见而提供）：\n\n[coqui-stt-1.4.0-checkpoint.tar.gz](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Freleases\u002Fdownload\u002Fv1.4.0\u002Fcoqui-stt-1.4.0-checkpoint.tar.gz)\n\n这些文件采用 Apache 2.0 许可证，可用作进一步微调的基础。最后，此版本还包括一个源代码压缩包：\n\n[v1.4.0.tar.gz](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Farchive\u002Fv1.4.0.tar.gz)\n\n该压缩包采用 [MPL-2.0 许可证](https:\u002F\u002Fwww.mozilla.org\u002Fen-US\u002FMPL\u002F2.0\u002F)。请注意，此压缩包仅用于存档目的，因为 GitHub 自动生成的压缩包不包含子模块。如需使用和开发源代码，请按照我们的 [文档](https:\u002F\u002Fstt.readthedocs.io\u002F) 使用 Git 克隆仓库。\n\n# 重要变更\n\n- 添加了实验性的 WebAssembly 支持\n\n  [借助新的 WASM 包，您可以直接在浏览器中部署 Coqui STT](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT-examples\u002Ftree\u002Fr1.0\u002Fwasm)。\n\n- 为 Python 3.7 和 3.9 添加了 ARMv7 和 AArch64 平台的 Python 轮子包\n- 将 .NET 绑定迁移到 .NET Framework 4.8\n- 重写了 iOS 示例应用程序中的音频处理逻辑\n\n# 文档\n\n文档可在 [stt.readthedocs.io](https:\u002F\u002Fstt.readthedocs.io\u002F) 上查阅。\n\n# 联系方式\u002F获取帮助\n\n1. [GitHub 讨论区](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Fdiscussions\u002F) —— 这是提问、寻求支持以及与其他用户讨论 🐸STT 相关问题的最佳场所。\n3. [Gitter](https:\u002F\u002Fgitter.im\u002Fcoqui-ai\u002F) —— 您也可以加入我们的 Gitter 聊天室。\n4. [问题](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Fissues) —— 如果您已经讨论过某个问题并确认是 🐸STT 中的 bug，或者您有功能请求，请在我们的仓库中提交一个问题。请务必先搜索是否有已存在的类似问题！\n\n# 1.4.0 版本贡献者\n\n- Alessio Placitelli\n- Anton Yaroshenko\n- ChamathKB\n- Ciaran O'Reilly\n- Daniel Souza\n- Danny Waser\n- David Roundy\n- Davidian1024\n- Edresson Casanova\n- Josh Meyer\n- Mariano Gonzalez\n- NanoNabla\n- Reuben Morais\n- Yanlong Wang\n\n我们还要感谢我们 [Gitter 聊天室](ht","2022-09-03T23:05:02",{"id":125,"version":126,"summary_zh":18,"released_at":127},351473,"v1.4.0-alpha.6","2022-08-09T09:44:38",{"id":129,"version":130,"summary_zh":18,"released_at":131},351474,"v1.4.0-alpha.5","2022-08-07T20:30:07",{"id":133,"version":134,"summary_zh":18,"released_at":135},351475,"v1.4.0-alpha.4","2022-08-04T13:35:36",{"id":137,"version":138,"summary_zh":18,"released_at":139},351476,"v1.4.0-alpha.3","2022-08-04T12:34:23",{"id":141,"version":142,"summary_zh":18,"released_at":143},351477,"v1.4.0-alpha.2","2022-08-03T17:08:27",{"id":145,"version":146,"summary_zh":18,"released_at":147},351478,"v1.4.0-alpha.1","2022-04-07T09:46:04",{"id":149,"version":150,"summary_zh":18,"released_at":151},351479,"v1.4.0-alpha.0","2022-04-04T17:00:22",{"id":153,"version":154,"summary_zh":155,"released_at":156},351480,"v1.3.0","# 总览\n\n这是 Coqui STT 的 1.3.0 版本，Coqui STT 是一款用于语音转文本的深度学习工具包。根据 [语义版本控制](https:\u002F\u002Fsemver.org\u002F) 规范，该版本与之前的 1.x 系列版本向后兼容。我们的语义版本控制兼容性保证涵盖了部署 API：C API 以及所有官方语言绑定——Python、Node.JS\u002FElectronJS 和 Java\u002FAndroid。您可以通过阅读我们的 [文档](https:\u002F\u002Fstt.readthedocs.io\u002F) 中的步骤，立即开始使用 Coqui STT 1.3.0。\n\n兼容的预训练模型可在 [Coqui 模型库](https:\u002F\u002Fcoqui.ai\u002Fmodels) 中获取。\n\n我们还提供了示例音频文件：\n\n[audio-1.3.0.tar.gz](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Freleases\u002Fdownload\u002Fv1.3.0\u002Faudio-1.3.0.tar.gz)\n\n可用于测试引擎；此外，还提供了英语模型的检查点文件（与 1.0.0 版本的检查点完全相同，此处仅为方便起见而提供）：\n\n[coqui-stt-1.3.0-checkpoint.tar.gz](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Freleases\u002Fdownload\u002Fv1.3.0\u002Fcoqui-stt-1.3.0-checkpoint.tar.gz)\n\n这些文件采用 Apache 2.0 许可证，可用作进一步微调的基础。最后，本次发布还包括一个源代码压缩包：\n\n[v1.3.0.tar.gz](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Farchive\u002Fv1.3.0.tar.gz)\n\n其许可证为 [MPL-2.0](https:\u002F\u002Fwww.mozilla.org\u002Fen-US\u002FMPL\u002F2.0\u002F)。请注意，此压缩包仅用于存档目的，因为 GitHub 自动生成的压缩包不包含子模块。如需使用和开发源代码，请按照我们的 [文档](https:\u002F\u002Fstt.readthedocs.io\u002F) 使用 Git 克隆仓库。\n\n# 重要变更\n\n- 新增实验性 API，支持从内存缓冲区加载 Coqui STT 模型。\n  \n  这一功能允许无需先将模型写入磁盘即可加载模型，对于动态加载模型以及在移动平台上的打包处理非常有用。\n\n- 增加对 ElectronJS 16 的支持。\n- 重写了 iOS 示例应用中的音频处理逻辑。\n- 在 CI 流水线中添加了 iOS\u002FSwift 绑定的预编译二进制文件。\n\n  通过这两项改进，我们希望获得更多 iOS 开发者的反馈，了解如何更好地封装和分发 Swift 绑定及预编译的 STT 框架，以使 Swift\u002FiOS 开发者能够更自然地使用它们。如果您有任何建议或意见，请加入我们的 [Gitter 讨论室](https:\u002F\u002Fgitter.im\u002Fcoqui-ai\u002FSTT)！\n\n- 将多语言 LibriSpeech 数据集导入工具扩展至支持该数据集中所有语言。\n\n  支持的语言包括：英语、德语、荷兰语、法语、西班牙语、意大利语、葡萄牙语、波兰语。\n\n- 在使用 coqui_stt_ctcdecoder Python 包时，公开解码样本的完整元数据信息。\n\n  这使得在训练代码中可以访问解码器返回的所有信息，从而无需修改 C++ 推理库即可测试新的模型架构。\n\n- 在我们的预编译二进制文件中新增对 Apple Silicon 的初步支持。\n\n  C\u002FC++ 预编译库…","2022-03-07T11:44:15",{"id":158,"version":159,"summary_zh":18,"released_at":160},351481,"v1.3.0-alpha.4","2022-03-04T17:10:20",{"id":162,"version":163,"summary_zh":18,"released_at":164},351482,"v1.3.0-alpha.3","2022-02-26T17:50:48",{"id":166,"version":167,"summary_zh":18,"released_at":168},351483,"v1.3.0-alpha.2","2022-02-26T17:14:35",{"id":170,"version":171,"summary_zh":18,"released_at":172},351484,"v1.3.0-alpha.1","2022-02-25T15:49:02",{"id":174,"version":175,"summary_zh":18,"released_at":176},351485,"v1.3.0-alpha.0","2022-02-25T15:44:44",{"id":178,"version":179,"summary_zh":180,"released_at":181},351486,"v1.2.0","# 概述\n\n这是 Coqui STT 的 1.2.0 版本，Coqui STT 是一款用于语音转文本的深度学习工具包。根据 [语义版本控制](https:\u002F\u002Fsemver.org\u002F) 规范，此版本与之前的 1.x 版本向后兼容。我们的语义版本控制兼容性保证涵盖了部署 API：C API 以及所有官方语言绑定：Python、Node.JS\u002FElectronJS 和 Java\u002FAndroid。您可以通过阅读我们的 [文档](https:\u002F\u002Fstt.readthedocs.io\u002F) 中的步骤，立即开始使用 Coqui STT 1.2.0。\n\n兼容的预训练模型可在 [Coqui 模型库](https:\u002F\u002Fcoqui.ai\u002Fmodels) 中找到。\n\n我们还提供了示例音频文件：\n\n[audio-1.2.0.tar.gz](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Freleases\u002Fdownload\u002Fv1.2.0\u002Faudio-1.2.0.tar.gz)\n\n可用于测试引擎；此外，还提供了英语模型的检查点文件（与 1.0.0 版本的检查点完全相同，此处仅为方便起见而提供）：\n\n[coqui-stt-1.2.0-checkpoint.tar.gz](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Freleases\u002Fdownload\u002Fv1.2.0\u002Fcoqui-stt-1.2.0-checkpoint.tar.gz)\n\n这些文件采用 Apache 2.0 许可证，可用作进一步微调的基础。最后，此版本还包括一个源代码压缩包：\n\n[v1.2.0.tar.gz](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Farchive\u002Fv1.2.0.tar.gz)\n\n该压缩包采用 [MPL-2.0 许可证](https:\u002F\u002Fwww.mozilla.org\u002Fen-US\u002FMPL\u002F2.0\u002F)。请注意，此压缩包仅用于存档目的，因为 GitHub 自动生成的压缩包不包含子模块。如需使用和开发源代码，请按照我们的 [文档](https:\u002F\u002Fstt.readthedocs.io\u002F) 使用 Git 克隆仓库。\n\n# 重要变更\n\n- 增加了对 Python 3.10 的支持\n- 新增了 [新的推理 API](https:\u002F\u002Fstt.readthedocs.io\u002Fen\u002Flatest\u002Fsearch.html?q=flushbuffers&check_keywords=yes&area=default)，可在返回转录结果之前处理所有待处理的数据\n- 添加了用于导入 Common Voice 新版个人数据下载器数据的导入器，以及 [一个使用您的数据创建自定义 STT 模型的 Jupyter 笔记本](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Ftree\u002Fmain\u002Fnotebooks#python-notebooks-for--stt)\n- 改进了 evaluate_tflite 脚本（现为 evaluate_export 模块），并扩展其功能，增加了对 Opus 格式的支持\n- 增加了对 Ogg\u002FVorbis 编码音频文件作为训练输入的支持\n- 添加了 Att-HACK 数据集的导入器\n- 如果检查点存在，现在会自动加载模型维度\n- 检查点加载器将透明地处理 CuDNN 检查点，无需显式标志\n- 在启动训练时，将自动执行批次大小检查，以帮助及早诊断内存问题\n- 增加了对 WebDataset 作为训练数据集的支持\n- 更新至 TensorFlow Lite 2.8，包括 [针对量化模型的 XNNPACK 新优化](https:\u002F\u002Fblog.tensorflow.org\u002F2021\u002F09\u002Ffaster-quantized-inference-with-xnnpack.html)\n\n# 文档\n\n文档可在 [stt.readthedocs.io](https:\u002F\u002Fstt.readthedocs.io\u002F) 上查阅。\n\n# 联系方式\u002F获取帮助","2022-02-06T21:47:01",{"id":183,"version":184,"summary_zh":185,"released_at":186},351487,"v1.1.0","# 概述\n\n这是 Coqui STT 的 1.1.0 版本，Coqui STT 是一款用于语音转文本的深度学习工具包。根据 [语义版本控制](https:\u002F\u002Fsemver.org\u002F) 规范，此版本与之前的版本不完全向后兼容。我们的语义版本控制兼容性保证涵盖部署 API：C API 以及所有官方语言绑定：Python、Node.JS\u002FElectronJS 和 Java\u002FAndroid。您可以通过遵循我们 [文档](https:\u002F\u002Fstt.readthedocs.io\u002F) 中的步骤，立即开始使用 Coqui STT 1.1.0。\n\n兼容的预训练模型可在 [Coqui 模型库](https:\u002F\u002Fcoqui.ai\u002Fmodels) 中找到。\n\n我们还提供了示例音频文件：\n\n[audio-1.1.0.tar.gz](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Freleases\u002Fdownload\u002Fv1.1.0\u002Faudio-1.1.0.tar.gz)\n\n可用于测试引擎；此外，还提供了英语模型的检查点文件（与 1.0.0 版本的检查点完全相同，此处仅为方便起见而提供）：\n\n[coqui-stt-1.1.0-checkpoint.tar.gz](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Freleases\u002Fdownload\u002Fv1.1.0\u002Fcoqui-stt-1.1.0-checkpoint.tar.gz)\n\n这些文件采用 Apache 2.0 许可证，可用作进一步微调的基础。最后，此版本还包括一个源代码压缩包：\n\n[v1.1.0.tar.gz](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Farchive\u002Fv1.1.0.tar.gz)\n\n该压缩包采用 MPL-2.0 许可证。请注意，此压缩包仅用于存档目的，因为 GitHub 自动生成的压缩包不会包含子模块。如需使用和开发源代码，请按照我们的 [文档](https:\u002F\u002Fstt.readthedocs.io\u002F) 使用 Git 克隆仓库。\n\n# 重要变更\n\n- 将缺失的依赖项打包到 Android AAR 包中\n- 修复 evaluate_tflite.py 脚本，使其使用基于 Coqpit 的新配置管理方式\n- 在评估报告中默认使用导出的束宽\n- 在解码器包中集成适用于 CTC 和 ASG 声学模型的词典约束及无词典 Flashlight 解码器\n- 更新支持的 NodeJS 版本至当前受支持的发行版：12、14 和 16\n- 更新支持的 ElectronJS 版本至当前受支持的发行版：12、13、14 和 15\n- 在训练包中改进并打包了 VAD 转录模块 (coqui_stt_training.transcribe)\n\n# 文档\n\n文档可在 [stt.readthedocs.io](https:\u002F\u002Fstt.readthedocs.io\u002F) 上查阅。\n\n# 联系与帮助\n\n1. [GitHub 讨论区](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Fdiscussions\u002F) —— 这是提问、获取支持以及与其他用户讨论 🐸STT 相关话题的最佳场所。\n3. [Gitter](https:\u002F\u002Fgitter.im\u002Fcoqui-ai\u002F) —— 您也可以加入我们的 Gitter 聊天室。\n4. [问题](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Fissues) —— 如果您已讨论过某个问题并确定 🐸STT 中存在 bug，或者您有功能请求，请在我们的仓库中提交一个问题。请务必先搜索是否已有类似问题！\n\n# 1.1.0 版本贡献者\n\n- Alexandre Lissy\n- Josh Meyer\n- Julian Darley\n- Leon Kief","2021-12-07T00:08:41",{"id":188,"version":189,"summary_zh":18,"released_at":190},351488,"v1.1.0-alpha.1","2021-10-31T20:44:03",{"id":192,"version":193,"summary_zh":18,"released_at":194},351489,"v1.1.0-alpha.0","2021-10-30T15:24:45",{"id":196,"version":197,"summary_zh":198,"released_at":199},351490,"v1.0.0","# 概述\n\n这是 Coqui STT 的 1.0.0 版本，Coqui STT 是一款用于语音转文本的深度学习工具包。根据 [语义版本控制](https:\u002F\u002Fsemver.org\u002F) 规范，该版本与之前的版本并不完全向后兼容。我们的语义版本控制兼容性保证仅涵盖推理 API：C API 以及所有官方语言绑定——Python、Node.JS\u002FElectronJS 和 Android。您可以通过阅读我们的 [文档](https:\u002F\u002Fstt.readthedocs.io\u002F) 中的步骤，立即开始使用 Coqui STT 1.0.0。\n\n此版本包含预训练的英语模型，可在 Coqui 模型库中获取：\n\n- [Coqui 英语 STT v1.0.0-huge-vocab](https:\u002F\u002Fcoqui.ai\u002Fenglish\u002Fcoqui\u002Fv1.0.0-huge-vocab)\n- [Coqui 英语 STT v1.0.0-yesno](https:\u002F\u002Fcoqui.ai\u002Fenglish\u002Fcoqui\u002Fv1.0.0-yesno)\n- [Coqui 英语 STT v1.0.0-large-vocab](https:\u002F\u002Fcoqui.ai\u002Fenglish\u002Fcoqui\u002Fv1.0.0-large-vocab)\n- [Coqui 英语 STT v1.0.0-digits](https:\u002F\u002Fcoqui.ai\u002Fenglish\u002Fcoqui\u002Fv1.0.0-digits)\n\n这些模型均采用 Apache 2.0 许可证授权。\n\n声学模型基于美国英语数据进行训练，并使用合成噪声增强技术。在最大的发布语言模型下，该模型在 [LibriSpeech 清晰测试集](http:\u002F\u002Fwww.openslr.org\u002F12) 上的词错误率为 4.5%，而在 [LibriSpeech 其他测试集](http:\u002F\u002Fwww.openslr.org\u002F12) 上的词错误率为 13.6%。\n\n需要注意的是，该模型目前在低噪声、清晰录音的环境中表现最佳。这并不意味着该模型不能在其他条件下使用，而是其准确性可能会有所降低。部分用户可能需要进一步微调模型，以满足其特定的应用场景。\n\n我们还提供了示例音频文件：\n\n[audio-1.0.0.tar.gz](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Freleases\u002Fdownload\u002Fv1.0.0\u002Faudio-1.0.0.tar.gz)\n\n可用于测试引擎；以及英语模型的检查点文件：\n\n[coqui-stt-1.0.0-checkpoint.tar.gz](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Freleases\u002Fdownload\u002Fv1.0.0\u002Fcoqui-stt-1.0.0-checkpoint.tar.gz)\n\n这些文件同样采用 Apache 2.0 许可证，可用作进一步微调的基础。此外，本次发布还包括一个源代码压缩包：\n\n[v1.0.0.tar.gz](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FSTT\u002Farchive\u002Fv1.0.0.tar.gz)\n\n该压缩包采用 [MPL-2.0 许可证](https:\u002F\u002Fwww.mozilla.org\u002Fen-US\u002FMPL\u002F2.0\u002F)。请注意，此压缩包仅用于存档目的，因为 GitHub 自动生成的压缩包不包含子模块。如需使用和开发源代码，请按照我们的 [文档](https:\u002F\u002Fstt.readthedocs.io\u002F) 使用 Git 克隆仓库。\n\n\n# 重要变更\n\n- 移除了原生客户端对 Protocol Buffers 输入的支持，并将所有软件包整合到统一的“STT”命名空间下，支持 TFLite 输入格式。\n- 新增了训练代码的程序化接口及示例 Jupyter Notebook，其中包括如何使用 Common Voice 数据进行训练的内容。\n- 在训练输入中增加了对混合采样率和立体声音频的透明处理。\n- 将持续集成设置迁移至 GitHub Actions，从而使得代码贡献更加便捷。","2021-10-04T14:31:33",{"id":201,"version":202,"summary_zh":203,"released_at":204},351491,"v0.10.0-alpha.29","测试自动发布说明。","2021-10-02T12:19:10",[206,218,226,235,244,252],{"id":207,"name":208,"github_repo":209,"description_zh":210,"stars":211,"difficulty_score":212,"last_commit_at":213,"category_tags":214,"status":86},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[215,71,216,217],"Agent","图像","数据工具",{"id":219,"name":220,"github_repo":221,"description_zh":222,"stars":223,"difficulty_score":212,"last_commit_at":224,"category_tags":225,"status":86},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[71,216,215],{"id":227,"name":228,"github_repo":229,"description_zh":230,"stars":231,"difficulty_score":85,"last_commit_at":232,"category_tags":233,"status":86},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",160784,"2026-04-19T11:32:54",[71,215,234],"语言模型",{"id":236,"name":237,"github_repo":238,"description_zh":239,"stars":240,"difficulty_score":241,"last_commit_at":242,"category_tags":243,"status":86},8272,"opencode","anomalyco\u002Fopencode","OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。\n\n这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。\n\n在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信",144296,1,"2026-04-16T14:50:03",[215,72],{"id":245,"name":246,"github_repo":247,"description_zh":248,"stars":249,"difficulty_score":85,"last_commit_at":250,"category_tags":251,"status":86},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[71,216,215],{"id":253,"name":254,"github_repo":255,"description_zh":256,"stars":257,"difficulty_score":85,"last_commit_at":258,"category_tags":259,"status":86},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[72,215,216,71]]