[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-PromtEngineer--Verbi":3,"tool-PromtEngineer--Verbi":61},[4,18,26,36,44,52],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",141543,2,"2026-04-06T11:32:54",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":53,"name":54,"github_repo":55,"description_zh":56,"stars":57,"difficulty_score":10,"last_commit_at":58,"category_tags":59,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,60],"视频",{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":77,"owner_website":78,"owner_url":79,"languages":80,"stars":85,"forks":86,"last_commit_at":87,"license":88,"difficulty_score":32,"env_os":89,"env_gpu":90,"env_ram":91,"env_deps":92,"category_tags":102,"github_topics":76,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":104,"updated_at":105,"faqs":106,"releases":136},4440,"PromtEngineer\u002FVerbi","Verbi","A modular voice assistant application for experimenting with state-of-the-art transcription, response generation, and text-to-speech models. Supports OpenAI, Groq, Elevanlabs, CartesiaAI, and Deepgram APIs, plus local models via Ollama. Ideal for research and development in voice technology.","Verbi 是一款模块化的语音助手应用，专为探索前沿的语音技术而设计。它打通了从语音转文字、智能回复生成到文本转语音（TTS）的全流程，让用户能够灵活组合并测试各类顶尖模型。\n\n在开发语音应用时，开发者常面临模型选型难、切换成本高以及难以横向对比不同服务效果的痛点。Verbi 通过其独特的模块化架构解决了这一难题：用户无需重写代码，只需在配置文件中简单修改，即可在 OpenAI、Groq、Deepgram、ElevenLabs 等云端 API 与基于 Ollama 的本地模型之间自由切换。这种设计极大地降低了实验门槛，让模型性能的对比测试变得高效便捷。\n\n此外，Verbi 内置了录音播放功能，并提供集中的配置文件管理，支持快速搭建开发环境。无论是希望深入调研语音技术的研究人员，还是想要快速验证原型的开发者，亦或是热衷于尝试新技术的极客爱好者，都能利用 Verbi 轻松构建属于自己的语音交互系统，推动语音技术的创新与应用。","# VERBI - Voice Assistant 🎙️\n\u003Cp align=\"center\">\n\u003Ca href=\"https:\u002F\u002Ftrendshift.io\u002Frepositories\u002F11584\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPromtEngineer_Verbi_readme_bbada6ddd5d3.png\" alt=\"PromtEngineer%2FVerbi | Trendshift\" style=\"width: 250px; height: 55px;\" width=\"250\" height=\"55\"\u002F>\u003C\u002Fa>\n\u003C\u002Fp>\n\n[![GitHub Stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FPromtEngineer\u002FVerbi?style=social)](https:\u002F\u002Fgithub.com\u002FPromtEngineer\u002FVerbi\u002Fstargazers)\n[![GitHub Forks](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fforks\u002FPromtEngineer\u002FVerbi?style=social)](https:\u002F\u002Fgithub.com\u002FPromtEngineer\u002FVerbi\u002Fnetwork\u002Fmembers)\n[![GitHub Issues](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues\u002FPromtEngineer\u002FVerbi)](https:\u002F\u002Fgithub.com\u002FPromtEngineer\u002FVerbi\u002Fissues)\n[![GitHub Pull Requests](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues-pr\u002FPromtEngineer\u002FVerbi)](https:\u002F\u002Fgithub.com\u002FPromtEngineer\u002FVerbi\u002Fpulls)\n[![License](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002FPromtEngineer\u002FVerbi)](https:\u002F\u002Fgithub.com\u002FPromtEngineer\u002FVerbi\u002Fblob\u002Fmain\u002FLICENSE)\n\n## Motivation ✨✨✨\n\nWelcome to the Voice Assistant project! 🎙️ Our goal is to create a modular voice assistant application that allows you to experiment with state-of-the-art (SOTA) models for various components. The modular structure provides flexibility, enabling you to pick and choose between different SOTA models for transcription, response generation, and text-to-speech (TTS). This approach facilitates easy testing and comparison of different models, making it an ideal platform for research and development in voice assistant technologies. Whether you're a developer, researcher, or enthusiast, this project is for you!\n\n## Features 🧰\n\n- **Modular Design**: Easily switch between different models for transcription, response generation, and TTS.\n- **Support for Multiple APIs**: Integrates with OpenAI, Groq, and Deepgram APIs, along with placeholders for local models.\n- **Audio Recording and Playback**: Record audio from the microphone and play generated speech.\n- **Configuration Management**: Centralized configuration in `config.py` for easy setup and management.\n\n## Project Structure 📂\n\n```plaintext\nvoice_assistant\u002F\n├── voice_assistant\u002F\n│   ├── __init__.py\n│   ├── audio.py\n│   ├── api_key_manager.py\n│   ├── config.py\n│   ├── transcription.py\n│   ├── response_generation.py\n│   ├── text_to_speech.py\n│   ├── utils.py\n│   ├── local_tts_api.py\n│   ├── local_tts_generation.py\n├── .env\n├── run_voice_assistant.py\n├── piper_server.py\n├── setup.py\n├── requirements.txt\n└── README.md\n```\n\n## Setup Instructions  📋\n\n#### Prerequisites ✅\n\n- Python 3.10 or higher\n- Virtual environment (recommended)\n\n#### Step-by-Step Instructions 🔢\n\n1. 📥 **Clone the repository**\n\n```shell\n   git clone https:\u002F\u002Fgithub.com\u002FPromtEngineer\u002FVerbi.git\n   cd Verbi\n```\n2. 🐍 **Set up a virtual environment**\n\n  Using `venv`:\n\n```shell\n    python -m venv venv\n    source venv\u002Fbin\u002Factivate  # On Windows use `venv\\Scripts\\activate`\n```\n  Using `conda`:\n\n```shell\n    conda create --name verbi python=3.10\n    conda activate verbi\n```\n3.  📦 **Install the required packages**\n\n```shell\n   pip install -r requirements.txt\n```\n4. 🛠️ **Set up the environment variables**\n\nCreate a  `.env` file in the root directory and add your API keys:\n```shell\n    OPENAI_API_KEY=your_openai_api_key\n    GROQ_API_KEY=your_groq_api_key\n    DEEPGRAM_API_KEY=your_deepgram_api_key\n    LOCAL_MODEL_PATH=path\u002Fto\u002Flocal\u002Fmodel\n    PIPER_SERVER_URL=server_url\n```\n5. 🧩 **Configure the models**\n\nEdit config.py to select the models you want to use:\n\n```shell\n    class Config:\n        # Model selection\n        TRANSCRIPTION_MODEL = 'groq'  # Options: 'openai', 'groq', 'deepgram', 'fastwhisperapi' 'local'\n        RESPONSE_MODEL = 'groq'       # Options: 'openai', 'groq', 'ollama', 'local'\n        TTS_MODEL = 'deepgram'        # Options: 'openai', 'deepgram', 'elevenlabs', 'local', 'melotts', 'piper'\n\n        # API keys and paths\n        OPENAI_API_KEY = os.getenv(\"OPENAI_API_KEY\")\n        GROQ_API_KEY = os.getenv(\"GROQ_API_KEY\")\n        DEEPGRAM_API_KEY = os.getenv(\"DEEPGRAM_API_KEY\")\n        LOCAL_MODEL_PATH = os.getenv(\"LOCAL_MODEL_PATH\")\n```\n\nIf you are running LLM locally via [Ollama](https:\u002F\u002Follama.com\u002F), make sure the Ollama server is runnig before starting verbi. \n\n6. 🔊 **Configure ElevenLabs Jarvis' Voice**\n- Voice samples [here](https:\u002F\u002Fgithub.com\u002FPromtEngineer\u002FVerbi\u002Ftree\u002Fmain\u002Fvoice_samples).\n- Follow this [link](https:\u002F\u002Felevenlabs.io\u002Fapp\u002Fvoice-lab\u002Fshare\u002Fde3746fa51a09e771604d74b5d1ff6797b6b96a5958f9de95cef544dde31dad9\u002FWArWzu0z4mbSyy5BfRKM) to add the Jarvis voice to your ElevenLabs account.\n- Name the voice 'Paul J.' or, if you prefer a different name, ensure it matches the ELEVENLABS_VOICE_ID variable in the text_to_speech.py file.\n\n7. 🏃 **Run the voice assistant**\n\n```shell\n   python run_voice_assistant.py\n```\n8. 🎤 **Install FastWhisperAPI**\n\n   _Optional step if you need a local transcription model_\n\n   ***Clone the repository***\n   ```shell\n      cd..\n      git clone https:\u002F\u002Fgithub.com\u002F3choff\u002FFastWhisperAPI.git\n      cd FastWhisperAPI\n   ```\n   ***Install the required packages:***\n   ```shell\n      pip install -r requirements.txt\n   ```\n   ***Run the API***\n   ```shell\n      fastapi run main.py\n   ```\n   ***Alternative Setup and Run Methods***\n\n   The API can also run directly on a Docker container or in Google Colab.\n\n   ***Docker:***\n\n   ***Build a Docker container:***\n   ```shell\n      docker build -t fastwhisperapi .\n   ```\n   ***Run the container***\n   ```shell\n      docker run -p 8000:8000 fastwhisperapi\n   ```\n   Refer to the repository documentation for the Google Colab method: https:\u002F\u002Fgithub.com\u002F3choff\u002FFastWhisperAPI\u002Fblob\u002Fmain\u002FREADME.md\n\n8. 🎤 **Install Local TTS - MeloTTS**\n\n   _Optional step if you need a local Text to Speech model_\n\n   ***Install MeloTTS from Github***\n\n   Use the following [link](https:\u002F\u002Fgithub.com\u002Fmyshell-ai\u002FMeloTTS\u002Fblob\u002Fmain\u002Fdocs\u002Finstall.md#linux-and-macos-install) to install MeloTTS for your operating system. \n\n   Once the package is installed on your local virtual environment, you can start the api server using the following command. \n   ```shell\n      python voice_assistant\u002Flocal_tts_api.py\n   ```\n   The `local_tts_api.py` file implements as fastapi server that will listen to incoming text and will generate audio using MeloTTS model. \n   In order to use the local TTS model, you will need to update the `config.py` file by setting: \n\n   ```shell\n      TTS_MODEL = 'melotts'        # Options: 'openai', 'deepgram', 'elevenlabs', 'local', 'melotts', 'piper'\n   ```\n\n9. 🎤 **Install Local TTS - Piper**\n\n   _A faster and lightweight alternative to MeloTTS_\n\n   ***Download the Piper Binary and the voice from Github***\n\n   Use the following [link](https:\u002F\u002Fgithub.com\u002Frhasspy\u002Fpiper) to install Piper Binary for your operating system.\n\n   Use the following [link](https:\u002F\u002Fgithub.com\u002Frhasspy\u002Fpiper?tab=readme-ov-file#voices) to download Piper voices.\n   Each voice will have two files:\n   | `.onnx` | Actual voice model |\n   | `.onnx.json` | Model configuration |\n\n   For example:\n\n   ```shell\n   models\u002Fen_US-lessac-medium\u002F\n   ├── en_US-lessac-medium.onnx\n   ├── en_US-lessac-medium.onnx.json\n   ```\n\n   Once the binary and voice is downloaded on your system, edit the `piper_server.py` and provide the binary and voice paths.\n   ```shell\n      piper_executable = \".\u002Fpiper\u002Fpiper\"  #example path to the piper binary \n      model_path = \"en_US-lessac-medium.onnx\" #example path to the .onnx file\n   ```\n\n   You can start the api server using the following command. \n   ```shell\n      python piper_server.py\n   ```\n\n   The `piper_server.py` file implements as fastapi server that will listen to incoming text and will generate audio using Piper model. \n   In order to use the local TTS model, you will need to update the `config.py` file by setting: \n\n   ```shell\n      TTS_MODEL = 'piper'        # Options: 'openai', 'deepgram', 'elevenlabs', 'local', 'melotts','piper'\n   ```\n   You can run the main file to start using verbi with local models. \n\n## Model Options ⚙️\n\n#### Transcription Models  🎤\n\n- **OpenAI**: Uses OpenAI's Whisper model.\n- **Groq**: Uses Groq's Whisper-large-v3 model.\n- **Deepgram**: Uses Deepgram's transcription model.\n- **FastWhisperAPI**: Uses FastWhisperAPI, a local transcription API powered by Faster Whisper.\n- **Local**: Placeholder for a local speech-to-text (STT) model.\n\n#### Response Generation Models  💬\n\n- **OpenAI**: Uses OpenAI's GPT-4 model.\n- **Groq**: Uses Groq's LLaMA model.\n- **Ollama**: Uses any model served via Ollama.\n- **Local**: Placeholder for a local language model.\n\n#### Text-to-Speech (TTS) Models  🔊\n\n- **OpenAI**: Uses OpenAI's TTS model with the 'fable' voice.\n- **Deepgram**: Uses Deepgram's TTS model with the 'aura-angus-en' voice.\n- **ElevenLabs**: Uses ElevenLabs' TTS model with the 'Paul J.' voice.\n- **Local**: Placeholder for a local TTS model.\n\n## Detailed Module Descriptions  📘\n\n- **`run_verbi.py`**: Main script to run the voice assistant.\n- **`voice_assistant\u002Fconfig.py`**: Manages configuration settings and API keys.\n- **`voice_assistant\u002Fapi_key_manager.py`**: Handles retrieval of API keys based on configured models.\n- **`voice_assistant\u002Faudio.py`**: Functions for recording and playing audio.\n- **`voice_assistant\u002Ftranscription.py`**: Manages audio transcription using various APIs.\n- **`voice_assistant\u002Fresponse_generation.py`**: Handles generating responses using various language models.\n- **`voice_assistant\u002Ftext_to_speech.py`**: Manages converting text responses into speech.\n- **`voice_assistant\u002Futils.py`**: Contains utility functions like deleting files.\n- **`voice_assistant\u002Flocal_tts_api.py`**: Contains the api implementation to run the MeloTTS model.\n- **`voice_assistant\u002Flocal_tts_generation.py`**: Contains the code to use the MeloTTS api to generated audio.\n- **`voice_assistant\u002F__init__.py`**: Initializes the `voice_assistant` package.\n\n## Roadmap 🛤️🛤️🛤️\n\nHere's what's next for the Voice Assistant project:\n\n1. **Add Support for Streaming**: Enable real-time streaming of audio input and output.\n2. **Add Support for ElevenLabs and Enhanced Deepgram for TTS**: Integrate additional TTS options for higher quality and variety.\n3. **Add Filler Audios**: Include background or filler audios while waiting for model responses to enhance user experience.\n4. **Add Support for Local Models Across the Board**: Expand support for local models in transcription, response generation, and TTS.\n\n## Contributing 🤝\n\nWe welcome contributions from the community! If you'd like to help improve this project, please follow these steps:\n\n1. Fork the repository.\n2. Create a new branch (`git checkout -b feature-branch`).\n3. Make your changes and commit them (`git commit -m 'Add new feature'`).\n4. Push to the branch (`git push origin feature-branch`).\n5. Open a pull request detailing your changes.\n\n## Star History ✨✨✨\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPromtEngineer_Verbi_readme_71099cf7b8ca.png)](https:\u002F\u002Fstar-history.com\u002F#PromtEngineer\u002FVerbi&Date)\n\n\n","# VERBI - 语音助手 🎙️\n\u003Cp align=\"center\">\n\u003Ca href=\"https:\u002F\u002Ftrendshift.io\u002Frepositories\u002F11584\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPromtEngineer_Verbi_readme_bbada6ddd5d3.png\" alt=\"PromtEngineer%2FVerbi | Trendshift\" style=\"width: 250px; height: 55px;\" width=\"250\" height=\"55\"\u002F>\u003C\u002Fa>\n\u003C\u002Fp>\n\n[![GitHub 星标](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FPromtEngineer\u002FVerbi?style=social)](https:\u002F\u002Fgithub.com\u002FPromtEngineer\u002FVerbi\u002Fstargazers)\n[![GitHub 分支](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fforks\u002FPromtEngineer\u002FVerbi?style=social)](https:\u002F\u002Fgithub.com\u002FPromtEngineer\u002FVerbi\u002Fnetwork\u002Fmembers)\n[![GitHub 问题](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues\u002FPromtEngineer\u002FVerbi)](https:\u002F\u002Fgithub.com\u002FPromtEngineer\u002FVerbi\u002Fissues)\n[![GitHub 拉取请求](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues-pr\u002FPromtEngineer\u002FVerbi)](https:\u002F\u002Fgithub.com\u002FPromtEngineer\u002FVerbi\u002Fpulls)\n[![许可证](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002FPromtEngineer\u002FVerbi)](https:\u002F\u002Fgithub.com\u002FPromtEngineer\u002FVerbi\u002Fblob\u002Fmain\u002FLICENSE)\n\n## 动机 ✨✨✨\n\n欢迎来到语音助手项目！🎙️ 我们的目标是打造一款模块化的语音助手应用，让您能够针对各个组件尝试使用最先进的（SOTA）模型。模块化的设计提供了极大的灵活性，您可以自由选择用于转录、响应生成和文本到语音（TTS）的不同 SOTA 模型。这种设计便于对不同模型进行测试与比较，使其成为语音助手技术研发的理想平台。无论您是开发者、研究人员还是爱好者，这个项目都适合您！\n\n## 特性 🧰\n\n- **模块化设计**：轻松切换转录、响应生成和 TTS 的不同模型。\n- **支持多种 API**：集成 OpenAI、Groq 和 Deepgram 等 API，并预留了本地模型的接口。\n- **音频录制与播放**：可从麦克风录制音频，并播放生成的语音。\n- **配置管理**：通过 `config.py` 实现集中式配置，方便设置与管理。\n\n## 项目结构 📂\n\n```plaintext\nvoice_assistant\u002F\n├── voice_assistant\u002F\n│   ├── __init__.py\n│   ├── audio.py\n│   ├── api_key_manager.py\n│   ├── config.py\n│   ├── transcription.py\n│   ├── response_generation.py\n│   ├── text_to_speech.py\n│   ├── utils.py\n│   ├── local_tts_api.py\n│   ├── local_tts_generation.py\n├── .env\n├── run_voice_assistant.py\n├── piper_server.py\n├── setup.py\n├── requirements.txt\n└── README.md\n```\n\n## 设置说明  📋\n\n#### 前置条件 ✅\n\n- Python 3.10 或更高版本\n- 虚拟环境（推荐）\n\n#### 分步指南 🔢\n\n1. 📥 **克隆仓库**\n\n```shell\n   git clone https:\u002F\u002Fgithub.com\u002FPromtEngineer\u002FVerbi.git\n   cd Verbi\n```\n2. 🐍 **设置虚拟环境**\n\n使用 `venv`：\n\n```shell\n    python -m venv venv\n    source venv\u002Fbin\u002Factivate  # 在 Windows 上使用 `venv\\Scripts\\activate`\n```\n使用 `conda`：\n\n```shell\n    conda create --name verbi python=3.10\n    conda activate verbi\n```\n3.  📦 **安装所需包**\n\n```shell\n   pip install -r requirements.txt\n```\n4. 🛠️ **设置环境变量**\n\n在根目录下创建一个 `.env` 文件，并添加你的 API 密钥：\n```shell\n    OPENAI_API_KEY=your_openai_api_key\n    GROQ_API_KEY=your_groq_api_key\n    DEEPGRAM_API_KEY=your_deepgram_api_key\n    LOCAL_MODEL_PATH=path\u002Fto\u002Flocal\u002Fmodel\n    PIPER_SERVER_URL=server_url\n```\n5. 🧩 **配置模型**\n\n编辑 `config.py` 文件以选择你想要使用的模型：\n\n```shell\n    class Config:\n        # 模型选择\n        TRANSCRIPTION_MODEL = 'groq'  # 选项：'openai', 'groq', 'deepgram', 'fastwhisperapi', 'local'\n        RESPONSE_MODEL = 'groq'       # 选项：'openai', 'groq', 'ollama', 'local'\n        TTS_MODEL = 'deepgram'        # 选项：'openai', 'deepgram', 'elevenlabs', 'local', 'melotts', 'piper'\n\n        # API 密钥和路径\n        OPENAI_API_KEY = os.getenv(\"OPENAI_API_KEY\")\n        GROQ_API_KEY = os.getenv(\"GROQ_API_KEY\")\n        DEEPGRAM_API_KEY = os.getenv(\"DEEPGRAM_API_KEY\")\n        LOCAL_MODEL_PATH = os.getenv(\"LOCAL_MODEL_PATH\")\n```\n\n如果你通过 [Ollama](https:\u002F\u002Follama.com\u002F) 在本地运行 LLM，请确保在启动 Verbi 之前，Ollama 服务器已经运行。\n\n6. 🔊 **配置 ElevenLabs 的 Jarvis 音色**\n- 音色样本 [在这里](https:\u002F\u002Fgithub.com\u002FPromtEngineer\u002FVerbi\u002Ftree\u002Fmain\u002Fvoice_samples)。\n- 按照这个 [链接](https:\u002F\u002Felevenlabs.io\u002Fapp\u002Fvoice-lab\u002Fshare\u002Fde3746fa51a09e771604d74b5d1ff6797b6b96a5958f9de95cef544dde31dad9\u002FWArWzu0z4mbSyy5BfRKM) 将 Jarvis 音色添加到你的 ElevenLabs 账户中。\n- 将音色命名为“Paul J.”，或者如果你喜欢其他名字，请确保它与 `text_to_speech.py` 文件中的 `ELEVENLABS_VOICE_ID` 变量一致。\n\n7. 🏃 **运行语音助手**\n\n```shell\n   python run_voice_assistant.py\n```\n8. 🎤 **安装 FastWhisperAPI**\n\n   _可选步骤，如果你需要本地转录模型_\n\n   ***克隆仓库***\n   ```shell\n      cd..\n      git clone https:\u002F\u002Fgithub.com\u002F3choff\u002FFastWhisperAPI.git\n      cd FastWhisperAPI\n   ```\n   ***安装所需包：***\n   ```shell\n      pip install -r requirements.txt\n   ```\n   ***运行 API***\n   ```shell\n      fastapi run main.py\n   ```\n   ***替代设置和运行方法***\n\n   该 API 也可以直接在 Docker 容器或 Google Colab 中运行。\n\n   ***Docker：***\n\n   ***构建 Docker 容器：***\n   ```shell\n      docker build -t fastwhisperapi .\n   ```\n   ***运行容器***\n   ```shell\n      docker run -p 8000:8000 fastwhisperapi\n   ```\n   有关 Google Colab 方法，请参阅仓库文档：https:\u002F\u002Fgithub.com\u002F3choff\u002FFastWhisperAPI\u002Fblob\u002Fmain\u002FREADME.md\n\n8. 🎤 **安装本地 TTS - MeloTTS**\n\n   _可选步骤，如果你需要本地文本转语音模型_\n\n   ***从 Github 安装 MeloTTS***\n\n   使用以下 [链接](https:\u002F\u002Fgithub.com\u002Fmyshell-ai\u002FMeloTTS\u002Fblob\u002Fmain\u002Fdocs\u002Finstall.md#linux-and-macos-install) 根据你的操作系统安装 MeloTTS。\n\n   当软件包安装到你的本地虚拟环境中后，你可以使用以下命令启动 API 服务器。\n   ```shell\n      python voice_assistant\u002Flocal_tts_api.py\n   ```\n   `local_tts_api.py` 文件实现了一个 FastAPI 服务器，它会监听传入的文本并使用 MeloTTS 模型生成音频。为了使用本地 TTS 模型，你需要更新 `config.py` 文件，将：\n\n   ```shell\n      TTS_MODEL = 'melotts'        # 选项：'openai', 'deepgram', 'elevenlabs', 'local', 'melotts', 'piper'\n   ```\n\n9. 🎤 **安装本地 TTS - Piper**\n\n   _MeloTTS 的更快、更轻量级替代方案_\n\n   ***从 Github 下载 Piper 二进制文件和语音***\n\n   使用以下 [链接](https:\u002F\u002Fgithub.com\u002Frhasspy\u002Fpiper) 根据你的操作系统安装 Piper 二进制文件。\n\n   使用以下 [链接](https:\u002F\u002Fgithub.com\u002Frhasspy\u002Fpiper?tab=readme-ov-file#voices) 下载 Piper 语音。每种语音包含两个文件：\n   | `.onnx` | 实际的语音模型 |\n   | `.onnx.json` | 模型配置文件 |\n\n   例如：\n\n   ```shell\n   models\u002Fen_US-lessac-medium\u002F\n   ├── en_US-lessac-medium.onnx\n   ├── en_US-lessac-medium.onnx.json\n   ```\n\n   当二进制文件和语音下载到你的系统后，编辑 `piper_server.py` 并提供二进制文件和语音的路径。\n   ```shell\n      piper_executable = \".\u002Fpiper\u002Fpiper\"  # 示例路径指向 Piper 二进制文件\n      model_path = \"en_US-lessac-medium.onnx\" # 示例路径指向 .onnx 文件\n   ```\n\n   你可以使用以下命令启动 API 服务器。\n   ```shell\n      python piper_server.py\n   ```\n\n   `piper_server.py` 文件实现了一个 FastAPI 服务器，它会监听传入的文本并使用 Piper 模型生成音频。为了使用本地 TTS 模型，你需要更新 `config.py` 文件，将：\n\n   ```shell\n      TTS_MODEL = 'piper'        # 选项：'openai', 'deepgram', 'elevenlabs', 'local', 'melotts', 'piper'\n   ```\n\n   你可以运行主程序，开始使用带有本地模型的 Verbi。\n\n## 模型选项 ⚙️\n\n#### 转录模型  🎤\n\n- **OpenAI**：使用 OpenAI 的 Whisper 模型。\n- **Groq**：使用 Groq 的 Whisper-large-v3 模型。\n- **Deepgram**：使用 Deepgram 的转录模型。\n- **FastWhisperAPI**：使用 FastWhisperAPI，这是一个由 Faster Whisper 提供支持的本地转录 API。\n- **Local**：用于本地语音转文本（STT）模型的占位符。\n\n#### 回应生成模型  💬\n\n- **OpenAI**：使用 OpenAI 的 GPT-4 模型。\n- **Groq**：使用 Groq 的 LLaMA 模型。\n- **Ollama**：使用通过 Ollama 提供服务的任何模型。\n- **Local**：用于本地语言模型的占位符。\n\n#### 文本转语音（TTS）模型  🔊\n\n- **OpenAI**：使用 OpenAI 的 TTS 模型，搭配“fable”音色。\n- **Deepgram**：使用 Deepgram 的 TTS 模型，搭配“aura-angus-en”音色。\n- **ElevenLabs**：使用 ElevenLabs 的 TTS 模型，搭配“Paul J.”音色。\n- **Local**：用于本地 TTS 模型的占位符。\n\n## 模块详细说明  📘\n\n- **`run_verbi.py`**: 主脚本，用于运行语音助手。\n- **`voice_assistant\u002Fconfig.py`**: 管理配置设置和 API 密钥。\n- **`voice_assistant\u002Fapi_key_manager.py`**: 根据配置的模型获取 API 密钥。\n- **`voice_assistant\u002Faudio.py`**: 用于录音和播放音频的函数。\n- **`voice_assistant\u002Ftranscription.py`**: 使用各种 API 进行音频转录。\n- **`voice_assistant\u002Fresponse_generation.py`**: 使用多种语言模型生成响应。\n- **`voice_assistant\u002Ftext_to_speech.py`**: 将文本响应转换为语音。\n- **`voice_assistant\u002Futils.py`**: 包含删除文件等实用工具函数。\n- **`voice_assistant\u002Flocal_tts_api.py`**: 包含运行 MeloTTS 模型的 API 实现。\n- **`voice_assistant\u002Flocal_tts_generation.py`**: 包含使用 MeloTTS API 生成音频的代码。\n- **`voice_assistant\u002F__init__.py`**: 初始化 `voice_assistant` 包。\n\n## 路线图 🛤️🛤️🛤️\n\n以下是语音助手项目的下一步计划：\n\n1. **添加流式支持**：实现音频输入和输出的实时流式传输。\n2. **添加对 ElevenLabs 和增强版 Deepgram 的 TTS 支持**：集成更多高质量、多样化的 TTS 选项。\n3. **添加填充音频**：在等待模型响应时，加入背景或填充音频，以提升用户体验。\n4. **全面支持本地模型**：在转录、响应生成和 TTS 方面扩展对本地模型的支持。\n\n## 贡献 🤝\n\n我们欢迎社区的贡献！如果您想帮助改进该项目，请按照以下步骤操作：\n\n1. 克隆仓库并创建分支。\n2. 创建新分支（`git checkout -b feature-branch`）。\n3. 进行更改并提交（`git commit -m '添加新功能'`）。\n4. 推送到该分支（`git push origin feature-branch`）。\n5. 打开一个包含您更改详情的拉取请求。\n\n## 星标历史 ✨✨✨\n\n[![星标历史图表](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPromtEngineer_Verbi_readme_71099cf7b8ca.png)](https:\u002F\u002Fstar-history.com\u002F#PromtEngineer\u002FVerbi&Date)","# Verbi 语音助手快速上手指南\n\nVerbi 是一个模块化的开源语音助手项目，支持灵活切换转录（STT）、大语言模型（LLM）和语音合成（TTS）的后端服务。你可以轻松组合 OpenAI、Groq、Deepgram 等云端 API，或使用 Ollama、Faster Whisper、Piper 等本地模型进行实验。\n\n## 环境准备\n\n在开始之前，请确保你的开发环境满足以下要求：\n\n*   **操作系统**：Windows, macOS 或 Linux\n*   **Python 版本**：Python 3.10 或更高版本\n*   **依赖管理**：推荐使用 `venv` 或 `conda` 创建虚拟环境\n*   **可选本地服务**：\n    *   若使用本地 LLM，需安装并运行 [Ollama](https:\u002F\u002Follama.com\u002F)。\n    *   若使用本地 STT，需部署 FastWhisperAPI。\n    *   若使用本地 TTS，需安装 MeloTTS 或 Piper。\n\n## 安装步骤\n\n### 1. 克隆项目\n```shell\ngit clone https:\u002F\u002Fgithub.com\u002FPromtEngineer\u002FVerbi.git\ncd Verbi\n```\n\n### 2. 创建并激活虚拟环境\n\n**使用 venv:**\n```shell\npython -m venv venv\nsource venv\u002Fbin\u002Factivate  # Windows 用户请使用: venv\\Scripts\\activate\n```\n\n**使用 conda:**\n```shell\nconda create --name verbi python=3.10\nconda activate verbi\n```\n\n### 3. 安装依赖包\n```shell\npip install -r requirements.txt\n```\n> 💡 **国内加速提示**：如果下载速度慢，可使用清华源或阿里源：\n> `pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n\n### 4. 配置环境变量\n在项目根目录创建 `.env` 文件，填入你的 API Key 和本地模型路径：\n```shell\nOPENAI_API_KEY=your_openai_api_key\nGROQ_API_KEY=your_groq_api_key\nDEEPGRAM_API_KEY=your_deepgram_api_key\nLOCAL_MODEL_PATH=path\u002Fto\u002Flocal\u002Fmodel\nPIPER_SERVER_URL=server_url\n```\n\n### 5. 选择模型配置\n编辑 `voice_assistant\u002Fconfig.py` 文件，根据需求修改模型选项：\n\n```python\nclass Config:\n    # 模型选择\n    TRANSCRIPTION_MODEL = 'groq'  # 可选：'openai', 'groq', 'deepgram', 'fastwhisperapi', 'local'\n    RESPONSE_MODEL = 'groq'       # 可选：'openai', 'groq', 'ollama', 'local'\n    TTS_MODEL = 'deepgram'        # 可选：'openai', 'deepgram', 'elevenlabs', 'local', 'melotts', 'piper'\n\n    # API Keys (从 .env 读取)\n    OPENAI_API_KEY = os.getenv(\"OPENAI_API_KEY\")\n    GROQ_API_KEY = os.getenv(\"GROQ_API_KEY\")\n    DEEPGRAM_API_KEY = os.getenv(\"DEEPGRAM_API_KEY\")\n    LOCAL_MODEL_PATH = os.getenv(\"LOCAL_MODEL_PATH\")\n```\n\n> **注意**：如果你选择 `RESPONSE_MODEL = 'ollama'`，请确保在运行 Verbi 前已启动 Ollama 服务。\n\n## 基本使用\n\n完成上述配置后，即可启动语音助手。程序将调用麦克风录音，并通过你配置的模型进行对话。\n\n### 启动命令\n```shell\npython run_voice_assistant.py\n```\n\n### 进阶：使用本地模型（可选）\n\n如果你希望完全在本地运行（不消耗 API 额度），需额外部署本地服务：\n\n#### 方案 A：本地语音转文字 (FastWhisperAPI)\n1. 克隆并进入目录：\n   ```shell\n   cd ..\n   git clone https:\u002F\u002Fgithub.com\u002F3choff\u002FFastWhisperAPI.git\n   cd FastWhisperAPI\n   pip install -r requirements.txt\n   ```\n2. 启动服务：\n   ```shell\n   fastapi run main.py\n   ```\n3. 回到 Verbi 目录，将 `config.py` 中的 `TRANSCRIPTION_MODEL` 设为 `'fastwhisperapi'`。\n\n#### 方案 B：本地语音合成 (Piper - 轻量推荐)\n1. 下载 Piper 二进制文件和语音模型 (.onnx)。\n2. 编辑 `piper_server.py`，指定二进制路径和模型路径：\n   ```python\n   piper_executable = \".\u002Fpiper\u002Fpiper\"\n   model_path = \"en_US-lessac-medium.onnx\"\n   ```\n3. 启动服务：\n   ```shell\n   python piper_server.py\n   ```\n4. 将 `config.py` 中的 `TTS_MODEL` 设为 `'piper'`。\n\n配置完成后，再次运行 `python run_voice_assistant.py` 即可体验全本地化流程。","一位语音交互研究员正在为智能客服系统筛选最佳的“语音转文字 + 大模型回复 + 文字转语音”技术组合，需要快速验证不同服务商的效果差异。\n\n### 没有 Verbi 时\n- **重复造轮子**：每次切换测试对象（如从 OpenAI 换到 Groq），都要重新编写 API 调用代码和音频处理逻辑，耗时费力。\n- **环境配置繁琐**：本地模型（Ollama）与云端 API 的依赖环境冲突，搭建测试环境往往需要半天时间调试报错。\n- **对比效率低下**：无法在同一框架下直观对比不同模型的延迟、音色和识别准确率，只能靠手动记录分散的测试结果。\n- **扩展性差**：想尝试新的 TTS 引擎（如 CartesiaAI）时，因缺乏模块化设计，必须重构大量底层代码。\n\n### 使用 Verbi 后\n- **即插即用**：只需修改 `config.py` 中的几行配置，即可在 OpenAI、Groq、Deepgram 等主流服务间无缝切换，瞬间完成模型替换。\n- **统一架构**：内置标准化的音频录制与播放模块，自动屏蔽底层差异，让研究者能专注于核心算法效果而非工程细节。\n- **高效横向测评**：模块化设计支持快速构建对照实验，能在一个下午内完成对十几种模型组合的性能基准测试。\n- **灵活混合部署**：轻松实现“云端高速转录 + 本地隐私大模型 + 高保真云端合成”的混合架构，满足多样化研发需求。\n\nVerbi 通过高度模块化的设计，将语音助手原型的迭代周期从数天缩短至几分钟，是语音技术研发者进行模型选型与实验的得力加速器。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPromtEngineer_Verbi_cc4f75f8.png","PromtEngineer","PromptEngineer","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FPromtEngineer_a63ace20.png","Building Cool Stuff!",null,"engineerrprompt","https:\u002F\u002Fengineerprompt.ai\u002F","https:\u002F\u002Fgithub.com\u002FPromtEngineer",[81],{"name":82,"color":83,"percentage":84},"Python","#3572A5",100,1115,219,"2026-04-03T08:44:16","MIT","Linux, macOS, Windows","未说明（主要依赖云端 API；若使用本地模型如 FastWhisper、MeloTTS 或 Piper，通常建议具备 GPU 加速，但 README 未明确具体型号或显存要求）","未说明",{"notes":93,"python":94,"dependencies":95},"该工具主要设计为模块化语音助手，默认推荐使用 OpenAI、Groq、Deepgram 等云端 API。若需完全本地化运行（转录、大模型响应、语音合成），需额外安装并配置 FastWhisperAPI、Ollama、MeloTTS 或 Piper 等服务。本地部署时请参照各子项目的文档进行环境配置（如 Docker 或二进制文件安装）。","3.10+",[96,97,98,99,100,101],"fastapi","openai","groq","deepgram","requests","python-dotenv",[35,103,13],"音频","2026-03-27T02:49:30.150509","2026-04-06T22:00:21.575744",[107,112,117,121,126,131],{"id":108,"question_zh":109,"answer_zh":110,"source_url":111},20187,"为什么设置 TRANSCRIPTION_MODEL 为 'deepgram' 或 'groq' 时会报错？","Groq 的语音转文字模型目前仅在私有测试版中可用，而 Deepgram 的支持是未来的计划，因此当前无法使用。目前可用的转录模型只有 OpenAI Whisper 或使用 FastWhisperAPI 的本地实现。FastWhisperAPI 可以在本地、Docker 容器甚至 Google Colab 中运行。如果使用 Google Colab，需要将 transcription.py 中的 localhost 地址替换为 NGROK 提供的地址。相关项目链接：https:\u002F\u002Fgithub.com\u002F3choff\u002FVerbi.git 和 https:\u002F\u002Fgithub.com\u002F3choff\u002FFastWhisperAPI.git","https:\u002F\u002Fgithub.com\u002FPromtEngineer\u002FVerbi\u002Fissues\u002F2",{"id":113,"question_zh":114,"answer_zh":115,"source_url":116},20188,"在 macOS 上安装时遇到 'ERROR: Could not build wheels for PyAudio' 错误怎么办？","该错误通常是因为缺少 portaudio 依赖。在使用 pip 安装 requirements.txt 之前，请先通过 Homebrew 安装 portaudio：执行命令 `brew install portaudio`。安装完成后重新运行 `pip3 install -r requirements.txt` 即可解决。","https:\u002F\u002Fgithub.com\u002FPromtEngineer\u002FVerbi\u002Fissues\u002F10",{"id":118,"question_zh":119,"answer_zh":120,"source_url":116},20189,"运行时提示 'ModuleNotFoundError: No module named pydub' 如何解决？","这是因为缺少 pydub 库。请直接在虚拟环境中运行命令 `pip install pydub` 进行安装，安装完成后重新启动程序即可。",{"id":122,"question_zh":123,"answer_zh":124,"source_url":125},20190,"使用 Groq API 时出现 404 错误（URL 路径重复）该如何修复？","这是一个配置问题。解决方法是将 RESPONSE_MODEL 设置为 'openai'，并在代码中显式指定 Groq 的兼容 base_url。具体步骤：1. 在 config.py 中将 RESPONSE_MODEL 改为 'openai'；2. 在 response_generation.py 中初始化 OpenAI 客户端时添加 base_url 参数：`client = OpenAI(api_key=api_key, base_url=\"https:\u002F\u002Fapi.groq.com\u002Fopenai\u002Fv1\")`。这样即可通过 OpenAI 兼容接口调用 Groq 模型。","https:\u002F\u002Fgithub.com\u002FPromtEngineer\u002FVerbi\u002Fissues\u002F12",{"id":127,"question_zh":128,"answer_zh":129,"source_url":130},20191,"运行时出现 'RuntimeWarning: Couldn't find ffmpeg or avconv' 警告怎么办？","这是因为系统缺少 ffmpeg。在 Windows 上可以通过以下命令解决：首先运行 `pip install ffmpeg-downloader`，然后运行 `ffdl install --add-path`。安装完成后重启 VS Code 或终端即可生效。","https:\u002F\u002Fgithub.com\u002FPromtEngineer\u002FVerbi\u002Fissues\u002F16",{"id":132,"question_zh":133,"answer_zh":134,"source_url":135},20192,"在 Linux 上运行时出现大量 ALSA 库错误（如 'Unknown PCM cards' 或 'No such file or directory'）如何处理？","这些 ALSA 错误通常是由于音频后端配置冲突或缺少 PipeWire 支持库引起的。虽然这些警告有时不影响核心功能，但如果导致程序崩溃，建议检查是否安装了正确的音频驱动。可以尝试安装 pipewire 和相关 ALSA 插件（例如 `sudo apt install pipewire libasound2-plugins`），或者在运行前设置环境变量强制使用特定的音频后端。如果问题持续，可能需要检查 ~\u002F.asoundrc 配置文件或禁用不必要的音频模块。","https:\u002F\u002Fgithub.com\u002FPromtEngineer\u002FVerbi\u002Fissues\u002F15",[]]