[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-KoljaB--Linguflex":3,"tool-KoljaB--Linguflex":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",144730,2,"2026-04-07T23:26:32",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":77,"owner_email":78,"owner_twitter":79,"owner_website":80,"owner_url":81,"languages":82,"stars":99,"forks":100,"last_commit_at":101,"license":77,"difficulty_score":102,"env_os":103,"env_gpu":104,"env_ram":105,"env_deps":106,"category_tags":120,"github_topics":121,"view_count":32,"oss_zip_url":77,"oss_zip_packed_at":77,"status":17,"created_at":127,"updated_at":128,"faqs":129,"releases":159},5411,"KoljaB\u002FLinguflex","Linguflex","Command Your World with Voice","Linguflex 是一款致力于将科幻电影中\"Jarvis\"式智能助手变为现实的开源项目。它让用户能够通过自然的语音对话，与自定义的 AI 角色进行逼真互动，并直接指挥现实世界：无论是控制智能家居、播放音乐、查询天气新闻、管理邮件日程，还是搜索及生成图像，只需动口即可完成。\n\n这款工具主要解决了当前 AI 助手往往局限于屏幕聊天、缺乏本地化隐私保护以及难以深度集成硬件控制的痛点。通过全本地化运行架构，Linguflex 确保了用户数据的隐私安全，同时提供了低延迟的响应体验。\n\nLinguflex 既适合渴望拥有个性化私人助理的普通用户，也深受开发者和技术爱好者的青睐。对于开发者而言，它是一个极佳的框架，用于探索和研究如何构建具备多模态能力的本地 AI 系统。\n\n其核心技术亮点在于完全本地化的处理能力，集成了实时的本地神经语音合成（TTS）、实时 RVC 变声微调以及本地大语言模型推理，无需依赖云端即可实现高质量的语音交互。此外，最新版本还增加了对 Ollama 的支持，进一步丰富了模型选择的灵活性。尽管安装过程因涉及复杂的依赖整合而具有一定挑战性，但它为构建真正自主、私密的个人 AI ","Linguflex 是一款致力于将科幻电影中\"Jarvis\"式智能助手变为现实的开源项目。它让用户能够通过自然的语音对话，与自定义的 AI 角色进行逼真互动，并直接指挥现实世界：无论是控制智能家居、播放音乐、查询天气新闻、管理邮件日程，还是搜索及生成图像，只需动口即可完成。\n\n这款工具主要解决了当前 AI 助手往往局限于屏幕聊天、缺乏本地化隐私保护以及难以深度集成硬件控制的痛点。通过全本地化运行架构，Linguflex 确保了用户数据的隐私安全，同时提供了低延迟的响应体验。\n\nLinguflex 既适合渴望拥有个性化私人助理的普通用户，也深受开发者和技术爱好者的青睐。对于开发者而言，它是一个极佳的框架，用于探索和研究如何构建具备多模态能力的本地 AI 系统。\n\n其核心技术亮点在于完全本地化的处理能力，集成了实时的本地神经语音合成（TTS）、实时 RVC 变声微调以及本地大语言模型推理，无需依赖云端即可实现高质量的语音交互。此外，最新版本还增加了对 Ollama 的支持，进一步丰富了模型选择的灵活性。尽管安装过程因涉及复杂的依赖整合而具有一定挑战性，但它为构建真正自主、私密的个人 AI 伴侣提供了强大的基础。","*Bringing the sci-fi dream of a capable Jarvis-style AI companion into reality.*\n\n[![Discord](https:\u002F\u002Fimg.shields.io\u002Fdiscord\u002F1223234851914911754)](https:\u002F\u002Fdiscord.gg\u002Ff556hqRjpv)\n[![YouTube](https:\u002F\u002Fimg.shields.io\u002Fyoutube\u002Fchannel\u002Fsubscribers\u002FUCLeuwdsZO8txzFSSAeLjGlQ?style=social&label=Subscribe%20on%20YouTube)](https:\u002F\u002Fwww.youtube.com\u002Fchannel\u002FUCLeuwdsZO8txzFSSAeLjGlQ)\n[![Twitter](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Ffollow\u002FLonLigrin?style=social)](https:\u002F\u002Ftwitter.com\u002FLonLigrin)\n\n\u003Ch2>\n \u003Cimg align=\"left\" height=\"90px\"\n      src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FKoljaB_Linguflex_readme_aa0c50b8d225.png\"\u002F>\n      Linguflex 2.0\n\u003C\u002Fh2>\n\u003Cimg align=\"right\" width=\"30%\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FKoljaB_Linguflex_readme_aee0cf3b7780.png\" \u002F> \nBorn out of my passion for science fiction, this project aims to simulate engaging, authentic, human-like interaction with AI personalities.  \n\n\u003Cbr>  \n\u003Cbr>  \n\nIt offers voice-based conversation with custom characters, alongside an array of practical features: controlling smart home devices, playing music, searching the internet, fetching emails, displaying current weather information and news, assisting in scheduling, and searching or generating images.  \n\nI invite you to explore the framework, whether you're a user seeking an innovative AI experience or a fellow developer interested in the project. All insights, suggestions, and contributions are appreciated. I want to bring this personal passion project towards its full potential, hopefully with the community's assistance, to collectively contribute to the evolution of AI.\n\n\u003Cbr>  \n\n> **[📓 Linguflex 2.0 installation ](.\u002Fdocs\u002Finstallation.md)**  \n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>Understanding Installation Challenges\u003C\u002Fstrong> (Click to expand)\u003C\u002Fsummary>\n\u003Cbr>\n\nSometimes people suggest, \"Just provide a Docker container; installation is so hard.\" I understand the frustration, but here's why that is challenging:\n\n1. **Complex Integration**: Linguflex is a substantial framework combining advanced TTS technologies like realtime local neural TTS voice generation with realtime RVC fine-tuning, alongside a plethora of other features. Ensuring that all these elements work together in a single environment is like finding the lowest common denominator for your favorite 60 Python libraries instead of just three. Moreover, this system must operate consistently across various platforms, OS versions, Python environments, CUDA versions, and CuDNN versions. It's a complex puzzle.\n2. **Dependency Management**: The nature of Python creates an inherently unstable environment. Even with fixed versions in requirements this does not ensure stability, as transitive dependencies - libraries our direct dependencies rely on - may update independently, potentially leading to incompatibilities or disruptions. This indirect dependency instability can introduce breaking changes over time, often requiring reinstall libraries or adjusting the dependency tree to resolve new conflicts.  \n\n\n**Patience Is Key:** Please have patience with the installation process. Things might not work on the first try. Sometimes, I just need a hint to things so I can fix them, and sometimes you might be able to solve issues by yourself. While it’s rare, there are instances where there might be nothing we can do. Trying to reduce those rare cases step by step.\n\n> **Note**: I constantly try to explore more user-friendly installation methods (and yes including docker).\n\n\u003C\u002Fdetails>\n\n> **[🎥 Installation video guide ](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=KJ4HQ5Ud9L8)**  \n> **[🎥 See in action (short clip)](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=w5_dA5cSeLo)**  \n\n\u003Cbr> \n\n## Key Features\n\n- **🆕NEW🆕:** Now featuring **Ollama** support, thanks to the exceptional **🌟[Philip Ehrbright](https:\u002F\u002Fgithub.com\u002FSlickTorpedo)🌟** for his incredible work in developing this feature!\n- **Local Operation:** Full functionality is maintained locally, with local speech-to-text, local TTS, and local language model inference, ensuring privacy and reliability.\n- **Ultra-Low Latency:** Every aspect of Linguflex was fine-tuned to minimize response times, achieving unparalleled speed in both language model communication and text-to-speech (TTS) generation.\n- **High-Quality Audio:** Using voice clone technology and combining finetuned XTTS with finetuned RVC post-processing AI models, Linguflex offers a near-Elevenlabs quality in local TTS synthesis.\n- **Enhanced Functionality:** Streamlined function selection allows Linguflex to quickly adapt and respond to a wide range of text-based commands and queries. We use keyword pre-parsing of user inputs to minimize the overload on the language model, making it easier to select the right functions and reducing confusion.\n- **Developer-Friendly:** Building new modules is more intuitive and efficient, thanks to the minimalistic and clear coding framework.\n\n## [Modules](.\u002Fdocs\u002Fmodules.md)\n\n### Core Modules\n- **Listen (Audio Input Module):** Serving as Linguflex's auditory system, this module captures spoken instructions via the microphone with precision.\n- **[Brain](.\u002Fdocs\u002Fbrain.md):** Cognitive Processing Module. Heart of Linguflex, processes user input, either with a local language model or OpenAI GPT API.\n- **Speech (Audio Output Module):** Offers realtime TTS with various provider options, and advanced voice tuning capabilities, including Realtime Voice Cloning (RVC).\n\n### Current Expansion Modules\n- **[Mimic](.\u002Fdocs\u002Fmimic.md):** This creative tool allows users to design custom AI characters, assign unique voices created with the Speech module, and switch between them.\n- **[Music](.\u002Fdocs\u002Fmusic.md):** A voice-command module for playing selected songs or albums, enhancing the user experience with musical integration.\n- **[Mail](.\u002Fdocs\u002Fmail.md):** Retrieves emails via IMAP, integrating with your digital correspondence.\n- **[Weather](.\u002Fdocs\u002Fweather.md):** Provides current weather data and forecasts, adapting to your location.\n- **[House](.\u002Fdocs\u002Fhouse.md):** Smart Home control for Tuya-compatible devices, enhancing your living experience.\n- **[Calendar](.\u002Fdocs\u002Fcalendar.md):** Manages personal calendars and appointments, including Google Calendar integration.\n- **[Search](.\u002Fdocs\u002Fsearch.md):** Performs text and image searches using the Google Search API.\n- **[Server](.\u002Fdocs\u002Fserver.md):** Webserver functionality to connect external devices like smartphones etc.\n\n### Modules Coming Soon\n- **See:** Empower the assistant with visual capabilities using the GPT Vision API. Enables processing of webcam pictures and desktop screenshots.\n- **Memory:** Stores and retrieves JSON-translatable data.\n- **News:** Delivers compact summaries of current news.\n- **Finance:** Offers financial management integrating various financial APIs for real-time tracking of investments.\n- **Create:** Image generation using DALL-E API, turning text prompts into vivid images.\n\n## Getting Started\n\nFollow the [Modules Guide](.\u002Fdocs\u002Fmodules.md) for step-by-step instructions about how to set up and configure the Linguflex modules.\n\n\n## License\n\nThe codebase is under MIT License and the TTS model weights are under the individual TTS engine licenses listed below:\n\n#### CoquiEngine\n- **License**: Open-source only for noncommercial projects.\n- **Commercial Use**: Requires a paid plan.\n- **Details**: [CoquiEngine License](https:\u002F\u002Fcoqui.ai\u002Fcpml)\n\n#### ElevenlabsEngine\n- **License**: Open-source only for noncommercial projects.\n- **Commercial Use**: Available with every paid plan.\n- **Details**: [ElevenlabsEngine License](https:\u002F\u002Fhelp.elevenlabs.io\u002Fhc\u002Fen-us\u002Farticles\u002F13313564601361-Can-I-publish-the-content-I-generate-on-the-platform-)\n\n#### AzureEngine\n- **License**: Open-source only for noncommercial projects.\n- **Commercial Use**: Available from the standard tier upwards.\n- **Details**: [AzureEngine License](https:\u002F\u002Flearn.microsoft.com\u002Fen-us\u002Fanswers\u002Fquestions\u002F1192398\u002Fcan-i-use-azure-text-to-speech-for-commercial-usag)\n\n#### SystemEngine\n- **License**: Mozilla Public License 2.0 and GNU Lesser General Public License (LGPL) version 3.0.\n- **Commercial Use**: Allowed under this license.\n- **Details**: [SystemEngine License](https:\u002F\u002Fgithub.com\u002Fnateshmbhat\u002Fpyttsx3\u002Fblob\u002Fmaster\u002FLICENSE)\n\n#### OpenAIEngine\n- **License**: please read [OpenAI Terms of Use](https:\u002F\u002Fopenai.com\u002Fpolicies\u002Fterms-of-use)\n","*将科幻作品中强大 Jarvis 式 AI 伴侣的梦想变为现实。*\n\n[![Discord](https:\u002F\u002Fimg.shields.io\u002Fdiscord\u002F1223234851914911754)](https:\u002F\u002Fdiscord.gg\u002Ff556hqRjpv)\n[![YouTube](https:\u002F\u002Fimg.shields.io\u002Fyoutube\u002Fchannel\u002Fsubscribers\u002FUCLeuwdsZO8txzFSSAeLjGlQ?style=social&label=Subscribe%20on%20YouTube)](https:\u002F\u002Fwww.youtube.com\u002Fchannel\u002FUCLeuwdsZO8txzFSSAeLjGlQ)\n[![Twitter](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Ffollow\u002FLonLigrin?style=social)](https:\u002F\u002Ftwitter.com\u002FLonLigrin)\n\n\u003Ch2>\n \u003Cimg align=\"left\" height=\"90px\"\n      src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FKoljaB_Linguflex_readme_aa0c50b8d225.png\"\u002F>\n      Linguflex 2.0\n\u003C\u002Fh2>\n\u003Cimg align=\"right\" width=\"30%\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FKoljaB_Linguflex_readme_aee0cf3b7780.png\" \u002F> \n源于我对科幻的热爱，这个项目旨在模拟与 AI 人格进行引人入胜、真实且接近人类的互动。\n\n\u003Cbr>  \n\u003Cbr>  \n\n它提供基于语音的自定义角色对话，并配备一系列实用功能：控制智能家居设备、播放音乐、上网搜索、获取电子邮件、显示当前天气和新闻、协助安排日程，以及搜索或生成图片等。\n\n无论您是寻求创新 AI 体验的用户，还是对该项目感兴趣的开发者，我都诚挚邀请您探索这一框架。任何见解、建议和贡献都将不胜感激。我希望在社区的帮助下，将这个个人热爱的项目推向其最大潜力，共同推动 AI 的发展。\n\n\u003Cbr>  \n\n> **[📓 Linguflex 2.0 安装指南 ](.\u002Fdocs\u002Finstallation.md)**  \n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>理解安装挑战\u003C\u002Fstrong>（点击展开）\u003C\u002Fsummary>\n\u003Cbr>\n\n有时有人会说：“直接提供一个 Docker 容器就好了，安装太难了。”我理解这种沮丧，但原因在于：\n\n1. **复杂的集成**：Linguflex 是一个庞大的框架，结合了先进的 TTS 技术，如实时本地神经网络 TTS 语音生成与实时 RVC 微调，同时还包含大量其他功能。要确保所有这些组件在一个环境中协同工作，就像为你最喜欢的 60 个 Python 库找到最低公分母，而不是仅仅三个库一样。此外，该系统必须在不同平台、操作系统版本、Python 环境、CUDA 版本和 CuDNN 版本之间保持一致运行。这无疑是一道复杂的难题。\n2. **依赖管理**：Python 的特性使其环境本身就不稳定。即使在依赖文件中指定了固定版本，也无法保证稳定性，因为间接依赖——即我们直接依赖的库所依赖的库——可能会独立更新，从而导致不兼容或中断。这种间接依赖的不稳定性会随着时间推移引入破坏性变化，常常需要重新安装库或调整依赖树来解决新的冲突。\n\n\n**耐心是关键**：请对安装过程保持耐心。可能第一次尝试并不会成功。有时候，我只需要一点提示就能解决问题；而有时，您自己也能解决这些问题。当然，也有极少数情况下我们确实无能为力。我们会一步步努力减少这些罕见情况的发生。\n\n> **注**：我一直在不断探索更友好的安装方式（包括 Docker）。\n\n\u003C\u002Fdetails>\n\n> **[🎥 安装视频教程 ](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=KJ4HQ5Ud9L8)**  \n> **[🎥 实际演示（短片）](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=w5_dA5cSeLo)**  \n\n\u003Cbr> \n\n## 核心功能\n\n- **🆕新功能🆕：** 现已支持 Ollama，特别感谢 🌟[Philip Ehrbright](https:\u002F\u002Fgithub.com\u002FSlickTorpedo)🌟 在开发此功能方面所做的卓越工作！\n- **本地运行**：所有功能均在本地运行，包括本地语音转文本、本地 TTS 和本地语言模型推理，确保隐私与可靠性。\n- **超低延迟**：Linguflex 的每个环节都经过精心优化，以最大限度地减少响应时间，在语言模型交互和文本转语音（TTS）生成方面均实现了无与伦比的速度。\n- **高质量音频**：通过使用语音克隆技术，并将微调后的 XTTS 与微调后的 RVC 后处理 AI 模型相结合，Linguflex 能够在本地 TTS 合成中提供接近 Elevenlabs 的音质。\n- **增强的功能性**：简化的功能选择使 Linguflex 能够快速适应并响应各种基于文本的命令和查询。我们通过对用户输入进行关键词预解析，以减少语言模型的负担，从而更容易选择正确的功能并降低混淆。\n- **开发者友好**：得益于简约清晰的代码框架，构建新模块变得更加直观高效。\n\n## [模块](.\u002Fdocs\u002Fmodules.md)\n\n### 核心模块\n- **Listen（音频输入模块）**：作为 Linguflex 的听觉系统，该模块能够精确地通过麦克风捕捉用户的语音指令。\n- **[Brain](.\u002Fdocs\u002Fbrain.md)**：认知处理模块。Linguflex 的核心，负责处理用户输入，可使用本地语言模型或 OpenAI GPT API。\n- **Speech（音频输出模块）**：提供多种提供商选项的实时 TTS，并具备高级语音调优能力，包括实时语音克隆（RVC）。\n\n### 当前扩展模块\n- **[Mimic](.\u002Fdocs\u002Fmimic.md)**：这款创意工具允许用户设计自定义 AI 角色，为其分配由 Speech 模块创建的独特声音，并在不同角色之间切换。\n- **[Music](.\u002Fdocs\u002Fmusic.md)**：一个可通过语音命令播放选定歌曲或专辑的模块，通过音乐集成提升用户体验。\n- **[Mail](.\u002Fdocs\u002Fmail.md)**：通过 IMAP 协议检索电子邮件，与您的数字通信无缝对接。\n- **[Weather](.\u002Fdocs\u002Fweather.md)**：提供当前位置的天气数据及预报。\n- **[House](.\u002Fdocs\u002Fhouse.md)**：用于控制 Tuya 兼容设备的智能家居模块，提升您的居住体验。\n- **[Calendar](.\u002Fdocs\u002Fcalendar.md)**：管理个人日历和预约，支持 Google 日历集成。\n- **[Search](.\u002Fdocs\u002Fsearch.md)**：利用 Google Search API 进行文本和图片搜索。\n- **[Server](.\u002Fdocs\u002Fserver.md)**：提供 Web 服务器功能，以便连接智能手机等外部设备。\n\n### 即将推出的模块\n- **See**：借助 GPT Vision API，赋予助手视觉能力。可以处理摄像头拍摄的照片和桌面截图。\n- **Memory**：存储和检索可转换为 JSON 格式的数据。\n- **News**：提供最新新闻的精简摘要。\n- **Finance**：提供财务管理功能，集成多种金融 API，实现投资的实时追踪。\n- **Create**：使用 DALL-E API 生成图像，将文本提示转化为生动的图像。\n\n## 入门\n\n请按照[模块指南](.\u002Fdocs\u002Fmodules.md)，获取关于如何设置和配置 Linguflex 模块的分步说明。\n\n\n## 许可证\n\n代码库采用 MIT 许可证，而 TTS 模型权重则遵循以下各 TTS 引擎的单独许可证：\n\n#### CoquiEngine\n- **许可证**：仅对非商业项目开源。\n- **商业使用**：需购买付费方案。\n- **详情**：[CoquiEngine 许可证](https:\u002F\u002Fcoqui.ai\u002Fcpml)\n\n#### ElevenlabsEngine\n- **许可证**：仅对非商业项目开源。\n- **商业使用**：所有付费方案均可使用。\n- **详情**：[ElevenlabsEngine 许可证](https:\u002F\u002Fhelp.elevenlabs.io\u002Fhc\u002Fen-us\u002Farticles\u002F13313564601361-Can-I-publish-the-content-I-generate-on-the-platform-)\n\n#### AzureEngine\n- **许可证**：仅对非商业项目开源。\n- **商业使用**：从标准层级开始可用。\n- **详情**：[AzureEngine 许可证](https:\u002F\u002Flearn.microsoft.com\u002Fen-us\u002Fanswers\u002Fquestions\u002F1192398\u002Fcan-i-use-azure-text-to-speech-for-commercial-usag)\n\n#### SystemEngine\n- **许可证**：Mozilla 公共许可证 2.0 和 GNU 较宽松通用公共许可证 (LGPL) 第 3 版。\n- **商业使用**：在此许可证下允许。\n- **详情**：[SystemEngine 许可证](https:\u002F\u002Fgithub.com\u002Fnateshmbhat\u002Fpyttsx3\u002Fblob\u002Fmaster\u002FLICENSE)\n\n#### OpenAIEngine\n- **许可证**：请阅读 [OpenAI 使用条款](https:\u002F\u002Fopenai.com\u002Fpolicies\u002Fterms-of-use)","# Linguflex 2.0 快速上手指南\n\nLinguflex 是一个旨在实现科幻级 AI 伴侣（类似 Jarvis）的开源框架。它支持本地运行，具备超低延迟的语音交互、高保真语音克隆（TTS + RVC）、智能家居控制、音乐播放及网络搜索等功能，并新增了对 Ollama 本地大模型的支持。\n\n## 环境准备\n\n由于 Linguflex 集成了实时神经 TTS、RVC 微调及多种 AI 模块，对环境依赖要求较高。请确保满足以下条件：\n\n*   **操作系统**：推荐 Linux (Ubuntu) 或 Windows 10\u002F11。macOS 支持有限，部分功能可能受限。\n*   **Python 版本**：Python 3.9 - 3.11（过高版本可能导致依赖冲突）。\n*   **GPU 加速**：强烈建议配备 NVIDIA 显卡以支持本地推理和语音合成。\n    *   需安装对应的 **CUDA** 和 **CuDNN**。\n    *   显存建议：8GB 以上以获得最佳体验（最低 4GB 可尝试运行精简模式）。\n*   **前置依赖**：\n    *   `git`\n    *   `ffmpeg` (用于音频处理)\n    *   `portaudio` (Linux 下需安装 `libportaudio2`)\n    *   C++ 编译工具链 (Windows 需安装 \"Build Tools for Visual Studio\", Linux 需 `build-essential`)\n\n> **注意**：项目依赖复杂，建议使用虚拟环境（如 `venv` 或 `conda`）进行隔离安装。\n\n## 安装步骤\n\n### 1. 克隆项目\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FKoljaB\u002FLinguflex.git\ncd Linguflex\n```\n\n### 2. 创建并激活虚拟环境\n```bash\npython -m venv venv\n# Windows\nvenv\\Scripts\\activate\n# Linux\u002FmacOS\nsource venv\u002Fbin\u002Factivate\n```\n\n### 3. 安装核心依赖\n由于依赖项众多且涉及底层音频库，首次安装可能需要较长时间。若遇到网络问题，可配置国内 pip 镜像源（如清华源）。\n\n```bash\n# 推荐使用国内镜像加速安装\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n> **重要提示**：\n> *   安装过程中若出现报错，通常与 CUDA 版本不匹配或缺少系统级音频库有关。请根据报错信息检查 CUDA 环境或安装缺失的系统包（如 `sudo apt-get install portaudio19-dev`）。\n> *   目前官方尚未提供稳定的 Docker 镜像，因为整合所有组件（TTS, RVC, LLM）在不同平台的一致性极具挑战性，建议直接在宿主机安装。\n\n### 4. 配置模块\n在安装完成后，需根据需求配置具体模块。\n*   复制示例配置文件：\n    ```bash\n    cp config\u002Fconfig.example.yaml config\u002Fconfig.yaml\n    ```\n*   编辑 `config\u002Fconfig.yaml`，填入你的 API Key（如 OpenAI、Google Search、Tuya Smart Home 等）或设置本地模型路径（如 Ollama、XTTS 模型）。\n\n详细配置请参考 [Modules Guide](.\u002Fdocs\u002Fmodules.md)。\n\n## 基本使用\n\n完成安装和配置后，即可启动 Linguflex。\n\n### 启动程序\n在激活的虚拟环境中运行主程序：\n\n```bash\npython main.py\n```\n\n### 使用示例\n启动成功后，系统将加载听觉模块（Listen）、大脑模块（Brain）和语音模块（Speech）。\n\n1.  **语音交互**：直接对着麦克风说话。\n    *   *用户*：“今天天气怎么样？”\n    *   *Linguflex*：调用 Weather 模块获取数据，并通过高保真语音播报结果。\n2.  **切换角色**：如果你配置了 Mimic 模块。\n    *   *用户*：“切换到钢铁侠模式。”\n    *   *Linguflex*：加载对应的声音克隆配置和人格设定。\n3.  **控制设备**：如果你配置了 House 模块（需 Tuya 兼容设备）。\n    *   *用户*：“打开客厅的灯。”\n    *   *Linguflex*：解析指令并发送控制信号。\n\n### 进阶：使用 Ollama 本地模型\n若要完全离线运行，请在配置文件中将 `brain` 模块 provider 设置为 `ollama`，并确保本地已运行 Ollama 服务：\n\n```bash\n# 终端另开窗口运行 Ollama (示例使用 llama3)\nollama run llama3\n```\nLinguflex 将自动连接本地端口进行推理，实现数据完全本地化。\n\n---\n*注：本项目的代码遵循 MIT 许可证，但内置的 TTS 模型权重（如 Coqui, Elevenlabs 等）遵循各自的许可协议，商业用途请务必查阅相关条款。*","独居开发者阿明在周末居家办公时，希望在不中断编程思路的前提下，通过语音轻松管理智能家居、查询资讯并安排日程。\n\n### 没有 Linguflex 时\n- 想要开灯或调节室温，必须停下敲代码的手，拿起手机解锁并打开对应的智能家居 App 操作。\n- 查询天气或新闻需要切换浏览器标签页，手动输入关键词搜索，注意力被频繁打断。\n- 传统的语音助手反应迟钝且功能单一，无法理解复杂的上下文指令，更无法生成个性化的自然语音回复。\n- 想要听歌放松或检索技术图片时，需要在多个应用间反复跳转，操作流程繁琐低效。\n- 所有交互缺乏“人格化”体验，只是冷冰冰的命令执行，无法提供类似科幻电影中 Jarvis 般的陪伴感。\n\n### 使用 Linguflex 后\n- 阿明只需随口说出“把灯光调暖并升温两度”，Linguflex 即可在本地实时识别并直接控制智能设备，全程无需动手。\n- 通过自然对话即可让 Linguflex 播报实时天气、朗读最新科技新闻或检索邮件，信息获取无缝融入工作流。\n- 依托本地部署的神经 TTS 和 RVC 微调技术，Linguflex 能用定制的角色声音进行流畅、拟人的多轮对话，响应迅速且隐私安全。\n- 一句指令就能播放特定风格音乐或生成\u002F搜索参考图片，复杂任务由 AI 自动调度完成，极大提升了多任务处理效率。\n- 整个交互过程如同与一位真实的智能伙伴协作，不仅解决了工具链割裂问题，更带来了沉浸式的科幻交互体验。\n\nLinguflex 将分散的数字服务整合为统一的语音交互界面，让用户在本地环境中真正拥有了一个全能且懂你的\"Jarvis\"式 AI 伴侣。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FKoljaB_Linguflex_aa0c50b8.png","KoljaB","Kolja Beigel","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FKoljaB_1688cc4c.png","Open-source developer of robust, high-performance, real-time STT\u002FTTS pipelines. ",null,"kolja.beigel@web.de","LonLigrin","https:\u002F\u002Fwww.youtube.com\u002F@Linguflex","https:\u002F\u002Fgithub.com\u002FKoljaB",[83,87,91,95],{"name":84,"color":85,"percentage":86},"Python","#3572A5",94.7,{"name":88,"color":89,"percentage":90},"Batchfile","#C1F12E",2.4,{"name":92,"color":93,"percentage":94},"Shell","#89e051",1.7,{"name":96,"color":97,"percentage":98},"JavaScript","#f1e05a",1.2,808,78,"2026-04-07T16:20:54",4,"未说明 (文中提及需兼容多种平台和 OS 版本，但未列出具体支持列表)","必需 (用于本地神经 TTS、RVC 微调和本地 LLM 推理)，需 NVIDIA GPU (提及 CUDA 和 CuDNN 版本兼容性挑战)，具体显存大小未说明","未说明",{"notes":107,"python":108,"dependencies":109},"该工具是一个复杂的框架，集成了实时本地神经 TTS、RVC 语音微调和多种功能模块。安装过程具有挑战性，因为需要协调大量 Python 库以及特定的 CUDA\u002FCuDNN 版本，作者建议对安装过程保持耐心。支持本地运行以保护隐私，也支持 Ollama 和 OpenAI GPT。部分 TTS 引擎（如 Coqui, Elevenlabs, Azure）的开源权重仅限非商业用途，商业使用需付费或遵循特定条款。","未说明 (文中提及 Python 环境依赖管理复杂)",[110,111,112,113,114,115,116,117,118,119],"torch (隐含)","CUDA","CuDNN","XTTS (TTS 引擎)","RVC (语音转换)","Ollama (可选 LLM 后端)","OpenAI API (可选)","Google Search API","IMAP (邮件)","Tuya API (智能家居)",[52,13,35],[122,123,124,125,126],"chatbot","function-calling","openai","openai-api","python","2026-03-27T02:49:30.150509","2026-04-08T14:46:04.666411",[130,135,140,145,150,155],{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},24555,"在 Windows 上运行时遇到 'UnicodeDecodeError: gb k codec can't decode byte' 错误怎么办？","该错误通常是由于系统默认编码（GBK）与文件编码不兼容导致的。虽然维护者确认这是一个已知的安装难点，但建议检查配置文件（如 settings.yaml）的编码格式，确保其保存为 UTF-8 无 BOM 格式。如果问题依旧，尝试在运行脚本前设置环境变量 PYTHONUTF8=1，或在代码启动处强制指定编码。","https:\u002F\u002Fgithub.com\u002FKoljaB\u002FLinguflex\u002Fissues\u002F16",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},24556,"安装过程中出现 deepspeed 安装失败或依赖冲突错误（如 omegaconf, scipy, torch 版本不匹配），如何解决？","如果看到 deepspeed 安装报错但实际上 pip list 中已显示安装成功，可以忽略该错误并输入 'yes' 继续。如果确实无法安装 deepspeed（这在 Windows 上很常见），可以在配置文件中禁用它：打开 settings.yaml 文件，在 speech 部分将参数 coqui_use_deepspeed 设置为 False。此外，也可以尝试手动编译特定 Python 版本的 deepspeed wheel。","https:\u002F\u002Fgithub.com\u002FKoljaB\u002FLinguflex\u002Fissues\u002F6",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},24557,"安装时提示找不到特定版本的 PySimpleGUI (如 5.0.3) 或 PyTorch 安装失败怎么办？","这通常是因为项目锁定的依赖版本在 PyPI 上已被移除或更新。对于 PySimpleGUI，可以尝试手动安装可用的最新版本（如 5.0.8.x），然后修改项目的 requirements.txt 或使用 --ignore-installed 参数跳过版本检查。对于 PyTorch，请确保使用的 CUDA 版本（如 cu121）与你的显卡驱动匹配，并尝试手动运行报错中的 pip install 命令，有时网络问题或索引源问题会导致失败，可尝试更换国内镜像源。","https:\u002F\u002Fgithub.com\u002FKoljaB\u002FLinguflex\u002Fissues\u002F24",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},24558,"使用 Gmail IMAP 获取邮件时出现 'time data does not match format' 日期解析错误，如何修复？","这是一个已知的日期格式解析 Bug，通常发生在邮件头日期格式与代码预期不符时（例如缺少时区信息或格式微调）。该问题已在主分支通过 PR #4 修复。请务必拉取最新的代码更新（git pull），或者手动检查 modules\u002Fbasic\u002Femail_imap_helper.py 文件中的日期解析逻辑，确保其能处理多种常见的 RFC 2822 日期格式。","https:\u002F\u002Fgithub.com\u002FKoljaB\u002FLinguflex\u002Fissues\u002F3",{"id":151,"question_zh":152,"answer_zh":153,"source_url":154},24559,"配置环境变量时是否必须添加 'LINGU_' 前缀？","不需要。早期版本可能要求环境变量带有 'LINGU_' 前缀，但这会给已有相关变量（如 API_KEY）的用户带来不便。根据社区反馈，维护者已移除了此前缀要求。现在你可以直接使用标准的环境变量名称（如 OPENAI_API_KEY），无需额外添加前缀。请确保你使用的是最新版本的代码。","https:\u002F\u002Fgithub.com\u002FKoljaB\u002FLinguflex\u002Fissues\u002F2",{"id":156,"question_zh":157,"answer_zh":158,"source_url":139},24560,"遇到 llama-cpp-python 构建 wheel 失败（CMake configuration failed）怎么办？","这通常是因为缺少必要的编译工具或 CUDA 环境配置不当。在 Windows 上，确保已安装 Visual Studio Build Tools (包含 C++ 构建工具) 和 CMake。如果是 CUDA 版本问题，尝试卸载当前的 torch 和 torchaudio，然后根据官方指南重新安装与你显卡驱动匹配的特定 CUDA 版本（例如：pip install torch==2.1.2+cu118 --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118）。如果仍然失败，且不需要本地推理，可以考虑使用远程 API 替代本地模型。",[160],{"id":161,"version":162,"summary_zh":163,"released_at":164},154150,"v0.1.0","首个发布版本。","2023-06-10T15:32:47"]