Open-LLM-VTuber

GitHub
6.5k 851 中等 1 次阅读 今天NOASSERTION图像Agent语言模型开发框架
AI 解读 由 AI 自动生成,仅供参考

Open-LLM-VTuber 是一个支持语音交互的 AI 伴侣工具,能够实现实时语音对话、语音打断以及 Live2D 虚拟形象展示。所有功能均可在本地离线运行,无需依赖网络连接。它通过语音识别和合成技术,让用户可以像与真人对话一样,与 AI 进行自然交流,同时搭配生动的虚拟角色形象,提升互动体验。

这个项目解决了传统 AI 对话工具缺乏直观交互方式的问题,使用户可以通过语音而非键盘输入与 AI 沟通,更加便捷自然。此外,Live2D 技术的应用让 AI 伴侣拥有更丰富的视觉表现力,增强了沉浸感。

Open-LLM-VTuber 适合对 AI 交互体验感兴趣的一般用户,也适合开发者和研究人员进行本地化部署与二次开发。其独特之处在于结合了语音交互、实时对话与 Live2D 视觉呈现,为用户提供了一个多功能、易用性强的 AI 伴侣平台。

使用场景

一个独立开发者正在开发一款虚拟助手应用,用于为用户提供日常问答、情感陪伴和个性化互动体验。他希望在本地环境中实现一个具备语音交互能力的 AI 伴侣,并且能够实时响应用户的声音指令,同时展示一个生动的 2D 动态角色形象。

没有 Open-LLM-VTuber 时

  • 需要手动编写大量代码来集成语音识别、自然语言处理和动画渲染模块,开发周期长且复杂度高
  • 无法实现流畅的语音中断功能,导致用户在对话中难以自然打断 AI 的回答
  • 缺乏现成的 Live2D 角色模型支持,需要从零开始设计或购买角色素材并进行适配
  • 本地运行时性能不稳定,容易出现延迟或卡顿现象,影响用户体验
  • 部署和测试流程繁琐,需要依赖多个第三方服务和平台,增加了维护成本

使用 Open-LLM-VTuber 后

  • 提供了一套完整的本地化解决方案,可快速集成语音交互、AI 对话和 Live2D 角色展示功能,大幅缩短开发时间
  • 支持语音中断功能,使用户可以在对话中随时打断 AI,提升交互的自然性和灵活性
  • 内置多种 Live2D 角色模板,用户可直接使用或自定义,无需额外开发角色模型
  • 所有功能均基于本地运行,确保了数据隐私和稳定性,同时降低了对外部服务的依赖
  • 提供统一的部署和调试环境,简化了测试流程,提高了开发效率

Open-LLM-VTuber 让开发者能够高效构建个性化的 AI 交互应用,兼顾功能完整性与开发便捷性。

运行环境要求

操作系统
  • Linux
  • macOS
  • Windows
GPU

支持 NVIDIA 和非 NVIDIA GPU,部分组件支持 macOS 上的 GPU 加速,显存需求未明确说明

内存

未说明

依赖
notes建议使用 conda 管理环境,首次运行需下载约 5GB 模型文件。若需远程访问需配置 HTTPS。
python3.8+
torch>=2.0
transformers>=4.30
accelerate
uv
ffmpeg
deeplx
Open-LLM-VTuber hero image

快速开始

Open-LLM-VTuber

GitHub release license CodeQL Ruff Docker QQ User Group Static Badge

📢 v2.0 Development: 我们正在专注于 Open-LLM-VTuber v2.0 —— 代码库的彻底重写。v2.0 目前处于早期讨论和规划阶段。我们恳请您暂时不要为 v1 提交新的功能需求 issue 或 pull request。如需参与 v2 的讨论或贡献,请加入我们在 Zulip 上的开发者社区。每周会议安排将在 Zulip 上公布。我们将继续修复 v1 的 bug,并处理现有的 pull request。

BuyMeACoffee

Ask DeepWiki

英文 README | 中文 README | 韩语 README | 日语 README

Documentation | Roadmap

Open-LLM-VTuber%2FOpen-LLM-VTuber | Trendshift

常见问题 Common Issues doc (Written in Chinese): https://docs.qq.com/pdf/DTFZGQXdTUXhIYWRq

User Survey: https://forms.gle/w6Y6PiHTZr1nzbtWA

调查问卷(中文): https://wj.qq.com/s2/16150415/f50a/

:warning: 本项目尚处于早期阶段,目前正处于积极开发中

:warning: 如果您希望远程运行服务器并在其他设备上访问它,例如在电脑上运行服务器而在手机上访问,您需要配置 https,因为前端的麦克风只能在安全上下文中启动(即 https 或 localhost)。请参阅 MDN Web Doc。因此,您应该通过反向代理配置 https,以便在远程设备(非 localhost)上访问该页面。

⭐️ 什么是这个项目?

Open-LLM-VTuber 是一款独特的语音交互式 AI 伴侣,不仅支持实时语音对话视觉感知,还拥有生动的Live2D 头像。所有功能均可在您的电脑上完全离线运行!

您可以将其视为自己的私人 AI 伴侣——无论您想要一个 虚拟女友男友可爱宠物,还是任何其他角色,它都能满足您的期望。该项目全面支持 WindowsmacOSLinux,并提供两种使用模式:网页版和桌面客户端(特别支持透明背景桌面宠物模式,让 AI 伴侣可以伴随您在屏幕上的任何位置)。

尽管长期记忆功能暂时移除(即将回归),但由于聊天记录的持久化存储,您始终可以继续之前未完成的对话,不会丢失任何珍贵的互动时刻。

在后端支持方面,我们集成了丰富的 LLM 推理、文本转语音和语音识别解决方案。如果您想自定义您的 AI 伴侣,可以参考 角色定制指南 来调整 AI 伴侣的外观和个性。

之所以命名为 Open-LLM-Vtuber 而不是 Open-LLM-CompanionOpen-LLM-Waifu,是因为项目的最初开发目标是利用可在 Windows 以外的平台上离线运行的开源解决方案,重现闭源 AI Vtuber neuro-sama

👀 演示

✨ 特色与亮点

  • 🖥️ 跨平台支持:完美兼容 macOS、Linux 和 Windows。我们支持 NVIDIA 和非 NVIDIA GPU,并提供在 CPU 上运行或使用云端 API 来处理资源密集型任务的选项。部分组件还支持在 macOS 上进行 GPU 加速。

  • 🔒 离线模式支持:完全离线运行,仅使用本地模型——无需联网。您的对话全程保存在设备上,确保隐私与安全。

  • 💻 美观且强大的网页端与桌面端客户端:同时提供网页版和桌面端两种使用模式,支持丰富的交互功能与个性化设置。桌面端客户端可在窗口模式与桌面宠物模式之间自由切换,让 AI 伴侣时刻陪伴在您身边。

  • 🎯 高级交互功能

    • 👁️ 视觉感知,支持摄像头、屏幕录制与截图,让您的 AI 伴侣能够“看见”您和您的屏幕。
    • 🎤 无需耳机即可语音打断(AI 不会听到自己的声音)。
    • 🫱 触控反馈,通过点击或拖拽与您的 AI 伴侣互动。
    • 😊 Live2D 表情,可从后台设置情绪映射以控制模型表情。
    • 🐱 宠物模式,支持透明背景、全局置顶以及鼠标穿透——您可以将 AI 伴侣拖动到屏幕上的任意位置。
    • 💭 显示 AI 的内心想法,让您无需言语即可看到 AI 的表情、思绪与行为。
    • 🗣️ AI 主动发言功能。
    • 💾 聊天记录持久化,随时切换回之前的对话。
    • 🌍 支持 TTS 翻译(例如,您用中文聊天,而 AI 使用日语语音)。
  • 🧠 广泛的模型支持

    • 🤖 大语言模型(LLM):Ollama、OpenAI(以及任何 OpenAI 兼容的 API)、Gemini、Claude、Mistral、DeepSeek、智谱 AI、GGUF、LM Studio、vLLM 等。
    • 🎙️ 自动语音识别(ASR):sherpa-onnx、FunASR、Faster-Whisper、Whisper.cpp、Whisper、Groq Whisper、Azure ASR 等。
    • 🔊 文本转语音(TTS):sherpa-onnx、pyttsx3、MeloTTS、Coqui-TTS、GPTSoVITS、Bark、CosyVoice、Edge TTS、Fish Audio、Azure TTS 等。
  • 🔧 高度可定制

    • ⚙️ 简单的模块配置:只需修改简单的配置文件即可切换各种功能模块,无需深入代码。
    • 🎨 角色定制:导入自定义 Live2D 模型,为您的 AI 伴侣打造独一无二的外观。通过调整 Prompt 来塑造 AI 伴侣的人设。还可进行语音克隆,赋予 AI 伴侣您心仪的嗓音。
    • 🧩 灵活的 Agent 实现:继承并实现 Agent 接口,即可集成任何 Agent 架构,如 HumeAI EVI、OpenAI Her、Mem0 等。
    • 🔌 良好的扩展性:模块化设计使您可以轻松添加自己的 LLM、ASR、TTS 等模块实现,随时扩展新功能。

👥 用户评价

感谢开发者开源并分享这款“女朋友”,让大家都能使用!

这款“女朋友”已被使用超过 10 万次。

🚀 快速入门

请参阅我们的文档中的快速入门章节以进行安装。

☝ 更新

:warning: v1.0.0 存在破坏性变更,需重新部署。您可以通过以下方法更新,但 conf.yaml 文件不兼容,且大部分依赖项需要使用 uv 重新安装。对于从 v1.0.0 之前版本升级的用户,建议按照最新部署指南重新部署该项目。

如果您安装的是 v1.0.0 之后的版本,请使用 uv run update.py 进行更新。

😢 卸载

大多数文件,包括 Python 依赖和模型,都存储在项目文件夹中。

不过,通过 ModelScope 或 Hugging Face 下载的模型也可能位于 MODELSCOPE_CACHEHF_HOME 中。虽然我们尽量将这些模型放在项目的 models 目录下,但最好还是再确认一下。

请查阅安装指南,移除您不再需要的额外工具,例如 uvffmpegdeeplx

🤗 想要贡献?

请查看开发指南

🎉🎉🎉 相关项目

ylxmf2005/LLM-Live2D-Desktop-Assitant

  • 您的 Live2D 桌面助手,由 LLM 驱动!适用于 Windows 和 macOS,可感知您的屏幕、获取剪贴板内容,并以独特的声音响应语音指令。具备语音唤醒、唱歌功能以及对电脑的全面控制,让您与心爱的角色无缝互动。

📜 第三方许可证

Live2D 示例模型声明

本项目包含由 Live2D Inc. 提供的 Live2D 示例模型。这些资产分别依据 Live2D 免费素材许可协议及 Live2D Cubism 示例数据使用条款获得授权,不在本项目的 MIT 许可范围内。

本内容使用了 Live2D Inc. 所拥有并受版权保护的示例数据。示例数据的使用严格遵守 Live2D Inc. 制定的条款与条件(详见 Live2D 免费素材许可协议使用条款)。

注意:若用于商业用途,尤其是中大型企业,使用这些 Live2D 示例模型可能需要额外的授权许可。如您计划将本项目用于商业目的,请务必事先获得 Live2D Inc. 的相应授权,或使用不含这些模型的项目版本。

贡献者

感谢我们的贡献者与维护者,正是他们的努力才让这个项目成为现实。

星标历史

星标历史图表

版本历史

v1.2.12025/08/26
1.2.02025/08/03
v1.1.02025/02/19
v1.0.02025/02/04
v0.5.22024/12/21
v0.5.12024/12/15
v0.4.42024/12/13
v0.4.32024/12/06
v0.4.22024/11/30
v0.4.12024/11/28
v0.4.02024/11/28
v0.3.12024/11/17
v0.2.52024/11/08
v0.2.42024/10/15
v0.2.32024/10/05
v0.2.22024/09/07
v0.2.12024/09/03
v0.2.02024/09/02
v0.1.02024/09/02

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架