Open-LLM-VTuber
Open-LLM-VTuber 是一个支持语音交互的 AI 伴侣工具,能够实现实时语音对话、语音打断以及 Live2D 虚拟形象展示。所有功能均可在本地离线运行,无需依赖网络连接。它通过语音识别和合成技术,让用户可以像与真人对话一样,与 AI 进行自然交流,同时搭配生动的虚拟角色形象,提升互动体验。
这个项目解决了传统 AI 对话工具缺乏直观交互方式的问题,使用户可以通过语音而非键盘输入与 AI 沟通,更加便捷自然。此外,Live2D 技术的应用让 AI 伴侣拥有更丰富的视觉表现力,增强了沉浸感。
Open-LLM-VTuber 适合对 AI 交互体验感兴趣的一般用户,也适合开发者和研究人员进行本地化部署与二次开发。其独特之处在于结合了语音交互、实时对话与 Live2D 视觉呈现,为用户提供了一个多功能、易用性强的 AI 伴侣平台。
使用场景
一个独立开发者正在开发一款虚拟助手应用,用于为用户提供日常问答、情感陪伴和个性化互动体验。他希望在本地环境中实现一个具备语音交互能力的 AI 伴侣,并且能够实时响应用户的声音指令,同时展示一个生动的 2D 动态角色形象。
没有 Open-LLM-VTuber 时
- 需要手动编写大量代码来集成语音识别、自然语言处理和动画渲染模块,开发周期长且复杂度高
- 无法实现流畅的语音中断功能,导致用户在对话中难以自然打断 AI 的回答
- 缺乏现成的 Live2D 角色模型支持,需要从零开始设计或购买角色素材并进行适配
- 本地运行时性能不稳定,容易出现延迟或卡顿现象,影响用户体验
- 部署和测试流程繁琐,需要依赖多个第三方服务和平台,增加了维护成本
使用 Open-LLM-VTuber 后
- 提供了一套完整的本地化解决方案,可快速集成语音交互、AI 对话和 Live2D 角色展示功能,大幅缩短开发时间
- 支持语音中断功能,使用户可以在对话中随时打断 AI,提升交互的自然性和灵活性
- 内置多种 Live2D 角色模板,用户可直接使用或自定义,无需额外开发角色模型
- 所有功能均基于本地运行,确保了数据隐私和稳定性,同时降低了对外部服务的依赖
- 提供统一的部署和调试环境,简化了测试流程,提高了开发效率
Open-LLM-VTuber 让开发者能够高效构建个性化的 AI 交互应用,兼顾功能完整性与开发便捷性。
运行环境要求
- Linux
- macOS
- Windows
支持 NVIDIA 和非 NVIDIA GPU,部分组件支持 macOS 上的 GPU 加速,显存需求未明确说明
未说明

快速开始

Open-LLM-VTuber
📢 v2.0 Development: 我们正在专注于 Open-LLM-VTuber v2.0 —— 代码库的彻底重写。v2.0 目前处于早期讨论和规划阶段。我们恳请您暂时不要为 v1 提交新的功能需求 issue 或 pull request。如需参与 v2 的讨论或贡献,请加入我们在 Zulip 上的开发者社区。每周会议安排将在 Zulip 上公布。我们将继续修复 v1 的 bug,并处理现有的 pull request。
英文 README | 中文 README | 韩语 README | 日语 README
常见问题 Common Issues doc (Written in Chinese): https://docs.qq.com/pdf/DTFZGQXdTUXhIYWRq
User Survey: https://forms.gle/w6Y6PiHTZr1nzbtWA
调查问卷(中文): https://wj.qq.com/s2/16150415/f50a/
:warning: 本项目尚处于早期阶段,目前正处于积极开发中。
:warning: 如果您希望远程运行服务器并在其他设备上访问它,例如在电脑上运行服务器而在手机上访问,您需要配置
https,因为前端的麦克风只能在安全上下文中启动(即 https 或 localhost)。请参阅 MDN Web Doc。因此,您应该通过反向代理配置 https,以便在远程设备(非 localhost)上访问该页面。
⭐️ 什么是这个项目?
Open-LLM-VTuber 是一款独特的语音交互式 AI 伴侣,不仅支持实时语音对话和视觉感知,还拥有生动的Live2D 头像。所有功能均可在您的电脑上完全离线运行!
您可以将其视为自己的私人 AI 伴侣——无论您想要一个 虚拟女友、男友、可爱宠物,还是任何其他角色,它都能满足您的期望。该项目全面支持 Windows、macOS 和 Linux,并提供两种使用模式:网页版和桌面客户端(特别支持透明背景桌面宠物模式,让 AI 伴侣可以伴随您在屏幕上的任何位置)。
尽管长期记忆功能暂时移除(即将回归),但由于聊天记录的持久化存储,您始终可以继续之前未完成的对话,不会丢失任何珍贵的互动时刻。
在后端支持方面,我们集成了丰富的 LLM 推理、文本转语音和语音识别解决方案。如果您想自定义您的 AI 伴侣,可以参考 角色定制指南 来调整 AI 伴侣的外观和个性。
之所以命名为 Open-LLM-Vtuber 而不是 Open-LLM-Companion 或 Open-LLM-Waifu,是因为项目的最初开发目标是利用可在 Windows 以外的平台上离线运行的开源解决方案,重现闭源 AI Vtuber neuro-sama。
👀 演示
![]() |
![]() |
|---|---|
![]() |
![]() |
✨ 特色与亮点
🖥️ 跨平台支持:完美兼容 macOS、Linux 和 Windows。我们支持 NVIDIA 和非 NVIDIA GPU,并提供在 CPU 上运行或使用云端 API 来处理资源密集型任务的选项。部分组件还支持在 macOS 上进行 GPU 加速。
🔒 离线模式支持:完全离线运行,仅使用本地模型——无需联网。您的对话全程保存在设备上,确保隐私与安全。
💻 美观且强大的网页端与桌面端客户端:同时提供网页版和桌面端两种使用模式,支持丰富的交互功能与个性化设置。桌面端客户端可在窗口模式与桌面宠物模式之间自由切换,让 AI 伴侣时刻陪伴在您身边。
🎯 高级交互功能:
- 👁️ 视觉感知,支持摄像头、屏幕录制与截图,让您的 AI 伴侣能够“看见”您和您的屏幕。
- 🎤 无需耳机即可语音打断(AI 不会听到自己的声音)。
- 🫱 触控反馈,通过点击或拖拽与您的 AI 伴侣互动。
- 😊 Live2D 表情,可从后台设置情绪映射以控制模型表情。
- 🐱 宠物模式,支持透明背景、全局置顶以及鼠标穿透——您可以将 AI 伴侣拖动到屏幕上的任意位置。
- 💭 显示 AI 的内心想法,让您无需言语即可看到 AI 的表情、思绪与行为。
- 🗣️ AI 主动发言功能。
- 💾 聊天记录持久化,随时切换回之前的对话。
- 🌍 支持 TTS 翻译(例如,您用中文聊天,而 AI 使用日语语音)。
🧠 广泛的模型支持:
- 🤖 大语言模型(LLM):Ollama、OpenAI(以及任何 OpenAI 兼容的 API)、Gemini、Claude、Mistral、DeepSeek、智谱 AI、GGUF、LM Studio、vLLM 等。
- 🎙️ 自动语音识别(ASR):sherpa-onnx、FunASR、Faster-Whisper、Whisper.cpp、Whisper、Groq Whisper、Azure ASR 等。
- 🔊 文本转语音(TTS):sherpa-onnx、pyttsx3、MeloTTS、Coqui-TTS、GPTSoVITS、Bark、CosyVoice、Edge TTS、Fish Audio、Azure TTS 等。
🔧 高度可定制:
- ⚙️ 简单的模块配置:只需修改简单的配置文件即可切换各种功能模块,无需深入代码。
- 🎨 角色定制:导入自定义 Live2D 模型,为您的 AI 伴侣打造独一无二的外观。通过调整 Prompt 来塑造 AI 伴侣的人设。还可进行语音克隆,赋予 AI 伴侣您心仪的嗓音。
- 🧩 灵活的 Agent 实现:继承并实现 Agent 接口,即可集成任何 Agent 架构,如 HumeAI EVI、OpenAI Her、Mem0 等。
- 🔌 良好的扩展性:模块化设计使您可以轻松添加自己的 LLM、ASR、TTS 等模块实现,随时扩展新功能。
👥 用户评价
感谢开发者开源并分享这款“女朋友”,让大家都能使用!
这款“女朋友”已被使用超过 10 万次。
🚀 快速入门
请参阅我们的文档中的快速入门章节以进行安装。
☝ 更新
:warning:
v1.0.0存在破坏性变更,需重新部署。您仍可以通过以下方法更新,但conf.yaml文件不兼容,且大部分依赖项需要使用uv重新安装。对于从v1.0.0之前版本升级的用户,建议按照最新部署指南重新部署该项目。
如果您安装的是 v1.0.0 之后的版本,请使用 uv run update.py 进行更新。
😢 卸载
大多数文件,包括 Python 依赖和模型,都存储在项目文件夹中。
不过,通过 ModelScope 或 Hugging Face 下载的模型也可能位于 MODELSCOPE_CACHE 或 HF_HOME 中。虽然我们尽量将这些模型放在项目的 models 目录下,但最好还是再确认一下。
请查阅安装指南,移除您不再需要的额外工具,例如 uv、ffmpeg 或 deeplx。
🤗 想要贡献?
请查看开发指南。
🎉🎉🎉 相关项目
ylxmf2005/LLM-Live2D-Desktop-Assitant
- 您的 Live2D 桌面助手,由 LLM 驱动!适用于 Windows 和 macOS,可感知您的屏幕、获取剪贴板内容,并以独特的声音响应语音指令。具备语音唤醒、唱歌功能以及对电脑的全面控制,让您与心爱的角色无缝互动。
📜 第三方许可证
Live2D 示例模型声明
本项目包含由 Live2D Inc. 提供的 Live2D 示例模型。这些资产分别依据 Live2D 免费素材许可协议及 Live2D Cubism 示例数据使用条款获得授权,不在本项目的 MIT 许可范围内。
本内容使用了 Live2D Inc. 所拥有并受版权保护的示例数据。示例数据的使用严格遵守 Live2D Inc. 制定的条款与条件(详见 Live2D 免费素材许可协议 和 使用条款)。
注意:若用于商业用途,尤其是中大型企业,使用这些 Live2D 示例模型可能需要额外的授权许可。如您计划将本项目用于商业目的,请务必事先获得 Live2D Inc. 的相应授权,或使用不含这些模型的项目版本。
贡献者
感谢我们的贡献者与维护者,正是他们的努力才让这个项目成为现实。
星标历史
版本历史
v1.2.12025/08/261.2.02025/08/03v1.1.02025/02/19v1.0.02025/02/04v0.5.22024/12/21v0.5.12024/12/15v0.4.42024/12/13v0.4.32024/12/06v0.4.22024/11/30v0.4.12024/11/28v0.4.02024/11/28v0.3.12024/11/17v0.2.52024/11/08v0.2.42024/10/15v0.2.32024/10/05v0.2.22024/09/07v0.2.12024/09/03v0.2.02024/09/02v0.1.02024/09/02常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。





