GMTalker

1.2k 48 中等 1 次阅读 4天前NOASSERTION开发框架插件图像Agent数据工具其他

AI 解读由 AI 自动生成，仅供参考

GMTalker 是由光明实验室媒体智能团队打造的开源 3D 数字人交互系统。它基于虚幻引擎（Unreal Engine）渲染，集成了语音识别、语音合成、自然语言理解及嘴型动画驱动等核心模块，能够让用户通过语音与逼真的 3D 卡通数字人进行实时、流畅的对话。

该项目主要解决了传统数字人开发门槛高、部署复杂以及难以在低配置设备上实现离线实时交互的痛点。GMTalker 实现了全链路离线流式对话，响应速度达到毫秒级，并支持用户随时打断对话，显著提升了交互的自然度与灵活性。

GMTalker 非常适合开发者、研究人员以及希望将数字人技术应用于展示、教育或商业场景的团队使用。其独特的技术亮点在于极高的兼容性与轻量化：仅需 2GB 显存即可运行完整项目，支持 Windows、Linux 和安卓跨平台一键部署；同时兼容华为昇腾 NPU 与纯 CPU 模式，无需额外依赖即可快速搭建后端。此外，它还支持大语言模型接入、自定义角色形象及微表情控制，为构建个性化的智能数字助手提供了坚实的技术基础。

使用场景

某连锁银行计划在智能柜台部署 3D 数字人客服，以替代传统文字菜单，提供面对面的业务引导与咨询。

没有 GMTalker 时

硬件门槛极高：传统高精度数字人方案通常依赖昂贵的高端显卡，单节点显存占用往往超过 8GB，导致银行大量旧款终端无法利旧，硬件升级成本巨大。
交互延迟明显：语音识别、大模型思考与口型驱动分属不同模块，串联处理导致响应延迟高达数秒，用户提问后需长时间等待，体验割裂且不自然。
部署维护复杂：各组件依赖环境繁琐，跨平台（如从服务器迁移到安卓平板）时需重新适配代码，运维团队难以快速批量上线。
缺乏情感表达：现有方案多为简单的“念稿式”播报，嘴型与声音匹配度低，且无法根据语境展现微表情，难以建立用户信任感。

使用 GMTalker 后

低成本广泛覆盖：GMTalker 仅需 2GB 显存即可流畅运行，并支持华为昇腾 NPU 甚至纯 CPU 模式，银行可直接在现有的老旧终端和安卓平板上快速部署，大幅降低硬件投入。
毫秒级实时互动：系统集成了端到端的离线流式对话能力，实现了语音唤醒、打断及毫秒级响应，用户可随时插话，交流过程如真人般流畅自然。
一键跨平台落地：基于统一代码库，GMTalker 支持 Windows、Linux 和安卓快速部署，配合新增的 Docker 后端支持，运维人员可在一天内完成数百个网点的系统更新。
生动拟人化服务：内置的高精度唇形驱动与微表情系统，让数字人能随语调变化展现丰富神态，精准匹配银行业务场景，显著提升了服务的亲和力与专业度。

GMTalker 通过极致的轻量化架构与全链路实时交互能力，让高质量 3D 数字人得以低成本、大规模地走进真实的金融营业大厅。

运行环境要求

操作系统

Windows
Linux
Android

GPU

非必需（支持 CPU 模式）
若使用 GPU，推荐 NVIDIA GPU（支持 CUDA），最低显存 2GB
也支持华为昇腾 NPU 910B

内存

8GB+

依赖

notes该项目客户端无需 GPU 即可运行，最低仅需 2GB 显存即可在普通笔记本上流畅运行整个项目。支持一键启动脚本（webui.bat/sh），也可通过 Docker 部署。语音识别和合成服务需单独下载懒人包运行。许可证为 CC BY-NC 4.0，仅限非商业用途。

python未说明

FunASR (基于 ONNX Runtime)

MeloTTS (基于 torch_npu)

Unreal Engine 5 (用于渲染)

Docker (可选部署方式)

快速开始

GMTalker

English | 中文

GMTalker，一款由虚幻引擎渲染的交互式数字人，由光明实验室媒体智能团队开发。该系统集成了语音识别、语音合成、自然语言理解和唇形同步动画驱动等功能，支持在Windows上快速部署，且整个项目运行仅需2GB显存。它还可以部署在Windows、Linux和Android平台上。本项目展示了3D卡通数字人形象的演示效果，适用于展示、扩展及商业集成。

System Architecture Diagram
系统架构图

🧱 功能特性

跨平台：使用单一代码库即可部署于Windows、Linux和Android。
离线实时：完全离线流式对话，响应时间可达毫秒级。
智能交互：支持唤醒、打断及语音克隆功能。
模型灵活：兼容大语言模型、自定义Agent以及本地知识库。
头像自定义：可定制角色，具备唇形同步和微表情功能。
快速搭建：后端配置简单，无需额外依赖。
硬件支持：可在华为Ascend NPU或纯CPU模式下运行。

🔥 最新动态

🗓️ 2025年10月15日：后端现已支持Docker部署，详情请参阅Docker文档。
🗓️ 2025年10月10日：现全面支持GPU和NPU 910B服务器。FunASR语音识别基于ONNX Runtime，而TTS语音合成则利用torch_npu。
🗓️ 2025年9月12日：项目现已全面支持Android、Linux、Web和Windows平台，客户端无需配备GPU。
🗓️ 2025年9月1日：升级了模型，引入轻量级唇形同步驱动，并将完整的UE项目打包成独立可执行文件（.exe），使其能够在普通笔记本电脑上流畅运行。
🗓️ 2025年8月25日：更新了导入UE头像 | 角色概述 | 动画概述等文档。
🗓️ 2025年8月19日：发布了UE5项目文件，其中包括光DUNDUN角色。（由光明实验室与深圳市光明区政府联合开发）。
🗓️ 2025年8月12日：新增了WebUI使用指南，便于快速部署项目。

💬 加入我们的社区

扫描二维码加入GMTalker技术交流群

📦 快速入门

配置好后端后，下载安装包即可启动应用。借助FunASR和MeloTTS，只需一键即可启动，无需额外环境设置或依赖项。

硬件要求

操作系统：Windows 10及以上 / Linux
内存：8GB及以上RAM
GPU支持：最低2GB显存（推荐配备CUDA支持的NVIDIA GPU）

克隆项目

git clone  https://github.com/feima09/GMTalker.git

一键启动

Windows:

webui.bat

Linux:

chmod +x webui.sh
./webui.sh

Docker部署（推荐）：

# 使用docker-compose
docker-compose up -d

# 或者使用 Docker CLI
docker run -d \
  --name gmtalker \
  -p 5002:5002 -p 7860:7860 \
  -v $(pwd)/configs:/app/configs \
  huiji2333/gmtalker:latest

👉 Docker 部署指南

访问服务

主服务：http://127.0.0.1:5002
Web 配置界面：http://127.0.0.1:7860

👉 点击此处查看 WebUI 用户指南

下载 UE 可执行文件

下载并启动 GLM3.exe Windows 版 Google Drive Windows 版百度网盘 Linux 版 Google Drive Linux 版百度网盘

部署本地必备 AI 服务

下载 FunASR 语音识别懒人包这里，然后运行 run_server_2pass.bat 即可一键启动。
下载 MeloTTS 语音合成懒人包这里，然后运行 start.bat 即可一键启动。

👉 如果需要从源码开发，请点击此处查看完整的安装指南，请参阅后端整体架构

📊 与其他开源方案对比

项目名称	3D 头像	UE5 渲染	语音输入	语音打断	唇形同步	身体动作	本地部署（Win）	星标 ⭐
LiveTalking	❌	❌	❌	❌	✅	❌	❌	6.1k
OpenAvatarChat	✅	❌	✅	❌	✅	❌	❌	1.6k
MNN	✅	❌	✅	❌	✅	✅	❌	12.6k
Fay	❌	✅	✅	✅	✅	✅	✅	11.6k
GMTalker	✅	✅	✅	✅	✅	✅	✅	🚀

✅ 表示完全支持该功能，而 ❌ 表示缺失或不支持。

📚 关于光明实验室

广东省人工智能与数字经济实验室（深圳）（以下简称“光明实验室”）是广东省政府批准建设的第三批省级实验室之一。实验室聚焦全球人工智能和数字经济领域的前沿理论与未来技术趋势，致力于服务国家重大发展战略和重要需求。

依托深圳的产业、区位和政策优势，光明实验室汇聚全球科研力量，充分发挥科技创新资源的集聚效应。围绕构建国内人工智能算力生态的核心任务，以多模态人工智能技术及其应用生态发展为驱动，实验室努力突破关键技术，产出原创成果，持续推动技术创新与产业赋能。

实验室的目标是加速人工智能技术的多元化应用供给和全场景渗透，实现技术创新与产业驱动力的相互促进，不断推动以人工智能为动力的新质生产力的形成。

🌐 联系我们（项目合作）

官网：光明实验室官方网站
邮箱：mafei@gml.ac.cn/xuhongbo@gml.ac.cn

致谢
感谢所有参与 GMTalker 项目开发和支持的团队成员及合作伙伴。（马飞、徐洪波、李明辉、罗一鸣、朱海俊、卓义尧、宋超）

许可证

本项目采用 知识共享署名-非商业性使用 4.0 国际许可协议（CC BY-NC 4.0） 许可。

您可以在非商业用途的前提下自由使用、修改和分享代码及资源，但需适当注明出处。

🔗 完整许可文本
🔍 通俗易懂的摘要

GMTalker 快速上手指南

GMTalker 是由光明实验室媒体智能团队开发的交互式数字人项目，基于 Unreal Engine 5 渲染，集成了语音识别、语音合成、大语言模型理解及唇形驱动动画。该项目支持跨平台部署（Windows/Linux/Android），最低仅需 2GB 显存即可运行，适合快速构建 3D 卡通数字人应用。

1. 环境准备

系统要求

操作系统：Windows 10+ 或 Linux
内存：8GB RAM 及以上
显卡：推荐 NVIDIA GPU（支持 CUDA），最低显存要求 2GB
- 注：也支持华为昇腾 NPU 或纯 CPU 模式运行
网络：首次运行需下载模型文件，建议保持网络畅通

前置依赖

本项目后端已封装为独立包，无需手动配置 Python 环境或安装额外依赖。只需下载对应的懒人包即可一键启动核心服务。

2. 安装步骤

第一步：克隆项目代码

git clone https://github.com/feima09/GMTalker.git
cd GMTalker

第二步：下载并启动核心 AI 服务

你需要分别下载语音识别（FunASR）和语音合成（MeloTTS）的离线包。国内用户可使用以下方案：

下载 FunASR 语音识别包
- 下载地址：GitHub Release
- 解压后，双击运行 run_server_2pass.bat (Windows) 或执行对应脚本启动服务。
下载 MeloTTS 语音合成包
- 下载地址：GitHub Release
- 解压后，双击运行 start.bat (Windows) 或执行对应脚本启动服务。

第三步：启动 WebUI 管理界面

返回项目根目录，根据系统选择启动命令：

Windows:

webui.bat

Linux:

chmod +x webui.sh
./webui.sh

Docker 部署（推荐）:

docker run -d \
  --name gmtalker \
  -p 5002:5002 -p 7860:7860 \
  -v $(pwd)/configs:/app/configs \
  huiji2333/gmtalker:latest

3. 基本使用

访问服务

启动成功后，在浏览器中打开以下地址：

主服务接口：http://127.0.0.1:5002
Web 配置界面：http://127.0.0.1:7860

在 Web 配置界面中可调整模型参数、角色设置及知识库连接。

运行 3D 数字人客户端

要看到完整的 3D 卡通形象交互效果，需下载编译好的 UE5 执行程序：

Windows 版：
- Google Drive 下载
- 百度网盘下载 (提取码: w2sb)
Linux 版：
- Google Drive 下载
- 百度网盘下载 (提取码: kit5)

下载并解压后，直接运行 GLM3.exe (Windows) 或对应 Linux 可执行文件。程序将自动连接本地后端服务，此时你对着麦克风说话，屏幕上的 3D 角色（如“光墩墩”）将进行实时语音对话、唇形同步及肢体动作反馈。

提示：确保第二步中的 FunASR 和 MeloTTS 服务以及第三步的 WebUI 均在运行状态下，客户端才能正常交互。

常见问题

TTS 测试失败，提示“由于目标计算机积极拒绝，无法连接”怎么办？

导入 Audio2Face 模型时一直失败报错，如何解决？

系统是否支持语音打断功能？

启动 WebUI 后，浏览器访问 5002 端口显示 Not Found 是怎么回事？

项目是否支持手机端使用？是否允许商用？

交流群二维码过期了，如何获取最新的入群方式？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|5天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|6天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 150k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|昨天

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|4天前

插件开发框架

使用场景

没有 GMTalker 时

使用 GMTalker 后

运行环境要求

快速开始

GMTalker

🧱 功能特性

🔥 最新动态

💬 加入我们的社区

📦 快速入门

配置好后端后，下载安装包即可启动应用。借助FunASR和MeloTTS，只需一键即可启动，无需额外环境设置或依赖项。

​​硬件要求​

📊 与其他开源方案对比

📚 关于光明实验室

🌐 联系我们（项目合作）

许可证

GMTalker 快速上手指南

1. 环境准备

系统要求

前置依赖

2. 安装步骤

第一步：克隆项目代码

第二步：下载并启动核心 AI 服务

第三步：启动 WebUI 管理界面

3. 基本使用

访问服务

运行 3D 数字人客户端

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

gemini-cli

markitdown

硬件要求