Duix-Avatar

GitHub
12.7k 2.1k 中等 9 次阅读 今天NOASSERTION其他视频
AI 解读 由 AI 自动生成,仅供参考

Duix-Avatar 是一款完全开源的 AI 数字人工具包,致力于实现离线的视频生成与数字人克隆。长期以来,制作逼真的数字人往往需要高昂的 3D 建模费用或依赖云端服务,这不仅增加了成本,还带来了隐私泄露的风险。Duix-Avatar 通过先进的 AI 算法,能够精准复刻用户的外貌特征与声音特质,支持文本输入或语音驱动来生成自然的口播视频,并实现了高精度的音画同步。

Duix-Avatar 最大的亮点在于其完全本地化的运行模式,无需联网即可在 Windows 系统上完成所有操作,有效保障了数据安全。同时,Duix-Avatar 支持中英法德等多国语言,界面简洁易用。无论是希望探索技术的开发者、研究人员,还是需要高效生产内容的创作者、教育工作者,甚至是关注隐私保护的普通用户,都可以免费下载并使用。Duix-Avatar 旨在打破技术门槛,让每个人都能零成本拥有专属的数字分身。

使用场景

某独立编程教育博主计划每周更新三次技术教程视频,但受限于时间精力和预算,急需高效解决方案。

没有 Duix-Avatar 时

  • 传统拍摄需搭建专业影棚,单次录制准备及打光时间长达两小时。
  • 发现口误必须重新整段录制,后期剪辑效率极低,难以快速响应反馈。
  • 使用在线 SaaS 平台存在个人生物特征数据上传云端泄露风险。
  • 订阅制付费高昂,且不支持多语言切换,难以覆盖海外学员群体。

使用 Duix-Avatar 后

  • Duix-Avatar 支持本地部署,只需少量样本即可克隆形象,无需反复出镜。
  • 通过文本驱动数字人口型,修改脚本后秒级重新生成,极大提升迭代速度。
  • 全离线模式确保所有训练数据保留在本地电脑,彻底杜绝隐私隐患。
  • 内置八国语言支持,一键切换中英双语输出,轻松触达全球学习者。

Duix-Avatar 以零成本、高隐私的本地化方案,彻底解决了数字人视频制作的效率与数据安全难题。

运行环境要求

操作系统
  • Windows
  • Linux
GPU

需要 NVIDIA 显卡,推荐 RTX 4070,需安装正确驱动程序,50 系显卡需使用官方预览版 PyTorch

内存

32GB

依赖
notesWindows 需安装 WSL;C 盘需 100GB+ 空闲空间,D 盘需 30GB+;首次部署下载约 70GB 流量;Ubuntu 若以 root 用户运行客户端需添加 --no-sandbox 参数
python未说明
Nodejs 18
Docker
Docker Compose
NVIDIA Container Toolkit
Duix-Avatar hero image

快速开始

🚀🚀🚀 Duix Avatar — 真正开源的离线视频生成和数字人克隆 AI 头像工具包

🔗 官方网站: www.duix.com

目录

  1. 什么是 Duix.Avatar
  2. 简介
  3. 本地运行指南
  4. 开放 API
  5. 更新日志
  6. 常见问题
  7. 如何实时交互
  8. 联系方式
  9. 许可证
  10. 致谢
  11. 星标历史

1. 什么是 Duix.Avatar

Duix.Avatar 是由 Duix.com 开发的一款免费开源的 AI (人工智能) 头像项目。

七年前,一群年轻的先驱者选择了一条非传统的技术路径,开发了一种使用真人视频数据训练数字人模型的方法。与传统的昂贵 3D 数字人方法不同,我们利用 AI 生成技术创建了超逼真的数字人,将制作成本从数十万美元降低到仅需 1000 美元。这一创新已赋能超过 10,000 家企业,并为教育者、内容创作者、法律专家、医疗从业者及企业家等各行各业的专业人士生成了超过 500,000 个个性化头像,极大地提高了他们的视频制作效率。然而,我们的愿景不仅限于商业应用。我们相信这项变革性技术应惠及每个人。为了普及数字人创作,我们开源了我们的克隆技术和视频制作框架。我们的承诺始终如一:打破技术壁垒,让尖端工具触手可及。现在,任何人只要有电脑,就可以免费制作自己的 AI 头像并零成本制作视频——这就是 Duix.Avatar 的核心精髓。

2. 简介

img

Duix.Avatar 是一款专为 Windows 系统设计的完全离线视频合成工具,能够精确克隆您的外貌和声音,实现您形象的数字化。您可以通过文本和语音驱动虚拟头像来创建视频。无需互联网连接,在享受便捷高效数字体验的同时保护您的隐私。

  • 核心功能
    • 精确外貌与声音克隆:利用先进的 AI 算法高精度捕捉人类面部特征,包括五官、轮廓等,构建逼真的虚拟模型。它还能精确克隆声音,捕捉并重现人类声音的细微特征,支持多种声音参数设置,以创造高度相似的克隆效果。
    • 文本与语音驱动的虚拟头像:通过自然语言处理 (NLP) 技术理解文本内容,将文本转换为自然流畅的语音以驱动虚拟头像。也可以直接使用语音输入,允许虚拟头像根据语音的节奏和语调执行相应的动作和面部表情,使虚拟头像的表演更加自然生动。
    • 高效视频合成:高度同步数字人视频图像与声音,实现自然流畅的口型同步,智能优化音视频同步效果。
    • 多语言支持:脚本支持八种语言——英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。
  • 关键优势
    • 完全离线运行:无需互联网连接,有效保护用户隐私,允许用户在安全独立的环境中创作,避免网络传输过程中潜在的数据泄露。
    • 用户友好:界面简洁直观,即使是没有技术背景的初学者也能轻松上手,快速掌握软件用法,开启数字人创作之旅。
    • 多模型支持:支持导入多个模型并通过一键启动包进行管理,方便用户根据不同的创作需求和应用场景选择合适的模型。
  • 技术支持
    • 声音克隆技术:利用人工智能等先进技术,基于给定的声音样本生成相似或相同的声音,涵盖语境、语调、语速等语音方面。
    • 自动语音识别 (ASR):将人类语音词汇内容转换为计算机可读的输入(文本格式),使计算机能够“理解”人类语音的技术。
    • 计算机视觉技术:用于视频合成中的视觉处理,包括人脸识别和唇部运动分析,确保虚拟头像的唇部运动与语音和文本内容相匹配。

3. 本地运行指南

Duix.Avatar 支持基于 Docker (容器引擎) 的快速部署。部署前,请确保您的硬件和软件环境满足指定要求。

Duix.Avatar 支持两种部署模式:Windows / Ubuntu 22.04 安装

依赖项

  1. Nodejs 18
  2. Docker 镜像
    • docker pull guiji2025/fun-asr
    • docker pull guiji2025/fish-speech-ziming
    • docker pull guiji2025/duix.avatar

模式 1:Windows 安装

系统要求:

  • 目前支持 Windows 10 19042.1526 或更高版本

硬件要求:

  • 必须拥有 D 盘:主要用于存储数字人和项目数据

    • 剩余空间要求:大于 30GB
  • C 盘:用于存储服务镜像文件

    • 剩余空间要求:大于 100GB

    • 如果可用空间少于 100GB,在安装 Docker(容器引擎)后,您可以选择下方所示位置的其他磁盘文件夹,该文件夹需有超过 100GB 的剩余空间。

      img

  • 推荐配置:

    • 处理器:第 13 代 Intel Core i5-13400F
    • 内存:32GB
    • 显卡:RTX 4070
  • 确保您拥有 NVIDIA 显卡且驱动程序已正确安装

    NVIDIA 驱动程序下载链接:https://www.nvidia.cn/drivers/lookup/

    img

安装 Windows Docker

  1. 使用命令 wsl --list --verbose 检查是否已安装 WSL(Windows 子系统 for Linux)。如果显示如下,则表示已安装,无需进一步安装。

    img

  2. 使用 wsl --update 更新 WSL。

    img

  3. 下载 Docker for Windows,根据您的 CPU 架构选择合适的安装包。

  4. 看到此界面时,表示安装成功。

    img

  5. 运行 Docker

    img

  6. 首次运行时接受协议并跳过登录

    img

    img

    img

安装服务器

使用 Docker 和 docker-compose(编排工具)进行安装,步骤如下:

  1. docker-compose.yml 文件位于 /deploy 目录中。

  2. /deploy 目录下执行 docker-compose up -d,如果您想使用精简版,请执行 docker-compose -f docker-compose-lite.yml up -d

  3. 请耐心等待(约半小时,速度取决于网络),下载将消耗约 70GB 流量,请确保使用 WiFi

  4. 当您在 Docker 中看到三个服务时,表示成功(精简版只有一个服务 Duix.Avatar-gen-video

    img

NVIDIA 50 系列显卡的服务器部署方案

对于 50 系列显卡(经测试,配合 CUDA 12.8 也适用于 30/40 系列),使用 PyTorch(深度学习框架)官方预览版。

客户端

  1. 直接下载 官方构建的安装包
  2. 双击 Duix.Avatar-x.x.x-setup.exe 进行安装

模式 2:Ubuntu 22.04 安装

系统要求:

我们在 Ubuntu 22.04 上进行了完整测试。理论上,它支持桌面 Linux 发行版。

硬件要求:

  • 推荐配置
  • 处理器:第 13 代 Intel Core i5 - 13400F
  • 内存:32G 或更多(必需)
  • 显卡:RTX - 4070(确保您拥有 NVIDIA 显卡且显卡驱动程序已正确安装)
  • 硬盘:剩余空间大于 100G

安装 Docker:

首先,使用 docker --version 检查是否已安装 Docker。如果已安装,请跳过以下步骤。

sudo apt update
sudo apt install docker.io
sudo apt install docker-compose

安装显卡驱动:

  1. 参考官方文档安装显卡驱动 (https://www.nvidia.cn/drivers/lookup/)。

安装完成后,执行 nvidia-smi 命令。如果显示了显卡信息,则安装成功。

  1. 安装 NVIDIA Container Toolkit

NVIDIA Container Toolkit 是 Docker 使用 NVIDIA GPU(图形处理器)所必需的工具。安装步骤如下:

  • 添加 NVIDIA 软件源仓库:
distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
  && curl -s -L https://nvidia.github.io/libnvidia-container/gpgkey | sudo apt-key add - \
  && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
  • 更新软件包列表并安装工具包:
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
  • 配置 Docker 使用 NVIDIA 运行时:
sudo nvidia-ctk runtime configure --runtime=docker
  • 重启 Docker 服务:
sudo systemctl restart docker

安装服务器

cd /deploy
docker-compose -f docker-compose-linux.yml up -d

安装客户端

  1. 直接下载 Linux 版本的 官方构建的安装包
  2. 双击 Duix.Avatar-x.x.x.AppImage 启动它。无需安装。

注意:在 Ubuntu 系统中,如果您以 root 用户身份进入桌面,直接双击 Duix.Avatar - x.x.x.AppImage 可能无法运行。您需要在命令行终端中执行 ./Duix.Avatar - x.x.x.AppImage --no - sandbox。添加 --no - sandbox 参数即可解决。(注:沙箱模式限制)

4. 开放 API

我们已开放用于模型训练和视频合成的 API。Docker 启动后,将暴露几个本地端口,可通过 http://127.0.0.1 访问。

具体代码请参考:

  • src/main/service/model.js
  • src/main/service/video.js
  • src/main/service/voice.js

模型训练

  1. 将视频分离为无声视频 + 音频

  2. 将音频放置于

    D:\duix_avatar_data\voice\dataguiji2025/fish-speech-ziming 服务约定一致,可在 docker-compose 中修改

  3. 调用接口

    参数示例:响应示例:记录响应结果,因为后续音频合成需要用到

音频合成

接口:http://127.0.0.1:18180/v1/invoke

// 请求参数
{
  "speaker": "{uuid}", // 唯一的 UUID(通用唯一识别码)
  "text": "xxxxxxxxxx", // 要合成的文本内容
  "format": "wav", // 固定参数
  "topP": 0.7, // 固定参数
  "max_new_tokens": 1024, // 固定参数
  "chunk_length": 100, // 固定参数
  "repetition_penalty": 1.2, // 固定参数
  "temperature": 0.7, // 固定参数
  "need_asr": false, // 固定参数
  "streaming": false, // 固定参数
  "is_fixed_seed": 0, // 固定参数
  "is_norm": 0, // 固定参数
  "reference_audio": "{voice.asr_format_audio_url}", // 前一步“模型训练”步骤的返回值
  "reference_text": "{voice.reference_audio_text}" // 前一步“模型训练”步骤的返回值
}

视频合成

  • 合成接口:http://127.0.0.1:8383/easy/submit

    // Request parameters
    {
      "audio_url": "{audioPath}", // Audio path
      "video_url": "{videoPath}", // Video path
      "code": "{uuid}", // Unique key
      "chaofen": 0, // Fixed value
      "watermark_switch": 0, // Fixed value
      "pn": 1 // Fixed value
    }
    
  • 进度查询:http://127.0.0.1:8383/easy/query?code=${taskCode}

GET 请求,参数 taskCode 为上述合成接口输入中的 code

致开发者合作伙伴的重要通知

我们现在宣布两种并行的服务解决方案:

项目 Duix.Avatar Open Source(开源)本地部署 数字人/克隆语音 API(应用程序编程接口)服务
用途 Open Source(开源)本地部署 快速克隆 API 服务
推荐人群 技术用户 商业用户
技术门槛 具有深度学习框架经验的开发者/追求深度定制/希望参与社区共建 快速业务集成/专注于上层应用开发/需要企业级 SLA(服务等级协议)保障的商业场景
硬件要求 需购买 GPU(图形处理器)服务器 无需购买 GPU 服务器
定制化能力 可根据需求修改和扩展代码,完全控制软件的功能和行为 无法直接修改源代码,只能通过 API 提供的接口扩展功能,灵活性不如开源项目
技术支持 社区支持 动态扩展支持 + 专业技术响应团队
维护成本 高维护成本 简单维护
唇形同步效果 可用效果 惊艳且更高清的效果
商业授权 支持全球免费商用(用户超过 10 万或年营收超过 1000 万美元的企业需签署商业许可协议) 允许商用
迭代速度 更新慢,bug 修复依赖社区 优先使用最新模型/算法,问题解决速度快

我们始终秉持开源精神,推出 API 服务旨在为不同需求的开发者提供更完整的解决方案矩阵。无论您选择哪种方式,都可以通过 https://duix.com 获取技术支持文档

我们期待与您携手,共同推动数字人技术的普惠发展!

您可以在官网与 Duix.Avatar 数字人聊天:https://duix.com/

我们也在 DUIX 平台提供 API:https://docs.duix.com/api-reference/api/Introduction

5. 更新内容

[NVIDIA(英伟达)50 系列 GPU(图形处理器)版本通知]

  1. 已在 5090 GPU 上测试验证
  2. 安装说明请参见 NVIDIA 50 系列显卡服务器部署方案

[新版 Ubuntu 版本通知]

Ubuntu 版本正式发布

  1. 已完成对 Ubuntu 22.04 桌面版(内核 6.8.0-52-generic)的适配和验证工作。尚未对其他 Linux 版本进行兼容性测试。
  2. 客户端程序界面增加了国际化(英文)支持。
  3. 修复了一些已知问题
    • #304
    • #292
  4. Ubuntu22.04 安装文档

6. 常见问题解答

提问前自查步骤

  1. 检查所有三项服务是否处于 Running(运行)状态

    img

  2. 确认您的机器拥有 NVIDIA 显卡且驱动程序正确安装。

本项目的所有算力均为本地计算。如果没有 NVIDIA 显卡或正确的驱动程序,这三项服务将无法启动。

  1. 确保服务端和客户端均已更新至最新版本。该项目刚开源,社区非常活跃,更新频繁。您的问题可能在新版本中已得到解决。
    • 服务端:进入 /deploy 目录并重新执行 docker-compose up -d
    • 客户端:pull 代码并重新 build
  2. GitHub Issue(问题单) 持续更新,每天都有问题被解决和关闭。请经常查看,您的问题可能已经解决了。

问题模板

  1. 问题描述

详细描述复现步骤,如有可能请附上截图。

  1. 提供错误日志
    • 如何获取客户端日志:

      img

    • 服务端日志:

      找到关键位置,或者点击我们的三个 Docker 服务,并按下图所示“复制”。

      img

7. 如何实时交互

Duix.Avatar 数字人实现了数字人克隆和非实时视频合成。

如果您希望数字人支持交互,可以访问 duix.com 体验免费试用。

8. 联系方式

如有任何问题,请提交 Issue 或联系我们 james@duix.com

9. 许可证

https://github.com/duixcom/Duix.Avatar/blob/main/LICENSE

10. 致谢

  • ASR(自动语音识别)基于 fun-asr
  • TTS(文本转语音)基于 fish-speech-ziming

11. Star 历史

GitHub Star 历史

版本历史

v1.0.62025/09/28
v1.0.52025/08/15

常见问题

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|2天前
Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。

74.9k|★★★☆☆|今天
语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单,汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点,这份清单按编程语言(如 Python、C++、Go 等)和应用场景(如计算机视觉、自然语言处理、深度学习等)进行了系统化分类,帮助使用者快速定位高质量项目。 它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库,还是资深工程师对比不同语言的技术选型,都能从中获得极具价值的参考。此外,清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源,构建了从学习到实践的全链路支持体系。 其独特亮点在于严格的维护标准:明确标记已停止维护或长期未更新的项目,确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”,awesome-machine-learning 以开源协作的方式持续更新,旨在降低技术探索门槛,让每一位从业者都能高效地站在巨人的肩膀上创新。

72.1k|★☆☆☆☆|2天前
开发框架其他

scikit-learn

scikit-learn 是一个基于 Python 构建的开源机器学习库,依托于 SciPy、NumPy 等科学计算生态,旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口,涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具,内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。 对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言,scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点,让用户无需重复造轮子,只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。 其核心技术亮点在于高度一致的 API 设计风格,所有估算器(Estimator)均遵循相同的调用逻辑,极大地降低了学习成本并提升了代码的可读性与可维护性。此外,它还提供了强大的模型选择与评估工具,如交叉验证和网格搜索,帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目,scikit-learn 以其稳定性、详尽的文档和活跃的社区支持,成为连接理论学习与工业级应用的最

65.6k|★☆☆☆☆|今天
开发框架其他数据工具

keras

Keras 是一个专为人类设计的深度学习框架,旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。 无论是刚入门的学生、专注算法的研究人员,还是需要快速落地产品的工程师,都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。 Keras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码,即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性,还允许开发者根据需求自由选择:利用 JAX 或 PyTorch 的即时执行模式进行高效调试,或切换至速度最快的后端以获得最高 350% 的性能提升。此外,Keras 具备强大的扩展能力,能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群,是连接原型开发与生产部署的理想桥梁。

63.9k|★★☆☆☆|昨天
开发框架数据工具其他