Pandrator

543 39 简单 1 次阅读 3天前AGPL-3.0音频开发框架语言模型

AI 解读由 AI 自动生成，仅供参考

Pandrator 是一款功能强大的本地化多媒体处理工具，旨在帮助用户免费将 PDF、EPUB 电子书转换为有声书，或将视频字幕转化为多语言配音视频。它有效解决了传统转换工具发音生硬、缺乏情感以及依赖云端服务导致隐私泄露和费用高昂的痛点，让用户能在完全离线的环境下获得自然流畅的听觉体验。

这款软件特别适合普通读者、内容创作者及教育工作者使用。其最大的亮点在于“开箱即用”的友好设计：提供图形化界面（GUI）和一键安装包，无需复杂的代码配置即可在 Windows 上轻松运行。在技术层面，Pandrator 并非单一的 AI 模型，而是一个集成了多种先进开源技术的框架。它核心采用 XTTS 模型实现高质量的多语言合成与即时声音克隆，并引入 RVC 技术进一步优化音色逼真度。此外，它还结合本地大语言模型（LLM）对文本进行智能预处理，自动修正 OCR 识别错误或优化数字缩写朗读，确保生成的语音逻辑清晰、听感自然。无论是想听书的用户，还是需要制作多语言视频内容的创作者，Pandrator 都能提供专业且便捷的解决方案。

使用场景

一位独立教育创作者希望将手中的英文技术 PDF 文档和 YouTube 教程视频，快速转化为多语言的有声书和配音视频，以拓展全球受众。

没有 Pandrator 时

流程割裂且繁琐：需要分别使用 OCR 工具提取文字、手动清洗格式、再找不同的 TTS 网站生成音频，最后还要用视频软件强行对齐字幕，耗时极长。
语音情感生硬：通用的在线朗读声音机械感强，缺乏真人语气，且难以克隆特定讲师的音色，导致学习体验枯燥。
本地部署门槛高：若想用高质量的开源模型（如 XTTS），需手动配置 Python 环境、安装依赖库并调试代码，对非程序员极不友好。
多语言翻译困难：视频配音需先转录、再翻译、最后合成，环节众多，一旦翻译出错需重新来过，试错成本极高。

使用 Pandrator 后

一站式自动化流水线：直接导入 PDF 或视频链接，Pandrator 自动完成文本预处理、分段、翻译及音频生成，甚至能智能处理罗马数字和缩写。
高保真语音克隆：利用内置的 XTTS 和 RVC 增强技术，只需几秒参考音频即可克隆真人音色，生成的有声书语气自然、情感丰富。
开箱即用的本地体验：通过一键安装包即可在 Windows 上运行图形界面，无需编写代码或配置复杂环境，所有计算均在本地完成，保护数据隐私。
可视化精修工作流：支持边听边标记不满意的句子进行重生成，并能直接从视频生成带时间轴的双语字幕和配音视频，大幅降低后期修改难度。

Pandrator 将原本需要数天协作完成的复杂多媒体本地化工程，缩减为普通人几小时内即可独立完成的自动化流程。

运行环境要求

操作系统

Windows
Linux

GPU

非必需
若使用 XTTS 模型以获得良好性能，需要 NVIDIA GPU 且显存 4GB+
Silero 模型仅需 CPU
未明确提及具体 CUDA 版本

内存

未说明

依赖

notes1. Windows 支持一键安装器，Linux 需手动安装。2. 提供预编译包（自包含 Conda 环境），解压即用，大小在 4GB 至 36GB 之间。3. 首次运行需下载模型和依赖，耗时可能长达 30 分钟。4. 部分功能（如 LLM 预处理、RVC、配音）为可选组件，需在安装时选择或后续手动配置。5. 杀毒软件可能会误报安装程序为威胁，需添加例外。

python未说明 (通过 Miniconda/Anaconda 环境自动管理)

XTTS API Server (基于 Coqui XTTSv2)

Silero API Server

FFmpeg

WhisperX (可选，用于配音)

RVC Python (可选，用于声音转换)

Text Generation Webui API (可选，用于文本预处理)

NISQA (可选，用于音频质量评估)

CustomTkinter

Sentence Splitter

num2words

快速开始

Icon

Pandrator：一款支持语音克隆与翻译的多语言GUI有声书、字幕及配音生成工具

[!TIP] 简而言之：

Pandrator本身并非AI模型，而是一个用于文本转语音、字幕生成和翻译项目的GUI框架。它能够借助多种AI工具、自定义工作流和算法来生成有声书以及字幕或配音。该软件在Windows系统上开箱即用。虽然也能在Linux上运行，但目前仍需手动安装。

使用它的最简单方式是下载其中一个预编译的**压缩包——只需解压并使用其中的启动器即可。其内容与大小请参见此表格**。

您可以在Discord服务器上与我交流，或分享技巧、工作流程与创意。

快速演示

本视频展示了启动Pandrator、选择源文件、开始生成、停止生成并预览保存文件的过程。视频未加速，旨在展示实际运行效果（您可跳过前35秒XTTS服务器启动的部分，并请务必打开声音）。

https://github.com/user-attachments/assets/7cab141a-e043-4057-8166-72cb29281c50

接下来的视频则演示了从YouTube视频到转录、翻译、语音合成再到同步的配音工作流。

https://github.com/user-attachments/assets/dfd4b6e8-3eda-49e4-bff4-f1683ec4cf21

关于Pandrator

Pandrator致力于易用性和易安装性——提供一键安装程序和图形化用户界面。它是一款专为两项任务设计的工具：

将文本、PDF（包括透明裁剪）、EPUB和SRT文件转换为多语言的语音输出，主要基于本地运行的开源软件，包含预处理步骤，以尽可能使生成的语音听起来自然，例如将文本拆分为段落、句子及更小的逻辑文本块（从句），以便TTS模型在处理时产生较少的人工痕迹。如果首次尝试不满意，每个句子都可以重新生成；在回听生成结果时，可通过鼠标或键盘操作标记需要重做的部分。对于支持语音克隆的模型，还可以进行语音克隆；此外，还可利用LLM对文本进行进一步预处理（如去除OCR伪影，或将罗马数字、缩写等TTS模型难以处理的内容逐字读出）。
直接从视频文件生成配音，包括转录（使用WhisperX）或从.SRT文件开始。它涵盖了从视频文件到带字幕的配音视频的完整工作流程——包括使用多种API和技巧来提升翻译质量。为此开发的配套应用Subdub也可单独使用。您还可以在不生成音频的情况下直接校对或翻译字幕。

目前，Pandrator主要利用XTTS的强大多语言能力、优良品质及易于微调的特点，同时结合Silero进行文本转语音和语音克隆，并通过RVC_CLI进一步提升音质与语音克隆效果，以及NISQA来进行音频质量评估。此外，它还集成了Text Generation Webui的API，用于本地LLM驱动的文本预处理，从而在音频生成之前实现多样化的文本操作。

支持的语言

XTTS支持英语（en）、西班牙语（es）、法语（fr）、德语（de）、意大利语（it）、葡萄牙语（pt）、波兰语（pl）、土耳其语（tr）、俄语（ru）、荷兰语（nl）、捷克语（cs）、阿拉伯语（ar）、中文（zh-cn）、日语（ja）、匈牙利语（hu）和韩语（ko）。
Silero支持英语、德语、俄语、西班牙语、法语、印地语、鞑靼语、乌克兰语、乌兹别克语和卡尔梅克语。

[!NOTE] 请注意，Pandrator目前仍处于Alpha阶段，而我并非经验丰富的开发者（实际上是个新手），因此代码在优化、功能和可靠性方面都远未完善。请理解这一点，并欢迎为改进这款工具贡献力量。

示例

这些示例均采用最低设置生成——未使用LLM文本处理、RVC或TTS评估，也未对任何句子进行重做。XTTS和Silero的生成速度均快于播放速度，且Silero仅使用了一个CPU核心。

https://github.com/user-attachments/assets/1c763c94-c66b-4c22-a698-6c4bcf3e875d

https://github.com/lukaszliniewicz/Pandrator/assets/75737665/118f5b9c-641b-4edd-8ef6-178dd924a883

配音示例，含翻译（视频来源）：

https://github.com/user-attachments/assets/1ba8068d-986e-4dec-a162-3b7cc49052f4

系统要求

硬件要求

TTS模型	CPU要求	GPU要求
XTTS	至少具备4核的较新CPU（仅使用CPU进行生成）	NVIDIA显卡，显存4GB以上，以获得良好性能
Silero	在大多数CPU上表现良好，无论核心数量多少	无

依赖项

本项目依赖于多个 API 和服务（本地运行）以及库，其中主要包括：

必需

XTTS API 服务器（由 daswer123 提供），用于基于 Coqui XTTSv2 的文本转语音 (TTS) 生成；或 Silero API 服务器（由 ouoertheo 提供），用于基于 Silero 模型的 TTS 生成。
FFmpeg，用于音频编码。
Sentence Splitter（由 mediacloud 提供），用于将 .txt 文件按句子分割；customtkinter（由 TomSchimansky 提供）、num2words（由 savoirfairelinux 提供）等。完整列表请参阅 requirements.txt。

可选

Subdub（由 lukaszliniewicz 提供），一款命令行应用程序，可对视频文件进行转录、翻译字幕，并将生成的语音与视频同步，专为 Pandrator 打造。
WhisperX（由 m-bain 提供），OpenAI Whisper 模型的增强版，具有更优的对齐效果，用于配音和 XTTS 训练。
Easy XTTS Trainer（由 lukaszliniewicz 提供），一款命令行应用程序，允许使用一个或多个音频文件对 XTTS 进行微调，专为 Pandrator 设计。
RVC Python（由 daswer123 提供），用于通过基于检索的语音转换提升语音质量和克隆效果。
Text Generation Webui API（由 oobabooga 提供），用于基于大语言模型的文本预处理。
NISQA（由 gabrielmittag 提供），用于评估 TTS 生成结果（采用 FastAPI 实现)。

安装说明

自包含软件包

我已准备好可以直接解压使用的软件包（压缩文件），其中所有内容均已预先安装在独立的便携式 conda 环境中。您可从此处下载。

您可以使用启动器来启动 Pandrator、更新程序并安装新功能。

软件包	内容	解压后大小
1	Pandrator 和 Silero	4GB
2	Pandrator 和 XTTS	14GB
3	Pandrator、XTTS、RVC、WhisperX（用于配音）及 XTTS 微调工具	36GB

GUI 安装程序与启动器（Windows）

pandrator_installer_launcher_KLoHrNDIps

请以管理员权限运行 pandrator_installer_launcher.exe。该文件位于 Releases 页面。此可执行文件是使用 pyinstaller 从仓库中的 pandrator_installer_launcher.py 编译而成。

该文件可能会被杀毒软件标记为威胁，因此您可能需要将其添加到白名单；如果您对此不放心，可以手动安装 C++ Build Tools 和 Calibre，或者进行完全手动安装。

您可以选择要安装的 TTS 引擎，以及是否安装支持 RVC 语音克隆（RVC Python）、配音（WhisperX）和 XTTS 微调（Easy XTTS Trainer）的软件。后续也可再安装其他组件。

安装程序/启动器将执行以下操作：

创建 Pandrator 文件夹
如果尚未安装，则安装必要的工具：
- C++ Build Tools
- Calibre
安装 Miniconda（仅限本地环境，而非系统全局）
克隆以下仓库：
- Pandrator
- Subdub
- PyPDFCropper
- XTTS API 服务器（如已选择）
- Silero API 服务器（如已选择）
创建 conda 环境（pandrator_installer、xtta_api_server_installer、whisperx_installer、easy_xtts_training_installer）。若需在这些环境中执行某些操作，例如调试、故障排除或自定义，请进入 Pandrator 文件夹并运行：

conda/Scripts/conda.exe -p conda/envs/env_name run no-capture-output python [command]

安装所有必要的依赖项。

注意： 您可以随时使用安装程序/启动器来启动 Pandrator 及所有相关工具。

如需重新进行设置，请删除安装程序创建的 Pandrator 文件夹。初始设置过程中需要下载模型并安装依赖项，因此请预留至少几分钟时间；根据您选择的选项，整个过程可能需要长达 30 分钟。

对于安装程序尚未包含的附加功能：

安装 Text Generation Webui，并确保启用 API（在启动 Webui 前，将 --api 添加到主目录下的 CMD_FLAGS.txt 文件中）。
配置 NISQA API，以实现对生成结果的自动评估。

有关详细的安装说明，请参阅依赖项部分所链接的各个仓库。请注意，XTTS 和 Silero 的 API 服务器必须处于运行状态，才能使用其提供的功能。

手动安装

先决条件

Git
Miniconda 或 Anaconda
Microsoft Visual C++ 构建工具
Calibre

安装步骤

安装依赖：

Calibre：从 https://calibre-ebook.com/download_windows 下载并安装。

Microsoft Visual C++ 构建工具：

winget install --id Microsoft.VisualStudio.2022.BuildTools --override "--quiet --wait --add Microsoft.VisualStudio.Workload.VCTools --includeRecommended" --accept-package-agreements --accept-source-agreements

克隆仓库：

mkdir Pandrator
cd Pandrator
git clone https://github.com/lukaszliniewicz/Pandrator.git
git clone https://github.com/lukaszliniewicz/Subdub.git

创建并激活 Conda 环境：

conda create -n pandrator_installer python=3.10 -y
conda activate pandrator_installer

安装 Pandrator 和 Subdub 的依赖：

cd Pandrator
pip install -r requirements.txt
cd ../Subdub
pip install -r requirements.txt
cd ..

（可选）安装 XTTS：

git clone https://github.com/daswer123/xtts-api-server.git
conda create -n xtts_api_server_installer python=3.10 -y
conda activate xtts_api_server_installer
pip install torch==2.1.1+cu118 torchaudio==2.1.1+cu118 --extra-index-url https://download.pytorch.org/whl/cu118
pip install xtts-api-server

（可选）安装 Silero：

conda create -n silero_api_server_installer python=3.10 -y
conda activate silero_api_server_installer
pip install silero-api-server

（可选）安装 RVC（基于检索的语音转换）：

conda activate pandrator_installer
pip install pip==24
pip install rvc-python
pip install torch==2.1.1+cu118 torchaudio==2.1.1+cu118 --index-url https://download.pytorch.org/whl/cu118

（可选）安装 WhisperX：

conda create -n whisperx_installer python=3.10 -y
conda activate whisperx_installer
conda install git -c conda-forge -y
pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118
conda install cudnn=8.9.7.29 -c conda-forge -y
conda install ffmpeg -c conda-forge -y
pip install git+https://github.com/m-bain/whisperx.git

（可选）安装 XTTS 微调工具：

git clone https://github.com/lukaszliniewicz/easy_xtts_trainer.git
conda create -n easy_xtts_trainer python=3.10 -y
conda activate easy_xtts_trainer
cd easy_xtts_trainer
pip install -r requirements.txt
pip install torch==2.1.1+cu118 torchaudio==2.1.1+cu118 --index-url https://download.pytorch.org/whl/cu118
cd ..

运行组件

运行 Pandrator：

conda activate pandrator_installer
cd Pandrator
python pandrator.py

运行 XTTS API 服务器（如果已安装）：
```
conda activate xtts_api_server_installer
python -m xtts_api_server
```
额外选项：
- 仅使用 CPU：添加 --device cpu
- 低显存模式：添加 --lowvram（适用于 4GB 及以下显存）
- 使用 DeepSpeed：添加 --deepspeed

运行 Silero API 服务器（如果已安装）：

conda activate silero_api_server_installer
python -m silero_api_server

文件夹结构

安装完成后，您的文件夹结构应如下所示：

Pandrator/
├── Pandrator/
├── Subdub/
├── xtts-api-server/ (如果安装了 XTTS)
├── easy_xtts_trainer/ (如果安装了 XTTS 微调工具)

有关特定组件的使用或故障排除的更详细信息，请参阅各个仓库的文档。

快速入门指南

基本用法：有声书

如果您不想使用 RVC 等附加功能，那么在 “会话”选项卡 中就已经具备了所需的一切。

会话

您可以创建一个新的会话，也可以加载一个已有的会话（在 Outputs 文件夹中选择一个文件夹即可）。

文件选择与预处理

选择 .txt、.srt、.pdf、.epub、.mobi 或 .docx 文件。如果选择 PDF 或 EPUB 文件，将会打开一个预览窗口，显示提取出的文本。对于 PDF 文件，您可以通过半透明页面对文档进行裁剪，以移除页眉、页脚或特定页面。您可以编辑提取出的文本（例如，OCR 识别的书籍通常在扉页等位置存在识别错误），并检查或添加段落和章节标记（EPUB 文件会自动创建这些标记）。无论格式如何，包含大量文本的文件在开始生成之前可能需要一些时间完成预处理。此时界面可能会卡住，但只要 CPU 仍在运行，就说明程序正在正常工作。

选择 TTS 引擎和语音

从下拉菜单中选择要使用的 TTS 服务器——XTTS 或 Silero——以及语言。推荐使用 XTTS。
选择您想要使用的语音。
1. XTTS 的语音是短小的 6–12 秒 .wav 文件（采样率为 22050Hz，单声道），存储在 tts_voices 目录中（Pandrator/Pandrator/tts_voices）。您可以通过 GUI 上传并选择这些语音。XTTS 模型会利用音频来克隆语音。样本的语言并不重要，您可以在所有支持的语言中生成语音，但如果提供目标语言的样本，效果会更好。您可以使用仓库中的示例文件，也可以上传自己的文件。请确保音频长度在 6 到 12 秒之间，为单声道，且采样率为 22050Hz。可以使用 Audacity 等工具准备文件。噪音越少越好。您还可以使用 Resemble AI 等工具，在 Hugging Face 上对样本进行降噪和/或增强。您可以将多个样本放入 tts_voices 目录下的一个文件夹中，模型会同时使用所有样本（通常最多 4 个），这样可以提升质量。
2. Silero 为其支持的每种语言提供了多种语音选项。它不支持语音克隆功能。只需在选择语言后，从下拉菜单中选择一种语音即可。

输出选项

默认输出格式为 .m4b。您也可以选择 opus、mp3 或 wav 格式，选择封面图片并添加元数据。

生成

点击“开始生成”即可开始。您可以随时停止并稍后再继续，或者关闭程序并在以后重新加载会话。

已生成的句子

您可以播放已生成的句子，也可以将其作为播放列表播放；还可以编辑这些句子（即用于重新生成的文本）、重新生成或删除个别句子。您也可以将它们标记为待重新生成。这在您不想中断聆听，而希望稍后再处理有问题的句子时非常有用。您可以使用 m 键标记当前正在播放的句子，或使用鼠标右键同时标记当前句和上一句（如果您是在听输出而不是看屏幕，这种方式会更方便）。 “保存输出”会将迄今为止生成的所有句子拼接在一起，并编码为一个文件。

配音

Pandrator 提供了一个全面的工作流程，用于从视频文件或现有字幕文件生成配音视频。该流程包括转录、翻译、语音合成和同步：

选择视频或 SRT 文件：
- 视频文件： 选择一个视频文件。系统会自动提取音频，并使用 WhisperX 进行转录。
- SRT 文件： 选择一个现有的 SRT 字幕文件。在这种情况下，您还需要指定对应的视频文件（除非您只想翻译字幕）。
转录（如果使用视频文件）：
- 语言： 选择原视频中使用的语言。
- 模型： 选择用于转录的 WhisperX 模型。较小的模型速度更快，而较大的模型则提供更高的准确性。“large-v3”模型的效果最佳。
- Pandrator 会自动运行 WhisperX，生成包含转录内容的 SRT 文件。
翻译（可选）：
- 启用翻译： 打开此选项以翻译字幕。
- 原文与目标语言： 选择字幕的原文语言以及您希望翻译成的目标语言。
- 翻译模型： 选择一个翻译模型（例如，“haiku”、“sonnet”、“sonnet thinking”、“gemini-flash”、“gemini-flash-thinking”、“gpt-4o-mini”、“gpt-4o”、“deepl”、“local”）。除“local”选项外，您需要在 API 密钥 选项卡中设置 API 密钥。Sonnet 的效果最好，但价格也最贵。Gemini-flash-thinking 效果不错且免费（需从 Google AI Studio 获取 API 密钥）。通过 DeepL，您可以免费翻译 50 万字符。对于本地翻译，您需要安装并运行 Text Generation Webui，同时加载您希望使用的模型。
- 思维链（可选）： 启用此选项以使用思维链提示，这可能会提高非思考型模型的质量——请勿与思考型模型一起使用（仅适用于 LLM，不适用于 DeepL）。
为了生成语音，点击 生成配音音频。您可以像在有声书流程中一样编辑或重新生成句子。您也可以选择只转录所选视频文件，或只翻译字幕文件。
同步： 当您对生成的音频满意时，点击 将配音添加到视频。配音将与视频同步，生成带有嵌入字幕的配音视频。

通用音频设置

您可以调整在句子和段落末尾添加的静音时长。
您可以启用淡入淡出效果，并设置持续时间。
您可以启用 RVC。要使 RVC 正常工作，您需要安装 RVC_Python。您可以在安装程序/启动器中随时完成安装。您需要选择一个模型——RVC 模型由两个文件组成：一个 .pth 文件和一个 .index 文件。这两个文件必须同名（例如 voicex.pth 和 voicex.index）。为了获得最佳效果，建议为 XTTS 使用相同的语音。您还可以微调 RVC 的参数，例如音高。

文本预处理通用设置

您可以禁用/启用长句拆分功能，并设置发送至TTS生成的文本片段的最大长度（默认启用；当句子长度超过最大长度值时，系统会尝试拆分句子。它会寻找标点符号（, ; : -），并选择最接近句子中点的标点进行分割；如果没有标点符号，则会寻找“and”等连词。此操作会执行两次，因为一次拆分后某些句子片段可能仍然过长）。
您可以禁用/启用短句拼接功能（将短句拼接到前一句或后一句；默认禁用，这可能会使文本流更加顺畅，因为发送给模型的文本片段长度更为均匀）。
去除变音符号（在生成包含大量外来词或来自外文字母的音译文本时非常有用，例如日语）。如果您使用需要变音符号的语言（如德语或波兰语）进行生成，请勿启用此功能！否则发音将会错误。

LLM 预处理

启用LLM处理功能，以便在将文本发送至TTS API之前，利用语言模型对其进行预处理。例如，您可以要求LLM去除OCR产生的噪声、展开缩写、修正标点符号等。
您最多可以定义三个用于文本优化的提示。每个提示会单独发送至LLM API，最终由最后一个提示的输出用于TTS生成。
对于每个提示，您可以启用或禁用它、设置提示文本、选择要使用的LLM模型，并启用或禁用评估功能（若启用，LLM API会对每个提示调用两次，随后再调用一次以让模型选出更好的结果）。
使用“会话”选项卡中的“加载LLM模型”按钮，加载可用的LLM模型。

RVC 质量增强与语音克隆

启用RVC功能，以提升生成音频的质量并应用语音克隆技术。
在“音频处理”选项卡中，使用“选择RVC模型”和“选择RVC索引”按钮，分别选择RVC模型文件（.pth）和对应的索引文件。
当RVC功能启用时，生成的音频将在保存之前，使用选定的RVC模型和索引进行处理。

NISQA TTS 评估

启用TTS评估功能，以使用NISQA（非侵入式语音质量评估）模型评估生成音频的质量。
设置目标MOS（平均意见得分）值以及每句话的最大尝试次数。
当TTS评估功能启用时，生成的音频将使用NISQA模型进行评估，并为每句话选择MOS得分最高的音频。
如果在最大尝试次数内未能达到目标MOS值，则将使用迄今为止生成的最佳音频。

贡献

我们非常欢迎您的贡献、改进建议以及错误报告！

小贴士

您可以在此处找到一些语音样本集：这里。这些样本专为ElevenLabs设计，因此您需要从中选取一段8至12秒的音频，并使用Audacity等工具将其保存为22050kHz的单声道.wav格式。
您也可以在此处找到一些RVC模型集：这里。

待办事项

添加对Surya的支持，用于PDF的OCR、版面及阅读顺序检测，以及章节、页眉、页脚、脚注和表格的预处理。
添加对StyleTTS2的支持。
添加设置的导入导出功能。
添加对专有API的支持，用于文本预处理和TTS生成。
包含PDF的OCR功能。
添加对更高质量本地TTS模型Tortoise的支持。
添加录制语音样本并通过GUI直接用于TTS的功能。
添加对章节分割的支持。
将所有API服务器加入安装脚本。
添加对自定义XTTS模型的支持。
添加从.srt字幕文件制作配音的工作流程。
包含对PDF文件的支持。
在UI中集成已处理句子的编辑功能。
添加对低质量但运行速度更快、可在CPU上轻松运行的本地TTS模型的支持，例如Silero或Piper。
添加对EPUB的支持。

Pandrator 快速上手指南

Pandrator 是一个多语言图形界面（GUI）工具，用于生成有声书、字幕和配音。它集成了语音克隆、翻译及多种 AI 模型（如 XTTS、Silero），支持本地运行，旨在让文本转语音和视频配音流程变得简单高效。

1. 环境准备

系统要求

操作系统:
- Windows: 推荐，支持一键安装器。
- Linux: 支持，但需手动安装配置。
硬件配置:
- CPU: 现代处理器，至少 4 核心（若仅使用 CPU 运行 XTTS）。
- GPU (可选但推荐): NVIDIA 显卡，显存 4GB+（用于加速 XTTS 生成和提升质量）。Silero 模型在普通 CPU 上即可良好运行。

前置依赖

无论采用哪种安装方式，以下基础工具是必须的：

Git: 用于代码克隆。
Miniconda / Anaconda: 用于管理 Python 环境。
Microsoft Visual C++ Build Tools: Windows 编译环境。
Calibre: 用于处理 EPUB/PDF 等电子书格式。

提示: 国内用户建议配置 Conda 和 Pip 的国内镜像源（如清华源、阿里源）以加速依赖下载。

2. 安装步骤

方案 A：Windows 一键安装包（推荐）

这是最简单的方式，所有依赖已预装在独立的便携环境中。

下载压缩包: 访问官方提供的归档链接下载预设包（注意网络环境）：
- 基础版 (Pandrator + Silero): 约 4GB
- 进阶版 (Pandrator + XTTS): 约 14GB
- 完整版 (含 RVC, WhisperX, 微调工具): 约 36GB
下载地址参考：OneDrive 归档链接
解压与运行:
- 解压下载的压缩包。
- 运行文件夹内的启动器（Launcher）即可直接使用。

方案 B：Windows 安装器安装

如果你希望自定义组件（如只装 XTTS 或包含配音功能），可使用官方安装器。

下载安装器: 从 Releases 页面下载 pandrator_installer_launcher.exe。
- 注意: 该文件可能被杀毒软件误报，需添加例外信任。
运行安装: 右键以管理员身份运行 pandrator_installer_launcher.exe。
- 按照界面提示选择需要安装的 TTS 引擎（XTTS/Silero）。
- 勾选额外功能：RVC (声音克隆增强), WhisperX (视频配音/转录), Easy XTTS Trainer (模型微调)。
- 安装程序会自动处理 C++ 工具、Calibre、Miniconda 环境创建及仓库克隆。
- 首次运行可能需要 5-30 分钟（取决于网速和所选组件）。

方案 C：手动安装 (适用于 Linux 或高级用户)

安装基础依赖:

# 安装 Calibre (以 Ubuntu/Debian 为例)
sudo apt install calibre

# 安装构建工具 (Windows PowerShell 管理员模式)
winget install --id Microsoft.VisualStudio.2022.BuildTools --override "--quiet --wait --add Microsoft.VisualStudio.Workload.VCTools --includeRecommended" --accept-package-agreements --accept-source-agreements

克隆仓库与环境配置:

mkdir Pandrator
cd Pandrator

# 克隆主程序及相关子模块 (根据需求选择)
git clone https://github.com/lukaszliniewicz/Pandrator.git
git clone https://github.com/lukaszliniewicz/Subdub.git
git clone https://github.com/daswer123/xtts-api-server.git
# 如需 Silero
git clone https://github.com/ouoertheo/silero-api-server.git

# 创建并激活 Conda 环境 (示例)
conda create -n pandrator python=3.10
conda activate pandrator

# 安装 Python 依赖
cd Pandrator
pip install -r requirements.txt

启动后端服务: Pandrator 依赖外部 API 服务器运行，使用前需单独启动它们：

# 启动 XTTS 服务 (在 xtts-api-server 目录)
python server.py --port 8020

# 或在另一个终端启动 Silero 服务
python server.py --port 8000

3. 基本使用

启动程序

安装包用户: 直接运行解压目录下的启动器。
手动安装用户: 在激活的 conda 环境中运行主脚本：
```
python main.py
```

核心功能操作流程

场景一：制作有声书 (文本/EPUB/PDF -> 音频)

加载文件: 在 GUI 中选择源文件（支持 .txt, .pdf, .epub, .srt）。
配置参数:
- 选择 TTS 模型 (XTTS 或 Silero)。
- 选择目标语言 (XTTS 支持中、英、日、韩等 16 种语言)。
- (可选) 上传参考音频进行声音克隆。
- (可选) 启用 LLM 预处理以优化数字、缩写朗读效果。
生成与预览: 点击生成。生成过程中可试听单句，若不满意可标记并重生成特定句子。
导出: 完成后保存为音频文件。

场景二：视频配音 (视频 -> 转录 -> 翻译 -> 配音 -> 合成)

输入视频: 选择本地视频文件或 YouTube 链接。
工作流设置:
- 转录: 自动调用 WhisperX 提取字幕。
- 翻译: 选择目标语言，系统将翻译字幕内容。
- 配音: 使用选定的 TTS 模型生成对应语音。
- 同步: 自动调整语音节奏以匹配视频口型/时长。
执行: 点击开始，等待全流程完成。
结果: 获得带有新配音和新字幕的视频文件。

提示: 更多高级用法、工作流分享及社区支持，可加入官方 Discord 服务器进行交流。

版本历史

v.0.312025/03/17

v.032024/11/11

v.02952024/11/07

v.0.292024/11/04

v.0.282024/11/02

v.0.272024/10/26

v.0.262024/10/19

v.0.252024/10/12

v.0.22024/10/10

v.0.152024/10/06

v.0.12024/09/28

v.0.0.9.52024/09/10

v.0.0.92024/09/06

v.0.0.8.52024/09/04

v.0.0.82024/08/31

v.0.0.7.52024/08/24

v.0.0.72024/04/23

v.0.0.62024/04/15

v0.0.52024/04/07

v0.0.42024/04/03

常见问题

安装或更新时出现 conda/pip 命令执行失败错误（非零退出状态）怎么办？

如何在旧款显卡（如 GTX 1080Ti）上解决 whisperX 训练报错或显存不足的问题？

生成的 TTS 音频与视频或字幕（.srt）不同步，逐渐产生延迟如何解决？

如何获得最佳的语音合成音质？有什么推荐的模型或设置？

Pandrator 需要管理员权限才能启动吗？为什么之前不需要现在需要了？

下载压缩包（.7z）时提示“磁盘读取错误”或文件损坏怎么办？

ffmpeg 在 Pandrator 中无法工作，但在命令行中可以，如何修复？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架