manga-translator-ui
manga-translator-ui 是一款开源的漫画自动翻译工具,专为处理日漫、韩漫和美漫设计,支持黑白与彩色漫画。它能自动识别图像中的文字区域,通过 OCR 提取原文,并调用 OpenAI、Gemini 等多种翻译引擎生成译文,最后智能嵌入翻译后的文字,保持排版美观。内置可视化编辑器允许用户手动调整文本框位置、样式甚至修复背景,还支持导出 PSD 分层文件,方便后期精修。
这款工具解决了漫画爱好者和翻译者手动处理图像文字繁琐耗时的问题,尤其适合希望快速获得高质量翻译结果的普通用户、同人译者或小型汉化组。无需编程基础,一键安装即可使用,同时提供命令行和 API 支持,也兼顾了开发者和研究人员的定制需求。其技术亮点包括多模态 AI 翻译、自动术语积累、智能断句与多种专用 OCR 模型(如 MangaOCR、PaddleOCR-VL),在准确性和易用性之间取得了良好平衡。
使用场景
一位独立汉化组成员小林正在为新一期日漫《星夜回廊》制作中文版,需处理包含密集对话和复杂排版的20页彩漫。
没有 manga-translator-ui 时
- 需手动用图像软件擦除原文,再逐字输入翻译,仅一页就耗时1小时以上
- OCR识别日文漫画文字准确率低,常漏检气泡内小字或竖排文本
- 翻译依赖多个平台切换(如DeepL+Google Translate),术语前后不一致
- 嵌字排版需反复调整字体、大小和位置,难以匹配原作风格
- 输出仅为PNG图片,无法保留图层供后续修改
使用 manga-translator-ui 后
- 一键自动完成文本检测、OCR识别与翻译,20页批量处理仅需20分钟
- 内置MangaOCR与PaddleOCR-VL双引擎,精准识别竖排日文及手写字体
- 统一调用Gemini多模态API进行上下文感知翻译,自动积累“星灵”“回廊守卫”等专有名词
- 可视化编辑器直接拖拽调整文本框,实时预览中文字体嵌入效果,完美贴合原图气泡
- 导出PSD分层文件,原文、修复背景、译文独立成层,方便协作校对
manga-translator-ui 将漫画汉化从繁琐的手工劳动转变为高效、一致且可协作的智能流程。
运行环境要求
- Windows
- Linux
- macOS
- 非必需,但推荐使用 GPU 加速
- NVIDIA:需支持 CUDA 12.x(驱动 >= 525.60.13)
- AMD:仅实验性支持 RX 7000/9000 系列(ROCm)
- Apple Silicon(M1/M2/M3/M4)支持 MPS 加速
未说明

快速开始
语言 / Language: 简体中文 | English
一键翻译漫画图片中的文字,支持日漫、韩漫、美漫,黑白漫和彩漫均可识别。自动检测、翻译、嵌字,支持日语、中文、英语等多种语言,内置可视化编辑器可调整文本框。
💬 QQ 交流群:1079089991(密码:kP9#mB2!vR5*sL1) | 🐛 提交 Issue
📚 文档导航
| 文档 | 说明 |
|---|---|
| 安装指南 | 详细安装步骤、系统要求、分卷下载说明 |
| 使用教程 | 基础操作、翻译器选择、常用设置 |
| 命令行模式 | 命令行使用指南、参数说明、批量处理 |
| API 配置 | API Key 申请、配置教程 |
| 功能特性 | 完整功能列表、可视化编辑器详解 |
| 工作流程 | 7 种工作流程、AI 断句、自定义模版 |
| 设置说明 | 翻译器配置、OCR 模型、参数详解 |
| 调试指南 | 调试流程、可调节参数、问题排查 |
| 开发者指南 | 项目结构、环境配置、构建打包 |
📸 效果展示
| 翻译前 | 翻译后 |
![]() |
![]() |
✨ 核心功能
翻译功能
- 🔍 智能文本检测 - 自动识别漫画中的文字区域
- 📝 多语言 OCR(光学字符识别) - 支持日语、中文、英语等多种语言
- 🌐 多种翻译引擎 - OpenAI、Gemini、Vertex、Sakura(含高质量模式)
- 🎯 高质量翻译 - 支持 GPT-4o、Gemini 多模态 AI 翻译
- 📚 自动提取术语 - AI 自动识别并积累专有名词,保持翻译一致性
- 🤖 AI 智能断句 - 提升文本可读性,自动优化换行
- 🎨 智能嵌字 - 自动排版译文,支持多种字体
- 📥 PSD 导出 - 导出可编辑的 PSD 文件(原图/修复图/文本分层)
- 📦 批量处理 - 一次处理整个文件夹
可视化编辑器
- ✏️ 区域编辑 - 移动、旋转、变形文本框
- 📐 文本编辑 - 手动翻译、样式调整
- 🖌️ 蒙版编辑 - 画笔工具、橡皮擦
- ⏪ 撤销/重做 - 完整操作历史
- ⌨️ 快捷键支持 - 支持 A/D 切换图片,Q/W/E 切换工具,Ctrl+Q/W/E 进行文件操作
- 🖱️ 鼠标滚轮快捷键 - Ctrl+滚轮缩放文本框,Shift+滚轮调整画笔大小
完整功能特性 → doc/FEATURES.md
🚀 快速开始
📥 安装方式
方式一:使用安装脚本(⭐ 推荐,支持更新)
⚠️ 无需预装 Python:脚本会自动安装 Miniconda(轻量级 Python 环境)
💡 一键更新:已安装用户运行步骤4-更新维护.bat即可更新到最新版本
下载安装脚本:
- 点击下载 步骤1-首次安装.bat
- 保存到你想安装程序的目录(如
D:\manga-translator-ui\) - ⚠️ 这个目录将作为安装的根目录,所有程序文件都会安装在此目录下
- ⚠️ 清理提醒:使用清理功能会清空整个根目录的文件,但会保留 Python 配置和 Git 配置相关文件
运行安装:
- 双击
步骤1-首次安装.bat - 脚本会自动:
- ✓ 检测并安装 Miniconda(如需要)
- 提供下载源选择:清华大学镜像(国内推荐)或 Anaconda 官方
- 自动下载安装(约 50MB)
- 安装到项目目录,不占用C盘
- ✓ 安装便携版 Git(如需要)
- ✓ 克隆代码仓库
- ✓ 创建 Conda 虚拟环境(Python 3.12)
- ✓ 检测显卡类型(NVIDIA / AMD / 集显)
- ✓ 自动选择对应的 PyTorch 版本
- NVIDIA: CUDA 12.x 版本(需驱动 >= 525.60.13)
- AMD: ROCm 版本(实验性支持,仅支持 RX 7000/9000 系列,RX 5000/6000 请使用 CPU 版本)
- 其他: CPU 版本(通用,速度较慢)
- ✓ 安装所有依赖
- ✓ 检测并安装 Miniconda(如需要)
- 双击
启动程序:
- 双击
步骤2-启动Qt界面.bat
- 双击
方式二:下载打包版本
下载程序:
- 前往 GitHub Releases
- 选择版本:
- CPU 版本:适用于所有电脑
- GPU 版本 (NVIDIA):需要支持 CUDA 12.x 的 NVIDIA 显卡
- ⚠️ AMD GPU 不支持打包版本,请使用"方式一:安装脚本"安装
解压运行:
- 解压压缩包到任意目录
- 双击
app.exe
方式三:Docker 部署(实验性)
💡 说明:下面的命令适合临时体验。正式部署 Web UI 时,建议按下方“Web UI 持久化”说明挂载数据目录和配置文件。
快速启动:
# Windows CMD / PowerShell
docker run -d --name manga-translator -p 8000:8000 hgmzhn/manga-translator:latest-cpu
# Linux / macOS
docker run -d --name manga-translator -p 8000:8000 hgmzhn/manga-translator:latest-cpu
镜像仓库:
本项目的 Docker 镜像同时发布在两个镜像仓库,选择下载速度更快的即可:
Docker Hub(推荐):
- CPU 版本:
hgmzhn/manga-translator:latest-cpu - GPU 版本:
hgmzhn/manga-translator:latest-gpu
- CPU 版本:
GitHub Container Registry(备用,国内可能更快):
- CPU 版本:
ghcr.io/hgmzhn/manga-translator:latest-cpu - GPU 版本:
ghcr.io/hgmzhn/manga-translator:latest-gpu
- CPU 版本:
访问地址(默认端口 8000):
- 🌐 用户界面:
http://localhost:8000 - 🔧 管理界面:
http://localhost:8000/admin
Web UI 持久化(推荐):
- 必挂目录:
/app/manga_translator/server/data、/app/examples、/app/dict、/app/fonts、/app/models - 可选目录:
/app/logs、/app/result - 可选文件:
/app/.env。如果你准备在 Web 管理界面里保存服务器 API Keys,必须额外挂这个文件 server/data现在会统一保存admin_config.json、user_resources/、账号、会话、用户组、权限、配额、API Key 预设、用户配置和翻译历史元数据
📖 详细安装教程:Docker 部署文档
📖 使用教程:命令行使用指南
方式四:从源码运行(开发者)
适合开发者或想要自定义的用户。
- 安装 Python 3.12:下载
- 克隆仓库:
git clone https://github.com/hgmzhn/manga-translator-ui.git cd manga-translator-ui - 安装依赖:
# NVIDIA GPU pip install -r requirements_gpu.txt # AMD GPU(仅 RX 7000/9000 系列) pip install -r requirements_amd.txt # CPU 版本 pip install -r requirements_cpu.txt - 运行程序:
# 桌面 UI python -m desktop_qt_ui.main # Web UI(可选) python -m manga_translator web
方式五:macOS 原生运行 (Apple Silicon)
专为 M1/M2/M3/M4 Mac 优化的原生运行方式,支持 MPS (Metal Performance Shaders) GPU 加速。
快速开始(推荐):
下载安装脚本:
curl -O https://raw.githubusercontent.com/hgmzhn/manga-translator-ui/main/macOS_1_首次安装.sh chmod +x macOS_1_首次安装.sh运行安装:
./macOS_1_首次安装.sh脚本会自动完成:
- 检查并安装必要组件(Xcode 命令行工具、Git)
- 克隆项目代码
- 安装 Miniforge 和 Python 环境
- 配置 MPS GPU 加速支持
启动程序:
./macOS_2_启动Qt界面.sh后续更新:
./macOS_4_更新维护.sh
或者手动克隆:
git clone https://github.com/hgmzhn/manga-translator-ui.git
cd manga-translator-ui
chmod +x macOS_*.sh
./macOS_1_首次安装.sh
⚠️ 注意:
- 优先支持 Apple Silicon (M1/M2/M3/M4) 芯片
- Intel Mac 也可运行,但会使用 CPU 模式
- 首次安装需要下载约 2GB 的依赖包,请确保网络畅通
📖 使用教程
🖥️ Qt 界面模式
安装完成后,请查看使用教程了解如何翻译图片:
使用教程 → doc/USAGE.md
基本步骤:
- 填写 API(如使用在线翻译器)→ API 配置教程
- 关闭 GPU(仅 CPU 版本)
- 设置输出目录
- 添加图片
- 选择翻译器
- 首次使用推荐:高质量翻译 OpenAI 或 高质量翻译 Gemini
- 如需单独管理 Google 官方 Key,也可使用 高质量翻译 Vertex
- 需要配置 API Key,参考 API 配置教程
- 开始翻译
⌨️ 命令行模式
适合批量处理和自动化脚本:
命令行指南 → doc/CLI_USAGE.md
⚠️ 重要提示:使用命令行前,请先在项目目录激活虚拟环境:
# Windows conda activate manga-env # Linux/macOS conda activate manga-env
快速开始:
# Local 模式(推荐,命令行翻译)
python -m manga_translator local -i manga.jpg
# 或简写(默认 Local 模式)
python -m manga_translator -i manga.jpg
# 翻译整个文件夹
python -m manga_translator local -i ./manga_folder/ -o ./output/
# Web 服务器模式(带管理界面和 API)
python -m manga_translator web --host 127.0.0.1 --port 8000 --use-gpu
# 查看所有参数
python -m manga_translator --help
📋 工作流程
本程序支持多种工作流程:
- 正常翻译流程 - 直接翻译图片
- 导出翻译 - 翻译后导出到 TXT 文件
- 导出原文 - 仅检测识别,导出原文用于手动翻译
- 导入翻译并渲染 - 从 TXT/JSON 导入翻译内容重新渲染
工作流程详解 → doc/WORKFLOWS.md
⚙️ 常用翻译器
在线翻译器(需要 API Key)
- OpenAI - 使用 GPT 系列模型
- Gemini - 使用 Google Gemini 模型
- Vertex - 使用固定 Google 官方 Gemini host,独立读取
VERTEX_API_KEY/VERTEX_MODEL - Sakura - 专门针对日语优化的翻译模型
高质量翻译器(推荐)
- 高质量翻译 OpenAI - 使用 GPT-4o 多模态模型
- 高质量翻译 Gemini - 使用 Gemini 多模态模型
- 高质量翻译 Vertex - 使用固定 Google 官方 Gemini host 的多模态路径
- 📸 结合图片上下文,翻译更准确
完整设置说明 → doc/SETTINGS.md
🔍 遇到问题?
翻译效果不理想
- 在"基础设置"中勾选 详细日志
- 查看
result/目录中的调试文件 - 调整检测器和 OCR 参数
- 排查完成后按文档清理旧日志(避免
result/目录过大)
调试流程指南 → doc/DEBUGGING.md
⭐ Star 趋势
🙏 致谢
- zyddnys/manga-image-translator - 核心翻译引擎
- bilibili/ailab - Real-CUGAN 超分辨率模型
- the-database/MangaJaNai - MangaJaNai/IllustrationJaNai 超分辨率模型
- lhj5426/YSG - 提供模型支持
- huyvux3005/manga109-segmentation-bubble - MangaLens Bubble Segmentation 气泡分割模型
- PaddleOCR - 提供 OCR 模型支持
- kha-white/manga-ocr - MangaOCR 模型支持
- PaddlePaddle/PaddleOCR-VL-1.5 - 官方 PaddleOCR-VL-1.5 模型页
- 所有贡献者和用户的支持
❤️ 支持作者
如果这个项目对你有帮助,欢迎请作者喝杯奶茶 🧋
💚 微信赞赏 |
💙 支付宝赞助 |
感谢你的支持 ✨
📝 许可证
本项目基于 GPL-3.0 许可证开源。
模型协议声明
本项目代码采用 GPL-3.0 协议。
本项目支持使用 MangaJaNai/IllustrationJaNai 模型进行图像超分辨率处理。这些模型权重文件采用 CC BY-NC 4.0 协议(署名-非商业性使用 4.0 国际),仅供非商业用途使用。
- 模型来源:MangaJaNai
- 模型协议:CC BY-NC 4.0
- 使用限制:仅限非商业用途
⚠️ 特别声明
本项目仅提供技术演示与个人学习交流用途,不构成任何法律、商业或合规建议。
你在安装、配置、调用和分发本项目相关功能时,应自行确认并持续遵守所在地法律法规、平台规则、内容来源许可及第三方服务条款。
免责与责任限制
- 使用本项目产生的一切行为与后果(包括但不限于内容处理、发布、传播、二次分发、商业化使用),均由使用者独立承担责任。
- 你应自行确保输入内容、输出内容及数据来源具备合法授权,不得用于侵犯著作权、商标权、隐私权、肖像权等合法权益的场景。
- 严禁将本项目用于任何违法违规用途,包括但不限于盗版传播、未授权批量抓取与搬运、绕过平台限制、诈骗、诽谤、侵害他人合法权益等行为。
- 本项目依赖第三方模型、API、数据与库(含 OCR、翻译、超分模型等);相关可用性、准确性、稳定性、费用、风控与合规要求由对应服务方负责,使用者需自行承担相应风险与成本。
- 对于因使用或无法使用本项目导致的任何直接或间接损失(包括但不限于数据损失、业务中断、收益损失、账户风险、第三方索赔等),项目作者与贡献者在适用法律允许范围内不承担责任。
- 若你将本项目用于团队或组织环境,应自行完成权限管理、日志审计、内容审核与合规评估,并建立必要的人工复核流程。
请在使用前审慎评估风险;继续使用即视为你已阅读、理解并同意上述声明。
版本历史
v2.2.62026/04/05v2.2.52026/04/01v2.2.42026/03/31v2.2.32026/03/29v2.2.12026/03/21v2.2.02026/03/20v2.1.92026/03/18v2.1.82026/03/17v2.1.72026/03/16v2.1.62026/03/15v2.1.52026/03/14v2.1.42026/02/28v2.1.32026/02/27v2.1.22026/02/27v2.1.12026/02/25v2.1.02026/02/15v2.0.92026/02/13v2.0.82026/01/19v2.0.72026/01/10v2.0.62026/01/08常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。


