LLPlayer
LLPlayer 是一款专为语言学习者打造的智能媒体播放器。它解决了传统播放器在辅助外语学习时功能匮乏的痛点,让用户无需在播放器、词典和翻译网站之间频繁切换,即可实现沉浸式的高效学习。
无论是正在攻克外语的学生、自学者,还是需要对音视频素材进行精细化处理的语言教师,都能从中受益。LLPlayer 的核心优势在于其强大的字幕处理能力:支持双语字幕同屏显示,并能利用 OpenAI Whisper 等引擎实时为无字幕视频生成 AI 字幕。更独特的是,它集成了大语言模型(LLM)进行上下文感知的实时翻译,显著提升了翻译准确度;同时具备实时 OCR 功能,可将图片格式字幕瞬间转换为可查询的文本。
此外,LLPlayer 支持点击单词即时查词、自定义浏览器搜索、灵活调整字幕布局,并能直接播放来自 YouTube 等平台的在线视频。作为一款基于 C# 开发的免费开源工具,它不仅功能全面,还允许用户深度定制快捷键与界面主题,是外语视听学习的得力助手。
使用场景
一名准备托福考试的职场新人,正试图通过观看无字幕的 TED 科技演讲来提升听力并积累专业词汇。
没有 LLPlayer 时
- 字幕缺失或不同步:原始视频缺乏中文字幕,手动寻找字幕文件不仅耗时,还经常遇到时间轴对不上的尴尬情况。
- 查词打断思路:遇到听不懂的专业术语(如"monolithic kernel")时,必须暂停视频、切换窗口去浏览器搜索,导致学习心流频繁中断。
- 理解门槛高:仅靠英文字幕难以快速 grasp 深层含义,缺乏上下文感知的机器翻译往往生硬晦涩,无法辅助深度理解。
- 功能割裂:需要在播放器、词典软件、翻译网页之间来回切换,桌面杂乱且操作繁琐,学习效率极低。
使用 LLPlayer 后
- AI 实时生成双语字幕:LLPlayer 调用 Whisper 引擎即时为任何视频生成精准字幕,并自动展示“英文原文 + 中文译文”双轨字幕,无需手动下载。
- 即点即查无缝衔接:直接在字幕上点击生词,LLPlayer 立即弹出释义或调用自定义搜索引擎,无需离开播放界面,学习过程流畅自然。
- 语境化智能翻译:借助 LLM 能力,LLPlayer 提供的实时翻译能识别演讲上下文,将技术术语翻译得准确且通顺,大幅降低理解难度。
- 一站式沉浸学习:集成字幕侧边栏、OCR 识别及在线视频播放功能,所有学习工具集中在一个窗口内,让用户专注于内容本身。
LLPlayer 将原本碎片化、高阻力的语言学习过程,转化为流畅、智能且高度沉浸的沉浸式体验。
运行环境要求
- Windows
- 非必需
- NVIDIA RTX GPU 用户可选装 CUDA 12.8 以加速字幕渲染(特别是 Blackwell 架构/RTX 50xx 系列)
未说明

快速开始

LLPlayer
一款专为语言学习设计的媒体播放器。
这是一款专注于字幕相关功能的视频播放器,支持双字幕、AI生成字幕、实时翻译、单词查询等强大特性!
🎬 演示
https://github.com/user-attachments/assets/05a7b451-ee3b-489f-aac9-f1670ed76e71
✨ 功能
LLPlayer为语言学习提供了许多普通视频播放器所不具备的功能。
- 双字幕模式: 可同时显示两组字幕。支持文本字幕和位图字幕。
- AI生成字幕(ASR): 基于OpenAI Whisper技术,可对任何视频和音频进行实时自动字幕生成。支持whisper.cpp和faster-whisper两种引擎。
- 实时翻译: 支持多种翻译引擎,如Google、DeepL、Ollama、LM Studio、OpenAI等。
- 上下文感知翻译: 通过LLM识别字幕上下文,实现高精度翻译。
- 实时OCR字幕: 基于Tesseract OCR和Microsoft OCR技术,可将位图字幕实时转换为文本字幕。
- 字幕侧边栏: 同时支持文本和位图字幕,可进行字幕跳转和单词查询,并支持增量式字幕搜索。
- 即时单词查询: 可对字幕中的单词进行查询并直接在浏览器中搜索。
- 自定义浏览器搜索: 从单词的右键菜单即可发起浏览器搜索,且搜索网站可完全自定义。
- 播放在线视频: 集成yt-dlp,可实时播放任意在线视频,并支持AI字幕生成和单词查询!
- 灵活的字幕大小与位置设置: 双字幕的大小和位置均可自由调整。
- 兼容多种字幕格式: 任何字幕格式都可用于字幕跳转。
- 内置字幕下载器: 支持opensubtitles.org。
- 与浏览器扩展集成: 可与各种浏览器插件配合使用,例如Yomitan和10ten。
- 可定制深色主题: 主题以黑色为主,用户可进一步自定义。
- 全键盘快捷键自定义: 所有快捷键均可完全自定义,同一操作甚至可以绑定到多个按键!
- 内置使用指南: 应用程序内即提供使用说明。
- 免费开源,采用C#编写: 使用C#/WPF开发,而非C语言,因此高度易于定制!
🖼️ 截图

✅ 系统要求
[操作系统]
- Windows 10 x64,版本1903及以上
- Windows 11 x64
[前置条件]
- .NET桌面运行时9
- 若未安装,将弹出安装提示框
- Microsoft Visual C++ Redistributable >= 2022版(用于Whisper ASR和Tesseract OCR)
- 注意:若未安装,应用程序虽能启动,但启用ASR或OCR时会崩溃!
[针对Nvidia用户(RTX显卡)]
- 注:安装CUDA驱动可加速字幕渲染 CUDA 12.8(请注意,若使用Blackwell GPU或希望启用CUDA(RTX 50xx系列),则需安装此驱动)
🚀 快速上手
从发布页面下载安装包
启动LLPlayer
请打开LLPlayer.exe。
- 进入设置
按下CTRL+.或点击进度条上的设置图标,即可打开设置窗口。
- 下载Whisper模型用于ASR
在“字幕 > ASR”部分,请下载适用于whisper.cpp的Whisper模型。您可以选择不同大小的模型,模型越大,计算负载和准确度越高。
注意,带有En后缀的模型仅支持英语。
“音频语言”允许您手动设置视频(音频)的语言,默认为自动检测。
如果您想使用faster-whisper引擎代替whisper.cpp,请直接在设置中下载该引擎,无需再下载模型。使用faster-whisper时,首次选择模型会自动下载,无需提前准备。
关于各引擎的详细说明,请参阅此处。
- 设置翻译目标语言
要使用翻译功能,您需要先设置您的母语,这称为“目标语言”。而“源语言”则会自动检测。
在“字幕 > 翻译”部分,请在顶部设置“目标语言”。
默认的翻译引擎是GoogleV1。
若您想使用其他翻译引擎,需在设置中进行配置。详细信息请参阅此处。
- 播放带字幕的视频!
您可以通过右键菜单或直接拖放视频来播放。对于在线视频,也可以通过CTRL+V粘贴链接或从右键菜单中播放。
底部进度条上有两个“CC”按钮。
左侧为主要字幕,右侧为辅助字幕。请将主要字幕设置为您正在学习的语言,辅助字幕设置为您的母语。
添加外部字幕的方式与视频相同,可通过拖放或右键菜单完成。
- 打开使用指南
您可以通过按F1键或右键菜单打开内置的使用指南。
其中详细介绍了所有键盘和鼠标操作。键盘操作也可在设置中完全自定义。
❤️ 开发状态
状态:Beta
目前尚未经过足够用户的测试,可能存在不稳定情况。
UI和设置可能会发生重大变化。
在0.X.X版本期间,我将积极引入破坏性变更。
(更新时,配置文件可能无法向后兼容。)
🔨 构建
- 克隆仓库
$ git clone git@github.com:umlx5h/LLPlayer.git
- 打开项目
安装 Visual Studio 或 JetBrains Rider,并打开以下 slnx 文件。
$ ./LLPlayer.slnx
在 Visual Studio 中,您需要提前从设置中添加对 slnx 格式的预览支持。
- 构建
选择 LLPlayer 项目,然后进行构建并运行。
🚩 路线图
LLPlayer 的指导原则
- 成为一款专注于语言学习的播放器,而非通用型播放器
- 因此,它不应取代 mpv 或 VLC
- 支持尽可能多的语言
- 同时提供一些针对特定语言的功能
目前
完善核心功能
ASR
- 实现双字幕模式下的 ASR 字幕(其中一列为翻译)
- 暂停与恢复
字幕
- 分别自定义主、副字幕的语言偏好,并实现自动开启
- 增强本地字幕搜索功能
- 将 ASR/OCR 字幕结果导出为 SRT 文件
应用程序的稳定性优化
允许自定义鼠标快捷键
文档 / 更多帮助
之后
- 支持词典 API 或特定语言(英语、日语等)
- 针对观看动漫的日语专用支持。
- 词汇分割处理
- 将 Yomitan 或 10ten 集成到视频播放器中
- 文本转语音集成
- 更多翻译引擎,例如本地 LLM
未来
- 使用 Avalonia 实现跨平台支持(Linux / Mac)
- 上下文感知翻译
- 单词管理(参考 LingQ、Language Reactor)
- Anki 集成
🤝 贡献
非常欢迎贡献!由于项目使用 C#/WPF 编写,开发起来十分容易。
如果您希望改进视频播放器的核心部分,而不仅仅是 UI 和语言功能,LLPlayer 使用 Flyleaf 作为核心播放库。因此,您可以直接向 Flyleaf 提交更改,我会积极将其合并到 LLPlayer 中。
https://github.com/SuRGeoNix/Flyleaf
对于核心播放器部分的问题或请求,我可能无法一一回复,因为我目前对这些内容还不够了解。
更多开发者相关信息,请查看以下页面:
https://github.com/umlx5h/LLPlayer/wiki/For-Developers
🙏 特别感谢
没有以下的支持,LLPlayer 就不会存在!
对于库
在实现 LLPlayer 时,我选择了 Flyleaf .NET 库,而不是 libmpv 或 libVLC,我认为这是一个正确的决定!
该库设计简洁,易于修改,结合 C#/.NET 和 Visual Studio,开发效率非常高。相比之下,使用 libmpv 和 libVLC 进行库层面的修改会非常困难。
作者在解答初学者问题时给予了极大的帮助,并且响应速度非常快。
Flyleaf 自带一个 WPF 播放器示例,我从中借鉴了不少内容。非常感谢!
字幕生成依赖于 OpenAI Whisper、whisper.cpp 及其绑定 whisper.net。LLPlayer 只是简单地调用了这些库来生成字幕。感谢你们的免费提供!
- Sicos1977/TesseractOCR:用于 Tesseract OCR
- MaterialDesignInXAML/MaterialDesignInXamlToolkit:用于 UI
- searchpioneer/lingua-dotnet:用于语言检测
- CharsetDetector/UTF-unknown:用于字符集检测
- sskodje/WpfColorFont:用于字体选择
对于应用
Netflix 浏览器扩展程序。LLPlayer 的功能和界面主要受到它的启发。 (不过目前功能还远远不够)。
❓ 常见问题解答
问:ASR、OCR 和翻译是否需要网络通信?
ASR(自动生成字幕)和 OCR 字幕均在本地完成。
因此,完全不会产生任何网络通信。
不过,模型只需在首次使用时下载一次,这也是唯一涉及网络通信的环节。
如果你选择 Ollama 或 LM Studio API,翻译功能将在本地运行。
由于它是免费且开源的,你的隐私将得到充分保障。
问:如何加快 ASR 的速度?(whisper.cpp)
默认情况下,仅使用 CPU 生成字幕。
在 ASR 设置中将“线程数”设置为 2 或更多 可能会提升性能。
请注意,将其设置为超过 CPU 线程数是没有意义的。
如果你的机器配备了 NVIDIA 或 AMD GPU,可以在 ASR 设置的“硬件选项”中启用 CUDA 或 Vulkan,以实现更快的生成速度。
某些运行时环境可能需要提前安装工具包。详情请参阅以下链接:
https://github.com/sandrohanea/whisper.net?tab=readme-ov-file#runtimes-description
可用的运行时环境会按优先级从上到下依次使用。请注意,更改硬件选项设置后需要重启程序。
问:如果我想查单词的词典释义怎么办?
目前可以翻译单词,但还无法直接查询词典。
我计划在未来支持词典 API,但由于支持多种语言较为困难,目前暂不提供此功能。
作为替代方案,你可以将选中的单词复制到剪贴板。某些词典工具可以监控剪贴板并自动查找单词。
对于英英词典,强烈推荐使用 LDOCE5 Viewer。
问:能否使用 Yomitan 或 10ten 等浏览器扩展?
目前视频播放器内尚不支持直接使用这些扩展,但你可以通过剪贴板将字幕文本发送到浏览器。
这样,你就可以使用任何浏览器扩展(如 Yomitan 或 10ten)来查看单词含义。
这需要一些准备工作,请参阅以下页面:
https://github.com/umlx5h/LLPlayer/wiki/Browser-Extensions-Integration
问:如何更新 yt-dlp.exe?
yt-dlp.exe 位于以下路径:
Plugins/YoutubeDL/yt-dlp.exe
你可以从以下网址下载最新版本的可执行文件:
https://github.com/yt-dlp/yt-dlp/releases/
如果需要更新,请下载并将其复制到指定路径即可。
问:VLC 和 LLPlayer 有什么区别?
VLC 是一款通用的媒体播放器。
相比之下,LLPlayer 具有许多特别适合语言学习的功能。
| VLC | LLPlayer | |
|---|---|---|
| 跨平台(Win、Linux、Mac) | ✔️ | ❌ |
| 自动字幕生成 | 尚未支持(whisper.cpp) | ✔️(whisper.cpp、faster-whisper) |
| 实时翻译 | 尚未支持 | ✔️ |
| 本地翻译 | 尚未支持(SeamlessM4t?) | ✔️(Ollama、LM Studio) |
| 在线翻译 | ❌ | ✔️(Google、DeepL、OpenAI) |
| 上下文感知翻译 | ❌ | ✔️(由 LLM 提供) |
| 单词翻译 | ❌ | ✔️ |
| 单词查询 | ❌ | ✔️ |
| 字幕侧边栏 | ❌ | ✔️ |
| 字幕增量搜索 | ❌ | ✔️ |
| 字幕跳转 | ❌ | ✔️ |
| 双语字幕 | ✔️(使用不便) | ✔️ |
问:为什么要在实时进行字幕生成和翻译?
主要原因在于懒惰。预先生成字幕非常繁琐,尤其是对于在线视频而言。
而 ASR 和翻译可以从任意播放位置开始,因此即使你只想观看视频的一部分带字幕内容,也无需等待即可立即享受。
此外,软硬件技术的进步使得 ASR 和翻译能够达到更高的准确度。
📝 许可证
本项目采用 GPL-3.0 许可证。
版本历史
v0.2.22025/05/24v0.2.12025/04/12v0.2.02025/04/08v0.1.32025/03/18v0.1.22025/02/19v0.1.12025/02/16v0.1.02025/02/12v0.0.42025/02/07v0.0.32025/02/06v0.0.22025/02/01v0.0.12025/01/31常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器