LLPlayer

GitHub
3.6k 201 简单 1 次阅读 今天GPL-3.0开发框架音频语言模型图像视频
AI 解读 由 AI 自动生成,仅供参考

LLPlayer 是一款专为语言学习者打造的智能媒体播放器。它解决了传统播放器在辅助外语学习时功能匮乏的痛点,让用户无需在播放器、词典和翻译网站之间频繁切换,即可实现沉浸式的高效学习。

无论是正在攻克外语的学生、自学者,还是需要对音视频素材进行精细化处理的语言教师,都能从中受益。LLPlayer 的核心优势在于其强大的字幕处理能力:支持双语字幕同屏显示,并能利用 OpenAI Whisper 等引擎实时为无字幕视频生成 AI 字幕。更独特的是,它集成了大语言模型(LLM)进行上下文感知的实时翻译,显著提升了翻译准确度;同时具备实时 OCR 功能,可将图片格式字幕瞬间转换为可查询的文本。

此外,LLPlayer 支持点击单词即时查词、自定义浏览器搜索、灵活调整字幕布局,并能直接播放来自 YouTube 等平台的在线视频。作为一款基于 C# 开发的免费开源工具,它不仅功能全面,还允许用户深度定制快捷键与界面主题,是外语视听学习的得力助手。

使用场景

一名准备托福考试的职场新人,正试图通过观看无字幕的 TED 科技演讲来提升听力并积累专业词汇。

没有 LLPlayer 时

  • 字幕缺失或不同步:原始视频缺乏中文字幕,手动寻找字幕文件不仅耗时,还经常遇到时间轴对不上的尴尬情况。
  • 查词打断思路:遇到听不懂的专业术语(如"monolithic kernel")时,必须暂停视频、切换窗口去浏览器搜索,导致学习心流频繁中断。
  • 理解门槛高:仅靠英文字幕难以快速 grasp 深层含义,缺乏上下文感知的机器翻译往往生硬晦涩,无法辅助深度理解。
  • 功能割裂:需要在播放器、词典软件、翻译网页之间来回切换,桌面杂乱且操作繁琐,学习效率极低。

使用 LLPlayer 后

  • AI 实时生成双语字幕:LLPlayer 调用 Whisper 引擎即时为任何视频生成精准字幕,并自动展示“英文原文 + 中文译文”双轨字幕,无需手动下载。
  • 即点即查无缝衔接:直接在字幕上点击生词,LLPlayer 立即弹出释义或调用自定义搜索引擎,无需离开播放界面,学习过程流畅自然。
  • 语境化智能翻译:借助 LLM 能力,LLPlayer 提供的实时翻译能识别演讲上下文,将技术术语翻译得准确且通顺,大幅降低理解难度。
  • 一站式沉浸学习:集成字幕侧边栏、OCR 识别及在线视频播放功能,所有学习工具集中在一个窗口内,让用户专注于内容本身。

LLPlayer 将原本碎片化、高阻力的语言学习过程,转化为流畅、智能且高度沉浸的沉浸式体验。

运行环境要求

操作系统
  • Windows
GPU
  • 非必需
  • NVIDIA RTX GPU 用户可选装 CUDA 12.8 以加速字幕渲染(特别是 Blackwell 架构/RTX 50xx 系列)
内存

未说明

依赖
notes1. 仅支持 Windows 10 x64 (版本 1903+) 和 Windows 11 x64。 2. 必须安装 .NET Desktop Runtime 9,否则无法运行。 3. 必须安装 Microsoft Visual C++ Redistributable (>=2022),否则启用 ASR (自动字幕) 或 OCR 功能时会崩溃。 4. AI 字幕生成 (ASR) 和 OCR 均在本地运行,无需联网(仅需首次下载模型)。 5. 翻译功能支持本地大模型 (Ollama, LM Studio) 以保护隐私。
python不需要 (基于 C#/.NET)
.NET Desktop Runtime 9
Microsoft Visual C++ Redistributable >= 2022
whisper.cpp 或 faster-whisper (内置/可选下载)
Tesseract OCR (内置)
yt-dlp (内置)
Flyleaf (核心播放库)
LLPlayer hero image

快速开始

LLPlayer

一款专为语言学习设计的媒体播放器。

这是一款专注于字幕相关功能的视频播放器,支持双字幕、AI生成字幕、实时翻译、单词查询等强大特性!

官网 · 发布页面


🎬 演示

https://github.com/user-attachments/assets/05a7b451-ee3b-489f-aac9-f1670ed76e71

TED演讲 - Linux之父的心路历程

✨ 功能

LLPlayer为语言学习提供了许多普通视频播放器所不具备的功能。

  • 双字幕模式: 可同时显示两组字幕。支持文本字幕和位图字幕。
  • AI生成字幕(ASR): 基于OpenAI Whisper技术,可对任何视频和音频进行实时自动字幕生成。支持whisper.cppfaster-whisper两种引擎。
  • 实时翻译: 支持多种翻译引擎,如Google、DeepL、Ollama、LM Studio、OpenAI等。
  • 上下文感知翻译: 通过LLM识别字幕上下文,实现高精度翻译。
  • 实时OCR字幕: 基于Tesseract OCR和Microsoft OCR技术,可将位图字幕实时转换为文本字幕。
  • 字幕侧边栏: 同时支持文本和位图字幕,可进行字幕跳转和单词查询,并支持增量式字幕搜索。
  • 即时单词查询: 可对字幕中的单词进行查询并直接在浏览器中搜索。
  • 自定义浏览器搜索: 从单词的右键菜单即可发起浏览器搜索,且搜索网站可完全自定义。
  • 播放在线视频: 集成yt-dlp,可实时播放任意在线视频,并支持AI字幕生成和单词查询!
  • 灵活的字幕大小与位置设置: 双字幕的大小和位置均可自由调整。
  • 兼容多种字幕格式: 任何字幕格式都可用于字幕跳转。
  • 内置字幕下载器: 支持opensubtitles.org。
  • 与浏览器扩展集成: 可与各种浏览器插件配合使用,例如Yomitan10ten
  • 可定制深色主题: 主题以黑色为主,用户可进一步自定义。
  • 全键盘快捷键自定义: 所有快捷键均可完全自定义,同一操作甚至可以绑定到多个按键!
  • 内置使用指南: 应用程序内即提供使用说明。
  • 免费开源,采用C#编写: 使用C#/WPF开发,而非C语言,因此高度易于定制!

🖼️ 截图

LLPlayer截图

TED演讲 - Linux之父的心路历程

✅ 系统要求

[操作系统]

  • Windows 10 x64,版本1903及以上
  • Windows 11 x64

[前置条件]

[针对Nvidia用户(RTX显卡)]

  • 注:安装CUDA驱动可加速字幕渲染 CUDA 12.8(请注意,若使用Blackwell GPU或希望启用CUDA(RTX 50xx系列),则需安装此驱动)

🚀 快速上手

  1. 发布页面下载安装包

  2. 启动LLPlayer

请打开LLPlayer.exe

  1. 进入设置

按下CTRL+.或点击进度条上的设置图标,即可打开设置窗口。

  1. 下载Whisper模型用于ASR

在“字幕 > ASR”部分,请下载适用于whisper.cpp的Whisper模型。您可以选择不同大小的模型,模型越大,计算负载和准确度越高。

注意,带有En后缀的模型仅支持英语。

“音频语言”允许您手动设置视频(音频)的语言,默认为自动检测。

如果您想使用faster-whisper引擎代替whisper.cpp,请直接在设置中下载该引擎,无需再下载模型。使用faster-whisper时,首次选择模型会自动下载,无需提前准备。

关于各引擎的详细说明,请参阅此处

  1. 设置翻译目标语言

要使用翻译功能,您需要先设置您的母语,这称为“目标语言”。而“源语言”则会自动检测。

在“字幕 > 翻译”部分,请在顶部设置“目标语言”。

默认的翻译引擎是GoogleV1

若您想使用其他翻译引擎,需在设置中进行配置。详细信息请参阅此处

  1. 播放带字幕的视频!

您可以通过右键菜单或直接拖放视频来播放。对于在线视频,也可以通过CTRL+V粘贴链接或从右键菜单中播放。

底部进度条上有两个“CC”按钮。

左侧为主要字幕,右侧为辅助字幕。请将主要字幕设置为您正在学习的语言,辅助字幕设置为您的母语。

添加外部字幕的方式与视频相同,可通过拖放或右键菜单完成。

  1. 打开使用指南

您可以通过按F1键或右键菜单打开内置的使用指南。

其中详细介绍了所有键盘和鼠标操作。键盘操作也可在设置中完全自定义。

❤️ 开发状态

状态:Beta

目前尚未经过足够用户的测试,可能存在不稳定情况。

UI和设置可能会发生重大变化。
0.X.X版本期间,我将积极引入破坏性变更。

(更新时,配置文件可能无法向后兼容。)

🔨 构建

  1. 克隆仓库
$ git clone git@github.com:umlx5h/LLPlayer.git
  1. 打开项目

安装 Visual Studio 或 JetBrains Rider,并打开以下 slnx 文件。

$ ./LLPlayer.slnx

在 Visual Studio 中,您需要提前从设置中添加对 slnx 格式的预览支持。

  1. 构建

选择 LLPlayer 项目,然后进行构建并运行。

🚩 路线图

LLPlayer 的指导原则

  • 成为一款专注于语言学习的播放器,而非通用型播放器
    • 因此,它不应取代 mpv 或 VLC
  • 支持尽可能多的语言
  • 同时提供一些针对特定语言的功能

目前

  • 完善核心功能

    • ASR

      • 实现双字幕模式下的 ASR 字幕(其中一列为翻译)
      • 暂停与恢复
    • 字幕

  • 应用程序的稳定性优化

  • 允许自定义鼠标快捷键

  • 文档 / 更多帮助

之后

未来

  • 使用 Avalonia 实现跨平台支持(Linux / Mac)
  • 上下文感知翻译
  • 单词管理(参考 LingQ、Language Reactor)
  • Anki 集成

🤝 贡献

非常欢迎贡献!由于项目使用 C#/WPF 编写,开发起来十分容易。

如果您希望改进视频播放器的核心部分,而不仅仅是 UI 和语言功能,LLPlayer 使用 Flyleaf 作为核心播放库。因此,您可以直接向 Flyleaf 提交更改,我会积极将其合并到 LLPlayer 中。

https://github.com/SuRGeoNix/Flyleaf

对于核心播放器部分的问题或请求,我可能无法一一回复,因为我目前对这些内容还不够了解。

更多开发者相关信息,请查看以下页面:

https://github.com/umlx5h/LLPlayer/wiki/For-Developers

Ask DeepWiki

🙏 特别感谢

没有以下的支持,LLPlayer 就不会存在!

对于库

在实现 LLPlayer 时,我选择了 Flyleaf .NET 库,而不是 libmpvlibVLC,我认为这是一个正确的决定!

该库设计简洁,易于修改,结合 C#/.NET 和 Visual Studio,开发效率非常高。相比之下,使用 libmpv 和 libVLC 进行库层面的修改会非常困难。

作者在解答初学者问题时给予了极大的帮助,并且响应速度非常快。

Flyleaf 自带一个 WPF 播放器示例,我从中借鉴了不少内容。非常感谢!

字幕生成依赖于 OpenAI Whisper、whisper.cpp 及其绑定 whisper.net。LLPlayer 只是简单地调用了这些库来生成字幕。感谢你们的免费提供!

对于应用

Netflix 浏览器扩展程序。LLPlayer 的功能和界面主要受到它的启发。 (不过目前功能还远远不够)。

❓ 常见问题解答

问:ASR、OCR 和翻译是否需要网络通信?

ASR(自动生成字幕)和 OCR 字幕均在本地完成。
因此,完全不会产生任何网络通信。

不过,模型只需在首次使用时下载一次,这也是唯一涉及网络通信的环节。

如果你选择 Ollama 或 LM Studio API,翻译功能将在本地运行。
由于它是免费且开源的,你的隐私将得到充分保障。

问:如何加快 ASR 的速度?(whisper.cpp)

默认情况下,仅使用 CPU 生成字幕。
在 ASR 设置中将“线程数”设置为 2 或更多 可能会提升性能。

请注意,将其设置为超过 CPU 线程数是没有意义的。

如果你的机器配备了 NVIDIA 或 AMD GPU,可以在 ASR 设置的“硬件选项”中启用 CUDAVulkan,以实现更快的生成速度。

某些运行时环境可能需要提前安装工具包。详情请参阅以下链接:

https://github.com/sandrohanea/whisper.net?tab=readme-ov-file#runtimes-description

可用的运行时环境会按优先级从上到下依次使用。请注意,更改硬件选项设置后需要重启程序。

问:如果我想查单词的词典释义怎么办?

目前可以翻译单词,但还无法直接查询词典。

我计划在未来支持词典 API,但由于支持多种语言较为困难,目前暂不提供此功能。

作为替代方案,你可以将选中的单词复制到剪贴板。某些词典工具可以监控剪贴板并自动查找单词。

对于英英词典,强烈推荐使用 LDOCE5 Viewer

问:能否使用 Yomitan 或 10ten 等浏览器扩展?

目前视频播放器内尚不支持直接使用这些扩展,但你可以通过剪贴板将字幕文本发送到浏览器。
这样,你就可以使用任何浏览器扩展(如 Yomitan10ten)来查看单词含义。

这需要一些准备工作,请参阅以下页面:
https://github.com/umlx5h/LLPlayer/wiki/Browser-Extensions-Integration

问:如何更新 yt-dlp.exe?

yt-dlp.exe 位于以下路径:

Plugins/YoutubeDL/yt-dlp.exe

你可以从以下网址下载最新版本的可执行文件:

https://github.com/yt-dlp/yt-dlp/releases/

如果需要更新,请下载并将其复制到指定路径即可。

问:VLC 和 LLPlayer 有什么区别?

VLC 是一款通用的媒体播放器。
相比之下,LLPlayer 具有许多特别适合语言学习的功能。

VLC LLPlayer
跨平台(Win、Linux、Mac) ✔️
自动字幕生成 尚未支持(whisper.cpp) ✔️(whisper.cpp、faster-whisper)
实时翻译 尚未支持 ✔️
本地翻译 尚未支持(SeamlessM4t?) ✔️(Ollama、LM Studio)
在线翻译 ✔️(Google、DeepL、OpenAI)
上下文感知翻译 ✔️(由 LLM 提供)
单词翻译 ✔️
单词查询 ✔️
字幕侧边栏 ✔️
字幕增量搜索 ✔️
字幕跳转 ✔️
双语字幕 ✔️(使用不便) ✔️

问:为什么要在实时进行字幕生成和翻译?

主要原因在于懒惰。预先生成字幕非常繁琐,尤其是对于在线视频而言。
而 ASR 和翻译可以从任意播放位置开始,因此即使你只想观看视频的一部分带字幕内容,也无需等待即可立即享受。

此外,软硬件技术的进步使得 ASR 和翻译能够达到更高的准确度。

📝 许可证

本项目采用 GPL-3.0 许可证

版本历史

v0.2.22025/05/24
v0.2.12025/04/12
v0.2.02025/04/08
v0.1.32025/03/18
v0.1.22025/02/19
v0.1.12025/02/16
v0.1.02025/02/12
v0.0.42025/02/07
v0.0.32025/02/06
v0.0.22025/02/01
v0.0.12025/01/31

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|6天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

151.9k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|2天前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|2天前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|6天前
插件开发框架