LLPlayer

3.6k 201 简单 1 次阅读今天GPL-3.0开发框架音频语言模型图像视频

AI 解读由 AI 自动生成，仅供参考

LLPlayer 是一款专为语言学习者打造的智能媒体播放器。它解决了传统播放器在辅助外语学习时功能匮乏的痛点，让用户无需在播放器、词典和翻译网站之间频繁切换，即可实现沉浸式的高效学习。

无论是正在攻克外语的学生、自学者，还是需要对音视频素材进行精细化处理的语言教师，都能从中受益。LLPlayer 的核心优势在于其强大的字幕处理能力：支持双语字幕同屏显示，并能利用 OpenAI Whisper 等引擎实时为无字幕视频生成 AI 字幕。更独特的是，它集成了大语言模型（LLM）进行上下文感知的实时翻译，显著提升了翻译准确度；同时具备实时 OCR 功能，可将图片格式字幕瞬间转换为可查询的文本。

此外，LLPlayer 支持点击单词即时查词、自定义浏览器搜索、灵活调整字幕布局，并能直接播放来自 YouTube 等平台的在线视频。作为一款基于 C# 开发的免费开源工具，它不仅功能全面，还允许用户深度定制快捷键与界面主题，是外语视听学习的得力助手。

使用场景

一名准备托福考试的职场新人，正试图通过观看无字幕的 TED 科技演讲来提升听力并积累专业词汇。

没有 LLPlayer 时

字幕缺失或不同步：原始视频缺乏中文字幕，手动寻找字幕文件不仅耗时，还经常遇到时间轴对不上的尴尬情况。
查词打断思路：遇到听不懂的专业术语（如"monolithic kernel"）时，必须暂停视频、切换窗口去浏览器搜索，导致学习心流频繁中断。
理解门槛高：仅靠英文字幕难以快速 grasp 深层含义，缺乏上下文感知的机器翻译往往生硬晦涩，无法辅助深度理解。
功能割裂：需要在播放器、词典软件、翻译网页之间来回切换，桌面杂乱且操作繁琐，学习效率极低。

使用 LLPlayer 后

AI 实时生成双语字幕：LLPlayer 调用 Whisper 引擎即时为任何视频生成精准字幕，并自动展示“英文原文 + 中文译文”双轨字幕，无需手动下载。
即点即查无缝衔接：直接在字幕上点击生词，LLPlayer 立即弹出释义或调用自定义搜索引擎，无需离开播放界面，学习过程流畅自然。
语境化智能翻译：借助 LLM 能力，LLPlayer 提供的实时翻译能识别演讲上下文，将技术术语翻译得准确且通顺，大幅降低理解难度。
一站式沉浸学习：集成字幕侧边栏、OCR 识别及在线视频播放功能，所有学习工具集中在一个窗口内，让用户专注于内容本身。

LLPlayer 将原本碎片化、高阻力的语言学习过程，转化为流畅、智能且高度沉浸的沉浸式体验。

运行环境要求

操作系统

Windows

GPU

非必需
NVIDIA RTX GPU 用户可选装 CUDA 12.8 以加速字幕渲染（特别是 Blackwell 架构/RTX 50xx 系列）

内存

未说明

依赖

notes1. 仅支持 Windows 10 x64 (版本 1903+) 和 Windows 11 x64。 2. 必须安装 .NET Desktop Runtime 9，否则无法运行。 3. 必须安装 Microsoft Visual C++ Redistributable (>=2022)，否则启用 ASR (自动字幕) 或 OCR 功能时会崩溃。 4. AI 字幕生成 (ASR) 和 OCR 均在本地运行，无需联网（仅需首次下载模型）。 5. 翻译功能支持本地大模型 (Ollama, LM Studio) 以保护隐私。

python不需要 (基于 C#/.NET)

.NET Desktop Runtime 9

Microsoft Visual C++ Redistributable >= 2022

whisper.cpp 或 faster-whisper (内置/可选下载)

Tesseract OCR (内置)

yt-dlp (内置)

Flyleaf (核心播放库)

快速开始

LLPlayer

一款专为语言学习设计的媒体播放器。

这是一款专注于字幕相关功能的视频播放器，支持双字幕、AI生成字幕、实时翻译、单词查询等强大特性！

官网 · 发布页面

🎬 演示

https://github.com/user-attachments/assets/05a7b451-ee3b-489f-aac9-f1670ed76e71

TED演讲 - Linux之父的心路历程

✨ 功能

LLPlayer为语言学习提供了许多普通视频播放器所不具备的功能。

双字幕模式： 可同时显示两组字幕。支持文本字幕和位图字幕。
AI生成字幕（ASR）： 基于OpenAI Whisper技术，可对任何视频和音频进行实时自动字幕生成。支持whisper.cpp和faster-whisper两种引擎。
实时翻译： 支持多种翻译引擎，如Google、DeepL、Ollama、LM Studio、OpenAI等。
上下文感知翻译： 通过LLM识别字幕上下文，实现高精度翻译。
实时OCR字幕： 基于Tesseract OCR和Microsoft OCR技术，可将位图字幕实时转换为文本字幕。
字幕侧边栏： 同时支持文本和位图字幕，可进行字幕跳转和单词查询，并支持增量式字幕搜索。
即时单词查询： 可对字幕中的单词进行查询并直接在浏览器中搜索。
自定义浏览器搜索： 从单词的右键菜单即可发起浏览器搜索，且搜索网站可完全自定义。
播放在线视频： 集成yt-dlp，可实时播放任意在线视频，并支持AI字幕生成和单词查询！
灵活的字幕大小与位置设置： 双字幕的大小和位置均可自由调整。
兼容多种字幕格式： 任何字幕格式都可用于字幕跳转。
内置字幕下载器： 支持opensubtitles.org。
与浏览器扩展集成： 可与各种浏览器插件配合使用，例如Yomitan和10ten。
可定制深色主题： 主题以黑色为主，用户可进一步自定义。
全键盘快捷键自定义： 所有快捷键均可完全自定义，同一操作甚至可以绑定到多个按键！
内置使用指南： 应用程序内即提供使用说明。
免费开源，采用C#编写： 使用C#/WPF开发，而非C语言，因此高度易于定制！

🖼️ 截图

LLPlayer截图

TED演讲 - Linux之父的心路历程

✅ 系统要求

[操作系统]

Windows 10 x64，版本1903及以上
Windows 11 x64

[前置条件]

.NET桌面运行时9
- 若未安装，将弹出安装提示框
Microsoft Visual C++ Redistributable >= 2022版（用于Whisper ASR和Tesseract OCR）
- 注意：若未安装，应用程序虽能启动，但启用ASR或OCR时会崩溃！

[针对Nvidia用户（RTX显卡）]

注：安装CUDA驱动可加速字幕渲染 CUDA 12.8（请注意，若使用Blackwell GPU或希望启用CUDA（RTX 50xx系列），则需安装此驱动）

🚀 快速上手

从发布页面下载安装包
启动LLPlayer

请打开LLPlayer.exe。

进入设置

按下CTRL+.或点击进度条上的设置图标，即可打开设置窗口。

下载Whisper模型用于ASR

在“字幕 > ASR”部分，请下载适用于whisper.cpp的Whisper模型。您可以选择不同大小的模型，模型越大，计算负载和准确度越高。

注意，带有En后缀的模型仅支持英语。

“音频语言”允许您手动设置视频（音频）的语言，默认为自动检测。

如果您想使用faster-whisper引擎代替whisper.cpp，请直接在设置中下载该引擎，无需再下载模型。使用faster-whisper时，首次选择模型会自动下载，无需提前准备。

关于各引擎的详细说明，请参阅此处。

设置翻译目标语言

要使用翻译功能，您需要先设置您的母语，这称为“目标语言”。而“源语言”则会自动检测。

在“字幕 > 翻译”部分，请在顶部设置“目标语言”。

默认的翻译引擎是GoogleV1。

若您想使用其他翻译引擎，需在设置中进行配置。详细信息请参阅此处。

播放带字幕的视频！

您可以通过右键菜单或直接拖放视频来播放。对于在线视频，也可以通过CTRL+V粘贴链接或从右键菜单中播放。

底部进度条上有两个“CC”按钮。

左侧为主要字幕，右侧为辅助字幕。请将主要字幕设置为您正在学习的语言，辅助字幕设置为您的母语。

添加外部字幕的方式与视频相同，可通过拖放或右键菜单完成。

打开使用指南

您可以通过按F1键或右键菜单打开内置的使用指南。

其中详细介绍了所有键盘和鼠标操作。键盘操作也可在设置中完全自定义。

❤️ 开发状态

状态：Beta

目前尚未经过足够用户的测试，可能存在不稳定情况。

UI和设置可能会发生重大变化。
在0.X.X版本期间，我将积极引入破坏性变更。

（更新时，配置文件可能无法向后兼容。）

🔨 构建

克隆仓库

$ git clone git@github.com:umlx5h/LLPlayer.git

打开项目

安装 Visual Studio 或 JetBrains Rider，并打开以下 slnx 文件。

$ ./LLPlayer.slnx

在 Visual Studio 中，您需要提前从设置中添加对 slnx 格式的预览支持。

构建

选择 LLPlayer 项目，然后进行构建并运行。

🚩 路线图

LLPlayer 的指导原则

成为一款专注于语言学习的播放器，而非通用型播放器
- 因此，它不应取代 mpv 或 VLC
支持尽可能多的语言
同时提供一些针对特定语言的功能

目前

完善核心功能
- ASR
  - 实现双字幕模式下的 ASR 字幕（其中一列为翻译）
  - 暂停与恢复
- 字幕
  - 分别自定义主、副字幕的语言偏好，并实现自动开启
  - 增强本地字幕搜索功能
  - 将 ASR/OCR 字幕结果导出为 SRT 文件
应用程序的稳定性优化
允许自定义鼠标快捷键
文档 / 更多帮助

之后

支持词典 API 或特定语言（英语、日语等）
针对观看动漫的日语专用支持。
- 词汇分割处理
- 将 Yomitan 或 10ten 集成到视频播放器中
文本转语音集成
更多翻译引擎，例如本地 LLM

未来

使用 Avalonia 实现跨平台支持（Linux / Mac）
上下文感知翻译
单词管理（参考 LingQ、Language Reactor）
Anki 集成

🤝 贡献

非常欢迎贡献！由于项目使用 C#/WPF 编写，开发起来十分容易。

如果您希望改进视频播放器的核心部分，而不仅仅是 UI 和语言功能，LLPlayer 使用 Flyleaf 作为核心播放库。因此，您可以直接向 Flyleaf 提交更改，我会积极将其合并到 LLPlayer 中。

https://github.com/SuRGeoNix/Flyleaf

对于核心播放器部分的问题或请求，我可能无法一一回复，因为我目前对这些内容还不够了解。

更多开发者相关信息，请查看以下页面：

https://github.com/umlx5h/LLPlayer/wiki/For-Developers

🙏 特别感谢

没有以下的支持，LLPlayer 就不会存在！

对于库

SuRGeoNix/Flyleaf

在实现 LLPlayer 时，我选择了 Flyleaf .NET 库，而不是 libmpv 或 libVLC，我认为这是一个正确的决定！

该库设计简洁，易于修改，结合 C#/.NET 和 Visual Studio，开发效率非常高。相比之下，使用 libmpv 和 libVLC 进行库层面的修改会非常困难。

作者在解答初学者问题时给予了极大的帮助，并且响应速度非常快。

Flyleaf 自带一个 WPF 播放器示例，我从中借鉴了不少内容。非常感谢！

字幕生成依赖于 OpenAI Whisper、whisper.cpp 及其绑定 whisper.net。LLPlayer 只是简单地调用了这些库来生成字幕。感谢你们的免费提供！

Sicos1977/TesseractOCR：用于 Tesseract OCR
MaterialDesignInXAML/MaterialDesignInXamlToolkit：用于 UI
searchpioneer/lingua-dotnet：用于语言检测
CharsetDetector/UTF-unknown：用于字符集检测
sskodje/WpfColorFont：用于字体选择

对于应用

Language Reactor

Netflix 浏览器扩展程序。LLPlayer 的功能和界面主要受到它的启发。（不过目前功能还远远不够）。

❓ 常见问题解答

问：ASR、OCR 和翻译是否需要网络通信？

ASR（自动生成字幕）和 OCR 字幕均在本地完成。
因此，完全不会产生任何网络通信。

不过，模型只需在首次使用时下载一次，这也是唯一涉及网络通信的环节。

如果你选择 Ollama 或 LM Studio API，翻译功能将在本地运行。
由于它是免费且开源的，你的隐私将得到充分保障。

问：如何加快 ASR 的速度？（whisper.cpp）

默认情况下，仅使用 CPU 生成字幕。
在 ASR 设置中将“线程数”设置为 2 或更多 可能会提升性能。

请注意，将其设置为超过 CPU 线程数是没有意义的。

如果你的机器配备了 NVIDIA 或 AMD GPU，可以在 ASR 设置的“硬件选项”中启用 CUDA 或 Vulkan，以实现更快的生成速度。

某些运行时环境可能需要提前安装工具包。详情请参阅以下链接：

https://github.com/sandrohanea/whisper.net?tab=readme-ov-file#runtimes-description

可用的运行时环境会按优先级从上到下依次使用。请注意，更改硬件选项设置后需要重启程序。

问：如果我想查单词的词典释义怎么办？

目前可以翻译单词，但还无法直接查询词典。

我计划在未来支持词典 API，但由于支持多种语言较为困难，目前暂不提供此功能。

作为替代方案，你可以将选中的单词复制到剪贴板。某些词典工具可以监控剪贴板并自动查找单词。

对于英英词典，强烈推荐使用 LDOCE5 Viewer。

问：能否使用 Yomitan 或 10ten 等浏览器扩展？

目前视频播放器内尚不支持直接使用这些扩展，但你可以通过剪贴板将字幕文本发送到浏览器。
这样，你就可以使用任何浏览器扩展（如 Yomitan 或 10ten）来查看单词含义。

这需要一些准备工作，请参阅以下页面：
https://github.com/umlx5h/LLPlayer/wiki/Browser-Extensions-Integration

问：如何更新 yt-dlp.exe？

yt-dlp.exe 位于以下路径：

Plugins/YoutubeDL/yt-dlp.exe

你可以从以下网址下载最新版本的可执行文件：

https://github.com/yt-dlp/yt-dlp/releases/

如果需要更新，请下载并将其复制到指定路径即可。

问：VLC 和 LLPlayer 有什么区别？

VLC 是一款通用的媒体播放器。
相比之下，LLPlayer 具有许多特别适合语言学习的功能。

	VLC	LLPlayer
跨平台（Win、Linux、Mac）	✔️	❌
自动字幕生成	尚未支持（whisper.cpp）	✔️（whisper.cpp、faster-whisper）
实时翻译	尚未支持	✔️
本地翻译	尚未支持（SeamlessM4t?）	✔️（Ollama、LM Studio）
在线翻译	❌	✔️（Google、DeepL、OpenAI）
上下文感知翻译	❌	✔️（由 LLM 提供）
单词翻译	❌	✔️
单词查询	❌	✔️
字幕侧边栏	❌	✔️
字幕增量搜索	❌	✔️
字幕跳转	❌	✔️
双语字幕	✔️（使用不便）	✔️

问：为什么要在实时进行字幕生成和翻译？

主要原因在于懒惰。预先生成字幕非常繁琐，尤其是对于在线视频而言。
而 ASR 和翻译可以从任意播放位置开始，因此即使你只想观看视频的一部分带字幕内容，也无需等待即可立即享受。

此外，软硬件技术的进步使得 ASR 和翻译能够达到更高的准确度。

📝 许可证

本项目采用 GPL-3.0 许可证。

LLPlayer 快速上手指南

LLPlayer 是一款专为语言学习设计的媒体播放器，支持双语字幕、AI 实时生成字幕（ASR）、实时翻译、单词查询等功能。

环境准备

系统要求

操作系统：Windows 10 x64 (版本 1903 及以上) 或 Windows 11 x64
运行环境：
- .NET Desktop Runtime 9
  - 注：若未安装，启动程序时会自动弹出安装向导。
- Microsoft Visual C++ Redistributable Version >= 2022
  - 重要：若未安装此组件，程序可启动，但在启用 ASR (自动字幕) 或 OCR (文字识别) 功能时会直接崩溃。

硬件加速（可选）

NVIDIA 用户 (RTX 显卡)：安装 CUDA 12.8 可显著提升字幕渲染速度。
- 注：使用 Blackwell 架构显卡 (如 RTX 50xx 系列) 必须安装此驱动以启用 CUDA 加速。

安装步骤

LLPlayer 目前提供便携版安装包，无需复杂配置，下载即可运行。

下载安装包 访问官方 Release 页面下载最新版本： https://github.com/umlx5h/LLPlayer/releases
解压与运行 下载完成后解压压缩包，双击运行 LLPlayer.exe 即可启动程序。

基本使用

1. 配置 AI 字幕引擎 (ASR)

首次使用需下载 Whisper 模型以支持实时字幕生成。

按下 CTRL+. 或点击进度条上的设置图标打开 设置 (Settings)。
进入 Subtitles > ASR 选项卡。
在 whisper.cpp 部分下载所需的模型（模型越大，准确率越高，但资源占用也越大）。
- 提示：以 En 结尾的模型仅支持英语。
音频语言：默认为自动检测，也可手动指定视频语言。
备选方案：若想使用 faster-whisper 引擎，请在设置中下载该引擎而非模型。使用 faster-whisper 时，选定模型会在首次运行时自动下载。

2. 配置实时翻译

在设置中进入 Subtitles > Translate 选项卡。
设置 目标语言 (Target Language) 为你的母语（例如：中文）。
源语言将自动检测。
默认翻译引擎为 GoogleV1。如需使用 DeepL、Ollama 或本地 LLM，请在此处切换并配置相应参数。

3. 播放视频与加载字幕

本地视频：直接将视频文件拖入窗口，或通过右键菜单打开。
在线视频：复制视频链接，在 LLPlayer 中按下 CTRL+V 或通过右键菜单粘贴即可播放（依赖 yt-dlp）。
外挂字幕：拖入字幕文件或通过右键菜单加载，操作同视频文件。

4. 使用双语字幕功能

界面底部进度条上方有两个 CC 按钮：

左侧 CC：主字幕（建议设置为正在学习的语言）。
右侧 CC：副字幕（建议设置为母语/翻译语言）。

点击对应按钮可开启/关闭字幕。你可以在设置中灵活调整双字幕的大小和位置。

5. 其他实用功能

单词查询：鼠标悬停或点击字幕中的单词，可进行即时查词或自定义浏览器搜索。
快捷键速查：按下 F1 或在右键菜单中打开内置的 CheatSheet，查看所有键盘和鼠标控制说明。
侧边栏：支持字幕列表浏览、跳转及增量搜索。

注意：当前版本处于 Beta 阶段，UI 和设置可能会在未来版本中发生较大变化。

版本历史

v0.2.22025/05/24

v0.2.12025/04/12

v0.2.02025/04/08

v0.1.32025/03/18

v0.1.22025/02/19

v0.1.12025/02/16

v0.1.02025/02/12

v0.0.42025/02/07

v0.0.32025/02/06

v0.0.22025/02/01

v0.0.12025/01/31

常见问题

在 ARM 架构的 Windows 设备（如骁龙 X Plus）上无法使用 ASR 功能怎么办？

播放 YouTube 链接时出现 `[avformat_open_input] Error number -138` 错误如何解决？

生成的字幕出现重复、幻觉（hallucination）或长时间停留在同一行怎么办？

自动检测的语言不准确或翻译结果错误怎么办？

直播流中的视频滤镜（亮度、对比度等）控制项不起作用怎么办？

如何获取调试日志以帮助开发者排查播放错误或字幕问题？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|6天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 151.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|2天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|2天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|6天前

插件开发框架