ik_llama.cpp

GitHub
2k 256 较难 1 次阅读 今天MIT语言模型开发框架
AI 解读 由 AI 自动生成,仅供参考

ik_llama.cpp 是知名开源项目 llama.cpp 的一个高性能分支,专注于大幅提升大语言模型在 CPU 及混合 GPU/CPU 环境下的推理速度。它主要解决了原版在特定硬件上运行效率不足的问题,让普通电脑也能更流畅地运行大型 AI 模型。

该项目特别适合希望在本地部署模型的研究人员、开发者以及拥有中高端显卡或现代 CPU 的进阶用户。如果你关注推理成本或隐私安全,想要在本地设备上获得更快的响应体验,ik_llama.cpp 是一个极佳的选择。

其核心技术亮点包括引入了多种当前最先进的量化格式(SOTA quants),显著降低了显存占用并提升了计算效率;原生支持 Bitnet 架构模型;针对 DeepSeek 等热门模型优化了 MLA 和 MoE(混合专家)操作;还提供了灵活的张量覆盖功能,允许用户精细控制哪些层在 GPU 运行、哪些在 CPU 运行,从而最大化异构计算性能。需要注意的是,目前该项目主要完善支持 AVX2/ARM_NEON 指令集的 CPU 以及 Turing 架构以后的 NVIDIA 显卡,其他后端的支持尚需社区共同完善。

使用场景

某独立开发者试图在仅配备 RTX 3060 显卡和主流 CPU 的工作站上,本地部署并运行最新的 DeepSeek-V3 或 Qwen3 大模型以构建离线知识库助手。

没有 ik_llama.cpp 时

  • 推理速度缓慢:原生 llama.cpp 对混合专家模型(MoE)和新型架构优化不足,导致生成令牌速度极低,用户等待时间过长,无法流畅对话。
  • 显存与内存瓶颈:缺乏高效的行交错量化打包技术,使得加载高精度模型时显存占用过高,被迫降低上下文长度或改用效果较差的低比特量化。
  • 硬件利用率低:在 GPU 显存不足以容纳全部模型层时,CPU 与 GPU 的协同推理效率低下,数据交换成为严重瓶颈,甚至出现响应乱码。
  • 新模型支持滞后:对于 Bitnet 架构或最新的 MLA 注意力机制支持不完善,导致无法直接运行社区最新发布的 SOTA 模型文件。

使用 ik_llama.cpp 后

  • 性能显著提升:利用融合的 MoE 操作和 FlashMLA 技术,大幅提升了 DeepSeek 等模型的 CPU 及混合推理速度,实现了接近实时的交互体验。
  • 资源占用优化:借助先进的 SOTA 量化类型和行交错打包,在同等显存下可加载更大参数量的模型或更长的上下文窗口,且精度损失更小。
  • 混合推理稳定高效:通过张量覆盖(tensor overrides)和优化的混合后端调度,完美解决了部分图层卸载到 CPU 时的性能断崖问题,确保输出连贯稳定。
  • 前沿模型即插即用:原生支持 LLaMA-4、Qwen3、Bitnet 等最新架构,无需等待主分支更新即可直接运行社区最新的高性能量化模型文件。

ik_llama.cpp 通过深度优化底层算子与量化策略,让消费级硬件也能高效、流畅地运行最前沿的大语言模型。

运行环境要求

操作系统
  • Linux
  • Windows
GPU
  • 非必需
  • 若使用 GPU,仅限 NVIDIA (Turing 架构或更新),需安装 CUDA Toolkit
  • 不支持 ROCm, Vulkan, Metal 或旧款 NVIDIA GPU
内存

未说明 (取决于加载的模型大小)

依赖
notes1. CPU 后端必须支持 AVX2 或 ARM_NEON 指令集及以上,不支持仅支持 AVX 的旧 CPU。 2. 请勿使用名称中包含 '_XL' 的 Unsloth 量化模型(特别是包含 f16 张量的模型),否则可能无法运行。 3. 若在混合 GPU/CPU 模式下遇到输出乱码,建议添加启动参数 '-cuda graphs=0'。 4. Windows 用户需参考官方文档进行逐步构建。
python未说明 (基于 C++ 构建,无需 Python 运行环境)
build-essential
git
libcurl4-openssl-dev
curl
libgomp1
cmake
NVIDIA Drivers
CUDA Toolkit
ik_llama.cpp hero image

快速开始

ik_llama.cpp:具有更好CPU性能的llama.cpp分支

许可证:MIT

简要说明

本仓库是llama.cpp的一个分支,针对CPU及混合GPU/CPU推理进行了优化,支持新的SOTA量化类型、一流的Bitnet模型、通过MLA、FlashMLA、融合MoE操作和张量覆盖实现更好的DeepSeek性能,以及行交错量化打包等功能。

[!注意] 目前唯一完全可用且性能良好的计算后端是CPU(AVX2或更高版本,ARM_NEON或更高版本)和CUDA(Turing架构或更高版本)。 请勿提交与ROCm、Vulkan、Metal、旧款Nvidia显卡、AVX CPU等相关的问题。除非您亲自参与并帮助提升您偏好的后端性能,否则这些问题将不会得到解决。鉴于当前的主要贡献者数量有限,本项目没有足够的资源来维护llama.cpp中所有可用的后端。

[!重要提示] 请勿使用Unsloth发布的名称中带有 _XL 的量化模型。这些模型很可能无法在 ik_llama.cpp 中正常工作。

上述内容引发了一些讨论,特此澄清:可能不兼容的Unsloth _XL 模型是指那些包含 f16 张量的模型(这本身并不是一个好主意)。其他模型则没有问题。

[!注意] 部分用户报告了图并行模式(即分片模式 graph)和部分GPU卸载(使用 --cpu-moe--n-cpu-moe 选项或张量覆盖)时出现的问题。如果您正在使用或希望使用分片模式图,并观察到乱码或不连贯的响应,请尝试在命令行中添加 -cuda graphs=0

快速入门

前置条件

git clone https://github.com/ikawrakow/ik_llama.cpp

cd ik_llama.cpp

在Debian/Ubuntu Linux系统上,安装所需软件包(如果使用其他Linux发行版,请找到相应的软件包并进行适配):

apt-get update && apt-get install build-essential git libcurl4-openssl-dev curl libgomp1 cmake

为CPU构建

cmake -B build -DGGML_NATIVE=ON

cmake --build build --config Release -j$(nproc)

为GPU构建

请先安装Nvidia驱动程序和NVIDIA CUDA工具包

cmake -B build -DGGML_NATIVE=ON -DGGML_CUDA=ON

cmake --build build --config Release -j$(nproc)

Windows成功构建的逐步指南

https://github.com/ikawrakow/ik_llama.cpp/blob/main/docs/build.md

运行

下载 .gguf 模型文件(例如 bartowski/Qwen_Qwen3-0.6B-IQ4_NL.gguf)到您喜欢的目录中(例如 /my_local_files/gguf)。

使用以下命令之一启动服务器(CPU或GPU):

./build/bin/llama-server --model /my_local_files/gguf/Qwen_Qwen3-0.6B-IQ4_NL.gguf --ctx-size 4096
./build/bin/llama-server --model /my_local_files/gguf/Qwen_Qwen3-0.6B-IQ4_NL.gguf --ctx-size 4096 -ngl 999

就完成了!在浏览器中打开 http://127.0.0.1:8080,即可开始聊天。

在podman/docker容器中运行ik_llama.cpp的逐步指南(包括llama-swap)

步骤指南

常用参数与选项

文档链接

最新消息

模型支持

LlaMA-3-Nemotron PR 377, Qwen3 PR 355, GLM-4 PR 344, Command-A PR 341, bitnet-b1.58-2B-4T PR 337, LLaMA-4 PR 321, Gemma3 PR 276, DeepSeek-V3 PR 176, Kimi-2 PR 609, dots.llm1 PR 573, Hunyuan PR 565, GLM-4.5 PR 668(4.5/4.6/4.7/AIR),Ernie 4.5 MOE和0.3B PR 759, grok-2 PR 782, Ling/Ring (Bailing-MoE2) PR 833, Qwen3-VL PR 883, SmolLM3 PR 934, GigaChat3 PR 995, ministral3 PR 1030, Mimo-V2-Flash PR 1096, GLM-4.7-Flash PR 1168, Seed-OSS PR 1218, Step-3.5-Flash PR 1231, GLM-5 PR 1268, Qwen3-Next PR 1266, Qwen3.5-MoE PR 1288以及稠密版Qwen-3.5 1326, Mistral 4 PR 1450, Bonsai 1-bit PR 1570, Gemma4 PR 1581

量化

量化新增内容

格状量化(IQ1_KTIQ2_KTIQ3_KTIQ4_KT

相关信息及原始 CUDA 实现参见 PR 113。其他实现:Metal PR 475、Neon PR 471、CPU PR 441IQ1_KT 是近期在 PR 616 中添加的。注意:这些量化方法基于一种新颖的整数基格状量化方案,能够在 CPU 上获得较为理想的性能,详情请参阅 PR 529 及其中引用的相关 PR。

IQK 量化

相关信息可在 讨论 8 中找到。

初始实现(Zen4、AVX2、NEON):IQ5_KS_R4 PR 426IQ5_KS PR 422IQ4_KS_R4 PR 150IQ5_K_R4 PR 149IQ2_K_R4 PR 146IQ3_K_R4 PR 145IQ4_K_R4 PR 138IQ4_KSS PR 89IQ2_KS PR 85IQ4_KS PR 83IQ6_K PR 14IQ2_K、IQ3_K 和 IQ5_K PR 7IQ4_K PR 6

CUDA 实现:IQ4_KS_R4IQ5_KS_R4 PR 493IQ1_S_R4 PR 492IQ1_M_R4 PR 494IQ4_KS_R4IQ5_KS_R4 PR 462IQ2_K_R4IQ3_K_R4IQ4_K_R4IQ5_K_R4 PR 461IQ4_K、IQ5_K、IQ6_K PR 417IQ2_KS、IQ2_K、IQ3_K PR 418

IQ2_KL 是近期在 PR 602 中新增的。

K 缓存的哈达玛变换

CPU PR 1033 和 CUDA PR 1034

V 缓存的哈达玛变换

PR 1527

gpt-oss 模型中使用的 MXFP4

已在 Zen4、AVX2、ARM_NEON、Metal 和 CUDA 平台上实现 PR 682

量化改进

量化性能提升

  • 所有非交错量化类型的 CPU 提示处理速度大幅提升。最初的想法见 PR 515PR 531,随后有多项 PR 将其应用于三种支持的 CPU 平台上的所有量化类型。
  • 所有量化类型现在都配备了量化矩阵乘法的 CUDA 内核,详情参见 PR 557 及其他若干 PR。
  • 格状量化和 MoE 模型的 CPU 提示处理速度进一步提升。PR 488
  • 格状量化:CPU 提示处理速度更快 PR 482
  • CUDA 上 iq2_ks 的 TG 性能小幅提升(约 2%)PR 468
  • IQ3_KTIQ4_KT 处理速度更快 PR 453
  • Zen4:IQ2_KS、IQ4_KS、IQ5_KS 的 PP 处理速度更快 PR 428
  • IQ1_S 的 GEMM/GEMV 加速 PR 212
  • AVX-VNNI 优化 PR 1446PR 1455PR 1467PR 1474PR 1482

功能特性

  • 新增多 GPU 设置下的“graph”拆分模式 PR 1022
  • 针对 Qwen3-Next 和 Qwen3.5-MoE 的融合 delta-net PR 1315 PR 1333 PR 1362 PR 1373
  • K 缓存和 V 缓存的 Hadamard 变换 PR 1033 PR 1034 PR 1527
  • 自动调整卸载张量以适应可用显存(MoE 和密集模型)PR 1501 PR 1504
  • 循环模型的检查点 PR 1310 PR 1398
  • 用于所有补全的字符串屏蔽功能 PR 1185 PR 1243
  • OpenAI /v1/responses API 端点 PR 1184
  • 函数调用支持 PR 628
  • Jinja 模板支持 PR 677
  • WebUI:对话、设置和聊天消息的新功能 PR 618
  • GLM-4.x MoE 的 MTP 解码支持 PR 1270
  • 自我推测解码,n 元语法 PR 1261
  • 动态控制向量管理端点 PR 1223
  • convert_hf_to_gguf.py 中的旧版量化转换方案 PR 449,以及 PR 483 中的 Q6_0
  • Adaptive-P 采样器 PR 1100,由其作者按设计实现;WebUI 支持
  • llama-mtmd-cli 中的多模态视觉支持 PR 798llama-server 中的多模态支持 PR 901
  • mikupad 作为替代 WebUI PR 558
  • 2025 年 6 月 8 日:WebUI 更新(当传递 --path ./examples/server/public_legacy 时,仍可使用旧版)PR 481
  • 2025 年 6 月 8 日:RPC 改进 PR 480
  • 2025 年 6 月 7 日:为服务器添加一个列出所有已保存提示缓存的端点 PR 502
  • 2025 年 6 月 6 日:使提示缓存的保存和恢复具备 MLA 意识 PR 497
  • 2025 年 6 月 3 日:新增采样器,XTC PR 486,top-n σ PR 489
  • 2025 年 5 月 22 日:重构 iqk_mul_mat.cpp,显著加快编译速度。PR 435
  • 2025 年 5 月 17 日:可选择启用或禁用 CPU FA 核心 PR 429
  • 2025 年 5 月 12 日:用户现在可以控制是否或将 RAM 中的哪些张量操作卸载到 GPU。详见 PR 405
  • 2025 年 5 月 12 日:在 PR 394 中解决了启用 MLA 的 DeepSeek 模型与主干 llama.cpp GGUF 文件之间的兼容性问题。由于使用 llama.cpp 风格的 MLA GGUF 文件导致的较低提示处理性能,在 PR 409 中得以恢复。
  • 2025 年 4 月 21 日:ik_llama.cpp 在 Android 上成功构建并运行(使用 Termux),详见 PR 336
  • 2025 年 3 月 1 日:智能专家约简,加速 DeepSeek 推理 PR 239
  • 2025 年 2 月 25 日:张量覆盖,更好地控制模型权重存储位置(GPU 或 CPU)PR 232
  • 2025 年 2 月 23 日:sweep-bench——更优的性能基准测试 PR 225
  • 2025 年 2 月 19 日:Q8_KV——一种新的 8 位 KV 缓存量化类型 PR 208
  • 2025 年 3 月 7 日:使用正则表达式自定义量化组合 PR 244

性能改进

  • 使用混合 HPU/CPU 推理时,MoE 模型的更好 GPU 卸载策略,详见 PR 520
  • 更快的随机数采样 PR 1187
  • 2025 年 5 月 13 日:DeepSeek-Lite 的 CPU FA 性能提升。PR 410
  • 2025 年 5 月 11 日:CUDA 上 DeepSeek 模型的 Flash Attention 略有提速,并将兼容性扩展至 Turing 或更新的 GPU。PR 408
  • 2025 年 5 月 4 日:在 CUDA 上使用 Flash Attention 时,GQA 模型的标记生成性能显著提升。详情及基准测试见 PR 370
  • 2025 年 4 月 17 日:CPU Flash Attention 标记生成性能提升。PR 332
  • 2025 年 4 月 3 日:Metal 上的 MoE 实现速度大幅提升。PR 307
  • 2025 年 3 月 25 日:CUDA 上的 MoE 性能提升 PR 283
  • 2025 年 3 月 23 日:DeepSeek 模型的批处理速度提升 PR 282
  • 2025 年 3 月 18 日:减少计算缓冲区大小 PR 237
  • 2025 年 3 月 10 日:CUDA 上 MoE 模型的 TG 性能提升 PR 248
  • 2025 年 2 月 23 日:融合 FFN 操作,加速 MoE 推理 PR 229

Flash-MLA

  • 2025年5月7日:🚀 在CUDA上为DeepSeek模型推出FlashMLA-3。PR 386 注意事项:需要Ampere或更新的Nvidia GPU。
  • 2025年3月21日:🚀 FlashMLA-3:为DeepSeek模型提供最快的纯CPU推理性能 PR 273
  • 2025年3月17日:🚀 FlashMLA-2性能改进 PR 253
  • 2025年3月12日:允许在CUDA上使用FlashMLA-2时启用Q8_0 KV缓存 PR 265
  • 2025年3月9日:🚀 在CUDA上实现FlashMLA PR 247
  • 2025年3月8日:🚀 更快的FlashMLA CPU实现 PR 243
  • 2025年3月3日:🚀 引入FlashMLA——结合Flash Attention的MLA PR 240
  • 2025年2月27日:无需转置缓存的MLA PR 235
  • 2025年2月13日:允许MLA使用Q8_0量化缓存 PR 206
  • 2025年2月11日:🚀 DeepSeek模型支持Flash Attention PR 200
  • 2025年2月9日:🚀 DeepSeek模型的MLA PR 188

修复

  • 修复MMVQ内核中的错误 PR 446
  • 修复AVX2对IQ4_K、IQ4_KS、IQ5_K、IQ6_K的实现 PR 427
  • 修复CPU上的标准注意力机制 PR 421
  • 修复MLA模型的imatrix计算 PR 411
  • 修复Touring架构上的新CUDA FA PR 413
  • 修复SER问题。CPU版:PR 415,CUDA版:PR 416

资源

目前没有一个统一的参考文档能够全面描述ik_llama.cpp的所有新特性。Pull请求通常包含详细信息,因此浏览这些PR往往是了解新功能及其使用方法的最佳途径。此外:

  • 维基页面提供了与主线llama.cpp的性能对比;
  • 本指南是如果你因为DeepSeek模型而来到这里的好起点;
  • 此讨论讨论的是如何在16张3090显卡的配置上运行DeepSeek-V3/R1;
  • 此讨论介绍了ik_llama.cpp中可用的新量化类型。

测试

函数调用测试

要运行函数调用测试套件:

cd build
cmake --build . --target test-function-calls
./bin/test-function-calls

该测试套件涵盖了解析器功能、流式传输、错误处理、内容清理以及服务器集成等方面。所有测试都应通过,以确保产品已准备好投入生产。

贡献

欢迎以pull请求、提交问题(包括bug报告和功能请求)或一般讨论的形式进行贡献。

许可证

开发文档

基础论文及模型背景

如果你的问题与模型生成质量有关,请至少浏览以下链接和论文,以了解LLaMA模型的局限性。这一点在选择合适的模型规模以及理解LLaMA模型与ChatGPT之间的重要和细微差异时尤为重要:

补全功能

部分环境下支持命令行补全。

Bash补全

$ build/bin/llama-cli --completion-bash > ~/.llama-completion.bash
$ source ~/.llama-completion.bash

你也可以将其添加到.bashrc.bash_profile中,以便自动加载。例如:

$ echo "source ~/.llama-completion.bash" >> ~/.bashrc

依赖项

  • yhirose/cpp-httplib —— 单头HTTP服务器,由llama-server使用 —— MIT许可证
  • stb-image —— 单头图像格式解码器,用于多模态子系统 —— 公有领域
  • nlohmann/json —— 单头JSON库,被各种工具和示例使用 —— MIT许可证
  • miniaudio.h —— 单头音频格式解码器,用于多模态子系统 —— 公有领域
  • subprocess.h —— C和C++的单头进程启动解决方案 —— 公有领域

版本历史

t00022025/07/22

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|4天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|5天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

149.5k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|今天
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|昨天
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|4天前
插件开发框架