ComfyUI-Crystools

GitHub
1.8k 135 简单 1 次阅读 昨天MIT图像插件
AI 解读 由 AI 自动生成,仅供参考

ComfyUI-Crystools 是一套专为 ComfyUI 设计的高效增强工具集,旨在为用户提供更透明、可控的工作流体验。它主要解决了用户在复杂生成任务中难以实时监控系统资源、追踪执行进度以及查看图像隐藏元数据的痛点。

通过内置的资源监控面板,用户可以实时查看 CPU、GPU、内存及显存占用情况,快速定位性能瓶颈;进度条功能则清晰展示工作流执行状态与耗时,并支持点击定位当前运行节点。此外,该工具提供了强大的元数据提取与对比功能,不仅能解析图像中的生成提示词和工作流信息,还能兼容 Photoshop 等其他来源的元数据,甚至支持直接对比两张图片或两个 JSON 文件的差异,无需重新加载工作流即可洞察细节。

ComfyUI-Crystools 特别适合需要精细调优工作流的 AI 艺术家、研究人员以及希望深入理解生成过程的进阶用户。其独特的技术亮点在于低开销的实时硬件监测(基于 NVIDIA CUDA)和灵活的元数据格式化输出(支持 JSON、CSV 等),让原本“隐形”的数据变得直观可用,帮助用户更高效地调试和优化创作流程。

使用场景

一位资深 AI 绘画工作流开发者正在调试一个包含数十个节点、耗时较长的复杂图像生成流程,试图优化显存占用并复现某张高质量样图的参数。

没有 ComfyUI-Crystools 时

  • 资源监控盲区:无法实时查看 GPU 显存和温度变化,只能在系统崩溃或报错后才意识到是显存溢出,缺乏预警机制。
  • 进度黑盒状态:长任务运行时不知道当前执行到哪个节点,也无法预估剩余时间,只能盲目等待或强制中断重试。
  • 元数据提取困难:想要分析参考图的生成参数(Prompt、工作流结构),必须手动编写脚本解析图片或依赖外部网站,效率极低。
  • 调试成本高昂:对比两次生成的差异时,难以直观比对 JSON 配置或图像细节,往往靠肉眼猜测哪里出了问题。

使用 ComfyUI-Crystools 后

  • 实时资源透视:通过菜单栏的资源监控器,实时掌握 CPU、GPU、显存及温度数据,精准定位瓶颈并在过载前主动卸载模型。
  • 可视化进度追踪:顶部进度条清晰展示当前运行节点和已用时间,点击即可跳转定位,让漫长等待变得可控且透明。
  • 一键元数据洞察:利用“元数据提取器”节点,直接读取图片内嵌的完整工作流和 Prompt,甚至支持 Photoshop 等非标准元数据,瞬间复现他人作品。
  • 高效差异比对:内置的图像与 JSON 对比功能,帮助开发者快速识别参数微调带来的具体变化,大幅缩短调试迭代周期。

ComfyUI-Crystools 将原本黑盒般的运行过程转化为可视、可控、可分析的透明工作流,是提升复杂任务开发效率的必备利器。

运行环境要求

操作系统
  • 未说明
GPU
  • GPU 监控功能仅支持 NVIDIA 显卡(需 CUDA),AMD 显卡不支持该特定功能
  • 整体运行依赖 ComfyUI 环境,通常建议具备 CUDA 支持的 NVIDIA GPU
内存

未说明

依赖
notes1. 本工具是 ComfyUI 的扩展插件,需先安装 ComfyUI(版本要求 1915 或更高)。2. 资源监控器中的 GPU 数据(温度、显存等)仅在 NVIDIA 显卡且使用 CUDA 时可用。3. 监控功能默认开销极低(0.1%-0.5%),可在设置中将刷新率设为 0 以禁用。4. 部分图像预览功能涉及临时文件存储。
python未说明
psutil
torch
pynvml
DeepDiff
ComfyUI-Crystools hero image

快速开始

comfyui-crystools 捐赠 在Colab中打开

🪛 在使用 ComfyUI 时,您工具箱中的强大工具集 🪛

借助这套工具,您可以查看资源监控、进度条与已用时间、元数据,并比较两张图片或两个 JSON 文件;还可以将任意值输出到控制台或显示界面上,实现管道功能等更多操作!它提供了更优秀的节点来加载/保存图像、预览等,并能在不重新加载工作流的情况下查看“隐藏”的数据。

显示元数据

目录


概述

资源监控

🎉 终于可以在菜单中实时查看 ComfyUI 使用的资源(CPU、GPU、内存、显存、GPU 温度和存储空间)了!

水平布局:
监控界面

垂直布局:
监控界面

现在您可以识别工作流中的瓶颈,判断何时需要重启服务器、卸载模型甚至关闭某些标签页!

您还可以配置刷新频率以及要显示的资源:

监控设置

注意事项:

  • GPU 数据仅在使用 CUDA 时可用(仅限 NVIDIA 显卡,AMD 用户抱歉)。
  • 此扩展需要 ComfyUI 1915 或更高版本。
  • 监控功能的开销很低(占用率仅为 0.1% 至 0.5%),您可以通过设置将其关闭(将“刷新频率”设为 0)。
  • 数据来源于以下库:

进度条

您现在可以在菜单中看到工作流的进度条!

进度条

此外,它还会在工作流结束时显示已用时间,您还可以点击它来查看当前正在运行的节点。

注意事项:

  • 如果不想显示进度条,可以在设置中将其关闭(“在菜单中显示进度条”)。

元数据

节点:元数据提取器

此节点用于从图像中提取元数据,并将其作为 JSON 数据源供其他节点使用。您可以查看所有信息,甚至包括来自其他来源的元数据(如 Photoshop,见示例)。

输入可以来自【带元数据的图像加载】节点或【图像预览】节点(未来还将支持更多输入来源)。

元数据提取器

示例: metadata-extractor.json

其他元数据示例(Photoshop)

包含 Photoshop 元数据 元数据提取器

参数说明
  • 输入:
    • metadata_raw:来自图像或预览节点的原始元数据
  • 输出:
    • prompt:生成该图像时使用的提示词。
    • workflow:生成该图像的工作流(包含所有节点、数值等详细信息)。
    • file info:图像/元数据的文件信息(分辨率、大小等),以人类可读格式呈现。
    • raw to JSON:完整的原始元数据被格式化为可读的 JSON。
    • raw to property:完整的原始元数据被转换成“属性”格式。
    • raw to csv:完整的原始元数据被转换成 CSV 格式。

节点:元数据比较器

这个节点非常实用,可用于比较两份元数据并找出差异(这正是我开发此扩展的主要原因!

您可以比较三个输入:“Prompt”、“Workflow”和“Fileinfo”。

有三种可能的输出:values_changeddictionary_item_addeddictionary_item_removed(按优先级排列)。

元数据比较器

示例: metadata-comparator.json

注意事项:

  • 我们使用了 DeepDiff 库来实现这一功能。更多信息请参阅链接。
  • 如果您想比较两个 JSON 文件,可以使用【JSON 比较器】节点。
参数说明
  • 选项:
    • what:选择要比较的内容,可选“Prompt”、“Workflow”或“Fileinfo”
  • 输入:
    • metadata_raw_old:用于开始比较的原始元数据
    • metadata_raw_new:用于对比的原始元数据
  • 输出:
    • diff:这是您可以在节点显示界面上看到的结果,也可用于其他节点。


调试器

节点:显示元数据

通过此节点,您可以快速查看由整个提示词和工作流生成的 JSON 数据,从而无需打开 PNG 或 JSON 文件即可了解提示词中的所有值及其他信息。

显示元数据

示例: debugger-metadata.json

参数说明
  • 选项:
    • Active:启用或禁用该节点
    • Parsed:显示解析后的 JSON 或纯文本
    • What:显示提示词或工作流(提示词是生成图像的参数,而工作流则是 ComfyUI 的完整流程)

节点:显示任意内容

您可以将任何文本或节点数据输出到控制台或显示界面上。只需将其连接到您想要检查的内容,即可立即查看。

显示任意内容

示例: debugger-any.json

参数说明
  • 输入:
    • any_value:要显示的任意值,可以是字符串、数字等
  • 选项:
    • Console:是否写入控制台
    • Display:是否在此节点上显示
    • Prefix:控制台前缀

节点:将任意内容转换为 JSON 并显示

此节点与上一个类似,但会将值格式化为 JSON(仅在显示界面上)。

显示 JSON

示例: debugger-json.json

参数说明
  • 输入:
    • any_value:要尝试转换为 JSON 的任意值
  • 输出:
    • string:显示界面上呈现的相同字符串


图像

节点:加载带元数据的图像

此节点与默认节点相同,但增加了三个功能:提示词、元数据,并支持“input”文件夹的子文件夹

加载带元数据的图像

示例: image-load.json

参数
  • 输入:
    • image:从输入文件夹(及子文件夹)中读取图像(你可以将图像拖放到此处,甚至可以直接从剪贴板粘贴图像)
  • 输出:
    • 图像/遮罩:与默认节点相同
    • 提示词:用于生成该图像的提示词(非工作流中的提示词)
    • 元数据原始数据:图像的元数据原始内容(完整工作流),以字符串形式输出

注意: 子文件夹支持灵感来源于:comfyui-imagesubfolders


节点:保存带额外元数据的图像

此节点与默认节点相同,但增加了两个功能:是否将工作流一同保存到 PNG 文件中,以及可以添加任意元数据(以 JSON 格式)。

这会在图像中保存自定义数据,以便与其他用户共享,他们可以看到工作流和元数据(参见从元数据预览),甚至包括你的自定义数据。

这些数据可以是任何支持文本和 JSON 的信息类型。

保存带额外元数据的图像

示例: image-save.json

参数
  • options:
    • with_workflow:是否要将工作流一同保存到图像中(特别适合与他人分享工作流)
  • 输入:
    • image:要保存的图像(与默认节点相同)
  • 输出:
    • 元数据原始数据:图像的元数据原始内容(完整工作流),以字符串形式输出

注意: 数据会以特殊的“exif”格式(如同 ComfyUI 所做)保存在 PNG 文件中;你可以使用加载带元数据的图像来读取这些数据。

重要提示:

  • 如果你想以特定名称保存你的工作流,并将自己的数据作为创作者信息一并保存,你需要使用 ComfyUI-Crystools-save 插件;不妨试试! Crystools-save

节点:从图像预览

此节点用于根据当前提示词及其他附加信息预览图像。

从图像预览

功能: 支持缓存(显示为“CACHED”)(目前还不是永久性的),因此即使断开节点连接,你仍然可以看到图像和相关数据,从而可以用来与其他图像进行对比!

从图像预览差异

如你所见,种子、步骤和 CFG 已被更改

示例: image-preview-image.json

参数
  • 输入:
    • image:任何类型的图像链接
  • 输出:
    • 元数据原始数据:图像及其完整工作流的元数据原始内容。
      • 你可以用它来与其他图像比较(参见元数据比较器
      • 包括文件名、分辨率、日期时间及大小等文件信息,但这些信息均基于当前提示词,而非原始提示词!(请参阅重要提示)

重要提示:

  • 如果你想读取图像的元数据,需要使用加载带元数据的图像,并使用其“元数据原始数据”输出,而不是图像链接。
  • 进行预览时,必须先将其保存到临时文件夹中,显示的数据来自临时图像,并非原始图像或原始提示词!

节点:从元数据预览

此节点用于根据图像的元数据预览图像,并显示附加信息(围绕该图像的所有信息)。
它支持与从图像预览相同的功能(缓存、元数据原始数据等)。但重要的区别在于,你看到的是图像的真实数据(而非临时图像或当前提示词)。

从元数据预览

示例: image-preview-metadata.json


节点:显示分辨率

此节点用于显示图像的分辨率。

可用于任何图像链接。

显示分辨率

示例: image-resolution.json

参数
  • 输入:
    • image:任何类型的图像链接
  • 输出:
    • 宽度:图像的宽度
    • 高度:图像的高度


管道

节点:管道至/编辑任意,管道自任意

这一组强大的节点用于更好地组织你的管道。

“管道至/编辑任意”节点用于将多个链接封装成一个单一的链接。它支持编辑功能,并可轻松将修改后的内容重新添加回同一管道编号中。

“管道自任意”节点则用于提取管道中的内容。

典型示例:

管道

使用管道后:

管道

示例: pipe-1.json

编辑管道:

管道

示例: pipe-2.json

参数
  • 输入:
    • CPipeAny:这是可用于编辑的管道类型(参见示例)
    • any_*:6 种可能的输入来源
  • 输出:
    • CPipeAny:你可以继续使用此输出来延续管道;也可以用它来分叉管道(参见示例)

重要提示:

  • 请注意,它支持“any”,这意味着它不会验证输入节点与输出节点之间的对应关系(目前尚未实现)。创建链接时,建议有意识地按编号逐一连接。
  • “递归错误” 必须注意的是,链接的流向必须保持一致方向,不能与其他使用此管道结果的流程混合。否则可能导致递归,进而阻塞服务器(需要重启!)
带有“递归错误:超过最大递归深度”的不良示例

如果你在控制台中看到类似情况,就需要检查你的管道。那是一个不良的管道示例,不能混用不同的流程。 管道



工具类节点

一些在工作流中非常实用的节点。

节点:JSON 比较器

这个节点非常有用,可以用来比较两个 JSON 文件并查看它们之间的差异。

JSON 比较器

示例: utils-json-comparator.json

参数
  • 输入:
    • json_old:用于开始比较的第一个 JSON
    • json_new:要比较的 JSON
  • 输出:
    • diff:包含差异的新 JSON

注释:
正如你所看到的,它与元数据比较器类似,但处理的是 JSON 数据。
另一个节点是为了简单地比较两张图像的元数据而设计的;而这个节点则更加通用。
主要区别在于,它可以比较任何 JSON 数据,而不仅仅是元数据。


节点:系统统计信息

此节点用于显示系统统计信息(RAM、VRAM 和磁盘空间)。
应该以管道方式连接。

JSON 比较器

示例: utils-stats.json

参数
  • 输入:
    • latent:用于测量系统统计信息的潜变量
  • 输出:
    • latent:返回相同的潜变量以继续管道

注释: 原始版本来自 WAS,我只是将其显示在界面上。



基本类型节点

节点:基本布尔型、基本整数型、基本浮点型、基本字符串型、基本多行字符串型

一组用于在提示词中使用的原始值节点。

基本类型节点



列表

一组包含任意值或字符串/文本列表的节点,可用于各种用途(即将推出使用这些节点的新功能!)。

重要提示: 你可以使用“显示任意”等其他节点来查看列表中的值。

节点:字符串列表

特点: 你可以将它们连接起来。

列表

示例: list-strings.json

参数
  • 输入:
    • string_*:8 个可能的输入
    • delimiter:用于在输出中连接各个值的分隔符
  • 输出:
    • concatenated:所有值连接成的一个字符串
    • list_string:仅包含值的字符串列表

节点:任意值列表

你可以连接任何类型的值(它会尝试将其转换为字符串并显示),因此非常适合同时查看多个值。

列表

示例: list-any.json

参数
  • 输入:
    • any_*:8 个可能的输入
  • 输出:
    • list_any:仅包含值的任意值列表


开关

一组用于在不同流程之间切换的节点。

所有开关都是布尔型的;只需更改开关的值即可在不同流程之间切换。
你有预定义的开关(字符串、潜变量、图像、条件),但也可以使用“任意开关”来处理任何值/类型。

开关

示例: switch.json



关于

作者注:

  • 这是我用 Python 编写的第一个项目 ¯\(ツ)/¯(欢迎提交 PR!)
  • 我是一名软件工程师,但主要从事其他语言(Web 技术)的工作。
  • 我的 Instagram 是:https://www.instagram.com/crystian.ia 我会在上面发布我的作品,所以请关注我以获取最新消息! :)
  • 我不是英语母语者,所以如果我的英语不好,请见谅 :P

待办事项

  • 多个单元测试
  • 为预览/元数据图像添加永久缓存(以便在刷新页面或重启服务器时仍能保留)

更改记录

Crystools

1.27.0 (2025年8月17日)

  • 恢复名称的大写形式,因为注册表无法更改 ¯_(ツ)_/¯
  • 移除了 zluda 检查,现在已不再需要

1.25.3 (2025年7月27日)

  • 将名称改为小写

1.25.1 (2025年6月2日)

  • 修复了设置菜单中开关的问题
  • 新增了“任意开关”节点
  • 加载带元数据的图像功能进行了过滤(排除隐藏文件夹和典型的元数据文件)
  • 其他修复

1.24.0 (2025年6月2日)

  • 合并了社区提交的 PR
  • 改进了 VRAM 的使用和读取
  • 添加了硬盘错误处理
  • 懒加载开关

1.23.0 (2025年6月2日)

  • @johnnynunez 添加了对 Jetson 的支持
  • 进行了一些 UI 修复

1.20.0 (2024年10月21日)

  • JSON 文件读取和提取工具的 BETA 版本,允许你读取自己的 JSON 文件并将其中的值提取出来用于工作流

1.19.0 (2024年10月6日)

  • 横向 UI!新版本已经准备就绪!🎉

1.18.0 (2024年9月21日)

  • 横向 UI!🎉
  • 设置菜单中可配置显示器大小

1.17.0 (2024年9月21日)

  • 重新组织了设置菜单
  • 准备横向 UI
  • 更新自 ComfyUI(TypeScript 和新功能)

1.16.0 (2024年7月31日)

1.15.0 (2024年7月21日)

  • AMD 分支合并到主分支,应该适用于Linux平台上的 AMD 用户

1.14.0 (2024年7月15日)

  • 曾尝试使用 AMD 信息,但导致 Windows 上的安装失败,因此我将其移除 ¯_(ツ)_/¯
  • 添加了 AMD 分支,如果你使用 AMD 和 Linux,可以尝试一下(我自己没有测试过)

1.13.0 (2024年7月1日)

  • 与 ComfyUI 的新生态系统集成
  • 在加载带元数据的图像节点中添加了 Webp 支持

1.12.0 (2024年3月27日)

  • 添加了 GPU 温度监测

1.10.0 (2024年1月17日)

  • 添加了多 GPU 支持

1.9.2 (2024年1月15日)

  • 对 hardwareInfo 和 monitor.ts 进行了大规模重构,将 GPU 相关代码分离到另一个文件中,为多 GPU 支持做准备

1.8.0 (2024年1月14日) - 内部版本

  • 设置菜单中增加了 HDD 监控选择项

1.7.0 (2024年1月11日) - 内部版本

  • 添加了 TypeScript!

1.6.0 (2024年1月11日)

  • 修复了线程死锁问题 #7

1.5.0 (2024年1月10日)

  • 改进了资源监控以及线程处理方式
  • 进行了一些修复

1.3.0 (2024年1月8日)

  • 总体上添加了资源监控(CPU、GPU、RAM、VRAM 和磁盘空间)
  • 添加了此图标来标识这套工具:🪛

1.2.0 (2024年1月5日)

  • 添加了进度条

1.1.0 (2023年12月29日)

  • 新增了节点:“保存带有额外元数据的图像”
  • 增加了对 Jpeg 元数据的读取支持(但不能保存)

1.0.0 (2023年12月26日)

  • 首次发布

Crystools-save - 已弃用(2025年6月1日)

1.1.0 (2024年1月7日)

  • 标签根据 Crystools 的新版本进行了更新(该项目)

1.0.0 (2023年12月29日)


安装

从 GitHub 安装

  1. 安装 ComfyUi
  2. 将此仓库克隆到 custom_nodes 目录下:
    cd ComfyUI/custom_nodes
    git clone https://github.com/crystian/comfyui-crystools.git
    cd comfyui-crystools
    pip install -r requirements.txt
    
  3. 启动 ComfyUI。

针对 AMD 用户

如果你使用的是 Linux 系统的 AMD 显卡,可以尝试 AMD 分支:

注意: 不要通过管理器安装,需要手动安装:

cd ComfyUI/custom_nodes
git clone -b AMD https://github.com/crystian/comfyui-crystools.git
cd comfyui-crystools
pip install -r requirements.txt

通过管理器安装

管理器 中搜索 crystools 并安装。

在 Google Colab 上使用

你可以在 Google Colab 上使用,但需要手动安装:

Google Colab

  • 运行第一个单元格以安装 ComfyUI 并启动服务器
  • 完成后,使用链接打开一个新的标签页,你会看到类似如下的行:
这是访问 ComfyUI 的 URL:https://identifying-complications-fw-some.trycloudflare.com    

使用方法

你可以像使用其他节点一样使用它,只需在 crystools 类别中选择菜单,或双击画布(推荐使用“oo”进行快速筛选)。所有节点都已加上 [Crystools] 标记。

菜单 快捷键

如果出于某种原因你需要查看日志,可以定义环境变量 CRYSTOOLS_LOGLEVEL,并设置相应的


由 Crystian 用心制作。

版本历史

1.26.02025/07/27
1.15.02024/07/22
1.12.02024/03/27
1.10.02024/01/17
1.9.32024/01/16
1.9.02024/01/14
1.6.02024/01/11
1.5.02024/01/10
1.3.02024/01/08
1.2.02024/01/05
1.1.02023/12/29
1.0.02023/12/29

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|5天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|5天前
开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|今天
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|昨天
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|4天前
插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|4天前
语言模型图像Agent