rtk

GitHub
19.8k 1.1k 非常简单 1 次阅读 今天Apache-2.0插件语言模型开发框架Agent
AI 解读 由 AI 自动生成,仅供参考

rtk 是一款专为开发者设计的高性能命令行代理工具,旨在大幅降低在使用 AI 编程助手(如 Claude Code、Copilot、Cursor 等)时的 LLM Token 消耗。在日常开发中,开发者频繁执行的 lsgit diffcat 或运行测试等命令,往往会产生大量冗余输出,导致 AI 上下文迅速膨胀并产生高昂费用。rtk 通过智能过滤和压缩这些命令的输出内容,在将其发送给大模型前进行优化,从而在常见开发场景下节省 60% 至 90% 的 Token 用量。

该工具采用 Rust 语言编写,封装为单一二进制文件,无需任何外部依赖,跨平台支持良好且启动开销极低(小于 10 毫秒)。它已预置对 100 多种常用命令的优化规则,用户只需简单运行初始化命令即可无缝集成到现有的 AI 工作流中。无论是独立开发者还是企业团队,只要依赖 AI 进行代码编写、调试或审查,都能通过 rtk 显著降低使用成本并提升交互效率,让 AI 更专注于核心逻辑而非处理冗长的系统输出。

使用场景

一位全栈开发者正在使用 Claude Code 协助重构一个包含微服务和复杂依赖的大型 TypeScript 项目,需要频繁查看文件结构、代码内容及测试反馈。

没有 rtk 时

  • Token 消耗惊人:每次执行 ls -Rcat 查看多个文件时,大量无关的目录树和空白行被完整发送给 LLM,导致单次对话迅速耗尽上下文额度。
  • 关键信息被淹没:在运行 pytestcargo test 后,冗长的标准输出日志中夹杂着大量"passed"信息,使得真正的报错堆栈难以被 AI 快速定位。
  • 响应速度变慢:由于输入上下文过长,LLM 处理请求的延迟显著增加,开发者不得不等待更久才能收到代码建议。
  • 成本不可控:在一次典型的 30 分钟调试会话中,仅基础命令就可能产生超过 10 万 token 的消耗,造成不必要的 API 账单激增。

使用 rtk 后

  • 智能压缩输出:rtk 自动过滤掉 lstree 中的冗余路径,仅保留关键文件结构,将相关命令的 token 占用减少约 80%。
  • 错误高亮聚焦:运行测试命令时,rtk 自动剔除成功的测试用例日志,只将失败的断言和堆栈轨迹传递给 LLM,让 AI 瞬间锁定问题根源。
  • 极致低延迟:作为单二进制 Rust 代理,rtk 引入的开销小于 10 毫秒,确保命令执行到 AI 响应的流程丝滑流畅。
  • 大幅降低成本:同样的重构任务,token 总消耗从约 11.8 万降至 2.4 万,直接节省了近 80% 的调用成本。

rtk 通过精准过滤和压缩命令行输出,在不改变开发者习惯的前提下,让 AI 编程更省钱、更快且更专注核心问题。

运行环境要求

操作系统
  • Linux
  • macOS
  • Windows
GPU

不需要 GPU

内存

未说明

依赖
notes该工具是一个高性能的 CLI 代理,用于在命令输出到达 LLM 上下文之前进行过滤和压缩。支持通过 Homebrew、curl 脚本、Cargo 或预编译二进制文件安装。需注意 crates.io 上存在同名项目 'Rust Type Kit',若 'rtk gain' 命令失败,请通过 '--git' 参数安装。主要功能是通过 Bash hook 自动重写命令(如 git status -> rtk git status),但不适用于 AI 工具内置的文件读取或搜索功能。
python不需要 Python (基于 Rust 的二进制文件)
无主要外部依赖 (单一 Rust 二进制文件)
rtk hero image

快速开始

RTK - Rust Token Killer

高性能 CLI 代理,可将 LLM 的 token 消耗降低 60-90%

CI Release License: MIT Discord Homebrew

官网安装故障排除架构Discord

EnglishFrancais中文日本語한국어Espanol


rtk 在命令输出到达您的 LLM 上下文之前对其进行过滤和压缩。单个 Rust 二进制文件,支持 100 多种命令,开销不到 10 毫秒。

Token 节省(30 分钟 Claude Code 会话)

操作 频率 标准 rtk 节省
ls / tree 10x 2,000 400 -80%
cat / read 20x 40,000 12,000 -70%
grep / rg 8x 16,000 3,200 -80%
git status 10x 3,000 600 -80%
git diff 5x 10,000 2,500 -75%
git log 5x 2,500 500 -80%
git add/commit/push 8x 1,600 120 -92%
cargo test / npm test 5x 25,000 2,500 -90%
ruff check 3x 3,000 600 -80%
pytest 4x 8,000 800 -90%
go test 3x 6,000 600 -90%
docker ps 3x 900 180 -80%
总计 ~118,000 ~23,900 -80%

估算基于中型 TypeScript/Rust 项目。实际节省量因项目规模而异。

安装

Homebrew(推荐)

brew install rtk

快速安装(Linux/macOS)

curl -fsSL https://raw.githubusercontent.com/rtk-ai/rtk/refs/heads/master/install.sh | sh

安装到 ~/.local/bin。如果需要,请将其添加到 PATH:

echo 'export PATH="$HOME/.local/bin:$PATH"' >> ~/.bashrc  # 或 ~/.zshrc

Cargo

cargo install --git https://github.com/rtk-ai/rtk

预编译二进制文件

releases 下载:

  • macOS:rtk-x86_64-apple-darwin.tar.gz / rtk-aarch64-apple-darwin.tar.gz
  • Linux:rtk-x86_64-unknown-linux-musl.tar.gz / rtk-aarch64-unknown-linux-gnu.tar.gz
  • Windows:rtk-x86_64-pc-windows-msvc.zip

验证安装

rtk --version   # 应显示 "rtk 0.28.2"
rtk gain        # 应显示 token 节省统计信息

命名冲突警告:crates.io 上存在另一个名为“rtk”(Rust Type Kit)的项目。如果 rtk gain 失败,则说明您安装了错误的包。请改用上述 cargo install --git 命令。

快速入门

# 1. 为您的 AI 工具安装
rtk init -g                     # Claude Code / Copilot(默认)
rtk init -g --gemini            # Gemini CLI
rtk init -g --codex             # Codex(OpenAI)
rtk init -g --agent cursor      # Cursor
rtk init --agent windsurf       # Windsurf
rtk init --agent cline          # Cline / Roo Code

# 2. 重启您的 AI 工具,然后测试
git status  # 自动重写为 rtk git status

该钩子会在执行前透明地重写 Bash 命令(例如 git status -> rtk git status)。Claude 根本看不到这种重写,它只会收到压缩后的输出。

重要提示:该钩子仅在 Bash 工具调用时运行。Claude Code 内置工具如 ReadGrepGlob 不会经过 Bash 钩子,因此不会自动重写。要获得这些工作流的 RTK 紧凑输出,请使用 shell 命令(cat/head/tailrg/grepfind)或直接调用 rtk readrtk greprtk find

工作原理

  无 rtk:                                    有 rtk:

  Claude  --git status-->  shell  -->  git         Claude  --git status-->  RTK  -->  git
    ^                                   |            ^                      |          |
    |        ~2,000 tokens(原始)        |            |   ~200 tokens        | 过滤   |
    +-----------------------------------+            +-------(过滤后) ---+----------+

针对每种命令类型采用四种策略:

  1. 智能过滤 - 去除噪声(注释、空格、样板代码)
  2. 分组 - 将相似项聚合(按目录分类文件、按类型分类错误)
  3. 截断 - 保留相关上下文,去除冗余
  4. 去重 - 将重复的日志行合并并计数

命令

文件

rtk ls .                        # 优化 token 的目录树
rtk read file.rs                # 智能文件读取
rtk read file.rs -l aggressive  # 仅显示签名(去除函数体)
rtk smart file.rs               # 两行启发式代码摘要
rtk find "*.rs" .               # 紧凑的查找结果
rtk grep "pattern" .            # 分组后的搜索结果
rtk diff file1 file2            # 精简的差异

Git

rtk git status                  # 精简的状态
rtk git log -n 10               # 单行提交记录
rtk git diff                    # 精简的差异
rtk git add                     # -> "ok"
rtk git commit -m "msg"         # -> "ok abc1234"
rtk git push                    # -> "ok main"
rtk git pull                    # -> "ok 3 files +10 -2"

GitHub CLI

rtk gh pr list                  # 精简的 PR 列表
rtk gh pr view 42               # PR 详情 + 检查
rtk gh issue list               # 精简的问题列表
rtk gh run list                 # 工作流运行状态

测试运行器

rtk test cargo test             # 仅显示失败(-90%)
rtk err npm run build           # 仅显示错误/警告
rtk vitest run                  # Vitest 精简版(仅显示失败)
rtk playwright test             # E2E 结果(仅显示失败)
rtk pytest                      # Python 测试(-90%)
rtk go test                     # Go 测试(NDJSON,-90%)
rtk cargo test                  # Cargo 测试(-90%)
rtk rake test                   # Ruby minitest(-90%)
rtk rspec                       # RSpec 测试(JSON,-60%以上)。

构建与 lint

rtk lint                        # ESLint 按规则/文件分组
rtk lint biome                  # 支持其他 linter
rtk tsc                         # TypeScript 错误按文件分组
rtk next build                  # Next.js 构建简洁版
rtk prettier --check .          # 需要格式化的文件
rtk cargo build                 # Cargo 构建(减少 80%)
rtk cargo clippy                # Cargo clippy(减少 80%)
rtk ruff check                  # Python lint(JSON 格式,减少 80%)
rtk golangci-lint run           # Go lint(JSON 格式,减少 85%)
rtk rubocop                     # Ruby lint(JSON 格式,减少 60%以上)

包管理器

rtk pnpm list                   # 简洁的依赖树
rtk pip list                    # Python 包(自动检测 uv)
rtk pip outdated                # 过时的包
rtk bundle install              # Ruby gems(去除 Using 行)
rtk prisma generate             # Schema 生成(无 ASCII 艺术)

AWS

rtk aws sts get-caller-identity # 一行显示身份信息
rtk aws ec2 describe-instances  # 简洁的实例列表
rtk aws lambda list-functions   # 名称/运行时/内存(去除敏感信息)
rtk aws logs get-log-events     # 仅显示带时间戳的消息
rtk aws cloudformation describe-stack-events  # 失败事件优先
rtk aws dynamodb scan           # 展开类型注解
rtk aws iam list-roles          # 去除策略文档
rtk aws s3 ls                   # 截断输出并支持 tee 恢复

容器

rtk docker ps                   # 简洁的容器列表
rtk docker images               # 简洁的镜像列表
rtk docker logs <container>     # 去重后的日志
rtk docker compose ps           # Compose 服务
rtk kubectl pods                # 简洁的 Pod 列表
rtk kubectl logs <pod>          # 去重后的日志
rtk kubectl services            # 简洁的服务列表

数据与分析

rtk json config.json            # 结构化数据,不含值
rtk deps                        # 依赖总结
rtk env -f AWS                  # 过滤后的环境变量
rtk log app.log                 # 去重后的日志
rtk curl <url>                  # 自动检测 JSON + schema
rtk wget <url>                  # 下载并去除进度条
rtk summary <long command>      # 启发式摘要
rtk proxy <command>             # 原始透传 + 跟踪

Token 节省分析

rtk gain                        # 总结统计
rtk gain --graph                # ASCII 图表(最近 30 天)
rtk gain --history              # 最近的命令历史
rtk gain --daily                # 按天细分
rtk gain --all --format json    # 导出 JSON 格式用于仪表板

rtk discover                    # 发现遗漏的节省机会
rtk discover --all --since 7    # 所有项目,过去 7 天

rtk session                     # 显示近期会话中的 RTK 使用情况

全局标志

-u, --ultra-compact    # 使用 ASCII 图标,内联格式(额外节省 token)
-v, --verbose          # 提高详细程度(-v、-vv、-vvv)

示例

目录列表:

# ls -la (45 行,约 800 token)        # rtk ls (12 行,约 150 token)
drwxr-xr-x  15 user staff 480 ...       my-project/
-rw-r--r--   1 user staff 1234 ...       +-- src/ (8 个文件)
...                                      |   +-- main.rs
                                         +-- Cargo.toml

Git 操作:

# git push (15 行,约 200 token)       # rtk git push (1 行,约 10 token)
Enumerating objects: 5, done.             ok main
Counting objects: 100% (5/5), done.
Delta compression using up to 8 threads
...

测试输出:

# cargo test (失败时超过 200 行)     # rtk test cargo test (~20 行)
running 15 tests                          FAILED: 2/15 测试
test utils::test_parse ... ok               test_edge_case: 断言失败
test utils::test_format ... ok              test_overflow: panic 在 utils.rs:18
...

自动重写钩子

使用 rtk 的最有效方式。该钩子会在执行前透明地拦截 Bash 命令,并将其重写为 rtk 等效命令。

结果:所有对话和子代理中 100% 采用 rtk,且无额外 token 开销。

范围说明:此功能仅适用于 Bash 工具调用。Claude Code 内置工具如 ReadGrepGlob 会绕过钩子,因此在需要 RTK 过滤时,请使用 shell 命令或显式 rtk 命令。

设置

rtk init -g                 # 安装钩子 + RTK.md(推荐)
rtk init -g --opencode      # OpenCode 插件(替代 Claude Code)
rtk init -g --auto-patch    # 非交互式(CI/CD)
rtk init -g --hook-only     # 仅安装钩子,不创建 RTK.md
rtk init --show             # 验证安装

安装后,请重启 Claude Code

支持的 AI 工具

RTK 支持 10 种 AI 编程工具。每种集成都会透明地将 shell 命令重写为 rtk 等效命令,从而节省 60%-90% 的 token。

工具 安装 方法
Claude Code rtk init -g PreToolUse 钩子(Bash)
GitHub Copilot (VS Code) rtk init -g --copilot PreToolUse 钩子(rtk hook copilot)— 透明重写
GitHub Copilot CLI rtk init -g --copilot PreToolUse 拒绝并提供建议(CLI 限制)
Cursor rtk init -g --agent cursor preToolUse 钩子(hooks.json)
Gemini CLI rtk init -g --gemini BeforeTool 钩子(rtk hook gemini
Codex rtk init -g --codex AGENTS.md + RTK.md 指导
Windsurf rtk init --agent windsurf .windsurfrules(项目范围)
Cline / Roo Code rtk init --agent cline .clinerules(项目范围)
OpenCode rtk init -g --opencode TS 插件(tool.execute.before)
OpenClaw openclaw plugins install ./openclaw TS 插件(before_tool_call)
Mistral Vibe 计划中(#800) 受限于上游 BeforeToolCallback

Claude Code(默认)

rtk init -g                 # 安装钩子 + RTK.md
rtk init -g --auto-patch    # 非交互式(CI/CD)
rtk init --show             # 验证安装
rtk init -g --uninstall     # 卸载

GitHub Copilot(VS Code + CLI)

rtk init -g --copilot         # 安装钩子 + 指南

会创建 .github/hooks/rtk-rewrite.json(PreToolUse 钩子)和 .github/copilot-instructions.md(提示级别意识)。钩子(rtk hook copilot)会自动检测格式:

  • VS Code Copilot Chat:通过 updatedInput 透明重写(与 Claude Code 相同)
  • Copilot CLI:拒绝并提供建议(CLI 尚不支持 updatedInput — 参见 copilot-cli#2013

Cursor

rtk init -g --agent cursor

会创建 ~/.cursor/hooks/rtk-rewrite.sh 并修改 ~/.cursor/hooks.json 中的 preToolUse 匹配器。适用于 Cursor 编辑器和 cursor-agent CLI。

Gemini CLI

rtk init -g --gemini
rtk init -g --gemini --uninstall

创建 ~/.gemini/hooks/rtk-hook-gemini.sh 并通过 BeforeTool 钩子修补 ~/.gemini/settings.json

Codex (OpenAI)

rtk init -g --codex

创建包含 @RTK.md 引用的 ~/.codex/RTK.md~/.codex/AGENTS.md。Codex 会将这些文件作为全局指令读取。

Windsurf

rtk init --agent windsurf

在当前项目中创建 .windsurfrules 文件。Cascade 会读取这些规则,并在命令前加上 rtk 前缀。

Cline / Roo Code

rtk init --agent cline

在当前项目中创建 .clinerules 文件。Cline 会读取这些规则,并在命令前加上 rtk 前缀。

OpenCode

rtk init -g --opencode

创建 ~/.config/opencode/plugins/rtk.ts。使用 tool.execute.before 钩子。

OpenClaw

openclaw plugins install ./openclaw

安装 openclaw/ 目录中的插件。该插件使用 before_tool_call 钩子,并委托给 rtk rewrite

Mistral Vibe(计划中)

受上游 BeforeToolCallback 支持的阻碍(mistral-vibe#531PR #533)。已在 #800 中跟踪。

已重写命令

原始命令 重写后命令
git status/diff/log/add/commit/push/pull rtk git ...
gh pr/issue/run rtk gh ...
cargo test/build/clippy rtk cargo ...
cat/head/tail <file> rtk read <file>
rg/grep <pattern> rtk grep <pattern>
ls rtk ls
vitest/jest rtk vitest run
tsc rtk tsc
eslint/biome rtk lint
prettier rtk prettier
playwright rtk playwright
prisma rtk prisma
ruff check/format rtk ruff ...
pytest rtk pytest
pip list/install rtk pip ...
go test/build/vet rtk go ...
golangci-lint rtk golangci-lint
rake test / rails test rtk rake test
rspec / bundle exec rspec rtk rspec
rubocop / bundle exec rubocop rtk rubocop
bundle install/update rtk bundle ...
aws sts/ec2/lambda/... rtk aws ...
docker ps/images/logs rtk docker ...
kubectl get/logs rtk kubectl ...
curl rtk curl
pnpm list/outdated rtk pnpm ...

已经使用 rtk 的命令、heredoc(<<)以及无法识别的命令将保持不变。

配置

配置文件

~/.config/rtk/config.toml(macOS:~/Library/Application Support/rtk/config.toml):

[tracking]
database_path = "/path/to/custom.db"  # 默认:~/.local/share/rtk/history.db

[hooks]
exclude_commands = ["curl", "playwright"]  # 跳过对这些命令的重写

[tee]
enabled = true          # 失败时保存原始输出(默认:是)
mode = "failures"       # "failures"、"always" 或 "never"
max_files = 20          # 循环限制

Tee:完整输出恢复

当命令失败时,RTK 会保存完整的未过滤输出,以便 LLM 可以在无需重新执行的情况下读取:

FAILED: 2/15 tests
[完整输出:~/.local/share/rtk/tee/1707753600_cargo_test.log]

卸载

rtk init -g --uninstall     # 移除钩子、RTK.md 和 settings.json 条目
cargo uninstall rtk          # 移除二进制文件
brew uninstall rtk           # 如果通过 Homebrew 安装

文档

隐私与遥测

RTK 每天收集一次匿名的汇总使用指标,默认启用。这有助于优先安排开发工作。有关退出选项,请参见下文。

收集的内容:

  • 设备哈希值(加盐的 SHA-256 — 每个用户本地存储的随机盐,不可逆)
  • RTK 版本、操作系统、架构
  • 命令数量(过去 24 小时)及常用命令名称(如“git”、“cargo”——不包含参数或文件路径)
  • 令牌节省百分比

不会收集的内容: 源代码、文件路径、命令参数、密钥、环境变量或任何个人身份信息。

退出方式(任选其一):

# 环境变量
export RTK_TELEMETRY_DISABLED=1

# 或在配置文件中(~/.config/rtk/config.toml)
[telemetry]
enabled = false

贡献

欢迎贡献!请在 GitHub 上提交问题或拉取请求。

加入我们的社区,访问 Discord

许可证

MIT 许可证——详情请参阅 LICENSE

免责声明

请参阅 DISCLAIMER.md

版本历史

dev-0.35.1-rc.1142026/04/06
v0.35.02026/04/06
dev-0.35.0-rc.1112026/04/06
dev-0.35.0-rc.1102026/04/06
dev-0.35.0-rc.1092026/04/04
dev-0.35.0-rc.1082026/04/03
dev-0.35.0-rc.1072026/04/03
dev-0.35.0-rc.1062026/04/03
dev-0.35.0-rc.1052026/04/03
dev-0.35.0-rc.1032026/04/03
dev-0.35.0-rc.1022026/04/03
dev-0.35.0-rc.1012026/04/02
dev-0.35.0-rc.1002026/04/02
v0.34.32026/04/02
dev-0.34.3-rc.972026/03/31
dev-0.34.3-rc.962026/03/31
dev-0.34.3-rc.952026/03/31
dev-0.34.3-rc.942026/03/30
dev-0.34.3-rc.932026/03/30
dev-0.34.3-rc.922026/03/30

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|2天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|3天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

144.7k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.9k|★★☆☆☆|2天前
开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|昨天
插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|2天前
语言模型图像Agent