rtk
rtk 是一款专为开发者设计的高性能命令行代理工具,旨在大幅降低在使用 AI 编程助手(如 Claude Code、Copilot、Cursor 等)时的 LLM Token 消耗。在日常开发中,开发者频繁执行的 ls、git diff、cat 或运行测试等命令,往往会产生大量冗余输出,导致 AI 上下文迅速膨胀并产生高昂费用。rtk 通过智能过滤和压缩这些命令的输出内容,在将其发送给大模型前进行优化,从而在常见开发场景下节省 60% 至 90% 的 Token 用量。
该工具采用 Rust 语言编写,封装为单一二进制文件,无需任何外部依赖,跨平台支持良好且启动开销极低(小于 10 毫秒)。它已预置对 100 多种常用命令的优化规则,用户只需简单运行初始化命令即可无缝集成到现有的 AI 工作流中。无论是独立开发者还是企业团队,只要依赖 AI 进行代码编写、调试或审查,都能通过 rtk 显著降低使用成本并提升交互效率,让 AI 更专注于核心逻辑而非处理冗长的系统输出。
使用场景
一位全栈开发者正在使用 Claude Code 协助重构一个包含微服务和复杂依赖的大型 TypeScript 项目,需要频繁查看文件结构、代码内容及测试反馈。
没有 rtk 时
- Token 消耗惊人:每次执行
ls -R或cat查看多个文件时,大量无关的目录树和空白行被完整发送给 LLM,导致单次对话迅速耗尽上下文额度。 - 关键信息被淹没:在运行
pytest或cargo test后,冗长的标准输出日志中夹杂着大量"passed"信息,使得真正的报错堆栈难以被 AI 快速定位。 - 响应速度变慢:由于输入上下文过长,LLM 处理请求的延迟显著增加,开发者不得不等待更久才能收到代码建议。
- 成本不可控:在一次典型的 30 分钟调试会话中,仅基础命令就可能产生超过 10 万 token 的消耗,造成不必要的 API 账单激增。
使用 rtk 后
- 智能压缩输出:rtk 自动过滤掉
ls和tree中的冗余路径,仅保留关键文件结构,将相关命令的 token 占用减少约 80%。 - 错误高亮聚焦:运行测试命令时,rtk 自动剔除成功的测试用例日志,只将失败的断言和堆栈轨迹传递给 LLM,让 AI 瞬间锁定问题根源。
- 极致低延迟:作为单二进制 Rust 代理,rtk 引入的开销小于 10 毫秒,确保命令执行到 AI 响应的流程丝滑流畅。
- 大幅降低成本:同样的重构任务,token 总消耗从约 11.8 万降至 2.4 万,直接节省了近 80% 的调用成本。
rtk 通过精准过滤和压缩命令行输出,在不改变开发者习惯的前提下,让 AI 编程更省钱、更快且更专注核心问题。
运行环境要求
- Linux
- macOS
- Windows
不需要 GPU
未说明

快速开始
高性能 CLI 代理,可将 LLM 的 token 消耗降低 60-90%
English • Francais • 中文 • 日本語 • 한국어 • Espanol
rtk 在命令输出到达您的 LLM 上下文之前对其进行过滤和压缩。单个 Rust 二进制文件,支持 100 多种命令,开销不到 10 毫秒。
Token 节省(30 分钟 Claude Code 会话)
| 操作 | 频率 | 标准 | rtk | 节省 |
|---|---|---|---|---|
ls / tree |
10x | 2,000 | 400 | -80% |
cat / read |
20x | 40,000 | 12,000 | -70% |
grep / rg |
8x | 16,000 | 3,200 | -80% |
git status |
10x | 3,000 | 600 | -80% |
git diff |
5x | 10,000 | 2,500 | -75% |
git log |
5x | 2,500 | 500 | -80% |
git add/commit/push |
8x | 1,600 | 120 | -92% |
cargo test / npm test |
5x | 25,000 | 2,500 | -90% |
ruff check |
3x | 3,000 | 600 | -80% |
pytest |
4x | 8,000 | 800 | -90% |
go test |
3x | 6,000 | 600 | -90% |
docker ps |
3x | 900 | 180 | -80% |
| 总计 | ~118,000 | ~23,900 | -80% |
估算基于中型 TypeScript/Rust 项目。实际节省量因项目规模而异。
安装
Homebrew(推荐)
brew install rtk
快速安装(Linux/macOS)
curl -fsSL https://raw.githubusercontent.com/rtk-ai/rtk/refs/heads/master/install.sh | sh
安装到
~/.local/bin。如果需要,请将其添加到 PATH:echo 'export PATH="$HOME/.local/bin:$PATH"' >> ~/.bashrc # 或 ~/.zshrc
Cargo
cargo install --git https://github.com/rtk-ai/rtk
预编译二进制文件
从 releases 下载:
- macOS:
rtk-x86_64-apple-darwin.tar.gz/rtk-aarch64-apple-darwin.tar.gz - Linux:
rtk-x86_64-unknown-linux-musl.tar.gz/rtk-aarch64-unknown-linux-gnu.tar.gz - Windows:
rtk-x86_64-pc-windows-msvc.zip
验证安装
rtk --version # 应显示 "rtk 0.28.2"
rtk gain # 应显示 token 节省统计信息
命名冲突警告:crates.io 上存在另一个名为“rtk”(Rust Type Kit)的项目。如果
rtk gain失败,则说明您安装了错误的包。请改用上述cargo install --git命令。
快速入门
# 1. 为您的 AI 工具安装
rtk init -g # Claude Code / Copilot(默认)
rtk init -g --gemini # Gemini CLI
rtk init -g --codex # Codex(OpenAI)
rtk init -g --agent cursor # Cursor
rtk init --agent windsurf # Windsurf
rtk init --agent cline # Cline / Roo Code
# 2. 重启您的 AI 工具,然后测试
git status # 自动重写为 rtk git status
该钩子会在执行前透明地重写 Bash 命令(例如 git status -> rtk git status)。Claude 根本看不到这种重写,它只会收到压缩后的输出。
重要提示:该钩子仅在 Bash 工具调用时运行。Claude Code 内置工具如 Read、Grep 和 Glob 不会经过 Bash 钩子,因此不会自动重写。要获得这些工作流的 RTK 紧凑输出,请使用 shell 命令(cat/head/tail、rg/grep、find)或直接调用 rtk read、rtk grep 或 rtk find。
工作原理
无 rtk: 有 rtk:
Claude --git status--> shell --> git Claude --git status--> RTK --> git
^ | ^ | |
| ~2,000 tokens(原始) | | ~200 tokens | 过滤 |
+-----------------------------------+ +-------(过滤后) ---+----------+
针对每种命令类型采用四种策略:
- 智能过滤 - 去除噪声(注释、空格、样板代码)
- 分组 - 将相似项聚合(按目录分类文件、按类型分类错误)
- 截断 - 保留相关上下文,去除冗余
- 去重 - 将重复的日志行合并并计数
命令
文件
rtk ls . # 优化 token 的目录树
rtk read file.rs # 智能文件读取
rtk read file.rs -l aggressive # 仅显示签名(去除函数体)
rtk smart file.rs # 两行启发式代码摘要
rtk find "*.rs" . # 紧凑的查找结果
rtk grep "pattern" . # 分组后的搜索结果
rtk diff file1 file2 # 精简的差异
Git
rtk git status # 精简的状态
rtk git log -n 10 # 单行提交记录
rtk git diff # 精简的差异
rtk git add # -> "ok"
rtk git commit -m "msg" # -> "ok abc1234"
rtk git push # -> "ok main"
rtk git pull # -> "ok 3 files +10 -2"
GitHub CLI
rtk gh pr list # 精简的 PR 列表
rtk gh pr view 42 # PR 详情 + 检查
rtk gh issue list # 精简的问题列表
rtk gh run list # 工作流运行状态
测试运行器
rtk test cargo test # 仅显示失败(-90%)
rtk err npm run build # 仅显示错误/警告
rtk vitest run # Vitest 精简版(仅显示失败)
rtk playwright test # E2E 结果(仅显示失败)
rtk pytest # Python 测试(-90%)
rtk go test # Go 测试(NDJSON,-90%)
rtk cargo test # Cargo 测试(-90%)
rtk rake test # Ruby minitest(-90%)
rtk rspec # RSpec 测试(JSON,-60%以上)。
构建与 lint
rtk lint # ESLint 按规则/文件分组
rtk lint biome # 支持其他 linter
rtk tsc # TypeScript 错误按文件分组
rtk next build # Next.js 构建简洁版
rtk prettier --check . # 需要格式化的文件
rtk cargo build # Cargo 构建(减少 80%)
rtk cargo clippy # Cargo clippy(减少 80%)
rtk ruff check # Python lint(JSON 格式,减少 80%)
rtk golangci-lint run # Go lint(JSON 格式,减少 85%)
rtk rubocop # Ruby lint(JSON 格式,减少 60%以上)
包管理器
rtk pnpm list # 简洁的依赖树
rtk pip list # Python 包(自动检测 uv)
rtk pip outdated # 过时的包
rtk bundle install # Ruby gems(去除 Using 行)
rtk prisma generate # Schema 生成(无 ASCII 艺术)
AWS
rtk aws sts get-caller-identity # 一行显示身份信息
rtk aws ec2 describe-instances # 简洁的实例列表
rtk aws lambda list-functions # 名称/运行时/内存(去除敏感信息)
rtk aws logs get-log-events # 仅显示带时间戳的消息
rtk aws cloudformation describe-stack-events # 失败事件优先
rtk aws dynamodb scan # 展开类型注解
rtk aws iam list-roles # 去除策略文档
rtk aws s3 ls # 截断输出并支持 tee 恢复
容器
rtk docker ps # 简洁的容器列表
rtk docker images # 简洁的镜像列表
rtk docker logs <container> # 去重后的日志
rtk docker compose ps # Compose 服务
rtk kubectl pods # 简洁的 Pod 列表
rtk kubectl logs <pod> # 去重后的日志
rtk kubectl services # 简洁的服务列表
数据与分析
rtk json config.json # 结构化数据,不含值
rtk deps # 依赖总结
rtk env -f AWS # 过滤后的环境变量
rtk log app.log # 去重后的日志
rtk curl <url> # 自动检测 JSON + schema
rtk wget <url> # 下载并去除进度条
rtk summary <long command> # 启发式摘要
rtk proxy <command> # 原始透传 + 跟踪
Token 节省分析
rtk gain # 总结统计
rtk gain --graph # ASCII 图表(最近 30 天)
rtk gain --history # 最近的命令历史
rtk gain --daily # 按天细分
rtk gain --all --format json # 导出 JSON 格式用于仪表板
rtk discover # 发现遗漏的节省机会
rtk discover --all --since 7 # 所有项目,过去 7 天
rtk session # 显示近期会话中的 RTK 使用情况
全局标志
-u, --ultra-compact # 使用 ASCII 图标,内联格式(额外节省 token)
-v, --verbose # 提高详细程度(-v、-vv、-vvv)
示例
目录列表:
# ls -la (45 行,约 800 token) # rtk ls (12 行,约 150 token)
drwxr-xr-x 15 user staff 480 ... my-project/
-rw-r--r-- 1 user staff 1234 ... +-- src/ (8 个文件)
... | +-- main.rs
+-- Cargo.toml
Git 操作:
# git push (15 行,约 200 token) # rtk git push (1 行,约 10 token)
Enumerating objects: 5, done. ok main
Counting objects: 100% (5/5), done.
Delta compression using up to 8 threads
...
测试输出:
# cargo test (失败时超过 200 行) # rtk test cargo test (~20 行)
running 15 tests FAILED: 2/15 测试
test utils::test_parse ... ok test_edge_case: 断言失败
test utils::test_format ... ok test_overflow: panic 在 utils.rs:18
...
自动重写钩子
使用 rtk 的最有效方式。该钩子会在执行前透明地拦截 Bash 命令,并将其重写为 rtk 等效命令。
结果:所有对话和子代理中 100% 采用 rtk,且无额外 token 开销。
范围说明:此功能仅适用于 Bash 工具调用。Claude Code 内置工具如 Read、Grep 和 Glob 会绕过钩子,因此在需要 RTK 过滤时,请使用 shell 命令或显式 rtk 命令。
设置
rtk init -g # 安装钩子 + RTK.md(推荐)
rtk init -g --opencode # OpenCode 插件(替代 Claude Code)
rtk init -g --auto-patch # 非交互式(CI/CD)
rtk init -g --hook-only # 仅安装钩子,不创建 RTK.md
rtk init --show # 验证安装
安装后,请重启 Claude Code。
支持的 AI 工具
RTK 支持 10 种 AI 编程工具。每种集成都会透明地将 shell 命令重写为 rtk 等效命令,从而节省 60%-90% 的 token。
| 工具 | 安装 | 方法 |
|---|---|---|
| Claude Code | rtk init -g |
PreToolUse 钩子(Bash) |
| GitHub Copilot (VS Code) | rtk init -g --copilot |
PreToolUse 钩子(rtk hook copilot)— 透明重写 |
| GitHub Copilot CLI | rtk init -g --copilot |
PreToolUse 拒绝并提供建议(CLI 限制) |
| Cursor | rtk init -g --agent cursor |
preToolUse 钩子(hooks.json) |
| Gemini CLI | rtk init -g --gemini |
BeforeTool 钩子(rtk hook gemini) |
| Codex | rtk init -g --codex |
AGENTS.md + RTK.md 指导 |
| Windsurf | rtk init --agent windsurf |
.windsurfrules(项目范围) |
| Cline / Roo Code | rtk init --agent cline |
.clinerules(项目范围) |
| OpenCode | rtk init -g --opencode |
TS 插件(tool.execute.before) |
| OpenClaw | openclaw plugins install ./openclaw |
TS 插件(before_tool_call) |
| Mistral Vibe | 计划中(#800) | 受限于上游 BeforeToolCallback |
Claude Code(默认)
rtk init -g # 安装钩子 + RTK.md
rtk init -g --auto-patch # 非交互式(CI/CD)
rtk init --show # 验证安装
rtk init -g --uninstall # 卸载
GitHub Copilot(VS Code + CLI)
rtk init -g --copilot # 安装钩子 + 指南
会创建 .github/hooks/rtk-rewrite.json(PreToolUse 钩子)和 .github/copilot-instructions.md(提示级别意识)。钩子(rtk hook copilot)会自动检测格式:
- VS Code Copilot Chat:通过
updatedInput透明重写(与 Claude Code 相同) - Copilot CLI:拒绝并提供建议(CLI 尚不支持
updatedInput— 参见 copilot-cli#2013)
Cursor
rtk init -g --agent cursor
会创建 ~/.cursor/hooks/rtk-rewrite.sh 并修改 ~/.cursor/hooks.json 中的 preToolUse 匹配器。适用于 Cursor 编辑器和 cursor-agent CLI。
Gemini CLI
rtk init -g --gemini
rtk init -g --gemini --uninstall
创建 ~/.gemini/hooks/rtk-hook-gemini.sh 并通过 BeforeTool 钩子修补 ~/.gemini/settings.json。
Codex (OpenAI)
rtk init -g --codex
创建包含 @RTK.md 引用的 ~/.codex/RTK.md 和 ~/.codex/AGENTS.md。Codex 会将这些文件作为全局指令读取。
Windsurf
rtk init --agent windsurf
在当前项目中创建 .windsurfrules 文件。Cascade 会读取这些规则,并在命令前加上 rtk 前缀。
Cline / Roo Code
rtk init --agent cline
在当前项目中创建 .clinerules 文件。Cline 会读取这些规则,并在命令前加上 rtk 前缀。
OpenCode
rtk init -g --opencode
创建 ~/.config/opencode/plugins/rtk.ts。使用 tool.execute.before 钩子。
OpenClaw
openclaw plugins install ./openclaw
安装 openclaw/ 目录中的插件。该插件使用 before_tool_call 钩子,并委托给 rtk rewrite。
Mistral Vibe(计划中)
受上游 BeforeToolCallback 支持的阻碍(mistral-vibe#531,PR #533)。已在 #800 中跟踪。
已重写命令
| 原始命令 | 重写后命令 |
|---|---|
git status/diff/log/add/commit/push/pull |
rtk git ... |
gh pr/issue/run |
rtk gh ... |
cargo test/build/clippy |
rtk cargo ... |
cat/head/tail <file> |
rtk read <file> |
rg/grep <pattern> |
rtk grep <pattern> |
ls |
rtk ls |
vitest/jest |
rtk vitest run |
tsc |
rtk tsc |
eslint/biome |
rtk lint |
prettier |
rtk prettier |
playwright |
rtk playwright |
prisma |
rtk prisma |
ruff check/format |
rtk ruff ... |
pytest |
rtk pytest |
pip list/install |
rtk pip ... |
go test/build/vet |
rtk go ... |
golangci-lint |
rtk golangci-lint |
rake test / rails test |
rtk rake test |
rspec / bundle exec rspec |
rtk rspec |
rubocop / bundle exec rubocop |
rtk rubocop |
bundle install/update |
rtk bundle ... |
aws sts/ec2/lambda/... |
rtk aws ... |
docker ps/images/logs |
rtk docker ... |
kubectl get/logs |
rtk kubectl ... |
curl |
rtk curl |
pnpm list/outdated |
rtk pnpm ... |
已经使用 rtk 的命令、heredoc(<<)以及无法识别的命令将保持不变。
配置
配置文件
~/.config/rtk/config.toml(macOS:~/Library/Application Support/rtk/config.toml):
[tracking]
database_path = "/path/to/custom.db" # 默认:~/.local/share/rtk/history.db
[hooks]
exclude_commands = ["curl", "playwright"] # 跳过对这些命令的重写
[tee]
enabled = true # 失败时保存原始输出(默认:是)
mode = "failures" # "failures"、"always" 或 "never"
max_files = 20 # 循环限制
Tee:完整输出恢复
当命令失败时,RTK 会保存完整的未过滤输出,以便 LLM 可以在无需重新执行的情况下读取:
FAILED: 2/15 tests
[完整输出:~/.local/share/rtk/tee/1707753600_cargo_test.log]
卸载
rtk init -g --uninstall # 移除钩子、RTK.md 和 settings.json 条目
cargo uninstall rtk # 移除二进制文件
brew uninstall rtk # 如果通过 Homebrew 安装
文档
- TROUBLESHOOTING.md - 解决常见问题
- INSTALL.md - 详细安装指南
- ARCHITECTURE.md - 技术架构
- SECURITY.md - 安全策略和 PR 审核流程
- AUDIT_GUIDE.md - 令牌节省分析指南
隐私与遥测
RTK 每天收集一次匿名的汇总使用指标,默认启用。这有助于优先安排开发工作。有关退出选项,请参见下文。
收集的内容:
- 设备哈希值(加盐的 SHA-256 — 每个用户本地存储的随机盐,不可逆)
- RTK 版本、操作系统、架构
- 命令数量(过去 24 小时)及常用命令名称(如“git”、“cargo”——不包含参数或文件路径)
- 令牌节省百分比
不会收集的内容: 源代码、文件路径、命令参数、密钥、环境变量或任何个人身份信息。
退出方式(任选其一):
# 环境变量
export RTK_TELEMETRY_DISABLED=1
# 或在配置文件中(~/.config/rtk/config.toml)
[telemetry]
enabled = false
贡献
欢迎贡献!请在 GitHub 上提交问题或拉取请求。
加入我们的社区,访问 Discord。
许可证
MIT 许可证——详情请参阅 LICENSE。
免责声明
请参阅 DISCLAIMER.md。
版本历史
dev-0.35.1-rc.1142026/04/06v0.35.02026/04/06dev-0.35.0-rc.1112026/04/06dev-0.35.0-rc.1102026/04/06dev-0.35.0-rc.1092026/04/04dev-0.35.0-rc.1082026/04/03dev-0.35.0-rc.1072026/04/03dev-0.35.0-rc.1062026/04/03dev-0.35.0-rc.1052026/04/03dev-0.35.0-rc.1032026/04/03dev-0.35.0-rc.1022026/04/03dev-0.35.0-rc.1012026/04/02dev-0.35.0-rc.1002026/04/02v0.34.32026/04/02dev-0.34.3-rc.972026/03/31dev-0.34.3-rc.962026/03/31dev-0.34.3-rc.952026/03/31dev-0.34.3-rc.942026/03/30dev-0.34.3-rc.932026/03/30dev-0.34.3-rc.922026/03/30常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备