actionbook
Actionbook 是一款专为 AI 智能体设计的并行操作命令行工具,旨在大幅提升自动化浏览网页的效率。传统 AI 在操作网页时往往步骤繁琐:每执行一步都需要截图、解析页面再决策,导致处理单个任务耗时极长,且难以应对现代网站复杂的动态渲染机制,通常只能串行处理任务。
Actionbook 通过提供精准的“操作手册”解决了这些痛点。它让 AI 无需反复猜测页面结构,直接按指令执行,速度提升可达 10 倍。其无状态架构支持真正的并发处理,能够同时在数十个浏览器标签页中执行上百个动作,例如在 2 分钟内快速采集近 200 个网站的标语信息。此外,它基于 Rust 构建,可直接调用用户系统中已有的浏览器(如 Chrome、Edge 等),无需额外安装环境。
这款工具特别适合开发者、AI 研究人员以及需要构建高效网络爬虫或自动化工作流的技术人员。只需简单配置,即可让 Claude Code、Cursor 等编程助手自动调用 Actionbook 来理解和操作网页。对于希望突破单线程限制、实现大规模并行数据采集或测试的团队来说,Actionbook 是一个强大且实用的技术解决方案。
使用场景
某市场研究团队需要快速收集 50 家竞品官网的最新产品标语和定价信息,以生成每日竞争情报报告。
没有 actionbook 时
- 效率极低:传统 AI 代理每执行一步都要截图、解析页面再决策,单个网站耗时数分钟,完成 50 家需数小时。
- 交互失败率高:面对采用虚拟 DOM 或动态加载的现代网页,代理常无法识别下拉菜单和日期选择器,导致任务中断。
- 串行处理瓶颈:代理必须做完一个网站才能开始下一个,无法利用多标签页并行工作,大量时间浪费在等待上。
- 维护成本高:网页结构微调就会导致代理逻辑崩溃,需要频繁人工干预修复脚本。
使用 actionbook 后
- 速度提升 10 倍:actionbook 通过预生成的“操作手册”直接指导代理行动,无需反复猜测和解析,50 个网站仅需 2 分钟即可完成。
- 精准操控动态内容:专为 SPA 和流式组件设计,能稳定操作复杂的动态元素,确保数据采集准确无误。
- 大规模并发执行:支持无状态架构,可同时在 20 个浏览器标签页中运行 50 个动作,彻底打破串行限制。
- 无缝集成工作流:只需在 Claude Code 等助手提示词中简单声明,即可自动调用 CLI 执行批量任务,无需编写复杂脚本。
actionbook 将原本耗时数小时的繁琐采集工作压缩至分钟级,让 AI 代理真正具备大规模并行处理现实网页任务的能力。
运行环境要求
- 未说明
不需要 GPU
未说明

快速开始

目录
为什么选择 Actionbook?
❌ 没有 Actionbook
- 缓慢。 代理每执行一步就会截取一次页面快照,解析页面内容,然后决定下一步该做什么。在 Airbnb 上搜索一个房间就需要 15 分钟。
- 脆弱。 现代网站广泛使用虚拟 DOM、流式组件和单页应用。代理无法理解这些渲染机制,因此无法与下拉菜单、日期选择器和动态内容进行交互。
- 一次一个。 你的代理必须完成一个页面后才能开始下一个。如果需要查看 30 家公司的网站,那就得依次轮番访问 30 次。
✅ 使用 Actionbook
- 速度提升 10 倍。 操作手册会明确告诉代理该做什么,无需解析,也无需猜测。
- 精准可靠。 专为虚拟 DOM、单页应用和流式组件设计,代理能够稳定地操作网页。
- 并发执行。 无状态架构,可同时操作数十个标签页。
观看一个代理在 2 分钟内访问了 192 家 First Round 投资组合公司的网站,并收集了它们的标语。(视频未加速)
https://github.com/user-attachments/assets/35079a19-7236-47a8-87ed-3edf6436c2bf
安装
通过 npm 安装:
npm install -g @actionbookdev/cli
或者从源码构建:
cargo install --git https://github.com/actionbook/actionbook --path packages/cli --locked
基于 Rust 的 CLI 会使用你系统中已有的浏览器(Chrome、Brave、Edge、Arc、Chromium),因此无需额外安装浏览器。
快速入门
actionbook browser start
# 打开标签页
actionbook browser open https://stripe.com --session s1
actionbook browser open https://linear.app --session s1
actionbook browser open https://vercel.com --session s1
# 并发操作所有标签页
actionbook browser snapshot --session s1 --tab t1 &
actionbook browser snapshot --session s1 --tab t2 &
actionbook browser snapshot --session s1 --tab t3 &
# 使用快照中的引用与每个标签页交互
actionbook browser click @e5 --session s1 --tab t1
actionbook browser fill @e3 "hello" --session s1 --tab t2
actionbook browser click @e8 --session s1 --tab t3
当你使用任何 AI 编程助手(Claude Code、Cursor 等)时,在提示词中加入以下内容:
使用 Actionbook 来理解和操作网页。
这样,代理会自动调用 CLI 获取操作手册并执行浏览器操作。
AI 代理技能
Actionbook 自带代理技能,可以帮助你的 AI 代理学习如何使用 CLI。只需一条命令即可添加:
npx skills add actionbook/actionbook
示例
请参阅 示例文档,了解真实世界的使用案例。
可用工具
Actionbook 提供用于搜索和获取操作手册的工具。完整的命令列表请参阅 CLI 参考。如果你使用 MCP 集成,请参考 MCP 工具参考。
文档
如需全面的指南、API 参考和教程,请访问我们的文档网站:
敬请关注
我们进展迅速。请在 GitHub 上给 Actionbook 加星标,以支持项目并获取最新信息。

加入社区:
- 在 Discord 上与我们交流 - 获得帮助、分享你的代理项目并讨论想法
- 关注 X 上的 @ActionbookHQ - 查看产品更新和公告
贡献
许可证
许可证详情请参阅 LICENSE。
版本历史
actionbook-cli-v1.0.22026/04/03actionbook-cli-v1.0.12026/04/02actionbook-cli-v1.0.02026/04/02actionbook-cli-v0.11.72026/03/27actionbook-cli-v0.11.62026/03/27actionbook-cli-v0.11.52026/03/21actionbook-cli-v0.11.42026/03/21actionbook-cli-v0.11.32026/03/19actionbook-cli-v0.11.22026/03/19actionbook-cli-v0.11.12026/03/19actionbook-cli-v0.10.12026/03/19actionbook-cli-v0.10.02026/03/17actionbook-dify-plugin-v0.2.02026/03/15actionbook-cli-v0.9.22026/03/12actionbook-cli-v0.9.12026/03/11actionbook-cli-v0.9.02026/03/09actionbook-cli-v0.8.42026/03/03actionbook-cli-v0.8.32026/03/02actionbook-cli-v0.8.22026/03/02actionbook-cli-v0.8.12026/02/28常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。