ghostwriter

504 23 中等 3 次阅读 3天前MIT开发框架Agent语言模型

AI 解读由 AI 自动生成，仅供参考

Ghostwriter 是一款将手写输入与AI生成结合的创意工具，通过reMarkable2平板实现手写内容与视觉大模型（如ChatGPT、Claude、Gemini）的互动。用户在平板上书写后，通过触控触发，AI会根据手写内容生成文本或图像回应，形成手写+屏幕的双向交流。例如用户手写提示，AI可绘制图像，实现“我写提示，AI画图”的创意流程。

该工具解决了传统输入方式的局限性，让手写成为与AI对话的自然媒介。适合需要手写创作的设计师、开发者及研究人员，尤其适合探索人机交互新形式的创意工作者。其技术亮点在于将手写输入与AI生成结合，支持多模型调用，且能通过触控触发实现动态响应。用户可自定义触发区域、启用图像分割等高级功能，同时支持跨平台部署与调试。工具通过Docker和Rust开发，兼顾灵活性与实用性，为手写与AI的融合提供了新可能。

使用场景

一位高中数学老师正在使用 reMarkable2 平板批改学生作业，学生通过手写笔迹提交解题过程。老师希望快速获得作业批改结果并提供个性化反馈。

没有 ghostwriter 时

手写批改需要逐题计算得分，遇到复杂解题步骤时容易漏看关键错误
遇到模糊解题思路时，需手动查阅教材或在线资源验证解法正确性
无法即时生成标准的数学公式标注，手写批注常因字迹潦草影响学生理解
批改后需额外整理典型错误案例，耗时整理成电子文档供后续复习

使用 ghostwriter 后

在作业末尾画个圈触发 AI 评估，10 秒内自动生成得分和错题定位标注
通过 --web-search 参数自动联网验证解题方法的通用性，标记非常规解法
调用 LaTeX 公式引擎生成标准数学符号批注，覆盖在原始手写笔迹上方
批改完成自动生成带标签的 PDF 文件，通过 SSH 直接传输到教学云盘

核心价值：将传统手写批改效率提升 300%，实现智能评分、精准纠错和结构化知识沉淀的三位一体教学辅助。

运行环境要求

操作系统

Linux
macOS

GPU

未说明

内存

未说明

依赖

notes需设置OPENAI_API_KEY等环境变量，通过交叉编译构建armv7/aarch64架构二进制文件，依赖Docker和Rust工具链。运行需连接reMarkable设备并配置触控触发机制。

python未说明

未明确提及具体依赖库

快速开始

主要概念

一个在 reMarkable 上运行的实验项目，它会观察你的书写内容，并在通过手势或屏幕内容触发时，向屏幕回写内容。这是对通过手写+屏幕媒介进行交互的探索。

我手写输入提示词，GPT-4o 绘制了这只吉娃娃犬！！！

设置/安装

需要设置 OPENAI_API_KEY（或其他模型对应的密钥）环境变量。我在 reMarkable 的 ~/.bashrc 文件中添加了该变量：

# 在 reMarkable 的 ~/.bashrc 文件中或运行 ghostwriter 前设置密钥
export OPENAI_API_KEY=your-key-here
export ANTHROPIC_API_KEY=your-key-here
export GOOGLE_API_KEY=your-key-here

通过将二进制文件传输到 reMarkable 进行安装。在非 reMarkable 设备（如笔记本电脑）上执行：

# 针对 reMarkable2
wget -O ghostwriter https://github.com/awwaiid/ghostwriter/releases/latest/download/ghostwriter-rm2

# 针对 reMarkable Paper Pro
wget -O ghostwriter https://github.com/awwaiid/ghostwriter/releases/latest/download/ghostwriter-rmpp

# 将IP地址替换为你的 reMarkable IP 地址
scp ghostwriter root@192.168.1.117:

然后需要通过 SSH 登录并运行它。以下是安装和运行方法（在 reMarkable 上执行）：

# 首次运行时赋予执行权限
chmod +x ./ghostwriter

./ghostwriter --help # 查看选项并验证是否能正常运行

使用方法

首先需要在 reMarkable 上启动 ghostwriter。通过 SSH 登录后运行：

# 使用默认模型 claude-sonnet-4-0
./ghostwriter

# 使用 gpt-4o-mini 模型
./ghostwriter --model gpt-4o-mini

在屏幕上绘制内容后，用手指轻触右上角触发助手。在 SSH 会话中可以看到触摸检测日志和处理过程。处理时会显示点状进度，最终会显示打字或手绘的响应结果！

CLI 选项

模型与引擎：

--model MODEL - 使用的模型（默认：claude-sonnet-4-0）
--engine ENGINE - 引擎：openai, anthropic, google（根据模型自动检测）
--engine-api-key KEY - API 密钥（或使用环境变量）
--engine-base-url URL - 自定义 API 基础地址

行为控制：

--prompt PROMPT - 使用的提示文件（默认：general.json）
--trigger-corner CORNER - 触发区域：UR（右上）, UL（左上）, LR（右下）, LL（左下）（默认：UR）

工具选项：

--no-svg - 禁用 SVG 绘图工具
--no-keyboard - 禁用文本输出
--thinking - 启用模型思考模式（Anthropic）
--web-search - 启用网络搜索（Anthropic）

测试/调试/实验：

--log-level LEVEL - 设置日志级别（info, debug, trace）
--no-loop - 执行一次后退出
--input-png FILE - 使用 PNG 文件代替截图
--output-file FILE - 输出结果保存到文件
--save-screenshot FILE - 保存截图
--save-bitmap FILE - 保存渲染位图
--no-submit - 不提交给模型
--no-draw - 不绘制输出
--no-trigger - 禁用触摸触发
--apply-segmentation - 启用图像分割以实现空间感知

后台运行

在 reMarkable 上使用 nohup 后台运行：

nohup ./ghostwriter --model gpt-4o-mini &

（TODO：研究如何设置开机自启！）

开发指南

我在 Ubuntu 上开发，但也在 OSX 上验证过。基本流程是：(1) 安装依赖，(2) 本地构建但交叉编译 reMarkable 版本，(3) 传输并测试。

安装 Docker 用于交叉编译
安装 Rust
- 可参考 rustup 安装指南
- 或使用 asdf 管理版本
- apt 或 brew 也可能可用？
Ubuntu
- sudo apt-get install gcc-arm-linux-gnueabihf
OSX
- brew install arm-linux-gnueabihf-binutils
配置 cross-rs 和目标平台
- 建议使用 git 最新版本，特别是 OSX 用户
- cargo install cross --git https://github.com/cross-rs/cross
- rustup target add armv7-unknown-linux-gnueabihf aarch64-unknown-linux-gnu
构建并传输到 reMarkable
- rm2
  - cross build --release --target=armv7-unknown-linux-gnueabihf
  - scp target/armv7-unknown-linux-gnueabihf/release/ghostwriter root@remarkable:
- rmpp
  - cross build --release --target=aarch64-unknown-linux-gnu
  - scp target/aarch64-unknown-linux-gnu/release/ghostwriter root@remarkable:
我将上述步骤封装到 build.sh 中
- ./build.sh 构建并传输到 rm2
- ./build.sh rmpp 构建并传输到 rmpp

我通常保持一个 SSH 终端连接到 reMarkable，先用 Ctrl-C 停止当前运行的 ghostwriter，然后在主机运行构建脚本，最后在 reMarkable shell 中重新启动程序。

当需要为他人构建发布版本时，我会给 main 分支打标签（如 v2026.09.21-01），这会触发 GitHub Action 自动创建最新发布版本。

状态 / 日志

2024-10-06 - 引导（Bootstrapping）
- 基本概念验证已实现！！！
- 屏幕回绘功能效果不佳：它将ChatGPT生成的SVG输出进行光栅化处理，然后尝试绘制大量独立点。reMarkable设备有些崩溃……当整个屏幕变成巨大的黑色方块时，设备会完全卡住无法完成绘制
- 至少成功过的内容：
  - 书写"Fill in the answer to this math problem... 3 + 7 ="
  - "Draw a picture of a chihuahua. Use simple line-art"
2024-10-07 - 循环即灵魂
- 已实现基础的手势和状态显示功能！
- 现在触摸屏幕右上角会出现一个"X"标记。当处理输入时，会继续在X上叠加十字线。不过需要自己手动擦除 :)
2024-10-10 - 初始虚拟键盘设置
- 开始学习使用键盘操作reMarkable设备（此前从未尝试过）。发现其功能相当有限...每个页面只有一个大型文本区域，仅支持非常基础的格式
- 需要创建虚拟键盘（通过rM-input-devices实现），已完成基本功能验证！
- 现在想引入一种模式：所有输入都写入文本层，自动区分机器文本和手写内容。不确定这种模式是否实用
2024-10-20 - 文本输出和其他模式
- 开始逐步重构代码，使其更规范
- 新增./ghostwriter text-assist模式，通过虚拟键盘响应！
2024-10-21 - 二进制发布构建
- 已配置GitHub Action实现二进制构建
2024-10-23 - 代码整理
- 进行了一些重构，将工具函数归类到单独文件
- 昨天Anthropic新发布了3.5-sonnet模型，可能在屏幕空间感知方面表现更好，接下来将在绘图模式中测试
- 接下来计划集成tools功能，使其能根据上下文返回SVG、文本或触发外部脚本（如TODO列表管理）
2024-11-02 - 工具时代
- 开始提供基础工具--draw_text和draw_svg
- 这应该能提升与Anthropic的兼容性？
- 更重要的是，现在只有一个统一助手，它会决定返回键盘文本还是SVG绘图
2024-11-07 - Claude！（Anthropic）
- 进行代码重构以隔离API
- ...现已集成Claude/Anthropic！
- 使用几乎相同的工具调用配置，应该可以合并两个模型
- 目前看来更擅长绘图，但空间感知能力仍不理想
- 下一步可能通过图像预处理和结果定位增强空间感知能力。比如检测边界框、分段等，将这些信息输入模型，让模型返回SVG数组及其定位坐标
2024-11-22 - 人工评估
- 开始设计评估框架
- 首先添加了输入/输出记录参数
- 然后使用这些参数记录设备上的示例输入输出
- 新增支持在笔记本电脑上运行预捕获输入的ghostwriter（通过./build.sh local构建）
- 接下来将开发针对不同提示词/预处理的迭代工具
- 如果积累足够示例，可能需要构建AI评估系统
- 为此...一个想法是将原始输入与输出叠加显示，通过不同颜色区分评估结果
- 目前该技术对SVG输出效果良好，但本地渲染键盘输出较困难（因为键盘输入渲染由reMarkable应用处理）
2024-12-02 - 初始分割器
- 在Claude/copilot帮助下添加了基础图像分割步骤
- 该步骤进行基础分割后将分段坐标提供给视觉大模型（Vision-LLM）参考
- 目前仅与Claude集成，需要合并两个模型
- ...这对在方框中定位X的帮助极大！！
- 需要为评估添加自动化
- 分割器需通过--apply-segmentation显式启用，并假设使用--input-png或--save-screenshot（因为它会重新解析PNG文件）
- 天啊！这是数学题提示首次正确输出答案位置！之前虽然答案正确，但通常用键盘输入10或放在错误位置。这次终于正确放置了！
2024-12-15 - 引擎统一
- 在Claude/copilot和教程帮助下，为OpenAI和Anthropic后端提取出多态引擎层
- 现在可以传递引擎和模型参数
- 其他代码库通常通过模型名映射，可能后续也采用该方式
- 已将提示词和工具定义外部化（到prompts/目录）并统一处理，每个引擎根据API需求调整
- 理论上prompts/文件既打包在可执行文件中，又可通过本地目录在运行时覆盖，但尚未充分验证
2024-12-18 - 系统升级恐慌
- 我的reMarkable自动升级，通常没问题
- 但升级到3.16.2.3后...截图功能失效！
- 使用codexctl降级。出现可怕的"SystemError: Update failed!"后系统锁死！
- ...但重启后成功降级到3.14.1.9
- 所以...我会持续关注新版本的其他问题报告
- 对了，现在可以把prompts/general.json重命名为james.json，添加"Your name is James"到提示词。然后复制到reMarkable设备
- 运行./remarkable --prompt james.json即可使用本地修改的提示词！
2024-12-19 -- 非完全本地
- 网友建议增加本地网络视觉大模型模式
- Ollama支持该功能！于是尝试...
- 但llama3.2-vision不支持工具 :(
- Groq的llama-3.2支持！
- ...但它的井字棋表现不佳（虽然是90b模型）。尽管响应速度很快！
- 啊！忘记启用分割功能。启用后空间感知应该更好...
- 这是Claude的三次运行对比
- 新增环境变量OPENAI_BASE_URL，例如：OPENAI_BASE_URL=https://api.groq.com/openai ./ghostwriter --engine openai --model llama-3.2-90b-vision-preview
2024-12-22 -- 开始评估
- 进一步构建评估系统，包括基础启动脚本
- 当前是硬编码参数集，控制分割开关和使用Claude 3.5 Sonnet或ChatGPT 4o-mini
- 查看初始评估报告!
- 发现Markdown布局受限，可能改用HTML（或许启用GitHub Pages）
- 这开始进入需要时间和成本的阶段...多次运行花费约1美元。最终报告包含48次执行
- 假设有温度参数，每组测试应运行多次
- 要进一步扩展，当然需要引入JUDGE-BOT！
- 这样就能说"我的新分割算法使输出质量提升17%"等量化结论
2024-12-25 -- CLI简化与扩展
- 现在只需-m gpt-4o-mini即可自动识别引擎为openai
- 支持传递--engine-api-key和--engine-url-base
- 使用Groq示例：./ghostwriter -m llama-3.2-90b-vision-preview --engine-api-key $GROQ_API_KEY --engine openai --engine-base-url https://api.groq.com/openai
- ...但Llama 3.2 90b视觉模型在此接口表现仍不理想
- 关闭了大量调试信息。需要后续引入日志级别控制
- 彩蛋：现已添加Google Gemini支持！使用-m gemini-2.0-flash-exp并设置GOOGLE_API_KEY！
2024-12-28 -- 可用性改进
- 使用带电源的USB集线器连接外接键盘，测试键盘快捷键
- 进一步明确了键盘输入的定位逻辑
- 现在在屏幕底部中央发送额外触摸事件，确保下一个键盘输入始终位于最低元素下方。之前会放在最近输入文本下方，若下方有手绘内容会混淆。现在"你最喜欢的颜色？"的答案会整洁地放在更下方！可能还画了个羊的梦？
2025-03-03 -- reMarkaple Paper Pro!!!
- 本项目登上hackernews和reddit r/remarkableTablet
- 收到反馈...请求支持reMarkable Paper Pro
- 虽然之前没有该设备
- 但在BestBuy体验后决定购买
- 现在Ghostwriter也支持该设备！
- 屏幕和输入差异是预期中的
- 意外的是设备未包含uinput内核模块。使用reMarkable官方Linux源码编译并打包
- 现在运行ghostwriter时若未加载uinput模块会自动加载
- 这将是个大麻烦，因为不同Linux版本不兼容，而每次reMarkable更新通常会升级Linux...
2025-04-26 -- 更多Paper Pro改进，尝试笔SVG绘图
- uinput模块仍未默认编译，但已解决加载问题
- 现在包含3.16、3.17、3.18版本模块
- 在分支中尝试使用uSVG和svg2polylines改进SVG绘图体验；当前使用光栅化点绘（stipple）效果不理想且方向错误
2025-05-10 -- Anthropic thinking和web_search！
- 添加Anthropic的思考过程和思考tokens功能！
- 支持显示思考过程的新响应格式，但不发送到屏幕
- 同时添加Anthropic的网页搜索功能（服务器端实现）！
- 默认未启用，可通过./ghostwriter --thinking --web-search开启
2025-05-17 -- 修复rm2
- 感谢YOUSY0US3F修复rm2屏幕捕获问题！
2025-09-21 -- 修复rmpp，代码格式化，新增功能
- 间隔一段时间后更新，发现一些异常响应。调试内部对话发现截图异常
- 原来3.20版本更改了屏幕分辨率？goRemarkableStream的PR描述了该问题，修复简单
- 应用户请求添加--no-svg完全禁用SVG工具（也可通过自定义提示词实现）
- 考虑到自定义提示词设置繁琐，正在构思Web界面管理API密钥、提示词和调试功能
- 上次开发是在使用claude-code之前。现在让它协助开发
- 新增--trigger-corner LR（及其他）设置激活角落参数

设想

[已完成] Matt向我展示了他刚推出的iOS超级计算器，可以从中获取灵感！
- 这个功能已经初步可用，尝试编写一个公式看看
[已完成] 通过手势或特定内容触发请求
- 比如在特定位置画一个X
- 或者画一个悬浮圆圈——不一定要实际触摸事件
[已完成] 截取屏幕截图，将其输入视觉模型，获取输出结果，并以某种方式将结果重新呈现在屏幕上
[已完成] 就像实际书写一样；或者干脆让它快速在屏幕上画满点
[已完成] 更棒的是...我们还可以发送键盘事件！这意味着我们可以使用Remarkable的文本区域。这是一个笨拙的文本区域，与绘图层不在同一个层级
- 所以我们可以认为：绘图=人类，文本=机器
- 删除操作也会更简单...
[已完成] 基础评估
- 创建一组输入用的截图
- 代表不同的使用场景
- 其中一些（如TODO提取）可能对输出有特定预期，但大多数没有
- 运行系统获取示例输出——文本、SVG、操作指令
- 编写测试套件评估结果...可能需要人工参与？或者使用视觉-LLM评估器？
[进行中] 提示词库
- 已在 prompts/ 开始构建
- 目标是提供一组可配置的工具（可能是实际的LLM"工具"）
- 也可以添加其他内容...比如作为工具运行的外部命令
- 示例：一个擅长管理待办事项的提示词。它会查找"todo"，提取后运行add-todo.sh脚本
  - （该脚本会通过ssh将任务添加到taskwarrior）
初始配置
- 首次运行（或带参数时）创建配置文件
- 可提示输入OpenAI密钥并写入文件
- 可能需要自动启动、自动恢复功能？
生成图表
- 支持输出plantuml和/或mermaid格式，然后转换为SVG/png并显示
外部交互
- 允许联网查询
- 允许发送邮件、Slack消息给我
对话模式
- 在单个屏幕中跟踪每次交互的版本变化
- 首次发送是原始屏幕
- 第二次发送包含原始屏幕、响应屏幕（可能用红色显示Claude输出）、新添加内容（可能绿色？）
  - 这可以形成完整的页面对话链
  - 可能需要两个按钮触发视觉-LLM：一个"新提示"，一个"继续"
- 或者每次显示最近三次交互：
  - 黑色：原始内容
  - 红色：Claude响应
  - 绿色：新输入
- 或者使用相同颜色结构但显示完整消息链？
- 切换到新空白页时可能显示异常，看起来像新输入擦除了所有内容
- 这种方式可能更便于处理滚动
- 可能需要两种触发方式——延续触发和全新开始触发
使用本地网络的视觉-LLM（如ollama）
- 首次尝试使用兼容OpenAI API的ollama失败；ollama的LLAMA 3.2视觉模型不支持工具
- Groq的改进版llama-3.2-vision支持工具...但效果不如ChatGPT、Claude或Gemini
支持中断的流式LLM服务
使用异步处理加快反馈速度并实现并行处理
测试OpenAI新推出的responses API
尝试集成MCP（模型上下文协议）
- 可能需要云托管代理？
允许非工具响应被忽略，或转换为常规文本的键盘（draw_text）工具
集成Web界面用于配置管理与调试

参考资源

主要资源来自 Awesome reMarkable
屏幕截图功能改编自 reSnap
屏幕绘制技术参考了 rmkit lamp
使用 resvg 实现SVG转PNG
通过 rM-input-devices 实现无键盘输入
最近发现的 reMarkableAI 实现OCR→OpenAI→PDF→设备传输
另一个reMarkable-LLM接口 rMAI，使用replicate作为模型服务
虽未采用，但 Crazy Cow 是个有趣的工具，可将文本转换为reMarkable1的笔触

临时笔记


# 在设备上记录评估
./ghostwriter --output-file tmp/result.out --model-output-file tmp/result.json --save-screenshot tmp/input.png --no-draw-progress --save-bitmap tmp/result.png claude-assist

# 在本地复制评估结果到本地文件夹
export evaluation_name=tic_tac_toe_1
rm tmp/*
scp -r remarkable:tmp/ ./
mkdir -p evaluations/$evaluation_name
mv tmp/* evaluations/$evaluation_name

# 运行评估
./target/release/ghostwriter --input-png evaluations/$evaluation_name/input.png --output-file tmp/result.out --model-output-file tmp/result.json --save-bitmap tmp/result.png --no-draw --no-draw-progress --no-loop --no-trigger claude-assist

# 叠加输入输出
convert \( evaluations/$evaluation_name/input.png -colorspace RGB \) \( tmp/result.png -type truecolormatte -transparent white -fill red -colorize 100 \) -compose Over -composite tmp/merged-output.png

构建虚拟键盘输入的uinput模块

为了实现反向输入，我们需要插入虚拟USB键盘（与Remarkable Folio键盘同类型）。rm2设备可直接使用，但rmpp设备内核未包含uinput模块，需要自行编译。

如果我已经完成编译则无需操作！

git clone https://github.com/reMarkable/linux-imx-rm
切换到目标发行分支
按照说明提取并启用大Git支持
编辑 arch/arm64/configs/ferrari_defconfig
添加 CONFIG_INPUT_UINPUT=m
按照readme构建：

export make=make ARCH=arm64 CROSS_COMPILE=aarch64-linux-gnu-
make ferrari_defconfig
make -j$(nproc)
make INSTALL_MOD_STRIP=1 INSTALL_MOD_PATH=./output modules_install

将output/lib/modules/.../kernel/drivers/input/misc/uinput.ko复制到utils/rmpp/uinput-VERSION.ko
该文件将被打包并自动加载
...所以只要我完成编译并提交到仓库，你们就无需重复操作

提示/工具思路：

工具（tool）有几种模型——每个工具都可以是可重用且通用的，或者可以包含额外输入参数（extra-inputs）用于链式思考（chain-of-thought），以及参数的提示说明
提示应采用纯JSON或YAML格式，并应在视觉/大语言模型（V/LLM models）间保持标准化
我正在考虑的一个总体方向是设置顶层"模式（modes）"，每个模式包含主提示和可用工具集
但或许也可以构建完整状态机流程？
例如...数学助手可能有不同于待办助手的状态机
状态应包含开始、中间和终止状态
终止状态需要产生输出或效果，这些才是真正执行操作的状态
初始状态对应初始提示
某个中间状态可以是思考（thinking），这里可以将工具输入作为书写思考过程的区域，工具输出会被忽略
总体目标是建立易于编写、易于复制粘贴、易于维护的提示系统
然后我们可以为每个提示模式构建可复用的评估集或示例集
越来越明显的是，reMarkable用例可能恰好是该系统中配置的特定提示，其余部分可抽象为框架...
因此状态机可能如下：

stateDiagram-v2
    [*] --> Screenshot
    Screenshot --> OutputScreen
    Screenshot --> OutputKeyboardText

stateDiagram-v2
    [*] --> WaitForTouch
    WaitForTouch --> Screenshot
    Screenshot --> OutputScreen
    Screenshot --> OutputKeyboardText
    OutputScreen --> [*]
    OutputKeyboardText --> [*]

stateDiagram-v2
    [*] --> WaitForTouch
    WaitForTouch --> Screenshot
    Screenshot --> Thinking
    Thinking --> Thinking
    Thinking --> OutputScreen
    Thinking --> OutputKeyboardText
    OutputScreen --> [*]
    OutputKeyboardText --> [*]

ghostwriter 快速上手指南

环境准备

系统要求

reMarkable 设备（rm2 或 rmpp 型号）
系统版本建议为 3.14.1.9（新版 3.16.x 可能导致截图功能异常）

前置依赖

API 密钥（任选其一）：

export OPENAI_API_KEY=your-key-here
export ANTHROPIC_API_KEY=your-key-here
export GOOGLE_API_KEY=your-key-here

基础工具：
- Linux/Mac 环境（用于下载和传输文件）
- wget、scp、ssh 命令行工具

安装步骤

1. 下载二进制文件

根据设备型号选择对应版本（建议使用国内镜像加速）：

# rm2 版本（清华大学镜像加速示例）
wget -O ghostwriter https://ghproxy.com/github.com/awwaiid/ghostwriter/releases/latest/download/ghostwriter-rm2

# rmpp 版本
wget -O ghostwriter https://ghproxy.com/github.com/awwaiid/ghostwriter/releases/latest/download/ghostwriter-rmpp

2. 传输到 reMarkable

替换为你的设备 IP 地址：

scp ghostwriter root@192.168.1.117:

3. 设置执行权限

SSH 登录设备后执行：

chmod +x ./ghostwriter

基本使用

1. 启动服务

# 使用默认模型 claude-sonnet-4-0
./ghostwriter

# 或指定 gpt-4o-mini 模型
./ghostwriter --model gpt-4o-mini

2. 触发助手

在设备屏幕：

用手指书写内容（如："Draw a chihuahua"）
用手指轻触右上角触发处理

3. 示例演示

书写数学题：

Fill in the answer: 3 + 7 =

触发后将自动输出答案 10 到指定位置

4. 后台运行

nohup ./ghostwriter --model gpt-4o-mini &

注意事项

系统版本：升级到 3.16.x 后可能出现截图功能异常
密钥安全：建议通过环境变量设置 API 密钥，避免硬编码
国内加速：使用 ghproxy.com 等 GitHub 加速服务下载资源

提示：可通过 --apply-segmentation 参数启用图像分割功能提升空间定位精度

版本历史

v2025.09.27-012025/09/27

v2025.09.21-032025/09/22

v2025.09.21-022025/09/21

v2025.09.21-012025/09/21

v2025.09.17-012025/09/17

v2025.05.17-012025/05/17

v2025.05.10-012025/05/11

v2025.04.26-032025/04/26

v2025.04.26-022025/04/26

v2025.04.26-012025/04/26

v2024.12.292024/12/29

v2024.12.25.12024/12/25

v2024.12.252024/12/25

v2024.12.182024/12/19

v2024.12.022024/12/03

v2024.11.222024/11/23

v2024.11.022024/11/03

v2024.10.21.012024/10/21

v2024.10.212024/10/21

常见问题

ghostwriter是否支持reMarkable Paper Pro？

在PaperPro上运行时出现下载错误或连接中断怎么办？

reMarkable2 3.16.2.3版本运行ghostwriter报错如何解决？

如何避免误触文档关闭按钮触发AI功能？

ghostwriter是否支持reMarkable 1设备？

为何不开发Android/iOS版本或Web应用？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架