project-raven

269 352 较难 1 次阅读今天MIT图像开发框架音频Agent

AI 解读由 AI 自动生成，仅供参考

Project Raven 是一款开源的本地化 AI 会议助手，旨在为用户提供实时的会议转录、回声消除及智能辅助服务。它主要解决了在线会议中常见的痛点：传统录音工具难以区分扬声器声音与麦克风输入，导致转录混乱，且用户往往缺乏即时的上下文智能支持。

Raven 能够同时捕获系统音频和麦克风声音，利用与 Chrome 浏览器同源的 WebRTC AEC3 引擎进行专业级回声消除，确保即使不戴耳机，对方的发言也不会干扰你的语音录入。随后，它通过 Deepgram 将双方对话实时转化为文字，并允许用户随时调用 Claude 或 OpenAI 模型，基于当前会议内容获得精准的建议、总结或问答反馈。

这款工具特别适合需要频繁参加线上会议的职场人士、远程协作团队以及希望提升会议效率的研究人员。其独特的技术亮点在于“隐身模式”，悬浮窗口在屏幕共享时对他人不可见，保护隐私；同时坚持“本地优先”架构，所有数据与 API 密钥均存储于本地，保障信息安全。无论是 macOS 还是 Windows 用户，都能轻松部署这一强大的会议搭档，让每一次沟通都更有成效。

使用场景

某远程开发团队正在进行一场高并发的系统架构评审会，技术负责人需要一边听取多方意见，一边实时查阅本地技术文档以回答复杂问题。

没有 project-raven 时

回声干扰严重：当团队成员共享屏幕播放演示视频时，负责人的麦克风会收录扬声器声音产生回声，导致远程参会者听不清讲话，不得不频繁要求静音重述。
记录与思考冲突：负责人需手动记录会议要点和待办事项，分散了倾听和深度思考的精力，容易遗漏关键的技术决策细节。
上下文检索中断：面对关于旧版接口规范的提问，必须暂停会议去翻阅本地 PDF 文档或搜索聊天记录，打断了流畅的讨论节奏。
隐私与合规担忧：使用云端录音工具时，担心敏感的系统架构数据泄露，且无法确保音频数据完全保留在本地设备中。

使用 project-raven 后

纯净双路音频：project-raven 利用 WebRTC AEC3 引擎实时消除系统音频回声，确保负责人在播放演示的同时，麦克风只收录清晰的人声，沟通零障碍。
智能实时副驾：Deepgram 实时转录双方对话并显示在“隐形”浮窗中（屏幕共享不可见），AI 助手自动总结争议点并生成待办列表，让负责人专注决策。
本地文档即时问答：通过 RAG 功能加载本地技术文档，负责人可直接询问 AI“旧版支付接口的超时策略是什么”，系统基于本地上下文秒级给出精准答案。
数据本地闭环：所有音频流、转录文本及 AI 交互记录均通过 SQLite 存储在本地，无需上传云端，彻底消除核心架构数据外泄的顾虑。

project-raven 将原本混乱的会议流程转化为高效、私密且上下文感知的智能协作体验，让开发者真正专注于技术本身而非工具摩擦。

运行环境要求

操作系统

macOS
Windows

GPU

未说明

内存

未说明

依赖

notesLinux 平台暂不支持。macOS 需授予麦克风和屏幕录制权限；Windows 需安装 C++ 构建工具和 Rust。项目采用本地优先架构，音频回声消除依赖 GStreamer 和 WebRTC AEC3 引擎，需分别编译 Swift (macOS) 和 Rust/NAPI-RS (Windows) 原生二进制文件。AI 功能需配置 Deepgram、Anthropic 或 OpenAI 的 API 密钥。

python3.12 (Windows 编译原生模块必需)

Node.js >= 22.12.0

Electron

GStreamer 1.24+ (含 gst-plugins-base/good/bad)

Xcode Command Line Tools (macOS)

Visual Studio Build Tools with C++ (Windows)

Rust toolchain (Windows)

Swift 5.9+ (macOS)

better-sqlite3

@xenova/transformers

快速开始

开源、基于 AI 的会议助手，支持实时转录与回声消除。

Raven 在会议中同时捕获系统音频和麦克风输入，通过回声消除技术防止扬声器声音串入麦克风，并借助 Deepgram 实现实时双端对话转录。此外，它还能根据上下文为您提供由 Claude 或 OpenAI 提供的 AI 辅助回复——所有这些功能均在您的本地桌面设备上运行。

下载 Raven | 文档 | 问题反馈

截图

仪表盘 — 会话历史	设置 — API 密钥
隐身模式关闭 — 屏幕共享可见叠加层	隐身模式开启 — 屏幕共享不可见叠加层
设置 — 模型选择	引导流程 — 叠加层导览

完整的引导流程（6 步）

第 1 步：欢迎	第 2 步：API 密钥	第 3 步：权限

第 4 步：叠加层导览	第 5 步：快捷键	第 6 步：准备就绪

功能

双流音频采集 — 系统音频 + 麦克风，分别在 macOS（ScreenCaptureKit）和 Windows（WASAPI）上原生实现
回声消除 — 使用 WebRTC AEC3 引擎的 GStreamer 管道（与 Chrome 中使用的回声消除器相同）
实时转录 — 通过 WebSocket 连接 Deepgram Nova-3，为麦克风和系统音频分别建立独立通道
AI 辅助 — Anthropic Claude 或 OpenAI，可通过提供者模式由用户自定义
隐身叠加层 — 对 Zoom、Meet、Teams 和 Discord 的屏幕共享完全透明
本地优先 — 您的 API 密钥和数据仅存储在本地机器上（使用 better-sqlite3 的 SQLite 数据库）
RAG — 上传本地文档，利用 @xenova/transformers 进行嵌入，并在 AI 上下文中引用
会话管理 — 自动保存完整转录、AI 回答及摘要
模式 — 可自定义 AI 行为配置文件，包含系统提示词和快速操作
头像编辑器 — 裁剪、缩放和移动后保存您的头像
专业版功能 — 可选身份验证、计费和同步服务，适用于付费层级（连接到独立后端）

架构

Architecture

工作原理

用户启动录音会话
原生二进制程序同时捕获系统音频和麦克风信号
- macOS： Swift 进程使用 ScreenCaptureKit（系统音频）+ CoreAudio（麦克风）
- Windows： Rust/NAPI-RS 模块使用 WASAPI 循环和捕获功能
两条音频流被送入 GStreamer 回声消除管道（webrtcechoprobe / webrtcdsp），以避免远端发言者的语音污染麦克风信号
清晰的麦克风音频和系统音频分别通过两条并行的 WebSocket 连接发送至 Deepgram Nova-3 进行转录
转录内容实时显示在叠加窗口中
用户可向 AI（Claude 或 OpenAI）请求帮助，并获得基于完整对话上下文的回复

项目结构

src/
├── main/                  # Electron 主进程
│   ├── audioManager.ts    #   音频采集协调
│   ├── transcriptionService.ts  #   Deepgram WebSocket 连接
│   ├── aiService.ts       #   AI 提供者抽象（Claude / OpenAI）
│   ├── sessionManager.ts  #   会话持久化与历史记录
│   ├── store.ts           #   SQLite 数据库（better-sqlite3）
│   └── index.ts           #   应用生命周期、IPC 处理程序、窗口管理
├── renderer/              # React UI（Vite + Tailwind）
│   └── src/
│       ├── components/    #   仪表盘、叠加层、设置、引导界面
│       └── ...
├── preload/               # Electron 预加载脚本（上下文桥）
└── native/
    ├── swift/             # macOS 音频采集（ScreenCaptureKit + CoreAudio）
    │   └── AudioCapture/
    ├── windows/           # Windows 音频采集（WASAPI，Rust/NAPI-RS）
    └── aec/               # GStreamer AEC C++ 插件（WebRTC AEC3）

平台支持

平台	系统音频	麦克风	回声消除	状态
macOS 12+	ScreenCaptureKit	CoreAudio	GStreamer AEC3	主要平台，已全面测试
Windows 10/11	WASAPI Loopback	WASAPI Capture	GStreamer AEC3	支持
Linux	—	—	—	尚未支持

入门指南

本节提供从零开始到应用运行的完整线性教程。请选择您的平台，按顺序执行每个编号步骤，并在继续下一步之前逐一验证。

API 密钥（首次启动时在应用内输入，无需提前配置）：

Deepgram — 实时转录（提供免费套餐）

Anthropic 或 OpenAI — AI 辅助

本指南介绍的是开源版本的应用程序。如需了解高级/专业模式的设置，请参阅 docs/REPO_STRUCTURE.md。

macOS 设置

已在 macOS 12（Monterey）至 macOS 15（Sequoia）上测试，涵盖 Intel 和 Apple Silicon 架构。

第 1 步 — 安装 Xcode 命令行工具

xcode-select --install

系统将弹出一个对话框，点击安装并等待完成（约 2 分钟）。

验证：

xcode-select -p
# 预期输出：/Library/Developer/CommandLineTools  （或 Xcode.app 路径）

若出现提示 xcode-select: error: command line tools are already installed — 表示您已完成此步骤，可继续。

第 2 步 — 安装 Node.js 22

建议通过 nvm 安装。如果您已经拥有 nvm，则可跳过 curl 命令。

curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.40.1/install.sh | bash

关闭并重新打开终端，然后执行：

nvm install 22
nvm use 22

验证：

node -v

# 预期：v22.x.x（任意 22+ 版本）

如果出现 nvm: command not found 错误： 请关闭终端并重新打开一个新终端——nvm 的安装脚本会将其自身添加到你的 shell 配置文件中，但只有新的 shell 才能加载它。

步骤 3 — 安装 GStreamer

brew install gstreamer gst-plugins-base gst-plugins-good gst-plugins-bad

如果你还没有 Homebrew，请先从 brew.sh 安装。

验证：

pkg-config --modversion gstreamer-1.0
# 预期：1.24.x（或类似版本）

如果出现 Package gstreamer-1.0 was not found 错误： 这是因为 Homebrew 的 pkg-config 路径未正确设置。请将以下行添加到你的 ~/.zshrc 文件，并重启终端：
# Apple Silicon（M1/M2/M3/M4）：
echo 'export PKG_CONFIG_PATH="/opt/homebrew/lib/pkgconfig:$PKG_CONFIG_PATH"' >> ~/.zshrc

# Intel Mac：
echo 'export PKG_CONFIG_PATH="/usr/local/lib/pkgconfig:$PKG_CONFIG_PATH"' >> ~/.zshrc

步骤 4 — 克隆仓库并安装依赖

git clone https://github.com/Laxcorp-Research/project-raven.git
cd project-raven
npm install

npm install 需要几分钟时间。它会通过 postinstall 脚本自动为 Electron 重新构建 better-sqlite3——在最后你会看到 @electron/rebuild 的输出。

验证：

ls node_modules/.package-lock.json && echo "OK"
# 预期：OK

如果 npm install 因 node-gyp 错误而失败： 请确保在步骤 1 中已成功安装 Xcode 命令行工具。运行 xcode-select -p 来确认。

步骤 5 — 构建 GStreamer 回声消除插件

cd src/native/aec
npm install
./build-deps.sh
npx cmake-js compile
cd ../../..

具体操作：

安装插件的构建工具（cmake-js、node-addon-api）
验证所有 GStreamer 库，并从源代码编译 WebRTC DSP 插件（Homebrew 不提供该插件）
编译 C++ 回声消除原生模块

验证：

ls src/native/aec/build/Release/raven-aec.node && echo "OK"
# 预期：OK

如果 build-deps.sh 因“gstreamer-1.0 未找到”而失败： 请返回步骤 3，确保 pkg-config --modversion gstreamer-1.0 可以正常工作。

如果 cmake-js compile 因“cmake 未找到”而失败： cmake 已经捆绑在 cmake-js 中。运行 npx cmake-js --version——如果仍然失败，请删除 src/native/aec/ 目录下的 node_modules，然后重新运行 npm install。

步骤 6 — 构建 Swift 音频捕获二进制文件

cd src/native/swift/AudioCapture
swift build -c release
cd ../../../..

验证：

ls src/native/swift/AudioCapture/.build/release/audiocapture && echo "OK"
# 预期：OK

如果 swift build 因未解析的导入而失败： 你的 Swift 工具链可能太旧了（需要 5.9 或更高版本）。请使用 swift --version 检查版本。同时更新 Xcode 命令行工具：
sudo rm -rf /Library/Developer/CommandLineTools && xcode-select --install

步骤 7 — 运行应用

npm run dev

Electron 应用程序将会打开。首次启动时，系统会提示你在设置中输入 API 密钥。

如果应用程序启动但音频捕获无法工作： macOS 需要显式权限。前往 系统设置 → 隐私与安全性，授予应用程序（或开发期间的终端模拟器）麦克风和屏幕录制访问权限。

Windows 系统设置

经过 Windows 10（21H2+）和 Windows 11 测试。所有命令均适用于 PowerShell。每次安装完成后，请打开一个 新终端以使 PATH 变量生效。

步骤 1 — 安装 Visual Studio Build Tools

下载并运行 Visual Studio Build Tools 安装程序。

在安装程序中，勾选 “使用 C++ 的桌面开发” 工作负载，然后点击安装。确保选择以下可选组件（默认应已选中）：

MSVC 构建工具（适用于 x64/x86，最新版本）
Windows 10/11 SDK
Windows 专用的 C++ CMake 工具

验证：

& "${env:ProgramFiles(x86)}\Microsoft Visual Studio\Installer\vswhere.exe" -products * -requires Microsoft.VisualStudio.Workload.VCTools -property displayName
# 预期：Visual Studio Build Tools 2022

如果你已经拥有完整的 Visual Studio（而不仅仅是 Build Tools），并且安装了 C++ 工作负载，也可以使用。

步骤 2 — 安装 Node.js（LTS）

选项 A — 使用 nvm-windows（推荐）：

下载并运行最新的 nvm-setup.exe 文件，然后打开一个新终端：

nvm install 22
nvm use 22

选项 B — 直接从 nodejs.org 下载 LTS 22.x 的 MSI 安装程序。

验证（在新终端中）：

node -v
# 预期：v22.x.x

为什么特别选择 Node 22？ 该项目要求 node >= 22.12.0（参见 package.json 中的 engines 字段）。如果使用 nvm install lts，可能会安装尚未经过测试的新大版本。

步骤 3 — 安装 Python

Python 是 node-gyp 编译原生 Node.js 模块（better-sqlite3、bufferutil 等）所必需的。

选项 A — 使用 winget：

winget install Python.Python.3.12 --source winget

选项 B — 从 python.org 下载。安装时请确保勾选“将 Python 添加到 PATH”。

验证（在新终端中）：

python --version
# 预期：Python 3.x.x

步骤 4 — 安装 Rust 工具链

下载并运行 rustup-init.exe。接受默认设置（安装 stable-msvc）。

验证（在新终端中）：

rustc --version
# 预期：rustc 1.xx.x (...)
rustup default stable-msvc

步骤 5 — 安装 GStreamer（MSVC）

从 gstreamer.freedesktop.org/download 下载 MSVC x86_64 安装程序——点击 Windows → MSVC x86_64（VS 2022，Release CRT）。

对于 GStreamer 1.28+，有一个合并的安装包（运行时 + 开发环境）。对于较旧的版本，则需要分别下载运行时和开发环境的 MSI 文件。

按照默认设置运行安装程序。通常安装路径为 C:\gstreamer\ 或 C:\Program Files\gstreamer\。

安装完成后，在新终端中验证环境变量是否已设置：

echo $env:GSTREAMER_1_0_ROOT_MSVC_X86_64

# 预期：C:\gstreamer\1.0\msvc_x86_64\（或 C:\Program Files\gstreamer\1.0\msvc_x86_64\）

同时，请确保 GStreamer 的 bin 目录已添加到你的 PATH 环境变量中：

$gstRoot = $env:GSTREAMER_1_0_ROOT_MSVC_X86_64
if ($gstRoot) { echo "GStreamer 根目录：$gstRoot" } else { echo "未设置 - 请参阅下方" }

如果该变量为空： 安装程序未设置它。请找到 GStreamer 的安装位置并手动设置：
# 请根据您的安装路径调整以下路径
[Environment]::SetEnvironmentVariable("GSTREAMER_1_0_ROOT_MSVC_X86_64", "C:\Program Files\gstreamer\1.0\msvc_x86_64\", "User")
然后 重启终端。

如果 GStreamer 安装到了 C:\Program Files\gstreamer\ 而不是 C:\gstreamer\： 这没有问题 — 只需确保环境变量指向正确的路径（例如 C:\Program Files\gstreamer\1.0\msvc_x86_64\）。

步骤 6 — 安装 CMake

编译 GStreamer 回声消除插件需要 CMake。

winget install Kitware.CMake --source winget

或者从 cmake.org/download 下载。请确保勾选“添加到 PATH”。

在 新终端 中验证：

cmake --version
# 预期：cmake version 3.x.x

步骤 7 — 克隆仓库并安装依赖

git clone https://github.com/Laxcorp-Research/project-raven.git
cd project-raven
npm install

npm install 需要几分钟时间。它会通过 postinstall 脚本自动为 Electron 重新构建 better-sqlite3。

验证：

Test-Path node_modules\.package-lock.json
# 预期：True

如果 npm install 报错“无法找到任何 Python 安装”： 请返回步骤 3 — 必须安装 Python 并将其添加到 PATH。

如果 npm install 报错“无法找到任何 Visual Studio 安装”： node-gyp 无法自动检测你的 Build Tools。请按顺序尝试以下修复方法：
# 修复 1：为 node-gyp 设置版本提示
npm config set msvs_version 2022
Remove-Item -Recurse -Force node_modules
npm install
如果较新的 npm 版本对 npm config set msvs_version 报错，可以改用环境变量：
# 修复 2：环境变量（适用于所有 npm 版本）
$env:GYP_MSVS_VERSION = "2022"
Remove-Item -Recurse -Force node_modules
npm install

步骤 8 — 构建 GStreamer 回声消除插件

首先，检查项目使用的 Electron 版本：

node -e "console.log(require('./node_modules/electron/package.json').version)"
# 记下版本号（例如 40.4.1）

然后针对该版本构建插件：

cd src\native\aec
npm install
npx cmake-js compile --runtime electron --runtime-version <ELECTRON_VERSION>
cd ..\..\..

将 <ELECTRON_VERSION> 替换为上一条命令中的版本号（例如 40.4.1）。

重要提示： --runtime electron --runtime-version 标志是必需的。如果没有这些标志，插件将被编译为 Node.js 版本而非 Electron 版本，并且在加载时会崩溃。如果你后续升级了 Electron，必须使用新版本重新构建此插件。

注意： build-deps.sh 脚本仅适用于 macOS。在 Windows 上，GStreamer MSVC 安装程序已经包含了所有必要的插件（包括 WebRTC DSP）。

验证：

Test-Path src\native\aec\build\Release\raven-aec.node
# 预期：True

如果 cmake-js 报错“未安装 CMake”： 请返回步骤 6。

如果 cmake-js 报错“未找到 GStreamer”： GSTREAMER_1_0_ROOT_MSVC_X86_64 环境变量未设置。请返回步骤 5。

如果构建成功但链接失败，出现“未解析的外部符号 g_object_set / g_type_check_instance_cast”错误： 链接步骤中缺少 GLib/GObject 库。这应由 CMakeLists.txt 自动处理 — 如果遇到此错误，请提交 bug 报告。

步骤 9 — 构建 Windows 音频捕获模块

cd src\native\windows
npm install
npx napi build --platform --release
cd ..\..\..

验证：

Test-Path src\native\windows\raven-windows-audio.win32-x64-msvc.node
# 预期：True

如果构建因链接器错误而失败： 确保 Rust 使用 MSVC 目标：rustup default stable-msvc。

如果因“未找到 Windows SDK”而失败： 打开 Visual Studio Installer → 修改 → 个别组件，并安装最新的“Windows 10 SDK”或“Windows 11 SDK”。

步骤 10 — 运行应用

npm run dev

Electron 应用将打开。首次启动时，你将看到一个包含 6 个步骤的引导流程 — 请输入你的 API 密钥（Deepgram 用于转录，Claude 或 OpenAI 用于 AI 辅助）。

如果应用启动但音频捕获不起作用： 检查 设置 → 声音，确保已将正确的播放和录音设备设置为默认设备。WASAPI 会从默认设备捕获音频。

设置故障排除快速参考

症状	可能原因	解决方法
`无法找到任何 Python 安装`	未安装 Python	安装 Python 3.x 并将其添加到 PATH（Windows 步骤 3）
`无法找到可用的 Visual Studio 安装`	`node-gyp` 无法自动检测 Build Tools	设置 `$env:GYP_MSVS_VERSION = "2022"`，删除 `node_modules`，重新运行 `npm install`
`npm install` 因 `node-gyp` 错误而失败	缺少 C/C++ 构建工具	macOS： `xcode-select --install` Windows：安装 VS Build Tools “桌面开发 with C++”工作负载
运行时出现 `NODE_MODULE_VERSION 不匹配`	原生模块为错误的 Electron 版本构建	在项目根目录运行 `npx @electron/rebuild -f -w better-sqlite3`
`build-deps.sh`：“未找到 gstreamer-1.0”	GStreamer 未安装或 `pkg-config` 无法找到它	macOS：通过 Homebrew 安装并检查 `PKG_CONFIG_PATH`（参见 macOS 步骤 3）
cmake-js：“未安装 CMake”	CMake 未在 PATH 中	安装 CMake（Windows 步骤 6）
cmake-js：“未找到 GStreamer”（Windows）	`GSTREAMER_1_0_ROOT_MSVC_X86_64` 未设置	手动设置环境变量并重启终端（参见 Windows 步骤 5）
AEC 插件在 Electron 启动时崩溃	为 Node.js 而非 Electron 构建	使用 `--runtime electron --runtime-version <your-electron-version>` 重新构建（Windows 步骤 8）
`swift build` 失败	Swift 工具链版本过低（需 5.9+）	`sudo rm -rf /Library/Developer/CommandLineTools && xcode-select --install`
Windows 上 `napi build` 出现链接器错误	Rust 目标错误或缺少 Windows SDK	`rustup default stable-msvc`，并确保已安装 VS Build Tools C++ 工作负载
应用启动但 macOS 上无音频	缺少系统权限	系统设置 → 隐私与安全性：授予麦克风和屏幕录制权限
应用启动但 Windows 上无音频	默认音频设备设置错误	设置 → 声音：设置正确的默认播放/录音设备

键盘快捷键

操作	快捷键
切换叠加层	`Cmd + \`
开始/停止录制	`Cmd + R`
获取 AI 建议	`Cmd + Enter`
清除对话	`Cmd + Shift + R`
移动叠加层	`Cmd + 方向键`
滚动叠加层	`Cmd + Shift + 上/下`

在 Windows 系统上，请将 Cmd 替换为 Ctrl。

测试

npm test              # 单元测试 + 集成测试
npm run test:coverage # 包含覆盖率报告
npm run test:e2e      # 端到端测试（需先运行 npm run build）
npm run test:all      # 运行所有测试

故障排除

better-sqlite3 原生模块错误：

postinstall 脚本会自动处理此问题。如果仍然出现 NODE_MODULE_VERSION 不匹配的错误：

npx @electron/rebuild -f -w better-sqlite3

重置所有数据（全新启动）：

# macOS
rm -rf ~/Library/Application\ Support/project-raven/

# Windows
rmdir /s /q "%APPDATA%\project-raven"

参与贡献

欢迎提交问题和拉取请求。该项目目前处于积极开发中。

克隆仓库并创建分支
创建你的功能分支 (git checkout -b feature/my-feature)
提交更改 (git commit -m '添加我的功能')
推送到分支 (git push origin feature/my-feature)
打开拉取请求

许可证

MIT

Project Raven 快速上手指南

Project Raven 是一款开源的 AI 会议助手，支持实时转录、回声消除和本地运行的 AI 辅助功能。它能在 macOS 和 Windows 上捕获系统音频与麦克风音频，并通过 Deepgram 进行实时转录，结合 Claude 或 OpenAI 提供上下文感知的智能回复。

环境准备

系统要求

macOS: 12 (Monterey) 至 15 (Sequoia)，支持 Intel 和 Apple Silicon (M1/M2/M3/M4)
Windows: 10 (21H2+) 或 11
Linux: 暂不支持

前置依赖

在开始之前，请确保准备好以下 API Key（首次启动应用时输入即可）：

Deepgram: 用于实时转录（提供免费额度）
Anthropic (Claude) 或 OpenAI: 用于 AI 智能辅助

安装步骤

🍎 macOS 安装流程

1. 安装 Xcode 命令行工具

xcode-select --install

验证: xcode-select -p 应返回路径。

2. 安装 Node.js 22 推荐使用 nvm 管理版本：

curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.40.1/install.sh | bash

关闭并重新打开终端后执行：

nvm install 22
nvm use 22

验证: node -v 应显示 v22.x.x。

3. 安装 GStreamer

brew install gstreamer gst-plugins-base gst-plugins-good gst-plugins-bad

注意: 若使用 Apple Silicon，可能需要配置 PKG_CONFIG_PATH：

echo 'export PKG_CONFIG_PATH="/opt/homebrew/lib/pkgconfig:$PKG_CONFIG_PATH"' >> ~/.zshrc
source ~/.zshrc

4. 克隆项目并安装依赖

git clone https://github.com/Laxcorp-Research/project-raven.git
cd project-raven
npm install

5. 构建回声消除 (AEC) 原生模块

cd src/native/aec
npm install
./build-deps.sh
npx cmake-js compile
cd ../../..

6. 构建 Swift 音频捕获二进制文件

cd src/native/swift/AudioCapture
swift build -c release
cd ../../../..

7. 启动应用

npm run dev

重要: 首次运行时，需在 系统设置 -> 隐私与安全性 中授予应用 麦克风 和 屏幕录制 权限。

🪟 Windows 安装流程

所有命令请在 PowerShell 中运行，每步安装后建议重启终端以刷新环境变量。

1. 安装 Visual Studio Build Tools 下载并运行 Visual Studio Build Tools 安装程序。

勾选 "使用 C++ 的桌面开发" 工作负载。
确保包含：MSVC 生成工具、Windows 10/11 SDK、C++ CMake 工具。

2. 安装 Node.js 22 推荐使用 nvm-windows：下载 nvm-setup.exe 安装后，在新终端执行：

nvm install 22
nvm use 22

验证: node -v 应显示 v22.x.x。

3. 安装 Python Node 原生模块编译需要 Python 3.x。

winget install Python.Python.3.12 --source winget

注意: 安装时务必勾选 "Add to PATH"。

4. 安装 Rust 工具链 下载并运行 rustup-init.exe，保持默认设置安装。 验证: rustc --version 应输出版本号。

5. 克隆项目并安装依赖

git clone https://github.com/Laxcorp-Research/project-raven.git
cd project-raven
npm install

6. 构建回声消除 (AEC) 原生模块

cd src/native/aec
npm install
# Windows 下通常不需要运行 build-deps.sh，直接编译
npx cmake-js compile
cd ../../..

7. 启动应用

npm run dev

基本使用

配置密钥：应用启动后，进入设置页面，依次填入 Deepgram、Anthropic (或 OpenAI) 的 API Key。
开始会议：点击主界面的 "Start Session" 按钮。Raven 将自动捕获系统声音（对方发言）和麦克风声音（你的发言）。
实时交互：
- 屏幕上将显示半透明悬浮窗，实时展示双方对话转录文本。
- 在悬浮窗中输入问题，AI 将基于当前会议上下文提供即时回答或建议。
隐身模式：在设置中开启 "Stealth Mode"，悬浮窗在进行屏幕共享（如 Zoom、Teams）时将对他不可见，仅你自己可见。
查看历史：会议结束后，数据自动保存至本地数据库。可在 Dashboard 中查看完整的转录记录、AI 回复及会议摘要。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 159.3k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|昨天

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|1周前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像