project-raven

GitHub
269 352 较难 1 次阅读 今天MIT图像开发框架音频Agent
AI 解读 由 AI 自动生成,仅供参考

Project Raven 是一款开源的本地化 AI 会议助手,旨在为用户提供实时的会议转录、回声消除及智能辅助服务。它主要解决了在线会议中常见的痛点:传统录音工具难以区分扬声器声音与麦克风输入,导致转录混乱,且用户往往缺乏即时的上下文智能支持。

Raven 能够同时捕获系统音频和麦克风声音,利用与 Chrome 浏览器同源的 WebRTC AEC3 引擎进行专业级回声消除,确保即使不戴耳机,对方的发言也不会干扰你的语音录入。随后,它通过 Deepgram 将双方对话实时转化为文字,并允许用户随时调用 Claude 或 OpenAI 模型,基于当前会议内容获得精准的建议、总结或问答反馈。

这款工具特别适合需要频繁参加线上会议的职场人士、远程协作团队以及希望提升会议效率的研究人员。其独特的技术亮点在于“隐身模式”,悬浮窗口在屏幕共享时对他人不可见,保护隐私;同时坚持“本地优先”架构,所有数据与 API 密钥均存储于本地,保障信息安全。无论是 macOS 还是 Windows 用户,都能轻松部署这一强大的会议搭档,让每一次沟通都更有成效。

使用场景

某远程开发团队正在进行一场高并发的系统架构评审会,技术负责人需要一边听取多方意见,一边实时查阅本地技术文档以回答复杂问题。

没有 project-raven 时

  • 回声干扰严重:当团队成员共享屏幕播放演示视频时,负责人的麦克风会收录扬声器声音产生回声,导致远程参会者听不清讲话,不得不频繁要求静音重述。
  • 记录与思考冲突:负责人需手动记录会议要点和待办事项,分散了倾听和深度思考的精力,容易遗漏关键的技术决策细节。
  • 上下文检索中断:面对关于旧版接口规范的提问,必须暂停会议去翻阅本地 PDF 文档或搜索聊天记录,打断了流畅的讨论节奏。
  • 隐私与合规担忧:使用云端录音工具时,担心敏感的系统架构数据泄露,且无法确保音频数据完全保留在本地设备中。

使用 project-raven 后

  • 纯净双路音频:project-raven 利用 WebRTC AEC3 引擎实时消除系统音频回声,确保负责人在播放演示的同时,麦克风只收录清晰的人声,沟通零障碍。
  • 智能实时副驾:Deepgram 实时转录双方对话并显示在“隐形”浮窗中(屏幕共享不可见),AI 助手自动总结争议点并生成待办列表,让负责人专注决策。
  • 本地文档即时问答:通过 RAG 功能加载本地技术文档,负责人可直接询问 AI“旧版支付接口的超时策略是什么”,系统基于本地上下文秒级给出精准答案。
  • 数据本地闭环:所有音频流、转录文本及 AI 交互记录均通过 SQLite 存储在本地,无需上传云端,彻底消除核心架构数据外泄的顾虑。

project-raven 将原本混乱的会议流程转化为高效、私密且上下文感知的智能协作体验,让开发者真正专注于技术本身而非工具摩擦。

运行环境要求

操作系统
  • macOS
  • Windows
GPU

未说明

内存

未说明

依赖
notesLinux 平台暂不支持。macOS 需授予麦克风和屏幕录制权限;Windows 需安装 C++ 构建工具和 Rust。项目采用本地优先架构,音频回声消除依赖 GStreamer 和 WebRTC AEC3 引擎,需分别编译 Swift (macOS) 和 Rust/NAPI-RS (Windows) 原生二进制文件。AI 功能需配置 Deepgram、Anthropic 或 OpenAI 的 API 密钥。
python3.12 (Windows 编译原生模块必需)
Node.js >= 22.12.0
Electron
GStreamer 1.24+ (含 gst-plugins-base/good/bad)
Xcode Command Line Tools (macOS)
Visual Studio Build Tools with C++ (Windows)
Rust toolchain (Windows)
Swift 5.9+ (macOS)
better-sqlite3
@xenova/transformers
project-raven hero image

快速开始

Project Raven

开源、基于 AI 的会议助手,支持实时转录与回声消除。

Raven 在会议中同时捕获系统音频和麦克风输入,通过回声消除技术防止扬声器声音串入麦克风,并借助 Deepgram 实现实时双端对话转录。此外,它还能根据上下文为您提供由 Claude 或 OpenAI 提供的 AI 辅助回复——所有这些功能均在您的本地桌面设备上运行。

下载 Raven  |  文档  |  问题反馈


截图

仪表盘 — 会话历史 Dashboard

设置 — API 密钥 API Keys

隐身模式关闭 — 屏幕共享可见叠加层 Detectable

隐身模式开启 — 屏幕共享不可见叠加层 Undetectable

设置 — 模型选择 Model Selection

引导流程 — 叠加层导览 Overlay Tour

完整的引导流程(6 步)
第 1 步:欢迎 第 2 步:API 密钥 第 3 步:权限
Welcome API Keys Permissions
第 4 步:叠加层导览 第 5 步:快捷键 第 6 步:准备就绪
Overlay Tour Shortcuts Ready

功能

  • 双流音频采集 — 系统音频 + 麦克风,分别在 macOS(ScreenCaptureKit)和 Windows(WASAPI)上原生实现
  • 回声消除 — 使用 WebRTC AEC3 引擎的 GStreamer 管道(与 Chrome 中使用的回声消除器相同)
  • 实时转录 — 通过 WebSocket 连接 Deepgram Nova-3,为麦克风和系统音频分别建立独立通道
  • AI 辅助 — Anthropic Claude 或 OpenAI,可通过提供者模式由用户自定义
  • 隐身叠加层 — 对 Zoom、Meet、Teams 和 Discord 的屏幕共享完全透明
  • 本地优先 — 您的 API 密钥和数据仅存储在本地机器上(使用 better-sqlite3 的 SQLite 数据库)
  • RAG — 上传本地文档,利用 @xenova/transformers 进行嵌入,并在 AI 上下文中引用
  • 会话管理 — 自动保存完整转录、AI 回答及摘要
  • 模式 — 可自定义 AI 行为配置文件,包含系统提示词和快速操作
  • 头像编辑器 — 裁剪、缩放和移动后保存您的头像
  • 专业版功能 — 可选身份验证、计费和同步服务,适用于付费层级(连接到独立后端)

架构

Architecture

工作原理

  1. 用户启动录音会话
  2. 原生二进制程序同时捕获系统音频和麦克风信号
    • macOS: Swift 进程使用 ScreenCaptureKit(系统音频)+ CoreAudio(麦克风)
    • Windows: Rust/NAPI-RS 模块使用 WASAPI 循环和捕获功能
  3. 两条音频流被送入 GStreamer 回声消除管道(webrtcechoprobe / webrtcdsp),以避免远端发言者的语音污染麦克风信号
  4. 清晰的麦克风音频和系统音频分别通过两条并行的 WebSocket 连接发送至 Deepgram Nova-3 进行转录
  5. 转录内容实时显示在叠加窗口中
  6. 用户可向 AI(Claude 或 OpenAI)请求帮助,并获得基于完整对话上下文的回复

项目结构

src/
├── main/                  # Electron 主进程
│   ├── audioManager.ts    #   音频采集协调
│   ├── transcriptionService.ts  #   Deepgram WebSocket 连接
│   ├── aiService.ts       #   AI 提供者抽象(Claude / OpenAI)
│   ├── sessionManager.ts  #   会话持久化与历史记录
│   ├── store.ts           #   SQLite 数据库(better-sqlite3)
│   └── index.ts           #   应用生命周期、IPC 处理程序、窗口管理
├── renderer/              # React UI(Vite + Tailwind)
│   └── src/
│       ├── components/    #   仪表盘、叠加层、设置、引导界面
│       └── ...
├── preload/               # Electron 预加载脚本(上下文桥)
└── native/
    ├── swift/             # macOS 音频采集(ScreenCaptureKit + CoreAudio)
    │   └── AudioCapture/
    ├── windows/           # Windows 音频采集(WASAPI,Rust/NAPI-RS)
    └── aec/               # GStreamer AEC C++ 插件(WebRTC AEC3)

平台支持

平台 系统音频 麦克风 回声消除 状态
macOS 12+ ScreenCaptureKit CoreAudio GStreamer AEC3 主要平台,已全面测试
Windows 10/11 WASAPI Loopback WASAPI Capture GStreamer AEC3 支持
Linux 尚未支持

入门指南

本节提供从零开始到应用运行的完整线性教程。请选择您的平台,按顺序执行每个编号步骤,并在继续下一步之前逐一验证。

API 密钥(首次启动时在应用内输入,无需提前配置):

本指南介绍的是开源版本的应用程序。如需了解高级/专业模式的设置,请参阅 docs/REPO_STRUCTURE.md


macOS 设置

已在 macOS 12(Monterey)至 macOS 15(Sequoia)上测试,涵盖 Intel 和 Apple Silicon 架构。

第 1 步 — 安装 Xcode 命令行工具

xcode-select --install

系统将弹出一个对话框,点击 安装 并等待完成(约 2 分钟)。

验证:

xcode-select -p
# 预期输出:/Library/Developer/CommandLineTools  (或 Xcode.app 路径)

若出现提示 xcode-select: error: command line tools are already installed — 表示您已完成此步骤,可继续。


第 2 步 — 安装 Node.js 22

建议通过 nvm 安装。如果您已经拥有 nvm,则可跳过 curl 命令。

curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.40.1/install.sh | bash

关闭并重新打开终端,然后执行:

nvm install 22
nvm use 22

验证:

node -v

# 预期:v22.x.x(任意 22+ 版本)

如果出现 nvm: command not found 错误: 请关闭终端并重新打开一个新终端——nvm 的安装脚本会将其自身添加到你的 shell 配置文件中,但只有新的 shell 才能加载它。


步骤 3 — 安装 GStreamer

brew install gstreamer gst-plugins-base gst-plugins-good gst-plugins-bad

如果你还没有 Homebrew,请先从 brew.sh 安装。

验证:

pkg-config --modversion gstreamer-1.0
# 预期:1.24.x(或类似版本)

如果出现 Package gstreamer-1.0 was not found 错误: 这是因为 Homebrew 的 pkg-config 路径未正确设置。请将以下行添加到你的 ~/.zshrc 文件,并重启终端:

# Apple Silicon(M1/M2/M3/M4):
echo 'export PKG_CONFIG_PATH="/opt/homebrew/lib/pkgconfig:$PKG_CONFIG_PATH"' >> ~/.zshrc

# Intel Mac:
echo 'export PKG_CONFIG_PATH="/usr/local/lib/pkgconfig:$PKG_CONFIG_PATH"' >> ~/.zshrc

步骤 4 — 克隆仓库并安装依赖

git clone https://github.com/Laxcorp-Research/project-raven.git
cd project-raven
npm install

npm install 需要几分钟时间。它会通过 postinstall 脚本自动为 Electron 重新构建 better-sqlite3——在最后你会看到 @electron/rebuild 的输出。

验证:

ls node_modules/.package-lock.json && echo "OK"
# 预期:OK

如果 npm installnode-gyp 错误而失败: 请确保在步骤 1 中已成功安装 Xcode 命令行工具。运行 xcode-select -p 来确认。


步骤 5 — 构建 GStreamer 回声消除插件

cd src/native/aec
npm install
./build-deps.sh
npx cmake-js compile
cd ../../..

具体操作:

  1. 安装插件的构建工具(cmake-jsnode-addon-api
  2. 验证所有 GStreamer 库,并从源代码编译 WebRTC DSP 插件(Homebrew 不提供该插件)
  3. 编译 C++ 回声消除原生模块

验证:

ls src/native/aec/build/Release/raven-aec.node && echo "OK"
# 预期:OK

如果 build-deps.sh 因“gstreamer-1.0 未找到”而失败: 请返回步骤 3,确保 pkg-config --modversion gstreamer-1.0 可以正常工作。

如果 cmake-js compile 因“cmake 未找到”而失败: cmake 已经捆绑在 cmake-js 中。运行 npx cmake-js --version——如果仍然失败,请删除 src/native/aec/ 目录下的 node_modules,然后重新运行 npm install


步骤 6 — 构建 Swift 音频捕获二进制文件

cd src/native/swift/AudioCapture
swift build -c release
cd ../../../..

验证:

ls src/native/swift/AudioCapture/.build/release/audiocapture && echo "OK"
# 预期:OK

如果 swift build 因未解析的导入而失败: 你的 Swift 工具链可能太旧了(需要 5.9 或更高版本)。请使用 swift --version 检查版本。同时更新 Xcode 命令行工具:

sudo rm -rf /Library/Developer/CommandLineTools && xcode-select --install

步骤 7 — 运行应用

npm run dev

Electron 应用程序将会打开。首次启动时,系统会提示你在设置中输入 API 密钥。

如果应用程序启动但音频捕获无法工作: macOS 需要显式权限。前往 系统设置 → 隐私与安全性,授予应用程序(或开发期间的终端模拟器)麦克风屏幕录制访问权限。


Windows 系统设置

经过 Windows 10(21H2+)和 Windows 11 测试。所有命令均适用于 PowerShell。每次安装完成后,请打开一个 新终端以使 PATH 变量生效。

步骤 1 — 安装 Visual Studio Build Tools

下载并运行 Visual Studio Build Tools 安装程序

在安装程序中,勾选 “使用 C++ 的桌面开发” 工作负载,然后点击安装。确保选择以下可选组件(默认应已选中):

  • MSVC 构建工具(适用于 x64/x86,最新版本)
  • Windows 10/11 SDK
  • Windows 专用的 C++ CMake 工具

验证:

& "${env:ProgramFiles(x86)}\Microsoft Visual Studio\Installer\vswhere.exe" -products * -requires Microsoft.VisualStudio.Workload.VCTools -property displayName
# 预期:Visual Studio Build Tools 2022

如果你已经拥有完整的 Visual Studio(而不仅仅是 Build Tools),并且安装了 C++ 工作负载,也可以使用。


步骤 2 — 安装 Node.js(LTS)

选项 A — 使用 nvm-windows(推荐):

下载并运行最新的 nvm-setup.exe 文件,然后打开一个 终端:

nvm install 22
nvm use 22

选项 B — 直接从 nodejs.org 下载 LTS 22.x 的 MSI 安装程序。

验证(在 终端中):

node -v
# 预期:v22.x.x

为什么特别选择 Node 22? 该项目要求 node >= 22.12.0(参见 package.json 中的 engines 字段)。如果使用 nvm install lts,可能会安装尚未经过测试的新大版本。


步骤 3 — 安装 Python

Python 是 node-gyp 编译原生 Node.js 模块(better-sqlite3bufferutil 等)所必需的。

选项 A — 使用 winget

winget install Python.Python.3.12 --source winget

选项 B — 从 python.org 下载。安装时请确保勾选“将 Python 添加到 PATH”。

验证(在 终端中):

python --version
# 预期:Python 3.x.x

步骤 4 — 安装 Rust 工具链

下载并运行 rustup-init.exe。接受默认设置(安装 stable-msvc)。

验证(在 终端中):

rustc --version
# 预期:rustc 1.xx.x (...)
rustup default stable-msvc

步骤 5 — 安装 GStreamer(MSVC)

gstreamer.freedesktop.org/download 下载 MSVC x86_64 安装程序——点击 WindowsMSVC x86_64(VS 2022,Release CRT)

对于 GStreamer 1.28+,有一个合并的安装包(运行时 + 开发环境)。对于较旧的版本,则需要分别下载运行时和开发环境的 MSI 文件。

按照默认设置运行安装程序。通常安装路径为 C:\gstreamer\C:\Program Files\gstreamer\

安装完成后,在 终端中验证环境变量是否已设置:

echo $env:GSTREAMER_1_0_ROOT_MSVC_X86_64

# 预期:C:\gstreamer\1.0\msvc_x86_64\(或 C:\Program Files\gstreamer\1.0\msvc_x86_64\)

同时,请确保 GStreamer 的 bin 目录已添加到你的 PATH 环境变量中:

$gstRoot = $env:GSTREAMER_1_0_ROOT_MSVC_X86_64
if ($gstRoot) { echo "GStreamer 根目录:$gstRoot" } else { echo "未设置 - 请参阅下方" }

如果该变量为空: 安装程序未设置它。请找到 GStreamer 的安装位置并手动设置:

# 请根据您的安装路径调整以下路径
[Environment]::SetEnvironmentVariable("GSTREAMER_1_0_ROOT_MSVC_X86_64", "C:\Program Files\gstreamer\1.0\msvc_x86_64\", "User")

然后 重启终端

如果 GStreamer 安装到了 C:\Program Files\gstreamer\ 而不是 C:\gstreamer\ 这没有问题 — 只需确保环境变量指向正确的路径(例如 C:\Program Files\gstreamer\1.0\msvc_x86_64\)。


步骤 6 — 安装 CMake

编译 GStreamer 回声消除插件需要 CMake。

winget install Kitware.CMake --source winget

或者从 cmake.org/download 下载。请确保勾选“添加到 PATH”。

新终端 中验证:

cmake --version
# 预期:cmake version 3.x.x

步骤 7 — 克隆仓库并安装依赖

git clone https://github.com/Laxcorp-Research/project-raven.git
cd project-raven
npm install

npm install 需要几分钟时间。它会通过 postinstall 脚本自动为 Electron 重新构建 better-sqlite3

验证:

Test-Path node_modules\.package-lock.json
# 预期:True

如果 npm install 报错“无法找到任何 Python 安装”: 请返回步骤 3 — 必须安装 Python 并将其添加到 PATH。

如果 npm install 报错“无法找到任何 Visual Studio 安装”: node-gyp 无法自动检测你的 Build Tools。请按顺序尝试以下修复方法:

# 修复 1:为 node-gyp 设置版本提示
npm config set msvs_version 2022
Remove-Item -Recurse -Force node_modules
npm install

如果较新的 npm 版本对 npm config set msvs_version 报错,可以改用环境变量:

# 修复 2:环境变量(适用于所有 npm 版本)
$env:GYP_MSVS_VERSION = "2022"
Remove-Item -Recurse -Force node_modules
npm install

步骤 8 — 构建 GStreamer 回声消除插件

首先,检查项目使用的 Electron 版本:

node -e "console.log(require('./node_modules/electron/package.json').version)"
# 记下版本号(例如 40.4.1)

然后针对该版本构建插件:

cd src\native\aec
npm install
npx cmake-js compile --runtime electron --runtime-version <ELECTRON_VERSION>
cd ..\..\..

<ELECTRON_VERSION> 替换为上一条命令中的版本号(例如 40.4.1)。

重要提示: --runtime electron --runtime-version 标志是必需的。如果没有这些标志,插件将被编译为 Node.js 版本而非 Electron 版本,并且在加载时会 崩溃。如果你后续升级了 Electron,必须使用新版本重新构建此插件。

注意: build-deps.sh 脚本仅适用于 macOS。在 Windows 上,GStreamer MSVC 安装程序已经包含了所有必要的插件(包括 WebRTC DSP)。

验证:

Test-Path src\native\aec\build\Release\raven-aec.node
# 预期:True

如果 cmake-js 报错“未安装 CMake”: 请返回步骤 6。

如果 cmake-js 报错“未找到 GStreamer”: GSTREAMER_1_0_ROOT_MSVC_X86_64 环境变量未设置。请返回步骤 5。

如果构建成功但链接失败,出现“未解析的外部符号 g_object_set / g_type_check_instance_cast”错误: 链接步骤中缺少 GLib/GObject 库。这应由 CMakeLists.txt 自动处理 — 如果遇到此错误,请提交 bug 报告。


步骤 9 — 构建 Windows 音频捕获模块

cd src\native\windows
npm install
npx napi build --platform --release
cd ..\..\..

验证:

Test-Path src\native\windows\raven-windows-audio.win32-x64-msvc.node
# 预期:True

如果构建因链接器错误而失败: 确保 Rust 使用 MSVC 目标:rustup default stable-msvc

如果因“未找到 Windows SDK”而失败: 打开 Visual Studio Installer → 修改 → 个别组件,并安装最新的“Windows 10 SDK”或“Windows 11 SDK”。


步骤 10 — 运行应用

npm run dev

Electron 应用将打开。首次启动时,你将看到一个包含 6 个步骤的引导流程 — 请输入你的 API 密钥(Deepgram 用于转录,Claude 或 OpenAI 用于 AI 辅助)。

如果应用启动但音频捕获不起作用: 检查 设置 → 声音,确保已将正确的播放和录音设备设置为默认设备。WASAPI 会从默认设备捕获音频。


设置故障排除快速参考

症状 可能原因 解决方法
无法找到任何 Python 安装 未安装 Python 安装 Python 3.x 并将其添加到 PATH(Windows 步骤 3)
无法找到可用的 Visual Studio 安装 node-gyp 无法自动检测 Build Tools 设置 $env:GYP_MSVS_VERSION = "2022",删除 node_modules,重新运行 npm install
npm installnode-gyp 错误而失败 缺少 C/C++ 构建工具 macOS: xcode-select --install Windows: 安装 VS Build Tools “桌面开发 with C++”工作负载
运行时出现 NODE_MODULE_VERSION 不匹配 原生模块为错误的 Electron 版本构建 在项目根目录运行 npx @electron/rebuild -f -w better-sqlite3
build-deps.sh:“未找到 gstreamer-1.0” GStreamer 未安装或 pkg-config 无法找到它 macOS: 通过 Homebrew 安装并检查 PKG_CONFIG_PATH(参见 macOS 步骤 3)
cmake-js:“未安装 CMake” CMake 未在 PATH 中 安装 CMake(Windows 步骤 6)
cmake-js:“未找到 GStreamer”(Windows) GSTREAMER_1_0_ROOT_MSVC_X86_64 未设置 手动设置环境变量并重启终端(参见 Windows 步骤 5)
AEC 插件在 Electron 启动时崩溃 为 Node.js 而非 Electron 构建 使用 --runtime electron --runtime-version <your-electron-version> 重新构建(Windows 步骤 8)
swift build 失败 Swift 工具链版本过低(需 5.9+) sudo rm -rf /Library/Developer/CommandLineTools && xcode-select --install
Windows 上 napi build 出现链接器错误 Rust 目标错误或缺少 Windows SDK rustup default stable-msvc,并确保已安装 VS Build Tools C++ 工作负载
应用启动但 macOS 上无音频 缺少系统权限 系统设置 → 隐私与安全性:授予 麦克风屏幕录制 权限
应用启动但 Windows 上无音频 默认音频设备设置错误 设置 → 声音:设置正确的默认播放/录音设备

键盘快捷键

操作 快捷键
切换叠加层 Cmd + \
开始/停止录制 Cmd + R
获取 AI 建议 Cmd + Enter
清除对话 Cmd + Shift + R
移动叠加层 Cmd + 方向键
滚动叠加层 Cmd + Shift + 上/下

在 Windows 系统上,请将 Cmd 替换为 Ctrl

测试

npm test              # 单元测试 + 集成测试
npm run test:coverage # 包含覆盖率报告
npm run test:e2e      # 端到端测试(需先运行 npm run build)
npm run test:all      # 运行所有测试

故障排除

better-sqlite3 原生模块错误:

postinstall 脚本会自动处理此问题。如果仍然出现 NODE_MODULE_VERSION 不匹配的错误:

npx @electron/rebuild -f -w better-sqlite3

重置所有数据(全新启动):

# macOS
rm -rf ~/Library/Application\ Support/project-raven/

# Windows
rmdir /s /q "%APPDATA%\project-raven"

参与贡献

欢迎提交问题和拉取请求。该项目目前处于积极开发中。

  1. 克隆仓库并创建分支
  2. 创建你的功能分支 (git checkout -b feature/my-feature)
  3. 提交更改 (git commit -m '添加我的功能')
  4. 推送到分支 (git push origin feature/my-feature)
  5. 打开拉取请求

许可证

MIT

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

159.3k|★★☆☆☆|今天
开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信

144.3k|★☆☆☆☆|昨天
Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|1周前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|1周前
插件Agent图像