project-raven
Project Raven 是一款开源的本地化 AI 会议助手,旨在为用户提供实时的会议转录、回声消除及智能辅助服务。它主要解决了在线会议中常见的痛点:传统录音工具难以区分扬声器声音与麦克风输入,导致转录混乱,且用户往往缺乏即时的上下文智能支持。
Raven 能够同时捕获系统音频和麦克风声音,利用与 Chrome 浏览器同源的 WebRTC AEC3 引擎进行专业级回声消除,确保即使不戴耳机,对方的发言也不会干扰你的语音录入。随后,它通过 Deepgram 将双方对话实时转化为文字,并允许用户随时调用 Claude 或 OpenAI 模型,基于当前会议内容获得精准的建议、总结或问答反馈。
这款工具特别适合需要频繁参加线上会议的职场人士、远程协作团队以及希望提升会议效率的研究人员。其独特的技术亮点在于“隐身模式”,悬浮窗口在屏幕共享时对他人不可见,保护隐私;同时坚持“本地优先”架构,所有数据与 API 密钥均存储于本地,保障信息安全。无论是 macOS 还是 Windows 用户,都能轻松部署这一强大的会议搭档,让每一次沟通都更有成效。
使用场景
某远程开发团队正在进行一场高并发的系统架构评审会,技术负责人需要一边听取多方意见,一边实时查阅本地技术文档以回答复杂问题。
没有 project-raven 时
- 回声干扰严重:当团队成员共享屏幕播放演示视频时,负责人的麦克风会收录扬声器声音产生回声,导致远程参会者听不清讲话,不得不频繁要求静音重述。
- 记录与思考冲突:负责人需手动记录会议要点和待办事项,分散了倾听和深度思考的精力,容易遗漏关键的技术决策细节。
- 上下文检索中断:面对关于旧版接口规范的提问,必须暂停会议去翻阅本地 PDF 文档或搜索聊天记录,打断了流畅的讨论节奏。
- 隐私与合规担忧:使用云端录音工具时,担心敏感的系统架构数据泄露,且无法确保音频数据完全保留在本地设备中。
使用 project-raven 后
- 纯净双路音频:project-raven 利用 WebRTC AEC3 引擎实时消除系统音频回声,确保负责人在播放演示的同时,麦克风只收录清晰的人声,沟通零障碍。
- 智能实时副驾:Deepgram 实时转录双方对话并显示在“隐形”浮窗中(屏幕共享不可见),AI 助手自动总结争议点并生成待办列表,让负责人专注决策。
- 本地文档即时问答:通过 RAG 功能加载本地技术文档,负责人可直接询问 AI“旧版支付接口的超时策略是什么”,系统基于本地上下文秒级给出精准答案。
- 数据本地闭环:所有音频流、转录文本及 AI 交互记录均通过 SQLite 存储在本地,无需上传云端,彻底消除核心架构数据外泄的顾虑。
project-raven 将原本混乱的会议流程转化为高效、私密且上下文感知的智能协作体验,让开发者真正专注于技术本身而非工具摩擦。
运行环境要求
- macOS
- Windows
未说明
未说明

快速开始
开源、基于 AI 的会议助手,支持实时转录与回声消除。
Raven 在会议中同时捕获系统音频和麦克风输入,通过回声消除技术防止扬声器声音串入麦克风,并借助 Deepgram 实现实时双端对话转录。此外,它还能根据上下文为您提供由 Claude 或 OpenAI 提供的 AI 辅助回复——所有这些功能均在您的本地桌面设备上运行。
截图
|
仪表盘 — 会话历史
|
设置 — API 密钥
|
|
隐身模式关闭 — 屏幕共享可见叠加层
|
隐身模式开启 — 屏幕共享不可见叠加层
|
|
设置 — 模型选择
|
引导流程 — 叠加层导览
|
完整的引导流程(6 步)
| 第 1 步:欢迎 | 第 2 步:API 密钥 | 第 3 步:权限 |
|---|---|---|
![]() |
![]() |
![]() |
| 第 4 步:叠加层导览 | 第 5 步:快捷键 | 第 6 步:准备就绪 |
|---|---|---|
![]() |
![]() |
![]() |
功能
- 双流音频采集 — 系统音频 + 麦克风,分别在 macOS(ScreenCaptureKit)和 Windows(WASAPI)上原生实现
- 回声消除 — 使用 WebRTC AEC3 引擎的 GStreamer 管道(与 Chrome 中使用的回声消除器相同)
- 实时转录 — 通过 WebSocket 连接 Deepgram Nova-3,为麦克风和系统音频分别建立独立通道
- AI 辅助 — Anthropic Claude 或 OpenAI,可通过提供者模式由用户自定义
- 隐身叠加层 — 对 Zoom、Meet、Teams 和 Discord 的屏幕共享完全透明
- 本地优先 — 您的 API 密钥和数据仅存储在本地机器上(使用 better-sqlite3 的 SQLite 数据库)
- RAG — 上传本地文档,利用
@xenova/transformers进行嵌入,并在 AI 上下文中引用 - 会话管理 — 自动保存完整转录、AI 回答及摘要
- 模式 — 可自定义 AI 行为配置文件,包含系统提示词和快速操作
- 头像编辑器 — 裁剪、缩放和移动后保存您的头像
- 专业版功能 — 可选身份验证、计费和同步服务,适用于付费层级(连接到独立后端)
架构

工作原理
- 用户启动录音会话
- 原生二进制程序同时捕获系统音频和麦克风信号
- macOS: Swift 进程使用 ScreenCaptureKit(系统音频)+ CoreAudio(麦克风)
- Windows: Rust/NAPI-RS 模块使用 WASAPI 循环和捕获功能
- 两条音频流被送入 GStreamer 回声消除管道(
webrtcechoprobe/webrtcdsp),以避免远端发言者的语音污染麦克风信号 - 清晰的麦克风音频和系统音频分别通过两条并行的 WebSocket 连接发送至 Deepgram Nova-3 进行转录
- 转录内容实时显示在叠加窗口中
- 用户可向 AI(Claude 或 OpenAI)请求帮助,并获得基于完整对话上下文的回复
项目结构
src/
├── main/ # Electron 主进程
│ ├── audioManager.ts # 音频采集协调
│ ├── transcriptionService.ts # Deepgram WebSocket 连接
│ ├── aiService.ts # AI 提供者抽象(Claude / OpenAI)
│ ├── sessionManager.ts # 会话持久化与历史记录
│ ├── store.ts # SQLite 数据库(better-sqlite3)
│ └── index.ts # 应用生命周期、IPC 处理程序、窗口管理
├── renderer/ # React UI(Vite + Tailwind)
│ └── src/
│ ├── components/ # 仪表盘、叠加层、设置、引导界面
│ └── ...
├── preload/ # Electron 预加载脚本(上下文桥)
└── native/
├── swift/ # macOS 音频采集(ScreenCaptureKit + CoreAudio)
│ └── AudioCapture/
├── windows/ # Windows 音频采集(WASAPI,Rust/NAPI-RS)
└── aec/ # GStreamer AEC C++ 插件(WebRTC AEC3)
平台支持
| 平台 | 系统音频 | 麦克风 | 回声消除 | 状态 |
|---|---|---|---|---|
| macOS 12+ | ScreenCaptureKit | CoreAudio | GStreamer AEC3 | 主要平台,已全面测试 |
| Windows 10/11 | WASAPI Loopback | WASAPI Capture | GStreamer AEC3 | 支持 |
| Linux | — | — | — | 尚未支持 |
入门指南
本节提供从零开始到应用运行的完整线性教程。请选择您的平台,按顺序执行每个编号步骤,并在继续下一步之前逐一验证。
API 密钥(首次启动时在应用内输入,无需提前配置):
本指南介绍的是开源版本的应用程序。如需了解高级/专业模式的设置,请参阅
docs/REPO_STRUCTURE.md。
macOS 设置
已在 macOS 12(Monterey)至 macOS 15(Sequoia)上测试,涵盖 Intel 和 Apple Silicon 架构。
第 1 步 — 安装 Xcode 命令行工具
xcode-select --install
系统将弹出一个对话框,点击 安装 并等待完成(约 2 分钟)。
验证:
xcode-select -p
# 预期输出:/Library/Developer/CommandLineTools (或 Xcode.app 路径)
若出现提示
xcode-select: error: command line tools are already installed— 表示您已完成此步骤,可继续。
第 2 步 — 安装 Node.js 22
建议通过 nvm 安装。如果您已经拥有 nvm,则可跳过 curl 命令。
curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.40.1/install.sh | bash
关闭并重新打开终端,然后执行:
nvm install 22
nvm use 22
验证:
node -v
# 预期:v22.x.x(任意 22+ 版本)
如果出现
nvm: command not found错误: 请关闭终端并重新打开一个新终端——nvm 的安装脚本会将其自身添加到你的 shell 配置文件中,但只有新的 shell 才能加载它。
步骤 3 — 安装 GStreamer
brew install gstreamer gst-plugins-base gst-plugins-good gst-plugins-bad
如果你还没有 Homebrew,请先从 brew.sh 安装。
验证:
pkg-config --modversion gstreamer-1.0
# 预期:1.24.x(或类似版本)
如果出现
Package gstreamer-1.0 was not found错误: 这是因为 Homebrew 的pkg-config路径未正确设置。请将以下行添加到你的~/.zshrc文件,并重启终端:# Apple Silicon(M1/M2/M3/M4): echo 'export PKG_CONFIG_PATH="/opt/homebrew/lib/pkgconfig:$PKG_CONFIG_PATH"' >> ~/.zshrc # Intel Mac: echo 'export PKG_CONFIG_PATH="/usr/local/lib/pkgconfig:$PKG_CONFIG_PATH"' >> ~/.zshrc
步骤 4 — 克隆仓库并安装依赖
git clone https://github.com/Laxcorp-Research/project-raven.git
cd project-raven
npm install
npm install 需要几分钟时间。它会通过 postinstall 脚本自动为 Electron 重新构建 better-sqlite3——在最后你会看到 @electron/rebuild 的输出。
验证:
ls node_modules/.package-lock.json && echo "OK"
# 预期:OK
如果
npm install因node-gyp错误而失败: 请确保在步骤 1 中已成功安装 Xcode 命令行工具。运行xcode-select -p来确认。
步骤 5 — 构建 GStreamer 回声消除插件
cd src/native/aec
npm install
./build-deps.sh
npx cmake-js compile
cd ../../..
具体操作:
- 安装插件的构建工具(
cmake-js、node-addon-api) - 验证所有 GStreamer 库,并从源代码编译 WebRTC DSP 插件(Homebrew 不提供该插件)
- 编译 C++ 回声消除原生模块
验证:
ls src/native/aec/build/Release/raven-aec.node && echo "OK"
# 预期:OK
如果
build-deps.sh因“gstreamer-1.0 未找到”而失败: 请返回步骤 3,确保pkg-config --modversion gstreamer-1.0可以正常工作。如果
cmake-js compile因“cmake 未找到”而失败:cmake已经捆绑在cmake-js中。运行npx cmake-js --version——如果仍然失败,请删除src/native/aec/目录下的node_modules,然后重新运行npm install。
步骤 6 — 构建 Swift 音频捕获二进制文件
cd src/native/swift/AudioCapture
swift build -c release
cd ../../../..
验证:
ls src/native/swift/AudioCapture/.build/release/audiocapture && echo "OK"
# 预期:OK
如果
swift build因未解析的导入而失败: 你的 Swift 工具链可能太旧了(需要 5.9 或更高版本)。请使用swift --version检查版本。同时更新 Xcode 命令行工具:sudo rm -rf /Library/Developer/CommandLineTools && xcode-select --install
步骤 7 — 运行应用
npm run dev
Electron 应用程序将会打开。首次启动时,系统会提示你在设置中输入 API 密钥。
如果应用程序启动但音频捕获无法工作: macOS 需要显式权限。前往 系统设置 → 隐私与安全性,授予应用程序(或开发期间的终端模拟器)麦克风和屏幕录制访问权限。
Windows 系统设置
经过 Windows 10(21H2+)和 Windows 11 测试。所有命令均适用于 PowerShell。每次安装完成后,请打开一个 新终端以使 PATH 变量生效。
步骤 1 — 安装 Visual Studio Build Tools
下载并运行 Visual Studio Build Tools 安装程序。
在安装程序中,勾选 “使用 C++ 的桌面开发” 工作负载,然后点击安装。确保选择以下可选组件(默认应已选中):
- MSVC 构建工具(适用于 x64/x86,最新版本)
- Windows 10/11 SDK
- Windows 专用的 C++ CMake 工具
验证:
& "${env:ProgramFiles(x86)}\Microsoft Visual Studio\Installer\vswhere.exe" -products * -requires Microsoft.VisualStudio.Workload.VCTools -property displayName
# 预期:Visual Studio Build Tools 2022
如果你已经拥有完整的 Visual Studio(而不仅仅是 Build Tools),并且安装了 C++ 工作负载,也可以使用。
步骤 2 — 安装 Node.js(LTS)
选项 A — 使用 nvm-windows(推荐):
下载并运行最新的 nvm-setup.exe 文件,然后打开一个 新终端:
nvm install 22
nvm use 22
选项 B — 直接从 nodejs.org 下载 LTS 22.x 的 MSI 安装程序。
验证(在 新终端中):
node -v
# 预期:v22.x.x
为什么特别选择 Node 22? 该项目要求
node >= 22.12.0(参见package.json中的 engines 字段)。如果使用nvm install lts,可能会安装尚未经过测试的新大版本。
步骤 3 — 安装 Python
Python 是 node-gyp 编译原生 Node.js 模块(better-sqlite3、bufferutil 等)所必需的。
选项 A — 使用 winget:
winget install Python.Python.3.12 --source winget
选项 B — 从 python.org 下载。安装时请确保勾选“将 Python 添加到 PATH”。
验证(在 新终端中):
python --version
# 预期:Python 3.x.x
步骤 4 — 安装 Rust 工具链
下载并运行 rustup-init.exe。接受默认设置(安装 stable-msvc)。
验证(在 新终端中):
rustc --version
# 预期:rustc 1.xx.x (...)
rustup default stable-msvc
步骤 5 — 安装 GStreamer(MSVC)
从 gstreamer.freedesktop.org/download 下载 MSVC x86_64 安装程序——点击 Windows → MSVC x86_64(VS 2022,Release CRT)。
对于 GStreamer 1.28+,有一个合并的安装包(运行时 + 开发环境)。对于较旧的版本,则需要分别下载运行时和开发环境的 MSI 文件。
按照默认设置运行安装程序。通常安装路径为 C:\gstreamer\ 或 C:\Program Files\gstreamer\。
安装完成后,在 新终端中验证环境变量是否已设置:
echo $env:GSTREAMER_1_0_ROOT_MSVC_X86_64
# 预期:C:\gstreamer\1.0\msvc_x86_64\(或 C:\Program Files\gstreamer\1.0\msvc_x86_64\)
同时,请确保 GStreamer 的 bin 目录已添加到你的 PATH 环境变量中:
$gstRoot = $env:GSTREAMER_1_0_ROOT_MSVC_X86_64
if ($gstRoot) { echo "GStreamer 根目录:$gstRoot" } else { echo "未设置 - 请参阅下方" }
如果该变量为空: 安装程序未设置它。请找到 GStreamer 的安装位置并手动设置:
# 请根据您的安装路径调整以下路径 [Environment]::SetEnvironmentVariable("GSTREAMER_1_0_ROOT_MSVC_X86_64", "C:\Program Files\gstreamer\1.0\msvc_x86_64\", "User")然后 重启终端。
如果 GStreamer 安装到了
C:\Program Files\gstreamer\而不是C:\gstreamer\: 这没有问题 — 只需确保环境变量指向正确的路径(例如C:\Program Files\gstreamer\1.0\msvc_x86_64\)。
步骤 6 — 安装 CMake
编译 GStreamer 回声消除插件需要 CMake。
winget install Kitware.CMake --source winget
或者从 cmake.org/download 下载。请确保勾选“添加到 PATH”。
在 新终端 中验证:
cmake --version
# 预期:cmake version 3.x.x
步骤 7 — 克隆仓库并安装依赖
git clone https://github.com/Laxcorp-Research/project-raven.git
cd project-raven
npm install
npm install 需要几分钟时间。它会通过 postinstall 脚本自动为 Electron 重新构建 better-sqlite3。
验证:
Test-Path node_modules\.package-lock.json
# 预期:True
如果
npm install报错“无法找到任何 Python 安装”: 请返回步骤 3 — 必须安装 Python 并将其添加到 PATH。
如果
npm install报错“无法找到任何 Visual Studio 安装”:node-gyp无法自动检测你的 Build Tools。请按顺序尝试以下修复方法:# 修复 1:为 node-gyp 设置版本提示 npm config set msvs_version 2022 Remove-Item -Recurse -Force node_modules npm install如果较新的 npm 版本对
npm config set msvs_version报错,可以改用环境变量:# 修复 2:环境变量(适用于所有 npm 版本) $env:GYP_MSVS_VERSION = "2022" Remove-Item -Recurse -Force node_modules npm install
步骤 8 — 构建 GStreamer 回声消除插件
首先,检查项目使用的 Electron 版本:
node -e "console.log(require('./node_modules/electron/package.json').version)"
# 记下版本号(例如 40.4.1)
然后针对该版本构建插件:
cd src\native\aec
npm install
npx cmake-js compile --runtime electron --runtime-version <ELECTRON_VERSION>
cd ..\..\..
将 <ELECTRON_VERSION> 替换为上一条命令中的版本号(例如 40.4.1)。
重要提示:
--runtime electron --runtime-version标志是必需的。如果没有这些标志,插件将被编译为 Node.js 版本而非 Electron 版本,并且在加载时会 崩溃。如果你后续升级了 Electron,必须使用新版本重新构建此插件。
注意:
build-deps.sh脚本仅适用于 macOS。在 Windows 上,GStreamer MSVC 安装程序已经包含了所有必要的插件(包括 WebRTC DSP)。
验证:
Test-Path src\native\aec\build\Release\raven-aec.node
# 预期:True
如果 cmake-js 报错“未安装 CMake”: 请返回步骤 6。
如果 cmake-js 报错“未找到 GStreamer”:
GSTREAMER_1_0_ROOT_MSVC_X86_64环境变量未设置。请返回步骤 5。
如果构建成功但链接失败,出现“未解析的外部符号
g_object_set/g_type_check_instance_cast”错误: 链接步骤中缺少 GLib/GObject 库。这应由 CMakeLists.txt 自动处理 — 如果遇到此错误,请提交 bug 报告。
步骤 9 — 构建 Windows 音频捕获模块
cd src\native\windows
npm install
npx napi build --platform --release
cd ..\..\..
验证:
Test-Path src\native\windows\raven-windows-audio.win32-x64-msvc.node
# 预期:True
如果构建因链接器错误而失败: 确保 Rust 使用 MSVC 目标:
rustup default stable-msvc。
如果因“未找到 Windows SDK”而失败: 打开 Visual Studio Installer → 修改 → 个别组件,并安装最新的“Windows 10 SDK”或“Windows 11 SDK”。
步骤 10 — 运行应用
npm run dev
Electron 应用将打开。首次启动时,你将看到一个包含 6 个步骤的引导流程 — 请输入你的 API 密钥(Deepgram 用于转录,Claude 或 OpenAI 用于 AI 辅助)。
如果应用启动但音频捕获不起作用: 检查 设置 → 声音,确保已将正确的播放和录音设备设置为默认设备。WASAPI 会从默认设备捕获音频。
设置故障排除快速参考
| 症状 | 可能原因 | 解决方法 |
|---|---|---|
无法找到任何 Python 安装 |
未安装 Python | 安装 Python 3.x 并将其添加到 PATH(Windows 步骤 3) |
无法找到可用的 Visual Studio 安装 |
node-gyp 无法自动检测 Build Tools |
设置 $env:GYP_MSVS_VERSION = "2022",删除 node_modules,重新运行 npm install |
npm install 因 node-gyp 错误而失败 |
缺少 C/C++ 构建工具 | macOS: xcode-select --install Windows: 安装 VS Build Tools “桌面开发 with C++”工作负载 |
运行时出现 NODE_MODULE_VERSION 不匹配 |
原生模块为错误的 Electron 版本构建 | 在项目根目录运行 npx @electron/rebuild -f -w better-sqlite3 |
build-deps.sh:“未找到 gstreamer-1.0” |
GStreamer 未安装或 pkg-config 无法找到它 |
macOS: 通过 Homebrew 安装并检查 PKG_CONFIG_PATH(参见 macOS 步骤 3) |
| cmake-js:“未安装 CMake” | CMake 未在 PATH 中 | 安装 CMake(Windows 步骤 6) |
| cmake-js:“未找到 GStreamer”(Windows) | GSTREAMER_1_0_ROOT_MSVC_X86_64 未设置 |
手动设置环境变量并重启终端(参见 Windows 步骤 5) |
| AEC 插件在 Electron 启动时崩溃 | 为 Node.js 而非 Electron 构建 | 使用 --runtime electron --runtime-version <your-electron-version> 重新构建(Windows 步骤 8) |
swift build 失败 |
Swift 工具链版本过低(需 5.9+) | sudo rm -rf /Library/Developer/CommandLineTools && xcode-select --install |
Windows 上 napi build 出现链接器错误 |
Rust 目标错误或缺少 Windows SDK | rustup default stable-msvc,并确保已安装 VS Build Tools C++ 工作负载 |
| 应用启动但 macOS 上无音频 | 缺少系统权限 | 系统设置 → 隐私与安全性:授予 麦克风 和 屏幕录制 权限 |
| 应用启动但 Windows 上无音频 | 默认音频设备设置错误 | 设置 → 声音:设置正确的默认播放/录音设备 |
键盘快捷键
| 操作 | 快捷键 |
|---|---|
| 切换叠加层 | Cmd + \ |
| 开始/停止录制 | Cmd + R |
| 获取 AI 建议 | Cmd + Enter |
| 清除对话 | Cmd + Shift + R |
| 移动叠加层 | Cmd + 方向键 |
| 滚动叠加层 | Cmd + Shift + 上/下 |
在 Windows 系统上,请将
Cmd替换为Ctrl。
测试
npm test # 单元测试 + 集成测试
npm run test:coverage # 包含覆盖率报告
npm run test:e2e # 端到端测试(需先运行 npm run build)
npm run test:all # 运行所有测试
故障排除
better-sqlite3 原生模块错误:
postinstall 脚本会自动处理此问题。如果仍然出现 NODE_MODULE_VERSION 不匹配的错误:
npx @electron/rebuild -f -w better-sqlite3
重置所有数据(全新启动):
# macOS
rm -rf ~/Library/Application\ Support/project-raven/
# Windows
rmdir /s /q "%APPDATA%\project-raven"
参与贡献
欢迎提交问题和拉取请求。该项目目前处于积极开发中。
- 克隆仓库并创建分支
- 创建你的功能分支 (
git checkout -b feature/my-feature) - 提交更改 (
git commit -m '添加我的功能') - 推送到分支 (
git push origin feature/my-feature) - 打开拉取请求
许可证
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
opencode
OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。










