obs-localvocal

1.4k 109 简单 3 次阅读 3天前GPL-2.0语言模型插件开发框架音频Agent图像

AI 解读由 AI 自动生成，仅供参考

LocalVocal 是一款专为 OBS（开放广播软件）设计的免费开源插件，功能是在本地电脑上实时将语音转换成文字，并支持翻译成多种语言。

它解决了什么问题？

在直播、在线会议或视频录制时，很多人需要实时字幕——比如为了照顾听力障碍观众、跨语言交流，或者方便后期制作。传统方案往往依赖云服务，不仅需要联网，还可能产生费用或延迟。LocalVocal 完全在本地运行，不需要网络连接，不需要 GPU 显卡，也没有任何云端费用，所有数据都留在你的电脑上，隐私有保障。

技术亮点：

插件基于 OpenAI 的 Whisper 模型开发，使用了 Whisper.cpp 和 CTranslate2 进行优化，能够在普通 CPU 或主流显卡上高效运行，支持实时语音识别和翻译。

适合谁使用？

直播主和内容创作者（需要实时字幕吸引更多观众）
在线会议参与者（需要跨语言沟通或字幕辅助）
教育工作者和讲师（方便学生理解）
听力障碍用户（依赖字幕观看直播或视频）
任何需要在 OBS 中添加实时语音转文字功能的人

简单来说，只要你在用 OBS 直播或录屏，想把说的话实时变成字幕显示在画面上，LocalVocal 就是一个轻量且免费的解决方案。

使用场景

小王是一位全职游戏主播，每天在直播间用 OBS 进行《英雄联盟》游戏直播。他的观众遍布全国各地，其中有不少是海外华人以及喜欢中国游戏内容的外国朋友。

没有 obs-localvocal 时

观众无法实时看到小王说了什么，特别是在激烈团战时语音混乱，观众只能看到画面而错过互动内容
海外观众完全听不懂中文解说，需要依赖第三方翻译工具，延迟高且经常不准确
直播结束后生成视频字幕需要手动上传到云端语音识别服务，不仅花钱，每次还要等待处理时间
遇到网络不稳定时，云端字幕服务会中断，导致直播画面出现尴尬的空白字幕
观众反馈看不清游戏术语的专业发音，比如“惩戒”“闪现”等词汇容易产生误解

使用 obs-localvocal 后

OBS 直接在本地运行 Whisper 模型，实时将小王的语音转为文字字幕叠加在画面上，零延迟
支持多语言翻译功能，海外观众可以直接看到英文字幕，消除了语言障碍
所有识别和翻译都在本地完成，无需联网，即使断网也能持续生成字幕
完全免费使用，不需要任何云服务费用，也没有数据上传带来的隐私风险
观众可以清晰地看到每一个游戏术语的准确文字，提升了观看体验和互动质量

小王使用 obs-localvocal 后，直播间活跃度明显提升，海外观众数量增长了近一倍，真正实现了零成本、零门槛的实时双语字幕直播。

运行环境要求

操作系统

Windows
macOS
Linux

GPU

非必需
NVIDIA 版本需要 CUDA toolkit v12.8.0+
AMD 版本需要 ROCm 框架支持的 AMD GPU
Apple Silicon 可用 Metal 加速

内存

未说明

依赖

notes无需 GPU，可纯 CPU 运行。Windows 版需安装最新 MSVC runtime；Vulkan 版可能需要额外下载 Vulkan runtime。提供多种 CPU 优化版本（SSE4.2、AVX、AVX2、AVX512 等），根据 CPU 型号自动选择最佳后端。内置 Tiny.en 模型，其他模型可自动下载或使用自定义 GGML 模型文件

python未说明

Whisper.cpp

CTranslate2

OpenBLAS

Vulkan

OpenCL

CUDA

hipBLAS

Metal

CoreML

Accelerate

快速开始

仓库赞助商：Recall.ai - 桌面录制 API

如果您正在寻找托管的桌面录制 API，建议了解一下 Recall.ai，这是一个可以录制 Zoom、Google Meet、Microsoft Teams、线下会议等的 API。

LocalVocal - 语音 AI 助手 OBS 插件

下载：

介绍

LocalVocal 可以在您的本地机器上实时将语音转录为文本，并同时翻译成任何语言。✅ 无需 GPU，✅ 无云服务费用，✅ 无需网络连接，✅ 无停机时间！隐私优先 - 所有数据都保留在您的本地机器上。

该插件使用 OpenAI 的 Whisper 处理实时语音并预测转录结果，利用 ggerganov 的 Whisper.cpp 在 CPU 和 GPU 上高效运行模型。翻译功能使用 CTranslate2 实现。

使用方法

https://youtu.be/ns4cP9HFTxQ https://youtu.be/4llyfNi9FGs https://youtu.be/R04w02qG26o

使用 LocalVocal 可以做更多事情：

当前功能：

实时将音频转录为 100 种语言的文字
使用文本源在屏幕上显示字幕
将字幕发送到 .txt 或 .srt 文件（供外部来源或视频播放使用），支持是否聚合选项
字幕与 OBS 录制时间戳同步
在 RTMP 流上发送字幕（例如 YouTube、Twitch）
使用您自己的 Whisper 模型（支持任何 GGML 格式）
实时将字幕翻译成主要语言（支持云提供商、Whisper 内置翻译以及 NMT 神经机器翻译模型）
支持 CUDA、hipBLAS（AMD ROCm）、Apple Arm64、AVX 和 SSE 加速
过滤或替换生成的字幕中的任何部分
部分转录，实现流式字幕体验
来自 HuggingFace 的数百个针对数十种语言微调的 Whisper 模型

下载

请查看最新版本获取下载和安装说明。

可用版本

LocalVocal 提供多个版本以满足不同的硬件配置和操作系统需求。以下是您可以下载的不同版本的简要说明：

Windows（请确保已安装最新的 MSVC 运行时）
- generic：此版本可在所有系统上运行。详见通用变体
- NVidia：此版本针对配备 NVIDIA GPU 的系统进行了优化。详见 NVidia 优化变体
- AMD：此版本针对配备 AMD GPU 的系统进行了优化。详见 AMD 优化变体
MacOS
- Intel (x86_64)：此版本适用于配备 Intel 处理器的 Mac 电脑。详见 MacOS 变体
- Apple Silicon (arm64)：此版本针对配备 Apple Silicon（M1、M2 等）处理器的 Mac 电脑进行了优化。详见 MacOS 变体
Linux x86_64：此版本适用于采用 x86_64 架构的 Linux 系统。
- generic：此版本可在所有系统上运行。详见通用变体
- NVidia：此版本针对配备 NVIDIA GPU 的系统进行了优化。详见 NVidia 优化变体
- AMD：此版本针对配备 AMD GPU 的系统进行了优化。详见 AMD 优化变体

请务必下载与您的系统硬件和操作系统相匹配的版本，以获得最佳性能。

Whisper 后端现已在插件启动时动态加载，这带来了两个主要优势：

更好的 CPU 性能和兼容性 - Whisper 可以自动从所有可用的后端中选择最适合您系统的最佳 CPU 后端。这意味着该插件现在可以充分利用具有更多功能的新型 CPU，同时在比以往更旧的硬件上也能使用（在 v0.5.0 之前，假设用户至少拥有支持 AVX2 的 CPU）
更高的稳定性 - 如果存在无法在您的系统上使用的后端，无论是由于 CPU 功能不可用、缺少依赖项还是其他原因，它将简单地不被加载，而不是导致崩溃

为确保插件能够"开箱即用"，默认配置为仅使用 CPU（对于从早于 v0.5.0 的版本升级的用户也是如此）。这是为了避免在启动时立即崩溃，因为如果由于某种原因您的 GPU 无法被 Whisper 后端之一使用（例如，Apple 上的 Metal 后端在无法分配缓冲区来加载模型时会崩溃）

如果您想使用 GPU 加速，请务必进入插件设置并选择您想要的 GPU 加速后端

通用变体

这些变体应该在任何系统上都能良好运行，无论硬件配置如何。它们包含以下 Whispercpp 后端：

CPU
- Generic x86_64
- Generic x86_64 with SSE4.2
- Sandy Bridge（支持 SSE4.2、AVX 的 CPU）
- Haswell（支持 SSE4.2、AVX、F16C、AVX2、BMI2、FMA 的 CPU）
- Sky Lake（支持 SSE4.2、AVX、F16C、AVX2、BMI2、FMA、AVX512 的 CPU）
- Ice Lake（支持 SSE4.2、AVX、F16C、AVX2、BMI2、FMA、AVX512、AVX512_VBMI、AVX512_VNNI 的 CPU）
- Alder Lake（支持 SSE4.2、AVX、F16C、AVX2、BMI2、FMA、AVX_VNNI 的 CPU）
- Sapphire Rapids（支持 SSE4.2、AVX、F16C、AVX2、BMI2、FMA、AVX512、AVX512_VBMI、AVX512_VNNI、AVX512_BF16、AMX_TITLE、AMX_INT8 的 CPU）
OpenBLAS - 与 CPU 后端结合使用以加速处理速度
Vulkan - 标准跨平台图形库，允许在不支持 CUDA 或 ROCm 的 GPU 上进行 GPU 加速处理。也可与集成显卡配合使用）
- Windows 上可能需要 Vulkan 运行时，可从 https://sdk.lunarg.com/sdk/download/1.4.328.1/windows/VulkanRT-X64-1.4.328.1-Installer.exe 下载
OpenCL（目前仅限 Linux）- 行业标准并行计算库，在支持的 GPU 上可能比 Vulkan 更快

NVidia 优化变体

这些变体包含通用变体中的所有后端，还提供了 CUDA 后端，可在支持的 NVidia GPU 上提供加速性能。如果您的平台上提供了 OpenCL 后端，它还会使用 CUDA OpenCL 库而不是通用库。

请确保已安装最新的 NVidia GPU 驱动程序，可能还需要 CUDA 工具包 v12.8.0 或更高版本。

如果在 Linux 上安装，为了避免安装整个 CUDA 工具包（如果您不需要），您可以安装 cuda-runtime-12.8 软件包以获取所有运行时库和驱动程序，或者安装 cuda-libaries-12-8 软件包以仅获取运行时库。

AMD 优化变体

这些变体包含通用变体中的所有后端，还包括使用 AMD 的 ROCm 框架的 hipblas 后端，可在支持的 AMD GPU上加速计算

请确保已安装兼容的 AMD GPU 驱动程序

Mac OS 变体

这些变体提供以下后端：

CPU
- 与通用变体中列出的相同的 Intel CPU x86_64 变体
- ARM CPU 的 m1、m2/m3 和 m4 变体
Accelerate - 与 CPU 后端结合使用以加速处理速度
Metal - 使用系统 GPU 进行加速处理
CoreML - 特殊后端，使用 Apple 的 CoreML 而不是 Whisper 的常规模型处理，可在 Metal 或 CPU 后端上运行

模型

该插件附带 Tiny.en 模型，并通过下拉菜单自动下载其他 Whisper 模型。如果您在磁盘上有外部 GGML Whisper 模型文件，也可以选择使用。

如果在 Apple 上使用 CoreML，它还会自动为您的选定模型下载相应的 CoreML 编码器模型。

从 https://ggml.ggerganov.com/ 和 HuggingFace 获取更多模型，按照 whisper.cpp 上的说明创建您自己的模型或下载其他模型，例如蒸馏模型。

构建

该插件已在 Mac OSX（Intel 和 Apple silicon）、Windows（带和不带 Nvidia CUDA）以及 Linux 上构建和测试。

首先，将此仓库克隆到您选择的目录中。

Mac OSX

使用 CI 流水线脚本，在本地你只需要调用 zsh 脚本，它会根据 $MACOS_ARCH（可以是 x86_64 或 arm64）中指定的架构进行构建。

$ MACOS_ARCH="x86_64" ./.github/scripts/build-macos -c Release

安装

上述脚本应该会成功执行，插件文件（例如 obs-localvocal.plugin）会位于根目录下的 ./release/Release 文件夹中。将 .plugin 文件复制到 OBS 目录，例如 ~/Library/Application Support/obs-studio/plugins。

要获取 .pkg 安装包文件，可以运行例如：

$ ./.github/scripts/package-macos -c Release

（请注意，输出文件可能在 Release 文件夹中，而不是 package-macos 预期的 install 文件夹，因此你需要将文件夹从 build_x86_64/Release 重命名为 build_x86_64/install）

Linux

使用预编译版本

克隆仓库，如果不是使用 Ubuntu，请使用发行版的包管理器安装以下依赖的开发版本：
- libcurl
- libsimde
- libssl
- icu（International Components for Unicode，一种Unicode字符集支持库）
- openblas（最好使用 OpenMP 变体而非 pthreads 变体）
- OpenCL（开放计算语言，一种并行计算框架）
- Vulkan（一种图形和计算 API）
如果你可能会多次构建插件，建议也安装 ccache（编译缓存工具）
通过 rustup（推荐）或你的发行版包管理器安装 Rust
将 ACCELERATION 环境变量设置为 generic、nvidia 或 amd 之一（未设置时默认为 generic）
```
export ACCELERATION="nvidia"
```

然后从仓库目录运行以下命令构建插件：

./.github/scripts/build-linux

如果由于某种原因无法使用 CI 构建脚本，可以按以下方式构建插件

cmake -B build_x86_64 --preset linux-x86_64 -DCMAKE_INSTALL_PREFIX=./release
cmake --build build_x86_64 --target install

安装

如果使用 Ubuntu 且插件之前是通过 .deb 包安装的，请将结果复制到 Ubuntu 的标准 OBS 文件夹

sudo cp -R release/RelWithDebInfo/lib/* /usr/lib/
sudo cp -R release/RelWithDebInfo/share/* /usr/share/

否则，请遵循官方 OBS 插件指南并将结果复制到你的用户插件文件夹

mkdir -p ~/.config/obs-studio/plugins/obs-localvocal/bin/64bit
cp -R release/RelWithDebInfo/lib/x86_64-linux-gnu/obs-plugins/* ~/.config/obs-studio/plugins/obs-localvocal/bin/64bit/
mkdir -p ~/.config/obs-studio/plugins/obs-localvocal/data
cp -R release/RelWithDebInfo/share/obs/obs-plugins/obs-localvocal/* ~/.config/obs-studio/plugins/obs-localvocal/data/

注意：发布文件夹中的 lib 路径因 Linux 发行版而异（例如在 Gentoo 上，插件库位于 release/RelWithDebInfo/lib64/obs-plugins），但复制目标目录始终相同。

从源码构建 Whispercpp 以及插件

如果由于某种原因无法使用 CI 构建脚本，或者只是更喜欢从源码构建 Whispercpp 依赖项以及插件，请按照上述步骤操作，但使用以下命令构建插件：

cmake -B build_x86_64 --preset linux-x86_64 -DLINUX_SOURCE_BUILD=ON -DCMAKE_INSTALL_PREFIX=./release
cmake --build build_x86_64 --target install

从源码构建时，Vulkan 和 OpenCL 开发库是可选的，只有在安装后才会被使用。同样，如果找到 CUDA 或 ROCm 工具包，它们也会被使用，相关的 Whisper 后端将被启用。

完整源码构建的默认设置是构建针对主机系统优化的 Whisper 和插件。要更改此行为，请在 CMake 配置命令中添加以下一个或两个选项（两个中的第一个）：

要构建所有 CPU 后端，请添加 -DWHISPER_DYNAMIC_BACKENDS=ON
要构建所有 CUDA 内核，请添加 -DWHISPER_BUILD_ALL_CUDA_ARCHITECTURES=ON

Linux (Flatpak)

将插件构建为 OBS Studio 的 Flatpak 扩展，可以方便地在 Linux 系统上进行分发和安装。

前置条件

安装 Flatpak 和 flatpak-builder：

# 在 Ubuntu/Debian 上
sudo apt install flatpak flatpak-builder

# 在 Fedora 上
sudo dnf install flatpak flatpak-builder

# 在 Arch Linux 上
sudo pacman -S flatpak flatpak-builder

添加 Flathub 仓库：

flatpak remote-add --if-not-exists flathub https://flathub.org/repo/flathub.flatpakrepo

安装 OBS Studio Flatpak 和所需的 SDK：

flatpak install flathub com.obsproject.Studio
flatpak install flathub org.kde.Sdk//6.8

构建

如果还没有克隆仓库，请先克隆：

git clone https://github.com/locaal-ai/obs-localvocal.git
cd obs-localvocal

将 ACCELERATION 环境变量设置为 generic、nvidia 或 amd 之一（未设置时默认为 generic）：
```
export ACCELERATION="nvidia"  # 或 "amd" 或 "generic"
```
构建 Flatpak 扩展：
```
./flatpak/build.sh --disable-rofiles-fuse --force-clean build-dir ./flatpak/com.obsproject.Studio.Plugin.LocalVocal.yaml
```
构建过程将：
- 编译所有依赖项，包括 ICU 77、whisper.cpp、CTranslate2 等
- 使用选定的加速后端构建 LocalVocal 插件
- 创建与 OBS Studio 集成的 Flatpak 扩展

安装构建好的扩展：

./flatpak/build.sh --disable-rofiles-fuse --install build-dir ./flatpak/com.obsproject.Studio.Plugin.LocalVocal.yaml

或手动安装：

flatpak-builder --user --install --force-clean build-dir ./flatpak/com.obsproject.Studio.Plugin.LocalVocal.yaml

验证安装：
```
flatpak list | grep LocalVocal
```

运行带有插件的 OBS Studio

安装后，只需从应用程序菜单启动 OBS Studio 或通过以下方式运行：

flatpak run com.obsproject.Studio

LocalVocal 插件现在应该在 OBS Studio 的滤镜中可用。

故障排除

构建失败并出现 ICU 错误：Flatpak 构建使用 ICU 77，这是构建过程的一部分。这是 Qt 的 uic 二进制兼容性所必需的。
未检测到 CUDA/ROCm：请确保在构建前设置了 ACCELERATION 环境变量。
插件在 OBS 中不可见：请确保 Flatpak 扩展已安装到正确位置，并且 OBS Studio 是从 Flatpak 运行的。

Windows

使用 CI 脚本，例如：

> .github/scripts/Build-Windows.ps1 -Configuration Release

构建产物应该在根目录的 ./release 文件夹中。你可以手动安装 OBS 目录中的文件。

> Copy-Item -Recurse -Force "release\Release\*" -Destination "C:\Program Files\obs-studio\"

在 Windows 上构建 CUDA 支持版本

LocalVocal 现在可以通过预编译的 Whisper.cpp（一种高效的语音识别库）二进制文件自动构建 CUDA（NVIDIA 计算统一设备架构）支持版本，该文件来自 https://github.com/locaal-ai/locaal-ai-dep-whispercpp。CMake（跨平台的构建工具）脚本会下载所有必要的文件。

要使用 cuda 构建，请添加 ACCELERATION 环境变量（值为 cpu、hipblas 或 cuda），然后正常构建。

> $env:ACCELERATION="cuda"
> .github/scripts/Build-Windows.ps1 -Configuration Release

LocalVocal 快速上手指南

LocalVocal 是一款 OBS 插件，可实现实时语音转文字和翻译。完全本地运行，无需 GPU、无需云服务、无需网络，保护隐私。

环境准备

系统要求

操作系统	要求
Windows 10/11	64 位，需安装最新 MSVC 运行时
macOS 10.15+	Intel 或 Apple Silicon (M1/M2/M3)
Linux	x86_64 架构

硬件配置

通用版：支持所有系统，包含多种 CPU 优化版本（SSE4.2、AVX、AVX2、AVX512）
NVIDIA 版：需 NVIDIA GPU + CUDA Toolkit 12.8.0+
AMD 版：需 AMD GPU + ROCm 驱动

安装步骤

1. 下载插件

访问 Releases 页面下载对应版本：

Windows:

# 通用版
obs-localvocal-0.5.3-windows-x64-generic-Installer.exe

# NVIDIA GPU
obs-localvocal-0.5.3-windows-x64-nvidia-Installer.exe

# AMD GPU
obs-localvocal-0.5.3-windows-x64-amd-Installer.exe

macOS:

# Intel
obs-localvocal-0.5.3-macos-x86_64.pkg

# Apple Silicon (M1/M2/M3)
obs-localvocal-0.5.3-macos-arm64.pkg

Linux:

# 通用版
obs-localvocal-0.5.3-generic-x86_64-linux-gnu.deb

# NVIDIA
obs-localvocal-0.5.3-nvidia-x86_64-linux-gnu.deb

# AMD
obs-localvocal-0.5.3-amd-x86_64-linux-gnu.deb

2. 安装

Windows: 运行 Installer.exe，按提示完成安装。

macOS: 双击 .pkg 文件安装。

Linux (Debian/Ubuntu):

sudo dpkg -i obs-localvocal-*.deb

3. 验证安装

启动 OBS Studio
在菜单栏选择 工具 → LocalVocal
插件面板应正常打开

基本使用

1. 配置音频源

在 OBS 中添加音频源（麦克风或桌面音频）
确保音频源正常工作

2. 启动转录

打开 工具 → LocalVocal 面板
在 Model 下拉菜单选择 Whisper 模型（默认使用 tiny.en）
点击 Start Transcription 开始转录

3. 显示字幕

在 LocalVocal 面板中：

勾选 Enable Caption Display
选择字幕显示方式：
- Text Source: 创建 OBS 文本源显示字幕
- Save to File: 保存为 .txt 或 .srt 文件
- RTMP Stream: 发送到 YouTube/Twitch 等平台

4. 启用翻译（可选）

在 Translation 部分选择目标语言
勾选 Enable Translation
翻译方式可选：Whisper 内置翻译、DeepL API 或 OpenAI API

5. 使用 GPU 加速（如有）

默认使用 CPU 运行。如需 GPU 加速：

进入 Settings → Backend
选择对应的后端：
- NVIDIA: CUDA
- AMD: hipBLAS
- macOS: Metal 或 CoreML

注意事项

首次启动时会自动下载 Whisper 模型（需网络）
如需使用 GPU 加速，请确保正确安装对应驱动和运行时库
插件默认使用 CPU 模式以确保兼容性

版本历史

0.6.12026/04/01

0.6.02026/01/05

0.5.32025/11/25

0.5.22025/11/21

0.5.12025/11/08

0.5.02025/11/07

0.4.52025/11/04

0.4.42025/10/31

0.4.32025/10/30

0.4.22025/10/27

0.4.12025/10/19

0.4.02025/10/18

0.3.92024/11/25

0.3.82024/11/07

0.3.72024/10/09

0.3.62024/10/02

0.3.52024/09/13

0.3.42024/07/31

0.3.32024/07/20

0.3.22024/07/02

常见问题

在 Linux 上使用 localvocal 插件时性能很慢怎么办？

如何在 Archlinux 上编译 obs-localvocal 插件？

在 Linux 上安装插件后 OBS 崩溃如何解决？

MacOS 上使用插件时 OBS 崩溃如何解决？

在 Linux 上选择 localvocal 过滤器时崩溃如何解决？

添加音频过滤器时插件崩溃如何解决？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架