nightingale

1k 65 简单 1 次阅读今天GPL-3.0Agent开发框架音频图像

AI 解读由 AI 自动生成，仅供参考

Nightingale 是一款由机器学习驱动的智能卡拉 OK 应用，能让用户将本地音乐库中的任意歌曲瞬间转化为可演唱的伴奏。它主要解决了传统卡拉 OK 依赖特定曲库、缺乏实时评分以及难以处理视频文件的痛点，让用户无需手动寻找伴奏或歌词即可享受完整的演唱体验。

这款工具非常适合喜爱唱歌的普通用户、家庭娱乐爱好者以及希望搭建私人卡拉 OK 系统的技术发烧友。其核心亮点在于强大的自动化处理能力：内置神经网络模型（如 UVR 或 Demucs）能精准分离人声与伴奏，并利用 WhisperX 技术自动生成带时间戳的逐字歌词。此外，Nightingale 还具备实时音高检测与评分系统，支持调节音调与节奏，甚至能直接读取视频文件，提取音频的同时保留原视频作为动态背景。

值得一提的是，Nightingale 采用“开箱即用”的设计，所有必要的运行环境（包括 Python、FFmpeg 及各类 AI 模型）均会在首次启动时自动下载配置，无需用户具备任何编程基础或手动安装依赖。配合游戏手柄支持和自适应界面，它让高科技的音频处理变得简单有趣，真正实现了把专业级卡拉 OK 带回家。

使用场景

音乐爱好者小林想在家举办一场高质量的卡拉 OK 聚会，希望利用本地音乐库中的任意歌曲进行演唱，并获得专业的评分反馈。

没有 nightingale 时

伴奏获取困难：想要唱的歌没有官方伴奏版，手动寻找或使用普通消音软件会导致人声残留严重或背景音乐失真，破坏演唱体验。
歌词不同步：网上下载的歌词文件往往与本地音频版本不匹配，需要手动逐句调整时间轴，耗时耗力且难以做到精准对齐。
缺乏互动反馈：演唱过程如同“自言自语”，没有实时的音准检测和评分系统，无法判断唱得好坏，聚会气氛难以调动。
环境搭建繁琐：若尝试自行部署 AI 分离模型，需配置 Python 环境、安装 ffmpeg 及下载庞大的机器学习模型，技术门槛极高。

使用 nightingale 后

一键生成高品质伴奏：nightingale 自动扫描音乐文件夹，利用 UVR 或 Demucs 神经网络将任意歌曲的人声与伴奏完美分离，保留和声细节，瞬间获得专业级伴奏。
自动对齐逐字歌词：通过 WhisperX 技术自动转录并生成带毫秒级时间戳的歌词，或直接同步 LRCLIB 资源，实现精准的逐字高亮滚动。
实时音准评分互动：连接麦克风后，nightingale 提供实时的音高检测、星级评价及每首歌的得分排行榜，让聚会变成激烈的歌唱比赛。
开箱即用的便捷体验：无需手动安装任何依赖，nightingale 作为单一二进制文件运行，首次启动自动下载所需模型与环境，支持手柄操作和大屏适配，即刻开唱。

nightingale 将复杂的 AI 音频处理技术封装为极简的娱乐应用，让本地音乐库瞬间变身具备专业评分系统的智能卡拉 OK 厅。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

非必需
支持 NVIDIA GPU (CUDA, 速度最快), Apple Silicon (MPS/CoreML), 或纯 CPU (速度最慢)
未指定具体型号和显存大小

内存

未说明

依赖

notes该工具为独立二进制文件，首次运行时会自动下载并配置 Python 环境、ffmpeg 及机器学习模型（包括 Demucs、WhisperX 和 UVR 模型），无需手动安装。单首歌曲分析时间在 GPU 上约为 2-5 分钟，CPU 上为 10-20 分钟。macOS 用户首次运行前可能需要使用 'xattr -cr' 命令移除隔离属性。数据默认存储在 ~/.nightingale 或用户指定的文件夹中。

python3.10 (通过 uv 自动安装)

PyTorch

UVR Karaoke model (ONNX Runtime)

Demucs

WhisperX (large-v3)

ffmpeg

Tauri

React

快速开始

Nightingale

基于神经网络，将您音乐库中的任何歌曲变成卡拉OK。

Nightingale 会扫描您的音乐文件夹，使用 UVR Karaoke 模型（或 Demucs）将主唱与伴奏分离，再通过 WhisperX 将歌词转录并添加词位时间戳，最后以同步高亮显示、音高评分、调性/速度控制、个人资料和动态背景等功能进行播放。

程序以单个二进制文件分发，无需手动安装 Python、ffmpeg 或机器学习模型——所有依赖项都会在首次启动时自动下载并完成初始化。

功能

🎤 音轨分离 — 使用 UVR Karaoke 模型（默认）或 Demucs 将主唱从伴奏中分离，支持调节引导人声的音量。Karaoke 模型会在伴奏中保留和声部分，使声音更自然。

📝 词位级歌词 — 自动转录并对齐歌词；若可用，也可从 LRCLIB 获取。

🎯 音高评分 — 实时麦克风输入配合音高检测，提供星级评价及每首歌的成绩榜。

🎚️ 调性和速度调整 — 分析完成后可调整歌曲的调性和速度，并缓存不同版本以便快速重试。

👤 个人资料 — 创建并切换不同的用户配置文件；分数将按每个资料分别记录。

🎬 视频文件 — 将视频文件（.mp4、.mkv 等）放入音乐文件夹，系统会从音频轨道中分离出人声，并以原始视频作为同步背景播放。

🌌 7 种背景主题 — 包括 5 种基于 GPU 的着色器背景（等离子体、极光、海浪、星云、星空）、5 种来自 Pixabay 的视频背景（自然、水下、太空、城市、乡村），以及针对视频文件的自动源视频播放功能。

🧭 侧边栏 + 库过滤器 — 提供快速筛选、元数据清理分类、艺人/专辑分组，以及用于批量分析的“全部分析”功能。

🎙️ 麦克风镜像 — 可选择将实时麦克风信号路由到播放中，实现低延迟的练习与监听。

🎮 游戏手柄支持 — 完全可通过游戏手柄（方向键、摇杆、按键）进行导航和控制。

📺 自适应 UI 缩放 — 适配任意分辨率，包括 4K 电视。

📦 自包含 — ffmpeg、uv、Python、PyTorch 和机器学习相关包会在安装过程中自动下载。视频背景也会预先下载，确保首次使用即可立即上手。

快速入门

请从发布页面下载适用于您平台的最新版本并运行。首次启动时，Nightingale 会显示设置步骤，让您选择数据文件夹，随后自动安装 Python 环境和机器学习模型。

macOS

macOS 会对从互联网下载的文件进行隔离。由于 Nightingale 未使用 Apple 开发者 ID 签名，Gatekeeper 会阻止其运行，并显示类似“应用已损坏，无法打开”的提示。要解决此问题，在将 Nightingale.app 移至“应用程序”文件夹后，请移除隔离属性：

xattr -cr /Applications/Nightingale.app

支持的格式

音频：.mp3、.flac、.ogg、.wav、.m4a、.aac、.wma。视频：.mp4、.mkv、.avi、.webm、.mov、.m4v。

控制方式

操作	键盘	游戏手柄
移动	方向键	D-pad / 左摇杆
确认 / 选择	Enter	A（南）
返回 / 取消	Escape	B（东） / Start
切换面板	Tab	—
搜索歌曲	输入筛选	—

播放

操作	键盘	游戏手柄
暂停 / 继续	Space	Start
退出到菜单	Escape	B（东）
切换引导人声	G	—
调节引导人声音量	+ / -	—
循环背景主题	T	—
循环视频风格	F	—
切换麦克风	M	—
下一个麦克风	N	—
切换麦克风镜像	R	—
切换全屏	F11	—
跳过前奏 / 跳过后奏	屏幕按钮	A（南）

工作原理

音频或视频文件
        │
        ▼
  ┌─────────────────┐
  │  UVR Karaoke /  │  ──▶  vocals.mp3 + instrumental.mp3
  │  Demucs         │       （从视频中提取音频轨道）
  └─────────────────┘
        │
        ▼
  ┌─────────────────┐
  │  LRCLIB         │  ──▶  若有同步歌词则获取
  └─────────────────┘
        │
        ▼
  ┌─────────────────┐
  │  WhisperX       │  ──▶  转录并进行词位级对齐
  │  (large-v3)     │
  └─────────────────┘
        │
        ▼
  ┌─────────────────┐
  │  Tauri App      │  ──▶  播放伴奏 + 同步歌词
  │  (Rust + React) │       并提供音高评分、调性/速度控制、
  └─────────────────┘       麦克风镜像及动态背景功能，
                            （视频文件会优先使用源视频）

分析结果会使用 blake3 文件哈希进行缓存。只有当源文件发生变化、用户手动触发重新分析，或您选择调整调性/速度并生成不同播放版本时，才会重新进行分析。

硬件要求

Python 分析器使用 PyTorch，并会自动检测最佳后端：

后端	设备	备注
CUDA	NVIDIA GPU	最快
MPS	Apple Silicon	macOS；WhisperX 对齐会回退到 CPU
CPU	任何设备	最慢但始终可用

UVR Karaoke 模型采用 ONNX Runtime，在 NVIDIA GPU 上会自动启用 CUDA 加速，而在 Apple Silicon 上则使用 CoreML。

一首歌通常在 GPU 上需要 2–5 分钟，在 CPU 上则需要 10–20 分钟。

数据存储

在设置过程中，您可以选择 Nightingale 存储数据的位置（默认为 ~/.nightingale）。大多数运行时数据都存储在该选定的数据文件夹中，而 config.json 和 nightingale.log 仍保留在 ~/.nightingale 中。

典型的选定数据文件夹布局如下：

<selected-data-folder>/
├── cache/               # 音高、转录文本、歌词、移调版本、翻唱、可播放视频
├── songs.db             # SQLite 歌曲库及分析元数据
├── profiles.json        # 播放器配置文件和分数
├── videos/              # 缓存的 Pixabay 视频背景
├── sounds/              # 音效（庆祝）
├── vendor/
│   ├── ffmpeg           # 下载的 ffmpeg 二进制文件
│   ├── uv               # 下载的 uv 二进制文件
│   ├── python/          # 通过 uv 安装的 Python 3.10
│   ├── venv/            # 包含机器学习包的虚拟环境
│   ├── analyzer/        # 提取的分析器 Python 脚本
│   └── .ready           # 标记，表示设置已完成
└── models/
    ├── torch/           # Demucs 模型缓存
    ├── huggingface/     # WhisperX 模型缓存
    └── audio_separator/ # UVR 卡拉 OK 模型缓存

~/.nightingale/config.json 存储应用程序设置，包括所选数据文件夹的路径。

视频背景

Pixabay 视频背景使用 Pixabay API。API 密钥已嵌入到发布版本中。在开发环境中，请在项目根目录下创建一个 .env 文件：

PIXABAY_API_KEY=your_key_here

从源代码构建

先决条件

工具	版本
Rust	1.85 及以上（2024 年版）
Node.js	20 及以上
pnpm	最新版本
仅限 Linux	`libwebkit2gtk-4.1-dev`、`libssl-dev`、`libayatana-appindicator3-dev`、`librsvg2-dev`、`libxdo-dev`、`libasound2-dev`

开发

git clone <repo-url> nightingale
cd nightingale
cargo desktop dev

发布构建

cargo desktop build

支持的平台

平台	目标架构
Linux x86_64	`x86_64-unknown-linux-gnu`
Linux aarch64	`aarch64-unknown-linux-gnu`
macOS ARM	`aarch64-apple-darwin`
macOS Intel	`x86_64-apple-darwin`
Windows x86_64	`x86_64-pc-windows-msvc`

许可证

GPL-3.0 或更高版本 — 请参阅 LICENSE。

Nightingale 快速上手指南

Nightingale 是一款基于神经网络的开源卡拉 OK 工具，能够自动从音乐库中分离人声与伴奏，生成带时间戳的歌词，并提供实时音高评分、变调变速及动态背景等功能。它以单一二进制文件分发，首次运行会自动下载所需环境。

环境准备

系统要求

支持以下平台：

Linux: x86_64 或 aarch64 架构
macOS: Intel 或 Apple Silicon (ARM) 芯片
Windows: x86_64 架构

硬件建议

工具内置分析器会自动检测最佳后端，性能取决于硬件：

NVIDIA GPU: 使用 CUDA 后端，速度最快（推荐）。
Apple Silicon: 使用 MPS 后端（WhisperX 对齐步骤可能回退至 CPU）。
CPU: 通用兼容，但处理速度较慢（单曲约需 10-20 分钟，GPU 仅需 2-5 分钟）。

前置依赖

普通用户无需手动安装任何依赖。Nightingale 会在首次启动时自动下载并配置 ffmpeg、Python、PyTorch 及机器学习模型。

注意（macOS 用户）：由于应用未签名， macOS Gatekeeper 可能会拦截启动。将 Nightingale.app 移至应用程序文件夹后，需在终端执行以下命令移除隔离属性：
xattr -cr /Applications/Nightingale.app

安装步骤

下载程序 访问项目的 Releases 页面，下载对应操作系统的最新版本压缩包。
解压与运行
- Windows/Linux: 解压后直接运行可执行文件。
- macOS: 将 Nightingale.app 拖入 /Applications 文件夹，执行上述“环境准备”中的去隔离命令后双击打开。
初始化配置 首次启动时，程序会引导你选择数据存储目录（默认为 ~/.nightingale 或用户指定路径）。随后它将自动：
- 下载嵌入式 Python 环境和必要的 ML 模型（UVR Karaoke, Demucs, WhisperX）。
- 预下载视频背景素材。
- 完成初始化后即可进入主界面。

基本使用

1. 导入音乐库

将包含音频（.mp3, .flac, .wav 等）或视频（.mp4, .mkv 等）文件的文件夹设置为音乐库目录。

在侧边栏使用 Analyze All 功能批量分析歌曲。
系统将自动分离人声/伴奏，并从 LRCLIB 获取或通过 WhisperX 生成带词级时间戳的歌词。

2. 开始演唱

在歌曲列表中选中一首已分析的歌曲并确认播放。
连接麦克风，开启 Mic Mirroring（按 M 键切换麦克风，R 键切换镜像监听）以进行低延迟练习。
界面将实时显示同步高亮的歌词和音高评分（星级）。

3. 常用控制

功能	键盘快捷键	游戏手柄
暂停/继续	`Space`	Start
开关导唱人声	`G`	-
调节导唱音量	`+` / `-`	-
切换背景主题	`T`	-
开关麦克风	`M`	-
全屏模式	`F11`	-
跳过前奏/尾奏	点击屏幕按钮	A (South)

4. 高级功能

变调与变速：在播放界面调整 Key（音调）和 Tempo（速度），系统会缓存变体以便快速重试。
多用户档案：创建不同 Profiles 记录各自的得分历史。
视频背景：支持直接播放视频文件作为同步背景，或使用内置的 7 种动态主题（如等离子、极光、星空等）。

所有分析结果均通过文件哈希缓存，除非源文件变更或手动触发，否则不会重复分析。

版本历史

v0.5.02026/04/06

v0.4.12026/03/30

v0.4.02026/03/25

v0.3.32026/03/18

v0.3.22026/03/18

v0.3.12026/03/15

常见问题

扫描大型音乐库（如网络驱动器上的 14000+ 首歌曲）时应用崩溃或响应极慢怎么办？

在 Windows 上有 NVIDIA 显卡（如 RTX 3080/4070），但程序似乎仍在 CPU 模式下运行 PyTorch，如何解决？

首次运行时遇到"Failed to create venv: uv venv failed: error: No interpreter found"错误怎么办？

在 macOS 上使用"Source Video"模式时视频画面为空白（只有歌词显示），如何解决？

安装时出现"CUDA PyTorch install failed"错误，提示找不到 torch==2.1.0.0 版本，如何解决？

为什么无法调节麦克风音量或没有回声消除功能？评分显示区域太小且与歌词不对应怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 158.1k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|今天

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|6天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像