pianotrans

1.5k 144 中等 2 次阅读昨天Agent图像开发框架

AI 解读由 AI 自动生成，仅供参考

pianotrans 让你轻松把钢琴录音变成带踏板效果的 MIDI 文件！它基于字节跳动的开源技术，能精准捕捉音符和踏板细节，还原真实演奏的丰富层次。以前这类专业转录工具操作复杂，需要技术背景，pianotrans 用直观的图形界面解决了这个痛点——无需编程知识，普通用户也能一键完成：在 Windows、Mac 或 Linux 上打开软件，选中音频或视频文件，几秒后就能生成 MIDI 文件，方便用于教学示范、个人练习或音乐存档。它自动利用 GPU 加速处理（内存需至少 4GB），速度更快；遇到问题还能切换到 CPU 模式确保稳定。特别适合音乐教师、学生或爱好者使用，帮你省去繁琐设置，专注音乐创作本身。试试看，让钢琴录音焕发新生！

使用场景

独立音乐制作人小李刚完成一首钢琴曲的即兴创作，用手机录下了 5 个演奏版本，想将最满意的版本转成 MIDI 导入 Logic Pro 进行后期编辑和配器。

没有 pianotrans 时

手动记谱耗时耗力：小李需要反复听录音，在钢琴卷帘窗里逐个音符手动输入，一个 3 分钟的曲子至少要花 2 小时，还容易听错音高和节奏。
踏板信息完全丢失：普通音频转 MIDI 工具只能识别音符，无法捕捉延音踏板、弱音踏板的细微变化，导致转出来的 MIDI 听起来机械呆板，完全失去了原演奏的呼吸感。
技术门槛高：想尝试字节跳动的开源模型，却发现要安装 Python、PyTorch 和一堆依赖库，命令行参数复杂，对非程序员来说配置环境就要折腾一整天。
批量处理效率低：5 个录音版本只能逐个处理，每次都要重复设置参数，无法快速对比哪个版本转录效果最好。
转换速度慢：用 CPU 跑模型，一首曲子要处理 20 分钟，电脑卡得无法做其他事。

使用 pianotrans 后

几分钟完成转录：打开 pianotrans 图形界面，拖入音频文件，3 分钟后就拿到标准 MIDI 文件，直接导入 DAW 即可编辑，节省数小时人工。
完整保留演奏细节：转录结果包含踏板控制信息（CC64、CC67），延音的渐弱、半踏板技巧都被准确捕捉，MIDI 回放与原始录音情感表达一致。
零配置开箱即用：下载解压后双击 exe 就能运行，无需关心底层环境，小李可以把精力集中在音乐创作而非技术折腾上。
批量处理多个版本：按住 Ctrl 键选中 5 个录音文件，一键批量转录，转完后直接对比试听，快速选定最佳版本进入后期流程。
GPU 自动加速：pianotrans 自动调用显卡加速，处理速度提升 5 倍，笔记本风扇安静，还能同时浏览网页找灵感。

pianotrans 让创作者从繁琐的技术细节中解放出来，专注于音乐本身，真正实现了"所弹即所得"的高效工作流程。

运行环境要求

操作系统

Windows
Linux
macOS

GPU

非必需，支持GPU自动加速，若遇到问题可使用CPU模式（PianoTrans-CPU.bat）

内存

最低4GB（运行时至少需2GB空闲内存）

依赖

notesWindows用户需安装Visual C++ Redistributable并解压1.5GB预编译包；Linux/macOS需通过Nix包管理器安装；支持批量处理音视频文件；核心算法来自字节跳动piano_transcription项目；提供右键菜单注册功能（Windows）；转录结果MIDI文件与源文件同目录

python未说明（Nix安装方式自动处理依赖）

pytorch>=1.10.2

piano-transcription-inference

mido

soundfile

torchlibrosa

快速开始

适用于字节跳动钢琴转谱（含踏板）的简单 GUI

字节跳动的 Piano Transcription 是钢琴转谱系统的 PyTorch（深度学习框架）实现，该系统名为"High-resolution Piano Transcription with Pedals by Regressing Onsets and Offsets Times [1]"。

利用此工具，我们可以将钢琴录音转录为包含踏板信息的 MIDI 文件。

这是为 Windows 和 Linux/macOS 上的 Nix 提供的简单 GUI（图形用户界面）和打包方案。

系统要求

OS（操作系统）：Windows 7 或更高版本（64位）、Linux、macOS（Intel/M1）
内存：至少 4G

仅在 Windows 10、Debian Linux 10 和 macOS 12.1 M1 上进行了测试。

Windows 使用说明

下载 Microsoft Visual C++ Redistributable for Visual Studio 2015, 2017 and 2019 vc_redist_x64.exe 并安装
下载并解压 PianoTrans-v1.0.7z（下载大小 1.5GB，请使用 7zip 解压）
关闭其他应用程序以释放内存，至少需要 2G 可用内存
在 PianoTrans 目录中运行 PianoTrans.exe
选择音频/视频文件，按住 CTRL（控制键）可选择多个文件
生成的 MIDI 文件将与输入文件在同一目录下

如果需要右键菜单功能，请运行 RightClickMenuRegister.bat（右键菜单注册脚本），然后您可以选择多个音频/视频文件，右键点击并选择 Piano Transcribe。

PianoTrans 会自动使用 GPU（图形处理器）进行推理，如果遇到任何问题，可以尝试运行 PianoTrans-CPU.bat 强制使用 CPU（中央处理器）。

在 Linux/macOS 上使用 Nix 的方法

注意：本指南适用于 Linux/macOS 上的 Nix（包管理器），如果您不使用 Nix，也可以按照上游的安装和使用指南使用 Python pip。

打开终端

安装并配置 Nix：

sh <(curl -L https://nixos.org/nix/install) --daemon
mkdir -p ~/.config/nix
echo 'experimental-features = nix-command flakes' > ~/.config/nix/nix.conf

更多详情请访问 https://nixos.org/download.html

使用 Nix 安装 pianotrans：

nix profile install github:azuwis/pianotrans

运行 pianotrans 打开 GUI，选择音频/视频文件，按住 CTRL（macOS 上为 ⌘）可选择多个文件

CLI（命令行界面）使用方法：运行 pianotrans file1 file2 ...。

升级 pianotrans 请运行：

$ nix profile list
0 github:azuwis/pianotrans#defaultPackage.aarch64-linux github:azuwis/pianotrans/e19d5fd12f4295816fad49f6398e2e53ed2d2b7a#defaultPackage.aarch64-linux /nix/store/zdalndvcralish8d43drzslv0p4pm97v-python3.9-pianotrans-0.2.1
# 列出 nix profiles，`0` 是 pianotrans
$ nix --option tarball-ttl 1 profile upgrade 0
$ nix profile list
0 github:azuwis/pianotrans#defaultPackage.aarch64-linux github:azuwis/pianotrans/e944720dd0dfcc2b87dcc39c1fdaab086eba4ca6#defaultPackage.aarch64-linux /nix/store/rv5iikrdvc7jrc7mqs8mkc21qh2gklhx-python3.9-pianotrans-1.0
# pianotrans 已升级到 v1.0

常见问题

Q：能否改进转录结果？

A：本项目是为 https://github.com/bytedance/piano_transcription 提供打包方案，只要它能生成 MIDI 文件，其他所有问题都不在本项目范围内。

您应该向上游项目报告问题：https://github.com/bytedance/piano_transcription/issues

更新日志

[1.0.1] - 2023-02-09

添加 --cli 选项以强制禁用 GUI（图形用户界面）
从 askopenfilenames 中移除 filetypes 参数以避免崩溃
更新 Nix flake，并移除 mido/soundfile/torchlibrosa/piano-transcription-inference 的 overlay，所有补丁已被 nixpkgs 接受，这意味着更多依赖可以直接从 Nix 二进制缓存获取，减少本地构建
添加 GitHub 测试工作流

[1.0] - 2022-02-21

支持使用 Nix 的 Linux/macOS
所有平台：
- 在 CLI（命令行界面）之外添加真正的 GUI（图形用户界面）
- GUI 允许添加文件到转录队列
Windows：
- 右键菜单支持多个文件（需要重新运行 RightClickMenuRegister.bat）
- 更新 pytorch 到 1.10.2

[0.2.1] - 2021-12-23

更新 pytorch 到 1.10.1
更新 piano-transcription-inference 到 0.0.5

[0.2] - 2021-09-27

更新 pytorch 到 1.9.1
添加 PianoTrans-CPU.bat 以强制使用 CPU（中央处理器）进行推理

[0.1] - 2021-02-02

初始版本

引用

[1] Qiuqiang Kong, Bochen Li, Xuchen Song, Yuan Wan, and Yuxuan Wang. "High-resolution Piano Transcription with Pedals by Regressing Onsets and Offsets Times." arXiv preprint arXiv:2010.01815 (2020). [pdf]

PianoTrans 快速上手指南

将钢琴录音转换为带踏板的 MIDI 文件。

环境准备

系统要求

Windows 7 或更高版本（64 位）、Linux、macOS（Intel/M1）
至少 4GB 内存（建议关闭其他应用释放至少 2GB 可用内存）

前置依赖

Windows: 需安装 Microsoft Visual C++ Redistributable for Visual Studio 2015, 2017 and 2019 (vc_redist_x64.exe)
Linux/macOS: 需安装 Nix 包管理器

安装步骤

Windows 安装

下载并安装 Visual C++ Redistributable（vc_redist_x64.exe）
下载 PianoTrans-v1.0.7z（1.5GB）
使用 7-Zip 解压
进入 PianoTrans 目录，双击运行 PianoTrans.exe

Linux/macOS 安装（使用 Nix）

# 1. 安装 Nix
sh <(curl -L https://nixos.org/nix/install) --daemon
mkdir -p ~/.config/nix
echo 'experimental-features = nix-command flakes' > ~/.config/nix/nix.conf

# 2. 安装 pianotrans
nix profile install github:azuwis/pianotrans

基本使用

GUI 模式

Windows: 运行 PianoTrans.exe，选择音频/视频文件（按住 CTRL 可多选）
Linux/macOS: 终端运行 pianotrans，选择文件（按住 CTRL/⌘ 可多选）

转换后的 MIDI 文件将保存在与输入文件相同的目录中。

命令行模式

pianotrans 文件1 文件2 ...

Windows 右键菜单（可选）

运行 RightClickMenuRegister.bat 注册右键菜单，之后可直接右键选择多个文件并点击 Piano Transcribe 进行转换。

故障排查

若 GPU 模式出现问题，可强制使用 CPU：

Windows: 运行 PianoTrans-CPU.bat
Linux/macOS: 暂不支持，建议检查 CUDA 环境

版本历史

v1.02022/02/22

v0.2.12021/12/23

v0.22021/09/27

v0.12021/02/03

常见问题

下载时提示需要授权或无法下载怎么办？

运行pianotrans.exe时命令提示符窗口闪退，无法选择文件怎么办？

程序显示"Using cuda for inference"后无反应，如何强制使用CPU运行？

RTX 30系列显卡无法运行程序怎么办？

Mac版本无法在旧版macOS上运行怎么办？

转换后的MIDI音符长度过长（延音踏板效果），如何缩短？

转换后的MIDI文件BPM固定为120，能否修改？

如何将PianoTrans集成到我自己的程序中？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架