[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-ace-step--ACE-Step":3,"tool-ace-step--ACE-Step":65},[4,23,32,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":22},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,2,"2026-04-05T10:45:23",[13,14,15,16,17,18,19,20,21],"图像","数据工具","视频","插件","Agent","其他","语言模型","开发框架","音频","ready",{"id":24,"name":25,"github_repo":26,"description_zh":27,"stars":28,"difficulty_score":29,"last_commit_at":30,"category_tags":31,"status":22},4128,"GPT-SoVITS","RVC-Boss\u002FGPT-SoVITS","GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具，旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点，实现了“零样本”和“少样本”的快速建模：用户只需提供 5 秒参考音频即可即时生成语音，或使用 1 分钟数据进行微调，从而获得高度逼真且相似度极佳的声音效果。\n\n该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能，极大地降低了数据准备和模型训练的技术门槛，让非专业人士也能轻松上手。\n\n在技术亮点方面，GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成，还具备卓越的推理速度，在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音，还是进行多语言语音交互研究，GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。",56375,3,"2026-04-05T22:15:46",[21],{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":29,"last_commit_at":38,"category_tags":39,"status":22},2863,"TTS","coqui-ai\u002FTTS","🐸TTS 是一款功能强大的深度学习文本转语音（Text-to-Speech）开源库，旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点，让高质量的语音生成变得触手可及。\n\n无论是希望快速集成语音功能的开发者，还是致力于探索前沿算法的研究人员，亦或是需要定制专属声音的数据科学家，🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型，让用户能够即刻上手，还提供了完善的工具链，支持用户利用自有数据训练新模型或对现有模型进行微调，轻松实现特定风格的声音克隆。\n\n在技术亮点方面，🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言，并在整体性能上大幅提升，实现了低于 200 毫秒的超低延迟流式输出，极大提升了实时交互体验。此外，它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型，并支持调用上千个 Fairseq 模型，展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具，🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。",44971,"2026-04-03T14:47:02",[21,20,13],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":29,"last_commit_at":46,"category_tags":47,"status":22},2375,"LocalAI","mudler\u002FLocalAI","LocalAI 是一款开源的本地人工智能引擎，旨在让用户在任意硬件上轻松运行各类 AI 模型，包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛，无需昂贵的专用 GPU，仅凭普通 CPU 或常见的消费级显卡（如 NVIDIA、AMD、Intel 及 Apple Silicon）即可部署和运行复杂的 AI 任务。\n\n对于担心数据隐私的用户而言，LocalAI 提供了“隐私优先”的解决方案，确保所有数据处理均在本地基础设施内完成，无需上传至云端。同时，它完美兼容 OpenAI、Anthropic 等主流 API 接口，这意味着开发者可以无缝迁移现有应用，直接利用本地资源替代云服务，既降低了成本又提升了可控性。\n\nLocalAI 内置了超过 35 种后端支持（如 llama.cpp、vLLM、Whisper 等），并集成了自主 AI 代理、工具调用及检索增强生成（RAG）等高级功能，且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员，还是想要在个人电脑上体验最新 AI 技术的极客玩家，都能通过 LocalAI 获",44782,"2026-04-02T22:14:26",[13,21,19,17,20,14,16],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":29,"last_commit_at":54,"category_tags":55,"status":22},3108,"bark","suno-ai\u002Fbark","Bark 是由 Suno 推出的开源生成式音频模型，能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同，Bark 基于 Transformer 架构，不仅能模拟说话，还能生成笑声、叹息、哭泣等非语言声音，甚至能处理带有情感色彩和语气停顿的复杂文本，极大地丰富了音频表达的可能性。\n\n它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点，让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员，还是希望快速原型设计的开发者，都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。\n\n技术亮点方面，Bark 支持商业使用（MIT 许可），并在近期更新中实现了显著的推理速度提升，同时提供了适配低显存 GPU 的版本，降低了使用门槛。此外，社区还建立了丰富的提示词库，帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码，即可将创意文本转化为高质量音频，是连接文字与声音世界的强大桥梁。",39067,"2026-04-04T03:33:35",[21],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":62,"last_commit_at":63,"category_tags":64,"status":22},3788,"airi","moeru-ai\u002Fairi","airi 是一款开源的本地化 AI 伴侣项目，旨在将虚拟角色（如“二次元老婆”或赛博生命）带入用户的现实世界。它的核心目标是复刻并超越知名 AI 主播 Neuro-sama 的能力，让用户能够拥有完全自主掌控、可私有化部署的智能伙伴。\n\nairi 主要解决了用户对高度定制化、具备情感交互能力且数据隐私安全的 AI 角色的需求。不同于依赖云端服务的通用助手，airi 允许用户在本地运行，不仅保护了对话隐私，还赋予了用户定义角色性格与灵魂的自由。它支持实时语音聊天，甚至能直接参与《我的世界》（Minecraft）和《异星工厂》（Factorio）等游戏，实现了从单纯对话到共同娱乐的跨越。\n\n这款工具非常适合喜爱虚拟角色的普通用户、希望搭建个性化 AI 陪伴的技术爱好者，以及研究多模态交互的开发者。其独特的技术亮点在于跨平台支持（涵盖 Web、macOS 和 Windows）以及强大的游戏交互能力，让 AI 不仅能“说”，还能“玩”。通过容器化的灵魂设计，airi 为每个人创造专属数字生命提供了可能，让虚拟陪伴变得更加真实且触手可及。",37086,1,"2026-04-05T10:54:25",[19,21,17],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":80,"owner_twitter":80,"owner_website":80,"owner_url":81,"languages":82,"stars":95,"forks":96,"last_commit_at":97,"license":98,"difficulty_score":29,"env_os":99,"env_gpu":100,"env_ram":101,"env_deps":102,"category_tags":109,"github_topics":80,"view_count":10,"oss_zip_url":80,"oss_zip_packed_at":80,"status":22,"created_at":110,"updated_at":111,"faqs":112,"releases":143},4246,"ace-step\u002FACE-Step","ACE-Step","ACE-Step: A Step Towards Music Generation Foundation Model","ACE-Step 是一款开源的音乐生成基础模型，旨在成为音乐 AI 领域的\"Stable Diffusion\"。它致力于解决现有技术在生成速度、音乐连贯性与可控性之间难以兼顾的痛点：传统基于大语言模型的方案虽擅长歌词对齐但推理缓慢且结构生硬，而扩散模型虽快却往往缺乏长程结构逻辑。\n\n通过创新性地融合扩散生成机制、深度压缩自动编码器（DCAE）及轻量级线性 Transformer，ACE-Step 实现了显著突破。它能在单张 A100 GPU 上仅用 20 秒即可合成高达 4 分钟的高品质音乐，速度比同类基线快 15 倍，同时在旋律、和声与节奏上保持卓越的连贯性。此外，模型支持声音克隆、歌词编辑、混音及分轨生成等细粒度控制功能，并针对消费级显卡进行了内存优化，最低仅需 8GB 显存即可运行。\n\n这款工具非常适合音乐制作人、内容创作者探索创意灵感，同时也为开发者和研究人员提供了一个高效、灵活的基础架构，便于在其之上训练人声转换、伴奏生成等特定子任务，轻松融入各类音乐创作工作流。","\u003Ch1 align=\"center\">ACE-Step\u003C\u002Fh1>\n\u003Ch1 align=\"center\">A Step Towards Music Generation Foundation Model\u003C\u002Fh1>\n\u003Cp align=\"center\">\n    \u003Ca href=\"https:\u002F\u002Face-step.github.io\u002F\">Project\u003C\u002Fa> |\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FACE-Step\u002FACE-Step-v1-3.5B\">Hugging Face\u003C\u002Fa> |\n    \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FACE-Step\u002FACE-Step-v1-3.5B\">ModelScope\u003C\u002Fa> |\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FACE-Step\u002FACE-Step\">Space Demo\u003C\u002Fa> |\n    \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FPeWDxrkdj7\">Discord\u003C\u002Fa> |\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.00045\">Technical Report\u003C\u002Fa> |\n    \u003Ca href=\"https:\u002F\u002Face-step.github.io\u002Face-step-v1.5.github.io\u002F\">ACE-Step v1.5\u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Face-step_ACE-Step_readme_0be303a311a9.png\" width=\"100%\" alt=\"StepFun Logo\">\n\u003C\u002Fp>\n\n## Table of Contents\n\n- [✨ Features](#-features)\n- [📦 Installation](#-installation)\n- [🚀 Usage](#-usage)\n- [📱 User Interface Guide](#-user-interface-guide)\n- [🔨 Train](#-train)\n\n## 📝 Abstract\n\nWe introduce ACE-Step, a novel open-source foundation model for music generation that overcomes key limitations of existing approaches and achieves state-of-the-art performance through a holistic architectural design. Current methods face inherent trade-offs between generation speed, musical coherence, and controllability. For instance, LLM-based models (e.g., Yue, SongGen) excel at lyric alignment but suffer from slow inference and structural artifacts. Diffusion models (e.g., DiffRhythm), on the other hand, enable faster synthesis but often lack long-range structural coherence.\n\nACE-Step bridges this gap by integrating diffusion-based generation with Sana’s Deep Compression AutoEncoder (DCAE) and a lightweight linear transformer. It further leverages MERT and m-hubert to align semantic representations (REPA) during training, enabling rapid convergence. As a result, our model synthesizes up to 4 minutes of music in just 20 seconds on an A100 GPU—15× faster than LLM-based baselines—while achieving superior musical coherence and lyric alignment across melody, harmony, and rhythm metrics. Moreover, ACE-Step preserves fine-grained acoustic details, enabling advanced control mechanisms such as voice cloning, lyric editing, remixing, and track generation (e.g., lyric2vocal, singing2accompaniment).\n\nRather than building yet another end-to-end text-to-music pipeline, our vision is to establish a foundation model for music AI: a fast, general-purpose, efficient yet flexible architecture that makes it easy to train sub-tasks on top of it. This paves the way for developing powerful tools that seamlessly integrate into the creative workflows of music artists, producers, and content creators. In short, we aim to build the Stable Diffusion moment for music.\n\n\n## 📢 News and Updates\n\n- 🎉 **2026.01.28:** Released [ACE-Step v1.5](https:\u002F\u002Face-step.github.io\u002Face-step-v1.5.github.io\u002F) - Our latest and most advanced model is now available!\n\n- 📃 2025.06.02: Released [ACE-Step Technical Report (PDF)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.00045).\n\n- 🎮 2025.05.14: Add `Stable Audio Open Small` sampler `pingpong`. Use SDE to achieve better music consistency and quality, including lyric alignment and style alignment. Use a better method to re-implement `Audio2Audio`\n\n- 🎤 2025.05.12: Release [RapMachine](https:\u002F\u002Fhuggingface.co\u002FACE-Step\u002FACE-Step-v1-chinese-rap-LoRA) and fix lora training issues\n    - See [ZH_RAP_LORA.md](.\u002FZH_RAP_LORA.md) for details. Audio Examples: https:\u002F\u002Face-step.github.io\u002F#RapMachine\n    - See [TRAIN_INSTRUCTION.md](.\u002FTRAIN_INSTRUCTION.md) for detailed training instructions.\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Face-step_ACE-Step_readme_e7e305759910.gif\" alt=\"RapMachine Demo\" width=\"45%\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Face-step_ACE-Step_readme_d1e4bb841b49.gif\" alt=\"Train Demo\" width=\"50%\">\n\u003C\u002Fp>\n\n\n- 🔥 **2025.05.10:** Memory Optimization Update\n  - Reduced Max VRAM to 8GB, making it more compatible with consumer devices\n  - Recommended launch options:\n    ```bash\n    acestep --torch_compile true --cpu_offload true --overlapped_decode true\n    ```\n    Windows need to install triton:\n    ```\n    pip install triton-windows\n    ```\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Face-step_ACE-Step_readme_137533ac2747.png)\n\n- 📢 **2025.05.09:** Graidio Demo support Audio2Audio. ComfyUI: [Ace_Step_4x_a2a.json](.\u002Fassets\u002FAce_Step_4x_a2a.json)\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Face-step_ACE-Step_readme_99da16db8508.gif\" alt=\"Audio2Audio Demo\" width=\"50%\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Face-step_ACE-Step_readme_b60763ef86c6.png\" alt=\"Audio2Audio ComfyUI\" width=\"40%\">\n\u003C\u002Fp>\n\n- 🚀 **2025.05.08:** [ComfyUI_ACE-Step](https:\u002F\u002Ft.co\u002FGeRSTrIvn0) node is now available! Explore the power of ACE-Step within ComfyUI. 🎉\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Face-step_ACE-Step_readme_6d6dcda5343e.png)\n\n\n- 🚀 2025.05.06: Open source demo code and model\n\n\n## ✨ Features\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Face-step_ACE-Step_readme_2309db161c50.png\" width=\"100%\" alt=\"ACE-Step Framework\">\n\u003C\u002Fp>\n\n### 🎯 Baseline Quality\n\n#### 🌈 Diverse Styles & Genres\n\n- 🎸 Supports all mainstream music styles with various description formats including short tags, descriptive text, or use-case scenarios\n- 🎷 Capable of generating music across different genres with appropriate instrumentation and style\n\n#### 🌍 Multiple Languages\n\n- 🗣️ Supports 19 languages with top 10 well-performing languages including:\n  - 🇺🇸 English, 🇨🇳 Chinese, 🇷🇺 Russian, 🇪🇸 Spanish, 🇯🇵 Japanese, 🇩🇪 German, 🇫🇷 French, 🇵🇹 Portuguese, 🇮🇹 Italian, 🇰🇷 Korean\n- ⚠️ Due to data imbalance, less common languages may underperform\n\n#### 🎻 Instrumental Styles\n\n- 🎹 Supports various instrumental music generation across different genres and styles\n- 🎺 Capable of producing realistic instrumental tracks with appropriate timbre and expression for each instrument\n- 🎼 Can generate complex arrangements with multiple instruments while maintaining musical coherence\n\n#### 🎤 Vocal Techniques\n\n- 🎙️ Capable of rendering various vocal styles and techniques with good quality\n- 🗣️ Supports different vocal expressions including various singing techniques and styles\n\n### 🎛️ Controllability\n\n#### 🔄 Variations Generation\n\n- ⚙️ Implemented using training-free, inference-time optimization techniques\n- 🌊 Flow-matching model generates initial noise, then uses trigFlow's noise formula to add additional Gaussian noise\n- 🎚️ Adjustable mixing ratio between original initial noise and new Gaussian noise to control variation degree\n\n#### 🎨 Repainting\n\n- 🖌️ Implemented by adding noise to the target audio input and applying mask constraints during the ODE process\n- 🔍 When input conditions change from the original generation, only specific aspects can be modified while preserving the rest\n- 🔀 Can be combined with Variations Generation techniques to create localized variations in style, lyrics, or vocals\n\n#### ✏️ Lyric Editing\n\n- 💡 Innovatively applies flow-edit technology to enable localized lyric modifications while preserving melody, vocals, and accompaniment\n- 🔄 Works with both generated content and uploaded audio, greatly enhancing creative possibilities\n- ℹ️ Current limitation: can only modify small segments of lyrics at once to avoid distortion, but multiple edits can be applied sequentially\n\n### 🚀 Applications\n\n#### 🎤 Lyric2Vocal (LoRA)\n\n- 🔊 Based on a LoRA fine-tuned on pure vocal data, allowing direct generation of vocal samples from lyrics\n- 🛠️ Offers numerous practical applications such as vocal demos, guide tracks, songwriting assistance, and vocal arrangement experimentation\n- ⏱️ Provides a quick way to test how lyrics might sound when sung, helping songwriters iterate faster\n\n#### 📝 Text2Samples (LoRA)\n\n- 🎛️ Similar to Lyric2Vocal, but fine-tuned on pure instrumental and sample data\n- 🎵 Capable of generating conceptual music production samples from text descriptions\n- 🧰 Useful for quickly creating instrument loops, sound effects, and musical elements for production\n\n### 🔮 Coming Soon\n\n#### 🎤 RapMachine\n\n- 🔥 Fine-tuned on pure rap data to create an AI system specialized in rap generation\n- 🏆 Expected capabilities include AI rap battles and narrative expression through rap\n- 📚 Rap has exceptional storytelling and expressive capabilities, offering extraordinary application potential\n\n#### 🎛️ StemGen\n\n- 🎚️ A controlnet-lora trained on multi-track data to generate individual instrument stems\n- 🎯 Takes a reference track and specified instrument (or instrument reference audio) as input\n- 🎹 Outputs an instrument stem that complements the reference track, such as creating a piano accompaniment for a flute melody or adding jazz drums to a lead guitar\n\n#### 🎤 Singing2Accompaniment\n\n- 🔄 The reverse process of StemGen, generating a mixed master track from a single vocal track\n- 🎵 Takes a vocal track and specified style as input to produce a complete vocal accompaniment\n- 🎸 Creates full instrumental backing that complements the input vocals, making it easy to add professional-sounding accompaniment to any vocal recording\n\n\n## 📋 Roadmap\n\n- [x] Release training code 🔥\n- [x] Release LoRA training code 🔥\n- [x] Release RapMachine LoRA 🎤\n- [x] Release evaluation performance and technical report 📄\n- [ ] Train and Release ACE-Step V1.5\n- [ ] Release ControlNet training code 🔥\n- [ ] Release Singing2Accompaniment ControlNet 🎮\n\n\n## 🖥️ Hardware Performance\n\nWe have evaluated ACE-Step across different hardware setups, yielding the following throughput results:\n\n| Device          | RTF (27 steps) | Time to render 1 min audio (27 steps) | RTF (60 steps) | Time to render 1 min audio (60 steps) |\n| --------------- | -------------- | ------------------------------------- | -------------- | ------------------------------------- |\n| NVIDIA RTX 4090 | 34.48 ×        | 1.74 s                                | 15.63 ×        | 3.84 s                                |\n| NVIDIA A100     | 27.27 ×        | 2.20 s                                | 12.27 ×        | 4.89 s                                |\n| NVIDIA RTX 3090 | 12.76 ×        | 4.70 s                                | 6.48 ×         | 9.26 s                                |\n| MacBook M2 Max  | 2.27 ×         | 26.43 s                               | 1.03 ×         | 58.25 s                               |\n\n\nWe use RTF (Real-Time Factor) to measure the performance of ACE-Step. Higher values indicate faster generation speed. 27.27x means to generate 1 minute of music, it takes 2.2 seconds (60\u002F27.27). The performance is measured on a single GPU with batch size 1 and 27 steps.\n\n\n## 📦 Installation\n\n### 1. Clone the Repository\nFirst, clone the ACE-Step repository to your local machine and navigate into the project directory:\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Face-step\u002FACE-Step.git\ncd ACE-Step\n```\n\n### 2. Prerequisites\nEnsure you have the following installed:\n\n* `Python`: Version 3.10 or later is recommended. You can download it from [python.org](https:\u002F\u002Fwww.python.org\u002F).\n* `Conda` or `venv`: For creating a virtual environment (Conda is recommended).\n\n### 3. Set Up a Virtual Environment\n\nIt is highly recommended to use a virtual environment to manage project dependencies and avoid conflicts. Choose one of the following methods:\n\n#### Option A: Using Conda\n\n1.  **Create the environment** named `ace_step` with Python 3.10:\n    ```bash\n    conda create -n ace_step python=3.10 -y\n    ```\n\n2.  **Activate the environment:**\n    ```bash\n    conda activate ace_step\n    ```\n\n#### Option B: Using venv\n\n1.  **Navigate to the cloned ACE-Step directory.**\n\n2.  **Create the virtual environment** (commonly named `venv`):\n    ```bash\n    python -m venv venv \n    ```\n\n3.  **Activate the environment:**\n    * **On Windows (cmd.exe):**\n        ```bash\n        venv\\Scripts\\activate.bat\n        ```\n    * **On Windows (PowerShell):**\n        ```powershell\n        .\\venv\\Scripts\\Activate.ps1 \n        ```\n        *(If you encounter execution policy errors, you might need to run `Set-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope Process` first)*\n    * **On Linux \u002F macOS (bash\u002Fzsh):**\n        ```bash\n        source venv\u002Fbin\u002Factivate\n        ```\n\n### 4. Install Dependencies\nOnce your virtual environment is activated:\n**a.** (Windows Only) If you are on Windows and plan to use an NVIDIA GPU, install PyTorch with CUDA support first:\n\n```bash\npip3 install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu126\n```\n(Adjust cu126 if you have a different CUDA version. For other PyTorch installation options, refer to the [official PyTorch website](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F)).\n\n**b.** Install ACE-Step and its core dependencies:\n```bash\npip install -e .\n```\n\nThe ACE-Step application is now installed. The GUI works on Windows, macOS, and Linux. For instructions on how to run it, please see the [Usage](#-usage) section.\n\n\n## 🚀 Usage\n\n![Demo Interface](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Face-step_ACE-Step_readme_83f64d7d2710.png)\n\n### 🔍 Basic Usage\n\n```bash\nacestep --port 7865\n```\n\n### ⚙️ Advanced Usage\n\n```bash\nacestep --checkpoint_path \u002Fpath\u002Fto\u002Fcheckpoint --port 7865 --device_id 0 --share true --bf16 true\n```\n\n* If `--checkpoint_path` is set and models exist at the path, load from `checkpoint_path`.\n* If `--checkpoint_path` is set but models do not exist at the path, auto download models to `checkpoint_path`.\n* If `--checkpoint_path` is not set, auto download models to the default path `~\u002F.cache\u002Face-step\u002Fcheckpoints`.\n\nIf you are using macOS, please use `--bf16 false` to avoid errors.\n\n#### 🔍 API Usage\nIf you intend to integrate ACE-Step as a library into your own Python projects, you can install the latest version directly from GitHub using the following pip command.\n\n**Direct Installation via pip:**\n\n1.  **Ensure Git is installed:** This method requires Git to be installed on your system and accessible in your system's PATH.\n2.  **Execute the installation command:**\n    ```bash\n    pip install git+https:\u002F\u002Fgithub.com\u002Face-step\u002FACE-Step.git\n    ```\n    It's recommended to use this command within a virtual environment to avoid conflicts with other packages.\n\n#### 🛠️ Command Line Arguments\n\n- `--checkpoint_path`: Path to the model checkpoint (default: downloads automatically)\n- `--server_name`: IP address or hostname for the Gradio server to bind to (default: '127.0.0.1'). Use '0.0.0.0' to make it accessible from other devices on the network.\n- `--port`: Port to run the Gradio server on (default: 7865)\n- `--device_id`: GPU device ID to use (default: 0)\n- `--share`: Enable Gradio sharing link (default: False)\n- `--bf16`: Use bfloat16 precision for faster inference (default: True)\n- `--torch_compile`: Use `torch.compile()` to optimize the model, speeding up inference (default: False). \n  - **Windows need to install triton**:\n    ```\n    pip install triton-windows\n    ```\n- `--cpu_offload`: Offload model weights to CPU to save GPU memory (default: False)\n- `--overlapped_decode`: Use overlapped decoding to speed up inference (default: False)\n\n## 📱 User Interface Guide\n\nThe ACE-Step interface provides several tabs for different music generation and editing tasks:\n\n### 📝 Text2Music Tab\n\n1. **📋 Input Fields**:\n   - **🏷️ Tags**: Enter descriptive tags, genres, or scene descriptions separated by commas\n   - **📜 Lyrics**: Enter lyrics with structure tags like [verse], [chorus], and [bridge]\n   - **⏱️ Audio Duration**: Set the desired duration of the generated audio (-1 for random)\n\n2. **⚙️ Settings**:\n   - **🔧 Basic Settings**: Adjust inference steps, guidance scale, and seeds\n   - **🔬 Advanced Settings**: Fine-tune scheduler type, CFG type, ERG settings, and more\n\n3. **🚀 Generation**: Click \"Generate\" to create music based on your inputs\n\n### 🔄 Retake Tab\n\n- 🎲 Regenerate music with slight variations using different seeds\n- 🎚️ Adjust variance to control how much the retake differs from the original\n\n### 🎨 Repainting Tab\n\n- 🖌️ Selectively regenerate specific sections of the music\n- ⏱️ Specify start and end times for the section to repaint\n- 🔍 Choose the source audio (text2music output, last repaint, or upload)\n\n### ✏️ Edit Tab\n\n- 🔄 Modify existing music by changing tags or lyrics\n- 🎛️ Choose between \"only_lyrics\" mode (preserves melody) or \"remix\" mode (changes melody)\n- 🎚️ Adjust edit parameters to control how much of the original is preserved\n\n### 📏 Extend Tab\n\n- ➕ Add music to the beginning or end of an existing piece\n- 📐 Specify left and right extension lengths\n- 🔍 Choose the source audio to extend\n\n## 📂 Examples\n\nThe `examples\u002Finput_params` directory contains sample input parameters that can be used as references for generating music.\n\n## 🏗️ Architecture\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Face-step_ACE-Step_readme_c2fa8abbe7d5.png\" width=\"100%\" alt=\"ACE-Step Framework\">\n\u003C\u002Fp>\n\n## 🔨 Train\nSee [TRAIN_INSTRUCTION.md](.\u002FTRAIN_INSTRUCTION.md) for detailed training instructions.\n\n## 📜 License & Disclaimer\n\nThis project is licensed under [Apache License 2.0](.\u002FLICENSE)\n\nACE-Step enables original music generation across diverse genres, with applications in creative production, education, and entertainment. While designed to support positive and artistic use cases, we acknowledge potential risks such as unintentional copyright infringement due to stylistic similarity, inappropriate blending of cultural elements, and misuse for generating harmful content. To ensure responsible use, we encourage users to verify the originality of generated works, clearly disclose AI involvement, and obtain appropriate permissions when adapting protected styles or materials. By using ACE-Step, you agree to uphold these principles and respect artistic integrity, cultural diversity, and legal compliance. The authors are not responsible for any misuse of the model, including but not limited to copyright violations, cultural insensitivity, or the generation of harmful content.\n\n🔔 Important Notice  \nThe only official website for the ACE-Step project is our GitHub Pages site.    \n We do not operate any other websites.  \n🚫 Fake domains include but are not limited to:\nac\\*\\*p.com, a\\*\\*p.org, a\\*\\*\\*c.org  \n⚠️ Please be cautious. Do not visit, trust, or make payments on any of those sites.\n\n## 🙏 Acknowledgements\n\nThis project is co-led by ACE Studio and StepFun.\n\n\n## 📖 Citation\n\nIf you find this project useful for your research, please consider citing:\n\n```BibTeX\n@misc{gong2025acestep,\n\ttitle={ACE-Step: A Step Towards Music Generation Foundation Model},\n\tauthor={Junmin Gong, Wenxiao Zhao, Sen Wang, Shengyuan Xu, Jing Guo}, \n\thowpublished={\\url{https:\u002F\u002Fgithub.com\u002Face-step\u002FACE-Step}},\n\tyear={2025},\n\tnote={GitHub repository}\n}\n```\n","\u003Ch1 align=\"center\">ACE-Step\u003C\u002Fh1>\n\u003Ch1 align=\"center\">迈向音乐生成基础模型的一步\u003C\u002Fh1>\n\u003Cp align=\"center\">\n    \u003Ca href=\"https:\u002F\u002Face-step.github.io\u002F\">项目\u003C\u002Fa> |\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FACE-Step\u002FACE-Step-v1-3.5B\">Hugging Face\u003C\u002Fa> |\n    \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FACE-Step\u002FACE-Step-v1-3.5B\">ModelScope\u003C\u002Fa> |\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FACE-Step\u002FACE-Step\">Space Demo\u003C\u002Fa> |\n    \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FPeWDxrkdj7\">Discord\u003C\u002Fa> |\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.00045\">技术报告\u003C\u002Fa> |\n    \u003Ca href=\"https:\u002F\u002Face-step.github.io\u002Face-step-v1.5.github.io\u002F\">ACE-Step v1.5\u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Face-step_ACE-Step_readme_0be303a311a9.png\" width=\"100%\" alt=\"StepFun Logo\">\n\u003C\u002Fp>\n\n## 目录\n\n- [✨ 特性](#-features)\n- [📦 安装](#-installation)\n- [🚀 使用](#-usage)\n- [📱 用户界面指南](#-user-interface-guide)\n- [🔨 训练](#-train)\n\n## 📝 摘要\n\n我们推出了ACE-Step，这是一种新颖的开源音乐生成基础模型，它克服了现有方法的关键局限性，并通过整体架构设计实现了最先进的性能。当前的方法在生成速度、音乐连贯性和可控性之间存在固有的权衡。例如，基于LLM的模型（如Yue、SongGen）在歌词对齐方面表现出色，但推理速度较慢且容易出现结构上的瑕疵。而扩散模型（如DiffRhythm）则能够实现更快的合成，但往往缺乏长距离的结构连贯性。\n\nACE-Step通过将基于扩散的生成与Sana的深度压缩自编码器（DCAE）以及轻量级线性Transformer相结合，弥合了这一差距。此外，它还利用MERT和m-hubert在训练过程中对齐语义表示（REPA），从而实现快速收敛。因此，我们的模型仅需20秒即可在A100 GPU上合成长达4分钟的音乐——比基于LLM的基线快15倍——同时在旋律、和声和节奏等指标上实现了更优的音乐连贯性和歌词对齐。更重要的是，ACE-Step能够保留精细的声学细节，从而支持高级控制机制，如语音克隆、歌词编辑、混音以及音轨生成（例如，lyric2vocal、singing2accompaniment）。\n\n我们并非要构建又一个端到端的文本到音乐流水线，而是希望建立一个音乐AI的基础模型：一种快速、通用、高效且灵活的架构，便于在其之上训练子任务。这将为开发能够无缝融入音乐艺术家、制作人和内容创作者创作流程的强大工具铺平道路。简而言之，我们的目标是打造音乐领域的Stable Diffusion时刻。\n\n\n## 📢 新闻与更新\n\n- 🎉 **2026.01.28:** 发布了[ACE-Step v1.5](https:\u002F\u002Face-step.github.io\u002Face-step-v1.5.github.io\u002F) - 我们的最新、最先进的模型现已上线！\n\n- 📃 2025.06.02: 发布了[ACE-Step技术报告（PDF）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.00045)。\n\n- 🎮 2025.05.14: 添加了`Stable Audio Open Small`采样器`pingpong`。使用SDE来实现更好的音乐一致性和质量，包括歌词对齐和风格对齐。采用更好的方法重新实现了`Audio2Audio`。\n\n- 🎤 2025.05.12: 发布了[RapMachine](https:\u002F\u002Fhuggingface.co\u002FACE-Step\u002FACE-Step-v1-chinese-rap-LoRA)并修复了LoRA训练问题\n    - 详情请参阅[ZH_RAP_LORA.md](.\u002FZH_RAP_LORA.md)。音频示例：https:\u002F\u002Face-step.github.io\u002F#RapMachine\n    - 详细训练说明请参阅[TRAIN_INSTRUCTION.md](.\u002FTRAIN_INSTRUCTION.md)。\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Face-step_ACE-Step_readme_e7e305759910.gif\" alt=\"RapMachine演示\" width=\"45%\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Face-step_ACE-Step_readme_d1e4bb841b49.gif\" alt=\"训练演示\" width=\"50%\">\n\u003C\u002Fp>\n\n\n- 🔥 **2025.05.10:** 内存优化更新\n  - 最大显存需求降低至8GB，使其更兼容消费级设备\n  - 推荐启动选项：\n    ```bash\n    acestep --torch_compile true --cpu_offload true --overlapped_decode true\n    ```\n    Windows用户需要安装triton：\n    ```\n    pip install triton-windows\n    ```\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Face-step_ACE-Step_readme_137533ac2747.png)\n\n- 📢 **2025.05.09:** Graidio演示支持Audio2Audio。ComfyUI：[Ace_Step_4x_a2a.json](.\u002Fassets\u002FAce_Step_4x_a2a.json)\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Face-step_ACE-Step_readme_99da16db8508.gif\" alt=\"Audio2Audio演示\" width=\"50%\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Face-step_ACE-Step_readme_b60763ef86c6.png\" alt=\"Audio2Audio ComfyUI\" width=\"40%\">\n\u003C\u002Fp>\n\n- 🚀 **2025.05.08:** [ComfyUI_ACE-Step](https:\u002F\u002Ft.co\u002FGeRSTrIvn0)节点现已可用！在ComfyUI中探索ACE-Step的强大功能。🎉\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Face-step_ACE-Step_readme_6d6dcda5343e.png)\n\n\n- 🚀 2025.05.06: 开源演示代码和模型\n\n\n## ✨ 特性\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Face-step_ACE-Step_readme_2309db161c50.png\" width=\"100%\" alt=\"ACE-Step框架\">\n\u003C\u002Fp>\n\n### 🎯 基线质量\n\n#### 🌈 多样化风格与流派\n\n- 🎸 支持所有主流音乐风格，提供多种描述格式，包括简短标签、描述性文字或具体使用场景\n- 🎷 能够根据不同流派生成具有适当乐器编配和风格特征的音乐\n\n#### 🌍 多语言支持\n\n- 🗣️ 支持19种语言，其中表现最佳的前10种语言包括：\n  - 🇺🇸 英语、🇨🇳 中文、🇷🇺 俄语、🇪🇸 西班牙语、🇯🇵 日语、🇩🇪 德语、🇫🇷 法语、🇵🇹 葡萄牙语、🇮🇹 意大利语、🇰🇷 韩语\n- ⚠️ 由于数据不平衡，较少使用的语言可能表现欠佳\n\n#### 🎻 乐器风格\n\n- 🎹 支持不同流派和风格下的各种乐器音乐生成\n- 🎺 能够生成逼真的乐器音轨，为每种乐器赋予恰当的音色和表现力\n- 🎼 可以生成包含多种乐器的复杂编曲，同时保持音乐的连贯性\n\n#### 🎤 人声技巧\n\n- 🎙️ 能够高质量地呈现各种人声风格和技巧\n- 🗣️ 支持不同的人声表达方式，包括多种演唱技巧和风格\n\n### 🎛️ 可控性\n\n#### 🔄 变体生成\n\n- ⚙️ 采用无需训练、仅在推理时优化的技术实现\n- 🌊 流匹配模型生成初始噪声，随后使用 trigFlow 的噪声公式添加额外的高斯噪声\n- 🎚️ 可调节原始初始噪声与新高斯噪声之间的混合比例，以控制变体的程度\n\n#### 🎨 重绘\n\n- 🖌️ 通过向目标音频输入添加噪声，并在 ODE 过程中施加掩码约束来实现\n- 🔍 当输入条件不同于原始生成内容时，可以仅修改特定部分，同时保留其余内容\n- 🔀 可与变体生成技术结合，创造出风格、歌词或人声的局部变化\n\n#### ✏️ 歌词编辑\n\n- 💡 创新性地应用流编辑技术，实现在保留旋律、人声和伴奏的同时对歌词进行局部修改\n- 🔄 既适用于生成内容，也适用于上传的音频，极大地提升了创作可能性\n- ℹ️ 目前的限制是每次只能修改小段歌词以避免失真，但可以通过多次编辑逐步完成\n\n### 🚀 应用场景\n\n#### 🎤 Lyric2Vocal (LoRA)\n\n- 🔊 基于纯人声数据微调的 LoRA 模型，可以直接从歌词生成人声音轨\n- 🛠️ 具有众多实用场景，如人声演示、指导音轨、歌曲创作辅助以及人声编排实验\n- ⏱️ 提供了一种快速测试歌词演唱效果的方式，帮助创作者更快地迭代\n\n#### 📝 Text2Samples (LoRA)\n\n- 🎛️ 类似于 Lyric2Vocal，但基于纯乐器和采样数据进行微调\n- 🎵 能够根据文本描述生成概念性的音乐制作样本\n- 🧰 对于快速创建乐器循环、音效及制作所需的音乐元素非常有用\n\n### 🔮 即将推出\n\n#### 🎤 RapMachine\n\n- 🔥 基于纯说唱数据微调，打造专门用于说唱生成的 AI 系统\n- 🏆 预期功能包括 AI 说唱对决以及通过说唱进行叙事表达\n- 📚 说唱具有卓越的叙事和表现力，拥有非凡的应用潜力\n\n#### 🎛️ StemGen\n\n- 🎚️ 基于多轨数据训练的 ControlNet-LORA，用于生成独立的乐器音轨\n- 🎯 输入为参考音轨及指定乐器（或乐器参考音频）\n- 🎹 输出与参考音轨相辅相成的乐器音轨，例如为长笛旋律创作钢琴伴奏，或为吉他主音添加爵士鼓点\n\n#### 🎤 Singing2Accompaniment\n\n- 🔄 是 StemGen 的逆过程，从单一人声音轨生成混音母带\n- 🎵 输入为人声音轨及指定风格，输出完整的伴奏音轨\n- 🎸 生成能够完美衬托输入人声的完整乐器伴奏，轻松为任何人声录音添加专业级伴奏\n\n\n## 📋 路线图\n\n- [x] 发布训练代码 🔥\n- [x] 发布 LoRA 训练代码 🔥\n- [x] 发布 RapMachine LoRA 🎤\n- [x] 发布评估性能与技术报告 📄\n- [ ] 训练并发布 ACE-Step V1.5\n- [ ] 发布 ControlNet 训练代码 🔥\n- [ ] 发布 Singing2Accompaniment ControlNet 🎮\n\n\n## 🖥️ 硬件性能\n\n我们已在不同硬件配置上对 ACE-Step 进行了评估，得出以下吞吐量结果：\n\n| 设备          | RTF (27 步) | 渲染 1 分钟音频所需时间 (27 步) | RTF (60 步) | 渲染 1 分钟音频所需时间 (60 步) |\n| --------------- | -------------- | ------------------------------------- | -------------- | ------------------------------------- |\n| NVIDIA RTX 4090 | 34.48 ×        | 1.74 s                                | 15.63 ×        | 3.84 s                                |\n| NVIDIA A100     | 27.27 ×        | 2.20 s                                | 12.27 ×        | 4.89 s                                |\n| NVIDIA RTX 3090 | 12.76 ×        | 4.70 s                                | 6.48 ×         | 9.26 s                                |\n| MacBook M2 Max  | 2.27 ×         | 26.43 s                               | 1.03 ×         | 58.25 s                               |\n\n\n我们使用 RTF（实时因子）来衡量 ACE-Step 的性能。数值越高，表示生成速度越快。例如，27.27×意味着生成1分钟音乐只需2.2秒（60\u002F27.27）。性能是在单个 GPU 上，批次大小为1，步数为27的情况下测得的。\n\n\n## 📦 安装\n\n### 1. 克隆仓库\n首先，将 ACE-Step 仓库克隆到本地，并进入项目目录：\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Face-step\u002FACE-Step.git\ncd ACE-Step\n```\n\n### 2. 前置条件\n请确保已安装以下内容：\n\n* `Python`：建议使用 3.10 或更高版本。可从 [python.org](https:\u002F\u002Fwww.python.org\u002F) 下载。\n* `Conda` 或 `venv`：用于创建虚拟环境（推荐使用 Conda）。\n\n### 3. 设置虚拟环境\n\n强烈建议使用虚拟环境来管理项目依赖，避免冲突。您可以选择以下任一方法：\n\n#### 选项 A：使用 Conda\n\n1.  **创建名为 `ace_step` 的环境，使用 Python 3.10：**\n    ```bash\n    conda create -n ace_step python=3.10 -y\n    ```\n\n2.  **激活环境：**\n    ```bash\n    conda activate ace_step\n    ```\n\n#### 选项 B：使用 venv\n\n1.  **进入克隆的 ACE-Step 目录。**\n\n2.  **创建虚拟环境**（通常命名为 `venv`）：\n    ```bash\n    python -m venv venv \n    ```\n\n3.  **激活环境：**\n    * **Windows (cmd.exe)：**\n        ```bash\n        venv\\Scripts\\activate.bat\n        ```\n    * **Windows (PowerShell)：**\n        ```powershell\n        .\\venv\\Scripts\\Activate.ps1 \n        ```\n        *(如果遇到执行策略错误，可能需要先运行 `Set-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope Process`)*\n    * **Linux \u002F macOS (bash\u002Fzsh)：**\n        ```bash\n        source venv\u002Fbin\u002Factivate\n        ```\n\n### 4. 安装依赖\n虚拟环境激活后：\n**a.** （仅限 Windows）如果您使用的是 NVIDIA 显卡，请先安装支持 CUDA 的 PyTorch：\n\n```bash\npip3 install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu126\n```\n（请根据您的 CUDA 版本调整 cu126。更多 PyTorch 安装选项，请参阅 [PyTorch 官方网站](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F)）。\n\n**b.** 安装 ACE-Step 及其核心依赖：\n```bash\npip install -e .\n```\n\n至此，ACE-Step 应用程序已成功安装。GUI 支持 Windows、macOS 和 Linux。有关如何运行的说明，请参阅 [使用指南](#-usage) 部分。\n\n\n## 🚀 使用指南\n\n![演示界面](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Face-step_ACE-Step_readme_83f64d7d2710.png)\n\n### 🔍 基本使用\n\n```bash\nacestep --port 7865\n```\n\n### ⚙️ 高级用法\n\n```bash\nacestep --checkpoint_path \u002Fpath\u002Fto\u002Fcheckpoint --port 7865 --device_id 0 --share true --bf16 true\n```\n\n* 如果设置了 `--checkpoint_path` 并且该路径下存在模型，则从 `checkpoint_path` 加载模型。\n* 如果设置了 `--checkpoint_path` 但该路径下不存在模型，则会自动下载模型到 `checkpoint_path`。\n* 如果未设置 `--checkpoint_path`，则会自动下载模型到默认路径 `~\u002F.cache\u002Face-step\u002Fcheckpoints`。\n\n如果您使用的是 macOS，请使用 `--bf16 false` 以避免出现错误。\n\n#### 🔍 API 使用\n如果您打算将 ACE-Step 作为库集成到您自己的 Python 项目中，可以通过以下 pip 命令直接从 GitHub 安装最新版本。\n\n**通过 pip 直接安装：**\n\n1.  **确保已安装 Git：** 此方法需要在您的系统上安装 Git，并且 Git 能够在系统的 PATH 中被访问。\n2.  **执行安装命令：**\n    ```bash\n    pip install git+https:\u002F\u002Fgithub.com\u002Face-step\u002FACE-Step.git\n    ```\n    建议在虚拟环境中使用此命令，以避免与其他包发生冲突。\n\n#### 🛠️ 命令行参数\n\n- `--checkpoint_path`: 模型检查点的路径（默认：自动下载）\n- `--server_name`: Gradio 服务器绑定的 IP 地址或主机名（默认：'127.0.0.1'）。使用 '0.0.0.0' 可使网络中的其他设备访问。\n- `--port`: 运行 Gradio 服务器的端口（默认：7865）\n- `--device_id`: 要使用的 GPU 设备 ID（默认：0）\n- `--share`: 启用 Gradio 分享链接（默认：False）\n- `--bf16`: 使用 bfloat16 精度以加快推理速度（默认：True）\n- `--torch_compile`: 使用 `torch.compile()` 优化模型，从而加速推理（默认：False）。\n  - **Windows 需要安装 triton**：\n    ```\n    pip install triton-windows\n    ```\n- `--cpu_offload`: 将模型权重卸载到 CPU 以节省 GPU 内存（默认：False）\n- `--overlapped_decode`: 使用重叠解码以加快推理速度（默认：False）\n\n## 📱 用户界面指南\n\nACE-Step 的界面提供了多个选项卡，用于不同的音乐生成和编辑任务：\n\n### 📝 Text2Music 选项卡\n\n1. **📋 输入字段**：\n   - **🏷️ 标签**: 输入描述性标签、流派或场景描述，用逗号分隔。\n   - **📜 歌词**: 输入带有结构标记的歌词，如 [verse]、[chorus] 和 [bridge]。\n   - **⏱️ 音频时长**: 设置生成音频的期望时长（-1 表示随机）。\n\n2. **⚙️ 设置**：\n   - **🔧 基本设置**: 调整推理步数、引导尺度和种子。\n   - **🔬 高级设置**: 微调调度器类型、CFG 类型、ERG 设置等。\n\n3. **🚀 生成**: 点击“生成”按钮，根据您的输入创建音乐。\n\n### 🔄 重做 选项卡\n\n- 🎲 使用不同的种子重新生成略有变化的音乐。\n- 🎚️ 调整方差以控制重做与原作品的差异程度。\n\n### 🎨 重绘 选项卡\n\n- 🖌️ 选择性地重新生成音乐的特定部分。\n- ⏱️ 指定要重绘部分的开始和结束时间。\n- 🔍 选择源音频（Text2Music 输出、上次重绘或上传的音频）。\n\n### ✏️ 编辑 选项卡\n\n- 🔄 修改现有音乐，更改标签或歌词。\n- 🎛️ 选择“only_lyrics”模式（保留旋律）或“remix”模式（改变旋律）。\n- 🎚️ 调整编辑参数以控制保留原始内容的程度。\n\n### 📏 扩展 选项卡\n\n- ➕ 在现有作品的开头或结尾添加音乐。\n- 📐 指定左右扩展的长度。\n- 🔍 选择要扩展的源音频。\n\n## 📂 示例\n\n`examples\u002Finput_params` 目录包含示例输入参数，可作为生成音乐的参考。\n\n## 🏗️ 架构\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Face-step_ACE-Step_readme_c2fa8abbe7d5.png\" width=\"100%\" alt=\"ACE-Step Framework\">\n\u003C\u002Fp>\n\n## 🔨 训练\n详细的训练说明请参阅 [TRAIN_INSTRUCTION.md](.\u002FTRAIN_INSTRUCTION.md)。\n\n## 📜 许可与免责声明\n\n本项目采用 [Apache License 2.0](.\u002FLICENSE) 许可。\n\nACE-Step 能够生成涵盖多种流派的原创音乐，适用于创意制作、教育和娱乐等领域。尽管设计初衷是支持积极和艺术性的应用场景，但我们承认可能存在一些潜在风险，例如由于风格相似而导致的无意版权侵权、文化元素的不当融合以及被滥用于生成有害内容等。为确保负责任地使用，我们鼓励用户验证生成作品的原创性，明确披露人工智能的参与，并在改编受保护的风格或素材时获得相应许可。使用 ACE-Step 即表示您同意遵守这些原则，尊重艺术完整性、文化多样性和法律合规性。作者对任何滥用该模型的行为不承担任何责任，包括但不限于版权侵权、文化敏感性问题或生成有害内容等。\n\n🔔 重要提示  \nACE-Step 项目的唯一官方网站是我们 GitHub Pages 网站。    \n我们并未运营任何其他网站。  \n🚫 仿冒域名包括但不限于：\nac\\*\\*p.com, a\\*\\*p.org, a\\*\\*\\*c.org  \n⚠️ 请务必谨慎，切勿访问、信任或向这些网站进行任何支付。\n\n## 🙏 致谢\n\n本项目由 ACE Studio 和 StepFun 共同领导。\n\n## 📖 引用\n如果您认为本项目对您的研究有所帮助，请考虑引用：\n\n```BibTeX\n@misc{gong2025acestep,\n\ttitle={ACE-Step: A Step Towards Music Generation Foundation Model},\n\tauthor={Junmin Gong, Wenxiao Zhao, Sen Wang, Shengyuan Xu, Jing Guo}, \n\thowpublished={\\url{https:\u002F\u002Fgithub.com\u002Face-step\u002FACE-Step}},\n\tyear={2025},\n\tnote={GitHub repository}\n}\n```","# ACE-Step 快速上手指南\n\nACE-Step 是一款开源的音乐生成基础模型，旨在实现快速、高质量且可控的音乐合成。它结合了扩散模型与轻量级线性 Transformer，能在 A100 GPU 上仅用 20 秒生成 4 分钟音乐，支持歌词对齐、风格控制及多种语言（含中文）。\n\n## 环境准备\n\n### 系统要求\n*   **操作系统**: Linux, macOS, Windows\n*   **Python**: 3.10 或更高版本\n*   **GPU**: 推荐 NVIDIA 显卡 (显存建议 8GB 以上，已优化至最低 8GB 可用)\n    *   高性能推荐：RTX 4090, A100\n    *   入门可用：RTX 3090 (需开启显存优化)\n*   **磁盘空间**: 建议预留 20GB+ 用于存放模型权重和依赖\n\n### 前置依赖\n*   **Conda** (强烈推荐) 或 `venv`\n*   **Git**\n*   **Windows 用户额外注意**: 若使用 `torch_compile` 加速，需安装 `triton-windows`。\n\n## 安装步骤\n\n### 1. 克隆项目\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Face-step\u002FACE-Step.git\ncd ACE-Step\n```\n> 💡 **国内加速提示**: 如果 GitHub 克隆速度慢，可使用国内镜像源：\n> `git clone https:\u002F\u002Fgitee.com\u002Fmirrors\u002FACE-Step.git` (如有对应镜像) 或使用代理。\n\n### 2. 创建并激活虚拟环境 (推荐 Conda)\n```bash\nconda create -n ace_step python=3.10 -y\nconda activate ace_step\n```\n\n### 3. 安装依赖\n激活环境后，安装项目所需包。\n```bash\npip install -r requirements.txt\n```\n\n> 💡 **国内 pip 加速**: 建议使用清华或阿里源加速下载：\n> ```bash\n> pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n**Windows 用户特别步骤**:\n如果需要启用编译加速 (`--torch_compile true`)，请先安装 Triton：\n```bash\npip install triton-windows\n```\n\n### 4. 下载模型\n模型托管在 Hugging Face 和 ModelScope (魔搭)。国内用户**强烈推荐使用 ModelScope** 下载以获得更快速度。\n\n**方式 A: 使用 ModelScope (推荐)**\n```bash\n# 确保已安装 modelscope: pip install modelscope\npython scripts\u002Fdownload_model.py --source modelscope\n```\n*(注：若官方脚本未直接支持 modelsource 参数，可手动从 [ModelScope 页面](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FACE-Step\u002FACE-Step-v1-3.5B) 下载文件至 `checkpoints` 目录)*\n\n**方式 B: 使用 Hugging Face**\n```bash\npython scripts\u002Fdownload_model.py --source huggingface\n```\n\n## 基本使用\n\n### 命令行快速生成\n以下命令演示了如何生成一段带歌词的音乐，并开启了显存优化选项（适合消费级显卡）。\n\n```bash\nacestep \\\n  --prompt \"A cheerful pop song about sunshine and hope, female vocals\" \\\n  --lyrics \"Sunshine in the sky, hope never dies...\" \\\n  --output_dir .\u002Foutputs \\\n  --duration 30 \\\n  --torch_compile true \\\n  --cpu_offload true \\\n  --overlapped_decode true\n```\n\n**参数说明：**\n*   `--prompt`: 音乐风格描述（支持中文，如“欢快的流行歌曲，女声”）。\n*   `--lyrics`: 可选，输入歌词以实现歌词对齐。\n*   `--duration`: 生成时长（秒）。\n*   `--torch_compile`, `--cpu_offload`, `--overlapped_decode`: 性能优化开关，建议在显存有限（如 8GB-12GB）时开启。\n\n### 启动 Web UI (可视化界面)\nACE-Step 提供了友好的 Web 界面，方便调整参数和试听。\n\n```bash\nacestep --ui\n```\n启动后，在浏览器访问显示的本地地址（通常为 `http:\u002F\u002F127.0.0.1:7860`），即可在界面中输入提示词、上传音频进行重绘 (Repainting) 或编辑歌词。\n\n### 进阶功能示例\n**歌词编辑 (Lyric Editing):**\n保留原有旋律，仅修改部分歌词。\n```bash\nacestep \\\n  --input_audio .\u002Foriginal_song.wav \\\n  --edit_lyrics \"New lyrics to replace specific line...\" \\\n  --mode lyric_edit \\\n  --output_dir .\u002Fedited_outputs\n```\n\n**变体生成 (Variations):**\n基于现有音频生成风格相似但细节不同的新版本。\n```bash\nacestep \\\n  --input_audio .\u002Freference_song.wav \\\n  --mode variation \\\n  --variation_strength 0.3 \\\n  --output_dir .\u002Fvariations\n```\n\n---\n*更多高级用法（如 LoRA 训练、ComfyUI 集成）请参考项目仓库中的详细文档。*","一位独立游戏开发者需要在 48 小时的游戏开发马拉松（Game Jam）中，为包含多段剧情和不同角色对话的场景快速生成高质量且风格统一的背景音乐与人声演唱。\n\n### 没有 ACE-Step 时\n- **生成效率极低**：使用传统的基于大语言模型的音乐生成工具，合成一段 4 分钟的完整曲目往往需要数分钟甚至更久，严重拖慢开发迭代节奏。\n- **结构连贯性差**：生成的音乐容易出现段落断裂或节奏混乱，缺乏长程结构的逻辑性，难以直接作为游戏背景循环播放。\n- **歌词与旋律对位不准**：在需要角色演唱的剧情中，现有工具常出现歌词发音模糊或与旋律节奏不匹配的情况，导致听感生硬。\n- **细粒度控制缺失**：若想修改某一句歌词或替换特定乐器音色，通常需要重新生成整首曲子，无法进行局部微调或“人声克隆”式编辑。\n- **硬件门槛高**：高性能模型往往需要显存巨大的专业显卡，普通开发者的消费级电脑难以运行，限制了创作自由度。\n\n### 使用 ACE-Step 后\n- **极速推理响应**：ACE-Step 利用扩散架构与轻量级线性 Transformer，在 A100 上仅需 20 秒即可合成 4 分钟音乐，比传统方法快 15 倍，让开发者能实时试听多种方案。\n- **卓越的结构连贯性**：得益于深度压缩自编码器（DCAE）与语义对齐技术，生成的乐曲在旋律、和声与节奏上高度统一，完美适配长场景需求。\n- **精准的歌词对齐**：通过 MERT 和 m-hubert 强化语义表示，ACE-Step 能确保歌词发音清晰且严格贴合旋律节奏，直接产出可用的角色演唱片段。\n- **灵活的局部编辑能力**：支持人声克隆、歌词编辑及分轨生成（如从清唱生成伴奏），开发者可单独调整某句台词或复用角色音色，无需重头再来。\n- **亲民的资源占用**：经过内存优化，ACE-Step 最低仅需 8GB 显存即可运行，让普通游戏开发者也能在本地设备上流畅部署和使用。\n\nACE-Step 通过兼顾极速生成、结构连贯与精细控制，真正成为了音乐创作领域的\"Stable Diffusion\"，让非音乐专业的创作者也能高效实现复杂的音频构想。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Face-step_ACE-Step_83f64d7d.png","ace-step","ACEStep","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Face-step_af99f466.jpg","",null,"https:\u002F\u002Fgithub.com\u002Face-step",[83,87,91],{"name":84,"color":85,"percentage":86},"Python","#3572A5",98.2,{"name":88,"color":89,"percentage":90},"Jupyter Notebook","#DA5B0B",1.5,{"name":92,"color":93,"percentage":94},"Dockerfile","#384d54",0.4,4270,534,"2026-04-06T00:08:47","Apache-2.0","Linux, macOS, Windows","NVIDIA GPU 必需（支持 CUDA），推荐 RTX 3090\u002F4090 或 A100；经内存优化后最低显存需求为 8GB。MacBook (M2 Max) 可运行但速度较慢。","未说明（建议 16GB+ 以配合大模型运行）",{"notes":103,"python":104,"dependencies":105},"Windows 用户需额外安装 triton-windows 包。项目提供多种启动参数以优化显存占用（如 --cpu_offload true, --torch_compile true），使消费级显卡（8GB 显存）也能运行。支持 Conda 或 venv 虚拟环境管理。","3.10+",[106,107,108],"torch","triton","triton-windows (仅限 Windows)",[21],"2026-03-27T02:49:30.150509","2026-04-06T15:01:37.604855",[113,118,123,128,133,138],{"id":114,"question_zh":115,"answer_zh":116,"source_url":117},19346,"运行 acestep 时遇到 'No module named transformers.modeling_layers' 或 'Could not load libtorchcodec' 错误怎么办？","这通常是由于 FFmpeg 未正确安装或 PyTorch 与 TorchCodec 版本不兼容导致的。解决方案如下：\n1. 在 conda 环境中安装 FFmpeg：运行命令 `conda install ffmpeg`。\n2. 检查 FFmpeg 是否已添加到系统路径，确保运行时能找到它。\n3. 验证 PyTorch 版本与 TorchCodec 的兼容性。如果终端提示版本不匹配（例如 PyTorch 2.9.1+cu130），请参考 TorchCodec 官方文档的版本兼容性表进行调整。\n尝试以上任一方法通常可解决问题。","https:\u002F\u002Fgithub.com\u002Face-step\u002FACE-Step\u002Fissues\u002F350",{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},19347,"如何在 Mac (M 系列芯片) 上解决生成音频全是噪音或纯电流声的问题？","在 Mac Studio M3 Ultra 或 MacBook Pro M4 等设备上，如果使用默认设置生成音频出现全数字噪音或电流声，该问题已在最新代码库和 ComfyUI 节点中得到修复。请确保您拉取了最新的仓库代码并更新了相关依赖。如果问题依旧，尝试检查是否使用了特定的采样参数（如某些风格如 surf music, medieval 等可能正常，而其他风格出错），但首选方案是更新到最新版本。","https:\u002F\u002Fgithub.com\u002Face-step\u002FACE-Step\u002Fissues\u002F8",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},19348,"生成的歌声音量过大导致失真或破音，如何降低人声音量？","可以通过以下几种方式调整：\n1. 使用外部工具分离音轨：推荐使用 UVR5 (Ultimate Vocal Remover)，选择 \"Demucs\" 模型将歌曲分离为人声、鼓、贝斯等轨道，单独降低人声音量后再混合。\n2. 调整生成参数：如果在 ComfyUI 中使用，可以尝试将歌词强度 (lyrics strength) 降低至 0.90 左右，这有助于减轻人声过大的问题。\n3. 使用增强控制节点：尝试使用社区开发的 ComfyUI_ACE-Step 节点，它们提供了类似 HuggingFace Space 的更多控制选项。","https:\u002F\u002Fgithub.com\u002Face-step\u002FACE-Step\u002Fissues\u002F98",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},19349,"能否训练特定艺术家风格的 LoRA 来模仿其声音或创作风格？","可以。虽然官方目前主要发布了 Lyric2Vocal 和 Text2Sample 两种 LoRA，但社区用户可以自行训练特定艺术家的 LoRA。模型本身不限制训练内容（无论是通用风格、特定艺术家、乐器还是流派），关键在于准备高质量的数据集。只要数据集准备得当，模型就能学习并模仿相应的风格。官方团队目前主要专注于下一版本的开发，鼓励社区自行探索训练。","https:\u002F\u002Fgithub.com\u002Face-step\u002FACE-Step\u002Fissues\u002F130",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},19350,"在 Mac 上运行时遇到 'register_pytree_node() got an unexpected keyword argument' 或 NumPy 版本冲突错误如何解决？","这是依赖包版本不兼容导致的常见问题。解决方法包括：\n1. 降级 transformers 库：将 transformers 降级到 4.49 版本可解决 `register_pytree_node` 参数错误。\n2. 处理 NumPy 版本冲突：如果遇到 \"module compiled using NumPy 1.x cannot be run in NumPy 2.x\" 的错误，最简单的方案是将 NumPy 降级到 2.0 以下（运行 `pip install 'numpy\u003C2'`），或者升级受影响的模块以支持 NumPy 2.x。","https:\u002F\u002Fgithub.com\u002Face-step\u002FACE-Step\u002Fissues\u002F47",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},19351,"目前如何使用 README 中提到的 Lyric2Vocal 和 Text2Samples LoRA 模型？","截至当前讨论，这两个 LoRA 模型（Lyric2Vocal 用于从歌词生成人声，Text2Samples 用于从文本描述生成乐器样本）虽然在 README 中被提及，但在 Gradio UI 中尚未有明确的使用入口或详细文档。用户正在等待官方发布具体的集成更新或使用指南。建议关注官方仓库的动态以获取最新支持情况。","https:\u002F\u002Fgithub.com\u002Face-step\u002FACE-Step\u002Fissues\u002F35",[]]