[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-acids-ircam--RAVE":3,"tool-acids-ircam--RAVE":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":80,"owner_email":81,"owner_twitter":81,"owner_website":82,"owner_url":83,"languages":84,"stars":89,"forks":90,"last_commit_at":91,"license":92,"difficulty_score":10,"env_os":93,"env_gpu":94,"env_ram":95,"env_deps":96,"category_tags":103,"github_topics":104,"view_count":23,"oss_zip_url":81,"oss_zip_packed_at":81,"status":16,"created_at":110,"updated_at":111,"faqs":112,"releases":142},3246,"acids-ircam\u002FRAVE","RAVE","Official implementation of the RAVE model: a Realtime Audio Variational autoEncoder","RAVE（Realtime Audio Variational autoEncoder）是一款专为实时音频合成设计的开源变分自编码器模型。它致力于解决传统神经音频生成方法计算量大、延迟高且难以在表演中实时交互的痛点，能够在极低延迟下实现高质量的音频压缩与重建。\n\n这款工具非常适合音乐技术研究人员、音频算法开发者以及希望将 AI 融入现场演出的电子音乐人使用。通过 RAVE，用户可以将自己的音频数据集训练成专属的神经网络乐器，并在主流数字音频工作站（DAW）或 Max 8 环境中实时演奏和变形声音。\n\nRAVE 的核心技术亮点在于其卓越的效率与灵活性。它不仅支持“懒加载”模式，允许直接基于 MP3 等压缩格式训练而无需预先解压海量数据，还提供了离散化配置（类似 SoundStream）和因果卷积模式，进一步降低延迟以适应实时场景。此外，项目提供了完善的 VST 插件测试版、详细的教程文档以及 Google Colab 训练脚本，大幅降低了从数据处理、模型训练到最终部署的使用门槛，让前沿的神经音频合成技术变得触手可及。","![rave_logo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Facids-ircam_RAVE_readme_779f5fdab69d.png)\n\n# RAVE: Realtime Audio Variational autoEncoder\n\nOfficial implementation of _RAVE: A variational autoencoder for fast and high-quality neural audio synthesis_ ([article link](https:\u002F\u002Farxiv.org\u002Fabs\u002F2111.05011)) by Antoine Caillon and Philippe Esling.\n\nIf you use RAVE as a part of a music performance or installation, be sure to cite either this repository or the article !\n\nIf you want to share \u002F discuss \u002F ask things about RAVE and other research from ACIDS, you can do so in our [discord server](https:\u002F\u002Fdiscord.gg\u002Fr9umPrGEWv) !\n\nPlease check the FAQ before posting an issue!\n\n**RAVE VST** RAVE VST for Windows, Mac and Linux is available as beta on the [corresponding Forum IRCAM webpage](https:\u002F\u002Fforum.ircam.fr\u002Fprojects\u002Fdetail\u002Frave-vst\u002F). For problems, please write an issue here or [on the Forum IRCAM discussion page](https:\u002F\u002Fdiscussion.forum.ircam.fr\u002Fc\u002Frave-vst\u002F651).\n\n**Tutorials** : new tutorials are available on the Forum IRCAM webpage, and video versions are coming soon!\n- [Tutorial: Neural Synthesis in a DAW with RAVE](https:\u002F\u002Fforum.ircam.fr\u002Farticle\u002Fdetail\u002Fneural-synthesis-in-a-daw-with-rave\u002F)\n- [Tutorial: Neural Synthesis in Max 8 with RAVE](https:\u002F\u002Fforum.ircam.fr\u002Farticle\u002Fdetail\u002Ftutorial-neural-synthesis-in-max-8-with-rave\u002F)\n- [Tutorial: Training RAVE models on custom data](https:\u002F\u002Fforum.ircam.fr\u002Farticle\u002Fdetail\u002Ftraining-rave-models-on-custom-data\u002F)\n\n## Previous versions\n\nThe original implementation of the RAVE model can be restored using\n\n```bash\ngit checkout v1\n```\n\n## Installation\n\nInstall RAVE using\n\n```bash\npip install acids-rave\n```\n\n**Warning** It is strongly advised to install `torch` and `torchaudio` before `acids-rave`, so you can choose the appropriate version of torch on the [library website](http:\u002F\u002Fwww.pytorch.org). For future compatibility with new devices (and modern Python environments), `rave-acids` does not enforce torch==1.13 anymore.\n\nYou will need **ffmpeg** on your computer. You can install it locally inside your virtual environment using\n\n```bash\nconda install ffmpeg\n```\n\n\u003C!-- Detailed instructions to setup a training station for this project are available [here](docs\u002Ftraining_setup.md). -->\n\n## Colab\n\nA colab to train RAVEv2 is now available thanks to [hexorcismos](https:\u002F\u002Fgithub.com\u002Fmoiseshorta) !\n[![colab_badge](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1ih-gv1iHEZNuGhHPvCHrleLNXvooQMvI?usp=sharing)\n\n## Usage\n\nTraining a RAVE model usually involves 3 separate steps, namely _dataset preparation_, _training_ and _export_.\n\n### Dataset preparation\n\nYou can know prepare a dataset using two methods: regular and lazy. Lazy preprocessing allows RAVE to be trained directly on the raw files (i.e. mp3, ogg), without converting them first. **Warning**: lazy dataset loading will increase your CPU load by a large margin during training, especially on Windows. This can however be useful when training on large audio corpus which would not fit on a hard drive when uncompressed. In any case, prepare your dataset using\n\n```bash\nrave preprocess --input_path \u002Faudio\u002Ffolder --output_path \u002Fdataset\u002Fpath --channels X (--lazy)\n```\n\n### Training\n\nRAVEv2 has many different configurations. The improved version of the v1 is called `v2`, and can therefore be trained with\n\n```bash\nrave train --config v2 --db_path \u002Fdataset\u002Fpath --out_path \u002Fmodel\u002Fout --name give_a_name --channels X\n```\n\nWe also provide a discrete configuration, similar to SoundStream or EnCodec\n\n```bash\nrave train --config discrete ...\n```\n\nBy default, RAVE is built with non-causal convolutions. If you want to make the model causal (hence lowering the overall latency of the model), you can use the causal mode\n\n```bash\nrave train --config discrete --config causal ...\n```\n\nNew in 2.3, data augmentations are also available to improve the model's generalization in low data regimes. You can add data augmentation by adding augmentation configuration files with the `--augment` keyword\n\n```bash\nrave train --config v2 --augment mute --augment compress\n```\n\nMany other configuration files are available in `rave\u002Fconfigs` and can be combined. Here is a list of all the available configurations & augmentations :\n\n\u003Ctable>\n\u003Cthead>\n\u003Ctr>\n\u003Cth>Type\u003C\u002Fth>\n\u003Cth>Name\u003C\u002Fth>\n\u003Cth>Description\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003C\u002Fthead>\n\u003Ctbody>\n\n\u003Ctr>\n\u003Ctd rowspan=8>Architecture\u003C\u002Ftd>\n\u003Ctd>v1\u003C\u002Ftd>\n\u003Ctd>Original continuous model (minimum GPU memory : 8Go)\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n\u003Ctd>v2\u003C\u002Ftd>\n\u003Ctd>Improved continuous model (faster, higher quality) (minimum GPU memory : 16Go)\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n\u003Ctd>v2_small\u003C\u002Ftd>\n\u003Ctd>v2 with a smaller receptive field, adpated adversarial training, and noise generator, adapted for timbre transfer for stationary signals (minimum GPU memory : 8Go)\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n\u003Ctd>v2_nopqmf\u003C\u002Ftd>\n\u003Ctd>(experimental) v2 without pqmf in generator (more efficient for bending purposes) (minimum GPU memory : 16Go)\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n\u003Ctd>v3\u003C\u002Ftd>\n\u003Ctd>v2 with Snake activation, descript discriminator and Adaptive Instance Normalization for real style transfer (minimum GPU memory : 32Go)\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n\u003Ctd>discrete\u003C\u002Ftd>\n\u003Ctd>Discrete model (similar to SoundStream or EnCodec) (minimum GPU memory : 18Go)\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n\u003Ctd>onnx\u003C\u002Ftd>\n\u003Ctd>Noiseless v1 configuration for onnx usage (minimum GPU memory : 6Go)\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n\u003Ctd>raspberry\u003C\u002Ftd>\n\u003Ctd>Lightweight configuration compatible with realtime RaspberryPi 4 inference (minimum GPU memory : 5Go)\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n\u003Ctd rowspan=3>Regularization (v2 only)\u003C\u002Ftd>\n\u003Ctd>default\u003C\u002Ftd>\n\u003Ctd>Variational Auto Encoder objective (ELBO)\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n\u003Ctd>wasserstein\u003C\u002Ftd>\n\u003Ctd>Wasserstein Auto Encoder objective (MMD)\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n\u003Ctd>spherical\u003C\u002Ftd>\n\u003Ctd>Spherical Auto Encoder objective\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n\u003Ctd rowspan=1>Discriminator\u003C\u002Ftd>\n\u003Ctd>spectral_discriminator\u003C\u002Ftd>\n\u003Ctd>Use the MultiScale discriminator from EnCodec.\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n\u003Ctd rowspan=3>Others\u003C\u002Ftd>\n\u003Ctd>causal\u003C\u002Ftd>\n\u003Ctd>Use causal convolutions\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n\u003Ctd>noise\u003C\u002Ftd>\n\u003Ctd>Enables noise synthesizer V2\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n\u003Ctd>hybrid\u003C\u002Ftd>\n\u003Ctd>Enable mel-spectrogram input\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n\u003Ctd rowspan=3>Augmentations\u003C\u002Ftd>\n\u003Ctd>mute\u003C\u002Ftd>\n\u003Ctd>Randomly mutes data batches (default prob : 0.1). Enforces the model to learn silence\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n\u003Ctd>compress\u003C\u002Ftd>\n\u003Ctd>Randomly compresses the waveform (equivalent to light non-linear amplification of batches)\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n\u003Ctd>gain\u003C\u002Ftd>\n\u003Ctd>Applies a random gain to waveform (default range : [-6, 3]) \u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n### Export\n\nOnce trained, export your model to a torchscript file using\n\n```bash\nrave export --run \u002Fpath\u002Fto\u002Fyour\u002Frun (--streaming)\n```\n\nSetting the `--streaming` flag will enable cached convolutions, making the model compatible with realtime processing. **If you forget to use the streaming mode and try to load the model in Max, you will hear clicking artifacts.**\n\n## Prior\n\nFor discrete models, we redirect the user to the `msprior` library [here](https:\u002F\u002Fgithub.com\u002Fcaillonantoine\u002Fmsprior). However, as this library is still experimental, the prior from version 1.x has been re-integrated in v2.3.\n\n### Training\n\nTo train a prior for a pretrained RAVE model :\n\n```bash\nrave train_prior --model \u002Fpath\u002Fto\u002Fyour\u002Frun --db_path \u002Fpath\u002Fto\u002Fyour_preprocessed_data --out_path \u002Fpath\u002Fto\u002Foutput\n```\n\nthis will train a prior over the latent of the pretrained model `path\u002Fto\u002Fyour\u002Frun`, and save the model and tensorboard logs to folder `\u002Fpath\u002Fto\u002Foutput`.\n\n### Scripting\n\nTo script a prior along with a RAVE model, export your model by providing the `--prior` keyword to your pretrained prior :\n\n```bash\nrave export --run \u002Fpath\u002Fto\u002Fyour\u002Frun --prior \u002Fpath\u002Fto\u002Fyour\u002Fprior (--streaming)\n```\n\n## Pretrained models\n\nSeveral pretrained streaming models [are available here](https:\u002F\u002Facids-ircam.github.io\u002Frave_models_download). We'll keep the list updated with new models.\n\n## Realtime usage\n\nThis section presents how RAVE can be loaded inside [`nn~`](https:\u002F\u002Facids-ircam.github.io\u002Fnn_tilde\u002F) in order to be used live with Max\u002FMSP or PureData.\n\n### Reconstruction\n\nA pretrained RAVE model named `darbouka.gin` available on your computer can be loaded inside `nn~` using the following syntax, where the default method is set to forward (i.e. encode then decode)\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Facids-ircam_RAVE_readme_daeeae04bc73.png\" width=400px\u002F>\n\nThis does the same thing as the following patch, but slightly faster.\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Facids-ircam_RAVE_readme_f528a6c73031.png\" width=210px \u002F>\n\n### High-level manipulation\n\nHaving an explicit access to the latent representation yielded by RAVE allows us to interact with the representation using Max\u002FMSP or PureData signal processing tools:\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Facids-ircam_RAVE_readme_aabbeb74f965.png\" width=310px \u002F>\n\n### Style transfer\n\nBy default, RAVE can be used as a style transfer tool, based on the large compression ratio of the model. We recently added a technique inspired from StyleGAN to include Adaptive Instance Normalization to the reconstruction process, effectively allowing to define _source_ and _target_ styles directly inside Max\u002FMSP or PureData, using the attribute system of `nn~`.\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Facids-ircam_RAVE_readme_b37ee14d96f0.png\" width=550px>\n\nOther attributes, such as `enable` or `gpu` can enable\u002Fdisable computation, or use the gpu to speed up things (still experimental).\n\n## Offline usage\n\nA batch generation script has been released in v2.3 to allow transformation of large amount of files\n\n```bash\nrave generate model_path path_1 path_2 --out out_path\n```\n\nwhere `model_path` is the path to your trained model (original or scripted), `path_X` a list of audio files or directories, and `out_path` the out directory of the generations.\n\n## Discussion\n\nIf you have questions, want to share your experience with RAVE or share musical pieces done with the model, you can use the [Discussion tab](https:\u002F\u002Fgithub.com\u002Facids-ircam\u002FRAVE\u002Fdiscussions) !\n\n## Demonstration\n\n### RAVE x nn~\n\nDemonstration of what you can do with RAVE and the nn~ external for maxmsp !\n\n[![RAVE x nn~](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Facids-ircam_RAVE_readme_d898d82ae492.jpg)](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=dMZs04TzxUI)\n\n### embedded RAVE\n\nUsing nn~ for puredata, RAVE can be used in realtime on embedded platforms !\n\n[![RAVE x nn~](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Facids-ircam_RAVE_readme_c1a0e141e439.jpg)](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=jAIRf4nGgYI)\n\n# Frequently Asked Question (FAQ)\n\n**Question** : my preprocessing is stuck, showing `0it[00:00, ?it\u002Fs]`\u003Cbr\u002F>\n**Answer** : This means that the audio files in your dataset are too short to provide a sufficient temporal scope to RAVE. Try decreasing the signal window with the `--num_signal XXX(samples)` with `preprocess`, without forgetting afterwards to add the `--n_signal XXX(samples)` with `train`\n\n**Question** : During training I got an exception resembling `ValueError: n_components=128 must be between 0 and min(n_samples, n_features)=64 with svd_solver='full'`\u003Cbr\u002F>\n**Answer** : This means that your dataset does not have enough data batches to compute the intern latent PCA, that requires at least 128 examples (then batches). \n\n\n# Funding\n\nThis work is led at IRCAM, and has been funded by the following projects\n\n- [ANR MakiMono](https:\u002F\u002Facids.ircam.fr\u002Fcourse\u002Fmakimono\u002F)\n- [ACTOR](https:\u002F\u002Fwww.actorproject.org\u002F)\n- [DAFNE+](https:\u002F\u002Fdafneplus.eu\u002F) N° 101061548\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Facids-ircam_RAVE_readme_61ab562ce2dd.jpg\" width=200px\u002F>\n","![rave_logo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Facids-ircam_RAVE_readme_779f5fdab69d.png)\n\n# RAVE：实时音频变分自编码器\n\n由Antoine Caillon和Philippe Esling共同撰写的论文《RAVE：用于快速且高质量神经音频合成的变分自编码器》（[论文链接](https:\u002F\u002Farxiv.org\u002Fabs\u002F2111.05011)）的官方实现。\n\n如果您在音乐表演或装置艺术中使用RAVE，请务必引用本仓库或该论文！\n\n如果您想分享、讨论或咨询有关RAVE及ACIDS其他研究的内容，欢迎加入我们的[Discord服务器](https:\u002F\u002Fdiscord.gg\u002Fr9umPrGEWv)！\n\n在提交问题之前，请先查看常见问题解答！\n\n**RAVE VST** 适用于Windows、Mac和Linux的RAVE VST插件目前以测试版形式发布在[IRCAM论坛相应页面](https:\u002F\u002Fforum.ircam.fr\u002Fprojects\u002Fdetail\u002Frave-vst\u002F)上。如遇问题，请在此处或[IRCAM论坛讨论页](https:\u002F\u002Fdiscussion.forum.ircam.fr\u002Fc\u002Frave-vst\u002F651)中提交问题。\n\n**教程**：IRCAM论坛网页上已提供新教程，视频版本也将很快推出！\n- [教程：使用RAVE在DAW中进行神经合成](https:\u002F\u002Fforum.ircam.fr\u002Farticle\u002Fdetail\u002Fneural-synthesis-in-a-daw-with-rave\u002F)\n- [教程：使用RAVE在Max 8中进行神经合成](https:\u002F\u002Fforum.ircam.fr\u002Farticle\u002Fdetail\u002Ftutorial-neural-synthesis-in-max-8-with-rave\u002F)\n- [教程：使用自定义数据训练RAVE模型](https:\u002F\u002Fforum.ircam.fr\u002Farticle\u002Fdetail\u002Ftraining-rave-models-on-custom-data\u002F)\n\n## 旧版本\n\n可通过以下命令恢复RAVE模型的原始实现：\n\n```bash\ngit checkout v1\n```\n\n## 安装\n\n使用以下命令安装RAVE：\n\n```bash\npip install acids-rave\n```\n\n**警告** 强烈建议在安装`acids-rave`之前先安装`torch`和`torchaudio`，以便您可以在[PyTorch官网](http:\u002F\u002Fwww.pytorch.org)上选择合适的版本。为确保与未来新设备及现代Python环境的兼容性，`rave-acids`不再强制要求使用`torch==1.13`。\n\n您的计算机需要安装**ffmpeg**。您也可以在虚拟环境中本地安装它：\n\n```bash\nconda install ffmpeg\n```\n\n\u003C!-- 有关设置本项目训练环境的详细说明请参见[此处](docs\u002Ftraining_setup.md)。 -->\n\n## Colab\n\n感谢[hexorcismos](https:\u002F\u002Fgithub.com\u002Fmoiseshorta)，现在有一个用于训练RAVEv2的Colab笔记本可用！\n[![colab_badge](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1ih-gv1iHEZNuGhHPvCHrleLNXvooQMvI?usp=sharing)\n\n## 使用方法\n\n训练RAVE模型通常包括三个独立步骤：数据集准备、训练和导出。\n\n### 数据集准备\n\n您可以采用常规和懒人两种方式来准备数据集。懒人预处理允许RAVE直接在原始文件（如mp3、ogg）上进行训练，而无需先将其转换为其他格式。**警告**：懒人加载方式会显著增加训练时的CPU负载，尤其是在Windows系统上。不过，这在处理无法解压后存入硬盘的大规模音频语料时非常有用。无论如何，您都可以使用以下命令准备数据集：\n\n```bash\nrave preprocess --input_path \u002Faudio\u002Ffolder --output_path \u002Fdataset\u002Fpath --channels X (--lazy)\n```\n\n### 镜像内容结束 -->\n\n## 先验\n\n对于离散模型，我们会将用户重定向到 `msprior` 库 [这里](https:\u002F\u002Fgithub.com\u002Fcaillonantoine\u002Fmsprior)。然而，由于该库仍处于实验阶段，1.x 版本中的先验已在 2.3 版中重新集成。\n\n### 训练\n\n要为预训练的 RAVE 模型训练先验：\n\n```bash\nrave train_prior --model \u002Fpath\u002Fto\u002Fyour\u002Frun --db_path \u002Fpath\u002Fto\u002Fyour_preprocessed_data --out_path \u002Fpath\u002Fto\u002Foutput\n```\n\n这将在预训练模型 `path\u002Fto\u002Fyour\u002Frun` 的潜在空间上训练先验，并将模型和 TensorBoard 日志保存到 `\u002Fpath\u002Fto\u002Foutput` 文件夹中。\n\n### 脚本化\n\n要将先验与 RAVE 模型一起脚本化，请通过为您的预训练先验提供 `--prior` 关键字来导出您的模型：\n\n```bash\nrave export --run \u002Fpath\u002Fto\u002Fyour\u002Frun --prior \u002Fpath\u002Fto\u002Fyour\u002Fprior (--streaming)\n```\n\n## 预训练模型\n\n几个预训练的流式模型 [可在此处获取](https:\u002F\u002Facids-ircam.github.io\u002Frave_models_download)。我们将持续更新此列表以包含新模型。\n\n## 实时使用\n\n本节介绍如何将 RAVE 加载到 [`nn~`](https:\u002F\u002Facids-ircam.github.io\u002Fnn_tilde\u002F) 中，以便在 Max\u002FMSP 或 PureData 中实时使用。\n\n### 重建\n\n您计算机上可用的名为 `darbouka.gin` 的预训练 RAVE 模型可以使用以下语法加载到 `nn~` 中，其中默认方法设置为前向（即先编码再解码）：\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Facids-ircam_RAVE_readme_daeeae04bc73.png\" width=400px\u002F>\n\n这与以下补丁的效果相同，但速度稍快。\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Facids-ircam_RAVE_readme_f528a6c73031.png\" width=210px \u002F>\n\n### 高级操作\n\n能够显式访问 RAVE 产生的潜在表示，使我们能够使用 Max\u002FMSP 或 PureData 的信号处理工具与该表示进行交互：\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Facids-ircam_RAVE_readme_aabbeb74f965.png\" width=310px \u002F>\n\n### 风格迁移\n\n默认情况下，RAVE 可用作风格迁移工具，这得益于该模型的大压缩比。我们最近添加了一种受 StyleGAN 启发的技术，将自适应实例归一化引入重建过程，从而能够在 Max\u002FMSP 或 PureData 中直接定义“源”和“目标”风格，利用 `nn~` 的属性系统。\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Facids-ircam_RAVE_readme_b37ee14d96f0.png\" width=550px>\n\n其他属性，如 `enable` 或 `gpu`，可用于启用或禁用计算，或使用 GPU 来加速处理（目前仍处于实验阶段）。\n\n## 离线使用\n\n在 2.3 版中发布了一个批量生成脚本，用于转换大量文件：\n\n```bash\nrave generate model_path path_1 path_2 --out out_path\n```\n\n其中 `model_path` 是您训练好的模型路径（原始模型或脚本化模型），`path_X` 是音频文件或目录列表，而 `out_path` 是生成结果的输出目录。\n\n## 讨论\n\n如果您有任何问题、想分享您使用 RAVE 的经验，或分享使用该模型创作的音乐作品，欢迎使用 [讨论页](https:\u002F\u002Fgithub.com\u002Facids-ircam\u002FRAVE\u002Fdiscussions)！\n\n## 演示\n\n### RAVE x nn~\n\n演示如何结合 RAVE 和 maxmsp 的 nn~ 外挂插件进行创作！\n\n[![RAVE x nn~](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Facids-ircam_RAVE_readme_d898d82ae492.jpg)](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=dMZs04TzxUI)\n\n### 嵌入式 RAVE\n\n使用 nn~ for puredata，RAVE 可以在嵌入式平台上实时运行！\n\n[![RAVE x nn~](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Facids-ircam_RAVE_readme_c1a0e141e439.jpg)](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=jAIRf4nGgYI)\n\n# 常见问题解答 (FAQ)\n\n**问题**：我的预处理卡住了，显示 `0it[00:00, ?it\u002Fs]`\u003Cbr\u002F>\n**回答**：这意味着您数据集中的音频文件太短，无法为 RAVE 提供足够的时域范围。请尝试使用 `preprocess` 中的 `--num_signal XXX(samples)` 参数减小信号窗口，之后别忘了在 `train` 中添加 `--n_signal XXX(samples)` 参数。\n\n**问题**：在训练过程中，我遇到了类似 `ValueError: n_components=128 必须介于 0 和 min(n_samples, n_features)=64 之间，且 svd_solver='full'` 的异常。\u003Cbr\u002F>\n**回答**：这意味着您的数据集没有足够的数据批次来计算内部潜在 PCA，而后者至少需要 128 个样本（或批次）。\n\n\n# 资助\n\n这项工作由 IRCAM 主导，并得到了以下项目的资助：\n\n- [ANR MakiMono](https:\u002F\u002Facids.ircam.fr\u002Fcourse\u002Fmakimono\u002F)\n- [ACTOR](https:\u002F\u002Fwww.actorproject.org\u002F)\n- [DAFNE+](https:\u002F\u002Fdafneplus.eu\u002F) 编号 101061548\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Facids-ircam_RAVE_readme_61ab562ce2dd.jpg\" width=200px\u002F>","# RAVE 快速上手指南\n\nRAVE (Realtime Audio Variational autoEncoder) 是一个用于快速、高质量神经音频合成的变分自编码器。它支持实时音频处理、音色转换及风格迁移，并可与 Max\u002FMSP、PureData 等环境集成。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**：Windows, macOS 或 Linux\n*   **Python 版本**：建议 Python 3.8+\n*   **核心依赖**：\n    *   `torch` 和 `torchaudio`：**强烈建议**先手动安装适合您硬件（CPU\u002FCUDA）版本的 PyTorch。\n    *   `ffmpeg`：用于音频文件处理，必须安装在系统中或虚拟环境中。\n*   **硬件要求**：\n    *   训练建议使用 NVIDIA GPU。\n    *   不同模型架构对显存要求不同（v2 版本建议至少 16GB 显存，v2_small 或 raspberry 配置可降低需求）。\n\n### 安装依赖\n\n1.  **安装 PyTorch**\n    请访问 [PyTorch 官网](https:\u002F\u002Fpytorch.org) 获取适合您环境的安装命令。例如（CUDA 11.8）：\n    ```bash\n    pip install torch torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n    ```\n    *(注：国内用户可使用清华源加速：`--index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`)*\n\n2.  **安装 ffmpeg**\n    *   **Conda 用户推荐**：\n        ```bash\n        conda install ffmpeg\n        ```\n    *   **系统级安装**：\n        *   Ubuntu\u002FDebian: `sudo apt-get install ffmpeg`\n        *   macOS: `brew install ffmpeg`\n        *   Windows: 下载构建包并配置环境变量\n\n## 安装步骤\n\n完成前置依赖安装后，使用 pip 安装 RAVE：\n\n```bash\npip install acids-rave\n```\n\n> **提示**：如果您在中国大陆，建议使用国内镜像源以提高下载速度：\n> ```bash\n> pip install acids-rave -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n## 基本使用\n\nRAVE 的工作流主要包含三个步骤：**数据集预处理**、**模型训练**和**模型导出**。\n\n### 1. 数据集预处理\n\n将您的音频文件夹转换为 RAVE 可用的数据集格式。假设您的音频文件位于 `\u002Faudio\u002Ffolder`，希望将数据集保存到 `\u002Fdataset\u002Fpath`，且音频为单声道（channels=1）：\n\n```bash\nrave preprocess --input_path \u002Faudio\u002Ffolder --output_path \u002Fdataset\u002Fpath --channels 1\n```\n\n*   **可选**：如果您的数据集非常大且不想占用过多磁盘空间进行解压，可以添加 `--lazy` 参数直接读取原始文件（如 mp3, ogg），但这会增加训练时的 CPU 负载。\n    ```bash\n    rave preprocess --input_path \u002Faudio\u002Ffolder --output_path \u002Fdataset\u002Fpath --channels 1 --lazy\n    ```\n\n### 2. 模型训练\n\n使用预处理好的数据集训练模型。以下命令使用推荐的 `v2` 架构进行训练：\n\n```bash\nrave train --config v2 --db_path \u002Fdataset\u002Fpath --out_path \u002Fmodel\u002Fout --name my_first_rave --channels 1\n```\n\n*   `--config`: 模型架构（可选 `v1`, `v2`, `discrete`, `raspberry` 等）。\n*   `--db_path`: 预处理后的数据集路径。\n*   `--out_path`: 模型检查点保存路径。\n*   `--name`: 本次运行任务的名称。\n\n### 3. 模型导出\n\n训练完成后，需要将模型导出为 TorchScript 格式以便推理或部署到实时环境（如 Max\u002FMSP）。\n\n**重要**：若需用于实时流式处理（Realtime），必须添加 `--streaming` 标志，否则会出现爆音。\n\n```bash\nrave export --run \u002Fmodel\u002Fout\u002Fmy_first_rave --streaming\n```\n\n导出成功后，您将得到一个 `.ts` 文件，可用于后续的离线批量生成或加载到 `nn~` 外部对象中进行实时表演。\n\n### 进阶：离线批量生成\n\n如果您只想用训练好的模型批量处理音频文件：\n\n```bash\nrave generate \u002Fmodel\u002Fout\u002Fmy_first_rave.ts input_audio_1.wav input_folder_2 --out processed_output\n```","一位电子音乐制作人希望在现场演出中，通过自定义训练的神经网络实时将人声转化为独特的合成器音色，同时保持极低的延迟以配合乐队演奏。\n\n### 没有 RAVE 时\n- **延迟过高导致无法同步**：传统神经音频模型推理速度慢，产生的数百毫秒延迟让人声与伴奏严重脱节，完全无法用于实时舞台表演。\n- **硬件门槛极高**：为了勉强达到可接受的帧率，必须依赖配备多张高端显卡的工作站，昂贵的设备成本让独立艺术家难以负担。\n- **工作流割裂**：只能在离线状态下预先渲染音频片段，无法根据现场情绪即兴调整参数，创作过程缺乏互动性和灵活性。\n- **音质与速度难兼得**：若强行使用轻量级模型降低延迟，输出音频往往充满伪影和噪点，无法满足专业演出的听感要求。\n\n### 使用 RAVE 后\n- **真正的实时低延迟**：RAVE 专为实时性设计，能将处理延迟压缩至几毫秒级别，让人声转换效果能与鼓点和贝斯完美同步。\n- **消费级硬件即可运行**：得益于高效的变分自编码器架构，普通的笔记本电脑甚至嵌入式设备就能流畅运行模型，大幅降低了部署成本。\n- **无缝集成主流宿主**：通过 RAVE VST 插件或 Max 8 对象，可以直接在 Ableton Live 等 DAW 中像使用普通乐器一样加载自定义模型，支持现场即兴调制。\n- **高保真神经合成**：即使在极低延迟下，RAVE 仍能保持高信噪比和丰富的频谱细节，确保输出音色温暖自然，具备专业出版级音质。\n\nRAVE 通过将高质感的神经音频合成带入实时领域，彻底打破了算法音乐从“离线实验”走向“现场即兴”的最后壁垒。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Facids-ircam_RAVE_779f5fda.png","acids-ircam","ACIDS","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Facids-ircam_98c51d8e.png","Artificial Creative Intelligence and Data Science","IRCAM","Paris",null,"http:\u002F\u002Facids.ircam.fr","https:\u002F\u002Fgithub.com\u002Facids-ircam",[85],{"name":86,"color":87,"percentage":88},"Python","#3572A5",100,1705,218,"2026-04-03T17:16:00","NOASSERTION","Windows, macOS, Linux","需要 GPU 进行训练。显存需求取决于模型配置：v1\u002Fv2_small\u002Fonnx\u002Fraspberry 需 5-8GB，v2\u002Fdiscrete 需 16-18GB，v3 需 32GB。未明确指定 CUDA 版本，但需预先安装与硬件匹配的 torch 和 torchaudio。","未说明",{"notes":97,"python":95,"dependencies":98},"1. 强烈建议在安装 acids-rave 之前先单独安装合适版本的 torch 和 torchaudio，以便选择适配当前设备的版本。\n2. 系统必须安装 ffmpeg，可通过 conda 安装。\n3. 提供多种模型架构配置，对显存要求差异较大（最低 5GB，最高 32GB），请根据硬件选择配置（如 raspberry 配置适用于低显存设备）。\n4. 若在 Windows 上使用懒加载（lazy）模式处理数据集，会显著增加 CPU 负载。\n5. 导出模型用于实时处理（如 Max\u002FMSP）时，务必添加 --streaming 参数以避免音频爆音。",[99,100,101,102],"torch","torchaudio","acids-rave","ffmpeg",[15,55,13,14],[105,106,107,108,109],"deep-learning","neural-network","audio","generative-model","ai","2026-03-27T02:49:30.150509","2026-04-06T05:36:41.768006",[113,118,123,128,133,138],{"id":114,"question_zh":115,"answer_zh":116,"source_url":117},14939,"训练 Prior 时出现 'cannot reshape tensor of 0 elements' 错误怎么办？","这通常是因为设置了错误的裁剪潜在空间大小（cropped latent size）。如果将其设置为 128，可以通过修改 `export_rave.py` 第 67 行来修复：将 `self.cropped_latent_size` 强制覆盖为 8（即 `self.cropped_latent_size = 8`）。完成该模型的导出或训练后，请记得将此代码改回原样。","https:\u002F\u002Fgithub.com\u002Facids-ircam\u002FRAVE\u002Fissues\u002F45",{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},14940,"为什么 TensorBoard 预览效果很好，但在 Max (nn~) 中使用时输出会有卡顿或退化？","这种退化通常发生在训练的第二阶段开始后（大约 100 万步左右）。建议在训练数据集中使用更多的音频数据增强库和效果（如音频归一化、相位反转等）来帮助模型更好地学习。推荐使用 `audiomentations` 或 `pedalboard` 库来增强数据。","https:\u002F\u002Fgithub.com\u002Facids-ircam\u002FRAVE\u002Fissues\u002F158",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},14941,"运行 train_rave.py 时提示 'Exception: No data found!' 但文件明明存在，如何解决？","这通常是由于音频文件读取失败导致的（日志中常伴随 'PySoundFile failed' 警告）。请检查您的音频文件格式是否受支持，或尝试安装 `audioread` 后端作为备选方案。此外，确保数据集路径正确，且文件夹内包含有效的 .wav 文件。","https:\u002F\u002Fgithub.com\u002Facids-ircam\u002FRAVE\u002Fissues\u002F27",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},14942,"使用 prior 生成音频时出现 'Kernel size can't be greater than actual input size' 错误？","这是因为生成时的输入长度（generation_length）对于当前的解码器内核大小来说太短了。请尝试增加 `generation_length` 的值（例如增加到 2**18 或更大），确保输入张量的尺寸大于解码器中最大的卷积核尺寸。","https:\u002F\u002Fgithub.com\u002Facids-ircam\u002FRAVE\u002Fissues\u002F15",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},14943,"为什么我的模型在 Max (nn~) 中有 127 个维度，而不是预期的 16 个？","这是因为在训练时没有正确设置潜在空间大小（latent size）。如果您使用的是 Wasserstein 模式，必须在训练命令中显式添加 `--override LATENT_SIZE=16` 参数。如果不设置，默认值可能是 128，导致导出的模型维度过高。请注意，该参数必须在训练开始时设定，中途修改无效。","https:\u002F\u002Fgithub.com\u002Facids-ircam\u002FRAVE\u002Fissues\u002F181",{"id":139,"question_zh":140,"answer_zh":141,"source_url":127},14944,"如何手动修改模型架构或学习率等高级参数？","部分参数无法直接通过命令行脚本修改。如果需要调整模型内部架构（如层数、核大小等），需要手动编辑 `rave\u002Fmodel.py` 文件。关于模型的具体理论细节和架构设计，建议参考官方论文：https:\u002F\u002Farxiv.org\u002Fabs\u002F2111.05011。",[143],{"id":144,"version":145,"summary_zh":81,"released_at":146},81767,"v2.3.1","2023-12-18T23:13:28"]