[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-hkchengrex--MMAudio":3,"tool-hkchengrex--MMAudio":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",153609,2,"2026-04-13T11:34:59",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":78,"owner_twitter":76,"owner_website":79,"owner_url":80,"languages":81,"stars":98,"forks":99,"last_commit_at":100,"license":101,"difficulty_score":10,"env_os":102,"env_gpu":103,"env_ram":104,"env_deps":105,"category_tags":114,"github_topics":117,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":124,"updated_at":125,"faqs":126,"releases":155},7238,"hkchengrex\u002FMMAudio","MMAudio","[CVPR 2025] MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis","MMAudio 是一款专为高质量视频配音设计的开源 AI 模型，能够根据输入的视频画面和文本描述，自动生成同步且逼真的音效。它主要解决了当前视频生成领域中“有画无声”或音画不同步的痛点，让静态或无声的视频素材瞬间拥有契合场景的环境音、动作声甚至对话背景音。\n\n这款工具特别适合视频创作者、游戏开发者、AI 研究人员以及多媒体设计师使用。无论是需要为 Sora、Veo 2 等前沿模型生成的视频添加音效，还是为传统影视素材进行后期配音，MMAudio 都能提供专业级的支持。其核心技术创新在于采用了“多模态联合训练”策略，使其能够同时利用大量的音视频数据和图文数据进行学习，从而具备更强的泛化能力。此外，内置的专用同步模块能精准对齐音频与视频帧，确保声音节奏与画面动作完美契合。目前，MMAudio 已开放代码、预训练模型及在线演示，用户只需具备基础的 Python 环境和显卡资源，即可通过命令行或云端平台轻松体验这一前沿技术。","\u003Cdiv align=\"center\">\n\u003Cp align=\"center\">\n  \u003Ch2>MMAudio\u003C\u002Fh2>\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.15322\">Paper\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fhkchengrex.github.io\u002FMMAudio\">Webpage\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fhkchengrex\u002FMMAudio\u002Ftree\u002Fmain\">Models\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fhkchengrex\u002FMMAudio\"> Huggingface Demo\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1TAaXCY2-kPk4xE4PwKB3EqFbSnkUuzZ8?usp=sharing\">Colab Demo\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Freplicate.com\u002Fzsxkib\u002Fmmaudio\">Replicate Demo\u003C\u002Fa>\n\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n## [Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis](https:\u002F\u002Fhkchengrex.github.io\u002FMMAudio)\n\n[Ho Kei Cheng](https:\u002F\u002Fhkchengrex.github.io\u002F), [Masato Ishii](https:\u002F\u002Fscholar.google.co.jp\u002Fcitations?user=RRIO1CcAAAAJ), [Akio Hayakawa](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=sXAjHFIAAAAJ), [Takashi Shibuya](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=XCRO260AAAAJ), [Alexander Schwing](https:\u002F\u002Fwww.alexander-schwing.de\u002F), [Yuki Mitsufuji](https:\u002F\u002Fwww.yukimitsufuji.com\u002F)\n\nUniversity of Illinois Urbana-Champaign, Sony AI, and Sony Group Corporation\n\nCVPR 2025\n\n## Highlight\n\nMMAudio generates synchronized audio given video and\u002For text inputs.\nOur key innovation is multimodal joint training which allows training on a wide range of audio-visual and audio-text datasets.\nMoreover, a synchronization module aligns the generated audio with the video frames.\n\nCheck out this fun video:\n\n[![Does Your Voice Match Your Face?](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fhkchengrex_MMAudio_readme_9780dd8e8fa2.jpg)](https:\u002F\u002Fyoutu.be\u002FSLz3NWLyHxg)\n\n[[Does Your Voice Match Your Face? https:\u002F\u002Fyoutu.be\u002FSLz3NWLyHxg]](https:\u002F\u002Fyoutu.be\u002FSLz3NWLyHxg)\n\n## Results\n\n(All audio from our algorithm MMAudio)\n\nVideos from Sora:\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F82afd192-0cee-48a1-86ca-bd39b8c8f330\n\nVideos from Veo 2:\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F8a11419e-fee2-46e0-9e67-dfb03c48d00e\n\nVideos from MovieGen\u002FHunyuan Video\u002FVGGSound:\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F29230d4e-21c1-4cf8-a221-c28f2af6d0ca\n\nFor more results, visit https:\u002F\u002Fhkchengrex.com\u002FMMAudio\u002Fvideo_main.html.\n\n\n## Installation\n\nWe have only tested this on Ubuntu.\n\n### Prerequisites\n\nWe recommend using a [miniforge](https:\u002F\u002Fgithub.com\u002Fconda-forge\u002Fminiforge) environment.\n\n- Python 3.9+\n- PyTorch **2.5.1+** and corresponding torchvision\u002Ftorchaudio (pick your CUDA version https:\u002F\u002Fpytorch.org\u002F, pip install recommended)\n\u003C!-- - ffmpeg\u003C7 ([this is required by torchaudio](https:\u002F\u002Fpytorch.org\u002Faudio\u002Fmaster\u002Finstallation.html#optional-dependencies), you can install it in a miniforge environment with `conda install -c conda-forge 'ffmpeg\u003C7'`) -->\n\n**1. Install prerequisite if not yet met:**\n\n```bash\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118 --upgrade\n```\n\n(Or any other CUDA versions that your GPUs\u002Fdriver support)\n\n\u003C!-- ```\nconda install -c conda-forge 'ffmpeg\u003C7\n```\n(Optional, if you use miniforge and don't already have the appropriate ffmpeg) -->\n\n**2. Clone our repository:**\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FMMAudio.git\n```\n\n**3. Install with pip (install pytorch first before attempting this!):**\n\n```bash\ncd MMAudio\npip install -e .\n```\n\n(If you encounter the File \"setup.py\" not found error, upgrade your pip with pip install --upgrade pip)\n\n\n**Pretrained models:**\n\nThe models will be downloaded automatically when you run the demo script. MD5 checksums are provided in `mmaudio\u002Futils\u002Fdownload_utils.py`.\nThe models are also available at https:\u002F\u002Fhuggingface.co\u002Fhkchengrex\u002FMMAudio\u002Ftree\u002Fmain\nSee [MODELS.md](docs\u002FMODELS.md) for more details.\n\n## Demo\n\nBy default, these scripts use the `large_44k_v2` model. \nIn our experiments, inference only takes around 6GB of GPU memory (in 16-bit mode) which should fit in most modern GPUs.\n\n### Command-line interface\n\nWith `demo.py`\n\n```bash\npython demo.py --duration=8 --video=\u003Cpath to video> --prompt \"your prompt\" \n```\n\nThe output (audio in `.flac` format, and video in `.mp4` format) will be saved in `.\u002Foutput`.\nSee the file for more options.\nSimply omit the `--video` option for text-to-audio synthesis.\nThe default output (and training) duration is 8 seconds. Longer\u002Fshorter durations could also work, but a large deviation from the training duration may result in a lower quality.\n\n### Gradio interface\n\nSupports video-to-audio and text-to-audio synthesis.\nYou can also try experimental image-to-audio synthesis which duplicates the input image to a video for processing. This might be interesting to some but it is not something MMAudio has been trained for.\nUse [port forwarding](https:\u002F\u002Funix.stackexchange.com\u002Fquestions\u002F115897\u002Fwhats-ssh-port-forwarding-and-whats-the-difference-between-ssh-local-and-remot) (e.g., `ssh -L 7860:localhost:7860 server`) if necessary. The default port is `7860` which you can specify with `--port`.\n\n```bash\npython gradio_demo.py\n```\n\n### FAQ\n\n1. Video processing\n    - Processing higher-resolution videos takes longer due to encoding and decoding (which can take >95% of the processing time!), but it does not improve the quality of results.\n    - The CLIP encoder resizes input frames to 384×384 pixels. \n    - Synchformer resizes the shorter edge to 224 pixels and applies a center crop, focusing only on the central square of each frame.\n2. Frame rates\n    - The CLIP model operates at 8 FPS, while Synchformer works at 25 FPS.\n    - Frame rate conversion happens on-the-fly via the video reader.\n    - For input videos with a frame rate below 25 FPS, frames will be duplicated to match the required rate.\n3. Failure cases\nAs with most models of this type, failures can occur, and the reasons are not always clear. Below are some known failure modes. If you notice a failure mode or believe there’s a bug, feel free to open an issue in the repository.\n4. Performance variations\nWe notice that there can be subtle performance variations in different hardware and software environments. Some of the reasons include using\u002Fnot using `torch.compile`, video reader library\u002Fbackend, inference precision, batch sizes, random seeds, etc. We (will) provide pre-computed results on standard benchmark for reference. Results obtained from this codebase should be similar but might not be exactly the same.\n\n### Known limitations\n\n1. The model sometimes generates unintelligible human speech-like sounds\n2. The model sometimes generates background music (without explicit training, it would not be high quality)\n3. The model struggles with unfamiliar concepts, e.g., it can generate \"gunfires\" but not \"RPG firing\".\n\nWe believe all of these three limitations can be addressed with more high-quality training data.\n\n## Training\n\nSee [TRAINING.md](docs\u002FTRAINING.md).\n\n## Evaluation\n\nSee [EVAL.md](docs\u002FEVAL.md).\n\n## Training Datasets\n\nMMAudio was trained on several datasets, including [AudioSet](https:\u002F\u002Fresearch.google.com\u002Faudioset\u002F), [Freesound](https:\u002F\u002Fgithub.com\u002FLAION-AI\u002Faudio-dataset\u002Fblob\u002Fmain\u002Flaion-audio-630k\u002FREADME.md), [VGGSound](https:\u002F\u002Fwww.robots.ox.ac.uk\u002F~vgg\u002Fdata\u002Fvggsound\u002F), [AudioCaps](https:\u002F\u002Faudiocaps.github.io\u002F), and [WavCaps](https:\u002F\u002Fgithub.com\u002FXinhaoMei\u002FWavCaps). These datasets are subject to specific licenses, which can be accessed on their respective websites. We do not guarantee that the pre-trained models are suitable for commercial use. Please use them at your own risk.\n\n## Update Logs\n\n- 2025-03-09: Uploaded the corrected tsv files. See [TRAINING.md](docs\u002FTRAINING.md).\n- 2025-02-27: Disabled the GradScaler by default to improve training stability. See #49.\n- 2024-12-23: Added training and batch evaluation scripts.\n- 2024-12-14: Removed the `ffmpeg\u003C7` requirement for the demos by replacing `torio.io.StreamingMediaDecoder` with `pyav` for reading frames. The read frames are also cached, so we are not reading the same frames again during reconstruction. This should speed things up and make installation less of a hassle.\n- 2024-12-13: Improved for-loop processing in CLIP\u002FSync feature extraction by introducing a batch size multiplier. We can approximately use 40x batch size for CLIP\u002FSync without using more memory, thereby speeding up processing. Removed VAE encoder during inference -- we don't need it.\n- 2024-12-11: Replaced `torio.io.StreamingMediaDecoder` with `pyav` for reading framerate when reconstructing the input video. `torio.io.StreamingMediaDecoder` does not work reliably in huggingface ZeroGPU's environment, and I suspect that it might not work in some other environments as well.\n\n## Citation\n\n```bibtex\n@inproceedings{cheng2025taming,\n  title={{MMAudio}: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis},\n  author={Cheng, Ho Kei and Ishii, Masato and Hayakawa, Akio and Shibuya, Takashi and Schwing, Alexander and Mitsufuji, Yuki},\n  booktitle={CVPR},\n  year={2025}\n}\n```\n\n## Relevant Repositories\n\n- [av-benchmark](https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002Fav-benchmark) for benchmarking results.\n\n## License\n- The code in this repository is released under the MIT license as found in the [LICENSE file](LICENSE)\n- The checkpoints are released on Hugging Face under the CC-BY-NC 4.0 license as found at [https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc\u002F4.0\u002F](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc\u002F4.0\u002F).\n\n## Disclaimer\n\nWe have no affiliation with and have no knowledge of the party behind the domain \"mmaudio.net\".\n\n## Acknowledgement\n\nMany thanks to:\n- [Make-An-Audio 2](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FMake-An-Audio-2) for the 16kHz BigVGAN pretrained model and the VAE architecture\n- [BigVGAN](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FBigVGAN)\n- [Synchformer](https:\u002F\u002Fgithub.com\u002Fv-iashin\u002FSynchformer) \n- [EDM2](https:\u002F\u002Fgithub.com\u002FNVlabs\u002Fedm2) for the magnitude-preserving VAE network architecture\n","\u003Cdiv align=\"center\">\n\u003Cp align=\"center\">\n  \u003Ch2>MMAudio\u003C\u002Fh2>\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.15322\">论文\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fhkchengrex.github.io\u002FMMAudio\">网页\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fhkchengrex\u002FMMAudio\u002Ftree\u002Fmain\">模型\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fhkchengrex\u002FMMAudio\">Hugging Face 演示\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1TAaXCY2-kPk4xE4PwKB3EqFbSnkUuzZ8?usp=sharing\">Colab 演示\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Freplicate.com\u002Fzsxkib\u002Fmmaudio\">Replicate 演示\u003C\u002Fa>\n\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n## [驾驭多模态联合训练以实现高质量的视频转音频合成](https:\u002F\u002Fhkchengrex.github.io\u002FMMAudio)\n\n[Ho Kei Cheng](https:\u002F\u002Fhkchengrex.github.io\u002F)、[Masato Ishii](https:\u002F\u002Fscholar.google.co.jp\u002Fcitations?user=RRIO1CcAAAAJ)、[Akio Hayakawa](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=sXAjHFIAAAAJ)、[Takashi Shibuya](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=XCRO260AAAAJ)、[Alexander Schwing](https:\u002F\u002Fwww.alexander-schwing.de\u002F)、[Yuki Mitsufuji](https:\u002F\u002Fwww.yukimitsufuji.com\u002F)\n\n伊利诺伊大学厄巴纳-香槟分校、索尼 AI 以及索尼集团公司\n\nCVPR 2025\n\n## 亮点\n\nMMAudio 可以根据视频和\u002F或文本输入生成同步的音频。我们的关键创新在于多模态联合训练，这使得我们能够在广泛的视听和音文数据集上进行训练。此外，一个同步模块会将生成的音频与视频帧对齐。\n\n请观看这段有趣的视频：\n\n[![你的声音和脸匹配吗？](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fhkchengrex_MMAudio_readme_9780dd8e8fa2.jpg)](https:\u002F\u002Fyoutu.be\u002FSLz3NWLyHxg)\n\n[[你的声音和脸匹配吗？ https:\u002F\u002Fyoutu.be\u002FSLz3NWLyHxg]](https:\u002F\u002Fyoutu.be\u002FSLz3NWLyHxg)\n\n## 结果\n\n（所有音频均由我们的算法 MMAudio 生成）\n\n来自 Sora 的视频：\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F82afd192-0cee-48a1-86ca-bd39b8c8f330\n\n来自 Veo 2 的视频：\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F8a11419e-fee2-46e0-9e67-dfb03c48d00e\n\n来自 MovieGen\u002FHunyuan Video\u002FVGGSound 的视频：\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F29230d4e-21c1-4cf8-a221-c28f2af6d0ca\n\n更多结果请访问 https:\u002F\u002Fhkchengrex.com\u002FMMAudio\u002Fvideo_main.html。\n\n## 安装\n\n我们仅在 Ubuntu 上进行了测试。\n\n### 前提条件\n\n我们建议使用 [miniforge](https:\u002F\u002Fgithub.com\u002Fconda-forge\u002Fminiforge) 环境。\n\n- Python 3.9+\n- PyTorch **2.5.1+** 和相应的 torchvision\u002Ftorchaudio（请根据你的 CUDA 版本选择，推荐使用 pip 安装）\n\u003C!-- - ffmpeg\u003C7 ([这是 torchaudio 所需的](https:\u002F\u002Fpytorch.org\u002Faudio\u002Fmaster\u002Finstallation.html#optional-dependencies)，你可以在 miniforge 环境中通过 `conda install -c conda-forge 'ffmpeg\u003C7'` 来安装) -->\n\n**1. 如果尚未满足前提条件，请先安装：**\n\n```bash\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118 --upgrade\n```\n\n（或者任何其他你的 GPU\u002F驱动支持的 CUDA 版本）\n\n\u003C!-- ```\nconda install -c conda-forge 'ffmpeg\u003C7'\n```\n（可选，如果你使用 miniforge 并且还没有合适的 ffmpeg） -->\n\n**2. 克隆我们的仓库：**\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FMMAudio.git\n```\n\n**3. 使用 pip 安装（请先安装 PyTorch 再尝试此步骤！）：**\n\n```bash\ncd MMAudio\npip install -e .\n```\n\n（如果你遇到“setup.py 文件未找到”的错误，请使用 `pip install --upgrade pip` 升级你的 pip）\n\n**预训练模型：**\n\n当你运行演示脚本时，模型会自动下载。MD5 校验和已在 `mmaudio\u002Futils\u002Fdownload_utils.py` 中提供。这些模型也可在 https:\u002F\u002Fhuggingface.co\u002Fhkchengrex\u002FMMAudio\u002Ftree\u002Fmain 上找到。更多详情请参阅 [MODELS.md](docs\u002FMODELS.md)。\n\n## 演示\n\n默认情况下，这些脚本使用 `large_44k_v2` 模型。在我们的实验中，推理仅需约 6GB 的 GPU 内存（以 16 位模式运行），这应该足以在大多数现代 GPU 上运行。\n\n### 命令行界面\n\n使用 `demo.py`：\n\n```bash\npython demo.py --duration=8 --video=\u003C视频路径> --prompt \"你的提示\"\n```\n\n输出（音频为 `.flac` 格式，视频为 `.mp4` 格式）将保存在 `.\u002Foutput` 目录中。更多选项请参阅该文件。如果只进行文本到音频的合成，只需省略 `--video` 选项即可。默认的输出（也是训练）时长为 8 秒。更长或更短的时长也可能适用，但若与训练时长相差过大，可能会导致较低的质量。\n\n### Gradio 界面\n\n支持视频到音频和文本到音频的合成。你还可以尝试实验性的图像到音频合成，它会将输入图像复制成视频进行处理。这对某些人来说可能很有趣，但这并不是 MMAudio 经过训练的任务。\n如有必要，可以使用 [端口转发](https:\u002F\u002Funix.stackexchange.com\u002Fquestions\u002F115897\u002Fwhats-ssh-port-forwarding-and-whats-the-difference-between-ssh-local-and-remot)（例如 `ssh -L 7860:localhost:7860 server`）。默认端口为 `7860`，你可以通过 `--port` 参数指定。\n\n```bash\npython gradio_demo.py\n```\n\n### 常见问题解答\n\n1. 视频处理\n    - 处理更高分辨率的视频需要更长时间，因为编码和解码占据了超过 95% 的处理时间，但这并不会提高结果的质量。\n    - CLIP 编码器会将输入帧调整为 384×384 像素。\n    - Synchformer 会将较短的边调整为 224 像素，并进行中心裁剪，只关注每帧的中央正方形区域。\n2. 帧率\n    - CLIP 模型以 8 FPS 运行，而 Synchformer 以 25 FPS 工作。\n    - 帧率转换会在视频读取器中实时完成。\n    - 对于帧率低于 25 FPS 的输入视频，帧会被重复以达到所需的帧率。\n3. 失败情况\n与其他同类模型一样，MMAudio 有时也会出现失败的情况，原因并不总是明确。以下是一些已知的失败模式。如果你发现了新的失败模式或认为存在 bug，请随时在仓库中提交 issue。\n4. 性能差异\n我们注意到，在不同的硬件和软件环境中，性能可能会有细微的差异。造成这种差异的原因包括是否使用 `torch.compile`、视频读取库\u002F后端、推理精度、批量大小、随机种子等。我们将会提供标准基准上的预计算结果作为参考。从本代码库获得的结果应该相似，但未必完全相同。\n\n### 已知局限性\n\n1. 该模型有时会生成难以理解的人类语音类似的声音。\n2. 该模型有时会生成背景音乐（尽管没有专门训练过，其质量并不高）。\n3. 该模型在处理不熟悉的概念时表现不佳，例如它可以生成“枪声”，但无法生成“RPG 发射”的声音。\n\n我们认为，通过提供更多高质量的训练数据，这三项局限性都可以得到解决。\n\n## 训练\n\n请参阅 [TRAINING.md](docs\u002FTRAINING.md)。\n\n## 评估\n\n请参阅 [EVAL.md](docs\u002FEVAL.md)。\n\n## 训练数据集\n\nMMAudio 在多个数据集上进行了训练，包括 [AudioSet](https:\u002F\u002Fresearch.google.com\u002Faudioset\u002F)、[Freesound](https:\u002F\u002Fgithub.com\u002FLAION-AI\u002Faudio-dataset\u002Fblob\u002Fmain\u002Flaion-audio-630k\u002FREADME.md)、[VGGSound](https:\u002F\u002Fwww.robots.ox.ac.uk\u002F~vgg\u002Fdata\u002Fvggsound\u002F)、[AudioCaps](https:\u002F\u002Faudiocaps.github.io\u002F) 和 [WavCaps](https:\u002F\u002Fgithub.com\u002FXinhaoMei\u002FWavCaps)。这些数据集受特定许可证约束，相关许可证信息可在其各自官网查阅。我们不保证预训练模型适用于商业用途，请用户自行承担使用风险。\n\n## 更新日志\n\n- 2025-03-09：上传了修正后的 tsv 文件。详情请参阅 [TRAINING.md](docs\u002FTRAINING.md)。\n- 2025-02-27：为提高训练稳定性，默认禁用了 GradScaler。详情请参阅 #49。\n- 2024-12-23：新增了训练脚本和批量评估脚本。\n- 2024-12-14：通过将 `torio.io.StreamingMediaDecoder` 替换为 `pyav` 来读取帧率，从而移除了演示中对 `ffmpeg\u003C7` 的依赖。同时对读取的帧进行缓存，避免在重建过程中重复读取同一帧，这应能提升速度并简化安装流程。\n- 2024-12-13：在 CLIP\u002FSync 特征提取中引入批大小倍增器，优化了 for 循环处理。在不增加内存占用的情况下，可将近似使用 40 倍的批大小，从而加快处理速度。此外，在推理过程中移除了 VAE 编码器——我们并不需要它。\n- 2024-12-11：在重构输入视频时，将用于读取帧率的 `torio.io.StreamingMediaDecoder` 替换为 `pyav`。`torio.io.StreamingMediaDecoder` 在 huggingface ZeroGPU 环境中无法稳定工作，且我怀疑它在其他某些环境中也可能存在问题。\n\n## 引用\n\n```bibtex\n@inproceedings{cheng2025taming,\n  title={{MMAudio}: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis},\n  author={Cheng, Ho Kei and Ishii, Masato and Hayakawa, Akio and Shibuya, Takashi and Schwing, Alexander and Mitsufuji, Yuki},\n  booktitle={CVPR},\n  year={2025}\n}\n```\n\n## 相关仓库\n\n- [av-benchmark](https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002Fav-benchmark)，用于基准测试结果。\n\n## 许可证\n- 本仓库中的代码采用 MIT 许可证发布，具体见 [LICENSE 文件](LICENSE)。\n- 检查点文件在 Hugging Face 上以 CC-BY-NC 4.0 许可证发布，详情请参阅 [https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc\u002F4.0\u002F](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc\u002F4.0\u002F)。\n\n## 免责声明\n我们与 “mmaudio.net” 域名背后的主体没有任何关联，也对其一无所知。\n\n## 致谢\n特别感谢以下项目：\n- [Make-An-Audio 2](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FMake-An-Audio-2)，提供了 16kHz 的 BigVGAN 预训练模型及 VAE 架构。\n- [BigVGAN](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FBigVGAN)。\n- [Synchformer](https:\u002F\u002Fgithub.com\u002Fv-iashin\u002FSynchformer)。\n- [EDM2](https:\u002F\u002Fgithub.com\u002FNVlabs\u002Fedm2)，提供了保幅式的 VAE 网络架构。","# MMAudio 快速上手指南\n\nMMAudio 是一个用于高质量视频转音频（Video-to-Audio）和文本转音频（Text-to-Audio）合成的开源模型。它通过多模态联合训练，能够根据视频画面或文本描述生成同步的高质量音频。\n\n## 环境准备\n\n本项目主要在 **Ubuntu** 系统上测试通过。请确保满足以下前置条件：\n\n*   **操作系统**: Linux (推荐 Ubuntu)\n*   **Python**: 3.9 或更高版本\n*   **PyTorch**: 2.5.1 或更高版本（需匹配对应的 torchvision\u002Ftorchaudio 及 CUDA 版本）\n*   **GPU**: 建议显存至少 6GB（在 16-bit 模式下推理）\n\n> **注意**：安装前请确认您的显卡驱动支持的 CUDA 版本。国内用户若访问 PyTorch 官方源较慢，可使用清华或中科大镜像源。\n\n## 安装步骤\n\n### 1. 安装 PyTorch 及相关依赖\n\n推荐使用 `pip` 安装与您的 CUDA 版本匹配的 PyTorch。以下以 CUDA 11.8 为例（请根据实际情况调整 `cu118`）：\n\n```bash\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118 --upgrade\n```\n\n*国内加速方案（可选）：*\n```bash\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n# 注意：PyTorch 的 whl 文件通常仍需从官方源下载，上述命令主要加速其他依赖包。\n# 若需完整镜像加速，请配置 pip 全局镜像或使用 conda 环境。\n```\n\n### 2. 克隆项目代码\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FMMAudio.git\ncd MMAudio\n```\n\n### 3. 安装项目依赖\n\n确保已安装 PyTorch 后，执行以下命令安装其余依赖：\n\n```bash\npip install -e .\n```\n\n> 若遇到 `setup.py not found` 错误，请先升级 pip：`pip install --upgrade pip`。\n\n### 4. 模型下载\n\n预训练模型会在首次运行演示脚本时**自动下载**。模型文件托管在 Hugging Face 上，国内用户若下载缓慢，可手动从镜像站下载并放置到对应目录，或配置 HF_ENDPOINT 环境变量。\n\n## 基本使用\n\n安装完成后，您可以使用命令行接口进行音频生成。默认使用 `large_44k_v2` 模型。\n\n### 视频转音频 (Video-to-Audio)\n\n根据输入视频和文本提示生成同步音频：\n\n```bash\npython demo.py --duration=8 --video=\u003Cpath to video> --prompt \"your prompt\"\n```\n\n*   `--duration`: 生成音频的时长（秒），默认为 8 秒。\n*   `--video`: 输入视频文件的路径。\n*   `--prompt`: 描述音频内容的文本提示词。\n\n生成的音频 (`.flac`) 和视频 (`.mp4`) 将保存在 `.\u002Foutput` 目录中。\n\n### 文本转音频 (Text-to-Audio)\n\n仅根据文本提示生成音频（省略 `--video` 参数）：\n\n```bash\npython demo.py --duration=8 --prompt \"rain falling on a tin roof\"\n```\n\n### 启动 Web 界面 (可选)\n\nMMAudio 提供了基于 Gradio 的交互式网页界面，支持上传视频或输入文本进行操作：\n\n```bash\npython gradio_demo.py\n```\n\n启动后，在浏览器访问 `http:\u002F\u002Flocalhost:7860` 即可使用。若在远程服务器运行，请使用 SSH 端口转发（如 `ssh -L 7860:localhost:7860 user@server`）。","一家独立游戏开发团队正在为生成的过场动画制作同步音效，需要将无声的视频片段转化为包含环境音和动作音效的完整音频轨道。\n\n### 没有 MMAudio 时\n- **音画不同步**：手动配音或拼接素材难以精确对齐视频中的细微动作（如脚步声、物体碰撞），导致观感割裂。\n- **多模态适配难**：无法同时利用视频画面和文本提示（如“雨夜中的金属撞击声”）来生成复杂音效，需分别处理再合成。\n- **数据利用率低**：现有的单一模态模型无法联合训练音视频与文音数据，导致生成的声音缺乏语境理解，听起来机械生硬。\n- **制作成本高**：需要专业音效师逐帧调整或购买昂贵版权素材，严重拖慢迭代速度。\n\n### 使用 MMAudio 后\n- **毫秒级同步**：MMAudio 内置的同步模块能自动将生成的音频与视频帧精准对齐，确保每一步动作都有对应的实时反馈。\n- **多模态联合生成**：支持输入视频加文本描述，MMAudio 能结合画面动态与文字语义，生成既符合视觉又满足剧情设定的高质量音效。\n- **数据泛化能力强**：得益于多模态联合训练技术，MMAudio 能理解多样化的视听场景，从自然风雨到机械轰鸣均能自然呈现。\n- **自动化工作流**：开发者只需一行命令即可批量处理视频，大幅降低人力成本，让小型团队也能拥有电影级音效。\n\nMMAudio 通过突破性的多模态联合训练，将繁琐的音视频对齐工作转化为一键式的高保真合成流程，彻底改变了视频音效的制作范式。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fhkchengrex_MMAudio_fdb02729.png","hkchengrex","Rex Cheng","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fhkchengrex_01ff6c35.jpg","Ph.D. student at the University of Illinois Urbana-Champaign.\r\nOxygen consuming.",null,"Champaign, IL","hkchengrex@gmail.com","https:\u002F\u002Fhkchengrex.com","https:\u002F\u002Fgithub.com\u002Fhkchengrex",[82,86,90,94],{"name":83,"color":84,"percentage":85},"Python","#3572A5",95.3,{"name":87,"color":88,"percentage":89},"Cuda","#3A4E3A",2.7,{"name":91,"color":92,"percentage":93},"C","#555555",1.8,{"name":95,"color":96,"percentage":97},"C++","#f34b7d",0.3,2141,252,"2026-04-11T04:18:08","MIT","Linux (Ubuntu)","需要 NVIDIA GPU，显存约 6GB+ (16-bit 模式)，支持 CUDA 11.8 或其他 PyTorch 支持的版本","未说明",{"notes":106,"python":107,"dependencies":108},"仅在 Ubuntu 上测试过。推荐使用 miniforge 管理环境。推理时显存占用约 6GB。视频处理耗时主要集中在编解码过程。模型文件会在首次运行演示脚本时自动下载。预训练模型基于 CC-BY-NC 4.0 许可，可能不适用于商业用途。","3.9+",[109,110,111,112,113],"torch>=2.5.1","torchvision","torchaudio","pyav","gradio",[115,116,15,14],"视频","音频",[118,119,120,121,122,123],"audio","audio-synthesis","computer-vision","deep-learning","video-to-audio","text-to-audio","2026-03-27T02:49:30.150509","2026-04-14T04:36:06.561037",[127,132,137,142,147,151],{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},32489,"如何仅使用音频数据训练模型而不使用视频数据？","您可以修改数据加载逻辑以跳过视频数据的加载。具体需要修改 `mmaudio\u002Fdata\u002Fdata_setup.py` 文件中的相关代码（参考第 45-148 行）。请注意，即使不训练视频部分，您仍然需要下载音频数据用于训练。","https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FMMAudio\u002Fissues\u002F42",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},32490,"运行 Video-to-Audio 生成时遇到 'ValueError: File object has no read() method' 错误或 GPU 未被利用怎么办？","这通常是因为安装了错误版本的 PyTorch（例如安装了 CPU 版本而非 CUDA 版本）。请激活应用环境并执行 `pip show torch` 检查版本。如果版本号后面没有类似 `+cu128` 的标识，说明安装的是 CPU 版本。您需要重新安装支持 CUDA 的 PyTorch。此外，如果您有多张显卡，可能是调用了错误的 GPU，可以通过设置环境变量 `CUDA_VISIBLE_DEVICES=0`（或对应的显卡编号）来指定正确的 GPU。","https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FMMAudio\u002Fissues\u002F94",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},32491,"论文中使用的音频提取设置（如 16kHz 和 44kHz 版本）具体是什么？","虽然维护者确认了测试集的存在，但具体的音频提取命令行或程序细节未在 Issue 评论中直接给出。建议查看项目仓库中的数据处理脚本或论文附录以获取确切的提取参数。对于 VGGSound 等数据集，通常使用标准的 ffmpeg 命令进行重采样和提取。","https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FMMAudio\u002Fissues\u002F90",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},32492,"如何解决 'ModuleNotFoundError: No module named av_bench' 错误？","该错误表明 `avbenchmark` 项目未正确安装或路径配置错误。确保 `avbenchmark` 项目已克隆，并且其路径包含在 Python 的环境变量中，或者将其放置在 MMAudio 项目目录下以便导入。如果是在训练示例数据时遇到文件缺失错误（如 `vgg-example.tsv`），请先运行 `training\u002Fextract_video_training_latents.py` 脚本来生成必要的训练潜变量和元数据文件。","https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FMMAudio\u002Fissues\u002F40",{"id":148,"question_zh":149,"answer_zh":150,"source_url":141},32493,"在哪里可以找到论文中提到的 'Greatest Hits' 数据集的 244 测试分割文件？","该测试分割文件可能未直接公开在其他仓库中。建议检查项目根目录下的 `vis-data` 文件夹，看是否包含 `test.txt` 或其他类似的测试集划分文件，这通常是官方使用的测试分割。如果仍未找到，可能需要联系作者或查阅论文的数据部分以获取下载链接。",{"id":152,"question_zh":153,"answer_zh":154,"source_url":146},32494,"训练时出现 'FileNotFoundError' 找不到 tsv 文件（如 vgg-example.tsv）如何解决？","这些 tsv 文件不是预先提供的，而是需要用户自行生成的预处理文件。请运行项目中的 `training\u002Fextract_video_training_latents.py` 脚本。该脚本会处理原始视频数据并生成所需的 `.tsv` 索引文件和 memmap 数据，之后才能开始训练。",[156],{"id":157,"version":158,"summary_zh":159,"released_at":160},247292,"v0.1","用于流量预测网络的权重过大，无法在此处展示。请参阅 https:\u002F\u002Fhuggingface.co\u002Fhkchengrex\u002FMMAudio。\n请注意，该模型的权重采用 [CC BY-NC 4.0](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc\u002F4.0\u002F) 许可协议授权。","2024-12-07T19:33:18"]