[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tool-Stanford-TML--EDGE":3,"similar-Stanford-TML--EDGE":95},{"id":4,"github_repo":5,"name":6,"description_en":7,"description_zh":8,"ai_summary_zh":8,"readme_en":9,"readme_zh":10,"quickstart_zh":11,"use_case_zh":12,"hero_image_url":13,"owner_login":14,"owner_name":15,"owner_avatar_url":16,"owner_bio":17,"owner_company":18,"owner_location":18,"owner_email":18,"owner_twitter":18,"owner_website":19,"owner_url":20,"languages":21,"stars":34,"forks":35,"last_commit_at":36,"license":37,"difficulty_score":38,"env_os":39,"env_gpu":40,"env_ram":41,"env_deps":42,"category_tags":50,"github_topics":54,"view_count":59,"oss_zip_url":18,"oss_zip_packed_at":18,"status":60,"created_at":61,"updated_at":62,"faqs":63,"releases":94},4351,"Stanford-TML\u002FEDGE","EDGE","Official PyTorch Implementation of EDGE (CVPR 2023)","EDGE 是一款基于 PyTorch 开源的 AI 舞蹈生成工具，曾发表于计算机视觉顶会 CVPR 2023。它旨在解决传统舞蹈创作耗时费力且门槛高的问题，能够根据输入的音乐自动生成动作逼真、符合物理规律且节奏卡点精准的舞蹈序列。\n\n与普通生成模型不同，EDGE 的核心亮点在于其强大的“可编辑性”。它结合了 Transformer 架构的扩散模型与 Jukebox 音乐特征提取器，不仅支持整体生成，还允许用户对特定关节动作进行精细化控制，或自动补全动作片段（In-betweening），为舞蹈编排提供了极大的灵活度。此外，项目引入了新的物理合理性评估指标，并通过大规模用户研究验证了其生成质量显著优于以往的最先进方法。\n\nEDGE 主要面向人工智能研究人员、计算机视觉开发者以及数字内容创作者。由于运行该模型需要配置 Linux 环境、安装 PyTorch 及 CUDA 加速，并依赖较高的显存资源（建议至少 16GB），它更适合具备一定深度学习工程基础的技术人员使用。对于希望探索音乐驱动动作生成前沿技术，或需要定制化舞蹈素材的专业团队而言，EDGE 是一个极具价值的研究基准与实践工具。","![EDGE cover image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FStanford-TML_EDGE_readme_052a1e48bb5a.png)\n## EDGE &mdash; Official PyTorch implementation\n**EDGE: Editable Dance Generation From Music** (CVPR 2023)\u003Cbr>\nJonathan Tseng, Rodrigo Castellon, C. Karen Liu\u003Cbr>\nhttps:\u002F\u002Farxiv.org\u002Fabs\u002F2211.10658\n*Abstract: Dance is an important human art form, but creating new dances can be difficult and time-consuming. In this work, we introduce Editable Dance GEneration (EDGE), a state-of-the-art method for editable dance generation that is capable of creating realistic, physically-plausible dances while remaining faithful to the input music. EDGE uses a transformer-based diffusion model paired with Jukebox, a strong music feature extractor, and confers powerful editing capabilities well-suited to dance, including joint-wise conditioning, and in-betweening. We introduce a new metric for physical plausibility, and evaluate dance quality generated by our method extensively through (1) multiple quantitative metrics on physical plausibility, beat alignment, and diversity benchmarks, and more importantly, (2) a large-scale user study, demonstrating a significant improvement over previous state-of-the-art methods.*\n## Requirements\n* We recommend Linux for performance and compatibility reasons. Windows will probably work, but is not officially supported.\n* 64-bit Python 3.7+\n* PyTorch 1.12.1\n* At least 16 GB RAM per GPU\n* 1&ndash;8 high-end NVIDIA GPUs with at least 16 GB of GPU memory, NVIDIA drivers, CUDA 11.6 toolkit.\n\nThe example build this repo was validated on:\n* Debian 10\n* 64-bit Python 3.7.12\n* PyTorch 1.12.1\n* 16 GB RAM\n* 1 x NVIDIA T4, CUDA 11.6 toolkit\n\nThis repository additionally depends on the following libraries, which may require special installation procedures:\n* [jukemirlib](https:\u002F\u002Fgithub.com\u002Frodrigo-castellon\u002Fjukemirlib)\n* [pytorch3d](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fpytorch3d)\n* [accelerate](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Faccelerate\u002Fv0.16.0\u002Fen\u002Findex)\n\t* Note: after installation, don't forget to run `accelerate config` . We use fp16.\n* [wine](https:\u002F\u002Fwww.winehq.org) (Optional, for import to Blender only)\n## Getting started\n### Quickstart\n* Download the saved model checkpoint from [Google Drive](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1BAR712cVEqB8GR37fcEihRV_xOC-fZrZ\u002Fview?usp=share_link) or by running `bash download_model.sh`.\n* Run `demo.ipynb`, which demonstrates the basic interface of the model\n### Load custom music\nYou can test the model on custom music by downloading them as `.wav` files into a directory, e.g. `custom_music\u002F` and running\n```.bash\npython test.py --music_dir custom_music\u002F\n```\nThis process may take a while, since the script will extract all the Jukebox representations for the specified music in memory. The representations can also be saved and reused to improve speed with the `--cache_features` and `--use_cached_features` arguments. See `args.py` for more detail.\nNote: make sure file names are regularized, e.g. `Britney Spears - Toxic (Official HD Video).wav` may cause unpredictable behavior due to the spaces and parentheses, but `toxic.wav` will behave as expected. See how the demo notebook achieves this using the `youtube-dl --output` flag.\n\n### (Optional, retraining only) Dataset Download\nDownload and process the AIST++ dataset (wavs and motion only) using:\n```.bash\ncd data\nbash download_dataset.sh\npython create_dataset.py --extract-baseline --extract-jukebox\n```\nThis will process the dataset to match the settings used in the paper. The data processing will take ~24 hrs and ~50 GB to precompute all the Jukebox features for the dataset.\n### Train your own model\nOnce the AIST++ dataset is downloaded and processed, run the training script, e.g.\n```.bash\naccelerate launch train.py --batch_size 128  --epochs 2000 --feature_type jukebox --learning_rate 0.0002\n```\nto train the model with the settings from the paper. The training will log progress to `wandb` and intermittently produce sample outputs to visualize learning. Depending on the available GPUs, this can take ~6 - 24 hrs.\n### Evaluate your model\nEvaluate your model's outputs with the Physical Foot Contact (PFC) score proposed in the paper:\n1. Generate ~1k samples, saving the joint positions with the `--save_motions` argument\n2. Run the evaluation script\n```.bash\npython test.py --music_dir custom_music\u002F --save_motions\npython eval\u002Feval_pfc.py\n```\n## Blender 3D rendering\nIn order to render generated dances in 3D, we convert them into FBX files to be used in Blender. We provide a sample rig, `SMPL-to-FBX\u002Fybot.fbx`.\nAfter generating dances with the `--save-motions` flag enabled, move the relevant saved `.pkl` files to a folder, e.g. `smpl_samples`\nRun\n```.bash\npython SMPL-to-FBX\u002FConvert.py --input_dir SMPL-to-FBX\u002Fsmpl_samples\u002F --output_dir SMPL-to-FBX\u002Ffbx_out\n```\nto convert motions into FBX files, which can be imported into Blender and retargeted onto different rigs, i.e. from [Mixamo](https:\u002F\u002Fwww.mixamo.com). A variety of retargeting tools are available, such as the [Rokoko plugin for Blender](https:\u002F\u002Fwww.rokoko.com\u002Fintegrations\u002Fblender).\n\n## Development\nThis is a research implementation and, in general, will not be regularly updated or maintained long after release.\n## Citation\n```\n@article{tseng2022edge,\n  title={EDGE: Editable Dance Generation From Music},\n  author={Tseng, Jonathan and Castellon, Rodrigo and Liu, C Karen},\n  journal={arXiv preprint arXiv:2211.10658},\n  year={2022}\n}\n```\n## Acknowledgements\nWe would like to thank [lucidrains](https:\u002F\u002Fgithub.com\u002Flucidrains) for the [Adan](https:\u002F\u002Fgithub.com\u002Flucidrains\u002FAdan-pytorch) and [diffusion](https:\u002F\u002Fgithub.com\u002Flucidrains\u002Fdenoising-diffusion-pytorch) repos, [softcat477](https:\u002F\u002Fgithub.com\u002Fsoftcat477) for their [SMPL to FBX](https:\u002F\u002Fgithub.com\u002Fsoftcat477\u002FSMPL-to-FBX) library, and [BobbyAnguelov](https:\u002F\u002Fgithub.com\u002FBobbyAnguelov) for their [FBX Converter tool](https:\u002F\u002Fgithub.com\u002FBobbyAnguelov\u002FFbxFormatConverter).","![EDGE 封面图](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FStanford-TML_EDGE_readme_052a1e48bb5a.png)\n## EDGE &mdash; 官方 PyTorch 实现\n**EDGE：基于音乐的可编辑舞蹈生成**（CVPR 2023）\u003Cbr>\nJonathan Tseng, Rodrigo Castellon, C. Karen Liu\u003Cbr>\nhttps:\u002F\u002Farxiv.org\u002Fabs\u002F2211.10658\n*摘要：舞蹈是人类重要的艺术形式，但创作新舞蹈往往困难且耗时。在本工作中，我们提出了可编辑舞蹈生成（EDGE），这是一种最先进的方法，能够在忠实于输入音乐的同时，生成逼真且物理上合理的舞蹈。EDGE 使用基于 Transformer 的扩散模型，并结合强大的音乐特征提取器 Jukebox，赋予了舞蹈生成强大的编辑能力，包括关节级别的条件控制和中间帧插值等。我们引入了一种新的物理合理性度量指标，并通过以下方式对所提出方法生成的舞蹈质量进行了全面评估：(1) 多项关于物理合理性、节拍对齐和多样性的定量指标；更重要的是，(2) 一项大规模用户研究，结果表明我们的方法显著优于先前的最先进方法。*\n## 需求\n* 出于性能和兼容性考虑，我们建议使用 Linux 系统。Windows 系统可能也能运行，但未被官方支持。\n* 64 位 Python 3.7+\n* PyTorch 1.12.1\n* 每张 GPU 至少需要 16 GB 内存\n* 1–8 张高端 NVIDIA GPU，每张至少配备 16 GB 显存，安装 NVIDIA 驱动及 CUDA 11.6 工具包。\n\n本仓库示例构建经过验证的环境：\n* Debian 10\n* 64 位 Python 3.7.12\n* PyTorch 1.12.1\n* 16 GB 内存\n* 1 张 NVIDIA T4，CUDA 11.6 工具包\n\n此外，本仓库还依赖以下库，这些库可能需要特殊的安装步骤：\n* [jukemirlib](https:\u002F\u002Fgithub.com\u002Frodrigo-castellon\u002Fjukemirlib)\n* [pytorch3d](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fpytorch3d)\n* [accelerate](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Faccelerate\u002Fv0.16.0\u002Fen\u002Findex)\n\t* 注意：安装后请务必运行 `accelerate config`。我们使用 fp16 精度。\n* [wine](https:\u002F\u002Fwww.winehq.org)（可选，仅用于导入 Blender）\n\n## 快速入门\n### 快速开始\n* 从 [Google Drive](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1BAR712cVEqB8GR37fcEihRV_xOC-fZrZ\u002Fview?usp=share_link) 下载保存的模型检查点，或直接运行 `bash download_model.sh`。\n* 运行 `demo.ipynb`，该笔记本演示了模型的基本接口。\n### 加载自定义音乐\n您可以通过将自定义音乐下载为 `.wav` 文件并放入指定目录（例如 `custom_music\u002F`），然后运行以下命令来测试模型：\n```.bash\npython test.py --music_dir custom_music\u002F\n```\n此过程可能需要一些时间，因为脚本会将指定音乐的所有 Jukebox 特征提取并存储在内存中。这些特征也可以保存下来并在后续使用中重复利用，只需添加 `--cache_features` 和 `--use_cached_features` 参数即可。更多细节请参阅 `args.py` 文件。  \n注意：请确保文件名格式规范，例如 `Britney Spears - Toxic (Official HD Video).wav` 可能因空格和括号导致不可预测的行为，而 `toxic.wav` 则会按预期工作。演示笔记本中使用了 `youtube-dl --output` 标志来实现这一点。\n\n### （可选，仅限微调）数据集下载\n使用以下命令下载并处理 AIST++ 数据集（仅包含音频和动作数据）：\n```.bash\ncd data\nbash download_dataset.sh\npython create_dataset.py --extract-baseline --extract-jukebox\n```\n这将按照论文中的设置对数据集进行预处理。数据处理大约需要 24 小时，并占用约 50 GB 空间，以预先计算数据集中所有 Jukebox 特征。\n\n### 训练您自己的模型\n在 AIST++ 数据集下载并处理完成后，您可以运行训练脚本，例如：\n```.bash\naccelerate launch train.py --batch_size 128  --epochs 2000 --feature_type jukebox --learning_rate 0.0002\n```\n以论文中设定的参数训练模型。训练过程会将进度记录到 `wandb` 并间歇性地生成样本输出以可视化学习效果。根据可用的 GPU 数量，整个训练过程可能需要 6 到 24 小时。\n\n### 评估您的模型\n使用论文中提出的物理足部接触（PFC）分数评估您的模型输出：\n1. 生成约 1000 个样本，并使用 `--save_motions` 参数保存关节位置。\n2. 运行评估脚本：\n```.bash\npython test.py --music_dir custom_music\u002F --save_motions\npython eval\u002Feval_pfc.py\n```\n\n## Blender 3D 渲染\n为了以 3D 方式渲染生成的舞蹈，我们将它们转换为 FBX 文件，以便在 Blender 中使用。我们提供了一个示例骨骼绑定文件 `SMPL-to-FBX\u002Fybot.fbx`。\n在启用 `--save-motions` 标志生成舞蹈后，将相关的 `.pkl` 文件移动到一个文件夹中，例如 `smpl_samples`。\n运行以下命令将动作转换为 FBX 文件，这些文件可以导入 Blender 并重新绑定到不同的骨骼上，例如 [Mixamo](https:\u002F\u002Fwww.mixamo.com) 提供的骨骼。此外，还有多种重定向工具可供选择，例如 [Rokoko 插件 for Blender](https:\u002F\u002Fwww.rokoko.com\u002Fintegrations\u002Fblender)。\n\n## 开发说明\n这是一个研究性质的实现，通常在发布后不会定期更新或维护。\n## 引用\n```\n@article{tseng2022edge,\n  title={EDGE: Editable Dance Generation From Music},\n  author={Tseng, Jonathan and Castellon, Rodrigo and Liu, C Karen},\n  journal={arXiv preprint arXiv:2211.10658},\n  year={2022}\n}\n```\n## 致谢\n我们感谢 [lucidrains](https:\u002F\u002Fgithub.com\u002Flucidrains) 提供的 [Adan](https:\u002F\u002Fgithub.com\u002Flucidrains\u002FAdan-pytorch) 和 [diffusion](https:\u002F\u002Fgithub.com\u002Flucidrains\u002Fdenoising-diffusion-pytorch) 代码库，感谢 [softcat477](https:\u002F\u002Fgithub.com\u002Fsoftcat477) 提供的 [SMPL to FBX](https:\u002F\u002Fgithub.com\u002Fsoftcat477\u002FSMPL-to-FBX) 库，以及 [BobbyAnguelov](https:\u002F\u002Fgithub.com\u002FBobbyAnguelov) 提供的 [FBX 转换工具](https:\u002F\u002Fgithub.com\u002FBobbyAnguelov\u002FFbxFormatConverter)。","# EDGE 快速上手指南\n\nEDGE (Editable Dance Generation From Music) 是一个基于 PyTorch 的开源项目，能够根据输入音乐生成逼真且符合物理规律的舞蹈动作，并支持关节级条件控制和中间帧生成等编辑功能。\n\n## 环境准备\n\n### 系统要求\n*   **操作系统**: 推荐 Linux (如 Debian 10)。Windows 可能可用但非官方支持。\n*   **Python**: 64-bit Python 3.7+ (推荐 3.7.12)。\n*   **内存**: 每块 GPU 至少需要 16 GB RAM。\n*   **GPU**: 1–8 张高端 NVIDIA 显卡，显存至少 16 GB，需安装 NVIDIA 驱动和 CUDA 11.6 toolkit。\n*   **框架**: PyTorch 1.12.1。\n\n### 前置依赖\n本项目依赖以下特殊库，安装前请确保已配置好基础环境：\n*   `jukemirlib`: 音乐特征提取器。\n*   `pytorch3d`: Facebook Research 开发的 3D 深度学习库。\n*   `accelerate`: Hugging Face 提供的加速库。\n*   `wine` (可选): 仅当需要将结果导入 Blender 时需要。\n\n> **注意**: 国内用户安装 `pytorch3d` 和 `jukemirlib` 时可能会遇到网络问题，建议检查是否有对应的国内镜像源或手动下载源码包进行本地安装。\n\n## 安装步骤\n\n1.  **克隆仓库并安装基础依赖**\n    ```bash\n    git clone \u003Crepository_url>\n    cd EDGE\n    pip install -r requirements.txt\n    ```\n    *(注：若根目录无 requirements.txt，请根据项目实际依赖列表手动安装 torch==1.12.1 等核心库)*\n\n2.  **安装特殊依赖库**\n    按照各库官方说明安装 `jukemirlib` 和 `pytorch3d`。例如：\n    ```bash\n    pip install jukemirlib\n    # pytorch3d 通常需要编译安装，请参考其 GitHub 页面针对 CUDA 11.6 的安装指令\n    pip install accelerate\n    ```\n\n3.  **配置 Accelerate**\n    安装完成后，必须运行配置命令。根据项目要求，混合精度选择 `fp16`：\n    ```bash\n    accelerate config\n    ```\n\n4.  **下载预训练模型**\n    从 Google Drive 下载 checkpoint，或直接运行脚本：\n    ```bash\n    bash download_model.sh\n    ```\n    *(国内用户若无法访问 Google Drive，需自行寻找模型文件 `1BAR712cVEqB8GR37fcEihRV_xOC-fZrZ` 并放置于对应目录)*\n\n## 基本使用\n\n### 1. 体验演示 (Quickstart)\n运行 Jupyter Notebook 查看模型的基本接口和示例：\n```bash\njupyter notebook demo.ipynb\n```\n\n### 2. 使用自定义音乐生成舞蹈\n将你的音乐文件转换为 `.wav` 格式放入目录（例如 `custom_music\u002F`）。\n**重要提示**: 文件名必须规范化，避免空格和括号。\n*   ❌ 错误示例: `Britney Spears - Toxic (Official HD Video).wav`\n*   ✅ 正确示例: `toxic.wav`\n\n运行生成脚本：\n```bash\npython test.py --music_dir custom_music\u002F\n```\n*首次运行会提取 Jukebox 音乐特征，耗时较长。可通过 `--cache_features` 保存特征，后续使用 `--use_cached_features` 加速。*\n\n### 3. (可选) 导出为 3D 模型 (FBX)\n若需在 Blender 中渲染，需先将生成的动作转换为 FBX 格式。\n\n1.  生成动作时带上 `--save_motions` 参数，将生成的 `.pkl` 文件移至 `SMPL-to-FBX\u002Fsmpl_samples\u002F` 目录。\n2.  执行转换脚本：\n    ```bash\n    python SMPL-to-FBX\u002FConvert.py --input_dir SMPL-to-FBX\u002Fsmpl_samples\u002F --output_dir SMPL-to-FBX\u002Ffbx_out\n    ```\n3.  将输出的 FBX 文件导入 Blender，可使用 Mixamo 或 Rokoko 插件进行骨骼重定向。","某独立游戏开发团队正在为一款音乐节奏游戏制作角色舞蹈动画，需要根据多首不同风格的背景音乐快速生成自然且卡点精准的动作序列。\n\n### 没有 EDGE 时\n- 动画师必须手动逐帧调整骨骼关键帧以匹配音乐节拍，制作一段 30 秒的舞蹈往往耗时数天。\n- 生成的动作容易出现物理违和感，如脚部滑步或关节过度扭曲，需要反复人工修正以保证真实感。\n- 若需修改特定肢体动作（如只调整手臂挥舞轨迹），往往牵一发而动全身，难以进行局部精细化编辑。\n- 面对大量曲目需求，团队缺乏自动化手段，导致内容产出速度严重滞后于音乐素材的积累。\n\n### 使用 EDGE 后\n- 开发者只需输入 `.wav` 格式音乐文件，EDGE 即可基于扩散模型自动生成全程卡点精准、风格匹配的舞蹈动画。\n- 内置的物理合理性约束机制确保生成的动作符合人体运动规律，大幅减少了后期修复脚部滑步等瑕疵的工作量。\n- 利用其强大的“关节级条件控制”功能，团队可单独指定手部或腿部动作进行重绘，实现灵活的局部编辑而不影响整体流畅度。\n- 通过批量处理脚本，团队能在数小时内完成数十首曲目的舞蹈预生成，将原本以周为单位的制作周期压缩至小时级。\n\nEDGE 将舞蹈动画创作从繁琐的手工关键帧绘制转变为高效的“音乐驱动 + 局部编辑”模式，显著提升了游戏内容生产的效率与质量。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FStanford-TML_EDGE_052a1e48.png","Stanford-TML","The Movement Lab @ Stanford","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FStanford-TML_3b9cd0db.png","",null,"https:\u002F\u002Ftml.stanford.edu","https:\u002F\u002Fgithub.com\u002FStanford-TML",[22,26,30],{"name":23,"color":24,"percentage":25},"Python","#3572A5",95.2,{"name":27,"color":28,"percentage":29},"Jupyter Notebook","#DA5B0B",4.2,{"name":31,"color":32,"percentage":33},"Shell","#89e051",0.7,556,98,"2026-04-05T22:34:06","MIT",4,"Linux","必需，1-8 张高端 NVIDIA GPU（验证环境为 NVIDIA T4），单卡显存至少 16GB，需安装 NVIDIA 驱动及 CUDA 11.6 工具包","每 GPU 至少 16GB（验证环境为 16GB）",{"notes":43,"python":44,"dependencies":45},"Windows 非官方支持但可能可用；安装 accelerate 后需运行 'accelerate config' 并配置为 fp16 模式；若需导入 Blender 进行 3D 渲染，需可选安装 Wine；处理自定义音乐时文件名应避免空格和括号以防出错；训练前需下载并预处理 AIST++ 数据集（耗时约 24 小时，需 50GB 空间）。","3.7+",[46,47,48,49],"PyTorch 1.12.1","jukemirlib","pytorch3d","accelerate",[51,52,53],"视频","开发框架","图像",[55,56,57,58],"animation","dance-generation","diffusion-models","pytorch",2,"ready","2026-03-27T02:49:30.150509","2026-04-06T18:54:35.810133",[64,69,74,79,84,89],{"id":65,"question_zh":66,"answer_zh":67,"source_url":68},19796,"将 SMPL 动作转换为 FBX 时出现 'AttributeError: NoneType object has no attribute LclRotation' 错误怎么办？","该错误通常是因为直接使用了来自 Mixamo 的 FBX 文件，其关节初始旋转与项目默认的 ybot.fbx 不一致。解决方法有两种：1. 使用重定向（retargeting）工具；2. 手动转换关节。手动转换意味着需要在代码中调整 `SmplObject` 类中的关节定义，或者在 UE\u002FBlender 中查看并修正每个关节的初始旋转，使其与目标模型匹配。","https:\u002F\u002Fgithub.com\u002FStanford-TML\u002FEDGE\u002Fissues\u002F1",{"id":70,"question_zh":71,"answer_zh":72,"source_url":73},19797,"如何生成不同长度（超过默认 30 秒）的动作视频？","可以通过 `test.py` 脚本的 `--out_length` 参数来控制输出长度。模型通过将多个 5 秒的片段拼接来生成长视频。例如，生成 45 秒的视频可运行：`python test.py --music_dir custom_music --cache_features` 然后运行 `python test.py --music_dir custom_music --use_cached_features --out_length 45`。也可以直接运行 `python test.py --music_dir custom_music --out_length 50`。注意不要修改代码中固定的帧宽（如 150 帧对应 5 秒@30fps），否则会导致张量尺寸不匹配的错误。","https:\u002F\u002Fgithub.com\u002FStanford-TML\u002FEDGE\u002Fissues\u002F7",{"id":75,"question_zh":76,"answer_zh":77,"source_url":78},19798,"使用短于 30 秒的音乐文件时报错 'ValueError: empty range for randrange()' 如何解决？","这是因为 `test.py` 的逻辑默认会从每首歌曲中随机截取 30 秒的片段进行处理。如果输入的音乐文件总时长不足 30 秒，随机截取的范围就会无效从而报错。目前的解决方案是确保输入的音乐文件长度至少为 30 秒。","https:\u002F\u002Fgithub.com\u002FStanford-TML\u002FEDGE\u002Fissues\u002F2",{"id":80,"question_zh":81,"answer_zh":82,"source_url":83},19799,"运行 SMPL 到 FBX 的转换脚本时出现 'Segmentation fault (core dumped)' 错误怎么办？","这通常是 Python 版本兼容性问题。即使已正确安装 Python FBX SDK，如果使用 Python 3.8 可能会触发段错误。解决方案是将运行环境的 Python 版本切换为 3.7，重新运行转换脚本即可正常工作。","https:\u002F\u002Fgithub.com\u002FStanford-TML\u002FEDGE\u002Fissues\u002F6",{"id":85,"question_zh":86,"answer_zh":87,"source_url":88},19800,"在处理数据集时遇到 'Disk quota exceeded'（磁盘配额超出）错误如何处理？","如果在提取 Jukebox 特征（--extract-jukebox）时遇到此错误，可以尝试仅提取基线特征（baseline features）。运行命令时添加 `--extract-baseline` 参数而不使用 `--extract-jukebox`，通常可以绕过该问题并成功生成数据。","https:\u002F\u002Fgithub.com\u002FStanford-TML\u002FEDGE\u002Fissues\u002F5",{"id":90,"question_zh":91,"answer_zh":92,"source_url":93},19801,"生成的输出结果没有声音，如何将动作与音乐同步或生成带声音的 MP4？","该项目生成的 `.fbx` 或 `.pkl` 文件仅包含动作数据，不包含音频流，因此直接播放没有声音。若要实现音画同步，需要使用外部视频编辑软件（如 FFmpeg、Premiere 或 Blender）将生成的动作渲染视频与原始输入音乐文件进行合成。项目本身不提供直接生成带声音 MP4 的功能。","https:\u002F\u002Fgithub.com\u002FStanford-TML\u002FEDGE\u002Fissues\u002F21",[],[96,107,115,124,132,140],{"id":97,"name":98,"github_repo":99,"description_zh":100,"stars":101,"difficulty_score":102,"last_commit_at":103,"category_tags":104,"status":60},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[105,52,53,106],"Agent","数据工具",{"id":108,"name":109,"github_repo":110,"description_zh":111,"stars":112,"difficulty_score":102,"last_commit_at":113,"category_tags":114,"status":60},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[52,53,105],{"id":116,"name":117,"github_repo":118,"description_zh":119,"stars":120,"difficulty_score":59,"last_commit_at":121,"category_tags":122,"status":60},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,"2026-04-05T23:32:43",[52,105,123],"语言模型",{"id":125,"name":126,"github_repo":127,"description_zh":128,"stars":129,"difficulty_score":59,"last_commit_at":130,"category_tags":131,"status":60},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[52,53,105],{"id":133,"name":134,"github_repo":135,"description_zh":136,"stars":137,"difficulty_score":102,"last_commit_at":138,"category_tags":139,"status":60},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[52,53,105,51],{"id":141,"name":142,"github_repo":143,"description_zh":144,"stars":145,"difficulty_score":59,"last_commit_at":146,"category_tags":147,"status":60},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[52,123]]