[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tool-SkyworkAI--SkyReels-V1":3,"similar-SkyworkAI--SkyReels-V1":83},{"id":4,"github_repo":5,"name":6,"description_en":7,"description_zh":8,"ai_summary_zh":8,"readme_en":9,"readme_zh":10,"quickstart_zh":11,"use_case_zh":12,"hero_image_url":13,"owner_login":14,"owner_name":15,"owner_avatar_url":16,"owner_bio":17,"owner_company":18,"owner_location":18,"owner_email":18,"owner_twitter":18,"owner_website":19,"owner_url":20,"languages":21,"stars":26,"forks":27,"last_commit_at":28,"license":29,"difficulty_score":30,"env_os":31,"env_gpu":32,"env_ram":33,"env_deps":34,"category_tags":40,"github_topics":44,"view_count":48,"oss_zip_url":18,"oss_zip_packed_at":18,"status":49,"created_at":50,"updated_at":51,"faqs":52,"releases":82},6827,"SkyworkAI\u002FSkyReels-V1","SkyReels-V1","SkyReels V1: The first and most advanced open-source human-centric video foundation model","SkyReels-V1 是一款专注于人物表现的视频生成基础模型，也是目前首个且最先进的开源同类项目。它基于腾讯混元视频（HunyuanVideo）架构，通过在千万级高质量影视片段上进行微调，能够根据文本描述或静态图片生成具有电影质感的动态视频。\n\n该工具主要解决了现有开源模型在人物动作自然度、面部表情丰富性以及画面光影美学上难以达到商业级水准的痛点。无论是复杂的多角色空间互动，还是细腻的情感表达，SkyReels-V1 都能呈现出媲美专业影视作品的效果，填补了开源领域在高精度人物视频生成方面的空白。\n\n这款工具非常适合 AI 研究人员、视频创作者、游戏开发者以及希望本地部署高质量视频生成能力的技术爱好者使用。其独特的技术亮点包括自研的数据清洗与标注流水线，能精准识别 33 种面部表情和超过 400 种动作语义单元；同时结合 3D 人体重建技术，实现了对多角色空间关系的深刻理解。此外，项目已提供完整的推理代码和模型权重，支持在 RTX4090 等消费级显卡上运行，并配备了友好的 Web 演示界面，便于用户快速上手体验。","\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkyworkAI_SkyReels-V1_readme_dfff6225cc32.png\" alt=\"SkyReels Logo\" width=\"50%\">\n\u003C\u002Fp>\n\n# SkyReels V1: Human-Centric Video Foundation Model\n\n\u003Cp align=\"center\">\n🤗 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FSkywork\u002Fskyreels-v1-67b34676ff65b4ec02d16307\" target=\"_blank\">Hugging Face\u003C\u002Fa> · 👋 \u003Ca href=\"https:\u002F\u002Fwww.skyreels.ai\u002Fhome?utm_campaign=github_V1\" target=\"_blank\">Playground\u003C\u002Fa> · 💬 \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FPwM6NYtccQ\" target=\"_blank\">Discord\u003C\u002Fa>\n\u003C\u002Fp>\n\n---\nWelcome to the SkyReels V1 repository! Here, you'll find the Text-to-Video & Image-to-Video model weights and inference code for our groundbreaking video foundation model.\n\n## 🔥🔥🔥 News!!\n\n* Feb 18, 2025: 👋 We release the inference code and model weights of [SkyReels-V1 Text2Video Model](https:\u002F\u002Fhuggingface.co\u002FSkywork\u002FSkyReels-V1-Hunyuan-T2V).\n* Feb 18, 2025: 👋 We release the inference code and model weights of [SkyReels-V1 Image2Video Model](https:\u002F\u002Fhuggingface.co\u002FSkywork\u002FSkyReels-V1-Hunyuan-I2V).\n* Feb 18, 2025: 🔥 We also release [SkyReels-A1](https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkyReels-A1). This is an open-sourced and effective framework portrait image animation model.\n\n## 🎥 Demos\n\u003Cdiv align=\"center\">\n\u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fdocs\u002Fassets\u002F2dbd116a-033d-4f7e-bd90-78a3da47cd9c\" width=\"70%\"> \u003C\u002Fvideo>\n\u003C\u002Fdiv>\n\n## 📑 TODO List\n\n- SkyReels-V1 (Text2Video Model)\n  - [x] Checkpoints\n  - [x] Inference Code\n  - [x] Web Demo (Gradio)\n  - [x] User-Level GPU Inference on RTX4090\n  - [x] Parallel Inference on Multi-GPUs\n  - [ ] Prompt Rewrite && Prompt Guidance\n  - [ ] CFG-distilled Model\n  - [ ] Lite Model\n  - [ ] 720P Version\n  - [ ] ComfyUI\n\n- SkyReels-V1 (Image2Video Model)\n  - [x] Checkpoints\n  - [x] Inference Code\n  - [x] Web Demo (Gradio)\n  - [x] User-Level GPU Inference on RTX4090\n  - [x] Parallel Inference on Multi-GPUs\n  - [ ] Prompt Rewrite && Prompt Guidance\n  - [ ] CFG-distilled Model\n  - [ ] Lite Model\n  - [ ] 720P Version\n  - [ ] ComfyUI\n\n## 🌟 Overview\n\nSkyReels V1 is the first and most advanced open-source human-centric video foundation model. By fine-tuning \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Ftencent\u002FHunyuanVideo\">HunyuanVideo\u003C\u002Fa> on O(10M) high-quality film and television clips, SkyReels V1 offers three key advantages:\n\n1. **Open-Source Leadership**: Our Text-to-Video model achieves state-of-the-art (SOTA) performance among open-source models, comparable to proprietary models like Kling and Hailuo.\n2. **Advanced Facial Animation**: Captures 33 distinct facial expressions with over 400 natural movement combinations, accurately reflecting human emotions.\n3. **Cinematic Lighting and Aesthetics**: Trained on high-quality Hollywood-level film and television data, each generated frame exhibits cinematic quality in composition, actor positioning, and camera angles.\n\n## 🔑 Key Features\n\n### 1. Self-Developed Data Cleaning and Annotation Pipeline\n\nOur model is built on a self-developed data cleaning and annotation pipeline, creating a vast dataset of high-quality film, television, and documentary content.\n\n- **Expression Classification**: Categorizes human facial expressions into 33 distinct types.\n- **Character Spatial Awareness**: Utilizes 3D human reconstruction technology to understand spatial relationships between multiple people in a video, enabling film-level character positioning.\n- **Action Recognition**: Constructs over 400 action semantic units to achieve a precise understanding of human actions.\n- **Scene Understanding**: Conducts cross-modal correlation analysis of clothing, scenes, and plots.\n\n### 2. Multi-Stage Image-to-Video Pretraining\n\nOur multi-stage pretraining pipeline, inspired by the \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Ftencent\u002FHunyuanVideo\">HunyuanVideo\u003C\u002Fa> design, consists of the following stages:\n\n- **Stage 1: Model Domain Transfer Pretraining**: We use a large dataset (O(10M) of film and television content) to adapt the text-to-video model to the human-centric video domain.\n- **Stage 2: Image-to-Video Model Pretraining**: We convert the text-to-video model from Stage 1 into an image-to-video model by adjusting the conv-in parameters. This new model is then pretrained on the same dataset used in Stage 1.\n- **Stage 3: High-Quality Fine-Tuning**: We fine-tune the image-to-video model on a high-quality subset of the original dataset, ensuring superior performance and quality.\n\n## 📊 Benchmark Results\nWe evaluate the performance of our text-to-video model using \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FVchitect\u002FVBench\">VBench\u003C\u002Fa>, comparing it with other outstanding open-source models.\n\nBased on the benchmark results, SkyReels V1 demonstrates SOTA performance among open-source Text-to-Video (T2V) models. Specifically, our model achieves an overall score of 82.43, which is higher than other open-source models such as VideoCrafter-2.0 VEnhancer (82.24) and CogVideoX1.5-5B (82.17). Additionally, our model achieves the highest scores in several key metrics, including Dynamic Degree and Multiple Objects, indicating our model's superior ability to handle complex video generation tasks.\n| Models                    | Overall | Quality Score | Semantic Score | Image Quality | Dynamic Degree | Multiple Objects | Spatial Relationship |  \n|---------------------------|---------|---------------|----------------|---------------|----------------|------------------|----------------------|\n| OpenSora V1.3             | 77.23   | 80.14         | 65.62          | 56.21         | 30.28          | 43.58            | 51.61                |\n| AnimateDiff-V2            | 80.27   | 82.90         | 69.75          | 70.1          | 40.83          | 36.88            | 34.60                |\n| VideoCrafter-2.0 VEnhancer| 82.24   | 83.54         | 77.06          | 65.35         | 63.89          | 68.84            | 57.55                |\n| CogVideoX1.5-5B           | 82.17   | 82.78         | 79.76          | 65.02         | 50.93          | 69.65            | 80.25                |\n| HunyuanVideo 540P         | 81.23   | 83.49         | 72.22          | 66.31         | 51.67          | 70.45            | 63.46                |\n| SkyReels V1 540P (Ours)   | **82.43** | **84.62**     | 73.68          | 67.15         | **72.5**       | **71.61**        | 70.83                |    \n\n\n## 📦 Model Introduction\n| Model Name      | Resolution | Video Length | FPS | Download Link |\n|-----------------|------------|--------------|-----|---------------|\n| SkyReels-V1-Hunyuan-I2V | 544px960p  | 97           | 24  | 🤗 [Download](https:\u002F\u002Fhuggingface.co\u002FSkywork\u002FSkyReels-V1-Hunyuan-I2V) |\n| SkyReels-V1-Hunyuan-T2V | 544px960p  | 97           | 24  | 🤗 [Download](https:\u002F\u002Fhuggingface.co\u002FSkywork\u002FSkyReels-V1-Hunyuan-T2V) |\n\n\n## 🚀 SkyReels Infer Introduction\n\nSkyReelsInfer is a highly efficient video generation inference framework that enables accurate and swift production of high-quality videos, making video generation inference significantly faster without any loss in quality.\n\n**Multi-GPU Inference Support**: The framework accommodates Context Parallel, CFG Parallel, and VAE Parallel methodologies, facilitating rapid and lossless video production to meet the stringent low-latency demands of online environments.\n\n**User-Level GPU Deployment**: By employing model quantization and parameter-level offload strategies, the system significantly reduces GPU memory requirements, catering to the needs of consumer-grade graphics cards with limited VRAM.\n\n**Superior Inference Performance**: Demonstrating exceptional efficiency, the framework achieves a 58.3% reduction in end-to-end latency compared to HunyuanVideo XDiT, setting a new benchmark for inference speed.\n\n**Excellent Usability**: Built upon the open-source framework Diffusers and featuring a non-intrusive parallel implementation approach, the system ensures a seamless and user-friendly experience.\n\n## 🛠️ Running Guide\n\nBegin by cloning the repository:\n```shell\ngit clone https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkyReels-V1\ncd skyreelsinfer\n```\n\n### Installation Guide for Linux\n\nWe recommend Python 3.10 and CUDA version 12.2 for the manual installation.\n\n```shell\n# Install pip dependencies\npip install -r requirements.txt\n```\n\nWhen sufficient VRAM is available (e.g., on A800), the lossless version can be run directly.\n\n**Note: When generating videos, the prompt should start with \"FPS-24, \" as we referenced the controlling the fps training method from \u003Ca href=https:\u002F\u002Fai.meta.com\u002Fresearch\u002Fpublications\u002Fmovie-gen-a-cast-of-media-foundation-models>Moviegen\u003C\u002Fa> during training.**\n\n```shell\nSkyReelsModel = \"Skywork\u002FSkyReels-V1-Hunyuan-T2V\"\npython3 video_generate.py \\\n    --model_id ${SkyReelsModel} \\\n    --task_type t2v \\\n    --guidance_scale 6.0 \\\n    --height 544 \\\n    --width 960 \\\n    --num_frames 97 \\\n    --prompt \"FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool\" \\\n    --embedded_guidance_scale 1.0\n```\n\n### User-Level GPU Inference (RTX4090)\n\nWe list the height\u002Fwidth\u002Fframe settings we recommend in the following table.\n|      Resolution       |           h\u002Fw=9:16           |    h\u002Fw=16:9     |     h\u002Fw=1:1     |\n|:---------------------:|:----------------------------:|:---------------:|:---------------:|\n|         544p          |        544px960px97f        |  960px544px97f |  720px720px97f |\n\n#### Using Command Line\n\n```shell\n# SkyReelsModel: If using i2v, switch to Skywork\u002FSkyReels-V1-Hunyuan-I2V.\n# quant: Enable FP8 weight-only quantization\n# offload: Enable offload model\n# high_cpu_memory: Enable pinned memory to reduce the overhead of model offloading.\n# parameters_level: Further reduce GPU VRAM usage.\n# task_type:The task type is designated to support both t2v and i2v. For the execution of an i2v task, it is necessary to input --image.\nSkyReelsModel = \"Skywork\u002FSkyReels-V1-Hunyuan-T2V\"\npython3 video_generate.py \\\n    --model_id ${SkyReelsModel} \\\n    --task_type t2v \\\n    --guidance_scale 6.0 \\\n    --height 544 \\\n    --width 960 \\\n    --num_frames 97 \\\n    --prompt \"FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool\" \\\n    --embedded_guidance_scale 1.0 \\\n    --quant \\\n    --offload \\\n    --high_cpu_memory \\\n    --parameters_level\n```\nThe example above shows generating a 544px960px97f 4s video on a single RTX 4090 with full VRAM optimization, peaking at 18.5G VRAM usage. At maximum VRAM capacity, a 544px960px289f 12s video can be produced (using `--sequence_batch`, taking ~1.5h on one RTX 4090; adding GPUs greatly reduces time).\n\n#### 🚀 Parallel Inference on Multiple GPUs\n\n```shell\n# SkyReelsModel: If using i2v, switch to Skywork\u002FSkyReels-V1-Hunyuan-I2V.\n# quant: Enable FP8 weight-only quantization\n# offload: Enable offload model\n# high_cpu_memory: Enable pinned memory to reduce the overhead of model offloading.\n# gpu_num: Number of GPUs used.\nSkyReelsModel = \"Skywork\u002FSkyReels-V1-Hunyuan-T2V\"\npython3 video_generate.py \\\n    --model_id ${SkyReelsModel} \\\n    --guidance_scale 6.0 \\\n    --height 544 \\\n    --width 960 \\\n    --num_frames 97 \\\n    --prompt \"FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool\" \\\n    --embedded_guidance_scale 1.0 \\\n    --quant \\\n    --offload \\\n    --high_cpu_memory \\\n    --gpu_num $GPU_NUM\n```\n\n## Performance Comparison\n\nThis test aims to compare the end-to-end latency of SkyReelsInfer and HunyuanVideo XDiT for 544p video processing on both the A800 (high-performance computing GPU) and RTX 4090 (consumer-grade GPU). The results will demonstrate the superior inference performance of SkyReelsInfer in terms of speed and efficiency.\n\n### Testing Parameters\n\n|      Resolution       |           video size           |    transformer step    |     guidance_scale     |\n|:---------------------:|:----------------------------:|:---------------:|:---------------:|\n|         540p          |        544px960px97f        |  30 |  6 |\n\n\n### User-Level GPU Inference (RTX4090)\n\nIn practice, Hunyuanvideo XDIT cannot perform inference on the RTX 4090 due to insufficient VRAM. To address this issue, we implemented fixes based on the official offload, FP8 model weights, and VAE tiling. These include:  \na) Optimizing the model loading and initialization logic to avoid fully loading the FP16 model into memory.  \nb) Reducing the VAE tiling size to alleviate memory usage.\nFor the deployment of SkyReelsInfer on the RTX 4090, the following measures will be implemented to ensure sufficient VRAM availability and efficient inference:  \na) **Model Quantization**: Apply FP8 weight-only quantization to ensure the model can be fully loaded into memory.  \nb) **Offload Strategy**: Enable parameter-level offloading to further reduce VRAM usage.  \nc) **Multi-GPU Parallelism**: Activate context parallelism, CFG parallelism, and VAE parallelism for distributed processing.  \nd) **Computation Optimization**: Optimize attention layer calculations using SegaAttn and enable Torch.Compile for transformer compilation optimization (supporting both 4-GPU and 8-GPU configurations).\n\n\n|      GPU NUM      |           hunyuanvideo + xdit    |           SkyReelsInfer   | \n|:---------------------:|:----------------------------:|:----------------------------:|\n|         1          |        VRAM OOM        |        889.31s        |\n|         2          |        VRAM OOM        |        453.69s        |\n|         4          |        464.3s        |        293.3s        |\n|         8          |        Cannot split video sequence into ulysses_degree x ring_degree        |        159.43s        |\n\nThe table above summarizes the end-to-end latency test results for generating 544p 4-second videos on the RTX 4090 using HunyuanVideo XDIT and SkyReelsVideoInfer. The following conclusions can be drawn:  \n- Under the same RTX 4090 resource conditions (4 GPUs), the SkyReelsInfer version reduces end-to-end latency by **58.3%** compared to HunyuanVideo XDIT (293.3s vs. 464.3s).  \n- The SkyReelsInfer version features a more robust deployment strategy, supporting inference deployment across **1 to 8 GPUs** at the user level.\n\n\n### A800\nBased on the A800 (80G), the primary testing focused on comparing the performance differences between HunyuanVideo XDIT and SkyReelsInfer without compromising output quality.\n\n|      GPU NUM      |           hunyuanvideo + xdit    |           SkyReelsInfer   | \n|:---------------------:|:----------------------------:|:----------------------------:|\n|         1          |        884.20s       |        771.03s        |\n|         2          |        487.22s        |        387.01s        |\n|         4          |        263.48s        |        205.49s        |\n|         8          |        Cannot split video sequence into ulysses_degree x ring_degree        |        107.41s        |\n\nThe table above summarizes the end-to-end latency test results for generating 544p 4-second videos on the A800 using HunyuanVideo XDIT and SkyReelsVideoInfer. The following conclusions can be drawn:\n\nUnder the same A800 resource conditions, the SkyReelsInfer version reduces end-to-end latency by 14.7% to 28.2% compared to the official HunyuanVideo version.\n\nThe SkyReelsInfer version features a more robust multi-GPU deployment strategy.\n\n## Acknowledgements\nWe would like to thank the contributors of \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Ftencent\u002FHunyuanVideo\">HunyuanVideo\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fchengzeyi\u002FParaAttention\">ParaAttention\u003C\u002Fa> and \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdiffusers\">Diffusers\u003C\u002Fa> repositories, for their open research and contributions.\n\n## Citation\n\n```bibtex\n@misc{SkyReelsV1,\n  author = {SkyReels-AI},\n  title = {Skyreels V1: Human-Centric Video Foundation Model},\n  year = {2025},\n  publisher = {GitHub},\n  journal = {GitHub repository},\n  howpublished = {\\url{https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkyReels-V1}}\n}\n```\n","\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkyworkAI_SkyReels-V1_readme_dfff6225cc32.png\" alt=\"SkyReels Logo\" width=\"50%\">\n\u003C\u002Fp>\n\n# SkyReels V1：以人为本的视频基础模型\n\n\u003Cp align=\"center\">\n🤗 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FSkywork\u002Fskyreels-v1-67b34676ff65b4ec02d16307\" target=\"_blank\">Hugging Face\u003C\u002Fa> · 👋 \u003Ca href=\"https:\u002F\u002Fwww.skyreels.ai\u002Fhome?utm_campaign=github_V1\" target=\"_blank\">体验平台\u003C\u002Fa> · 💬 \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FPwM6NYtccQ\" target=\"_blank\">Discord\u003C\u002Fa>\n\u003C\u002Fp>\n\n---\n欢迎来到 SkyReels V1 仓库！在这里，您将找到我们突破性视频基础模型的文生视频和图生视频模型权重及推理代码。\n\n## 🔥🔥🔥 最新消息！！\n\n* 2025年2月18日：👋 我们发布了 [SkyReels-V1 文生视频模型](https:\u002F\u002Fhuggingface.co\u002FSkywork\u002FSkyReels-V1-Hunyuan-T2V) 的推理代码和模型权重。\n* 2025年2月18日：👋 我们发布了 [SkyReels-V1 图生视频模型](https:\u002F\u002Fhuggingface.co\u002FSkywork\u002FSkyReels-V1-Hunyuan-I2V) 的推理代码和模型权重。\n* 2025年2月18日：🔥 我们还发布了 [SkyReels-A1](https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkyReels-A1)。这是一个开源且高效的框架式人像图像动画模型。\n\n## 🎥 演示\n\u003Cdiv align=\"center\">\n\u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fdocs\u002Fassets\u002F2dbd116a-033d-4f7e-bd90-78a3da47cd9c\" width=\"70%\"> \u003C\u002Fvideo>\n\u003C\u002Fdiv>\n\n## 📑 待办事项清单\n\n- SkyReels-V1（文生视频模型）\n  - [x] 检查点\n  - [x] 推理代码\n  - [x] Web演示（Gradio）\n  - [x] 在RTX4090上进行用户级GPU推理\n  - [x] 多GPU并行推理\n  - [ ] 提示重写与提示引导\n  - [ ] CFG蒸馏模型\n  - [ ] 轻量级模型\n  - [ ] 720P版本\n  - [ ] ComfyUI\n\n- SkyReels-V1（图生视频模型）\n  - [x] 检查点\n  - [x] 推理代码\n  - [x] Web演示（Gradio）\n  - [x] 在RTX4090上进行用户级GPU推理\n  - [x] 多GPU并行推理\n  - [ ] 提示重写与提示引导\n  - [ ] CFG蒸馏模型\n  - [ ] 轻量级模型\n  - [ ] 720P版本\n  - [ ] ComfyUI\n\n## 🌟 概述\n\nSkyReels V1 是首个也是最先进的开源以人为本视频基础模型。通过对 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Ftencent\u002FHunyuanVideo\">HunyuanVideo\u003C\u002Fa> 在O(10M)高质量影视片段上进行微调，SkyReels V1 具有三大优势：\n\n1. **开源领先**：我们的文生视频模型在开源模型中达到最先进（SOTA）水平，可与Kling、Hailuo等专有模型相媲美。\n2. **先进的面部动画**：捕捉33种不同的面部表情，结合超过400种自然动作组合，准确反映人类情感。\n3. **电影级光影与美学**：基于高质量的好莱坞级影视数据训练，生成的每一帧在构图、演员位置和镜头角度上都具有电影级品质。\n\n## 🔑 核心特性\n\n### 1. 自主开发的数据清洗与标注流水线\n\n我们的模型建立在自主开发的数据清洗与标注流水线上，构建了一个包含大量高质量电影、电视剧和纪录片内容的数据集。\n\n- **表情分类**：将人类面部表情分为33种不同类型。\n- **角色空间感知**：利用3D人体重建技术，理解视频中多人之间的空间关系，实现电影级别的角色定位。\n- **动作识别**：构建超过400个动作语义单元，以精确理解人类动作。\n- **场景理解**：对服装、场景和剧情进行跨模态相关性分析。\n\n### 2. 多阶段图生视频预训练\n\n受 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Ftencent\u002FHunyuanVideo\">HunyuanVideo\u003C\u002Fa> 设计启发，我们的多阶段预训练流水线包括以下阶段：\n\n- **阶段1：模型领域迁移预训练**：我们使用大规模数据集（O(10M)的影视内容）将文生视频模型适配到以人为中心的视频领域。\n- **阶段2：图生视频模型预训练**：通过调整卷积输入参数，将阶段1的文生视频模型转换为图生视频模型，并在阶段1使用的同一数据集上进行预训练。\n- **阶段3：高质量微调**：我们在原始数据集的高质量子集上对图生视频模型进行微调，确保卓越的性能和质量。\n\n## 📊 基准测试结果\n我们使用 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FVchitect\u002FVBench\">VBench\u003C\u002Fa> 对我们的文生视频模型性能进行了评估，并与其他优秀的开源模型进行了对比。\n\n根据基准测试结果，SkyReels V1 在开源文生视频（T2V）模型中表现出最先进（SOTA）的性能。具体来说，我们的模型获得了82.43的综合得分，高于其他开源模型，如 VideoCrafter-2.0 VEnhancer（82.24）和 CogVideoX1.5-5B（82.17）。此外，我们在多个关键指标上也取得了最高分，包括动态程度和多对象处理能力，这表明我们的模型在处理复杂视频生成任务方面具有更强的能力。\n| 模型                    | 综合得分 | 质量得分 | 语义得分 | 图像质量 | 动态程度 | 多对象 | 空间关系 |  \n|---------------------------|---------|---------------|----------------|---------------|----------------|------------------|----------------------|\n| OpenSora V1.3             | 77.23   | 80.14         | 65.62          | 56.21         | 30.28          | 43.58            | 51.61                |\n| AnimateDiff-V2            | 80.27   | 82.90         | 69.75          | 70.1          | 40.83          | 36.88            | 34.60                |\n| VideoCrafter-2.0 VEnhancer| 82.24   | 83.54         | 77.06          | 65.35         | 63.89          | 68.84            | 57.55                |\n| CogVideoX1.5-5B           | 82.17   | 82.78         | 79.76          | 65.02         | 50.93          | 69.65            | 80.25                |\n| HunyuanVideo 540P         | 81.23   | 83.49         | 72.22          | 66.31         | 51.67          | 70.45            | 63.46                |\n| SkyReels V1 540P（我们）   | **82.43** | **84.62**     | 73.68          | 67.15         | **72.5**       | **71.61**        | 70.83                |    \n\n\n## 📦 模型介绍\n| 模型名称      | 分辨率 | 视频时长 | FPS | 下载链接 |\n|-----------------|------------|--------------|-----|---------------|\n| SkyReels-V1-Hunyuan-I2V | 544px960p  | 97           | 24  | 🤗 [下载](https:\u002F\u002Fhuggingface.co\u002FSkywork\u002FSkyReels-V1-Hunyuan-I2V) |\n| SkyReels-V1-Hunyuan-T2V | 544px960p  | 97           | 24  | 🤗 [下载](https:\u002F\u002Fhuggingface.co\u002FSkywork\u002FSkyReels-V1-Hunyuan-T2V) |\n\n## 🚀 SkyReels Infer 介绍\n\nSkyReelsInfer 是一个高效的视频生成推理框架，能够准确且快速地生成高质量视频，在不损失质量的前提下显著提升视频生成推理的速度。\n\n**多 GPU 推理支持**：该框架支持上下文并行、CFG 并行和 VAE 并行等多种方法，能够在保证无损质量的同时，快速生成视频，满足在线环境对低延迟的严格要求。\n\n**用户级 GPU 部署**：通过采用模型量化和参数级卸载策略，系统大幅降低了 GPU 显存需求，能够适应显存有限的消费级显卡。\n\n**卓越的推理性能**：该框架表现出色的效率，与 HunyuanVideo XDiT 相比，端到端延迟降低了 58.3%，为推理速度树立了新的标杆。\n\n**出色的易用性**：基于开源框架 Diffusers 构建，并采用非侵入式的并行实现方式，确保了流畅且友好的用户体验。\n\n## 🛠️ 运行指南\n\n首先克隆仓库：\n```shell\ngit clone https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkyReels-V1\ncd skyreelsinfer\n```\n\n### Linux 系统安装指南\n\n手动安装时，建议使用 Python 3.10 和 CUDA 12.2 版本。\n\n```shell\n# 安装 pip 依赖\npip install -r requirements.txt\n```\n\n当显存充足时（例如在 A800 上），可以直接运行无损版本。\n\n**注意：生成视频时，提示词应以“FPS-24, ”开头，因为我们在训练过程中参考了 \u003Ca href=https:\u002F\u002Fai.meta.com\u002Fresearch\u002Fpublications\u002Fmovie-gen-a-cast-of-media-foundation-models>Moviegen\u003C\u002Fa> 中控制帧率的训练方法。**\n\n```shell\nSkyReelsModel = \"Skywork\u002FSkyReels-V1-Hunyuan-T2V\"\npython3 video_generate.py \\\n    --model_id ${SkyReelsModel} \\\n    --task_type t2v \\\n    --guidance_scale 6.0 \\\n    --height 544 \\\n    --width 960 \\\n    --num_frames 97 \\\n    --prompt \"FPS-24, 一只戴着太阳镜、在泳池边担任救生员的猫\" \\\n    --embedded_guidance_scale 1.0\n```\n\n### 用户级 GPU 推理（RTX4090）\n\n我们推荐的分辨率、宽高比及帧数设置如下表所示。\n|      分辨率       |           h\u002Fw=9:16           |    h\u002Fw=16:9     |     h\u002Fw=1:1     |\n|:---------------------:|:----------------------------:|:---------------:|:---------------:|\n|         544p          |        544px960px97f        |  960px544px97f |  720px720px97f |\n\n#### 使用命令行\n\n```shell\n# SkyReelsModel：若使用 i2v，请切换至 Skywork\u002FSkyReels-V1-Hunyuan-I2V。\n# quant：启用 FP8 权重仅量化。\n# offload：启用模型卸载。\n# high_cpu_memory：启用固定内存以减少模型卸载的开销。\n# parameters_level：进一步降低 GPU 显存占用。\n# task_type：任务类型同时支持 t2v 和 i2v。执行 i2v 任务时，需输入 --image。\nSkyReelsModel = \"Skywork\u002FSkyReels-V1-Hunyuan-T2V\"\npython3 video_generate.py \\\n    --model_id ${SkyReelsModel} \\\n    --task_type t2v \\\n    --guidance_scale 6.0 \\\n    --height 544 \\\n    --width 960 \\\n    --num_frames 97 \\\n    --prompt \"FPS-24, 一只戴着太阳镜、在泳池边担任救生员的猫\" \\\n    --embedded_guidance_scale 1.0 \\\n    --quant \\\n    --offload \\\n    --high_cpu_memory \\\n    --parameters_level\n```\n\n以上示例展示了在单张 RTX 4090 显卡上，经过全面显存优化后生成一段 544px×960px、97 帧、时长 4 秒的视频，峰值显存占用为 18.5G。在显存容量允许的情况下，还可以生成 544px×960px、289 帧、时长 12 秒的视频（使用 `--sequence_batch` 参数，单张 RTX 4090 大约需要 1.5 小时；增加 GPU 数量可大幅缩短时间）。\n\n#### 🚀 多 GPU 并行推理\n\n```shell\n# SkyReelsModel：若使用 i2v，请切换至 Skywork\u002FSkyReels-V1-Hunyuan-I2V。\n# quant：启用 FP8 权重仅量化。\n# offload：启用模型卸载。\n# high_cpu_memory：启用固定内存以减少模型卸载的开销。\n# gpu_num：使用的 GPU 数量。\nSkyReelsModel = \"Skywork\u002FSkyReels-V1-Hunyuan-T2V\"\npython3 video_generate.py \\\n    --model_id ${SkyReelsModel} \\\n    --guidance_scale 6.0 \\\n    --height 544 \\\n    --width 960 \\\n    --num_frames 97 \\\n    --prompt \"FPS-24, 一只戴着太阳镜、在泳池边担任救生员的猫\" \\\n    --embedded_guidance_scale 1.0 \\\n    --quant \\\n    --offload \\\n    --high_cpu_memory \\\n    --gpu_num $GPU_NUM\n```\n\n## 性能对比\n\n本次测试旨在比较 SkyReelsInfer 和 HunyuanVideo XDiT 在 A800（高性能计算 GPU）和 RTX 4090（消费级 GPU）上处理 544p 视频的端到端延迟。结果将展示 SkyReelsInfer 在速度和效率方面的优越性能。\n\n### 测试参数\n\n|      分辨率       |           视频大小           |    变换器步数    |     引导系数     |\n|:---------------------:|:----------------------------:|:---------------:|:---------------:|\n|         540p          |        544px960px97f        |  30 |  6 |\n\n### 用户级 GPU 推理（RTX4090）\n\n在实际应用中，Hunyuanvideo XDIT 由于显存不足，无法在 RTX 4090 上进行推理。为解决这一问题，我们基于官方的卸载机制、FP8 模型权重和 VAE 分块技术进行了优化，具体措施包括：  \na) 优化模型加载与初始化逻辑，避免将 FP16 模型完全加载到内存中。  \nb) 减小 VAE 分块尺寸，以降低显存占用。\n\n针对 SkyReelsInfer 在 RTX 4090 上的部署，我们将采取以下措施以确保充足的显存资源并提升推理效率：  \na) **模型量化**：采用仅权重 FP8 量化，确保模型能够完整加载到显存中。  \nb) **卸载策略**：启用参数级卸载，进一步减少显存使用。  \nc) **多 GPU 并行**：开启上下文并行、CFG 并行和 VAE 并行，实现分布式处理。  \nd) **计算优化**：利用 SegaAttn 优化注意力层计算，并启用 Torch.Compile 对 Transformer 进行编译优化（支持 4 GPU 和 8 GPU 配置）。\n\n\n\n|      GPU 数量      |           hunyuanvideo + xdit    |           SkyReelsInfer   | \n|:---------------------:|:----------------------------:|:----------------------------:|\n|         1          |        显存溢出        |        889.31s        |\n|         2          |        显存溢出        |        453.69s        |\n|         4          |        464.3s        |        293.3s        |\n|         8          |        无法将视频序列拆分为 ulysses_degree x ring_degree        |        159.43s        |\n\n上表总结了在 RTX 4090 上使用 HunyuanVideo XDIT 和 SkyReelsVideoInfer 生成 544p、时长 4 秒视频的端到端延迟测试结果。由此可得出以下结论：  \n- 在相同的 RTX 4090 资源条件下（4 张 GPU），SkyReelsInfer 版本相比 HunyuanVideo XDIT 将端到端延迟降低了 **58.3%**（293.3s 对比 464.3s）。  \n- SkyReelsInfer 版本具备更稳健的部署策略，在用户级别支持从 **1 张到 8 张 GPU** 的推理部署。\n\n\n### A800\n基于 A800（80G），主要测试对比了 HunyuanVideo XDIT 和 SkyReelsInfer 在不牺牲输出质量前提下的性能差异。\n\n|      GPU 数量      |           hunyuanvideo + xdit    |           SkyReelsInfer   | \n|:---------------------:|:----------------------------:|:----------------------------:|\n|         1          |        884.20s       |        771.03s        |\n|         2          |        487.22s        |        387.01s        |\n|         4          |        263.48s        |        205.49s        |\n|         8          |        无法将视频序列拆分为 ulysses_degree x ring_degree        |        107.41s        |\n\n上表总结了在 A800 上使用 HunyuanVideo XDIT 和 SkyReelsVideoInfer 生成 544p、时长 4 秒视频的端到端延迟测试结果。由此可得出以下结论：\n\n在相同的 A800 资源条件下，SkyReelsInfer 版本相比官方 HunyuanVideo 版本，端到端延迟降低了 14.7% 至 28.2%。\n\nSkyReelsInfer 版本拥有更为稳健的多 GPU 部署策略。\n\n## 致谢\n我们衷心感谢 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Ftencent\u002FHunyuanVideo\">HunyuanVideo\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fchengzeyi\u002FParaAttention\">ParaAttention\u003C\u002Fa> 以及 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdiffusers\">Diffusers\u003C\u002Fa> 仓库的贡献者们，感谢他们开放的研究成果与无私的贡献。\n\n## 引用\n\n```bibtex\n@misc{SkyReelsV1,\n  author = {SkyReels-AI},\n  title = {Skyreels V1: 以人为本的视频基础模型},\n  year = {2025},\n  publisher = {GitHub},\n  journal = {GitHub 仓库},\n  howpublished = {\\url{https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkyReels-V1}}\n}\n```","# SkyReels-V1 快速上手指南\n\nSkyReels-V1 是一款开源的以人为核心的视频基础模型，支持文生视频（T2V）和图生视频（I2V）。它在开源模型中达到了 SOTA 水平，特别擅长生成具有电影级光影和丰富面部表情的视频。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**: Linux\n*   **Python 版本**: 推荐 3.10\n*   **CUDA 版本**: 推荐 12.2\n*   **硬件要求**:\n    *   **高性能模式**: 需要大显存 GPU（如 A800），可直接运行无损版本。\n    *   **消费级模式**: 支持 RTX 4090 等显卡，需开启量化（quant）和卸载（offload）选项以优化显存占用。\n\n## 安装步骤\n\n1.  **克隆仓库**\n    ```shell\n    git clone https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkyReels-V1\n    cd skyreelsinfer\n    ```\n\n2.  **安装依赖**\n    建议使用国内镜像源加速安装（如清华源或阿里源）：\n    ```shell\n    pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n    ```\n\n## 基本使用\n\n### 注意事项\n生成视频时，提示词（Prompt）**必须**以 `\"FPS-24, \"` 开头，这是模型训练时的特定格式要求。\n\n### 场景一：高性能 GPU 推理（如 A800）\n适用于显存充足的环境，直接运行无损版本。\n\n```shell\nSkyReelsModel = \"Skywork\u002FSkyReels-V1-Hunyuan-T2V\"\npython3 video_generate.py \\\n    --model_id ${SkyReelsModel} \\\n    --task_type t2v \\\n    --guidance_scale 6.0 \\\n    --height 544 \\\n    --width 960 \\\n    --num_frames 97 \\\n    --prompt \"FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool\" \\\n    --embedded_guidance_scale 1.0\n```\n\n### 场景二：消费级 GPU 推理（如 RTX 4090）\n针对显存有限的用户，启用 FP8 量化、模型卸载及参数级优化。此配置下生成 544x960x97f (约 4 秒) 视频峰值显存占用约为 18.5GB。\n\n```shell\nSkyReelsModel = \"Skywork\u002FSkyReels-V1-Hunyuan-T2V\"\npython3 video_generate.py \\\n    --model_id ${SkyReelsModel} \\\n    --task_type t2v \\\n    --guidance_scale 6.0 \\\n    --height 544 \\\n    --width 960 \\\n    --num_frames 97 \\\n    --prompt \"FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool\" \\\n    --embedded_guidance_scale 1.0 \\\n    --quant \\\n    --offload \\\n    --high_cpu_memory \\\n    --parameters_level\n```\n\n### 场景三：多卡并行推理\n如需加速生成或使用更多资源，可指定 GPU 数量进行并行推理。\n\n```shell\nSkyReelsModel = \"Skywork\u002FSkyReels-V1-Hunyuan-T2V\"\n# 请将 $GPU_NUM 替换为实际的 GPU 数量，例如 2 或 4\nGPU_NUM=2 \npython3 video_generate.py \\\n    --model_id ${SkyReelsModel} \\\n    --guidance_scale 6.0 \\\n    --height 544 \\\n    --width 960 \\\n    --num_frames 97 \\\n    --prompt \"FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool\" \\\n    --embedded_guidance_scale 1.0 \\\n    --quant \\\n    --offload \\\n    --high_cpu_memory \\\n    --gpu_num $GPU_NUM\n```\n\n> **提示**: 若需使用图生视频（I2V）功能，请将 `--model_id` 设置为 `Skywork\u002FSkyReels-V1-Hunyuan-I2V`，并将 `--task_type` 设为 `i2v`，同时添加 `--image` 参数指定输入图片路径。","一家独立游戏工作室正在为新作制作关键剧情过场动画，需要让主角在特定场景下展现细腻的情感变化。\n\n### 没有 SkyReels-V1 时\n- **表情僵硬失真**：通用视频模型难以捕捉微妙情绪，生成的角色面部表情呆板，甚至出现五官扭曲，无法传达剧本要求的复杂情感。\n- **光影缺乏电影感**：自动生成的画面光照平淡，构图随意，缺乏好莱坞级别的镜头语言，导致过场动画看起来像廉价素材，严重拖累游戏质感。\n- **动作与空间混乱**：多角色互动时，模型无法理解人物间的空间关系，常出现穿模、站位错误或动作不协调，后期修复需耗费大量人工逐帧调整。\n- **迭代成本高昂**：为了获得一个可用的镜头，团队需反复尝试不同提示词或依赖昂贵的外部定制服务，开发周期被无限拉长。\n\n### 使用 SkyReels-V1 后\n- **精准情感演绎**：利用其支持的 33 种面部表情分类和 400+ 动作单元，主角能自然呈现从隐忍到爆发的细腻情绪过渡，表演极具感染力。\n- **原生电影级画质**：基于海量影视数据训练，SkyReels-V1 直接输出具备专业布光、考究构图和电影级景深的画面，无需额外后期调色。\n- **智能空间调度**：凭借 3D 人体重建技术，模型准确处理多人场景下的站位与互动逻辑，角色走位自然流畅，彻底杜绝穿模现象。\n- **高效本地部署**：团队可在单张 RTX4090 显卡上快速推理，随时根据反馈调整脚本并实时生成新镜头，将原本数周的修改工作压缩至数小时。\n\nSkyReels-V1 将独立团队的视频创作能力提升至专业影视级别，让高质量人文视频内容的生产变得低成本且可控。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkyworkAI_SkyReels-V1_23faeb75.png","SkyworkAI","Skywork ","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FSkyworkAI_347e666f.jpg","Transfer knowledge, Unlock creativity.",null,"https:\u002F\u002Fskywork.ai\u002F","https:\u002F\u002Fgithub.com\u002FSkyworkAI",[22],{"name":23,"color":24,"percentage":25},"Python","#3572A5",100,2671,306,"2026-04-11T11:38:56","NOASSERTION",3,"Linux","必需 NVIDIA GPU。推荐 RTX 4090 (消费级) 或 A800 (服务器级)。单卡运行需开启量化和卸载策略，峰值显存约 18.5GB；支持多卡并行推理。","未说明 (但启用 --high_cpu_memory 参数暗示需要较大的系统内存以支持模型卸载)",{"notes":35,"python":36,"dependencies":37},"1. 官方仅提供了 Linux 安装指南，未提及 Windows 或 macOS 支持。\n2. 必须使用 CUDA 12.2 版本。\n3. 在消费级显卡 (如 RTX 4090) 上运行时，必须添加 --quant (FP8 量化)、--offload (模型卸载)、--high_cpu_memory 和 --parameters_level 参数以降低显存需求。\n4. 生成视频时，提示词 (prompt) 必须以 'FPS-24, ' 开头，否则可能影响效果。\n5. 支持文本生成视频 (T2V) 和图像生成视频 (I2V) 两种任务模式。","3.10",[38,39],"requirements.txt 中定义的依赖 (基于 Diffusers 框架)","CUDA 12.2",[41,42,43],"图像","语言模型","视频",[45,46,47],"i2v","t2v","video-diffusion-transformers",2,"ready","2026-03-27T02:49:30.150509","2026-04-12T20:20:21.862861",[53,58,63,68,73,78],{"id":54,"question_zh":55,"answer_zh":56,"source_url":57},30908,"如何在多 GPU 环境下正确使用 `--sequence_batch` 参数？","`--sequence_batch` 选项会按顺序处理 Transformer 的批量推理。然而，当 `guidance_scale` 大于 1 时，默认会启用 CFG 并行（CFG parallel），这需要 transformer 的 batch_size 为 2，从而导致冲突。解决方法是在 `video_generate.py` 中禁用 `enable_cfg_parallel`，或者在命令行中确保相关设置不冲突。注意该功能对硬件较敏感，建议在 RTX 4090 或 H100 上使用。","https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkyReels-V1\u002Fissues\u002F62",{"id":59,"question_zh":60,"answer_zh":61,"source_url":62},30906,"运行模型时遇到 SIGKILL 错误或内存不足（OOM）怎么办？","为了优化资源使用并防止 OOM 错误，建议禁用 `--high_cpu_memory` 和 `--parameters_level` 参数以减少内存消耗，同时启用 `--sequence_batch` 参数以最小化显存（VRAM）使用。此外，确保拉取最新代码以获取这些改进。如果可能，增加系统 CPU 内存（例如至 98GB）也能解决该问题。","https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkyReels-V1\u002Fissues\u002F69",{"id":64,"question_zh":65,"answer_zh":66,"source_url":67},30907,"如何降低显存（VRAM）和主机内存的占用？最低配置要求是多少？","可以通过以下命令在单张 RTX 4090 上将每张卡的显存占用控制在约 15GB：\n`python3 video_generate.py --guidance_scale 6.0 --height 544 --width 960 --num_frames 97 --prompt \"FPS-24, A woman walking at fashion show\" --embedded_guidance_scale 1.0 --quant --offload --gpu_num 2 --sequence_batch`\n关键参数是启用 `--sequence_batch`、`--quant` 和 `--offload`，并禁用 `--high_cpu_memory`。关于主机内存，最低要求可能在 60GB 到 70GB 之间，如果主机内存不足，即使有两张 16GB 显存的显卡也无法运行。","https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkyReels-V1\u002Fissues\u002F45",{"id":69,"question_zh":70,"answer_zh":71,"source_url":72},30909,"多 GPU 运行时遇到 'tensor.shape[0] is not divisible by world_size' 错误或特定分辨率报错怎么办？","这是一个已知的边缘情况 Bug。如果在 4 卡或 8 卡环境下使用 720x720 分辨率会触发此错误，而在 1 卡或 2 卡下正常。临时解决方案是将分辨率调整为非 720x720 的值（例如 720x721 或其他）。此外，该问题在某些 GPU 型号（如 A40）上更易出现，建议优先使用 RTX 系列或 H100 系列显卡。","https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkyReels-V1\u002Fissues\u002F66",{"id":74,"question_zh":75,"answer_zh":76,"source_url":77},30910,"SkyReels-V1 模型是否可以在 ComfyUI 中使用？","是的，可以通过 Kijai 开发的 ComfyUI-HunyuanVideoWrapper 插件在 ComfyUI 中加载和运行 SkyReels-V1 模型。你可以参考官方提供的工作流示例：https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-HunyuanVideoWrapper\u002Fblob\u002Fmain\u002Fexample_workflows\u002Fhyvideo_skyreel_img2vid_testing_01.json。但请注意，该平台生成的视频效果可能与原生实现存在差异。","https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkyReels-V1\u002Fissues\u002F2",{"id":79,"question_zh":80,"answer_zh":81,"source_url":72},30911,"哪些显卡型号兼容性最好？遇到硬件相关问题如何处理？","根据用户反馈，RTX 4090 和 H100 系列显卡的兼容性最好，能够稳定运行多 GPU 和高分辨率生成任务。而 A40 等数据中心显卡可能会遇到参数解析错误或崩溃问题。如果遇到此类问题，建议切换回 Runpod 等云平台使用推荐的 GPU 型号，或者检查是否为特定硬件平台的驱动\u002F环境配置问题。",[],[84,95,103,111,119,128],{"id":85,"name":86,"github_repo":87,"description_zh":88,"stars":89,"difficulty_score":30,"last_commit_at":90,"category_tags":91,"status":49},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,"2026-04-06T06:32:30",[92,93,41,94],"Agent","开发框架","数据工具",{"id":96,"name":97,"github_repo":98,"description_zh":99,"stars":100,"difficulty_score":30,"last_commit_at":101,"category_tags":102,"status":49},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[93,41,92],{"id":104,"name":105,"github_repo":106,"description_zh":107,"stars":108,"difficulty_score":48,"last_commit_at":109,"category_tags":110,"status":49},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",151918,"2026-04-12T11:33:05",[93,92,42],{"id":112,"name":113,"github_repo":114,"description_zh":115,"stars":116,"difficulty_score":48,"last_commit_at":117,"category_tags":118,"status":49},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[93,41,92],{"id":120,"name":121,"github_repo":122,"description_zh":123,"stars":124,"difficulty_score":48,"last_commit_at":125,"category_tags":126,"status":49},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[127,92,41,93],"插件",{"id":129,"name":130,"github_repo":131,"description_zh":132,"stars":133,"difficulty_score":30,"last_commit_at":134,"category_tags":135,"status":49},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[42,41,92,93]]