[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-vivoCameraResearch--Magic-TryOn":3,"tool-vivoCameraResearch--Magic-TryOn":62},[4,18,26,35,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,2,"2026-04-18T11:18:24",[14,15,13],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":32,"last_commit_at":41,"category_tags":42,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[43,13,15,14],"插件",{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[52,15,13,14],"语言模型",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,61],"视频",{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":77,"owner_email":77,"owner_twitter":77,"owner_website":77,"owner_url":78,"languages":79,"stars":110,"forks":111,"last_commit_at":112,"license":113,"difficulty_score":87,"env_os":114,"env_gpu":115,"env_ram":116,"env_deps":117,"category_tags":130,"github_topics":131,"view_count":32,"oss_zip_url":77,"oss_zip_packed_at":77,"status":17,"created_at":140,"updated_at":141,"faqs":142,"releases":180},9377,"vivoCameraResearch\u002FMagic-TryOn","Magic-TryOn","MagicTryOn is a video virtual try-on framework based on a large-scale video diffusion Transformer.","MagicTryOn 是一款基于大规模视频扩散 Transformer 的开源虚拟试衣框架，专为生成高质量、连贯的视频试衣效果而设计。它有效解决了传统方法在动态视频中难以保持衣物纹理细节、动作自然度以及时空一致性的痛点，让用户不仅能看到静态的上身效果，更能预览穿着新衣走动、转身时的真实动态表现。\n\n该工具特别适合计算机视觉研究人员、AI 开发者以及时尚科技领域的设计师使用。研究人员可基于其开放的代码和训练脚本探索视频生成前沿技术；开发者能利用其提供的 14B 及 1.3B 预训练模型快速部署应用；设计师则可借助它进行创新的动态服装展示。\n\nMagicTryOn 的技术亮点显著：首先，它以先进的 Wan2.1 扩散 Transformer 为核心骨架，确保了强大的生成能力；其次，采用全自注意力机制来建模时空一致性，让视频帧之间的过渡更加流畅自然；最后，创新性地引入了“由粗到细”的衣物保留策略及掩码感知损失函数，极大提升了衣物区域的还原度和保真度。目前，项目已公开源代码、推理演示及多版本权重，并支持在 VITON-HD 等公共数据集上复现结果，是探索下一代视频虚拟试衣技术的理想选择。","\n![logo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FvivoCameraResearch_Magic-TryOn_readme_792e67770f6e.png)\n\u003Ch2 align=\"center\"> \n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.21325v2\">\n    MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on\n  \u003C\u002Fa>\n\u003C\u002Fh2>\n\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.21325v2\">\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2501.11325-red?style=flat&logo=arXiv&logoColor=red' alt='arxiv'>\u003C\u002Fa>&nbsp;\n\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FLuckyLiGY\u002FMagicTryOn\">\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHugging Face-ckpts-orange?style=flat&logo=HuggingFace&logoColor=orange' alt='huggingface'>\u003C\u002Fa>&nbsp;\n\u003Ca href=\"https:\u002F\u002Fvivocameraresearch.github.io\u002Fmagictryon\u002F\">\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-Page-Green' alt='GitHub'>\u003C\u002Fa>&nbsp;\n\u003Ca href=\"http:\u002F\u002Fwww.apache.org\u002Flicenses\u002FLICENSE-2.0\">\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-CC BY--NC--SA--4.0-lightgreen?style=flat&logo=Lisence' alt='License'>\u003C\u002Fa>&nbsp;\n\n\n**MagicTryOn** is a video virtual try-on framework based on a large-scale video diffusion Transformer. ***1) It adopts Wan2.1 diffusion Transformer as the backbone*** and ***2) employs full self-attention to model spatiotemporal consistency***. ***3) A coarse-to-fine garment preservation strategy is introduced, along with a mask-aware loss to enhance garment region fidelity***.\n![method](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FvivoCameraResearch_Magic-TryOn_readme_f6a5e9c26e26.png)\n\n## 📣 News \n- **`2025\u002F12\u002F26`**: 🎉 We have updated the MagicTryOn-1.3B 🤗[**HuggingFace**](https:\u002F\u002Fhuggingface.co\u002FLuckyLiGY\u002FMagicTryOn-1.3B).\n- **`2025\u002F06\u002F09`**: 🎉 We are excited to announce that the ***code*** of [**MagicTryOn**](https:\u002F\u002Fgithub.com\u002FvivoCameraResearch\u002FMagic-TryOn\u002F) have been released! Check it out! ***The weights are released ！！！***. You can download the weights from 🤗[**HuggingFace**](https:\u002F\u002Fhuggingface.co\u002FLuckyLiGY\u002FMagicTryOn).\n- **`2025\u002F05\u002F27`**: Our [**Paper on ArXiv**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.21325v2) is available 🥳!\n\n## ✅ To-Do List for MagicTryOn Release\n- ✅ Release the source code\n- ✅ Release the inference demo and 14B pretrained weights\n- ✅ Release the customized try-on utilities\n- ✅ Release the MagicTryOn-1.3B weights \n- [  ] Release the MagicTryOn-Turbo\n\n## 🤝 Community Support\nThe current version of MagicTryOn is trained on public datasets including VITON-HD, DressCode, and ViViD. If the community is interested in training MagicTryOn on in-the-wild datasets to better support real-world virtual try-on scenarios, please feel free to contact us. We are happy to provide the corresponding training scripts.\n\n## 😍 Installation\n\nCreate a conda environment & Install requirments \n```shell\n# python==3.12.9 cuda==12.3 torch==2.2\nconda create -n magictryon python==3.12.9\nconda activate magictryon\npip install -r requirements.txt\n# or\nconda env create -f environment.yaml\n```\nIf you encounter an error while installing Flash Attention, please [**manually download**](https:\u002F\u002Fgithub.com\u002FDao-AILab\u002Fflash-attention\u002Freleases) the installation package based on your Python version, CUDA version, and Torch version, and install it using `pip install flash_attn-2.7.3+cu12torch2.2cxx11abiFALSE-cp312-cp312-linux_x86_64.whl`.\n\nUse the following command to download the weights:\n```PowerShell\ncd Magic-TryOn\nHF_ENDPOINT=https:\u002F\u002Fhf-mirror.com huggingface-cli download LuckyLiGY\u002FMagicTryOn --local-dir .\u002Fweights\u002FMagicTryOn_14B_V1\n```\n\n## 😉 Demo Inference\n### 1. Image TryOn\nYou can directly run the following command to perform image try-on demo. If you want to modify some inference parameters, please make the changes inside the `predict_image_tryon_up.py` file.\n```PowerShell\nCUDA_VISIBLE_DEVICES=0 python inference\u002Fimage_tryon\u002Fpredict_image_tryon_up.py\n\nCUDA_VISIBLE_DEVICES=1 python inference\u002Fimage_tryon\u002Fpredict_image_tryon_low.py\n```\n\n### 2. Video TryOn\nYou can directly run the following command to perform image try-on demo. If you want to modify some inference parameters, please make the changes inside the `predict_video_tryon_up.py` file.\n```PowerShell\nCUDA_VISIBLE_DEVICES=0 python inference\u002Fvideo_tryon\u002Fpredict_video_tryon_up.py\n\nCUDA_VISIBLE_DEVICES=1 python inference\u002Fvideo_tryon\u002Fpredict_video_tryon_low.py\n```\n\n### 3. Customize TryOn\nBefore performing customized try-on, you need to complete the following five steps to obtain:\n\n1. **Cloth Caption**  \n   Generate a descriptive caption for the garment, which may be used for conditioning or multimodal control. We use [**Qwen\u002FQwen2.5-VL-7B-Instruct**](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-VL-7B-Instruct) to obtain the caption. Before running, you need to specify the folder path.\n   ```PowerShell\n   python inference\u002Fcustomize\u002Fget_garment_caption.py\n    ```\n\n2. **Cloth Line Map**  \n   Extract the structural lines or sketch of the garment using [**AniLines-Anime-Lineart-Extractor**](https:\u002F\u002Fgithub.com\u002Fzhenglinpan\u002FAniLines-Anime-Lineart-Extractor). Download the pre-trained models from this [**link**](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1oazs4_X1Hppj-k9uqPD0HXWHEQLb9tNR\u002Fview?usp=sharing) and put them in the `inference\u002Fcustomize\u002FAniLines\u002Fweights` folder.\n   ```PowerShell\n    python inference\u002Fcustomize\u002FAniLines\u002Finfer.py --dir_in datasets\u002Fgarment\u002Fvivo\u002Fvivo_garment --dir_out datasets\u002Fgarment\u002Fvivo\u002Fvivo_garment_anilines --mode detail --binarize -1 --fp16 True --device cuda:1\n    ```\n\n3. **Mask**  \n   Generate the agnostic mask of the garment, which is essential for region control during try-on. Please [**download**](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1E2JC_650g69AYrN2ZCwc8oz8qYRo5t5s\u002Fview?usp=sharing) the required checkpoint for obtaining the agnostic mask. The checkpoint needs to be placed in the `inference\u002Fcustomize\u002Fgen_mask\u002Fckpt` folder.\n\n   (1) You need to rename your video to `video.mp4`, and then construct the folders according to the following directory structure.\n    ```\n    ├── datasets\n    │   ├── person\n    |   |   ├── customize\n    │   │   │   ├── video\n    │   │   │   │   ├── 00001\n    │   │   │   │   │   ├── video.mp4\n    |   |   |   |   ├── 00002 ...\n    │   │   │   ├── image\n    │   │   │   │   ├── 00001\n    │   │   │   │   │   │   ├── images\n    │   │   │   │   │   │   │   ├── 0000.png\n    |   |   |   |   ├── 00002 ...\n    ```\n\n    (2) Using `video2image.py` to convert the video into image frames and save them to `datasets\u002Fperson\u002Fcustomize\u002Fvideo\u002F00001\u002Fimages`.\n\n    (3) Run the following command to obtain the agnostic mask.\n\n    ```PowerShell\n    python inference\u002Fcustomize\u002Fgen_mask\u002Fapp_mask.py\n    # if extract the mask for lower_body or dresses, please modify line 65.\n    # if lower_body:\n    # mask, _ = get_mask_location('dc', \"lower_body\", model_parse, keypoints)\n    # if dresses:\n    # mask, _ = get_mask_location('dc', \"dresses\", model_parse, keypoints)\n    ```\n\n    After completing the above steps, you will obtain the agnostic masks for all video frames in the `datasets\u002Fperson\u002Fcustomize\u002Fvideo\u002F00001\u002Fmasks` folder.\n4. **Agnostic Representation**  \n   Construct an agnostic representation of the person by removing garment-specific features. You can directly run `get_masked_person.py` to obtain the Agnostic Representation. Make sure to modify the `--image_folder` and `--mask_folder` parameters. The resulting video frames will be stored in `datasets\u002Fperson\u002Fcustomize\u002Fvideo\u002F00001\u002Fagnostic`.\n\n5. **DensePose**  \n   Use DensePose to obtain UV-mapped dense human body coordinates for better spatial alignment.\n\n   (1) Install [**detectron2**](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdetectron2).\n\n   (2) Run the following command:\n   ```PowerShell\n    bash inference\u002Fcustomize\u002Fdetectron2\u002Fprojects\u002FDensePose\u002Frun.sh\n    ```\n    (3) The generated results will be stored in the `datasets\u002Fperson\u002Fcustomize\u002Fvideo\u002F00001\u002Fimage-densepose` folder.\n\nAfter completing the above steps, run the `image2video.py` file to generate the required customized videos: `mask.mp4`, `agnostic.mp4`, and `densepose.mp4`. Then, run the following command:\n```PowerShell\nCUDA_VISIBLE_DEVICES=0 python inference\u002Fvideo_tryon\u002Fpredict_video_tryon_customize.py\n```\n\n## 😘 Acknowledgement\nOur code is modified based on [VideoX-Fun](https:\u002F\u002Fgithub.com\u002Faigc-apps\u002FVideoX-Fun\u002Ftree\u002Fmain). We adopt [Wan2.1-I2V-14B](https:\u002F\u002Fgithub.com\u002FWan-Video\u002FWan2.1) as the base model. We use [SCHP](https:\u002F\u002Fgithub.com\u002FGoGoDuck912\u002FSelf-Correction-Human-Parsing\u002Ftree\u002Fmaster), [openpose](https:\u002F\u002Fgithub.com\u002FCMU-Perceptual-Computing-Lab\u002Fopenpose), and [DensePose](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FDensePose) to generate masks. We use [detectron2](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdetectron2) to generate densepose. We use [Qwen\u002FQwen2.5-VL-7B-Instruct](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-VL-7B-Instruct) to generate the cloth caption and [AniLines-Anime-Lineart-Extractor](https:\u002F\u002Fgithub.com\u002Fzhenglinpan\u002FAniLines-Anime-Lineart-Extractor) to obtain the cloth line map. Thanks to all the contributors!\n\n## 😊 License\nAll the materials, including code, checkpoints, and demo, are made available under the [Creative Commons BY-NC-SA 4.0](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F) license. You are free to copy, redistribute, remix, transform, and build upon the project for non-commercial purposes, as long as you give appropriate credit and distribute your contributions under the same license.\n\n## ⭐ Star History\n[![Star History Chart](https:\u002F\u002Fapi.star-history.com\u002Fsvg?repos=vivoCameraResearch\u002FMagic-TryOn&type=Date)](https:\u002F\u002Fwww.star-history.com\u002F#vivoCameraResearch\u002FMagic-TryOn&Date)\n\n## 🤩 Citation\n\n```bibtex\n@article{li2025magictryon,\n  title={MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on},\n  author={Li, Guangyuan and Zheng, Siming and Zhang, Hao and Chen, Jinwei and Luan, Junsheng and Ou, Binkai and Zhao, Lei and Li, Bo and Jiang, Peng-Tao},\n  journal={arXiv preprint arXiv:2505.21325},\n  year={2025}\n}\n```\n","![logo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FvivoCameraResearch_Magic-TryOn_readme_792e67770f6e.png)\n\u003Ch2 align=\"center\"> \n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.21325v2\">\n    MagicTryOn：利用扩散Transformer实现服装保真度的视频虚拟试穿\n  \u003C\u002Fa>\n\u003C\u002Fh2>\n\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.21325v2\">\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2501.11325-red?style=flat&logo=arXiv&logoColor=red' alt='arxiv'>\u003C\u002Fa>&nbsp;\n\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FLuckyLiGY\u002FMagicTryOn\">\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHugging Face-ckpts-orange?style=flat&logo=HuggingFace&logoColor=orange' alt='huggingface'>\u003C\u002Fa>&nbsp;\n\u003Ca href=\"https:\u002F\u002Fvivocameraresearch.github.io\u002Fmagictryon\u002F\">\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-Page-Green' alt='GitHub'>\u003C\u002Fa>&nbsp;\n\u003Ca href=\"http:\u002F\u002Fwww.apache.org\u002Flicenses\u002FLICENSE-2.0\">\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-CC BY--NC--SA--4.0-lightgreen?style=flat&logo=Lisence' alt='License'>\u003C\u002Fa>&nbsp;\n\n\n**MagicTryOn** 是一个基于大规模视频扩散Transformer的视频虚拟试穿框架。***1) 它采用 Wan2.1 扩散Transformer 作为骨干网络***，***2) 并使用全自注意力机制来建模时空一致性***。***3) 引入了由粗到精的服装保真策略，并结合掩码感知损失以提升服装区域的保真度***。\n![method](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FvivoCameraResearch_Magic-TryOn_readme_f6a5e9c26e26.png)\n\n## 📣 新闻 \n- **`2025\u002F12\u002F26`**: 🎉 我们已更新 MagicTryOn-1.3B 🤗[**HuggingFace**](https:\u002F\u002Fhuggingface.co\u002FLuckyLiGY\u002FMagicTryOn-1.3B)。\n- **`2025\u002F06\u002F09`**: 🎉 我们很高兴地宣布，[**MagicTryOn**](https:\u002F\u002Fgithub.com\u002FvivoCameraResearch\u002FMagic-TryOn\u002F) 的 ***代码*** 已经发布！快来看看吧！***权重也已发布！！！***。您可以通过 🤗[**HuggingFace**](https:\u002F\u002Fhuggingface.co\u002FLuckyLiGY\u002FMagicTryOn) 下载权重。\n- **`2025\u002F05\u002F27`**: 我们的 [**论文已在 ArXiv 上发布**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.21325v2)，太棒了🥳！\n\n## ✅ MagicTryOn 发布待办事项\n- ✅ 发布源代码\n- ✅ 发布推理演示和 14B 预训练权重\n- ✅ 发布定制化的试穿工具\n- ✅ 发布 MagicTryOn-1.3B 权重 \n- [  ] 发布 MagicTryOn-Turbo\n\n## 🤝 社区支持\n当前版本的 MagicTryOn 是在公开数据集 VITON-HD、DressCode 和 ViViD 上训练的。如果社区有兴趣在真实场景的数据集上训练 MagicTryOn，以更好地支持实际的虚拟试穿场景，请随时联系我们。我们很乐意提供相应的训练脚本。\n\n## 😍 安装\n\n创建 conda 环境并安装依赖项 \n```shell\n# python==3.12.9 cuda==12.3 torch==2.2\nconda create -n magictryon python==3.12.9\nconda activate magictryon\npip install -r requirements.txt\n# 或\nconda env create -f environment.yaml\n```\n如果您在安装 Flash Attention 时遇到错误，请根据您的 Python 版本、CUDA 版本和 Torch 版本，[**手动下载**](https:\u002F\u002Fgithub.com\u002FDao-AILab\u002Fflash-attention\u002Freleases) 安装包，并使用 `pip install flash_attn-2.7.3+cu12torch2.2cxx11abiFALSE-cp312-cp312-linux_x86_64.whl` 进行安装。\n\n使用以下命令下载权重：\n```PowerShell\ncd Magic-TryOn\nHF_ENDPOINT=https:\u002F\u002Fhf-mirror.com huggingface-cli download LuckyLiGY\u002FMagicTryOn --local-dir .\u002Fweights\u002FMagicTryOn_14B_V1\n```\n\n## 😉 推理演示\n### 1. 图像试穿\n您可以直接运行以下命令进行图像试穿演示。如果您想修改一些推理参数，请在 `predict_image_tryon_up.py` 文件中进行调整。\n```PowerShell\nCUDA_VISIBLE_DEVICES=0 python inference\u002Fimage_tryon\u002Fpredict_image_tryon_up.py\n\nCUDA_VISIBLE_DEVICES=1 python inference\u002Fimage_tryon\u002Fpredict_image_tryon_low.py\n```\n\n### 2. 视频试穿\n您可以直接运行以下命令进行视频试穿演示。如果您想修改一些推理参数，请在 `predict_video_tryon_up.py` 文件中进行调整。\n```PowerShell\nCUDA_VISIBLE_DEVICES=0 python inference\u002Fvideo_tryon\u002Fpredict_video_tryon_up.py\n\nCUDA_VISIBLE_DEVICES=1 python inference\u002Fvideo_tryon\u002Fpredict_video_tryon_low.py\n```\n\n### 3. 自定义试穿\n在进行自定义试穿之前，您需要完成以下五个步骤以获取所需内容：\n\n1. **服装描述文本**  \n   为服装生成一段描述性文本，可用于条件控制或多模态控制。我们使用 [**Qwen\u002FQwen2.5-VL-7B-Instruct**](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-VL-7B-Instruct) 来获取该描述文本。运行前，您需要指定文件夹路径。\n   ```PowerShell\n   python inference\u002Fcustomize\u002Fget_garment_caption.py\n    ```\n\n2. **服装线稿图**  \n   使用 [**AniLines-Anime-Lineart-Extractor**](https:\u002F\u002Fgithub.com\u002Fzhenglinpan\u002FAniLines-Anime-Lineart-Extractor) 提取服装的结构线条或草图。请从此 [**链接**](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1oazs4_X1Hppj-k9uqPD0HXWHEQLb9tNR\u002Fview?usp=sharing) 下载预训练模型，并将其放入 `inference\u002Fcustomize\u002FAniLines\u002Fweights` 文件夹中。\n   ```PowerShell\n    python inference\u002Fcustomize\u002FAniLines\u002Finfer.py --dir_in datasets\u002Fgarment\u002Fvivo\u002Fvivo_garment --dir_out datasets\u002Fgarment\u002Fvivo\u002Fvivo_garment_anilines --mode detail --binarize -1 --fp16 True --device cuda:1\n    ```\n\n3. **掩码**  \n   生成服装的不可知论掩码，这是试穿过程中进行区域控制所必需的。请 [**下载**](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1E2JC_650g69AYrN2ZCwc8oz8qYRo5t5s\u002Fview?usp=sharing) 获取不可知论掩码所需的检查点文件。该检查点需放置在 `inference\u002Fcustomize\u002Fgen_mask\u002Fckpt` 文件夹中。\n\n   (1) 您需要将视频重命名为 `video.mp4`，然后按照以下目录结构构建文件夹：\n    ```\n    ├── datasets\n    │   ├── person\n    |   |   ├── customize\n    │   │   │   ├── video\n    │   │   │   │   ├── 00001\n    │   │   │   │   │   ├── video.mp4\n    |   |   |   |   ├── 00002 ...\n    │   │   │   ├── image\n    │   │   │   │   ├── 00001\n    │   │   │   │   │   │   ├── images\n    │   │   │   │   │   │   │   ├── 0000.png\n    |   |   |   |   ├── 00002 ...\n    ```\n\n   (2) 使用 `video2image.py` 将视频转换为图像帧，并保存到 `datasets\u002Fperson\u002Fcustomize\u002Fvideo\u002F00001\u002Fimages` 文件夹中。\n\n   (3) 运行以下命令以获取不可知论掩码。\n   ```PowerShell\n    python inference\u002Fcustomize\u002Fgen_mask\u002Fapp_mask.py\n    # 如果提取下装或连衣裙的掩码，请修改第65行。\n    # 如果是下装：\n    # mask, _ = get_mask_location('dc', \"lower_body\", model_parse, keypoints)\n    # 如果是连衣裙：\n    # mask, _ = get_mask_location('dc', \"dresses\", model_parse, keypoints)\n    ```\n\n   完成上述步骤后，您将在 `datasets\u002Fperson\u002Fcustomize\u002Fvideo\u002F00001\u002Fmasks` 文件夹中获得所有视频帧的不可知论掩码。\n4. **不可知论表征**  \n   通过去除服装特有特征来构建人物的不可知论表征。您可以直接运行 `get_masked_person.py` 来获取不可知论表征。请确保修改 `--image_folder` 和 `--mask_folder` 参数。生成的视频帧将存储在 `datasets\u002Fperson\u002Fcustomize\u002Fvideo\u002F00001\u002Fagnostic` 文件夹中。\n5. **密集人体坐标（DensePose）**  \n   使用 DensePose 获取经过 UV 映射的密集人体坐标，以便更好地进行空间对齐。\n\n   (1) 安装 [**detectron2**](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdetectron2)。\n\n   (2) 运行以下命令：\n   ```PowerShell\n    bash inference\u002Fcustomize\u002Fdetectron2\u002Fprojects\u002FDensePose\u002Frun.sh\n    ```\n    (3) 生成的结果将存储在 `datasets\u002Fperson\u002Fcustomize\u002Fvideo\u002F00001\u002Fimage-densepose` 文件夹中。\n\n完成以上步骤后，运行 `image2video.py` 文件以生成所需的自定义视频：`mask.mp4`、`agnostic.mp4` 和 `densepose.mp4`。然后，运行以下命令：\n```PowerShell\nCUDA_VISIBLE_DEVICES=0 python inference\u002Fvideo_tryon\u002Fpredict_video_tryon_customize.py\n```\n\n## 😘 致谢\n我们的代码基于 [VideoX-Fun](https:\u002F\u002Fgithub.com\u002Faigc-apps\u002FVideoX-Fun\u002Ftree\u002Fmain) 修改而来。我们采用 [Wan2.1-I2V-14B](https:\u002F\u002Fgithub.com\u002FWan-Video\u002FWan2.1) 作为基础模型。我们使用 [SCHP](https:\u002F\u002Fgithub.com\u002FGoGoDuck912\u002FSelf-Correction-Human-Parsing\u002Ftree\u002Fmaster)、[openpose](https:\u002F\u002Fgithub.com\u002FCMU-Perceptual-Computing-Lab\u002Fopenpose) 和 [DensePose](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FDensePose) 来生成掩码。我们使用 [detectron2](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdetectron2) 生成密集人体坐标。我们使用 [Qwen\u002FQwen2.5-VL-7B-Instruct](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-VL-7B-Instruct) 生成服装描述文本，并使用 [AniLines-Anime-Lineart-Extractor](https:\u002F\u002Fgithub.com\u002Fzhenglinpan\u002FAniLines-Anime-Lineart-Extractor) 获取服装线稿图。感谢所有贡献者！\n\n## 😊 许可证\n所有材料，包括代码、检查点和演示，均根据 [知识共享署名-非商业性使用-相同方式共享 4.0](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F) 协议提供。只要您给予适当的署名并以相同的许可证分发您的贡献，您就可以出于非商业目的自由复制、再分发、混编、转换和扩展本项目。\n\n## ⭐ 星标历史\n[![星标历史图表](https:\u002F\u002Fapi.star-history.com\u002Fsvg?repos=vivoCameraResearch\u002FMagic-TryOn&type=Date)](https:\u002F\u002Fwww.star-history.com\u002F#vivoCameraResearch\u002FMagic-TryOn&Date)\n\n## 🤩 引用\n\n```bibtex\n@article{li2025magictryon,\n  title={MagicTryOn: 利用扩散Transformer实现服装保留的视频虚拟试穿},\n  author={李广源、郑思明、张浩、陈锦伟、栾俊生、欧彬凯、赵磊、李博、蒋鹏涛},\n  journal={arXiv预印本 arXiv:2505.21325},\n  year={2025}\n}\n```","# MagicTryOn 快速上手指南\n\nMagicTryOn 是一个基于大规模视频扩散 Transformer（Wan2.1）的视频虚拟试穿框架。它通过全自注意力机制建模时空一致性，并采用由粗到细的服装保留策略，能够实现高保真的视频试穿效果。\n\n## 1. 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**: Linux (推荐)\n*   **Python**: 3.12.9\n*   **CUDA**: 12.3\n*   **PyTorch**: 2.2\n*   **显卡**: 建议使用支持 CUDA 的 NVIDIA 显卡（运行 14B 模型需要较大显存，1.3B 版本对显存要求较低）\n\n## 2. 安装步骤\n\n### 2.1 创建 Conda 环境并安装依赖\n\n推荐使用国内镜像源加速下载过程。\n\n```shell\n# 创建环境\nconda create -n magictryon python==3.12.9\nconda activate magictryon\n\n# 设置 pip 国内镜像 (可选，推荐)\npip config set global.index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n\n# 安装依赖\npip install -r requirements.txt\n\n# 或者使用 environment.yaml 创建完整环境\n# conda env create -f environment.yaml\n```\n\n**注意：Flash Attention 安装**\n如果在安装 `flash-attn` 时遇到报错，请根据您的 Python、CUDA 和 Torch 版本，前往 [GitHub Releases](https:\u002F\u002Fgithub.com\u002FDao-AILab\u002Fflash-attention\u002Freleases) 手动下载对应的 `.whl` 文件进行安装。例如：\n```shell\npip install flash_attn-2.7.3+cu12torch2.2cxx11abiFALSE-cp312-cp312-linux_x86_64.whl\n```\n\n### 2.2 下载模型权重\n\n项目提供了 Hugging Face 镜像地址以方便国内用户下载。以下命令将下载 14B 版本的预训练权重：\n\n```shell\ncd Magic-TryOn\nHF_ENDPOINT=https:\u002F\u002Fhf-mirror.com huggingface-cli download LuckyLiGY\u002FMagicTryOn --local-dir .\u002Fweights\u002FMagicTryOn_14B_V1\n```\n\n> **提示**: 如果您想尝试更轻量级的版本，可以从 [HuggingFace](https:\u002F\u002Fhuggingface.co\u002FLuckyLiGY\u002FMagicTryOn-1.3B) 下载 MagicTryOn-1.3B 权重。\n\n## 3. 基本使用\n\nMagicTryOn 支持图像试穿和视频试穿两种模式。默认情况下，脚本会读取预设的测试数据进行推理。\n\n### 3.1 图像试穿 (Image TryOn)\n\n运行以下命令即可生成图像试穿结果。您可以根据显卡情况选择不同精度的脚本（`up` 为高精度，`low` 为低精度\u002F快速版）。\n\n```shell\n# 使用第一块显卡运行高精度图像试穿\nCUDA_VISIBLE_DEVICES=0 python inference\u002Fimage_tryon\u002Fpredict_image_tryon_up.py\n\n# 或使用第二块显卡运行低精度图像试穿\nCUDA_VISIBLE_DEVICES=1 python inference\u002Fimage_tryon\u002Fpredict_image_tryon_low.py\n```\n*如需修改输入图片或参数，请编辑 `inference\u002Fimage_tryon\u002Fpredict_image_tryon_up.py` 文件。*\n\n### 3.2 视频试穿 (Video TryOn)\n\n运行以下命令进行视频虚拟试穿演示：\n\n```shell\n# 使用第一块显卡运行高精度视频试穿\nCUDA_VISIBLE_DEVICES=0 python inference\u002Fvideo_tryon\u002Fpredict_video_tryon_up.py\n\n# 或使用第二块显卡运行低精度视频试穿\nCUDA_VISIBLE_DEVICES=1 python inference\u002Fvideo_tryon\u002Fpredict_video_tryon_low.py\n```\n*如需修改输入视频或参数，请编辑 `inference\u002Fvideo_tryon\u002Fpredict_video_tryon_up.py` 文件。*\n\n### 3.3 自定义试穿 (Customize TryOn)\n\n如果您希望使用自己的服装和人物视频进行试穿，需要预先处理数据以生成必要的条件信号（包括服装描述、线稿、掩码、无服装人物表示及 DensePose）。\n\n**简要流程：**\n\n1.  **生成服装描述 (Cloth Caption)**:\n    ```shell\n    python inference\u002Fcustomize\u002Fget_garment_caption.py\n    ```\n2.  **提取服装线稿 (Cloth Line Map)**:\n    需先下载 AniLines 预训练模型至 `inference\u002Fcustomize\u002FAniLines\u002Fweights`。\n    ```shell\n    python inference\u002Fcustomize\u002FAniLines\u002Finfer.py --dir_in datasets\u002Fgarment\u002Fvivo\u002Fvivo_garment --dir_out datasets\u002Fgarment\u002Fvivo\u002Fvivo_garment_anilines --mode detail --binarize -1 --fp16 True --device cuda:1\n    ```\n3.  **生成掩码 (Mask)**:\n    需下载相关 checkpoint 至 `inference\u002Fcustomize\u002Fgen_mask\u002Fckpt`，并按目录结构整理视频\u002F图片数据后运行：\n    ```shell\n    python inference\u002Fcustomize\u002Fgen_mask\u002Fapp_mask.py\n    ```\n4.  **生成无服装人物表示 (Agnostic Representation)**:\n    ```shell\n    # 记得修改 --image_folder 和 --mask_folder 参数\n    python get_masked_person.py \n    ```\n5.  **生成 DensePose**:\n    需安装 `detectron2` 后运行：\n    ```shell\n    bash inference\u002Fcustomize\u002Fdetectron2\u002Fprojects\u002FDensePose\u002Frun.sh\n    ```\n\n完成上述预处理后，生成所需的 mp4 文件 (`mask.mp4`, `agnostic.mp4`, `densepose.mp4`)，最后运行自定义推理命令：\n\n```shell\nCUDA_VISIBLE_DEVICES=0 python inference\u002Fvideo_tryon\u002Fpredict_video_tryon_customize.py\n```","某时尚电商平台的运营团队需要为新款夏季连衣裙制作动态展示视频，以在社交媒体上呈现不同模特试穿后的真实走动效果。\n\n### 没有 Magic-TryOn 时\n- **静态展示局限大**：只能生成静态试穿图片，无法展示衣物在模特转身、行走时的自然垂坠感和动态褶皱，导致用户难以判断上身效果。\n- **视频编辑成本极高**：若需制作动态视频，必须聘请专业模特实拍或由后期团队逐帧进行复杂的绿幕合成，单条视频制作周期长达数天。\n- **衣物细节严重失真**：传统视频迁移方法在处理大幅度动作时，容易导致服装纹理模糊、Logo 变形甚至出现闪烁伪影，破坏品牌质感。\n- **时空一致性差**：生成的视频片段中，衣物与人体动作往往不同步，出现“衣服漂浮”或贴合不自然的尴尬画面，降低用户信任度。\n\n### 使用 Magic-TryOn 后\n- **动态试穿一键生成**：直接输入模特行走视频和目标服装图，Magic-TryOn 基于视频扩散 Transformer 即刻生成高质量的动态试穿视频，完美还原走动时的布料动态。\n- **大幅降本增效**：无需实拍或繁琐后期，运营人员可在本地部署模型，将单条视频的制作时间从数天缩短至几分钟，显著降低营销成本。\n- **精细保留服装特征**：借助其粗到细的服装保持策略和掩码感知损失，即使在大角度转身时，也能清晰保留面料纹理、印花图案及品牌 Logo 的细节。\n- **时空连贯性卓越**：利用全自注意力机制建模，确保视频帧间过渡平滑自然，衣物紧紧贴合人体运动轨迹，彻底消除闪烁和错位现象。\n\nMagic-TryOn 通过引入大规模视频扩散 Transformer，将高保真的动态虚拟试穿从昂贵的专业制作变成了可快速落地的自动化流程。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FvivoCameraResearch_Magic-TryOn_f8ea2be0.png","vivoCameraResearch","vivo Camera Research","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FvivoCameraResearch_c93d4623.png","",null,"https:\u002F\u002Fgithub.com\u002FvivoCameraResearch",[80,84,88,92,96,100,104,107],{"name":81,"color":82,"percentage":83},"Python","#3572A5",92.9,{"name":85,"color":86,"percentage":87},"Cuda","#3A4E3A",4,{"name":89,"color":90,"percentage":91},"C++","#f34b7d",2.5,{"name":93,"color":94,"percentage":95},"Shell","#89e051",0.4,{"name":97,"color":98,"percentage":99},"Dockerfile","#384d54",0.1,{"name":101,"color":102,"percentage":103},"Makefile","#427819",0,{"name":105,"color":106,"percentage":103},"C","#555555",{"name":108,"color":109,"percentage":103},"CMake","#DA3434",525,46,"2026-04-12T07:31:14","NOASSERTION","Linux","必需 NVIDIA GPU。示例命令指定单卡运行 (CUDA_VISIBLE_DEVICES=0\u002F1)。安装说明明确提及 CUDA 12.3 和 Flash Attention (cu12)，暗示需要支持 CUDA 12 的较新显卡。模型包含 14B 和 1.3B 版本，14B 版本推测需要高显存 (建议 24GB+)，1.3B 版本需求较低。","未说明",{"notes":118,"python":119,"dependencies":120},"1. 官方安装指南仅针对 Linux 环境 (提供 .whl 包为 linux_x86_64)。2. 必须手动安装与 Python 3.12.9、CUDA 12.3 和 Torch 2.2 严格匹配的 Flash Attention 版本。3. 自定义试穿流程需额外下载多个外部模型权重 (Qwen2.5-VL, AniLines, SCHP, DensePose 等) 并按特定目录结构存放。4. 基础模型基于 Wan2.1-I2V-14B，推理前需从 HuggingFace 下载约数十 GB 的权重文件。5. 许可证为 CC BY-NC-SA 4.0，仅限非商业用途。","3.12.9",[121,122,123,124,125,126,127,128,129],"torch==2.2","flash_attn==2.7.3","transformers","diffusers","accelerate","opencv-python","pillow","detectron2","xformers",[15,61],[132,133,134,135,136,137,138,139],"try-on","tryon","image-tryon","video-tryon","clothes-change","editing-image","editing-videos","wan21","2026-03-27T02:49:30.150509","2026-04-19T09:15:59.324955",[143,148,153,158,163,168,172,176],{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},42071,"本地运行需要多少显存（VRAM）？","显存需求取决于任务类型：\n1. 基于图像的试穿（如 VITON-HD 数据集）：显存占用在 10 GB 以内。\n2. 基于视频的试穿（如 ViViD 数据集，65 帧）：显存占用约为 20 GB。\n3. 自定义试穿：所需显存取决于输入视频的分辨率和帧数。\n若显存不足，可使用 `sequential_cpu_offload` 参数降低显存占用（例如图像模式可从约 53GB 降至 5.7GB），但会增加推理时间。","https:\u002F\u002Fgithub.com\u002FvivoCameraResearch\u002FMagic-TryOn\u002Fissues\u002F1",{"id":149,"question_zh":150,"answer_zh":151,"source_url":152},42072,"推理速度很慢（单张图需几分钟），这是正常的吗？如何加速？","推理时间受是否启用 `sequential_cpu_offload` 影响显著：\n- **图像模式**（1312x1552 分辨率，单卡 H800）：\n  - 不使用 `sequential_cpu_offload`：耗时约 70 秒，显存约 53 GB。\n  - 使用 `sequential_cpu_offload`：耗时约 130 秒，显存约 5.7 GB。\n- **视频模式**（384×512, 64 帧）：\n  - 不使用该参数：耗时约 42 秒，显存约 51 GB。\n  - 使用该参数：耗时约 246 秒，显存约 6 GB。\n\n**加速建议**：如果硬件资源充足（显存足够），请在推理时跳过 `sequential_cpu_offload` 参数，这将显著提升速度。未来团队计划发布蒸馏版本（distilled version），将推理步数减少到 4 步，以实现实时性能。","https:\u002F\u002Fgithub.com\u002FvivoCameraResearch\u002FMagic-TryOn\u002Fissues\u002F14",{"id":154,"question_zh":155,"answer_zh":156,"source_url":157},42073,"遇到报错 'Expected size 17 but got size 9 for tensor number 1' 如何解决？","该错误通常是因为噪声潜在变量（noise latent x）的时间维度（t）与条件变量（condition y）的时间维度不一致导致的。\n**解决方案**：请检查所有输入视频的帧数是否相同。确保输入的视频序列具有统一的帧数，以避免张量拼接时的维度不匹配问题。","https:\u002F\u002Fgithub.com\u002FvivoCameraResearch\u002FMagic-TryOn\u002Fissues\u002F12",{"id":159,"question_zh":160,"answer_zh":161,"source_url":162},42074,"显存不足（如只有 8GB）能否更换更小的文本编码器模型（如 umt5-base）？效果会受影响吗？","可以更换为较小的模型（如 `google\u002Fumt5-base`）以适配低显存设备（如 RTX 4060 8GB），但这可能会导致生成结果不理想。\n**修改步骤**：\n1. 修改配置文件 `config\u002Fwan2.1\u002Fwan_civitai.yaml`：\n   ```yaml\n   text_encoder_kwargs:\n     text_encoder_subpath: models_t5_mt5-base-enc-bf16.pth\n     tokenizer_subpath: google\u002Fumt5-base\n   ```\n2. 下载 `google\u002Fumt5-base` 权重并转换格式：\n   ```python\n   from transformers import T5EncoderModel\n   import torch\n   model = T5EncoderModel.from_pretrained(\"google\u002Fmt5-base\")\n   torch.save(model.state_dict(), \"models_t5_mt5-base-enc-bf16.pth\")\n   ```\n3. 将生成的 `.pth` 文件放入对应的权重目录。\n注意：官方文档展示的效果是基于原始大模型（umt5-xxl）生成的，更换小模型后可能无法达到同等质量。","https:\u002F\u002Fgithub.com\u002FvivoCameraResearch\u002FMagic-TryOn\u002Fissues\u002F4",{"id":164,"question_zh":165,"answer_zh":166,"source_url":167},42075,"是否支持实时视频流处理（如 1080p 25FPS）？","目前版本在标准配置下难以直接实现 1080p 实时处理，但有以下优化方向：\n1. **硬件要求**：若硬件资源充足（如多卡或高显存显卡），推理时不要使用 `sequential_cpu_offload` 参数，可显著提升速度。\n2. **未来计划**：团队计划发布蒸馏版（distilled version），将推理步数缩减至 4 步，届时有望实现实时性能。\n3. **模型迭代**：未来可能会迁移到 Wan2.2 架构以进一步提升效率。\n当前若需测试实时性，建议在高性能服务器上进行部署验证。","https:\u002F\u002Fgithub.com\u002FvivoCameraResearch\u002FMagic-TryOn\u002Fissues\u002F16",{"id":169,"question_zh":170,"answer_zh":171,"source_url":147},42076,"Gradio 在线演示版本何时上线？","Gradio 演示版本的发布时间已提前，预计很快就会上线供公众使用。请持续关注项目更新。",{"id":173,"question_zh":174,"answer_zh":175,"source_url":147},42077,"是否支持 Windows 系统运行？","目前项目在 Windows 上部署存在困难，因为许多依赖库不支持 Windows 环境。官方尚未提供原生的 Windows 支持方案，用户可能需要自行修改代码或寻找替代依赖才能在 Windows 上运行。建议优先在 Linux 环境下部署。",{"id":177,"question_zh":178,"answer_zh":179,"source_url":152},42078,"如何使用多卡推理？遇到 xfuser 环境错误怎么办？","尝试使用多卡推理（设置 `ulysses_degree` 和 `ring_degree`）时，可能会遇到 `xfuser` 相关的环境错误或与 `transformers` 等库的版本冲突。\n目前官方回复中未提供具体的多卡配置修复指南，建议暂时使用单卡推理。若必须使用多卡，需仔细检查 `xfuser==0.4.1` 与其他依赖库（如 `transformers`）的版本兼容性，或等待官方后续对多卡支持的进一步优化。",[]]