VMamba

3.1k 233 中等 1 次阅读昨天MIT图像

AI 解读由 AI 自动生成，仅供参考

VMamba 是一款专为计算机视觉打造的高效骨干网络，它将自然语言处理领域著名的 Mamba 状态空间模型成功迁移至图像任务中。针对传统卷积神经网络感受野受限、而 Transformer 架构计算复杂度随图像分辨率平方级增长导致效率低下的痛点，VMamba 实现了线性时间复杂度，在保持高性能的同时大幅降低了计算资源消耗。

该工具的核心亮点在于其独创的“二维选择性扫描”（SS2D）模块。通过沿四个方向遍历图像数据，SS2D 巧妙地将一维序列建模能力适配到非顺序的二维图像结构中，使模型能够像 Transformer 一样拥有全局有效感受野，精准捕捉多视角的上下文信息。实验表明，VMamba 在多种视觉感知任务中表现优异，且在输入分辨率扩展时展现出极佳的效率优势。

VMamba 非常适合从事深度学习算法研究的研究人员、需要部署高效视觉模型的开发者，以及关注前沿架构探索的技术爱好者使用。项目代码基于 PyTorch 构建，提供了清晰的实现细节和预训练权重，甚至支持极简的单文件快速体验，便于用户快速上手验证或将其集成到自己的视觉系统中。作为 NeurIPS 2024 的亮点接收论文成果，VMamba 为构建下一代高效视觉基础模型提供了强有力的新选择。

使用场景

某自动驾驶初创公司的算法团队正在开发车载实时路况感知系统，需要在算力受限的边缘设备上处理高分辨率摄像头数据，以精准识别远处的交通标志和行人。

没有 VMamba 时

全局信息捕捉困难：传统的卷积神经网络（CNN）受限于局部感受野，难以有效关联图像中相距较远的上下文信息，导致在复杂背景下漏检小目标。
计算资源消耗过大：若改用 Vision Transformer 来获取全局视野，其二次方级的计算复杂度会让边缘设备推理延迟飙升，无法满足实时性要求。
长序列建模效率低：面对高分辨率输入，现有模型往往需要大幅下采样牺牲细节，或陷入显存溢出困境，难以平衡精度与速度。
部署调优成本高：为了在有限算力上跑通模型，工程师需花费大量时间进行剪枝、量化等复杂的后处理优化，且效果往往不尽如人意。

使用 VMamba 后

线性复杂度实现全局感知：VMamba 凭借独特的二维选择性扫描机制（SS2D），以线性时间复杂度构建了全局有效感受野，轻松捕捉远距离依赖关系。
边缘端推理流畅高效：在保持高精度的同时，VMamba 显著降低了计算负载，使高分辨率图像在嵌入式芯片上的处理帧率提升了数倍，满足实时控制需求。
原生支持高分辨率输入：得益于高效的架构设计，团队可直接输入原始高清画面而无需过度压缩，显著提升了对远处微小交通标志的识别准确率。
落地流程大幅简化：VMamba 代码库简洁且易于集成，团队减少了繁琐的模型压缩步骤，将原本数周的适配周期缩短至几天，快速完成了原型验证。

VMamba 成功打破了视觉模型中“全局感知”与“计算效率”不可兼得的僵局，让高性能视觉 backbone 在资源受限的边缘场景中真正落地成为可能。

运行环境要求

操作系统

Linux

GPU

需要 NVIDIA GPU，预编译包指定 CUDA 12 (cu12)，测试环境使用 A100

内存

未说明

依赖

notes1. 官方提供的快速安装命令仅包含 Linux x86_64 的预编译 wheel 包 (mamba_ssm)，Windows 和 macOS 用户可能需要从源码编译 mamba-ssm。2. 在下游任务中若发现运行缓慢，建议在代码中禁用 `torch.backends.cudnn.enabled`。3. 该工具基于视觉状态空间模型 (VSS)，核心依赖特定的 `mamba-ssm` 库版本。

python3.10

torch==2.2

torchvision

torchaudio

triton

mamba-ssm==2.2.4

timm==0.4.12

numpy==1.24.4

einops

ninja

fvcore

快速开始

VMamba

VMamba：视觉状态空间模型

Yue Liu¹,Yunjie Tian¹,Yuzhong Zhao¹, Hongtian Yu¹, Lingxi Xie², Yaowei Wang³, Qixiang Ye¹, Yunfan Liu¹

¹ 中国科学院大学, ² 华为公司, ³ 崇德实验室。

论文：(arXiv 2401.10166)

🔥 仅需一个文件，以最少步骤使用VMamba！

conda create -n vmamba python=3.10
pip install torch==2.2 torchvision torchaudio triton pytest chardet yacs termcolor fvcore seaborn packaging ninja einops numpy==1.24.4 timm==0.4.12
pip install https://github.com/state-spaces/mamba/releases/download/v2.2.4/mamba_ssm-2.2.4+cu12torch2.2cxx11abiTRUE-cp310-cp310-linux_x86_64.whl
python vmamba.py

更新
摘要
概述
主要结果
快速入门
星标历史
引用
致谢

:white_check_mark: 更新

2024年9月25日：更新：VMamba已被NeurIPS 2024接收（亮点论文）！
2024年6月14日：更新：我们优化了代码，使其更易读；增加了对mamba2的支持。
2024年5月26日：更新：我们发布了VMambav2的更新权重，并附带新的arXiv论文。
2024年5月7日：更新：重要提示！ 在下游任务中使用torch.backends.cudnn.enabled=True可能会导致运行速度较慢。如果您发现VMamba在您的机器上运行较慢，请在vmamba.py中将其禁用，否则无需理会。
...

详情请参阅detailed_updates.md

摘要

设计计算效率高的网络架构仍然是计算机视觉领域持续的需求。本文将状态空间语言模型Mamba移植到VMamba中，构建了一种线性时间复杂度的视觉骨干网络。VMamba的核心是由带有二维选择性扫描（SS2D）模块的视觉状态空间（VSS）块堆叠而成。通过沿四条扫描路径遍历，SS2D有助于弥合一维选择性扫描的有序特性与二维视觉数据非序列结构之间的差距，从而促进从不同来源和视角收集上下文信息。基于VSS块，我们开发了一系列VMamba架构，并通过一系列架构和实现上的改进进一步加速其性能。大量实验表明，VMamba在多种视觉感知任务中表现出色，尤其在输入尺度扩展效率方面优于现有基准模型。

概述

VMamba 是一种通用的计算机视觉骨干网络。

architecture

VMamba的二维选择性扫描

arch

VMamba具有全局有效感受野

erf

VMamba在激活图上类似于基于Transformer的方法

attn

activation

主要结果

:book: 详情请参阅performance.md。

ImageNet-1K上的分类

名称	预训练	分辨率	acc@1	参数量	FLOPs	TP.	训练TP.	配置/日志/检查点
Swin-T	ImageNet-1K	224x224	81.2	28M	4.5G	1244	987	--
Swin-S	ImageNet-1K	224x224	83.2	50M	8.7G	718	642	--
Swin-B	ImageNet-1K	224x224	83.5	88M	15.4G	458	496	--
VMamba-S[`s2l15`]	ImageNet-1K	224x224	83.6	50M	8.7G	877	314	配置/日志/检查点
VMamba-B[`s2l15`]	ImageNet-1K	224x224	83.9	89M	15.4G	646	247	配置/日志/检查点
VMamba-T[`s1l8`]	ImageNet-1K	224x224	82.6	30M	4.9G	1686	571	配置/日志/检查点

本小节中的模型均采用随机或手动初始化从头开始训练。超参数沿用了Swin的设置，但drop_path_rate和EMA除外。除Vanilla-VMamba-T外，所有模型均使用EMA进行训练。
TP.(吞吐量)和Train TP. (训练吞吐量)是在A100 GPU搭配AMD EPYC 7542 CPU的环境下，以批量大小128进行评估的。训练吞吐量测试时采用了混合分辨率，未计入优化器的时间消耗。
FLOPs和参数量现在包含了头部部分（在之前的版本中，这些数值并未计算头部，因此会略高一些）。
我们使用@albertgu提供的算法来计算FLOPs，该算法得出的结果会比之前基于selective_scan_ref函数且未考虑硬件优化的计算方法更大。

COCO 数据集上的目标检测

主干网络	参数量	FLOPs	检测器	bboxAP	bboxAP50	bboxAP75	segmAP	segmAP50	segmAP75	配置/日志/检查点
Swin-T	48M	267G	MaskRCNN@1x	42.7	65.2	46.8	39.3	62.2	42.2	--
Swin-S	69M	354G	MaskRCNN@1x	44.8	66.6	48.9	40.9	63.4	44.2	--
Swin-B	107M	496G	MaskRCNN@1x	46.9	--	--	42.3	--	--	--
VMamba-S[`s2l15`]	70M	384G	MaskRCNN@1x	48.7	70.0	53.4	43.7	67.3	47.0	配置/日志/检查点
VMamba-B[`s2l15`]	108M	485G	MaskRCNN@1x	49.2	71.4	54.0	44.1	68.3	47.7	配置/日志/检查点
VMamba-B[`s2l15`]	108M	485G	MaskRCNN@1x[`bs8`]	49.2	70.9	53.9	43.9	67.7	47.6	配置/日志/检查点
VMamba-T[`s1l8`]	50M	271G	MaskRCNN@1x	47.3	69.3	52.0	42.7	66.4	45.9	配置/日志/检查点
:---:	:---:	:---:	:---:	:---:	:---:	:---:	:---:	:---:	:---:	:---:
Swin-T	48M	267G	MaskRCNN@3x	46.0	68.1	50.3	41.6	65.1	44.9	--
Swin-S	69M	354G	MaskRCNN@3x	48.2	69.8	52.8	43.2	67.0	46.1	--
VMamba-S[`s2l15`]	70M	384G	MaskRCNN@3x	49.9	70.9	54.7	44.20	68.2	47.7	配置/日志/检查点
VMamba-T[`s1l8`]	50M	271G	MaskRCNN@3x	48.8	70.4	53.50	43.7	67.4	47.0	配置/日志/检查点

本小节中的模型均从分类任务中训练好的模型初始化。
我们现在使用 @albertgu 提供的算法计算 FLOPs（见 GitHub issue #110），这比之前的计算结果要大（之前的计算基于 selective_scan_ref 函数，未考虑硬件相关的优化算法）。

ADE20K 数据集上的语义分割

主干网络	输入尺寸	参数量	FLOPs	分割器	mIoU(SS)	mIoU(MS)	配置/日志/多尺度日志/检查点
Swin-T	512x512	60M	945G	UperNet@160k	44.4	45.8	--
Swin-S	512x512	81M	1039G	UperNet@160k	47.6	49.5	--
Swin-B	512x512	121M	1188G	UperNet@160k	48.1	49.7	--
VMamba-S[`s2l15`]	512x512	82M	1028G	UperNet@160k	50.6	51.2	配置/日志/多尺度日志/检查点
VMamba-B[`s2l15`]	512x512	122M	1170G	UperNet@160k	51.0	51.6	配置/日志/多尺度日志/检查点
VMamba-T[`s1l8`]	512x512	62M	949G	UperNet@160k	47.9	48.8	配置/日志/多尺度日志/检查点

本小节中的模型均从分类任务中训练好的模型初始化。
我们现在使用 @albertgu 提供的算法计算 FLOPs（见 GitHub issue #110），这比之前的计算结果要大（之前的计算基于 selective_scan_ref 函数，未考虑硬件相关的优化算法）。

入门

安装

步骤 1：克隆 VMamba 仓库：

首先，克隆 VMamba 仓库并进入项目目录：

git clone https://github.com/MzeroMiko/VMamba.git
cd VMamba

步骤 2：环境设置：

VMamba 建议使用 conda 创建虚拟环境，并通过 pip 安装依赖。请使用以下命令设置环境：此外，我们推荐使用 PyTorch ≥ 2.0 和 CUDA ≥ 11.8，但较低版本的 PyTorch 和 CUDA 也受支持。

创建并激活一个新的 conda 环境

conda create -n vmamba
conda activate vmamba

安装依赖

pip install -r requirements.txt
cd kernels/selective_scan && pip install .

检查选择性扫描（可选）

如果您想将模块与 mamba_ssm 进行对比测试，请先安装 mamba_ssm！
若要检查我们的 selective scan 实现是否与 mamba_ssm 相同，可以运行 selective_scan/test_selective_scan.py。将 selective_scan/test_selective_scan.py 中的 MODE = "mamba_ssm_sscore" 修改为相应值，然后运行 pytest selective_scan/test_selective_scan.py。
若想验证我们的 selective scan 实现是否与参考代码（selective_scan_ref）一致，可将 selective_scan/test_selective_scan.py 中的 MODE = "sscore" 修改为相应值，再运行 pytest selective_scan/test_selective_scan.py。
MODE = "mamba_ssm" 表示检查 mamba_ssm 的结果是否接近 selective_scan_ref，而 "sstest" 则保留用于开发。
如果发现 mamba_ssm（selective_scan_cuda）或 selective_scan（selctive_scan_cuda_core）与 selective_scan_ref 差距较大，测试失败也不要担心。请查看 mamba 是否已解决该问题。
如果您对选择性扫描感兴趣，可以进一步了解 mamba、mamba-mini、mamba.py 和 mamba-minimal 等项目。

检测与分割任务的依赖（可选）

pip install mmengine==0.10.1 mmcv==2.1.0 opencv-python-headless ftfy regex
pip install mmdet==3.3.0 mmsegmentation==1.2.2 mmpretrain==1.2.0

模型训练与推理

分类

要在 ImageNet 数据集上训练 VMamba 分类模型，可根据不同配置使用以下命令：

python -m torch.distributed.launch --nnodes=1 --node_rank=0 --nproc_per_node=8 --master_addr="127.0.0.1" --master_port=29501 main.py --cfg </path/to/config> --batch-size 128 --data-path </path/of/dataset> --output /tmp

若仅需测试性能（包括参数量和 FLOPs）：

python -m torch.distributed.launch --nnodes=1 --node_rank=0 --nproc_per_node=1 --master_addr="127.0.0.1" --master_port=29501 main.py --cfg </path/to/config> --batch-size 128 --data-path </path/of/dataset> --output /tmp --pretrained </path/of/checkpoint>

更多详情请参阅 modelcard。

检测与分割

使用 mmdetection 或 mmsegmentation 进行评估：

bash ./tools/dist_test.sh </path/to/config> </path/to/checkpoint> 1

使用 --tta 可获得分割任务中的 mIoU(ms)。

使用 mmdetection 或 mmsegmentation 进行训练：

bash ./tools/dist_train.sh </path/to/config> 8

有关检测和分割任务的更多信息，请参阅 mmdetection 和 mmsegmentation 的官方文档。请务必在 configs 目录中使用合适的骨干网络配置。

分析工具

VMamba 提供了用于可视化 Mamba “注意力”和有效感受野、分析吞吐量及训练吞吐量的工具。请使用以下命令进行分析：

# 可视化 Mamba “注意力”
CUDA_VISIBLE_DEVICES=0 python analyze/attnmap.py

# 分析有效感受野
CUDA_VISIBLE_DEVICES=0 python analyze/erf.py

# 分析吞吐量和训练吞吐量
CUDA_VISIBLE_DEVICES=0 python analyze/tp.py

我们还包含了一些在此项目中可能用到的其他分析工具，感谢所有为这些工具做出贡献的人。

星标历史

引用

@article{liu2024vmamba,
  title={VMamba: 视觉状态空间模型},
  author={刘悦、田云杰、赵宇中、于洪天、谢凌曦、王耀伟、叶启祥、刘云帆},
  journal={arXiv 预印本 arXiv:2401.10166},
  year={2024}
}

致谢

本项目基于 Mamba（论文、代码）、Swin-Transformer（论文、代码）、ConvNeXt（论文、代码）、OpenMMLab，以及从 replknet 借鉴的 analyze/get_erf.py，感谢他们的杰出工作。

我们最近发布了 Fast-iTPN，据我们所知，该模型在 Tiny/Small/Base 级别上取得了 ImageNet-1K 数据集的最佳性能。（Tiny-24M-86.5%，Small-40M-87.8%，Base-85M-88.75%）

VMamba 快速上手指南

VMamba 是一种基于视觉状态空间模型（Visual State Space Model）的通用视觉骨干网络，具有线性时间复杂度，在图像分类、目标检测和语义分割等任务中表现优异。

环境准备

操作系统: Linux (x86_64)
Python: 3.10
GPU: 支持 CUDA 的 NVIDIA 显卡 (示例命令基于 CUDA 12)
编译器: 需安装 ninja 以加速编译

安装步骤

请按照以下顺序执行命令来配置环境并安装依赖。

1. 创建 Conda 环境

conda create -n vmamba python=3.10
conda activate vmamba

2. 安装基础依赖

推荐使用国内镜像源（如清华源）加速下载：

pip install torch==2.2 torchvision torchaudio triton pytest chardet yacs termcolor fvcore seaborn packaging ninja einops numpy==1.24.4 timm==0.4.12 -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 安装 Mamba SSM 核心组件

安装预编译的 mamba_ssm wheel 包（适用于 CUDA 12 + Torch 2.2 + Python 3.10）：

pip install https://github.com/state-spaces/mamba/releases/download/v2.2.4/mamba_ssm-2.2.4+cu12torch2.2cxx11abiTRUE-cp310-cp310-linux_x86_64.whl

注意：如果您的 CUDA 版本或 Python 版本不同，请访问 Mamba Releases 查找对应的 .whl 文件进行安装。

4. 获取项目代码

git clone https://github.com/MzeroMiko/VMamba.git
cd VMamba

基本使用

项目提供了一个极简的单文件测试脚本，用于验证安装是否成功并运行模型。

运行测试脚本

在项目根目录下直接运行：

python vmamba.py

性能优化提示

如果在下游任务中发现推理速度较慢，请检查 vmamba.py 中的设置。根据官方更新日志，在某些机器上禁用 cuDNN 可能提升速度：确保代码中未强制开启 torch.backends.cudnn.enabled=True，或者根据实际测试结果手动调整该选项。

更多详细配置（如分类、检测、分割任务的训练与评估）请参考项目目录下的 classification, detection, segmentation 文件夹及对应的配置文件。

版本历史

#v0seg2024/02/22

#v0det2024/02/22

#v0cls2024/02/18

#v2seg2024/03/20

#v2cls2024/03/16

#v2det2024/03/20

#202402202024/02/22

常见问题

安装后出现 'ModuleNotFoundError: No module named selective_scan_cuda' 或无法导入相关模块的警告，如何解决？

遇到 'Cannot import selective_scan_cuda_oflex' 警告导致训练速度极慢（甚至显示需要几百天），该怎么办？

编译 selective_scan 时出现 'ninja -v returned non-zero exit status 1' 或 '.o 文件不存在' 的错误，如何修复？

VMamba 在分割任务中的表现为何远超 Swin-T，即使训练迭代次数相同？

是否必须同时使用 selective_scan_cuda_core、selective_scan_cuda 和 selective_scan_cuda_oflex 这三个模块？

使用 pip 安装 PyTorch 后，运行 pip install . 报错找不到 CUDA_HOME 或 nvcc 命令，如何解决？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|1周前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|1周前

开发框架图像Agent