torchinfo

2.9k 134 非常简单 1 次阅读昨天MIT开发框架

AI 解读由 AI 自动生成，仅供参考

torchinfo 是一款专为 PyTorch 开发者设计的模型分析工具，旨在提供比原生 print(model) 更详尽、直观的神经网络结构摘要。它解决了开发者在调试复杂网络时难以快速掌握层级细节、参数量及计算开销的痛点，功能上类似于 TensorFlow 中的 model.summary()。

无论是深度学习研究人员还是工程开发者，都能通过 torchinfo 轻松查看每一层的输入输出形状、参数数量以及乘加运算量（Mult-Adds）。此外，它还能估算模型在前向传播和反向传播过程中的内存占用，帮助优化资源分配。

该工具的独特亮点在于其强大的兼容性：不仅支持卷积网络，还完美适配 RNN、LSTM 等递归层及具有分支结构的复杂模型。它提供了可配置的表格行列选项，并能返回包含完整统计数据的对象，便于程序化调用。在 Jupyter Notebook 或 Google Colab 环境中，torchinfo 也能无缝集成，直接渲染清晰的可视化表格。只需几行代码，用户即可获得专业的模型洞察，是构建和优化深度学习架构时的得力助手。

使用场景

某计算机视觉工程师在优化一个复杂的残差网络（ResNet）变体时，需要精确评估模型在边缘设备上的部署可行性。

没有 torchinfo 时

层级结构黑盒化：仅靠 print(model) 只能看到类名和参数定义，无法直观获知数据流经每个卷积层后的具体尺寸变化，难以定位维度不匹配的报错源头。
资源估算靠猜：缺乏自动计算机制，开发者需手动推导参数量（Params）和乘加运算量（Mult-Adds），极易算错导致模型超出显存限制或推理延迟过高。
调试效率低下：面对包含分支结构或递归层（如 RNN）的复杂网络，肉眼追踪数据流向极其耗时，往往需要插入大量临时打印语句才能验证中间层状态。

使用 torchinfo 后

可视化数据流向：运行一行 summary 代码即可生成清晰表格，详细展示每一层的输入/输出形状，瞬间发现某一下采样层导致了特征图尺寸异常。
精准量化指标：自动统计总参数量、可训练参数及估算的 MACs（百万次乘加运算），直接确认模型大小是否符合嵌入式设备的 100MB 存储上限。
一键深度诊断：无需修改模型代码，即可通过配置深度参数查看嵌套子模块的内部细节，快速理清复杂分支结构的逻辑，将调试时间从数小时缩短至几分钟。

torchinfo 将模糊的模型定义转化为透明的量化视图，让开发者在编码阶段就能精准掌控模型的性能边界与资源消耗。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该工具用于分析 PyTorch 模型结构，支持 CPU 和 GPU 运行（具体设备可配置）。若在 Jupyter Notebook 或 Google Colab 中使用，需将 summary() 作为单元格返回值或使用 print() 包裹。支持 RNN、LSTM 等递归层及分支结构。

python3.8+

torch>=1.4.0

快速开始

torchinfo

（原名 torch-summary）

Torchinfo 提供了与 PyTorch 中 print(your_model) 所提供信息互补的信息，类似于 TensorFlow 的 model.summary() API，用于查看模型的可视化结构，在调试网络时非常有帮助。在这个项目中，我们实现了类似的功能，并为 PyTorch 创建了一个简洁、易用的接口，方便在项目中使用。

这是由 @sksq96 和 @nmhkahn 原创的 torchsummary 和 torchsummaryX 项目的完全重写版本。通过引入全新的 API，本项目解决了原项目遗留的所有问题和拉取请求。

支持 PyTorch 1.4.0 及以上版本。

使用方法

pip install torchinfo

或者通过 conda 安装：

conda install -c conda-forge torchinfo

使用方式

from torchinfo import summary

model = ConvNet()
batch_size = 16
summary(model, input_size=(batch_size, 1, 28, 28))

================================================================================================================
Layer (type:depth-idx)          Input Shape          Output Shape         Param #            Mult-Adds
================================================================================================================
SingleInputNet                  [7, 1, 28, 28]       [7, 10]              --                 --
├─Conv2d: 1-1                   [7, 1, 28, 28]       [7, 10, 24, 24]      260                1,048,320
├─Conv2d: 1-2                   [7, 10, 12, 12]      [7, 20, 8, 8]        5,020              2,248,960
├─Dropout2d: 1-3                [7, 20, 8, 8]        [7, 20, 8, 8]        --                 --
├─Linear: 1-4                   [7, 320]             [7, 50]              16,050             112,350
├─Linear: 1-5                   [7, 50]              [7, 10]              510                3,570
================================================================================================================
Total params: 21,840
Trainable params: 21,840
Non-trainable params: 0
Total mult-adds (M): 3.41
================================================================================================================
Input size (MB): 0.02
Forward/backward pass size (MB): 0.40
Params size (MB): 0.09
Estimated Total Size (MB): 0.51
================================================================================================================

注意：如果您使用的是 Jupyter Notebook 或 Google Colab，summary(model, ...) 必须是单元格的返回值。如果不是，您应该将 summary 包裹在 print() 中，例如 print(summary(model, ...))。示例请参见 tests/jupyter_test.ipynb。

此版本现在支持：

RNN、LSTM 及其他递归层
分支输出，可用于按指定深度探索模型层
返回包含所有摘要数据字段的 ModelStatistics 对象
可配置的行数和列数
Jupyter Notebook / Google Colab

其他新特性：

详细模式，可显示权重和偏置层
支持输入数据或仅输入形状！
可自定义线条宽度和批量维度
全面的单元测试、输出测试、代码风格检查和代码覆盖率测试

社区贡献：

Sequentials 和 ModuleLists（感谢 @roym899）
改进的 Mult-Add 计算（感谢 @TE-StefanUhlich、@zmzhang2000）
字典/其他格式的输入数据（感谢 @e-dorigatti）
剪枝层支持（感谢 @MajorCarrot）

文档

def summary(
    model: nn.Module,
    input_size: Optional[INPUT_SIZE_TYPE] = None,
    input_data: Optional[INPUT_DATA_TYPE] = None,
    batch_dim: Optional[int] = None,
    cache_forward_pass: Optional[bool] = None,
    col_names: Optional[Iterable[str]] = None,
    col_width: int = 25,
    depth: int = 3,
    device: Optional[torch.device] = None,
    dtypes: Optional[List[torch.dtype]] = None,
    mode: str = "same",
    row_settings: Optional[Iterable[str]] = None,
    verbose: int = 1,
    **kwargs: Any,
) -> ModelStatistics:
"""
总结给定的 PyTorch 模型。总结的信息包括：
    1) 层名称，
    2) 输入/输出形状，
    3) 卷积核形状，
    4) 参数数量，
    5) 运算次数（乘加操作），
    6) 该层是否可训练。

注意：如果既没有提供 input_data 也没有提供 input_size，则不会执行前向传播，此时提供的模型信息仅限于层名称。

参数：
    model (nn.Module):
            要总结的 PyTorch 模型。模型应处于 train() 或 eval() 模式之一。如果各层模式不一致，运行 summary 可能会对 BatchNorm 或 Dropout 的统计产生副作用。若遇到此类问题，请提交 GitHub 问题。

    input_size (序列尺寸)：
            输入数据的形状，以 List/Tuple/torch.Size 形式提供。
            （数据类型需与模型输入匹配，默认为 FloatTensor）。
            元组中应包含批次大小。
            默认：None

    input_data (张量序列)：
            用于模型前向传播的参数（数据类型由输入推断）。
            如果 forward() 函数接受多个参数，请传入参数列表或关键字参数字典。
            （若 forward() 函数仅接受一个字典作为参数，需将其包裹在列表中）。
            默认：None

    batch_dim (int)：
            输入数据的批次维度。若 batch_dim 为 None，则假定 input_data / input_size 包含批次维度，并在所有计算中使用该维度。否则，会扩展所有张量以包含批次维度。
            指定 batch_dim 可以优化运行时性能，因为当指定了批次维度时，torchinfo 在前向传播时会使用批次大小为 1。
            默认：None

    cache_forward_pass (bool)：
            若为 True，则会以模型类名作为键缓存 forward() 函数的运行结果。如果前向传播操作开销较大，这将使修改模型摘要的格式更加方便，例如更改深度或启用的列类型，特别是在 Jupyter Notebook 中。
            警告：启用此功能后，若修改模型架构或输入数据/输入尺寸，缓存不会失效，也不会重新运行前向传播，从而可能导致摘要不准确。
            默认：False

    col_names (可迭代字符串)：
            指定在输出中显示哪些列。当前支持的列有：(
                "input_size",
                "output_size",
                "num_params",
                "params_percent",
                "kernel_size",
                "groups",
                "mult_adds",
                "trainable",
            )
            默认：("output_size", "num_params")
            如果未提供 input_data / input_size，则仅显示 "num_params"。

    col_width (int)：
            每列的宽度。
            默认：25

    depth (int)：
            显示嵌套层数的深度（例如 Sequential）。
            低于此深度的嵌套层将不会显示在摘要中。
            默认：3

    device (torch.Device)：
            使用指定的 torch 设备来处理模型和输入数据。
            如果未指定，则优先使用输入数据的数据类型（若有），否则使用模型参数的数据类型。若两者均未指定，则使用 torch.cuda.is_available() 的结果。
            默认：None

    dtypes (List[torch.dtype])：
            如果使用 input_size，torchinfo 假设输入数据为 FloatTensor 类型。若您的模型使用其他数据类型，请在此处指定相应的数据类型。
            对于多输入情况，需同时指定每个输入的尺寸及对应的数据类型。
            默认：None

    mode (str)：
            可取值为 "train"、"eval" 或 "same"，用于决定在调用 summary 之前是调用 model.train() 还是 model.eval()。无论哪种情况，最终都会恢复模型的原始模式。
            默认："same"。

    row_settings (可迭代字符串)：
            指定在每一行中显示哪些特性。当前支持的特性有：(
                "ascii_only",
                "depth",
                "var_names",
            )
            默认：("depth",)

    verbose (int)：
            0（静默）：无输出
            1（默认）：打印模型摘要
            2（详细）：完整显示权重和偏置层的信息
            默认：1
            如果使用 Jupyter Notebook 或 Google Colab，则默认为 0。

    **kwargs：
            `model.forward` 函数中使用的其他参数。不再支持 *args 的传递方式。

返回：
    ModelStatistics 对象
            更多信息请参阅 torchinfo/model_statistics.py 文件。
"""

示例

获取模型摘要的字符串表示

from torchinfo import summary

model_stats = summary(your_model, (1, 3, 28, 28), verbose=0)
summary_str = str(model_stats)
# summary_str 包含摘要的字符串表示！

探索不同的配置

class LSTMNet(nn.Module):
    def __init__(self, vocab_size=20, embed_dim=300, hidden_dim=512, num_layers=2):
        super().__init__()
        self.hidden_dim = hidden_dim
        self.embedding = nn.Embedding(vocab_size, embed_dim)
        self.encoder = nn.LSTM(embed_dim, hidden_dim, num_layers=num_layers, batch_first=True)
        self.decoder = nn.Linear(hidden_dim, vocab_size)

    def forward(self, x):
        embed = self.embedding(x)
        out, hidden = self.encoder(embed)
        out = self.decoder(out)
        out = out.view(-1, out.size(2))
        return out, hidden

summary(
    LSTMNet(),
    (1, 100),
    dtypes=[torch.long],
    verbose=2,
    col_width=16,
    col_names=["kernel_size", "output_size", "num_params", "mult_adds"],
    row_settings=["var_names"],
)

========================================================================================================================
Layer (type (var_name))                  Kernel Shape         Output Shape         Param #              Mult-Adds
========================================================================================================================
LSTMNet (LSTMNet)                        --                   [100, 20]            --                   --
├─Embedding (embedding)                  --                   [1, 100, 300]        6,000                6,000
│    └─weight                            [300, 20]                                 └─6,000
├─LSTM (encoder)                         --                   [1, 100, 512]        3,768,320            376,832,000
│    └─weight_ih_l0                      [2048, 300]                               ├─614,400
│    └─weight_hh_l0                      [2048, 512]                               ├─1,048,576
│    └─bias_ih_l0                        [2048]                                    ├─2,048
│    └─bias_hh_l0                        [2048]                                    ├─2,048
│    └─weight_ih_l1                      [2048, 512]                               ├─1,048,576
│    └─weight_hh_l1                      [2048, 512]                               ├─1,048,576
│    └─bias_ih_l1                        [2048]                                    ├─2,048
│    └─bias_hh_l1                        [2048]                                    └─2,048
├─Linear (decoder)                       --                   [1, 100, 20]         10,260               10,260
│    └─weight                            [512, 20]                                 ├─10,240
│    └─bias                              [20]                                      └─20
========================================================================================================================
Total params: 3,784,580
Trainable params: 3,784,580
Non-trainable params: 0
Total mult-adds (M): 376.85
========================================================================================================================
Input size (MB): 0.00
Forward/backward pass size (MB): 0.67
Params size (MB): 15.14
Estimated Total Size (MB): 15.80
========================================================================================================================

ResNet

import torchvision

model = torchvision.models.resnet152()
summary(model, (1, 3, 224, 224), depth=3)

==========================================================================================
Layer (type:depth-idx)                   Output Shape              Param #
==========================================================================================
ResNet                                   [1, 1000]                 --
├─Conv2d: 1-1                            [1, 64, 112, 112]         9,408
├─BatchNorm2d: 1-2                       [1, 64, 112, 112]         128
├─ReLU: 1-3                              [1, 64, 112, 112]         --
├─MaxPool2d: 1-4                         [1, 64, 56, 56]           --
├─Sequential: 1-5                        [1, 256, 56, 56]          --
│    └─Bottleneck: 2-1                   [1, 256, 56, 56]          --
│    │    └─Conv2d: 3-1                  [1, 64, 56, 56]           4,096
│    │    └─BatchNorm2d: 3-2             [1, 64, 56, 56]           128
│    │    └─ReLU: 3-3                    [1, 64, 56, 56]           --
│    │    └─Conv2d: 3-4                  [1, 64, 56, 56]           36,864
│    │    └─BatchNorm2d: 3-5             [1, 64, 56, 56]           128
│    │    └─ReLU: 3-6                    [1, 64, 56, 56]           --
│    │    └─Conv2d: 3-7                  [1, 256, 56, 56]          16,384
│    │    └─BatchNorm2d: 3-8             [1, 256, 56, 56]          512
│    │    └─Sequential: 3-9              [1, 256, 56, 56]          16,896
│    │    └─ReLU: 3-10                   [1, 256, 56, 56]           --
│    └─Bottleneck: 2-2                   [1, 256, 56, 56]          --

  ...
  ...
  ...

├─AdaptiveAvgPool2d: 1-9                 [1, 2048, 1, 1]           --
├─Linear: 1-10                           [1, 1000]                 2,049,000
==========================================================================================
Total params: 60,192,808
Trainable params: 60,192,808
Non-trainable params: 0
Total mult-adds (G): 11.51
==========================================================================================
Input size (MB): 0.60
Forward/backward pass size (MB): 360.87
Params size (MB): 240.77
Estimated Total Size (MB): 602.25
==========================================================================================

多输入与不同数据类型

class MultipleInputNetDifferentDtypes(nn.Module):
    def __init__(self):
        super().__init__()
        self.fc1a = nn.Linear(300, 50)
        self.fc1b = nn.Linear(50, 10)

        self.fc2a = nn.Linear(300, 50)
        self.fc2b = nn.Linear(50, 10)

    def forward(self, x1, x2):
        x1 = F.relu(self.fc1a(x1))
        x1 = self.fc1b(x1)
        x2 = x2.type(torch.float)
        x2 = F.relu(self.fc2a(x2))
        x2 = self.fc2b(x2)
        x = torch.cat((x1, x2), 0)
        return F.log_softmax(x, dim=1)

summary(model, [(1, 300), (1, 300)], dtypes=[torch.float, torch.long])

或者，你也可以直接传入输入数据，torchinfo 会自动推断数据类型。

input_data = torch.randn(1, 300)
other_input_data = torch.randn(1, 300).long()
model = MultipleInputNetDifferentDtypes()

summary(model, input_data=[input_data, other_input_data, ...])

顺序容器与 ModuleList

class ContainerModule(nn.Module):

    def __init__(self):
        super().__init__()
        self._layers = nn.ModuleList()
        self._layers.append(nn.Linear(5, 5))
        self._layers.append(ContainerChildModule())
        self._layers.append(nn.Linear(5, 5))

    def forward(self, x):
        for layer in self._layers:
            x = layer(x)
        return x


class ContainerChildModule(nn.Module):

    def __init__(self):
        super().__init__()
        self._sequential = nn.Sequential(nn.Linear(5, 5), nn.Linear(5, 5))
        self._between = nn.Linear(5, 5)

    def forward(self, x):
        out = self._sequential(x)
        out = self._between(out)
        for l in self._sequential:
            out = l(out)

        out = self._sequential(x)
        for l in self._sequential:
            out = l(out)
        return out

summary(ContainerModule(), (1, 5))

==========================================================================================
Layer (type:depth-idx)                   Output Shape              Param #
==========================================================================================
ContainerModule                          [1, 5]                    --
├─ModuleList: 1-1                        --                        --
│    └─Linear: 2-1                       [1, 5]                    30
│    └─ContainerChildModule: 2-2         [1, 5]                    --
│    │    └─Sequential: 3-1              [1, 5]                    --
│    │    │    └─Linear: 4-1             [1, 5]                    30
│    │    │    └─Linear: 4-2             [1, 5]                    30
│    │    └─Linear: 3-2                  [1, 5]                    30
│    │    └─Sequential: 3-3              --                        (recursive)
│    │    │    └─Linear: 4-3             [1, 5]                    (recursive)
│    │    │    └─Linear: 4-4             [1, 5]                    (recursive)
│    │    └─Sequential: 3-4              [1, 5]                    (recursive)
│    │    │    └─Linear: 4-5             [1, 5]                    (recursive)
│    │    │    └─Linear: 4-6             [1, 5]                    (recursive)
│    │    │    └─Linear: 4-7             [1, 5]                    (recursive)
│    │    │    └─Linear: 4-8             [1, 5]                    (recursive)
│    └─Linear: 2-3                       [1, 5]                    30
==========================================================================================
Total params: 150
Trainable params: 150
Non-trainable params: 0
Total mult-adds (M): 0.00
==========================================================================================
Input size (MB): 0.00
Forward/backward pass size (MB): 0.00
Params size (MB): 0.00
Estimated Total Size (MB): 0.00
==========================================================================================

贡献

我们非常欢迎所有的问题和拉取请求！如果您想知道如何构建该项目：

torchinfo 使用最新版本的 Python 进行开发。
- 更改应向后兼容 Python 3.8，并遵循 Python 对旧版本的支持终止政策。
- 运行 pip install -r requirements-dev.txt。我们使用所有开发依赖包的最新版本。
- 运行 pre-commit install。
- 若要使用自动格式化工具，运行 pre-commit run -a。
- 若要运行单元测试，运行 pytest。
- 若要更新预期输出文件，运行 pytest --overwrite。
- 若要跳过输出文件测试，使用 pytest --no-output。

参考文献

感谢 @sksq96、@nmhkahn 和 @sangyx 为本项目提供了灵感。
关于模型大小估算，感谢 @jacobkimmel（详情请见此处）。

torchinfo 快速上手指南

torchinfo 是一个用于 PyTorch 模型可视化的工具，功能类似于 TensorFlow 的 model.summary()。它能清晰地展示模型的层级结构、输入/输出形状、参数量及计算量（Mult-Adds），是调试神经网络结构的得力助手。

环境准备

Python 版本：3.8 及以上
PyTorch 版本：1.4.0 及以上
系统要求：支持 Linux、macOS 和 Windows

安装步骤

推荐使用 pip 进行安装。国内用户可使用清华源或阿里源加速下载。

使用 pip 安装（推荐）：

pip install torchinfo

使用国内镜像源加速安装：

pip install torchinfo -i https://pypi.tuna.tsinghua.edu.cn/simple

使用 Conda 安装：

conda install -c conda-forge torchinfo

基本使用

1. 最简单的用法

只需导入 summary 函数，传入模型实例和输入数据的形状（需包含 Batch Size），即可打印模型摘要。

from torchinfo import summary
import torch.nn as nn

# 假设你有一个定义好的模型
class ConvNet(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(1, 10, kernel_size=5)
        self.conv2 = nn.Conv2d(10, 20, kernel_size=5)
        self.fc1 = nn.Linear(320, 50)
        self.fc2 = nn.Linear(50, 10)

    def forward(self, x):
        x = torch.relu(self.conv1(x))
        x = torch.max_pool2d(x, 2)
        x = torch.relu(self.conv2(x))
        x = torch.max_pool2d(x, 2)
        x = x.view(-1, 320)
        x = torch.relu(self.fc1(x))
        x = self.fc2(x)
        return x

model = ConvNet()

# 生成模型摘要
# input_size 格式为: (Batch_Size, Channels, Height, Width)
summary(model, input_size=(16, 1, 28, 28))

输出示例：

================================================================================================================
Layer (type:depth-idx)          Input Shape          Output Shape         Param #            Mult-Adds
================================================================================================================
ConvNet                         [16, 1, 28, 28]      [16, 10]             --                 --
├─Conv2d: 1-1                   [16, 1, 28, 28]      [16, 10, 24, 24]     260                1,048,320
├─Conv2d: 1-2                   [16, 10, 12, 12]     [16, 20, 8, 8]       5,020              2,248,960
├─Linear: 1-3                   [16, 320]            [16, 50]             16,050             112,350
├─Linear: 1-4                   [16, 50]             [16, 10]             510                3,570
================================================================================================================
Total params: 21,840
Trainable params: 21,840
Non-trainable params: 0
Total mult-adds (M): 3.41
================================================================================================================

2. Jupyter Notebook / Colab 特别说明

如果在 Jupyter Notebook 或 Google Colab 中使用，确保 summary() 是单元格的最后一个表达式，或者将其包裹在 print() 中：

# 方式一：作为单元格最后一行
summary(model, input_size=(16, 1, 28, 28))

# 方式二：显式打印
print(summary(model, input_size=(16, 1, 28, 28)))

3. 获取摘要字符串

如果你需要将摘要信息保存为字符串而不是直接打印，可以设置 verbose=0：

model_stats = summary(model, input_size=(16, 1, 28, 28), verbose=0)
summary_str = str(model_stats)
# 现在 summary_str 包含了完整的摘要文本

版本历史

v1.8.02023/05/14

v1.7.22023/02/05

v1.7.12022/09/26

v1.7.02022/05/28

v1.6.62022/05/16

v1.6.52022/03/25

v1.6.32022/01/15

v1.6.22022/01/11

v1.6.12021/12/24

v1.6.02021/12/21

v1.5.42021/11/24

v1.5.32021/08/07

v1.5.22021/07/06

v1.5.12021/07/05

v.1.5.02021/07/03

v0.1.52021/06/13

v0.1.42021/06/07

v0.1.32021/06/04

v0.1.22021/05/22

v0.1.12021/05/09

常见问题

如何在 summary 输出中指定参数量（Params）和乘加运算量（MACs）的单位？

为什么模型中的 `nn.Parameter` 在 summary 报告中被遗漏了？

使用 `nn.UninitializedParameter` 或延迟初始化模块时报错怎么办？

嵌套模型结构中的 MACs（乘加运算量）计算不准确或显示错误如何解决？

如何让 torchinfo 支持输入为字典（dict）的模型？

开发 torchinfo 时需要什么版本的 Python 和 PyTorch？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|3天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|4天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 147.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.1k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|3天前

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|3天前

语言模型图像Agent