ComfyUI-DyPE

537 42 非常简单 1 次阅读 2天前Apache-2.0图像语言模型

AI 解读由 AI 自动生成，仅供参考

ComfyUI-DyPE 是一款专为 ComfyUI 设计的自定义节点，旨在帮助 FLUX、Qwen Image 及 Nunchaku 等扩散模型（DiT）生成无伪影的 4K+ 超高分辨率图像。它主要解决了传统模型在超出训练分辨率时容易出现的画面重复纹理、结构崩坏及细节模糊等痛点，让用户无需重新训练模型即可突破原生分辨率限制。

该工具适合希望提升出图质量的设计师、数字艺术家以及 AI 绘画爱好者使用。其核心技术亮点在于采用了“动态位置外推”（DyPE）算法，这是一种无需额外训练的免费方法。DyPE 巧妙利用扩散过程中的频谱演进特性，在生成的不同阶段动态调整模型的位置编码：早期专注于低频结构构建，后期则聚焦于高频细节还原。这种机制有效避免了高分辨率生成中常见的瑕疵。

ComfyUI-DyPE 的使用极为便捷，仅需在工作流中模型加载器后插入一个节点即可完成配置，完全兼容现有的采样器和调度器。更重要的是，它在显著提升画质的同时，几乎不增加任何推理时间开销，实现了性能与效果的完美平衡。无论是创作大幅面海报还是精细插画，它都能助您轻松获得连贯且细节丰富的卓越成果。

使用场景

一位数字艺术家正在为高端印刷项目创作一幅细节丰富的 4K 奇幻风景图，需要利用 Flux 模型生成极具连贯性的超高分辨率画面。

没有 ComfyUI-DyPE 时

画面出现重复伪影：直接强行提升分辨率至 4K，导致建筑物纹理或自然景物出现规律的“平铺”重复现象，破坏真实感。
结构严重崩坏：超出模型原生训练范围后，图像整体构图失衡，物体比例失调，甚至出现无法辨认的扭曲形态。
依赖繁琐的分块绘制：为了规避瑕疵，不得不采用复杂的“分块放大（Tile）”工作流，多次推理拼接，极大增加了操作难度和时间成本。
细节模糊不清：高频细节在放大过程中丢失，画面显得朦胧，缺乏印刷级所需的锐利度和精细度。

使用 ComfyUI-DyPE 后

彻底消除重复伪影：通过动态位置外推技术，自动匹配扩散过程的频谱，生成的 4K 图像纹理自然连续，无任何人工痕迹。
保持完美结构连贯：即使在 4096x4096 分辨率下，画面主体结构与透视关系依然稳固，完美还原设计初衷。
单节点直通生成：只需在模型加载后接入一个 DyPE 节点，即可直接输出大图，无需修改现有工作流或进行耗时的分块处理。
高频细节丰富锐利：算法在生成后期自动聚焦高频信息，使树叶、砖石等微小细节清晰可辨，直接达到出版级画质。

ComfyUI-DyPE 让艺术家能够以零额外计算开销，轻松突破模型分辨率限制，将创意无损地转化为超高清成品。

运行环境要求

操作系统

未说明

GPU

需要支持 ComfyUI 及 FLUX/Qwen/Z-Image 等 DiT 模型的 GPU（通常为 NVIDIA），具体显存需求取决于生成分辨率（4K+ 需要较大显存），CUDA 版本未说明

内存

未说明

依赖

notes该工具是 ComfyUI 的自定义节点，无需安装额外的 Python 依赖库，直接通过 ComfyUI Manager 或手动克隆到 custom_nodes 目录即可使用。支持 FLUX、Nunchaku、Qwen Image 和 Z-Image 架构。生成 4K 及以上超高分辨率图像时，对基础模型能力和显存有较高要求，可能会出现少量伪影，建议调整 dype_exponent 参数或使用 LoRA 优化细节。

python未说明

ComfyUI

torch (隐含依赖)

无额外独立依赖库

快速开始

ComfyUI-DyPE

一个实现DyPE（动态位置外推）的 ComfyUI 自定义节点，使扩散 Transformer 模型（如FLUX、Qwen Image 和 Z-Image)能够生成超高分辨率图像（4K 及以上），同时保持卓越的一致性和细节。

报告错误 · 请求功能

关于本项目

DyPE 是一种无需训练的方法，它可以让预训练的 DiT 模型以远超其训练数据分辨率的尺寸生成图像，且不会增加额外的采样成本。

其原理是利用扩散过程固有的频谱渐进特性。通过在每一步动态调整模型的位置编码，DyPE 使其频率谱与当前生成过程阶段相匹配——早期专注于低频结构，后期再逐步细化高频细节。这样可以避免在将模型推向超出其原生分辨率时常见的重复性伪影和结构退化现象。

_{一个简单的单节点集成，用于为您的模型添加高分辨率生成能力。}

该节点提供了一种无缝的“即插即用”式集成方式，可轻松将 DyPE 纳入您的工作流。

✨ 主要特性：

多架构支持: 支持 FLUX（标准版）、Nunchaku（量化 Flux）、Qwen Image 和 Z-Image（Lumina 2）。
高分辨率生成: 可将模型输出扩展至 4096x4096 及以上。
单节点集成: 只需在模型加载节点后放置 DyPE for FLUX 节点即可完成模型补丁，无需复杂的流程改动。
完全兼容: 可与您现有的 ComfyUI 工作流、采样器、调度器以及其他优化节点无缝配合。
精细控制: 公开了关键的 DyPE 超参数，允许您根据不同的目标分辨率调整算法强度和行为，以获得最佳效果。
零推理开销: DyPE 的调整是在运行时即时进行的，对性能几乎没有影响。

示例输出

(返回顶部)

开始使用

最简便的安装方式是通过 ComfyUI Manager。搜索 ComfyUI-DyPE 并点击“安装”。

或者，您也可以手动安装：

克隆仓库：

导航到您的 ComfyUI/custom_nodes/ 目录，并克隆此仓库：
```
git clone https://github.com/wildminder/ComfyUI-DyPE.git
```
启动/重启 ComfyUI： 启动 ComfyUI 即可。无需再安装其他依赖项。

(返回顶部)

🛠️ 使用方法

该节点的使用非常简单，旨在尽量减少对现有工作流的干扰。

加载您的模型： 使用您偏好的加载节点（例如，Flux 的 Load Checkpoint、Nunchaku Flux DiT Loader 或 ZImage 加载节点）。
添加 DyPE 节点： 将 DyPE for FLUX 节点添加到您的图中（位于 model_patches/unet 下）。
连接模型： 将加载节点的 MODEL 输出连接到 DyPE 节点的 model 输入。
设置分辨率： 在 DyPE 节点上设置 width 和 height，使其与您的 Empty Latent Image 分辨率一致。
连接到 KSampler： 将 DyPE 节点的 MODEL 输出作为您 KSampler 的输入。
开始生成！ 就这样。您的工作流现已启用 DyPE 功能。

[!注意] 该节点专门用于修补 扩散模型（UNet） 的位置嵌入，不会修改 CLIP 或 VAE 模型。

节点输入

1. 模型配置

model_type:
- auto: 尝试自动检测模型架构。推荐使用。
- flux: 强制使用 Standard Flux 逻辑。
- nunchaku: 强制使用 Nunchaku（量化 Flux）逻辑。
- qwen: 强制使用 Qwen Image 逻辑。
- zimage: 强制使用 Z-Image（Lumina 2）逻辑。
base_resolution: 模型训练时的原生分辨率。
- Flux / Z-Image: 1024
- Qwen: 1328（Qwen 模型的推荐设置）

2. 方法选择

method:
- vision_yarn: 一种专为宽高比鲁棒性设计的新变体。它将结构与纹理分离：低频（形状）会根据您的画布宽高比进行缩放，而高频（细节）则均匀缩放。它使用动态注意力调度来确保清晰度。
- yarn: 标准的 YaRN 方法。整体表现良好，但在极端宽高比下可能会出现问题。
- ntk: 神经切线核缩放。非常稳定，但在高分辨率下往往显得柔和/模糊。
- base: 不进行位置插值（标准行为）。

缩放选项

yarn_alt_scaling（仅影响 yarn 方法）：
- 各向异性（高分辨率）： 高度和宽度独立缩放。如果宽高比与训练数据差异较大，可能导致几何拉伸。
- 各向同性（稳定默认）： 基于最大轴同时缩放两个维度。
- 注意：vision_yarn 会在内部自动处理这一平衡，因此当选择 vision_yarn 时，此开关将被忽略。

[!提示] Z-Image（Lumina 2）特有说明：

Z-Image 模型使用非常低的 RoPE 基础频率（theta=256）。

几何拉伸： 为防止垂直方向的拉伸，节点会自动对 Z-Image 强制执行 各向同性缩放，无论用户设置如何。

方法选择： 推荐使用 vision_yarn 或 ntk。标准的 yarn 可能会产生伪影。

3. 动态控制

enable_dype: 启用或禁用 DyPE 的 动态、时间感知 组件。
- 启用（True）： 在采样过程中，噪声调度和 RoPE 都会动态调整。这是完整的 DyPE 算法。
- 禁用（False）： 节点只会应用动态噪声调度偏移。RoPE 将使用静态外推。
dype_scale: (λs) 控制 DyPE 调制的“幅度”。默认值为 2.0。
dype_exponent: (λt) 控制动态效果随时间的“强度”。
- 2.0: 推荐用于 4K+ 分辨率。激进的调度方案会快速过渡以清除伪影。
- 1.0: 是 ~2K-3K 分辨率的良好起点。
- 0.5: 对略高于原生分辨率的图像采用更温和的调度方案。

4. 高级噪声调度

base_shift / max_shift: 这些参数控制噪声调度偏移（mu）。在本实现中，max_shift（默认 1.15）作为任何大于基础分辨率的分辨率的目标偏移量。

(返回顶部)

更改日志

v2.3.0

Z-Image 大修： 修复了几何拉伸伪影
方法修复

v2.2.0

Z-Image 支持： 添加了对 Z-Image（Lumina 2） 架构的实验性支持。

v2.1.0

新架构支持： 新增对 Qwen Image 和 Nunchaku（量化 Flux）模型的支持。
模块化架构： 将代码库重构为模块化适配器模式（src/models/），以确保稳定性并便于未来模型的更新。
UI 更新： 添加了用于明确指定模型类型的 model_type 选择器。

v2.0.0

Vision-YaRN： 引入了 vision_yarn 方法，用于解耦宽高比处理。
动态注意力： 实现了二次衰减调度，用于平衡 sharpness 和伪影。
起始 Sigma： 添加了 dype_start_sigma 控制。

v1.0.0

初始发布： 为 Standard Flux 模型实现了核心 DyPE。
基本模式： 支持 yarn（各向同性/各向异性）和 ntk。

(返回顶部)

❗ 重要提示与最佳实践

[!重要] 极端分辨率（4K）下的局限性 尽管 DyPE 显著扩展了 DiT 模型的能力，但生成完全干净的 4096x4096 图像仍然是基础模型本身的局限性。即使使用 DyPE，您仍然在推动一个基于约 100 万像素训练的模型去生成 1600 万像素的内容。在这些极端尺度下，您仍可能遇到轻微的伪影。

[!提示] 处理斑点噪声 在极端分辨率（4K+）下，您可能会注意到在聚焦区域（如头发、眼睛）出现高频“斑点”噪声。这是由于将模型的注意力机制缩放到其训练极限之外所导致的副作用。

解决方法：

增加 dype_exponent： 尝试将其提高到 3.0 或 4.0，或其他更高的值。

使用 LoRA： 平滑或“细节增强”LoRA 可以帮助抑制高频伪影。

[!提示] 需要不断试验 并不存在适用于所有提示和所有分辨率的“神奇设置”。要获得最佳效果：

尝试不同的方法： 从 vision_yarn 开始，但如果遇到问题，可以尝试 yarn。

调整 dype_exponent： 这是您用来平衡清晰度与伪影的主要调节旋钮。

══════════════════════════════════

除了代码之外，我也相信社区和持续学习的力量。诚邀您加入‘TokenDiff AI News’和‘TokenDiff Community Hub’

TokenDiff AI News

_{AI 为每个家庭服务，创意为每个人带来灵感！}

TokenDiff Community Hub

_{问题解答、帮助以及深入讨论。}

══════════════════════════════════

(返回顶部)

致谢

诺姆·伊萨哈尔、盖伊·亚里夫及合著者，感谢他们开创性的研究以及将 DyPE 项目开源。
ComfyUI 团队，感谢他们打造了如此强大且可扩展的平台，用于扩散模型的研究与创作。

(返回顶部)

ComfyUI-DyPE 快速上手指南

ComfyUI-DyPE 是一个无需训练的自定义节点，通过动态位置外推（DyPE）技术，让 FLUX、Qwen Image、Z-Image 等 Diffusion Transformer (DiT) 模型能够生成 4K 及以上超高分辨率图像，同时保持卓越的结构连贯性和细节，且几乎不增加推理成本。

环境准备

系统要求：支持运行 ComfyUI 的 Windows、Linux 或 macOS 系统。
前置依赖：
- 已安装并配置好 ComfyUI。
- 已下载支持的模型权重（如 FLUX.1, Qwen Image, Z-Image/Lumina 2 等）。
- 注意：本插件无需额外安装 Python 依赖库，启动 ComfyUI 即可自动加载。

安装步骤

方法一：使用 ComfyUI Manager（推荐）

启动 ComfyUI，点击右侧菜单中的 Manager 按钮。
选择 Install Custom Nodes。
在搜索框输入 ComfyUI-DyPE。
找到对应插件，点击 Install。
安装完成后，重启 ComfyUI 使插件生效。

方法二：手动安装

打开终端或命令行工具，进入 ComfyUI 的自定义节点目录：
```
cd ComfyUI/custom_nodes/
```

克隆仓库代码：

git clone https://github.com/wildminder/ComfyUI-DyPE.git

启动或重启 ComfyUI。

基本使用

本插件采用“即插即用”设计，只需在现有工作流中插入一个节点即可。

1. 构建工作流连接

按照以下顺序连接节点：

加载模型：使用你常用的模型加载器（例如 Load Checkpoint (Flux), Nunchaku Flux DiT Loader, 或 ZImage Loader）。
添加 DyPE 节点：
- 双击空白处搜索 DyPE for FLUX。
- 该节点位于 model_patches/unet 分类下。
连接模型：将模型加载器的 MODEL 输出端连接到 DyPE 节点的 model 输入端。
设置分辨率：
- 在 DyPE 节点上设置 width 和 height，确保其与下游 Empty Latent Image 节点的分辨率一致（例如 4096x4096）。
- 提示：base_resolution 通常保持默认（Flux/Z-Image 为 1024，Qwen 为 1328）。
连接采样器：将 DyPE 节点的 MODEL 输出端连接到 KSampler 的 model 输入端。
生成图像：点击 Queue Prompt 开始生成。

2. 核心参数简析

为了获得最佳效果，可根据需求微调以下参数：

model_type: 建议设为 auto 自动识别架构。若识别错误，可手动指定 flux, nunchaku, qwen, 或 zimage。
method (插值算法):
- vision_yarn: 推荐。专为高纵横比鲁棒性设计，能解耦结构与纹理，适合大多数超高分辨率场景。
- yarn: 标准方法，通用性好。
- ntk: 稳定性高，但画面可能偏柔和。
dype_exponent (动态强度):
- 2.0: 推荐用于 4K+ 分辨率，能快速清除伪影。
- 1.0: 适合 2K-3K 分辨率。
- 0.5: 适合略高于原生分辨率的场景。

最佳实践提示：

对于 Z-Image (Lumina 2) 模型，插件会自动强制使用各向同性缩放以防止几何拉伸，推荐搭配 vision_yarn 或 ntk 方法。

若在 4K 生成中发现高频噪点（如头发处的斑点），尝试将 dype_exponent 提高至 3.0 或 4.0，或配合使用细节修复类 LoRA。

版本历史

2.3.02025/12/09

2.2.02025/12/03

2.1.02025/11/29

2.0.02025/11/26

1.0.02025/11/26

常见问题

为什么在使用 Z-image 或高分辨率生成时图像会卡在左上角或出现拉伸问题？

遇到错误提示"The provided model is not a compatible FLUX/Qwen model structure"怎么办？

使用 Z-image Turbo 生成的图像质量很差或效果不佳如何解决？

在 ZImage 中使用 DYPE 进行放大时出现噪点伪影（Noise artifacts）怎么办？

尝试生成多张图片（Batch size > 1）时报错"Tensor cannot be converted to Scalar"如何解决？

生成分辨率超过 2048x2048 时出现肢体比例失调或多余肢体等异常现象怎么办？

运行工作流时出现"swizzle_execute() takes 10 positional arguments but 11 were given"错误是什么原因？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|4天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|5天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 149.5k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|今天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|今天

插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|4天前

语言模型图像Agent