ru-dalle

1.6k 244 中等 1 次阅读 3天前Apache-2.0语言模型图像开发框架

AI 解读由 AI 自动生成，仅供参考

ru-dalle 是一款专为俄语环境打造的开源文生图模型，能够根据用户输入的俄语文本描述自动生成高质量图像。它有效解决了主流 AI 绘画工具对俄语理解能力不足、难以精准还原俄语文化语境及特定词汇的痛点，让俄语使用者也能轻松享受创意生成的乐趣。

这款工具非常适合俄语区的开发者、人工智能研究人员、数字艺术家以及需要本地化内容创作的设计师使用。无论是想要快速验证想法的技术人员，还是寻求灵感的专业创作者，都能通过 ru-dalle 获得流畅的体验。

在技术亮点方面，ru-dalle 提供了多个预训练版本（如 Malevich、Emojich 等），并集成了完整的生成流水线。它不仅支持基础的图像生成，还内置了基于 ruCLIP 的智能筛选功能，能自动从生成结果中挑选最符合描述的图像；同时结合超分辨率技术，可将低清草稿瞬间提升为细节丰富的高清大图。此外，项目对显存需求较为友好，甚至能在 3.5GB 显存的设备上运行，并提供了详细的微调教程和视频生成扩展示例，极大地降低了使用与二次开发的门槛。

使用场景

一家专注于俄罗斯本土市场的数字营销机构，正在为某旅游平台快速制作一系列具有浓郁俄式风情的宣传海报，需要大量包含特定俄语文化元素的原创插图。

没有 ru-dalle 时

语言理解偏差：使用通用的英文文生图模型时，无法准确理解“радуга на фоне ночного города”（夜城背景下的彩虹）等复杂的俄语描述，常生成不符合语境的画面。
文化元素缺失：模型难以还原“圣瓦西里大教堂”或特定的苏派艺术风格，生成的建筑往往像西欧风格，缺乏地道的神韵。
素材获取成本高：设计师不得不手动搜索图库或从零开始手绘，单张海报的配图耗时从几分钟延长至数小时。
版权风险难控：直接挪用网络图片面临严格的版权审查，而定制插画的外包预算又远超项目限额。

使用 ru-dalle 后

原生俄语支持：ru-dalle 基于海量俄语数据训练，能精准捕捉"красивая тян из аниме"（动漫美少女）等俄语提示词的细微语义，生成内容高度契合。
风格高度本地化：调用 Malevich 或 Kandinsky 等预训练模型，可一键生成具有马列维奇抽象派或俄罗斯超现实主义风格的独特图像。
自动化工作流：结合 ruCLIP 自动筛选最佳图像并利用 RealESRGAN 进行超分辨率放大，将单图产出时间压缩至秒级，且无需人工干预。
低成本原创：团队可在本地或 Colab 上免费部署，无限生成无版权风险的原创素材，大幅降低制作成本。

ru-dalle 通过原生的俄语理解与独特的艺术风格模型，彻底解决了俄语区创作者在本地化视觉内容生成上的语言与文化壁垒。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

需要 NVIDIA GPU (代码示例中 device='cuda')
运行 Malevich (XL) 模型最低显存需求约为 3.5GB (开启 fp16)，Kandinsky (XXL) 模型需要更高显存 (参考示例在 A100 上运行)

内存

未说明

依赖

notes该工具主要支持俄语文本生成图像。提供多种预训练模型（如 Malevich, Emojich, Surrealist），其中 Malevich (XL) 可在 3.5GB 显存下通过半精度 (fp16) 运行。Kandinsky (XXL) 大模型需申请访问权限且通常需要高性能 GPU (如 A100)。支持图像超分辨率 (Super Resolution) 和基于 ruCLIP 的自动优选功能。可通过 Google Colab 或 Kaggle 在线运行示例。

python未说明

rudalle==1.1.3

ruclip

torch

Pillow

Real-ESRGAN

快速开始

ruDALL-E

从文本生成图像

pip install rudalle==1.1.3

🤗 HF 模型：

ruDALL-E Malevich (XL)
ruDALL-E Emojich (XL)（说明文档这里）
ruDALL-E 超现实主义 (XL)
ruDALL-E Kandinsky (XXL)（即将推出）

最小示例：

使用 ruDALL-E Malevich (XL)，仅需 3.5GB 显存的示例！

微调示例

使用 ruDALLE 生成：

import ruclip
from rudalle.pipelines import generate_images, show, super_resolution, cherry_pick_by_ruclip
from rudalle import get_rudalle_model, get_tokenizer, get_vae, get_realesrgan
from rudalle.utils import seed_everything

# 准备模型：
device = 'cuda'
dalle = get_rudalle_model('Malevich', pretrained=True, fp16=True, device=device)
tokenizer = get_tokenizer()
vae = get_vae(dwt=True).to(device)

# 流程工具：
realesrgan = get_realesrgan('x2', device=device)
clip, processor = ruclip.load('ruclip-vit-base-patch32-384', device=device)
clip_predictor = ruclip.Predictor(clip, processor, device, bs=8)
text = '彩虹在夜城背景下'

seed_everything(42)
pil_images = []
scores = []
for top_k, top_p, images_num in [
    (2048, 0.995, 24),
]:
    _pil_images, _scores = generate_images(text, tokenizer, dalle, vae, top_k=top_k, images_num=images_num, bs=8, top_p=top_p)
    pil_images += _pil_images
    scores += _scores

show(pil_images, 6)

ruCLIP 自动精选：

top_images, clip_scores = cherry_pick_by_ruclip(pil_images, text, clip_predictor, count=6)
show(top_images, 3)

超分辨率：

sr_images = super_resolution(top_images, realesrgan)
show(sr_images, 3)

text, seed = '漂亮的动漫美少女', 6955

图像提示

参见 jupyters/ruDALLE-image-prompts-A100.ipynb

text, seed = '瓦西里升天大教堂', 42
skyes = [red_sky, sunny_sky, cloudy_sky, night_sky]

VideoDALL-E | ruCogVideo 由 @cene555 提供

视频生成示例 微调示例

宽高比图像 -->新<--

Kandinsky 12B

申请访问：这里

用梵高风格水彩画的机器人

FID = 15.4 (COCO Valid)

🚀 贡献者 🚀

@bes 分享了关于 IDWT 的绝妙想法和实现，用于以更高品质解码 512x512 的图像！😈💪 非常感谢您的建设性建议，我们非常感激。
@neverix 非常感谢您为加速推理所做的贡献。
@Igor Pavlov 训练了模型，并准备了包含超分辨率的代码。
@oriBetelgeuse 非常感谢您提供了使用图像提示进行生成的简易 API。
@Alex Wortega 创建了第一个免费版本的 Colab 笔记本，用于对 ruDALL-E Malevich (XL) 在运动鞋领域进行微调 💪
@Anton Lozhkov 将其集成到 Hugging Face Spaces 中，并使用了 Gradio，详情请见这里。

支持单位

社交媒体

ruDALL-E 快速上手指南

ruDALL-E 是由 SberBank AI 开源的文本生成图像模型，支持俄语及多语言提示。本指南将帮助你快速在本地或云端环境中部署并生成图像。

环境准备

操作系统: Linux (推荐 Ubuntu), macOS, Windows (需配置 CUDA 环境)
Python 版本: 3.7 - 3.9
GPU 要求:
- 基础生成：建议显存 ≥ 4GB (使用 fp16 模式可在 3.5GB 显存下运行 Malevich 模型)
- 高清放大/微调：建议显存 ≥ 8GB
依赖库: PyTorch, Transformers, Pillow, ruclip 等将通过安装命令自动解决。

提示：国内开发者若遇到下载依赖慢的问题，建议在 pip 命令后添加 -i https://pypi.tuna.tsinghua.edu.cn/simple 使用清华镜像源。

安装步骤

通过 pip 直接安装稳定版本：

pip install rudalle==1.1.3

如需使用额外的图像处理功能（如超分辨率），请确保已安装相关深度学习框架（通常安装 rudalle 时会自动处理大部分依赖，若报错可手动安装 torch 和 torchvision）。

基本使用

以下是最小化示例，演示如何加载 Malevich (XL) 模型并根据俄语文本生成图像。

1. 导入与模型加载

import ruclip
from rudalle.pipelines import generate_images, show, super_resolution, cherry_pick_by_ruclip
from rudalle import get_rudalle_model, get_tokenizer, get_vae, get_realesrgan
from rudalle.utils import seed_everything

# 设置设备 (cuda 或 cpu)
device = 'cuda'

# 加载预训练模型 (Malevich 版本，开启半精度以节省显存)
dalle = get_rudalle_model('Malevich', pretrained=True, fp16=True, device=device)
tokenizer = get_tokenizer()
vae = get_vae(dwt=True).to(device)

# 加载辅助工具：超分辨率模型 和 CLIP 筛选器
realesrgan = get_realesrgan('x2', device=device)
clip, processor = ruclip.load('ruclip-vit-base-patch32-384', device=device)
clip_predictor = ruclip.Predictor(clip, processor, device, bs=8)

# 设置随机种子以保证结果可复现
seed_everything(42)

2. 生成图像

定义提示词（支持俄语，部分模型支持英语），设置生成参数并执行生成。

text = 'радуга на фоне ночного города'  # 示例：夜空背景下的彩虹

pil_images = []
scores = []

# 参数说明：top_k/top_p 控制多样性，images_num 为生成数量，bs 为批大小
for top_k, top_p, images_num in [
    (2048, 0.995, 24),
]:
    _pil_images, _scores = generate_images(
        text, tokenizer, dalle, vae, 
        top_k=top_k, images_num=images_num, bs=8, top_p=top_p
    )
    pil_images += _pil_images
    scores += _scores

# 展示生成的前 6 张图片
show(pil_images, 6)

3. 进阶处理（可选）

智能筛选 (Cherry-pick)：利用 ruCLIP 根据文本相关性自动筛选最佳图片。

# 从生成的图片中筛选出最符合描述的 6 张
top_images, clip_scores = cherry_pick_by_ruclip(pil_images, text, clip_predictor, count=6)
show(top_images, 3)

超分辨率放大：提升图片清晰度。

# 对筛选后的图片进行 2 倍超分辨率处理
sr_images = super_resolution(top_images, realesrgan)
show(sr_images, 3)

注意：默认示例使用的是俄语提示词。虽然模型主要面向俄语优化，但也可以尝试输入中文或英文提示词，效果可能因模型版本而异。如需更稳定的多语言支持，建议结合翻译工具将提示词转为俄语后再输入。

版本历史

v1.1.02022/06/22

v0.0.1rc72021/11/09

v0.0.1rc62021/11/07

v0.0.1rc52021/11/05

v0.0.1rc42021/11/03

v0.0.1-rc12021/11/02

常见问题

是否会发布更小或蒸馏版的模型以提高推理速度？

遇到 'RuntimeError: cuDNN error: CUDNN_STATUS_INTERNAL_ERROR' 错误该如何解决？

为什么尝试只生成一张图片时会报 cuDNN 内部错误？

是否有参数可以自动将生成的拼接图片切割并保存为单独的文件？

如何在 Kaggle 或 Google Colab 等环境中解决模块导入错误或显存不足问题？

RuDOLPH 为什么使用 16x16 的 VQGAN 编码而不是 32x32？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 158.1k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|6天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架