enhancr

GitHub
800 45 非常简单 1 次阅读 1周前GPL-3.0视频图像
AI 解读 由 AI 自动生成,仅供参考

enhancr 是一款把“AI 补帧 + AI 超分”装进一个漂亮窗口的小软件。它能把 24 fps 的老片插值成 60 fps 的丝滑画面,也能把 720p 视频放大到 4K 并修复细节,全程只靠 AI 模型自动完成。
过去想实现同样效果,要么得折腾 Docker、WSL、PyTorch 环境,要么显卡只认 NVIDIA;enhancr 直接打包好 TensorRT(N 卡极速)和 NCNN(A 卡、Apple Silicon 也能跑),双击安装即可开用。
如果你是想给 vlog、动画或老电影提质的普通用户,或是需要批量产出高帧率高分辨率素材的视频设计师、影视后期,enhancr 都能省下大量配置时间。内置场景检测、实时预览、批量队列、自定义 ESRGAN 模型等功能,让“一键增强”既简单又可控。

使用场景

一位独立纪录片创作者需要修复一段珍贵的 90 年代低分辨率、低帧率家庭录像,以便在现代高清设备上流畅播放并参展。

没有 enhancr 时

  • 环境配置极其繁琐:为了运行 AI 模型,必须手动安装 Python、配置复杂的依赖库,甚至被迫学习 Docker 或 WSL,对非程序员极不友好。
  • 硬件兼容性差:若使用高性能的 PyTorch 引擎,仅限 NVIDIA 显卡;若用其他轻量引擎,又往往牺牲画质或速度,无法灵活切换。
  • 工作流断裂且低效:处理前需手动提取视频帧为图片序列,处理完再重新编码合成,不仅占用大量磁盘空间,还容易在场景切换处产生画面撕裂伪影。
  • 缺乏实时反馈:无法在长时间渲染过程中预览效果,只能等到最终文件生成后才发现参数设置错误,导致时间浪费。

使用 enhancr 后

  • 开箱即用的优雅体验:直接运行封装好的图形界面应用,无需配置任何代码环境或子系统,内置 NCNN 和 TensorRT 引擎,一键启动。
  • 跨平台与高性能兼得:利用 NVIDIA TensorRT 实现极速推理,或在 AMD 及 Apple Silicon 设备上通过 NCNN 流畅运行,根据硬件自动优化。
  • 流式处理与智能修复:直接读取源视频进行“边读边算”,无需提取中间帧;内置场景检测功能,自动跳过镜头切换帧,有效消除伪影。
  • 所见即所得的交互:集成无损性能的实时预览窗口,支持裁剪、队列批处理及自定义模型加载,让用户在渲染前即可确认最终效果。

enhancr 将原本高门槛的命令行 AI 视频修复技术,转化为普通人也能轻松驾驭的可视化工作流,极大提升了影像复原的效率与质量。

运行环境要求

操作系统
  • Windows 10/11
  • macOS
  • Linux
GPU
  • 可选但强烈建议
  • NVIDIA Pascal(GTX 1000 系列)及以上、AMD、Intel Graphics 或 Apple Silicon
  • TensorRT 需 NVIDIA GPU 且驱动 ≥525.xx / CUDA 12.0+
  • 显存未说明
内存

最低:未说明;推荐:16 GB

依赖
notesWindows 安装包已集成所有依赖,无需额外安装 Docker 或 WSL;macOS 与 Linux 支持将在 1.0 版推出;Apple Silicon 支持正在开发;内置实时播放器需高性能 GPU 才能流畅运行
python未说明(内置可嵌入 Python 环境,无需手动安装)
Node.js
Electron
TensorRT
NCNN
DirectML
mpv
ModernX
enhancr hero image

快速开始

heading-icon

enhancr 是一款 优雅且易于使用的 GUI 工具,专为 视频帧插值视频上色 而设计,充分利用了人工智能技术——该工具基于 Node.jsElectron 构建。它旨在 提升用户体验,为所有对利用人工智能增强视频素材感兴趣的人士提供便利。这款 GUI 采用 最先进的技术 打造而成,力求为用户带来惊艳的使用体验,同时又不会像其他替代方案那样显得笨重或过时。

gui-preview-image

它搭载了 NVIDIA 高速的 TensorRT 推理引擎,能够大幅加速 AI 处理流程。此外,该工具还支持 预装版本,无需安装 Docker 或 WSL(Windows 子系统 for Linux)——并且集成了腾讯的 NCNN 推理引擎,其轻量化设计使其能够在 NVIDIAAMD,甚至 Apple Silicon 系统上运行——而相比之下,PyTorch 的推理性能则要庞大得多,只能在 NVIDIA GPU 上运行。

功能特性

  • 可实时编码视频,并从源视频中逐帧读取数据,无需提取帧或将数据加载到内存中。
  • 提供批量处理队列功能。
  • UI 中内置实时预览功能,对性能无任何影响。
  • 支持插值、上色与修复的连续操作与链式调用。
  • 允许在处理前对视频进行裁剪。
  • 可以加载自定义的 ESRGAN 模型,格式包括 ONNX 和 PTH,并自动完成模型转换。
  • 内置场景检测功能,可跳过场景变化时的插值操作,有效减少伪影的产生。
  • 提供多种颜色主题,方便用户自定义界面风格。
  • 支持 Discord 丰富的存在感功能,可向所有好友展示您的进度、当前速度以及正在处理的内容。
  • 实时播放器(前提是您的 GPU 性能足够强大),完美支持音频、字幕、字体、附件等多种内容。
  • ……以及更多强大的功能!

安装指南

版本 0.9.9 带有免费版 🎉 https://dl.enhancr.app/setup/enhancr-setup-free-0.9.9.exe

为确保您使用的是最新版本的软件及所有必要的依赖项,我们建议您从 Patreon 下载安装包。 请注意,Pro 版本 的构建文件及可嵌入的 Python 环境并未通过本仓库提供。

installer

内置引擎

插值

RIFE(NCNN) - megvii-research/ECCV2022-RIFE - 由 styler00dollar/VapourSynth-RIFE-NCNN-Vulkan 提供支持。

RIFE(TensorRT) - megvii-research/ECCV2022-RIFE - 由 AmusementClub/vs-mlrtstyler00dollar/VSGAN-tensorrt-docker 提供支持。

GMFSS - Union(PyTorch/TensorRT) - 98mxr/GMFSS_Union - 由 HolyWu/vs-gmfss_union 提供支持。

GMFSS - Fortuna(PyTorch/TensorRT) - 98mxr/GMFSS_Fortuna - 由 HolyWu/vs-gmfss_fortuna 提供支持。

CAIN(NCNN) - myungsub/CAIN - 由 mafiosnik/vsynth-cain-NCNN-vulkan 提供支持(尚未发布)。

CAIN(DirectML) - myungsub/CAIN - 由 AmusementClub/vs-mlrt 提供支持。

CAIN(TensorRT) - myungsub/CAIN - 由 HubertSotnowski/cain-TensorRT 提供支持。

上色

ShuffleCUGAN(NCNN) - styler00dollar/VSGAN-tensorrt-docker - 由 AmusementClub/vs-mlrt 提供支持。

ShuffleCUGAN(TensorRT) - styler00dollar/VSGAN-tensorrt-docker - 由 AmusementClub/vs-mlrt 提供支持。

RealESRGAN(NCNN) - xinntao/Real-ESRGAN - 由 AmusementClub/vs-mlrt 提供支持。

RealESRGAN(DirectML) - xinntao/Real-ESRGAN - 由 AmusementClub/vs-mlrt 提供支持。

RealESRGAN(TensorRT) - xinntao/Real-ESRGAN - 由 AmusementClub/vs-mlrt 提供支持。

RealCUGAN(TensorRT) - bilibili/ailab/Real-CUGAN - 由 AmusementClub/vs-mlrt 提供支持。

SwinIR(TensorRT) - JingyunLiang/SwinIR - 由 mafiosnik777/SwinIR-TensorRT 提供支持(尚未发布)。

修复

DPIR(DirectML) - cszn/DPIR - 由 AmusementClub/vs-mlrt 提供支持。

DPIR(TensorRT) - cszn/DPIR - 由 AmusementClub/vs-mlrt 提供支持。

SCUNet(TensorRT) - cszn/SCUNet - 由 mafiosnik777/SCUNet-TensorRT 提供支持(尚未发布)。

系统要求

最低配置:

  • 支持超线程技术的双核 CPU
  • 具备 Vulkan 功能的图形处理器,用于使用 NCNN 进行推理;或具备 DirectX 12 功能的图形处理器,用于使用 DirectML 进行推理
  • Windows 10

推荐配置:

  • 四核 Intel Kaby Lake/AMD Ryzen 或更高版本,且支持超线程技术
  • 16 GB 内存
  • NVIDIA 2000 系列(Ampere)GPU,适用于 TensorRT
  • Windows 11

附注:自 TensorRT 8.6 版本起,已不再支持第二代 Kepler 和 Maxwell(900 系列及以下)架构。若要使用 TensorRT 进行推理,您至少需要一台 Pascal 架构的 GPU(1000 系列及以上),并配备 CUDA 12.0 及以上版本、驱动程序版本 ≥ 525.xx。

macOS 与 Linux 支持

本 GUI 在设计时充分考虑了跨平台兼容性,可同时兼容两种操作系统。

目前,我们的主要目标是为 Windows 用户提供稳定且功能完备的解决方案;不过,Linux 和 macOS 的支持将在 1.0 版本更新中逐步推出。

enhancr-macos

我们还计划支持 Apple Silicon,但目前我手中仅有 Intel Macbook Pro 用于测试 我将尽快在 Amazon AWS 上搭建一套 Apple Silicon 实例,以便在 1.0 版本发布前完成相关部署。

性能基准测试

输入尺寸:1920x1080 @ 2倍分辨率

RTX 2060S 1 RTX 3070 2 RTX A4000 3 RTX 3090 Ti 4 RTX 4090 5
RIFE / rife-v4.6 (NCNN) 53.78 fps 64.08 fps 80.56 fps 86.24 fps 136.13 fps
RIFE / rife-v4.6 (TensorRT) 70.34 fps 94.63 fps 86.47 fps 122.68 fps 170.91 fps
CAIN / cvp-v6 (NCNN) 9.42 fps 10.56 fps 13.42 fps 17.36 fps 44.87 fps
CAIN / cvp-v6 (TensorRT) 45.41 fps 63.84 fps 81.23 fps 112.87 fps 183.46 fps
GMFSS / Up (PyTorch) - - 4.32 fps - 16.35 fps
GMFSS / Union (PyTorch) - - 3.68 fps - 13.93 fps
GMFSS / Union (TensorRT) - - 6.79 fps - -
RealESRGAN / animevideov3 (TensorRT) 7.64 fps 9.10 fps 8.49 fps 18.66 fps 38.67 fps
RealCUGAN (TensorRT) - - 5.96 fps - -
SwinIR (PyTorch) - - 0.43 fps - -
DPIR / Denoise (TensorRT) 4.38 fps 6.45 fps 5.39 fps 11.64 fps 27.41 fps

1 Ryzen 5 3600X - Gainward RTX 2060 Super @ 标准配置

2 Ryzen 7 3800X - Gigabyte RTX 3070 Eagle OC @ 标准配置

3 Ryzen 5 3600X - PNY RTX A4000 @ 标准配置

4 i9 12900KF - ASUS RTX 3090 Ti Strix OC @ ~2220MHz

5 Ryzen 9 5950X - ASUS RTX 4090 Strix OC - @ ~3100MHz,通过优化以实现最高性能

故障排除与常见问题解答

本部分现已迁移至 wiki:https://github.com/mafiosnik777/enhancr/wiki

欢迎前往查看,了解更多关于如何充分发挥 enhancr 的潜力,以及如何解决各类问题的详细信息。

推理

TensorRT 是一款专为 NVIDIA GPU 优化的高效 AI 推理运行时。它通过基准测试来为您的特定 GPU 寻找最优的内核,并且在运行 AI 的机器上额外构建了一个引擎。然而,其最终性能通常会远超任何 PyTorch 或 NCNN 的实现方案。

NCNN 是一款专为移动平台优化的高性能神经网络推理计算框架。NCNN 不依赖任何第三方库,支持跨平台,在大多数主流平台上均比所有已知的开源框架运行得更快。NCNN 支持 NVIDIA、AMD、Intel 显卡,甚至包括 Apple Silicon。 目前,NCNN 已被广泛应用于腾讯旗下众多应用中,例如 QQ、Qzone、微信、Pitu 等。

支持本项目

如果您能通过 Patreon 或通过 PayPal 捐赠的方式支持本项目,我们将不胜感激。您的支持将有助于加速开发进程,并为项目带来更多更新与改进。此外,如果您具备相关技能,也可以通过提交拉取请求来贡献力量。无论您选择以何种形式给予支持,我们都深表感谢!

未来规划

我将持续致力于优化代码库,包括及时解决因时间限制而产生的各种不一致问题。我们将会定期发布新版本,包含全新功能、漏洞修复,以及在新技术和新模型不断涌现之际将其纳入项目中。感谢您的理解与支持。

资助与感谢

我们的播放器依赖于 mpvModernX 来实现 OSC 功能。

感谢 HubertSontowskistyler00dollar 在实现 CAIN 方面提供的帮助。

加入 Discord 社区

如需与社区互动、分享您的成果,或在遇到问题时寻求帮助,请访问我们的 Discord。届时,我们也会在该平台上展示即将发布的版本预览。

版本历史

0.9.92023/06/07
0.9.82023/04/24
0.9.72023/03/10
0.9.62023/02/02
0.9.52023/01/13
0.9.42022/12/14
0.9.32022/12/13
0.9.22022/12/04
0.9.12022/11/28

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。

74.9k|★★★☆☆|今天
语言模型图像开发框架

tesseract

Tesseract 是一款历史悠久且备受推崇的开源光学字符识别(OCR)引擎,最初由惠普实验室开发,后由 Google 维护,目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据,有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题,是数字化归档和信息自动化的重要基础工具。 在技术层面,Tesseract 展现了强大的适应能力。从版本 4 开始,它引入了基于长短期记忆网络(LSTM)的神经网络 OCR 引擎,显著提升了行识别的准确率;同时,为了兼顾旧有需求,它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码,开箱即用即可识别超过 100 种语言,并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面,它灵活支持纯文本、hOCR、PDF、TSV 等多种格式,方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库(libtesseract),不包含图形用户界面(GUI),因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中

73.3k|★★☆☆☆|3天前
开发框架图像