PowerInfer

GitHub
9.3k 554 较难 1 次阅读 今天MIT语言模型开发框架
AI 解读 由 AI 自动生成,仅供参考

PowerInfer 是一款专为个人电脑设计的高速大语言模型推理引擎,旨在让普通消费级显卡也能流畅运行大型 AI 模型。它主要解决了在本地设备部署大模型时显存受限、推理速度慢的难题,无需依赖昂贵的服务器集群即可实现高效响应。

无论是希望保护数据隐私的开发者、需要快速验证算法的研究人员,还是想在本地体验先进 AI 能力的普通用户,都能从中受益。PowerInfer 的核心技术亮点在于巧妙利用了大模型推理过程中的“激活局部性”特征(即神经元激活遵循幂律分布),通过 CPU 与 GPU 的协同工作,仅动态加载和计算关键参数。这种机制大幅降低了显存占用并提升了计算效率。实测数据显示,在单张 RTX 4090 显卡上运行 400 亿参数的模型时,其速度可比传统方案提升 11 倍以上。此外,它还支持 Windows 及 AMD ROCm 环境,并推出了针对手机端优化的版本,真正推动了高性能 AI 在终端设备上的普及。

使用场景

一位独立开发者试图在配备单张 RTX 4090 显卡的工作站上,本地部署并运行参数量巨大的 Falcon-40B 模型,以构建一个完全离线、数据隐私安全的代码辅助助手。

没有 PowerInfer 时

  • 推理速度极慢:由于显存带宽瓶颈,生成代码的速度仅为每秒几个 token,回答延迟高达数秒,严重打断编程思路。
  • 硬件门槛过高:为了勉强运行大模型,不得不将量化精度压得过低导致智能程度下降,或者被迫租用昂贵的云端 GPU 集群。
  • 资源利用率低:传统推理引擎(如 llama.cpp)无法有效利用神经元激活的稀疏性,导致计算资源浪费,风扇狂转却产出缓慢。
  • 交互体验割裂:漫长的等待时间使得“流式输出”失去意义,开发者无法在模型生成过程中实时预览和干预结果。

使用 PowerInfer 后

  • 推理速度飞跃:利用激活局部性(Activation Locality)技术,在同等硬件下将 Falcon-40B 的生成速度提升 11 倍,达到流畅的对话级响应。
  • 消费级显卡胜任:无需升级硬件或上云,单张消费级 GPU 即可全精度流畅运行 40B 级别大模型,大幅降低部署成本。
  • 稀疏计算优化:PowerInfer 智能跳过非活跃神经元,仅计算关键参数,在保证模型智商不降级的前提下极大减少了计算量。
  • 实时流式交互:生成的代码几乎随想随出,开发者可以像与真人结对编程一样,实时观察并修正模型输出的每一行代码。

PowerInfer 通过挖掘模型内部的稀疏特性,让普通开发者的本地电脑也能拥有媲美云超算的大模型推理速度,真正实现了高性能 AI 的普惠化。

运行环境要求

操作系统
  • Linux
  • Windows
  • macOS
GPU
  • 非必需(支持纯 CPU 运行)
  • 若使用 GPU:支持 NVIDIA (需开启 CUBLAS) 或 AMD (需开启 HIPBLAS/ROCm)
  • macOS 目前仅支持 CPU,Metal 后端开发中
  • 显存大小未明确说明,但设计目标为消费级显卡(如 RTX 4090),通过冷热神经元分离技术降低显存需求以运行大模型
内存

未说明(需容纳冷神经元计算及模型权重,建议大容量内存)

依赖
notes1. CPU 需支持 AVX2 指令集。2. 核心特性是利用激活局部性(Activation Locality),将‘热’神经元预加载至 GPU,‘冷’神经元在 CPU 计算,从而在单张消费级显卡上运行超大模型(如 40B+)。3. 必须使用特定的 PowerInfer GGUF 格式模型(包含预测器权重和激活统计信息),直接使用普通 llama.cpp 权重无法获得性能提升。4. AMD 用户需根据显卡架构设置 AMDGPU_TARGETS(如 gfx1100)。5. macOS (M 芯片) 目前性能优化不明显。
python3.8+
CMake (3.17+)
pip (19.3+)
PowerInfer hero image

快速开始

PowerInfer:使用消费级显卡实现快速的大语言模型推理

简要说明

PowerInfer 是一款利用激活局部性为您的设备提供服务的 CPU/GPU LLM 推理引擎。

SJTU-IPADS%2FPowerInfer | Trendshift

License: MIT

项目看板

最新消息 🔥

  • [2026年1月5日] 我们发布了 Tiiny AI Pocket Lab,这是全球首款袖珍型超级计算机。它可以在本地以 20 tokens/s 的速度运行 GPT-OSS-120B (int4)。该产品已在 CES 2026 上亮相。
  • [2025年7月27日] 我们发布了 SmallThinker-21BA3B-InstructSmallThinker-4BA0.6B-Instruct。同时,我们还发布了一个用于高效 设备端推理 的相应框架。
  • [2024年6月11日] 我们非常高兴地推出 PowerInfer-2,这是我们专为智能手机设计的高度优化的推理框架。借助 TurboSparse-Mixtral-47B,其速度达到了惊人的每秒 11.68 个 token,比其他最先进的框架快高达 22 倍。
  • [2024年6月11日] 我们很高兴地推出 Turbo Sparse,我们的 TurboSparse 模型旨在实现快速推理。仅花费 10 万美元,我们就将原始的 Mistral 和 Mixtral 模型稀疏化至近 90% 的稀疏度,同时保持卓越性能!对于 Mixtral 级别的模型,我们的 TurboSparse-Mixtral 只激活 4B 个参数!
  • [2024年5月20日] 竞赛招募:CCF-TCArch 定制计算挑战赛 2024。CCF TCARCH CCC 是由中国计算机学会(CCF)计算机体系结构技术委员会(TCARCH)组织的全国性竞赛。今年的比赛旨在使用开源 ROCm/HIP 对 PowerInfer 推理引擎进行优化。有关比赛的更多信息,请参见 这里
  • [2024年5月17日] 我们现在为配备 ROCm 的 AMD 设备提供支持。
  • [2024年3月28日] 我们很高兴地推出 Bamboo LLM,它结合 PowerInfer 实现了顶级性能和无与伦比的速度!您可以体验 Bamboo-7B Base / DPO
  • [2024年3月14日] 我们支持了 ProSparse Llama 2 (7B/13B),这些 ReLU 模型具有约 90% 的稀疏度,性能与原版 Llama 2 相当(感谢 THUNLP & ModelBest)!
  • [2024年1月11日] 我们支持了 Windows 平台上的 GPU 推理!
  • [2023年12月24日] 我们发布了 Falcon(ReLU)-40B-FP16 的在线 gradio 演示
  • [2023年12月19日] 我们正式发布了 PowerInfer!

演示 🔥

https://github.com/SJTU-IPADS/PowerInfer/assets/34213478/fe441a42-5fce-448b-a3e5-ea4abb43ba23

在单块 RTX 4090(24G) 上运行 Falcon(ReLU)-40B-FP16 时,PowerInfer 与 llama.cpp 的对比,速度提升了 11 倍!

PowerInfer 和 llama.cpp 都在同一硬件上运行,并充分利用了 RTX 4090 的显存。

[!NOTE] 在线实时演示⚡️

试试我们在 RTX 4090 上托管 Falcon(ReLU)-40B-FP16 的 Gradio 服务器

实验性质,不提供任何保证🚧

摘要

我们推出了 PowerInfer,这是一款在配备单个消费级显卡的个人电脑(PC)上运行的高速大语言模型(LLM)推理引擎。PowerInfer 设计的核心在于利用 LLM 推理中固有的高 局部性,其特征是神经元激活呈现幂律分布。

这种分布表明,一小部分被称为“热神经元”的神经元会在不同输入之间持续被激活,而大多数“冷神经元”则会根据具体输入而变化。PowerInfer 利用这一洞察,设计了一种 GPU-CPU 混合推理引擎:热激活的神经元被预先加载到 GPU 中以便快速访问,而冷激活的神经元则在 CPU 上进行计算,从而显著降低 GPU 显存需求和 CPU-GPU 数据传输量。此外,PowerInfer 还集成了自适应预测器和神经元感知稀疏算子,进一步优化了神经元激活效率和计算稀疏性。

评估结果显示,在单个 NVIDIA RTX 4090 GPU 上,PowerInfer 在多种 LLM(包括 OPT-175B)上实现了平均 13.20 tokens/s 的令牌生成速率,峰值可达 29.08 tokens/s,仅比顶级服务器级 A100 GPU 的表现低 18%。这显著优于 llama.cpp,速度最高可提升 11.69 倍,同时保持模型精度。

特点

PowerInfer 是一款高速且易于使用的推理引擎,可用于在本地部署 LLM。

PowerInfer 的优势在于:

  • 以局部性为核心的设计:利用稀疏激活和“热”/“冷”神经元概念,实现高效的 LLM 推理,确保在较低资源消耗下仍能保持高速。
  • CPU/GPU 混合利用:无缝整合 CPU 和 GPU 的内存与计算能力,实现负载均衡和更快的处理速度。

PowerInfer 具有灵活性和易用性,具体体现在:

  • 易于集成:兼容流行的 ReLU 稀疏模型
  • 本地部署便捷:专为消费级硬件的本地部署而设计并深度优化,可在单个 GPU 上实现低延迟的 LLM 推理和服务。
  • 向后兼容性:尽管与 llama.cpp 不同,您仍然可以像使用 llama.cpp 一样使用大部分 examples/ 文件,例如服务器模式和批量生成。PowerInfer 也支持使用 llama.cpp 的模型权重进行推理,以确保兼容性,但不会带来性能提升。

您今天就可以使用以下模型与 PowerInfer 配合:

  • Falcon-40B
  • Llama2 系列
  • ProSparse Llama2 系列
  • Bamboo-7B

我们已经在以下平台上测试过 PowerInfer:

  • 具备 AVX2 指令集的 x86-64 CPU,无论是否配备 NVIDIA 显卡,均在 Linux 系统上运行。
  • 具备 AVX2 指令集的 x86-64 CPU,无论是否配备 NVIDIA 显卡,均在 Windows 系统上运行。
  • Apple M 芯片(仅 CPU),在 macOS 系统上运行。(由于我们尚未针对 Mac 进行优化,目前性能提升并不显著。)

即将推出的新功能:

  • 适用于 macOS 的 Metal 后端,用于稀疏推理。

请参阅我们的 项目看板 以了解我们当前的开发重点。

开始使用

设置与安装

前置条件

PowerInfer 需要以下依赖项:

  • CMake (3.17+)
  • Python (3.8+) 和 pip (19.3+),用于模型权重转换及自动 FFN 卸载

获取代码

git clone https://github.com/Tiiny-AI/PowerInfer
cd PowerInfer
pip install -r requirements.txt # 安装 Python 辅助工具的依赖

构建

为了构建 PowerInfer,您有两种不同的选项。这些命令应在项目的根目录下执行。

使用 CMake(3.17+):

  • 如果您有 NVIDIA 显卡:
cmake -S . -B build -DLLAMA_CUBLAS=ON
cmake --build build --config Release
  • 如果您有 AMD 显卡:
# 将 '1100' 替换为您显卡的架构名称,可通过 rocminfo 获取
CC=/opt/rocm/llvm/bin/clang CXX=/opt/rocm/llvm/bin/clang++ cmake -S . -B build -DLLAMA_HIPBLAS=ON -DAMDGPU_TARGETS=gfx1100
cmake --build build --config Release
  • 如果您只有 CPU:
cmake -S . -B build
cmake --build build --config Release

模型权重

PowerInfer 模型以基于 GGUF 格式的特殊格式 PowerInfer GGUF 存储,包含 LLM 权重和预测器权重。

通过 Hugging Face 下载 PowerInfer GGUF

您可以在以下 Hugging Face 仓库中获取 .powerinfer.gguf 格式的 PowerInfer GGUF 权重,以及用于“热点”神经元卸载的模型激活统计信息。

基础模型 PowerInfer GGUF
LLaMA(ReLU)-2-7B PowerInfer/ReluLLaMA-7B-PowerInfer-GGUF
LLaMA(ReLU)-2-13B PowerInfer/ReluLLaMA-13B-PowerInfer-GGUF
Falcon(ReLU)-40B PowerInfer/ReluFalcon-40B-PowerInfer-GGUF
LLaMA(ReLU)-2-70B PowerInfer/ReluLLaMA-70B-PowerInfer-GGUF
ProSparse-LLaMA-2-7B PowerInfer/ProSparse-LLaMA-2-7B-GGUF
ProSparse-LLaMA-2-13B PowerInfer/ProSparse-LLaMA-2-13B-GGUF
Bamboo-base-7B 🌟 PowerInfer/Bamboo-base-v0.1-gguf
Bamboo-DPO-7B 🌟 PowerInfer/Bamboo-DPO-v0.1-gguf

我们建议使用 huggingface-cli 下载整个模型仓库。例如,以下命令会将 PowerInfer/ReluLLaMA-7B-PowerInfer-GGUF 下载到 ./ReluLLaMA-7B 目录中。

huggingface-cli download --resume-download --local-dir ReluLLaMA-7B --local-dir-use-symlinks False PowerInfer/ReluLLaMA-7B-PowerInfer-GGUF

因此,PowerInfer 可以自动利用以下目录结构实现功能完整的模型卸载:

.
├── *.powerinfer.gguf (未量化 PowerInfer 模型)
├── *.q4.powerinfer.gguf (如果可用,则为 INT4 量化 PowerInfer 模型)
├── activation (用于细粒度 FFN 卸载的已分析激活统计信息)
│   ├── activation_x.pt (第 x 层的已分析激活统计信息)
│   └── ...
├── *.[q4].powerinfer.gguf.generated.gpuidx (运行时为相应模型生成的 GPU 索引)

从原始模型权重 + 预测器权重转换

Hugging Face 对单个模型权重的大小限制为 50GiB。对于 ≥ 40B 的未量化模型,您可以使用从 Hugging Face 获取的原始模型权重和预测器权重来转换为 PowerInfer GGUF。

基础模型 原始模型 预测器
LLaMA(ReLU)-2-7B SparseLLM/ReluLLaMA-7B PowerInfer/ReluLLaMA-7B-Predictor
LLaMA(ReLU)-2-13B SparseLLM/ReluLLaMA-13B PowerInfer/ReluLLaMA-13B-Predictor
Falcon(ReLU)-40B SparseLLM/ReluFalcon-40B PowerInfer/ReluFalcon-40B-Predictor
LLaMA(ReLU)-2-70B SparseLLM/ReluLLaMA-70B PowerInfer/ReluLLaMA-70B-Predictor
ProSparse-LLaMA-2-7B SparseLLM/ProSparse-LLaMA-2-7B PowerInfer/ProSparse-LLaMA-2-7B-Predictor
ProSparse-LLaMA-2-13B SparseLLM/ProSparse-LLaMA-2-13B PowerInfer/ProSparse-LLaMA-2-13B-Predictor
Bamboo-base-7B 🌟 PowerInfer/Bamboo-base-v0.1 PowerInfer/Bamboo-base-v0.1-predictor
Bamboo-DPO-7B 🌟 PowerInfer/Bamboo-DPO-v0.1 PowerInfer/Bamboo-DPO-v0.1-predictor

您可以使用以下命令将原始模型权重和预测器权重转换为 PowerInfer GGUF:

# 确保已执行 `pip install -r requirements.txt`
python convert.py --outfile /PATH/TO/POWERINFER/GGUF/REPO/MODELNAME.powerinfer.gguf /PATH/TO/ORIGINAL/MODEL /PATH/TO/PREDICTOR

# python convert.py --outfile ./ReluLLaMA-70B-PowerInfer-GGUF/llama-70b-relu.powerinfer.gguf ./SparseLLM/ReluLLaMA-70B ./PowerInfer/ReluLLaMA-70B-Predictor

出于同样的原因,我们建议在转换后保持与 PowerInfer GGUF 仓库相同的目录结构。

将原始模型转换为稠密 GGUF 模型(与 llama.cpp 兼容)
python convert-dense.py --outfile /PATH/TO/DENSE/GGUF/REPO/MODELNAME.gguf /PATH/TO/ORIGINAL/MODEL
# python convert-dense.py --outfile ./Bamboo-DPO-v0.1-gguf/bamboo-7b-dpo-v0.1.gguf --outtype f16 ./Bamboo-DPO-v0.1

请注意,生成的稠密 GGUF 模型可能无法与 llama.cpp 正常工作,因为我们修改了激活函数(针对 ReluLLaMA 和 Prosparse 模型),或模型架构(针对 Bamboo 模型)。由 convert-dense.py 生成的稠密 GGUF 模型可用于 PowerInfer 的稠密推理模式,但可能无法与 llama.cpp 正常配合使用。

推理

对于仅使用 CPU 或 CPU-GPU 混合推理且充分利用所有显存的情况,您可以按照以下说明运行 PowerInfer:

./build/bin/main -m /PATH/TO/MODEL -n $output_token_count -t $thread_num -p $prompt
# 例如:./build/bin/main -m ./ReluFalcon-40B-PowerInfer-GGUF/falcon-40b-relu.q4.powerinfer.gguf -n 128 -t 8 -p "Once upon a time"
# 对于 Windows:.\build\bin\Release\main.exe -m .\ReluFalcon-40B-PowerInfer-GGUF\falcon-40b-relu.q4.powerinfer.gguf -n 128 -t 8 -p "Once upon a time"

如果您希望限制 GPU 的显存使用量:

./build/bin/main -m /PATH/TO/MODEL -n $output_token_count -t $thread_num -p $prompt --vram-budget $vram_gb
# 例如:./build/bin/main -m ./ReluLLaMA-7B-PowerInfer-GGUF/llama-7b-relu.powerinfer.gguf -n 128 -t 8 -p "Once upon a time" --vram-budget 8
# 对于 Windows:.\build\bin\Release\main.exe -m .\ReluLLaMA-7B-PowerInfer-GGUF\llama-7b-relu.powerinfer.gguf -n 128 -t 8 -p "Once upon a time" --vram-budget 8

在 CPU-GPU 混合推理模式下,PowerInfer 会自动将所有稠密激活块卸载到 GPU 上,并在可能的情况下拆分 FFN 并将其卸载到 GPU。

稠密推理模式(有限支持)

如果您想使用 PowerInfer 推理家族中的稠密变体,可以像使用 llama.cpp 一样操作:

./build/bin/main -m /PATH/TO/DENSE/MODEL -n $output_token_count -t $thread_num -p $prompt -ngl $num_gpu_layers
# 例如:./build/bin/main -m ./Bamboo-base-v0.1-gguf/bamboo-7b-v0.1.gguf -n 128 -t 8 -p "Once upon a time" -ngl 12

其他 examples/ 目录下的示例,如 serverbatched_generation,也是如此。请注意,稠密推理模式并非适用于所有模型的“兼容模式”。在此模式下,我们为了匹配我们的模型家族,修改了激活函数(针对 ReluLLaMA 和 Prosparse 模型)。

服务、困惑度评估及其他应用

PowerInfer 支持与 llama.cpp 相同的服务和批量生成指令。通常,您可以使用与 llama.cpp 相同的命令,只是将 -ngl 参数替换为 PowerInfer 的 --vram-budget。请参阅每个 examples/ 目录中的详细说明。例如:

量化

PowerInfer 针对 INT4(Q4_0)模型优化了量化支持。您可以使用以下指令对 PowerInfer GGUF 模型进行量化:

./build/bin/quantize /PATH/TO/MODEL /PATH/TO/OUTPUT/QUANTIZED/MODEL Q4_0
# 例如:./build/bin/quantize ./ReluFalcon-40B-PowerInfer-GGUF/falcon-40b-relu.powerinfer.gguf ./ReluFalcon-40B-PowerInfer-GGUF/falcon-40b-relu.q4.powerinfer.gguf Q4_0
# 对于 Windows:.\build\bin\Release\quantize.exe .\ReluFalcon-40B-PowerInfer-GGUF\falcon-40b-relu.powerinfer.gguf .\ReluFalcon-40B-PowerInfer-GGUF\falcon-40b-relu.q4.powerinfer.gguf Q4_0

然后您就可以使用量化后的模型,按照上述相同的方法进行 PowerInfer 推理。

更多文档

评估

我们在单块 RTX 4090(24G)上,使用一系列 FP16 ReLU 模型,在输入长度为 64 的情况下,对 PowerInfer 与 llama.cpp 进行了对比评估,结果如下所示。PowerInfer 在 Falcon 40B 上实现了最高 11 倍的加速,在 Llama 2 70B 上实现了最高 3 倍的加速。

github-eval-4090 X 轴表示输出长度,Y 轴表示相对于 llama.cpp 的加速倍数。每个柱状图上方的数字表示端到端生成速度(总提示时间 + 生成时间 / 总生成令牌数,单位为 tokens/s)。

我们还在单块 RTX 2080Ti(11G)上,使用 INT4 ReLU 模型,在输入长度为 8 的情况下进行了评估,结果以相同的方式展示。PowerInfer 在 Falcon 40B 上实现了最高 8 倍的加速,在 Llama 2 70B 上实现了最高 3 倍的加速。

github-eval-2080ti-q4

更多评估细节,请参阅我们的论文

常见问题解答

  1. 如果遇到 CUDA_ERROR_OUT_OF_MEMORY 错误怎么办?

    • 您可以尝试使用 --reset-gpu-index 参数来重建该模型的 GPU 索引,以避免任何过时的缓存。
    • 由于我们目前的实现方式,模型卸载可能不如预期准确。您可以尝试使用略低的 --vram-budget 值,或使用 --disable-gpu-index 来禁用 FFN 卸载。
  2. PowerInfer 是否支持 Mistral、原始 Llama、通义千问等模型?

    • 目前我们仅支持具有 ReLU/ReGLU/平方 ReLU 激活函数的模型。因此,我们暂时不支持这些模型。值得一提的是,一篇论文表明,使用 ReLU/ReGLU 激活函数对收敛性和性能的影响可以忽略不计。
  3. 为什么我们当前的 ReLU 模型,尤其是 70B 模型,在性能指标上出现了明显下降?

    • 与 LLM 训练通常需要约 2T 个标记不同,我们的模型仅使用了 5B 个标记进行微调。这种不足的再训练导致模型无法恢复其原有的性能。我们正在积极努力更新到更强大的模型,请继续关注。
  4. 如果……

    • 欢迎提出任何问题!请随时创建一个议题,并附上您的运行环境和运行参数。我们将尽最大努力帮助您。

待办事项

我们将按照以下顺序发布代码和数据,请持续关注!

  • 发布 PowerInfer 核心代码,支持 Llama-2 和 Falcon-40B。
  • 支持 Mistral-7B(Bamboo-7B)
  • 支持 Windows 系统
  • 支持 text-generation-webui
  • 发布困惑度评估代码
  • 支持 Mac 上的 Metal 加速
  • 发布 OPT 模型相关代码
  • 发布预测器训练代码
  • 支持 FFN 网络的在线拆分
  • 支持多 GPU 运行

论文与引用

更多技术细节请参阅我们的论文

如果您认为 PowerInfer 对您的项目或研究有帮助或相关性,请引用我们的论文:

@misc{song2023powerinfer,
      title={PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU},
      author={Yixin Song and Zeyu Mi and Haotong Xie and Haibo Chen},
      year={2023},
      eprint={2312.12456},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}

致谢

我们感谢 ggml 易于修改的算子库以及 llama.cpp 提供的执行运行时。同时,我们也感谢 THUNLP 对基于 ReLU 的稀疏模型的支持。此外,我们还受益于 Deja Vu 的研究成果,这些工作为 PowerInfer 提供了灵感。

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|2天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|3天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

145.9k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.1k|★★☆☆☆|今天
开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|2天前
插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|2天前
语言模型图像Agent